Adobe reader schrift kopieren erkennen und umwandeln

Kann man beliebige Textbereiche aus PDF-Dateien kopieren, und anschliessend in einem Textprogramm
in bestimmte Schriften umwandeln ?
(Beispiel: Sie sehen ein 200 Jahre altes Buch, das aus einem Archiv-Ort direkt per PDF-File ins Internet gestellt wurde; und wollen nun den kaum deutlichen aber immer noch gut erkennbaren Schriftzug aller Seiten ZUM UMWANDELN der Schrift in ein Wordpad-Dokument kopieren)
Meine Frage lautet nun: „Wie ist konkret vorzugehen um ein solches Vorhaben zu realisieren ?“

Hallo,

also dafür gibt es mehrere varianten…
Aber erst mal vorweg es ist vielmals nicht gestattet Inhalte aus PDF Dateien oder ähnlichem zu kopieren und diese dann weiter zu veröffentlich, aber ich habs in dem Fall ja jetzt gesagt… Dazu einfach mal googlen…

Es gibt diverse Software (in dem Fall ne Demo, Vollversion kostenpflichtig) mit der man Text aus ner PDF datei kopieren kann und z.B. in Word einfügen kann.

http://www.netzwelt.de/download/4022-pdf-2-txt.html

oder wenn das als Grafik reichen würde via Screenshots und diese dann in Word einfügen… (Screenshot unter Win vista; einfach in der Suchfunktion snipping eingeben Programm starten und mit dem roten Rahmen den „aufzunehmenden“ Bereich wählen, anderes OS gibt viel Freeware einfach googlen)

Hoffe konnte weiterhelfen

Grüße und schönen Abend

Diese Frage kann ich leider nicht beantworten.

Hi,

vielleicht hilft dir das weiter:

http://www.softonic.de/s/pdf-zu-doc-konverter

Gruß

Ich würde sagen, Du musst folgendermaßen vorgehen: PDF Datei öffnen (mit Adobe Reader). Danach auf „bearbeiten“ und „alles auswählen“; dann auf „bearbeiten“ und „kopieren“ (oder alternativ: Strg C). Dann das Textprogramm öffnen und einfach auf „bearbeiten“ und „einfügen“ gehen (oder alternativ im Textprogramm auf Strg V). Wenn Du mehrere Seiten kopieren willst, mach zuerst „Anzeige“ und „Automatischer Bildlauf“, danach die oben erwähnten Schritte („bearbeiten“ und „alles kopieren“ etc.). Ich hoffe, ich konnte helfen!!!

Nicht ganz so einfach wie bei von Computer erstellten PDF Dateien. Die kann man auswählen kopieren einfügen.

Nun, die PDF Datei von Dir besteht aus kompletter Graphik - sprich ein Bild. Damit der Computer weis was das für Buchstaben/Test ist müsste es erst über eine OCR Software laufen.
Ich sag mal, dass das Buch in einer Fraktur (gebrochene Schrift) gesetzt ist - ob das von einer OCR Software erkannt wird kann ich Dir nicht sagen. Müsste man aber raus finden können. Einfach den Hersteller anhauen oder eventuell mit einer Test-Version des Programmen versuchen.

Grüße!

Hallo Sonnenmaus!

1.) Aus PDF kannst du so ziemlich mit jedem Programm, was PDF darstellen kann,
Text kopieren und woanders wieder einsetzen.
Dazu markierst du einfach den Text und kopierst ihn.

2.) Handelt es sich um eingescannte Dateien, dann sind zwei Möglichkeiten
denkbar.
2.a) entweder wurde beim PDF erfassen mit OCR gleich eine automatische
Texterkennung gemacht.
Dann liegt unsichtbar hinter dem Bild der Text. Weiter siehe 1.)
2.b) oder es wurde nur als Bild gescannt. Dann muß man selbst eine OCR-
Software bemühen.
Wie groß der Aufwand dafür ist, hängt von der Bildqualität ab. Im genannten
Beispiel würde ich das PDF
Seite für Seite in Photoshop öffnen. Dort die Gradationskurve so aufsteilen, daß
der Text schwarz und das Papier weiß
sind und anschließend das Bild durch eine OCR-Software jagen.
Bei einer handgeschriebenen Bibel mit vielen Liagturen wird allerdings jede
Methode versagen.
Da ist es (auch durch die hinterher immer notwendige Korrektur der Fehler, die
die OCR-Software gemacht hat)
eher ratsam, den Text abzuschreiben oder jemanden, der mit 10 Fingern tippen
kann, damit zu beauftragen.

Hofft geholfen zu haben:
jacun

_______________________________________________________

Hallo Sonnenmaus

entschuldige, habe gerade eine Abhandlung an Dich geschrieben. Als ich den Sendeknopf betätigen wollte, ist die Verbindung zu dem Portal zusammengebrochen

Also nochmal:
Beachten sind mehrere Dinge:
Arbeite an so einem Projekt nicht mit Wordpad - es ist für die Komplexität der Anfrage denkbar ungeeignet.
Arbeite mit WORD oder noch besser mit einem Schriftsatz-Programm wie Corel Draw falls vorhanden oder Cumulus oder Ragtime. Die sind speziell für Schriftenauszeichnung, Mikrotypographie etc. ausgerichtet.

Leider geht der Weg, wie Du ihn gezeichnet hast, nicht, da Schriftdefinitionen nicht mit einem Kopiervorgang eines Textes gekoppelt werden.
Das heißt also - die Schrift muss vorher bestimmt werden (zumindest ähnlich), der Text herauskopiert und in WORD einkopiert werden. Danach die Formatierung mit dem Schriftschnitt durchführen.

Jetzt könnte ich mir vorstellen, dass es sich um eine Schrift handelt, die so ohne weiteres nicht in den Fonts zu finden ist. Wenn die Sache wichtig genug ist und auch was kosten darf, solltest Du bei einem Unternehmen wie FSI Berlin (handelt mit Schriftschnitten) nachfragen. Dazu kann man auch Bilder der Schrift einschicken.

Zweite Möglichkeit: wenn die Sache wichtig genug ist und Du auch die Zeit hast - mit dem prof. Programm *manutius*, das kostenlos im Netz zu haben ist, kann man Schriften konstruieren und als Font ablegen. Das hab ich mehrfach gemacht; ist ein ziemlicher Aufwand für einen Ungeübten, aber machbar. Nach einer gewissen Einarbeitungszeit ist das Ergebnis sicher nach Deinem Geschmack.

Falls Du Fragen dazu hast oder allgemein mehr darüber wissen willst - ich bin gelernter Schriftsetzer - mail mich an (homepage www.roland-ratz.de)

Ich hoffe, dass ich Dir etwas helfen konnte - melde Dich bitte unbedingt, es interessiert mich, wie das Problem letztendlich gelöst wurde.

Gruß… Ro

Kann leider nicht helfen. 200 jährige Texte kann ich lesen aber nicht umwandeln.

[Bei dieser Antwort wurde das Vollzitat nachträglich automatisiert entfernt]

Aw: adobe reader schrift kopieren erkennen und umwandeln
Hallo Sonnenmaus!

Schicke mir die URL oder eine Beispielseite der PDF-Datei.

In PDF-Dateien kann der Text als echter Text oder als Pixelbild sein.

  1. Echter Text. Die PDF-Datei wurde von einem Schreib- oder Satzprogramm erzeugt. Der Text kann meistens sogar im Acrobat Reader markiert und in die Zwischenablage kopiert werden. Der Acrobat Reader kann ungeschützte PDF-Dateien als Text speichern. Es gibt kostenlose Programme, die PDF in Text wandeln und sogar Paßwörter umgehen. Der Text muß anschließend von unerwünschten Umbrüchen gesäubert werden.
  2. Text als Pixelbilder. (Sonderfall LaTeX: meistens ist jeder Buchstabe ein kleines Pixelbild.) Das ist der Fall bei gescannten Seiten. Die Datei oder das Programm weiß nicht, daß in dem Pixelbild Buchstaben sind, so daß auch kein Text markierbar ist.

Der Acrobat (nicht Acrobat Reader) enthält eine Texterkennung (falls installiert). Diese Texterkennung funktioniert nicht schlechter oder besser als andere Texterkennungen. Man kann auch mit dem Acrobat Reader in einer ungeschützten PDF-Datei die Pixelbilder auswählen und in die Zwischenablage kopieren, dann als neues Bild in ein Pixelbildbearbeitungsprogramm einfügen und speichern mit dem Ziel, das Bild von einer anderen Texterkennung »lesen« zu lassen. Wenn die Schrift eine gebrochene (z. B. eine Fraktur) ist, dann versagt die Texterkennung. Dann hilft nur noch das Abschreiben. Oftmals ist das Abschreiben schneller als das Berichtigen schlecht erkannter Texte mit Dutzenden von Fehlern je Seite. Im gewerblichen Bereich ist es sowieso preiswerter, einen Text irgendeiner Schreibkraft zu geben, als schlecht erkannte Texte zu berichtigen.
Bei alten Büchern ist natürlich davon auszugehen, daß die Wiedergabe in der PDF-Datei ein Pixelbild ist, denn sonst wäre das Buch bereits abgetippt und am Rechner neu gesetzt worden.
Das Problem liegt nicht am Dateiformat PDF, sondern in der Natur eines Pixelbildes und der automatischen Texterkennung.

Mit freundlichem Gruß!

Christian Richter

Nein, ich denke nicht, dass das möglich ist, weil das dann bei der pdf ja kein Text ist, der von Hand eingegeben wurde, sondern sicherlich eingescannt wurde. Wenn es sich um eine „normale“ pdf handelt, wo also jemand zuvor den Text eingegeben hat, dann ist es insoweit möglich, aber auch nur, wenn die pdf nicht auf irgendeine Weise geschützt ist (z.B. eben Kopierschutz). Ich hoffe, ich konnte etwas weiter helfen… :-/

Das hängt ganz stark davon ab, ob es sich bei dem PDF um eine reine Grafik-Datei, oder einen mit dem Texterkennungstool von Adobe Acrobat behandelten scan handelt. Das aber halte ich für unwahrscheinlich - auch, dass das Texterkennungsprogramm in der Lage ist, die Schrift zu erkennen.
Wenn Sie möchten, mailen Sie mir doch das Dokument zu unter [email protected]. Dann schaue ich mal, was sich machen lässt.