Texterkennung (OCR) bei vielen PDF-Dateien

Schrumpfel · 19. Juli 2009 um 20:32

Hallo,

ich habe hier mehrere Ordner mit PDF-Dateien, in denen sich diverse gescannte Artikel und Bücher befinden. Wie kann ich diese Dateien, am besten gleich ordnerweise, durch eine Texterkennung/OCR laufen lassen, damit sie hinterher durchsuchbar sind. Ich möchte ungern jede Datei einzeln öffnen und die Adobe Acrobat-OCR von Hand anwenden.

Die Erkennungsrate muss nicht superoptimal sein, mir liegt mehr an einer simplen und effektiven Lösung. Es ist daneben wichtig, dass weder Layout noch Schriftbild verändert werden.

Herzlichen Dank für jeden Hinweis!

Schrumpfel

Anonym_028940377b35 · 20. Juli 2009 um 10:50

Hallo

Schau Dir ‚ABBYY Finereader‘ mal näher an. Ob es z.B. eine Stapelverarbeitung (Batchverarbeitung) hat.

http://finereader.abbyy.de/

CU
Peter

RakonDark_2d341e · 20. Juli 2009 um 15:07

nur mal gefrage, PDF dateien sind doch keine bilder und haben den text so drinne . Mir rätselhaft warum man damit dann OCR nehmen muss wo der text doch vorhanden ist .
Eher würd ich ein PDF to WORD oder PAGE programm suchen.
Aber wer weiss wa du für ein standart PDF du hast Vieleicht ja so fake dinger wo nur bilders von anderen text inhalten drinne ist.

Felix_W_9c131d · 20. Juli 2009 um 16:39

Hallo,

nur mal gefrage, PDF dateien sind doch keine bilder und haben
den text so drinne .

Nur, wenn sie aus einer Textverarbeitung stammen. Wenn es gescannte Bücher sind, wie hier, dann sind es halt nur Bilder.

Cheers, Felix

mafeu · 21. Juli 2009 um 18:27

Hallo,

Ich möchte ungern jede Datei einzeln öffnen
und die Adobe Acrobat-OCR von Hand anwenden.

Musst du auch nicht. Acrobat hat eine prima Stapelverarbeitung:

Erweitert -> Dokumentverarbeitung -> Stapelverarbeitung
Hier gehst du auf „Neue Sequenz“, benennst sie etwa „OCR“ und fügst den Befehl „Text mit OCR erkennen“ hinzu (hinter dem + gibt’s noch weitere Optionen). Der Rest erklärt sich selbst.

Die Erkennungsrate muss nicht superoptimal sein,

Acrobat ist da schon sehr gut.

Es ist daneben wichtig, dass weder
Layout noch Schriftbild verändert werden.

Das ist eben mit Acrobat gewährleistet.
Viel Erfolg.

Gruß
Markus

Schrumpfel · 21. Juli 2009 um 20:04

jap, super, genau das war es, was ich gesucht habe – simple lösung und (für mich) optimales ergebnis. hatte zwar schon angefangen, mir eine stapelverarbeitung in finereader aufzubauen, so ist es aber viel besser. vielen dank, mafeu! und dank auch an die anderen vorschläge.

schönen abend noch,
Schrumpfel