Texterkennung mit Bildern

Martin_H_68cd86 · 9. Mai 2003 um 23:01

Hallo Experten,

Ich bin auf der Suche nach einem Texterkennungsprogramm (OCR), was im Text eingebettete Bilder als diese Erkennt und unbearbeitet uebernimmt.

Also kein Programm, bei dem solche Objekte als „kein-Text“ abgestempelt und entsprechend weg gelassen werden.

Zum anderen sollte das Programm sich nicht von einem dunklen Streifen (durch das Scannen bedingt) beeinflussen lassen (das diese dann nicht als „Bild“ erkannt werden bedarf allerdings wohl einem intelligenten Programm).

Zum Schluss moechte ich dieses Programm dann gerne auf eine PDF-Datei anwenden, die aus einzelnen eingescannten Seiten (Bitmaps) besteht.
Vielleicht gibt es da eine direkte Moeglichkeit, oder ein kleines Tool, das mir zuerst die Seiten exportiert (moeglichst automatisch, da Handarbeit bei 400 Seiten nicht in Frage kommt !).

Wenn ich jetzt noch sagen wuerde, das ich auf der Suche nach Freeware bin, wuerde ich keine Antwort mehr bekommen, also sage ich es besser nicht

In der Hoffnung mit Eurer Hilfe meine Probleme zu loesen

Martin

Maren · 13. Mai 2003 um 20:43

Hallo Martin,
das beste Pogramm für deine Ansprüche ist wohl Omnipage. Ist gar nicht so furchtbar teuer. Es gibt inzwischen wohl Version 12 und die Version 10 gab es letztens „für nen Appel und ein Ei“
Gruß Maren

DannyFox64 · 13. Mai 2003 um 22:20

Hallo Martin!

Ich bin auf der Suche nach einem Texterkennungsprogramm (OCR),
was im Text eingebettete Bilder als diese Erkennt und
unbearbeitet uebernimmt.

Die Kritiken zu Fine Reader lesen sich immer recht gut. (http://www.google.de/search?q=fine+reader&ie=ISO-885… ) – Das Programm ist mittlerweile in einer Version 8, 9 oder 10 erschienen; teilweise ist es auf Heft-CDs als „ältere Vollversion”, zum Beispiel bei PC Prof. (http://www.pcpro.de); es übernimmt Bilder, die in einem Rahmen weitgehend problemlos von Text umflossen werden…

Zum Schluss moechte ich dieses Programm dann gerne auf eine
PDF-Datei anwenden, die aus einzelnen eingescannten Seiten
(Bitmaps) besteht.
Vielleicht gibt es da eine direkte Moeglichkeit, oder ein
kleines Tool, das mir zuerst die Seiten exportiert (moeglichst
automatisch, da Handarbeit bei 400 Seiten nicht in Frage kommt!).

Hmm. – Mal ganz ehrlich: Die Erfahrung sag mir, dass Import-/Export-Funktionen oft unzureichend sind, weil mit Fehlern belastet oder Qualitätsverlust inakzeptabel ist. So überlege ich mir: das Scan-Programm selbst sollte die Funktion übernehmen und die Datei als .pdf ausgeben…

Oder wie hast Du das jetzt gemeint?

…dieses Programm … auf eine PDF-Datei anwenden,
die aus einzelnen eingescannten Seiten (Bitmaps) besteht.
…das mir zuerst die Seiten exportiert…

Frage: PDF-Datei (aus 400 Seiten Bitmaps) einlesen? Und „Text“ von „nur-Bild-Bereichen“ separieren? Und anschliessend wieder in PDF speichern als „Bild-ist-Bild und Text-ist-Text“?

Also, wenn es um reine Konverter geht, dann findest Du bei http://www.file-ext.com/ etwas, das helfen könnte; zum Beispiel: PDF2HTML (Download: http://www.file-ext.com/files/pdf2html.zip ) erzeugt recht ordentliche Seiten… die sich dann auch mit M$-Word einlesen lassen.

Wenn ich jetzt noch sagen wuerde, das ich auf der Suche nach
Freeware bin, wuerde ich keine Antwort mehr bekommen, also
sage ich es besser nicht

So was aber auch! Jetzt hast Du’s aber schon gesagt!
Dabei bin auch ich Freeware-Fan

In der Hoffnung mit Eurer Hilfe meine Probleme zu loesen

Martin

Bei Fragen bitte Posting (oder Mail),

CU DannyFox64