OCR mit Abbyy FineReader 11

Tobi_s_b8395e · 15. September 2020 um 11:39

Hallo,

auf unserer Behörde sollen Bilder per OCR ausgelesen werden. Dies wird mit obigen Programm soweit durchgeführt.
Nun gibt es das „Problem“, wenn zb mehrere hundert Bilder durchgeschleift werden sollen, dass nicht erkennbar hervor geht, auf welchen Bildern Text zu finden ist und wo nicht.

Also …
ich nehme zwei Bilder. Auf einem ist ein reines Bild (wald, Wiese, See, gar nichts), auf dem anderen Bild steht Text.
Diese lasse ich auslesen mit dem Programm und er zeigt mir korrekterweise bei „Bild 2“ den Text an und - im Programm - dass „bild 1“ „leer“ ist und keinen Text enthält.
Wenn ich jedoch das Ergebnis in einem Word-Dokument (oder anderes) abspeichere, dann steht einfach nur der Text fortlaufend da.

Ich kann also nicht erkennen:
Bild 1: leer
Bild 2: Text „blabla“
Bild 3: Text „sfdsfd“
Bild 4: leer

oder geht es doch und ich habe die Funktion übersehen? Kenne das Programm noch nicht wirklich.
oder eignet sich dafür eher ein anderes Programm?

Danke für Ideen
Tobi@s

Christa · 15. September 2020 um 15:12

Hallo,

Version 11 ist schon recht alt, aktuell ist Version 15. Bei Version 14 sieht es so aus:

Keine Ahnung, welche Möglichkeiten man bei Version 11 hat(te). Vielleicht schaust du da erstmal nach?

Gruß
Christa

anon43214967 · 16. September 2020 um 07:55

Wozu soll das denn gut sein?

Tobi_s_b8395e · 16. September 2020 um 11:38

Wozu musst du wissen, zu was das gut ist?
Was hilft dir das bei der Beantwortung meiner Frage?

Oder hast eine Idee, die anders und besser funktioniert? Dann gern raus mit der Sprache

Auch ging es ja nur darum, zu zeigen, dass ich schon verschiedenes getestet habe.

anon43214967 · 16. September 2020 um 12:15

Es hilft dir vielleicht bei der Lösung des Problems. Das hast du nämlich hier gar nicht beschrieben. Das steht im anderen Thread. Hier versuchst du nur, eine ungeeignete Arbeitsweise mit ungeeigneten Werkzeugen auf umständlichem Weg doch noch zum Laufen zu bringen.

Tobi_s_b8395e · 16. September 2020 um 12:24

Falsch, es sind tatsächlich zwei unterschiedliche Probleme die ich hier beschreibe und die ich gern lösen würde. Von daher steht genau hier das, was hier stehen soll. Und zwar dass ich ein „leeres“ Bild habe und ein „mit Worten gefülltes“ Bild und ich eine Aufstellung haben möchte, welches Bild „Leer“ ist und welches nicht.
Es ist exakt so gemeint.

Wiz · 16. September 2020 um 12:43

Das ist doch nun die normalste Sache der Welt. Du hast ein Dokument aus Text und Bildern nur in Papierform vorliegen, aus dem Du etwas (sowohl Text als auch Bild) in ein neues Dokument übernehmen möchtest. Und wenn es dabei nicht um öffentliche Publikationen geht, und es schnell gehen soll (Geschwindigkeit vor Schönheit/Perfektion - Erkennbarkeit des Bildinhalts ausreichend), dann ist es sehr praktisch und zeitsparend, wenn man Bilder und Text im Originalzusammenhang in einem Rutsch wieder in die Textverarbeitung (für solche Dinge nimmt man dann kein DTP-Programm) zur weiteren Verarbeitung bekommt, und nicht erst den Text per OCR erfassen, und dann noch mal getrennt die Bilder scannen (auch wenn die dabei vermutlich mit besserer Qualität in den PC kämen) und wieder an die richtige Stelle schieben muss. Da es hier um Ermittlungsakten zu gehen scheint, ist die Qualität von gemeinsam mit Text erfassten Bildern vollkommen ausreichend und schon ein deutlicher Fortschritt gegenüber reinen s/w-Kopien wie man sie früher oft genug hatte.

Christa · 16. September 2020 um 12:46

Ich habe zwar etwas geschrieben, was helfen könnte, aber du streitest lieber mit loderunner. Nun denn …

Tobi_s_b8395e · 16. September 2020 um 13:02

Hallo Christa,

da ich das nur Teilzeit mache, bin ich noch nicht zum Testen gekommen. Ich werde aber auf alle Fälle deine Idee testen.
Den Diskurs - das kann ich auch tun, wenn ich nicht gerade an „dem“ Rechner sitze, wo der FineReader drauf ist
Gruß

Tobi_s_b8395e · 22. September 2020 um 12:53

Hallo Christa,

heute habe ich es mal getestet. Deine Idee hat nicht funktioniert, aber … dadurch habe ich selbst noch einmal näher geschaut in den Optionen. Und dort gibt es (zb bei csv, txt) die Möglichkeit, den Seitenumbruch mit einzufügen.
Und damit zeigt er mir tatsächlich „alle“ Seiten an, welche ich dann zb auch mit VBA durchsuchen kann a la „kommen zwei Seitenumbrüche hintereinander, befindet sich auf der Seite kein Text“ und kann das für mich weiter verarbeiten.

Von daher dennoch einen herzlichen Danke
Tobi@s

system · 22. Oktober 2020 um 22:54

Dieses Thema wurde automatisch 30 Tage nach der letzten Antwort geschlossen. Es sind keine neuen Nachrichten mehr erlaubt.