auf unserer Behörde sollen Bilder per OCR ausgelesen werden. Dies wird mit obigen Programm soweit durchgeführt.
Nun gibt es das „Problem“, wenn zb mehrere hundert Bilder durchgeschleift werden sollen, dass nicht erkennbar hervor geht, auf welchen Bildern Text zu finden ist und wo nicht.
Also …
ich nehme zwei Bilder. Auf einem ist ein reines Bild (wald, Wiese, See, gar nichts), auf dem anderen Bild steht Text.
Diese lasse ich auslesen mit dem Programm und er zeigt mir korrekterweise bei „Bild 2“ den Text an und - im Programm - dass „bild 1“ „leer“ ist und keinen Text enthält.
Wenn ich jedoch das Ergebnis in einem Word-Dokument (oder anderes) abspeichere, dann steht einfach nur der Text fortlaufend da.
Ich kann also nicht erkennen:
Bild 1: leer
Bild 2: Text „blabla“
Bild 3: Text „sfdsfd“
Bild 4: leer
oder geht es doch und ich habe die Funktion übersehen? Kenne das Programm noch nicht wirklich.
oder eignet sich dafür eher ein anderes Programm?
Es hilft dir vielleicht bei der Lösung des Problems. Das hast du nämlich hier gar nicht beschrieben. Das steht im anderen Thread. Hier versuchst du nur, eine ungeeignete Arbeitsweise mit ungeeigneten Werkzeugen auf umständlichem Weg doch noch zum Laufen zu bringen.
Falsch, es sind tatsächlich zwei unterschiedliche Probleme die ich hier beschreibe und die ich gern lösen würde. Von daher steht genau hier das, was hier stehen soll. Und zwar dass ich ein „leeres“ Bild habe und ein „mit Worten gefülltes“ Bild und ich eine Aufstellung haben möchte, welches Bild „Leer“ ist und welches nicht.
Es ist exakt so gemeint.
Das ist doch nun die normalste Sache der Welt. Du hast ein Dokument aus Text und Bildern nur in Papierform vorliegen, aus dem Du etwas (sowohl Text als auch Bild) in ein neues Dokument übernehmen möchtest. Und wenn es dabei nicht um öffentliche Publikationen geht, und es schnell gehen soll (Geschwindigkeit vor Schönheit/Perfektion - Erkennbarkeit des Bildinhalts ausreichend), dann ist es sehr praktisch und zeitsparend, wenn man Bilder und Text im Originalzusammenhang in einem Rutsch wieder in die Textverarbeitung (für solche Dinge nimmt man dann kein DTP-Programm) zur weiteren Verarbeitung bekommt, und nicht erst den Text per OCR erfassen, und dann noch mal getrennt die Bilder scannen (auch wenn die dabei vermutlich mit besserer Qualität in den PC kämen) und wieder an die richtige Stelle schieben muss. Da es hier um Ermittlungsakten zu gehen scheint, ist die Qualität von gemeinsam mit Text erfassten Bildern vollkommen ausreichend und schon ein deutlicher Fortschritt gegenüber reinen s/w-Kopien wie man sie früher oft genug hatte.
da ich das nur Teilzeit mache, bin ich noch nicht zum Testen gekommen. Ich werde aber auf alle Fälle deine Idee testen.
Den Diskurs - das kann ich auch tun, wenn ich nicht gerade an „dem“ Rechner sitze, wo der FineReader drauf ist
Gruß
heute habe ich es mal getestet. Deine Idee hat nicht funktioniert, aber … dadurch habe ich selbst noch einmal näher geschaut in den Optionen. Und dort gibt es (zb bei csv, txt) die Möglichkeit, den Seitenumbruch mit einzufügen.
Und damit zeigt er mir tatsächlich „alle“ Seiten an, welche ich dann zb auch mit VBA durchsuchen kann a la „kommen zwei Seitenumbrüche hintereinander, befindet sich auf der Seite kein Text“ und kann das für mich weiter verarbeiten.