Guten Tag,
ich suche nach einem OCR Programm, das über eine gute Stapelverarbeitung verfügt. Hier kurz eine Beschreibung an die Anforderungen, die ich habe.
Zu verarbeitendes Datenmaterial:
Etwa 500 Scans, JPEG 100dpi (notfalls auch 300dpi) aus 13 Büchern, Qualität: normaler Buchdruck auf unbeschädigtem Papier.
Was soll das Programm im Optimalfall leisten:
- Ich möchte dem Programm den Auftrag geben beispielsweise 60 JPEGS eines Buches nacheinander durch die OCR laufen zu lassen und - falls möglich - daraus ein(!) durchsuchbares PDF-Dokument zu machen.
- Analog benötige ich den gesamten erzeugten Text als ein Textdokument ohne Bilder (kann ein Fließtext ohne jegliche Formatierung sein).
Mindestanforderung:
Automatische Generierung eines Fließtextes (siehe 2. oben) aus einer zuvor definierten Dokumentanzahl. Falls nur eine Speicherung in unterschiedlichen Dokumenten möglich ist…wäre schade, aber zur Not würde es das auch in Ordnung.
Das Wichtigste ist für mich ist, dass ich nicht ein Dokument nach dem anderen anklicken muss, weil ich dafür keine Zeit habe. Das Programm soll also in erster Linie die sonst notwendige Klickarbeit übernehmen.
Das Ergebnis muss natürlich verwendbar sein, daher müsste ich wissen, wie gut das entsprechende OCR Programm ist. Es ist Jahre her, dass ich damit gearbeitet habe und da waren immer zahlreiche Fehler im Text. Mit einem solchen Ergebnis könnte ich meine Auswertung vergessen und müsste zur Not alles manuell machen.
Ich habe mir Readiris angeschaut, konnte aber nicht in Erfahrung bringen, ob es über eine Stapelverarbeitung verfügt, bzw. ob die Qualität annehmbar ist. Hat jemand von euch eine Empfehlung?
Und eine andere Frage, das aber nur am Rande, falls jemand eine Idee hat:
Mit welchem Textauswertungsprogramm sollte ich am besten arbeiten? Mich interessiert die Häufigkeit bestimmter Lemmata. Da gibt es relativ einfach gestrickte Programme, falls ihr da ein gutes kennt, schreibt es doch bitte in den Thread.
Liebe Grüße