OCR Texterkennung bei Fraktur

Hallo,

Ich bekomme gerade einige Seiten Text, die in Fraktur verfasst sind.

Ich kann es problemlos lesen, aber der Absender leider nicht (und meine Idee, dass doch einfach mal zu probieren, war leider nicht erfolgreich).

Damit mir massive Tipparbeit über hunderte Seiten erspart bleibt, suche ich ein OCR-Programm, dass Fraktur ‚übersetzen‘ kann.
Ausgangsdateien sind *.png

Kostenlos bitte, online ist auch möglich. Es handelt sich um öffentlich zugängliche Daten und ist nur ein Gefallen.

Hat irgendwer einen Hinweis?

Ein erster Test mit free online OCR war leider alles andere als erfolgreich. Da kann ich dann auch gleich tippen.

Danke!

Hi,

entweder reicht die Testversion dafür, oder du sagst mir, wo ich die Date(i)en finde oder stellst sie irgendwo zum Download ein, damit ich das mit meiner Vollversion versuche.

Gruß
Christa

1 Like

Fraktur ist nach wie vor für OCR eine echte Herausforderung. Insbesondere dann, wenn auch noch auf eher schlechtem (zudem inzwischen massiv gealtertem) Papier und nicht unbedingt perfekt gedruckt wurde. Bei Fraktur laufen dann gerne die recht feinen Details zu, was dann die Erkennung massiv erschwert. Insoweit bin ich gespannt, was dabei herauskommt. Allzu große Hoffnungen auf ein gutes Ergebnis hätte ich nicht. Es ist zwar schon eine Weile her, dass ich das mal versucht habe, aber damals war das mit Abbyy Finereader wirklich eine Katastrophe, obwohl das Programm ansonsten schon sehr gut war.

1 Like

Hast du es schon mit dem (kostenlosen) Tesseract versucht? Soll angeblich auch Fraktur können.

1 Like

Hi,
wenn OCR nicht geht, kannst du vielleicht den Text in ein Diktierprogram einlesen. Siri & Co sind mittlerweile echt gut und geht bei mir recht flott. Ich hoffe, dass du schneller sprichst als tippst :wink:
Viele Grüße
Karin

1 Like

…erzählen alles dem Server.
Nur mal so als Anmerkung.

Aber es sind

:smiley:

Hier schon. Andere Daten aber nicht. Ich habe halt die Reklame für den Datenklau nicht unkommentiert stehen lassen wollen.

Nun ja, ich bin zutiefst enttäuscht. Und ich kann nicht mal zu Ende ausführen, warum, weil ich, keine Ahnung aus welchem Grund, gerade keine Links einfügen kann. Ich wollte den Link zu dem Text, den ich habe erkennen lassen wollen, reinkopieren, aber gerade funktioniert „paste“ in diesem Fenster gar nicht. :open_mouth:

Wenigstens Bilder kann ich einfügen! Naja, man kann erkennen, die Vorlage an sich von einem Blinden mit Krückstock :smiley: hätte erkannt werden können, aber die Software hat nur Anfang und Ende erkannt???

1 Like

Und das ist noch ein Text, der offensichtlich direkt mit dem Computer in eine Datei geschrieben, und nicht mit uralter Drucktechnik auf ein inzwischen hundert Jahre altes, haderhaltiges (und somit auch besonders saugfähiges und damit die Details der Lettern verschmierendes) Papier gebracht wurde und mit allen möglichen Spuren zwischenzeitlicher Nutzung gesegnet ist. Und das dürfte bei Dokumenten in Fraktur eher die Regel als die Ausnahme sein. Dazu dann noch potentielle Scanfehler und Verzerrungen, wenn man Bücher scannt, …

Ich hatte es damals mit ein paar alten Buchseiten und einem wirklich ordentlichen Scanner versucht. Ich habe dann noch überlegt auf Ebene der Bearbeitung des Scans als Grafik ein automatisierbares Rezept zu basteln, das zumindest den gröbsten Mist vorab besser aus der Grafik fischt. Aber selbst zunächst zum Testen massiv individuell bearbeitete Absätze waren hinterher noch so grauenhaft in der OCR, dass ich die ganze Idee dann schnell wieder aufgegeben habe. Da bekam man mit viel Glück einzelne nicht unbedingt 100% korrekt geschriebene, aber zumindest erkennbare Wörter zusammen. Das war aber eher die Trefferquote eines Glücksspiels. Zu gebrauchen war das alles nicht ansatzweise.

Schade, dass sich seit dem nicht wirklich viel diesbezüglich entwickelt hat.

1 Like

Ja eben, darum bin ich auch so enttäuscht! Vielleicht habe ich auch etwas falsch gemacht, aber ich wüsste nicht auf Anhieb, was. Was mich wundert ist, dass Anfang und Ende einwandfrei erkannt wurden, der Mitteilteil aber absolut ignoriert wurde. Das kenne ich von der OCR mit normalen Texten gar nicht.

1 Like

Hier meine Testseite:

Tesseract versuche ich gerade zu installieren, stelle mich dabei aber gerade scheinbar unsagbar dumm an :rofl:

Gehe jetzt erst mal eine Runde aufs Rad, dann wird es sicherlich klarer.

(Und ich bin immer noch der Meinung, dass das einfach lesbar ist)

Also zumindest hast Du da schon mal besseres Papier als ich damals hatte. Obwohl auch in deinem Fall Ungleichmäßigkeiten im Druck in Verbindung mit dem Papier auftauchen. Z.B. die unterste Zeile in der linken Spalte der rechten Seite. Insbesondere das „ihr“ ist ziemlich ausgeblutet und erscheint deutlich fetter als der restliche Text.

Ich tippe darauf, dass die ganzen Häkchen und Schnörkel der Fraktur vermutlich einerseits zu einer gegenüber moderneren Schriften deutlich erhöhten Zahl von Merkmalen führen, die dann aber andererseits (gerade wenn Papier und Druck nicht 1A sind) nicht in der Menge hinreichend im Einzelfall nachgewiesen werden können. D.h. da hast Du dann ggf. doppelt so viele Merkmale, von denen Du aber immer nur rund die Hälfte im einzelnen Buchstaben findest. Und dann hast Du da plötzlich 5 Buchstaben, die darauf dann passen würden. Und dann kannst Du nur noch Lotto spielen.

Aber ich drücke Dir auf jeden Fall die Daumen! Vielleicht hast Du ja mehr Glück als ich damals.

Ich kriege gerade wieder Mut. :smiley:
Mein PC hat irgendwie anscheinend Probleme mit der Zwischenablage, die ich aktuell nur hier und da benutzen kann, aber so grundsätzlich wurde deutlich mehr erkannt als bei meinem ersten Versuch. Abbyy kennzeichnet mit Türkis die Stellen, wo es „unsicher ist“, etwas richtig erkannt zu haben (was aber nicht heißt, dass es woanders nicht etwas falsch erkannt hat. In einer früheren Version konnte ich das auch mit dieser farbigen Markierung speichern, aber gerade kriege ich das nicht hin. Ich denke, das wäre aber hilfreicher für dich zum Nachbearbeiten.
Es hat sogar die Silbentrennung erkannt und im erkannten Text das Wort als Ganzes geschrieben. :open_mouth: Aber wie gesagt, einiges ist natürlich nicht richtig erkannt worden. Man kann, habe ich gerade bei den Einstellungen gesehen, auch auswählen, dass Zeilenumbrüche und Trennstriche beibehalten werden sollen.

Hier ist der erkannte Text, noch gänzlich unbearbeitet von mir. Wenn’s nicht funktioniert, dann habe ich nicht alle Buchstsaben richtig gedeutet, und ich versuche es nach dem Rechnerneustart wieder, weil, wie gesagt, die Zwischenablage einen Knall hat.

Danke für deine Mühe, aber ich werde aufgeben. Tressaract wirft ziemlich gruseliges aus:


700 Seiten (haha, ein paar) die ich ‚mal eben‘ übersetzen soll…

Da dürfte es schneller sein, Fraktur lesen zu lernen, so exotisch ist die jetzt ja nicht.

Ich nenne das auch nicht mehr Gefallen, irgendwo ist gut… grrr

Deutsch kann aber die Person schon, oder?

Ich möchte mich nicht aufdrängen :smiley:, aber wenn die Person die 700 Seiten in eine PDF-Datei packt, wäre das für mich eine Sache von 5-10 Minuten, PDF-Datei herunterladen, Text einlesen und erkennen lassen, an Word schicken und wieder hochladen. Dann kann die Person den Text korrekturlesen. Es wäre immer noch weniger, als wenn sie alles mühsam lesen müsste. Und ich weiß nicht, ob du dir meine Datei oben angeschaut hast, aber die sah deutlich besser aus als dein Tressaract-Zeug. :stuck_out_tongue:

1 Like

Habe ich und war positiv überrascht! Das war ja wirklich lesbar :smile:

Es sind 700 separat gescannte Doppel-Seiten. Und die Korrektur scheitert an vollständig fehlenden Fraktur-Kenntnissen (warum, ist mir schleierhaft, so großartig anders ist es ja wirklich nicht). Und ich bin auch nicht sonderlich grell darauf, ein Gesangsbuch zu lesen :wink:

Danke für dein Angebot, aber ich habe das schon abgeblockt - und den Hinweis zu abbyy gegeben.

Ja, deswegen habe ich die große Verweigerung bei meinem ersten Versuch gar nicht kapiert!

Deswegen sagte ich ja: die Person will etwas, also soll sie auch etwas dafür tun. Wenn sie aus den gescannten Seiten eine PDF macht, gerne. Wenn nicht, muss sie ihr Glück selbst mit Abbyy versuchen. :slight_smile:

Nö, deswegen müsste ja auch die Person selbst (und nicht du oder ich) den erkannten Text korrigieren. :wink: Als Deutschsprechender erkennt man doch Vieles aus dem Kontext. Und wegen der wenigen nicht erkannten Fälle, kann die Person dich immer noch fragen.

Korrektur wäre aber wirklich mühsam. :wink:

Das Programm erkennt nur das Schluß-s als „s“.
Das kleingeschriebene „lange s“ (Wortanfang, Silbenanfang, Wortmitte) dagegen nicht.