OCR-Software für Kurrent

Ich möchte einen eingescannten Text, der in Kurrent geschrieben ist (für alle, die’s nicht wissen - eine alte Schriftart), mittels OCR-Software in normalen Text umwandeln (damit ich ihn bequemer lesen kann).

Gibt es da Möglichkeiten?

Kann man sich so etwas auch „selbst bauen“ - z.B. dadurch, dass sich ein bestimmtes Textmuster in einen vorgegebenen Text umwandelt (ähnlich wie die Ersetzen-Funktion in Winword)?

Konkret möchte ich aus uralten Geburten- und Heiratsbüchern jene Stellen herausfiltern, die den Namen meiner Vorfahren beinhalten (Stammbaum).

Falls ich in diesem Board falsch liege - wo kann ich Informationen finden?

Vielen Dank
Franz

Hallo Franz,

ich bin kein Experte, aber ich weiss aus früheren Diskussionen hier - und hab’s auch selbst probiert - dass es extrem schwierig ist, die alten Schriftarten zuverlässig zu erkennen. Das Druckbild ist sehr uneinheitlich, und die Buchstaben ziemlich filigran. Bei mir hat’s nie funktioniert.

Sorry,

Felix

Moin

Ich möchte einen eingescannten Text, der in Kurrent
geschrieben ist (für alle, die’s nicht wissen - eine alte
Schriftart), mittels OCR-Software in normalen Text umwandeln
(damit ich ihn bequemer lesen kann).

wenns Handschriftlich ist oder aussieht: vergiss es.

Gibt es da Möglichkeiten?

Einige „alte“ OCR-Programme benutzen eine Windows-Schriftendatei als Vorlage. Wenn es Kurrent als Schrift gibt kann’s du ja mal versuchen.

Kann man sich so etwas auch „selbst bauen“ - z.B. dadurch,
dass sich ein bestimmtes Textmuster in einen vorgegebenen Text
umwandelt (ähnlich wie die Ersetzen-Funktion in Winword)?

Das ist eine Wissenschaft für sich, wenn du das machen willst nimm dir 2-3 Monate Zeit und fang beim Thema „Neuronale Netze“ an.

Konkret möchte ich aus uralten Geburten- und Heiratsbüchern
jene Stellen herausfiltern, die den Namen meiner Vorfahren
beinhalten (Stammbaum).

Das erste Problem dürfte die Farbe des Papiers im Kontrast zur Farbe der Buchstaben sein. Das nächste wären dann die nicht abs. saubere Textausrichtung… ich würds eher abtippen.

cu