Texterkennung und Fonts

Anonym_7bd09c35c37f · 13. Oktober 2003 um 18:50

Hallo,
im OmniPage Pro 12 gibt es eine Liste mit den auf dem System installierten Fonts. Leider enthält die Liste nur etwa 10% der vorhandenen Fonts. Hat jemand eine Idee, wie man weitere Fonts hinzufügen kann?
Beispiel: Bis in die 50er Jahre wurden Bücher in Fraktura gedruckt. Leider will OmniPage davon nichts wissen.
Gruß Fritz

Fritze · 13. Oktober 2003 um 21:52

Hallo,
im OmniPage Pro 12 gibt es eine Liste mit den auf dem System
installierten Fonts. Leider enthält die Liste nur etwa 10% der
vorhandenen Fonts. Hat jemand eine Idee, wie man weitere Fonts
hinzufügen kann?

Hallo,

verstehe ich das richtig? Du hast auf Deinem Rechner säckeweise Fonts installiert und von diesen Fonts tauchen nur 10% in der Liste auf, oder meinst Du, dass in der Liste nur ca. 10% der weltweit verfügbaren Zeichensätze enthalten sind?

Wenn Du mehr Schriften haben willst, als mitgeliefert werden, dann wirst Du diese wohl kaufen müssen.

Gruß

Fritze

Anonym_7bd09c35c37f · 14. Oktober 2003 um 10:03

Hallo Fritze,
bei der Installation von Win2k werden ungefähr 200 Fonts dazugepackt, möglicherweise auch bei der Installation von Word. Nun hätte ich gern im Texterkennungsprogramm die Fraktura-Schrift (bis in die 40er Jahre die allgemeine Druckschrift in Büchern), die sich unter den Fonts auf dem PC befindet, aber bei den von OmniPage angegebenen verfügbaren ‚Schriften auf dem System‘ ist sie nicht zu finden und deshalb nicht einsetzbar.
Gruß
Fritz

[Bei dieser Antwort wurde das Vollzitat nachträglich automatisiert entfernt]

Wiz · 14. Oktober 2003 um 12:01

Hallo Fritze,
bei der Installation von Win2k werden ungefähr 200 Fonts
dazugepackt, möglicherweise auch bei der Installation von
Word. Nun hätte ich gern im Texterkennungsprogramm die
Fraktura-Schrift (bis in die 40er Jahre die allgemeine
Druckschrift in Büchern), die sich unter den Fonts auf dem PC
befindet, aber bei den von OmniPage angegebenen verfügbaren
‚Schriften auf dem System‘ ist sie nicht zu finden und deshalb
nicht einsetzbar.

Ich glaube, da liegt ein Missverständnis vor. Omnipage erkennt auf Scans die in der Schriftenauswahl von Onmipage angegebenen Schriftfamilien, bzw. die Erkennung wird durch manuelle Auswahl einer Schriftfamilie verbessert. Diese Schriften sind aber keine Schriftarten, wie Windows sie verwendet um die Darstellung am Bildschirm oder Drucker zu erreichen, sondern Beschreibungen charakteristischer Merkmale bestimmter Schriftfamilien, anhand derer eine Erkennung aus dem Pixelbild des Scans ermöglicht wird. Üblicherweise ist diese Liste durch das Hinzukaufen oder manuelle Trainieren weiterer Schriftfamilien erweiterbar. Allerdings muss man dazu sagen, dass gerade die Frakturschriften OCR-Programme immer noch vor große Probleme stellen, zumal einige Programme nicht einmal in der Lage sind mit Diphtongen (Doppelbuchstaben wie das ch-Zeichen der Frakturschriften) und doppelten Zeichen für den gleichen Buchstaben (Problem Schluss-S) richtig umzugehen.

Gruß vom Wiz

Anonym_7bd09c35c37f · 14. Oktober 2003 um 20:06

Hallo Wiz,
vielen Dank für die kompetente Antwort. Scansoft kommt da nicht mit, die haben mir Schwachsinn empfohlen, d. h. die Texterkennung im Falle Fraktura über Word zu machen.
Fraktura gibt es in wohl über 100 Varianten. Dass die Texterkennung damit Schwierigkeiten hat, ist mir klar, aber warum findet man dazu kein Wort, z. B. im Manual von Omnipage könnte man ja angeben, dass nicht beliebige Schriften erkannt werden.
Ich habe mich selber mit Mustererkennung beschäftigt und kenne die Probleme. Aber das ist lange her, und ich habe den Fortschritt wohl überschätzt.
Gruß Fritz

[Bei dieser Antwort wurde das Vollzitat nachträglich automatisiert entfernt]

Wiz · 15. Oktober 2003 um 17:12

Fraktura gibt es in wohl über 100 Varianten. Dass die
Texterkennung damit Schwierigkeiten hat, ist mir klar, aber
warum findet man dazu kein Wort, z. B. im Manual von Omnipage
könnte man ja angeben, dass nicht beliebige Schriften erkannt
werden.

Na ja, passt halt nicht in die schöne einfache Welt der OCR-Hochglanzbroschüren. Und da dies ja auch ein eher exotisches Problem ist, lässt man es lieber unter den Tisch fallen. Ich habe mich selbst mit Finereader vor ca. zwei Jahren auch einmal daran versucht eine bestimmte Frakturschrift mit viel Aufwand zu trainieren, und Finerader war damals das einzige Programm, dass zumindest schon mal Diphtonge und mehrere Varianten pro Buchstabe akzeptierte. Genutzt hat es letztenendes aber nicht, da die Erkenngenauigkeit einfach nicht hoch genug war. Dies lag aber nur zum Teil an der Schrift. Ein weiteres Problem besteht im Papier. Frakturdokumente sind üblicherweise etwas älter und da hat man dann natürlich nicht unbedingt das gewünschte hellweiße holzfreie moderne Laserdruckerpapier, sondern in meinem Fall (altes Kochbuch) eben einen haderhaltigen vergilbten welligen Karton, und so etwas mag OCR auch überhaupt nicht.

Gruß vom Wiz