Scannen für zukünftige OCR

Hallo,

ich möchte mich von diversen Vorlesungsmitschriften (Karo-Papier, fortlaufend geschriebene Handschrift, farbige Tinte, Bleistift, Buntstifte, Kugelschreiber) sowie diversen Vorlesungsskripten (meist „schon“ normale Fotokopie in s/w) trennen. Die füllen bei mir viele schwere Ordner. Ich lese zwar fast nie darin, aber wer weiss, es könnte ja mal sein…

Die aktuellen OCR können mit Handschrift (fortlaufend geschrieben) zwar noch nichts anfangen, aber mit der Druckschrift der Skripte wohl schon. Mit welcher Auflösung sollte ich die Mitschriften scannen, die gegenwärtig noch nicht per OCR bearbeitet werden können?

Mein Scanner (ein Avision AV220 Duplex-Dokumentenscanner) kann sehr schnell mit 300DPI und auch in Farbe scannen, ich würde das daher bevorzugen. Anschließend als PDF speichern. Die Programme dafür habe ich und sie funktionieren bestens. Es ist nicht so schlimm, wenn dabei ziemlich viel Speicherplatz verbraucht wird. Die gescannten Bilder werden innerhalb der PDFs stark komprimiert (vermutlich als JPEG, weiss ich aber nicht genau).

Aber braucht man für die Skripte (die fotokopierten Drucke) nicht eher 400DPI? Das ist aber erheblich langsamer zu scannen, und da ich soviel zu scannen habe, dauert mir das zu lang.

Zu was ratet Ihr mir da?

Danke und viele Grüsse,
Crypto.

Hallo Crypto,

die Strichbreite muss mind. 2 pt betragen, bei Handschriften sind meistens 150 dpi bis 200 dpi (Fax-Auflösung) ausreichend. Feinere Auflösung bringt kaum Vorteile, ist aber auch nicht schädlich (außer Speicherplatzbedarf). Mit 300 dpi liegst du schon ziemlich sicher. Wichtiger als noch feinere Auflösung ist ein hoher Kontrast und wenig (bzw. keine) störenden Linien (kariertes oder liniertes Papier bereitet Schwierigkeiten).

Als PDF würde ich die Scans nicht speichern. Die Auswahl an OCR-Software, die PDF einlesen kann, ist gering. PDF verwendet ohnehin intern ein Bildformat, setzt aber seinen Header noch davor.

Die meisten OCR-Programme können jedoch .JPG oder .TIF einlesen. TIFF ist übrigens das klassische Fax-Format, das gibt es mit unterschiedlichen Komprimier-Varianten.

Bernhard

Tippfehler-Korrektur: … die Strichbreite muss mind. 2 px betragen … (2 Bildelemente statt 2 Punkt)

Bernhard

Hallo,

die Strichbreite muss mind. 2 px betragen, bei Handschriften
sind meistens 150 dpi bis 200 dpi (Fax-Auflösung) ausreichend.

Da bist du im Irrtum.
Wenn der TO von DIN A4 Seiten spricht, die er scannen will, dann ergeben sich bei den versch. Scann-Auflösungen folgende Pixelzahlen/Seite und den Strichbreiten für die Handschrift in mm:
150 dpi --> 1240x1754 px --> 0,34 mm
200 dpi --> 1653x2339 px --> 0,25 mm
300 dpi --> 2480x3508 px --> 0,17 mm
600 dpi --> 4960x7016 px --> 0.08 mm

Da viele Fine-Liner Stifte eine Strichbreite von 0,2 mm haben, halte ich die von dir empfohlene Scan-Auflösung von 150-200 dpi für unzureichend.
Selbst 300 dpi erfüllt gerade die Mindestanforderung. Du musst beachten, dass bei der Dynamik beim (manuellen) Schreiben sowohl feinere als auch stärkere Strichbreiten entstehen.
Um für eine spätere OCR-Erkennung auf der sicheren Seite zu sein, würde ich mit mindestens 600 dpi scannen.

Feinere Auflösung bringt kaum Vorteile, ist aber auch nicht
schädlich (außer Speicherplatzbedarf). Mit 300 dpi liegst du
schon ziemlich sicher. Wichtiger als noch feinere Auflösung
ist ein hoher Kontrast und wenig (bzw. keine) störenden Linien
(kariertes oder liniertes Papier bereitet Schwierigkeiten).

Höhere optische Auflösungen (nicht interpoliert) bis 1200 dpi bringen deutliche Vorteile, wie oben schon erläutert. Nicht umsonst empfehlen die meisten professionellen OCR-Programme eine Scan-Auflösung von mind. 600 dpi.
Den höheren Speicherplatzbedarf kann man mit unterschiedlichen Verfahren gegensteuern
a) Scannen im Bitmap-Modus --> extrem kleine Datei - Verlust der Farbinformation
b) Scannen im RGB-Modus, dann Umwandlung zu Bildern mit indizierten Farben --> Datei deutlich kleiner als im Vollfarbmodus - Farbinfos bleiben weitgehend erhalten - aufwendigere Nachbearbeitung

Als PDF würde ich die Scans nicht speichern. Die Auswahl an
OCR-Software, die PDF einlesen kann, ist gering. PDF verwendet
ohnehin intern ein Bildformat, setzt aber seinen Header noch
davor.

Auch da muss ich dir widersprechen.
PDF ist ein universelles Datenformat zum Austausch, Drucken und Lesen.
Mit dem Adobe Acrobat (Vollprogramm - nicht dem Reader) lässt sich die Datei jederzeit wieder zu einem TIFF-Bild (oder Text-, JPEG-, HTML-Dokument und andere mehr) konvertieren.
Bei den richtigen Einstellungen werden die Dateien unschlagbar klein, bei minimalem Qualitätsverlust durch Kompression.

Die meisten OCR-Programme können jedoch .JPG oder .TIF
einlesen. TIFF ist übrigens das klassische Fax-Format, das
gibt es mit unterschiedlichen Komprimier-Varianten.

Das „klassische“ TIFF ist unkomprimiert. Die ursprüngliche Tiff-Variante wurde mit dem CCITT-Verfahren komprimiert.
http://de.wikipedia.org/wiki/Fax

Grüsse max