nachdem jetzt definitiv kein Ordner mehr in den Schrank passt, will ich mal einige alte Dinge (z.B. Skripte aus dem Studium) einscannen und somit nur noch digital aufheben.
Zwei Versuche eben haben mich aber ratlos gemacht. Denn wie mache ich das sinnvollerweise?
Es handelt sich um Dokumente - teilweise auch z.B. um 300 Seiten lang. Zum Teil sind es „einfache“ Texte, schwarz/weiß, zum Teil aber auch Grafiken, s/w und bunt, oder Handschriftliches. Und das alles kreuz und quer. Einige Seiten sind rein maschinengeschrieben, andere beinhalten zusätzlich handschriftliches (wie z.B. Anmerkungen und Hervorhebungen).
Alles als bearbeitbaren Text einzuscannen würde wahrscheinlich am Ende die kleinsten Dateien ergeben, oder? Aber wie ist das dann mit Anmerkungen oder Zeichnungen?
Andererseits fürchte ich aber, dass es riesige Dateien werden, wenn ich alles als Grafik einscanne. Dann hätte zwar die Texterkennung keine Chance, Blödsinn zu erkennen, aber 1. kann man dann in den Dokumenten keine Suche mehr andwenden und 2. sind die Dateien wahrscheinlich so groß, dass ein normales Textverarbeitungsprogramm an seine Grenzen stößt.
Welche Empfehlungen könnt ihr mir geben?
Ach ja: es handelt sich um einen Scanner von HP (PSC 1210) und als Software steht momentan die mitgelieferte Scan-Software von HP sowie Open Office und Word zur Verfügung. Was zum Umwandeln in PDFs wäre auch vorhanden, ebenso wie Bildbearbeitungsprogramme.
Es handelt sich um Dokumente - teilweise auch z.B. um 300
Seiten lang. Zum Teil sind es „einfache“ Texte, schwarz/weiß,
zum Teil aber auch Grafiken, s/w und bunt, oder
Handschriftliches. Und das alles kreuz und quer. Einige Seiten
sind rein maschinengeschrieben, andere beinhalten zusätzlich
handschriftliches (wie z.B. Anmerkungen und Hervorhebungen).
Ich hatte das 'mal mit ein paar Dokumenten vor ein paar Jahren so gelöst:
Mein olles Tintenstrahl-Faxgeröt angeklemmt
Kleine Stapel bis 20-30 Blatt (DIN A4) eingelegt
An die Rufnummer meines GMX-Accounts gesandt
Heraus kamen pro Stapel:
Mail mit Anhang im Multi-Page CCiTT-Fax-3-Format, die ich herunter lud
Besagtes Fax-Format kann unter Windows mit IrfanView angezeigt werden, ist sparsam bei der Dateigröße, da nur S/W (ca. 35 bis 90 kByte je Seite, abhängig von den darzustellenden Details). Die Auflösung von 200 dpi kommt aber gut raus. - Nachteil: Grafik statt Text.
Alternativ: Web.de wandelt Faxe ins PDF-Format (ich weiß aber nicht, ob als Grafik oder Text).
Heutiges Problem dürften aber die Telefonkosten mit der 012xx-Nummer im Netz sein. (Es war damals noch eine Festnetznummer.)
Aber sicher weiß noch ein anderer, der professionell damit „belastet“ ist, wie Du effektiv und schnell die Riesenmenge einscannst…
Die Dinger machen ca. 20 Seiten/Minute weg und man kann größere Packen einlegen, die dann automatisch eingezogen werden. Das Ergebnis solltest Du, wenn Farbe nicht unbedingt notwendig ist, in Graustufen in nicht zu hoher Auflösung abspeichern. 150-200 dpi reichen für Archivierungszwecke vollkommen aus.
Wenn es bei einzelnen Seiten wirklich auf Farbe ankommt, kannst Du die hinterher ja nochmal in Farbe scannen.
Die Seiten alle einzeln auf einen lahmen Homescanner zu packen wäre mir persönlich viel zu anstrengend.
ich mach das mit der Texterkennung „Omnipage“. Ok, keine 1000 Seiten, sondern nur wenn ich mir ein paar Seiten aus einer Zeitschrift aufheben will…
Da gibt es die Funktion „pdf mit Bild“ (oder so ähnlich - hab das Programm in der Arbeit). Das heisst, alles was als Text erkannt wird (und das ist bei Maschinenschrift-Vorlagen eine ganze Menge) wird als Text in das pdf reingepackt. Zusätzlich wird ein Bild über das pdf gelegt. Wenn man das pdf öffnet, sieht man es so, als ob man einen Scan ansehen würde. Aber man kann trotzdem mit einer Suche nach dem Text diesen auch finden (sehr praktisch in Verbindung mit Desktop-Suchmaschinen, die auch pdf-Files indizieren).
Ok, die Files sind nicht die kleinsten (4 MB bei 20 Seiten - Graustufen - bei einem Grafikanteil von ca. 40%) aber der Vorteil eine Seite dann auch so zu sehen wie sie war ist mir das Wert - vor allem bei Grafiken und handschriftlichen Anmerkungen zeigt ein nur-Text pdf oft Mist an.
Ich glaub, ab Version 12 hat Omnipage dieses „pdf mit Bild“ dabei. Die 9er-Version die gerade bei Ebay für 1,99 verramscht wird bitte nicht kaufen - die hat noch eine miese Erkennungsrate für Texte.
Die Ergebnisse von „Finereader“ (direkte Konkurrenz zu Omnipage) haben mir übrigens nicht so gut gefallen.
Und weil du „Textverarbeitungsprogramm“ erwähnt hast… Mit so einem erstellten pdf kommt kein Textverarbeitungsprogramm klar. Da heisst es dann ausschneiden, einfügen und dann komplett neu formatieren. Und die mind. 2 falsch erkannten Wörter pro Seite korrigieren…
Und falls du an ein Profi Kopier-Druck-Scan Gerät kommst (so eines haben wir in der Arbeit stehen): Die haben oft eine Scan-Funktion dabei mit der man ruck-zuck mal eben 100 Seiten mit 300 dpi in Dateien scannen kann. Die Dateien dann auf USB-Stick mit nach Hause nehmen und durch das Texterkennungsprogramm jagen.
Grüße,
Wolfgang
[Bei dieser Antwort wurde das Vollzitat nachträglich automatisiert entfernt]