Scanner, OCR und Praktikabilität

Hallo!

  1. Sind günstige Dokumentenscanner mit ADF gut genug?
    Bsp.: Plustek ADF PL 806 oder 812 (zw. 230 und 300 €)

Die besseren sind ja schweineteuer! (ab 600 €)

  1. Sind die gängigen, bezahlbaren OCR-Programme auch geeignet, um kopierte Seiten zu erkennen? Die Kopierer bei uns in der Uni bringen doch viel grau aufs Papier und sind nicht immer gut lesbar. Es wäre wohl zu viel Aufwand, jedes gescannte Dokument auf Richtigkeit zu testen.

  2. Hat jemand Erfahrung im Scannen umfangreichen Textmaterials?
    Die Hersteller werben, es sei gaanz einfach, Dokumente via „Scan-to-PDF“ zu erstellen und zu verwalten. Stimmt das? Und wird Layout etc. erhalten?

  3. Kann man dann in diesen PDFs Textstellen auch markieren, wie man es auf einer Papier-Kopie macht?

Zum Hintergrund: Habe mir überlegt, die kopierten (das mach ich auf jeden Fall) Materialien für meine Dissertation einzuscannen, um so jederzeit Zugriff darauf zu haben, ohne immer die zahlreichen Leitz-Ordner dabei haben zu müssen.

Vielen Dank für die Antworten im voraus!
BANDY

Moien

  1. Sind günstige Dokumentenscanner mit ADF gut genug?

Für S/W scans mit normaler Schriftgrössen reichen die. Allerdings sind die teueren deutlich schneller und weniger Fehleranfällig.

  1. Sind die gängigen, bezahlbaren OCR-Programme auch geeignet,
    um kopierte Seiten zu erkennen?

Es hängt sehr stark vom Schrifttyp ab. Ein Minimum an Kontrast braucht man allerdings immer. Notfalls kann man diesen auch beim scannen erreichen.

  1. Hat jemand Erfahrung im Scannen umfangreichen
    Textmaterials?

Wenn da Handschriftliches, Matheformeln, Tabellen oder Grafiken drin sind: Vergiss es.

Die Hersteller werben, es sei gaanz einfach, Dokumente via
„Scan-to-PDF“ zu erstellen und zu verwalten. Stimmt das?

Scan-to-PDF speichert nur Bilder in PDF-form. Die machen kein OCR und man kann die Dokumente später nicht ändern.

Und wird Layout etc. erhalten?

Das Zeug macht Fotos, da kann nicht viel verloren gehen.

  1. Kann man dann in diesen PDFs Textstellen auch markieren,
    wie man es auf einer Papier-Kopie macht?

Jein: manche PDF-Editioren können beliebige Formen malen. Damit könnte man arbeiten. Aber wie gesagt, es sind nur Bilder, kein Text.

Zum Hintergrund: Habe mir überlegt, die kopierten (das mach
ich auf jeden Fall) Materialien für meine Dissertation
einzuscannen, um so jederzeit Zugriff darauf zu haben, ohne
immer die zahlreichen Leitz-Ordner dabei haben zu müssen.

Sowas (Scan-to-PDF) machen bei uns die Kopierer vollautomatisch. Die PDFs sind ganz OK. Nur Palms brauchen ein bisschen Zeit beim umblättern.

cu

Einstweilen vielen Dank für die Antwort.

Folgefrage:

Ist es praktikabel, erst zu scannen, dann OCR anzuwenden und dann PDF zu erstellen?

Hab echt null Ahnung von alldem.

Danke.
BANDY

Hi

  1. Sind günstige Dokumentenscanner mit ADF gut genug?
    Bsp.: Plustek ADF PL 806 oder 812 (zw. 230 und 300 €)

das ist nach meiner Erfahrung Schrott, ob Mus oder Plus oder sonstwie Tek

Die besseren sind ja schweineteuer! (ab 600 €)

das ist für A4 mit Einzug untere Mittelklasse. Es geht sehr viel teurer. Ich hab den HP Scanjet 7400c, der tut jetzt schon sehr flink im 4ten Jahr seinen Dienst.

  1. Sind die gängigen, bezahlbaren OCR-Programme auch geeignet,
    um kopierte Seiten zu erkennen? Die Kopierer bei uns in der
    Uni bringen doch viel grau aufs Papier und sind nicht immer
    gut lesbar. Es wäre wohl zu viel Aufwand, jedes gescannte
    Dokument auf Richtigkeit zu testen.

JEDES OCR-Ergebnis muss genauestens kontrolliert werden, auf Inhalt und Rechtschreibung, wenn der Leser nicht entweder total genervt sein soll oder sich tot lacht. Selbst die beste lernfähige Software macht immer Fehler, auch bei idealen Vorlagen.

  1. Hat jemand Erfahrung im Scannen umfangreichen
    Textmaterials?
    Die Hersteller werben, es sei gaanz einfach, Dokumente via
    „Scan-to-PDF“ zu erstellen und zu verwalten. Stimmt das? Und
    wird Layout etc. erhalten?

klar, wenn es kein OCR dazwischen hängt. Dann isses aber auch nix als ein Scan als pdf verkleidet.

  1. Kann man dann in diesen PDFs Textstellen auch markieren,
    wie man es auf einer Papier-Kopie macht?

??? Acrobat hat ne Notizzettelfuktion falls du sowas meinst.

Zum Hintergrund: Habe mir überlegt, die kopierten (das mach
ich auf jeden Fall) Materialien für meine Dissertation
einzuscannen, um so jederzeit Zugriff darauf zu haben, ohne
immer die zahlreichen Leitz-Ordner dabei haben zu müssen.

Vielen Dank für die Antworten im voraus!
BANDY

de nada
HH

Ist es praktikabel, erst zu scannen, dann OCR anzuwenden und
dann PDF zu erstellen?

Klar, ich mach es so. Für die Textumwandlung nehm ich OmniPage SE 4.0, die erhaltenen Textdateien kann man ganz normal als Word-Document speichern und natürlich später jederzeit mit einem beliebigen kostenfreien PDF-Converter (falls man gerade nicht die Vollversion von Adobe Acrobat zur Verfügung hat ^^) in eine PDF-Datei umwandeln.

Nur, wie schon gesagt wurde, läuft das OCR nicht ohne Nachkontrolle. Es gibt kein perfektes Textumwandlungsprogramm, weil die Programme nunmal nicht mitdenken können. Eine Faser im Papier und schon hast du an der Stelle drei Punkte und ein Komma stehen. OmniPage ist aber ein sehr gutes und wirklich einfach zu bedienendes Programm. Die fraglichen Textstellen werden farblich unterlegt und lassen sich mit der guten Korrekturfunktion ratz fatz überarbeiten. Das wirst du allerdings auch Seite für Seite tun müssen, denn irgendwas ist immer.

LG Jesse

Hallo Bandy,

Hallo!

  1. Sind günstige Dokumentenscanner mit ADF gut genug?
    Bsp.: Plustek ADF PL 806 oder 812 (zw. 230 und 300 €)

Die besseren sind ja schweineteuer! (ab 600 €)

und selbst das ist noch die unterste Preisklasse…

  1. Sind die gängigen, bezahlbaren OCR-Programme auch geeignet,
    um kopierte Seiten zu erkennen? Die Kopierer bei uns in der
    Uni bringen doch viel grau aufs Papier und sind nicht immer
    gut lesbar. Es wäre wohl zu viel Aufwand, jedes gescannte
    Dokument auf Richtigkeit zu testen.

wenn du selbst schon Probleme mit dem Lesen der Texte hast, dann gib das mit dem OCR auf oder warte noch 10 Jahre (dann sollte die Zeit der „intelligenten“ OCR-Programme langsam anbrechen).

  1. Hat jemand Erfahrung im Scannen umfangreichen
    Textmaterials?
    Die Hersteller werben, es sei gaanz einfach, Dokumente via
    „Scan-to-PDF“ zu erstellen und zu verwalten. Stimmt das? Und
    wird Layout etc. erhalten?

ich mach das mit Omnipage so: scannen, OCR durchführen und das ganze als .pdf mit hinterlegtem Bild abspeichern. Kostet zwar Speicher (200-500 kByte pro Graustufen-Seite) aber man kann a: in dem Dokument nach Text suchen b: wenn Wörter falsch erkannt worden sind sieht man wie es richtig heißen sollte eben in dem mit hinterlegtem Bild. Natürlich darf man nicht genau nach einem falsch erkannten Wort suchen…

Zum Hintergrund: Habe mir überlegt, die kopierten (das mach
ich auf jeden Fall) Materialien für meine Dissertation
einzuscannen, um so jederzeit Zugriff darauf zu haben, ohne
immer die zahlreichen Leitz-Ordner dabei haben zu müssen.

frag mal in Copy-Shops nach, ob du dort evtl. auch gleich das scannen machen kannst - vielleicht sogar mit Texterkennung? Die haben garantiert bessere Geräte als das was für dich bezahlbar ist.

Vielen Dank für die Antworten im voraus!
BANDY

Grüße,
Wolfgang