Aufbau zum Digitalisieren ungeordneter Blätter

Ich habe einen Berg von Dokumenten, buchstäblich einen Berg: es geht von A4 über zu A5 oder kleiner, alle ungeordnet übereinander. Das heißt, keine Ordner, nichts.

Mein Ziel ist, diesen Berg mit angemessenem Aufwand zu digitalisieren, das heißt, in durchsuchbare PDF-Dateien umzuwandeln.

Wie digitalisiere ich die Dokumente?

Es gibt Dokumentenscanner, die auch schnell sein können, doch fordern sie alle knitterfreies A4, das geordnet auf dem Halter liegt.

Welcher, auch gerne experimentelle Aufbau, kann mir das erleichtern?

Ich will das nur einmal machen, da ich ab einer gewissen Zeit sauber geordnet habe. Daher muß die Konstruktion nicht für die Ewigkeit gebaut sein.

Verstämdnisfrage: Wenn du die Dokumente als Bild einliest, wie sollten die durchsuchbar sein?

Zum Erfassen kannst du eine Kamera nehmen, die auf eine Fläche schaut. Dort legst du die Dokumente nacheinander hin und nimmst sie auf. Die Dateinamen dürften dann aus Datum und Uhrzeit bestehen.

1 Like

Wenn du die Dokumente als Bild einliest, wie sollten die durchsuchbar sein?

Die Bilder werden mit OCR behandelt

Zum Erfassen kannst du eine Kamera nehmen, die auf eine Fläche schaut. Dort legst du die Dokumente nacheinander hin und nimmst sie auf. Die Dateinamen dürften dann aus Datum und Uhrzeit bestehen.

Ja, kann man machen. Ist allerdings ein sehr großer Aufwand. Es sind ca. 10.000 beidseitig bedruckte Seiten.

1 Like

Hmm … beideitig auch noch. Wie hat man denn seinerzeit die Schnippsel erfasst, die der DDR-Geheimdienst zerrissen in Säcken aufbewahrt hat?

Die wurden doch am Bildschirm wieder zusammengesetzt.

Für dieses Problem gibt es keine akzeptable Lösung. Kamera auf nicht ordentlich ausgerichtete, ggf. noch wellige und geknickte und damit dann auch nicht anständig ausgeleuchtete Dokumente erzeugt Scans die nicht wirklich OCR geeignet sind. Selbst gute OCR-Lösungen mit Workflows für das Optimieren und Geraderichten der Bilder stoßen da schnell an Grenzen.

Die beste Lösung ist da immer noch ein doppelseitiger Einzugsscanner, in den man vorsortierte einheitliche Formate in kleinen Stapeln einlegt und ggf. problematische Zettel einzeln, ggf. unter Zuhilfenahme einer „Faxhülle“ zuführt.

Alternativ kann man natürlich einen professionellen Dienstleister beauftragen, der aber voraussichtlich auch diverse Handarbeit in das Thema stecken wird.

4 Like

Scanner. Das kann ein Flachbettscanner sein oder eine Bürodrucker-Scanner Kombination. So eine Scanner/Drucker Kombi gibts auch gebraucht recht günstig so das sich die Ausgaben in Grenzen halten. Da kann man dann den Einzugsschacht auf A4 oder A5 einstellen, einen Packen (falls notwendig) Papiere einlegen und einscannen.

Wie meinst Du das? So ein Einzug eines Büro-Scanners kann mehrere hundert Blatt auf einmal. Das papier muß dabei nicht GANZ knitterfrei sein, weil das Gerät das ja selbst einzieht, aber halbwegs geordnet sollte es schon sein. A4 und A5 z.B. mischen geht nicht. Da muß sowieso manuelle Vorabeit beim vorsortieren erfolgen.

Wo es dann interessant wird ist eher der Part NACH dem einscanne und der Texterkennerei per OCR. Denn das Verwalten der Dokumente in einem Dokumentmanagement System mit Angaben von Metadaten kann noch eine Zeit dauern bis dann alles eingepflegt ist. Viel Glück.

1 Like

Zum Thema „verknittert“:

wie andere bereits geschrieben haben, ist das nicht ganz so wild. Allerdings wirst du nicht umhin kommen, die Seiten nach Format zu sortieren.

In dem Sinn: Tu dies im Voraus und bilde ordentliche Stapel, ggf. bereits in Aktenordnern, und legen die waagerecht hin. Nach ner Woche ist das Papier durch das eigene Gewicht bereits deutlich glatter, zum Teil hilft da auch ein Brett o.ä. als Gewicht nach.

1 Like

Geht schon, kommt halt aufs Gerät an.
Und es sollte ein Gerät sein, das sog. dualscan beherrscht.
Vorder- und Rückseite in einem Vorgang scannen, idealerweise mit Leerseitenerkennung. Und vielleicht mit Doppelblatt Erkennung, falls mal 2 zusammenkleben.
Sowas steht heute in vielen Büros. Einfach mal fragen.

OCR funktioniert bei gedrucktem Text sehr gut. Bei handschriftlichen Notizen wird es eher nichts.