Wie macht man gescannte PDF-Dateien klein?

renhen · 9. Dezember 2009 um 14:41

Hallo alle,

Problem: ich scanne oft Papier-Dokumente (beispielsweise Bankbelege, Behördenpost, also nur Text, evtl. Linien usw, aber keine Fotos) und speichere das Ergebnis als PDF. Die PDF-Datei wird aber leider zu groß. Grund: Das PDF enthält lauter unwichtige Informationen als Faksimilie, z.B. Eselsohren, Schatten, Knitter im Papier usw. Vor allem aber sind im PDF die Buchstaben nicht als solche gespeichert, sondern als Grafiken.

Ich suche also eine Möglichkeit, dieses PDF zu verkleinern, indem der gescannte Text erkannt wird (OCR). Das Ergebnis soll wieder eine PDF-Datei (!) sein, in der das Layout des ursprünglichen PDF mit reinem Text nachgebildet wird. Die Ziel-PDF-Datei ist dann natürlich sehr klein. Vielleicht ist so ein Programm sogar in der Lage, beispielsweise waagerechte Linien mit Minuszeichen nachzubilden, oder die verwendete Schriftart (mit/ohne Serifen) zu erkennen und möglichst eine passende Systemschrift zu wählen (Arial/Times/Courier).

Wichtig ist mir also, daß das Layout der Originaldatei (wo auf der Seite befindet sich welcher Text, in welcher Schriftgröße) erhalten bleibt.

Das Programm soll also ein Grafik-PDF in ein Text-PDF umwandeln und dabei aber vor allem das Textlayout beibehalten.

Wer kennt eine Lösung (möglichst als Freeware/Shareware)?

Herzlichen Dank, viele Grüße aus München
nmh

Hilse · 9. Dezember 2009 um 15:27

Sowas gibts leider nicht. Entweder als Grafik-PDF einscannen oder mittels OCR als Textdatei und dann das Layout nachbaun.

CupidoVienna · 9. Dezember 2009 um 16:00

Hallo,

Der Arcobat Writer kann gescannte PDF-Dokument optimieren und die Dateigrösse verringern. Der kostet aber leider etwas. wenn Du mir das PDF zusendest, versuche ich es mal.

Freundliche Grüße

SODMaster

Hilse · 9. Dezember 2009 um 16:09

Der Arcobat Writer kann gescannte PDF-Dokument optimieren

Zum Thema (Grafik) PDF optimieren gibt ja Tipps ohne Ende
http://www.google.de/#hl=de&source=hp&q=pdf+gr%C3%B6…

Peter_TOO · 9. Dezember 2009 um 16:15

Hallo nmh,

Problem: ich scanne oft Papier-Dokumente (beispielsweise
Bankbelege, Behördenpost, also nur Text, evtl. Linien usw,
aber keine Fotos) und speichere das Ergebnis als PDF. Die
PDF-Datei wird aber leider zu groß.

OCR funktioniert schon grundsätzlich nicht 100% genau.

Wenn also aus einer 8 eine 6 oder 9 wird, sind deine Belege schon mal unbrauchbar.
Und das mit dem Layout kannst du erst recht vergessen.

Was machbar ist, dass man die Auflösung entsprechend runter schraubt.
Auch reines S/W, möglichst ohne Graustufen, verringert die Dateigrösse entsprechend. Kommt aber auf die Vorlagen an, wie gut das kommt.

AlsOrientierung: Ein Fax arbeitet mit 100 dpi (Standard), bzw. 200 dpi (Fein).

MfG Peter(TOO)

Daimio_2deb0a · 9. Dezember 2009 um 17:19

Hallo,

Wenn es um die Dateigrösse und erforderlichen Speicherplatz geht, ist Komprimieren das Schlagwort: 7zip und ähnliches.

Es grüßt
Der Daimio

AnnJabusch_2320f9 · 9. Dezember 2009 um 19:18

hallo,

ich scanne dokumente, die ich „nur“ sichern (also nicht weiterbearbeiten) will, als grafik mit 100 bis 200 dpi ein und „drucke“ sie dann mittels FreePDF als PDF. dann ist eine datei nicht größer als ~300 kb.

gruß
ann

Peter_Schiendzielorz_5dbe84 · 10. Dezember 2009 um 12:08

Hallo renhen!

Zwei Fragen sind zu klären, bevor man dir helfen kann.

1.: In welcher Auflösung scannst du denn die Dokumente? Für eine Archivierung reichen 100 dpi allemal aus.
2.: Was verstehst du unter „großer“ pdf-Datei? Wie groß sind denn die Dateien?

Gruß
Peter

Axel · 10. Dezember 2009 um 20:12

Hallo, ich glaube es geht hier in erster Linie darum, aus einer Rastergrafik eine Vektorgrafik (incl. Text) zu generieren (?). Und die Formatierung/Layout einigermaßen beibehalten. Liege ich da richtig? Also nicht so sehr das ‚Bild‘ sprich Rastergrafik kleiner zu kriegen, was deutlich einfacher wäre.

Ich habe mich selbst für ‚Abbyy FineReader‘ interessiert. Dieses Programm sollte die gestellte Aufgabe m.E. stemmen. Sicher bin ich mir nicht, da selbst nie ausprobiert. Ich wäre für Erfahrungen dankbar.

Bei Freeware/Shareware dürfte es meiner Ansicht nach extrem dünn werden! Denn die gestellte Aufgabe ist alles andere als trivial.

Grüße
Axel

Hilse · 11. Dezember 2009 um 09:21

Ich habe mich selbst für ‚Abbyy FineReader‘ interessiert.
Dieses Programm sollte die gestellte Aufgabe m.E. stemmen.

Nicht wirklich. Solche AutoTrace Funktionen (OCR oder Vektorisierung) bringen selten wirklich saubere Ergebnisse. Da muss man meistens von Hand viel nachbessern. Zu zeit- und arbeitsintensiv. Es scheitert bei Schriften ja schon mal daran, daß kein PC User auf der Welt ALLE verfügbaren Schriften auf seinem Rechner installiert hat. Bei manch exotischen Fonts interpretiert ein OCR Programm viele Glyphen einfach falsch.

Wenn’s nur um die Dateigrösse geht, dann sollte man sich mit ppi, Komprimierunggsverfahren (also JPEG z.B., NICHT Zip, also packen) und Graustufen-Modus beschäftigen. Da gibts genügend Tricks u. Kniffe, wie man die PDF Datengrösse verringern kann.