bislang gehe ich bei der Erstellung von pdf-Dokumenten aus Scans (Scanner: Canon 8800F) so vor:
Scannen des jeweiligen Dokumentes bei Einstellung „600 dpi“ und „25%“; die Ausgabe erfolgt als Bilddatei (im jpg-Format). Die Größe einer solchen Bilddatei liegt bei DIN-A4-Seiten bei ca. 250-350 kB.
Umwandlung in eine pdf-Datei mit Acrobat (via Kontextmenü).
Ein eingescanntes Dokument aus z. B. 5 Seiten hat dann leicht mal weit über 1 MB Größe. Erhöhe ich die Größe von 25% auf 100% bei gleicher Auflösung (600 dpi), erkennt die OCR offenbar anschließend besser den Text, aber kleiner wird die ausgegebene Datei deshalb noch lange nicht, im Gegenteil: eine solche pdf-Datei hat locker über 510 kB, trotz OCR.
Nach meinem Verständnis müßte eine OCR die Dateiengröße eigentlich ungemein reduzieren, könnten theoretisch anschließend doch viele Pixelgrafik-Daten in Verktorgrafik-Daten umgewandelt werde.
Das scheint aber nicht der Fall zu sein; die OCR scheint keinen allzu großen Einfluß auf die Dateigröße zu haben.
Kann man die Dateigröße der Ausgabedatei (mit OCR) nicht noch weiter reduzieren?
So ich hab mal nachgegugt.
Ich kann bei mir eingeben in welcher Auflösung ich Bilder weiterverabeitet haben will. Und ob ich nur text, text - bild , bild . Wobei ich bei text-bild immer die grauschleier entfernen muss , sonst ist das ganze ein bild wo drauf der text makierbar bleibt , sieht zwar schön original aus , aber viel zu gross fürs speichern. Ich kann dann ein helligkeits abgleich machen , so das die Umgebung rausfällt. Gute OCR Software macht das wohl automatisch .
Musst du mal gugen ob dein Programm solche Filter hat .
der Canon 8800F kann direkt als PDF-Datei scannen. Warum nutzt du nicht diese Möglichkeit?
300 DPI sind i.d.R. vollkommen ausreichend zum scannen. Häufig reichen schon 150 DPI oder weniger um ein gescanntes Dokument gut lesen zu können. Scanne immer s/w und nicht in Farbe!!
Alleine diese Umstellung dürfte einiges an Speicherplatz sparen.
Dein Vorgehen und das OCR mal „übersetzt“:
Vorlage als Bild (JPG) scannen
Bild als Bild im PDF speichern
oder mit OCR:
Vorlage als Bild (JPG) scannen
Text aus dem Bild versuchen zu erkennen (OCR)
dann den Text als PDF speichern (= es wird wieder ein Bild daraus erzeugt zusammen mit dem erkannten Text)
OCR bringt nur etwas, wenn du den erkannten Text auch als Text speicherst (nicht mit Word o.ä.)