Eingescanntes Buch grafisch verbessern?

Einen schönen Samstagmittag wünsche ich!

Ich habe eine PDF-Datei, in der viel Text, aber auch Bilder vorkommen. Da das ganze auf einer gescannten Vorlage beruht, ist auch der Text als Bild gespeichert, und dementsprechend groß ist die Datei. Auch ist die Qualität des Textes nicht besonders, da ich den Text ausdrucken möchte… Also ist meine Frage:

Gibt es ein Programm, dass durch einfaches drüberlaufen den Text als solchen erkennt, die Grafiken und die Struktur aber beibehält?

Nach kurzer Suche bin ich beim Stichwort ORC gelandet; es scheint aber, dass die meisten (freien) Programme eher schwierig zu bedienen sind bzw. unter Linux laufen. Nun also weiss ich nicht weiter. Habt Ihr Tipps? Tricks? Stichwörter, unter denen ich suchen kann?

Vielen Dank fürs Zeitnehmen
Es grüßt Lennard

Hi Lennard

Ich habe eine PDF-Datei, in der viel Text, aber auch Bilder
vorkommen. Da das ganze auf einer gescannten Vorlage beruht,
ist auch der Text als Bild gespeichert, und dementsprechend
groß ist die Datei. Auch ist die Qualität des Textes nicht
besonders, da ich den Text ausdrucken möchte… Also ist meine
Frage:

Gibt es ein Programm, dass durch einfaches drüberlaufen den
Text als solchen erkennt, die Grafiken und die Struktur aber
beibehält?

wie du ja selbst schreibst, sind das sogenannte OCR-Programme. Ob das „einfach drüberlaufen“ so hinkommt oder noch eine Menge manueller Verbesserungen nötig sind, hängt zwar auch von dem entsprechenden Programm ab, aber zum grössten Teil von der Qualität des Textes ab

Nach kurzer Suche bin ich beim Stichwort ORC gelandet; es
scheint aber, dass die meisten (freien) Programme eher
schwierig zu bedienen sind bzw. unter Linux laufen. Nun also
weiss ich nicht weiter. Habt Ihr Tipps? Tricks? Stichwörter,
unter denen ich suchen kann?

mir ist kein freies OCR-Progi bekannt, was leistungsmässig zu empfehlen wäre. Die Platzhirschen Abbyy FineReader und Readiris sind auch die Besten. Bei vielen Scannern ist eins davon dabei, für wenig Geld kriegt man zB per ebay eine ältere Version der beiden

Gruss
ExNicki

Hallo Lennard,

mit OCR liegst du schon richtig – nur sagst du, der Text sei schon sehr schlecht, was es dem OCR-Programm nicht gerade einfacher macht.

Womit hast du das PDF erstellt? Acrobat (nicht „Reader“) hast du nicht zufällig zur Verfügung? Der hat so eine Funktion integriert.

Du kannst mir gern ein paar Seiten des PDFs schicken, ich versuche dann gern mal, ob dein Vorhaben überhaupt erfolgversprechend ist.

Gruß
Markus

Die Platzhirschen Abbyy FineReader und
Readiris sind auch die Besten.

Bei Abby Finereader kann man dir noch recht geben, aber Readiris zu einem der besten oder gar Platzhirschen zu bezeichnen, halte ich doch eher als guten Witz.

Gleichzusetzen mit Abby, kann man höchstens Omnipage.Da dieses und Abby Finereader eine weitaus höhere/bessere Erkennungsrate wie Readiris haben.

So als Gratis Beilage beim Scannerkauf oder mal etwas rumzuspielen mit OCR, dafür reicht es aber.

Horst

Hat sich erledigt!
Heho Markus!

Der Text ist nicht „sehr schlecht“, sondern mehr „nicht besonders“, will sagen, Graustufen in den Buchstaben usw.

Nun, vielen Dank für dein Angebot, aber ich habe eine free-trial-Version von Omnipage 15 gefunden, damit ein bischen herumgespielt, und meistens geht es, aber eben nicht völlig fehlerfrei, auch eingearbeitete Grafiken stellen probleme dar. Will sagen, bevor ich mich da lange dransetze, bleibe ich lieber bei meiner jetzigen Version.

Danke auch an Exnicki und Horst Bendrich!

Zu diesem Zeitpunkt vielleicht zu spät, aber trotzdem als Erklärung:

Wenn man Buchseiten oder Zeitschriftenseiten einscannen möchte, sollte man das mit 600dpi (statt der für den Druck üblichen und sonst völlig ausreichenden 300dpi) machen. Und dann gehört der Kontrast für die reinen Textbereiche hochgedreht, damit das Papier wirklich weiß (und nicht hellgrau) ist und der Text schwarz. Da aber auf einer Seite des öfteren Bilder und Texte sind, würde diese Kontrastverstärkung den Bildern gar nicht gut tun. Also muss man die Bilder abmaskieren und nur den Papier/Text-Bereich kontrastverstärken. Mühsam, aber für gute Ergebnisse unerlässlich.

Gruß, Artefakt