Gescanntes Dokument mit gimp bearbeiten

Hallo,

gelegentlich scanne ich Dokumente ein, um sie als PDF abzulegen.
Ich setze den Schwellwert in gimp (v2.6.11 für Windows) so, dass ich eine schwarze Schrift auf weißem Grund bekomme also nur zwei Farben.
Leider sind im Hintergrund hier und da schwarze Punkte (einzelne Pixel) zu sehen und in der Schrift weiße Pixel.
Ich habe versucht, mit der Funktion „Flecken entfernen“ mit den Einstellungen:
Radius = 1
Schwellwert Schwarz = 0
Schwellwert Weiß = 256
die Pixel automatisch zu entfernen, was auch funktioniert. Leider werden dabei die Linien der Buchstaben auch dünner, so, dass der Text nicht mehr gut aussieht.

Was kann ich tun, um nur diese einzelnen Pixel automatisch zu entfernen?

Gruß

Andre

Alternativvorschlag: Kurven
Hallo Andre_B,

entschuldige, dass ich deine Frage nicht direkt beantworte aber ich dachte, das könnte dich vielleicht trotzdem interessieren: ich empfehle dir, das Werkzeug „Kurven“ zu verwenden (zu finden im Farben-Menü). Dadurch bekommst du verglichen zum Schwellwert-Werkzeug deutlich besser lesbare Schriften, weil man damit, wie der Name schon sagt, eine Kurve über den kompletten Farbbereich einstellen kann, anstatt es mit einem drastischen Schwellwert machen zu müssen.

Falls du beim Schwellwert bleiben willst, ist es vielleicht erfolgreicher, erst die Störungen zu entfernen und danach den Schwellwert einzustellen, weil vorher die Farbverläufe weicher ineinander über gehen.

Hi,

es gibt spezielle Programme, die eingescannte Texte „erkennen“ (zumindest möchte man uns das glauben machen) und die man dann sogar als Textdokument abspeichern, ändern, korrigieren usw. kann.

In der Praxis ist das meistens aufwendig und arbeitsintensiv., weil Formatierungen selten gut dargestellt werden und selbst der so bearbeitete Text meistens nicht die Qualität einer Kopie hat . . .

Was kann ich tun, um nur diese einzelnen Pixel automatisch zu
entfernen?

Im Grunde eigentlich nur das, was Du bereits machst. Es gibt in der Hinsicht keine 100prozentige Lösung. Ist immer eine Frage des Kompromisses zwischen „Sauberkeit“ und „Qualität des Schriftbildes“.

Da muß man eben an den Einstellungen soweit rumschrauben, bis man für sich die „Goldene Mitte“ erreicht hat. Oder eben jeden Scan von Hand nachbearbeiten.

Für reine Texte ist das bereits angesprochene OCR-Verfahren eine alternative, d.h. es wird kein Pixelbild, sondern editerfäiger Text ausgegeben. Allerdings bedarf es hier fast immer eine Nachbearbeitung, weil je nach Qualität der Vorlage, Art d. Schrift und sosntiger Faktoren mal bessere, mal weniger gute Ergebnisse zustande kommen.

Hallo Alpha-Kappa,

die Kurvenfunktion ist für meine Zwecke nicht so geeignet, da ich damit den „Grauschleier“ des Papiers nur mildere. Außerdem habe ich dann immer noch viele Farben, in den Buchstaben, die eigentlich schwarz sein sollten, weshalb mein PDF dann unnötig groß würde.

Trotzdem danke für Deine schnelle Antwort

Andre

Hallo Tom,

danke für Deine schnelle Antwort.
Ich möchte die Dokumente nicht verändern, deshalb ist eine OCR nicht das Richtige für mich.

Gruß Andre

Hallo Hilse,

schade. Ich hatte gehofft, dass es für so ein Problem eine Lösung gäbe.

Trotzdem danke für Deine schnelle Antwort

Gruß Andre

Ich hatte gehofft, dass es für so ein Problem eine
Lösung gäbe

Nicht automatisiert. Liegt halt daran, daß ja nicht jede Vorlage gleich „verschmutzt“ ist, d.h. man müsste im Grunde bei jedem Scan neue Einstellungen machen.

Hallo Andre,

Ich möchte die Dokumente nicht verändern, deshalb ist eine OCR
nicht das Richtige für mich.

Wenn Du die Dokumente aus dem OCR-Programm heraus als pdf-Datei speicherst, veränderst Du das Dokument nicht. Hier habe ich mal ein Beispiel hochgeladen:
http://s14.directupload.net/file/d/2733/yqee5hj7_pdf…
Gut, ich habe diesen Scan als Schwarz-weiss-Scan durchgeführt um die Dateigröße klein zu halten, insofern ist es etwas verändert. Aber das hätte ich genauso gut in Graustufen oder farbig abspeichern können, um noch originalgetreuer zu sein.

Viele Grüße
Marvin

Um mal etwas Licht in’s Dunkle zu bringen … OCR /Optical Character Recognition) dient in dem Zusammnehang normalerweise dafür, editierfähige Textdateien (also z.B. eine .txt oder .rtf) zu generieren. Was Du hier gemacht hast ist, das Ganze (wieder) als Pixelgrafik auszugeben. Warum verstehe ich gerade nicht, denn das kann man dann ja auch mit jeder „normalen“ Scannfunktion oder einer Bildbearbeitung machen.

Hallo Hilse,

Was Du hier gemacht hast ist, das Ganze
(wieder) als Pixelgrafik auszugeben.

Nein. Das ist eine pdf-Datei mit hinterlegtem Text, also durchsuchbar.

Warum verstehe ich gerade
nicht, denn das kann man dann ja auch mit jeder „normalen“
Scannfunktion oder einer Bildbearbeitung machen.

Gemacht habe ich das, weil ich wie Andre auch, das Dokument möglichst unverändert lassen will und es gleichzeitig für eine Volltextsuche zugänglich machen will. Das ginge mit einer normalen Scanfunktion nicht.
Und der Zweck einer OCR-Software kann sein, ein bearbeitbares Textdokument zu erhalten. Ein anderer Zweck kann aber auch sein, wie bei mir, die Dokumente weitgehend zu erhalten und sie durchsuchbar zu machen. Viele Jahresarchive von Zeitschriften (wie z.B. beim Spiegel) funktionieren nach diesem Prinzip.
Den Sinn von OCR also nur in der Bearbeitbarkeit zu sehen ist ein etwas zu enger Gesichtspunkt.

Viele Grüße
Marvin

Was Du hier gemacht hast ist, das Ganze
(wieder) als Pixelgrafik auszugeben.

Nein. Das ist eine pdf-Datei mit hinterlegtem Text, also
durchsuchbar.

Kannte ich in der Form noch nicht. Interessant.