OCR auf Bildern im Internet verhindern

Hallo,
ich mache mir gerade Gedanken zur Erstellung eines Impressums für meine Homepage. Prinzipiell habe ich auch gar nichts dagegen, dass Menschen meine Privatadresse sehen und möchte auch ganz bewusst auf eine Notaradresse oder die eines anderen Dienstleisters verzichten. Ich möchte allerdings vermeiden, dass meine Adresse maschinell ausgelesen werden kann.

Eine Möglichkeit wäre es, das Impressum als Bilddatei einzubinden. Das wäre schonmal die erste Hürde. Allerdings ist mir sehr bewusst wie gut die Möglichkeiten der Texterkennung inzwischen sind. Gibt es da bestimmte Schriftarten, die für das menschliche Auge noch gut lesbar sind, für die OCR allerdings nur schwer zu entziffern sind? Oder gibt es gar ein kleines Freeware-Programm, das ggf. meinen text verzerrt, einen Hintergrund erstellt oder so, damit das Auslesen noch weiter erschwert wird?

Danke und Grüße

Hallo,

ähnliches versucht ja Google mit Captchas, auch das klappt nur bedingt.

Ob man das Impressum überhaupt als Grafik statt Text einfügen darf ist an sich schon strittig.

Gruß,
Steve

Hallo,

wo soll den das Problem der Einbindung als Bild sein? Das Impressum muss (gut) lesbar sein, und das sollte bei einem Bild doch ganz gut klappen.
Mir ist auch völlig klar, dass es den 100%igen Schutz vor maschinellem Auslesen nicht gibt. Ich suche daher nach einem praktikablen Weg, um zumindest ein zu einfaches Auswerten zu erschweren.

Grüße

§5 TMG spricht von „leicht erkennbar, unmittelbar erreichbar und ständig verfügbar“, und ob Angaben nur in Form einer Grafik diese Ansprüche erfüllen, scheint noch nicht final geklärt zu sein.

Angaben nur als Grafik sind nicht barrierefrei (Stichwort Screenreader) und in einem reinen Textbrowser nicht zu sehen (falls es heute noch WAP-Browser gibt).

Es gab jedenfalls mal eine Entscheidung, dass eine Widerrufsbelehrung, die nur als Grafik, aber nicht als Text in einem Onlineshop angezeigt wurde, nicht ausreicht.

Hi!

Ist denn OCR überhaupt ein Thema?

Es ist wirklich leicht, nur das im Vergleich winzige HTML-Dokument zu laden, und daraus dann alles, was wie ne Adresse aussieht, zu extrahieren.

Bilder nach Adressen durchsuchen ist da deutlich aufwändiger. Da sind meist sehr viele Bilder auf der Webseite, die alle geladen und untersucht werden müssen. Alleine das Laden kostet gut Datenvolumen, und dann noch die Rechenzeit, um erstmal wirklich sämtlichen Text zu erkennen. Erst dann kann dann die Untersuchung auf interessante Adressen erfolgen.
Ich bin mir sehr sicher, das lohnt sich nicht.

Den Text zu verzerren und mit irgendeinem irreführenden Hintergrund zu versehen, kann ganz gewaltig nach hinten los gehen. Denn das Impressum muß klar und deutlich lesbar sein, eine gegen OCR wirksame Verzerrung wird auch für den Menschen nur mit großer Mühe lesbar sein. Du wirst recht schnell Post mit gutgemeinten, nicht kostenlosen Ratschlägen zur Verbesserung deiner Webseite bekommen.

Was gut funktionieren könnte, ist das Zerschneiden des Bildes in senkrechte Streifen. Die Programme, die die Webseiten abgrasen, werden vielleicht jedes einzelne Bild einer Seite per OCR untersuchen, sie werden aber nicht z.B. vier nebeneinander angezeigte Bilder als ein ganzes betrachten und untersuchen. Allerdings: Wehe, wenn was schief geht, und die vier Bilder auf dem Handy grade nicht sauber ausgerichtet angezeigt werden. Das gibt wieder Verbesserungsvorschläge…