Hallo
Ich habe ein PDF-Dokument, das in der Tat ein eingescanntes Bild von einem Text ist. Ich möchte aber dieses PDF-Dokument nach Begriffen durchsuchen.Gibt es eine Software dafür?
Vielen Dank im Voraus
Hallo
Ich habe ein PDF-Dokument, das in der Tat ein eingescanntes Bild von einem Text ist. Ich möchte aber dieses PDF-Dokument nach Begriffen durchsuchen.Gibt es eine Software dafür?
Vielen Dank im Voraus
Hallo donyaz,
grundsätzlich ist jeder Scan erst einmal ein Bild. Die eigentliche Umwandlung in einen Text wird mittels einer sogenannten OCR-Software vorgenommen. Diese versucht, in dem Bild entsprechende Elemente als Buchstaben zu identifizieren und dann daraus Texte zu machen (ganz vereinfacht ausgedrückt). Daher sind in gescannten Dokumenten oft auch sehr seltsame „Schreibfehler“ enthalten, weil einfach die Buchstabenerkennung nicht sauber funktioniert hat.
Da Du schon ein PDF vor Dir hast, ist die Sache etwas komplizierter. Es gibt m.E. zwei Wege das Problem zu lösen:
Ein ganz anderer Weg wäre, die Datei komplett zurück in eine bearbeitbare Datei zu verwandeln, z.B. Word oder RTF. Dies kann mit Software wie beispielsweise PDF2Word oder dergleichen erledigt werden.
Derartige Tools findest Du z.B. unter www.winload.de in der Rubrik PDF-Tools oder www.pdfworker.de .
Mit freundlichen Grüßen aus Mainhattan
Armin Scher
Herzlichen Dank.
Gemäß Deiner Vorschlag habe ich PDF in Word verwandelt aber leider ist es wieder als Bild in Word umgewandelt . Ich werde es bei der OCR-Software probieren.
Grüße
Donyaz
Hallo Donyaz,
sorry, habe ich mich vermutlich mißverständlich ausgedrückt: Die Variante mit Word bezog sich suf eine PDF, die „echte“ Textelemente enthält. In diesem Fall funktioniert das natürlich nur, wenn vorher die OCR-Funktion ausgeführt wurde.
Vielleicht hilft Dir ja auch eine Demoversion von diversen Spezialtools wie etwa PDFTransformer von ABBYY oder ähnlichen Anbietern weiter (vielleicht auch die Acrobat Demo). Die Tools laufen meistens 30 Tage und sind für einmalige Zwecke natürlich hervorragend geeignet. Am einfachsten in einer virtuellen Maschine installieren, dann kann man sie hinterher problemlos wieder „entsorgen“.
Ist zwar etwas umständlich, aber eine sichere und qualitativ hochwertige Variante…
Mit freundlichen Grüßen aus Mainhattan
Armin Scher