Suchfunktion für Text in PDF-Dateien?

Ich suche ein Programm oder eine Lösung, womit man in einer Vielzahl von PDF-Dateien (ich habe inzwischen eine ganze Sammlung davon) u.a. nach Schlüsselwörtern suchen kann, d.h. also nach bestimmten Begriffen suchen kann, die Suche sich über alle PDFs z.B. eines Verzeichnisses erstreckt.

Ich habe bei der Google-Suchmaschine gesehen, daß dort auch in PDF-Dateien nach Begriffen gesucht werden kann. Zumindest Google muß also einen entsprechenden Algorithmus haben, um automatisch PDFs zu durchforsten.

Wer kann mir vielleicht einen Tip geben, der mir irgendwie weiterhilft?

Vielen Dank,

Till.

Hallo Till

das funktioniert dich auch über den Windows-Explorer, oder?

Nach folgenden Dateien oder Ordnern suchen: *.pdf
Enthaltener Text: xxx xxx xxx
Suchen in: c:\

Bei mir jedenfalls schon

schönen Gruß

Hallo Till!

Ich suche ein Programm oder eine Lösung, womit man in einer
Vielzahl von PDF-Dateien (ich habe inzwischen eine ganze
Sammlung davon) u.a. nach Schlüsselwörtern suchen kann, d.h.
also nach bestimmten Begriffen suchen kann, die Suche sich
über alle PDFs z.B. eines Verzeichnisses erstreckt.

Das Programmpaket „Adobe Acrobat“ (kostenpflichtig) enthält ein Tool names „Adobe Catalog“. Dieses kann Index-Dateien über mehrere PDF-Dokumente erstellen. Im Adobe Acrobat Reader (kostenlos) kannst Du dann innerhalb dieses Indexes suchen.

Die Windows-eigene Suchfunktion ist hier leider nicht zuverlässig - insbesondere nicht bei nationalen Sonderzeichen (z.B. Umlaute) in den Suchbegriffen.

CU
Markus

Die Windows-eigene Suchfunktion ist hier leider nicht
zuverlässig - insbesondere nicht bei nationalen Sonderzeichen
(z.B. Umlaute) in den Suchbegriffen.

Ja, das habe ich auch festgestellt. Obwohl innerhalb der PDF-Datei der Text als solcher (mittels Acrobat Reader 5) markiert und auch herauskopiert (zB in einen Text-Editor) werden kann, hat die Suchfunktion des Win-Explorers bestimmte Begriffe nicht gefunden.

Liegt das vielleicht daran, dass im PDF-Format der Text nicht immer im „Klartext“, sondern irgendwie „verschlüsselt“ gespeichert wird und deswegen nicht von anderen Programmen erkannt wird?

Das Programmpaket „Adobe Acrobat“ (kostenpflichtig) enthält
ein Tool names „Adobe Catalog“. Dieses kann Index-Dateien über
mehrere PDF-Dokumente erstellen. Im Adobe Acrobat Reader
(kostenlos) kannst Du dann innerhalb dieses Indexes suchen.

Das klingt gut, werde ich ausprobieren.

Vielen Dank,
Till.

Ja, das habe ich auch festgestellt. Obwohl innerhalb der
PDF-Datei der Text als solcher (mittels Acrobat Reader 5)
markiert und auch herauskopiert (zB in einen Text-Editor)
werden kann, hat die Suchfunktion des Win-Explorers bestimmte
Begriffe nicht gefunden.

Liegt das vielleicht daran, dass im PDF-Format der Text nicht
immer im „Klartext“, sondern irgendwie „verschlüsselt“
gespeichert wird und deswegen nicht von anderen Programmen
erkannt wird?

Bei verschlüsselten Dokumenten hast Du das Problem natürlich insbesondere. Generell gibt es aber diverse Möglichkeiten, Sonderzeichen in PDF-Dokumenten darzustellen. Erzeugst Du beispielsweise PDF-Dokumente aus LaTeX, so wird per Default ein Font-Encoding gewählt, das Umlaute aus mehreren Zeichen zusammensetzt: "u = ü
Es ändert sich also die Darstellung (die Kodierung) der Sonderzeichen innerhalb des Dokumentes.

Da die Suchfunktion des Explorers das Font-Encoding nicht interpretiert, sondern lediglich die Bytefolge der PDF-Datei durchsucht, wird die Zeichenfolge nicht gefunden.

Ein ähnliches Problem hast Du unter Win9x mit Zeichenketten im Unicode-Format (zwei Byte beschreiben dort ein Zeichen).

CU
Markus