PDF Dateien durchsuchen nach Text

Schuelsche · 10. Mai 2007 um 16:22

Hallo,
ich habe eine Menge PDF-Dokumente (Schulungsunterlagen) in einem Verzeichnis auf einem Linux-Server liegen. Nun möchte ich den Usern die Möglichkeit geben, die in dem Verzeichnis liegenden PDF-Dokumente nach bestimmten Wörtern zu durchsuchen. Bsp. gibt der User den Begriff „Produktion“ ein, und dann sollen ihm alle PDFs angezeigt werden, die diesen Begriff enthalten. Der Begriff kommt dabei aber nicht im Dateinamen des PDF’s vor, sondern innerhalb des Textes.

Eine Software, die das können soll, ist htdig. Nur weiss ich nicht, ob die überhaupt noch unterstützt wird, denn auf htdig.org sind die letzten Eintragungen von 2004. Ich habe auch schonmal ein bisschen damit rumgespielt, komme aber mit den Einstellungen nicht so richtig klar.

Eine andere Software, die sowas auch unterstützt, ist OWL von http://owl.sourceforge.net/ . Das hatte ich auch installiert, aber da sind einige andere Sachen umständlich, den die PDF’s müssen hier ja erst eingeladen werden. Im Prinzip geht es bei mir ja nur darum, ein vorhandenes Verzeichnis durchsuchen zu können.

Gibt es irgendwas aktuelles oder irgendeine andere Software, die sowas kann? Am besten ist natürlich, wenn man die Suchfunktion über ein webbasiertes Formular erreichen kann…

Grüsse
schuelsche

Semjon_Michailowitsch_580bb3 · 10. Mai 2007 um 16:39

Hallo,

Gibt es irgendwas aktuelles oder irgendeine andere Software,
die sowas kann? Am besten ist natürlich, wenn man die
Suchfunktion über ein webbasiertes Formular erreichen kann…

Einfach pdftotex (http://www.bluem.net/downloads/pdftotext_en/)
mit dem fraglichen pdf’s aufrufen, den Text auffangen und darin
suchen.

Praktisch würdest Du z.B. ein … action=tuesuchen.cgi? …
bei [Abschicken] einbinden, welches dann als
shell-prozess pdftotext startet und den Text
auswertet. Wenn das öfters gemacht werden soll,
müßte man natürlich einmal vorher von *allen*
pdf’s ein zugehöriges .txt erzeugen (mit gleichem
Namen).

Grüße

CMБ

Schuelsche · 16. Mai 2007 um 09:40

Hallo,

das hört sich schonmal gut an mit dem pdftotext… nur würde ich mir jetzt gerne die Aufgabe vereinfachen und alle PDF’s in einem Verzeichnis in eine Textdatei in einem Rutsch zu wandeln, und zwar so, dass der Name der PDF-Datei erhalten bleibt, so dass ich dem User nach seiner Abfrage sagen kann „Dein gesuchter Begriff ist in blabla.pdf enthalten“.

Mein Ordner enthält zum Beispiel folgende Dateien:
beispiel.pdf test.pdf wasanderes.pdf blabla.pdf

Die Anzahl der Dateien im Ordner ist variabel und die Dateinamen dann entsprechend natürlich auch. Ich würde jetzt gerne ein Skript programmieren, das mir alle Dateien in diesem Ordner in ein entsprechendes Textfile umwandelt, also zB:
beispiel.txt test.txt wasanderes.txt blabla.txt

Diese Dateien kann ich ja dann über grep durchsuchen lassen und dem User das dann entsprechend einblenden.

Leider weiss ich nicht, welche Suchbegriffe hier für Suchmaschinen sinnvoll sind, aber vielleicht gibt es ja irgendwo schon einen solchen Codeschnipsel, der mir das automatisiert. Oder was vergleichbares, wo das Prinzip drinsteht, dass ich dann auf diesen Fall übertragen kann…

Grüsse
schuelsche