Pdf's katalogisieren

Tato · 19. März 2006 um 14:28

Hallo,

ich habe eine Menge (mehrere Hundert) kleiner *.pdf-Dateien. Leider sind die Dateinamen mist, müsste sie auch noch umbenennen (der Titel steht meist auf der ersten Seite der pdf-Datei.
Ich befürchte, dieses ist reine Handarbeit und lässt sich nicht automatisieren - oder?

Als zweiten Schritt möchte ich diese Dateien katalogisieren, damit man sich in diesem Chaos zurechtfindet. Hat da jemand zufällig eine Idee? Gibt es eine Software, die ein Inhaltsverzeichnis mit allen Dateien erstellen kann?

Die Programme sollten möglichst freeware sein.

Gruß
Tato

Netwolf · 19. März 2006 um 15:40

Hallo Tato,

Ich befürchte, dieses ist reine Handarbeit und lässt sich
nicht automatisieren - oder?

nein, das geht nicht

Als zweiten Schritt möchte ich diese Dateien katalogisieren,
damit man sich in diesem Chaos zurechtfindet. Hat da jemand
zufällig eine Idee? Gibt es eine Software, die ein
Inhaltsverzeichnis mit allen Dateien erstellen kann?

nimm DOS:

dir *.pdf > Inhalt.txt

Grüße aus Essen
Wolfgang

Tato · 19. März 2006 um 15:47

Hallo Wolfgang,

Danke für deine Antwort

Ich befürchte, dieses ist reine Handarbeit und lässt sich
nicht automatisieren - oder?

nein, das geht nicht

Kann man denn diesen Vorgang irgendwie vereinfachen? Also wenn man das anklicken zum umbenennen vermeiden könnte (Aufbau wie in einer Excel-Tabelle wäre schön).

Wenn ich den Dateinamen ändern könnte, dann würde sich das katalogisieren erledigen, weil man ja die Suchfunktion betätigen kann.

Gruß
Tato

Netwolf · 19. März 2006 um 16:27

Hallo Tato,

Kann man denn diesen Vorgang irgendwie vereinfachen? Also wenn
man das anklicken zum umbenennen vermeiden könnte (Aufbau wie
in einer Excel-Tabelle wäre schön).

es gibt reichlich Umbenennungstools (rename) wie z.B. Joe, die Massen von Dateinamen umbenennen helfen. Allerdings nicht in Anhängigkeit vom Inhalt!

Wenn ich den Dateinamen ändern könnte, dann würde sich das
katalogisieren erledigen, weil man ja die Suchfunktion
betätigen kann.

das kannst du auch jetzt schon. Die neuen Desktop-Suchprogramme wie z.B. Google-Desktop können auch den Inhalt von PDF-Dateien durchsuchen.

Grüße aus Essen
Wolfgang

Tato · 19. März 2006 um 17:47

Hallo Wolfgang,

das kannst du auch jetzt schon. Die neuen
Desktop-Suchprogramme wie z.B. Google-Desktop können auch den
Inhalt von PDF-Dateien durchsuchen.

Daran habe ich nicht gedacht. Dann brauch ich die ja gar nicht umbenennen *freu* Allerdings sendet Google-Desktop Daten an Google, das möchte ich nicht. Kann man das unterbinden oder gibt es ein anderes Programm? Zudem brauche ich den restlichen Firlefanz gar nicht…

Gruß
Tato

Schorsch_de7743 · 19. März 2006 um 18:09

das kannst du auch jetzt schon. Die neuen
Desktop-Suchprogramme wie z.B. Google-Desktop können auch den
Inhalt von PDF-Dateien durchsuchen.

Daran habe ich nicht gedacht. Dann brauch ich die ja gar nicht
umbenennen *freu* Allerdings sendet Google-Desktop Daten an
Google, das möchte ich nicht. Kann man das unterbinden oder
gibt es ein anderes Programm?

Das ist m. W. nur dann der Fall, wenn du a) ein Netzwerk indizierst und b) über einen Google-Account verfügst. In diesem Fall wird der Index auf einem Google-Server abgelegt, ansonsten sendet GD keinerlei Daten an Google.

Ausserdem gibt es einige Alternativen zu GD, z. B. xfriend http://www.heise.de/newsticker/meldung/70940

Du wirst mit dem Indizieren aber nicht weit kommen, wenn es sich bei den PDFs um eingescannte Dokumente handelt, da diese ausschliesslich Bildinhalte haben. Zunächst also wäre zu klären, woher du die PDFs überhaupt hast. Sind es selbsterstellte, kannst du z. B. über die Einfügung von Kommentarzeilen ins Dokument eine Indizierung und ein späteres Wiederfinden sehr vereinfachen.

Gruss
Schorsch

AnnJabusch_2320f9 · 19. März 2006 um 23:07

hallo,

Allerdings sendet Google-Desktop Daten an
Google, das möchte ich nicht. Kann man das unterbinden oder
gibt es ein anderes Programm? Zudem brauche ich den restlichen
Firlefanz gar nicht…

was brauchst du denn google dazu? seit anbeginn der zeit hat man auf windows-rechnern eine suchfunktion, die sowohl dateinamen, als auch worte aus dem inhalt suchen kann. auch bei pdfs geht das.

gruß
ann

Tato · 19. März 2006 um 23:55

Hallo Ann,

was brauchst du denn google dazu? seit anbeginn der zeit hat
man auf windows-rechnern eine suchfunktion, die sowohl
dateinamen, als auch worte aus dem inhalt suchen kann. auch
bei pdfs geht das.

Ich habe es ausprobiert - hat nicht funktioniert. Ich kann nur suchen, in dem ich die Suchfunktion beim Acrobat Reader betätige.
Die ist aber bei etwa 550MB und 522 Dateien sehr langsam…
Ich hatte gehofft, die anderen Suchprogramme sind schneller.

Gruß
Tato

Tato · 19. März 2006 um 23:58

Ausserdem gibt es einige Alternativen zu GD, z. B. xfriend
http://www.heise.de/newsticker/meldung/70940

Damit kam ich irgendwie nicht klar, wahrscheinlich habe ich mich zu doof angestellt…

Du wirst mit dem Indizieren aber nicht weit kommen, wenn es
sich bei den PDFs um eingescannte Dokumente handelt, da diese
ausschliesslich Bildinhalte haben. Zunächst also wäre zu
klären, woher du die PDFs überhaupt hast.

Es sind pdf’s aus dem Internet. Es handelt sich also nicht um gescannte Bilder. Einzeln lassen sich die Dateien gut mit dem Acrobat Reader durchsuchen, aber alle 522 Dateien dauern extrem lange (habe dann irgendwann abgebrochen…).

Gruß
Tato

Schorsch_de7743 · 20. März 2006 um 00:09

was brauchst du denn google dazu? seit anbeginn der zeit hat
man auf windows-rechnern eine suchfunktion, die sowohl
dateinamen, als auch worte aus dem inhalt suchen kann. auch
bei pdfs geht das.

Das hat die Windows-Suchfunktion noch nie beherrscht.

Gruss
Schorsch

Schorsch_de7743 · 20. März 2006 um 00:11

Es sind pdf’s aus dem Internet. Es handelt sich also nicht um
gescannte Bilder. Einzeln lassen sich die Dateien gut mit dem
Acrobat Reader durchsuchen, aber alle 522 Dateien dauern
extrem lange (habe dann irgendwann abgebrochen…).

Auch mit dem Google Desktop wird der Index-Aufbau einmalig sehr lange dauern. Sobald der Index aber steht, kannst du dann sämtliche Dokumente mit einem Schlag sehr schnell durchsuchen.

Gruss
Schorsch

Gerhard_9q95t87ug · 20. März 2006 um 09:15

Hallo,

schau dir mal den „pdf-explorer“ an:

http://www.chip.de/downloads/c1_downloads_15918400.html

Gerhard

AnnJabusch_2320f9 · 20. März 2006 um 09:45

komisch, so suche ich immer. screenshot anbei
http://www.annjabusch.de/suchergebnisse.jpg

DW0815_3b8c5a · 20. März 2006 um 09:53

Hallo

Als zweiten Schritt möchte ich diese Dateien katalogisieren,
damit man sich in diesem Chaos zurechtfindet. Hat da jemand
zufällig eine Idee? Gibt es eine Software, die ein
Inhaltsverzeichnis mit allen Dateien erstellen kann?

Die Vollversion von Acrobat (zumindest die älteren, habe gerade keine aktuelle hier) haben das Tool Acrobat Catalog, mit dem sich die Dateien durchsuchen lassen und ein Index erstellt wird.

Die Programme sollten möglichst freeware sein.

Tscha, das ist es leider nicht, evtl. kann man irgendwo günstig an eine ältere Version kommen?

Gruß, DW.

AnnJabusch_2320f9 · 20. März 2006 um 10:10

dann schau mal bitte hier:
http://www.annjabusch.de/suchergebnisse.jpg

Schorsch_de7743 · 20. März 2006 um 16:43

http://www.annjabusch.de/suchergebnisse.jpg

In dem Fall enthält die Datei Metadaten, die tatsächlich auch für die Windows-Suche lesbar in der Datei abgelegt sind. Dies ist aber ganz etwas anderes, als die hier gewünschte Volltextsuche. Du findest auf diese Weise ausschliesslich Stichwörter, die bei der PDF-Erstellung als ‚Keywords‘ angegeben wurden, nicht aber beliebige Stichwörter aus dem Volltext. Und dies eben auch nur dann, wenn diese Meta-Daten der Datei auch beigegeben wurden.

Auszug aus den Metadaten des v. dir genannten Dokuments: /ModDate(D:20060320003017+01’00’)/CreationDate(D:20060319224932+01’00’)/Title(Tauschticket: Einfach tauschen!)/Creator(Acrobat PDFMaker 6.0 für Word)/Author(thalasso)/ Keywords (Buchticket, Tauschticket, Bücher, Filme, Musik, CD, DVD, Tauschen, Tauschbörse, Computerspiele, PC-Games, Spiele, Games, tauschen, Hilfe, Anleitung, Handbuch, Tipps, Tricks)/Subject(Handbuch, Anleitung, Tipps und Tricks für die Tauschbörsen Buchticket und Tauschticket)/Producer(Acrobat Distiller 6.0.1 (Windows))/Company( )/SourceModified(D:20060319214836)

Gruss
Schorsch

Tato · 21. März 2006 um 00:53

Danke an alle, die zur Lösung beigetragen haben.
Ich benutze jetzt Google-Desktop und konnte mir das Umbenennen sparen. Das geht schnell und die Suche ist erfolgreich.

Gruß
Tato