ich habe eine Menge (mehrere Hundert) kleiner *.pdf-Dateien. Leider sind die Dateinamen mist, müsste sie auch noch umbenennen (der Titel steht meist auf der ersten Seite der pdf-Datei.
Ich befürchte, dieses ist reine Handarbeit und lässt sich nicht automatisieren - oder?
Als zweiten Schritt möchte ich diese Dateien katalogisieren, damit man sich in diesem Chaos zurechtfindet. Hat da jemand zufällig eine Idee? Gibt es eine Software, die ein Inhaltsverzeichnis mit allen Dateien erstellen kann?
Ich befürchte, dieses ist reine Handarbeit und lässt sich
nicht automatisieren - oder?
nein, das geht nicht
Als zweiten Schritt möchte ich diese Dateien katalogisieren,
damit man sich in diesem Chaos zurechtfindet. Hat da jemand
zufällig eine Idee? Gibt es eine Software, die ein
Inhaltsverzeichnis mit allen Dateien erstellen kann?
Ich befürchte, dieses ist reine Handarbeit und lässt sich
nicht automatisieren - oder?
nein, das geht nicht
Kann man denn diesen Vorgang irgendwie vereinfachen? Also wenn man das anklicken zum umbenennen vermeiden könnte (Aufbau wie in einer Excel-Tabelle wäre schön).
Wenn ich den Dateinamen ändern könnte, dann würde sich das katalogisieren erledigen, weil man ja die Suchfunktion betätigen kann.
Kann man denn diesen Vorgang irgendwie vereinfachen? Also wenn
man das anklicken zum umbenennen vermeiden könnte (Aufbau wie
in einer Excel-Tabelle wäre schön).
es gibt reichlich Umbenennungstools (rename) wie z.B. Joe, die Massen von Dateinamen umbenennen helfen. Allerdings nicht in Anhängigkeit vom Inhalt!
Wenn ich den Dateinamen ändern könnte, dann würde sich das
katalogisieren erledigen, weil man ja die Suchfunktion
betätigen kann.
das kannst du auch jetzt schon. Die neuen Desktop-Suchprogramme wie z.B. Google-Desktop können auch den Inhalt von PDF-Dateien durchsuchen.
das kannst du auch jetzt schon. Die neuen
Desktop-Suchprogramme wie z.B. Google-Desktop können auch den
Inhalt von PDF-Dateien durchsuchen.
Daran habe ich nicht gedacht. Dann brauch ich die ja gar nicht umbenennen *freu* Allerdings sendet Google-Desktop Daten an Google, das möchte ich nicht. Kann man das unterbinden oder gibt es ein anderes Programm? Zudem brauche ich den restlichen Firlefanz gar nicht…
das kannst du auch jetzt schon. Die neuen
Desktop-Suchprogramme wie z.B. Google-Desktop können auch den
Inhalt von PDF-Dateien durchsuchen.
Daran habe ich nicht gedacht. Dann brauch ich die ja gar nicht
umbenennen *freu* Allerdings sendet Google-Desktop Daten an
Google, das möchte ich nicht. Kann man das unterbinden oder
gibt es ein anderes Programm?
Das ist m. W. nur dann der Fall, wenn du a) ein Netzwerk indizierst und b) über einen Google-Account verfügst. In diesem Fall wird der Index auf einem Google-Server abgelegt, ansonsten sendet GD keinerlei Daten an Google.
Du wirst mit dem Indizieren aber nicht weit kommen, wenn es sich bei den PDFs um eingescannte Dokumente handelt, da diese ausschliesslich Bildinhalte haben. Zunächst also wäre zu klären, woher du die PDFs überhaupt hast. Sind es selbsterstellte, kannst du z. B. über die Einfügung von Kommentarzeilen ins Dokument eine Indizierung und ein späteres Wiederfinden sehr vereinfachen.
Allerdings sendet Google-Desktop Daten an
Google, das möchte ich nicht. Kann man das unterbinden oder
gibt es ein anderes Programm? Zudem brauche ich den restlichen
Firlefanz gar nicht…
was brauchst du denn google dazu? seit anbeginn der zeit hat man auf windows-rechnern eine suchfunktion, die sowohl dateinamen, als auch worte aus dem inhalt suchen kann. auch bei pdfs geht das.
was brauchst du denn google dazu? seit anbeginn der zeit hat
man auf windows-rechnern eine suchfunktion, die sowohl
dateinamen, als auch worte aus dem inhalt suchen kann. auch
bei pdfs geht das.
Ich habe es ausprobiert - hat nicht funktioniert. Ich kann nur suchen, in dem ich die Suchfunktion beim Acrobat Reader betätige.
Die ist aber bei etwa 550MB und 522 Dateien sehr langsam…
Ich hatte gehofft, die anderen Suchprogramme sind schneller.
Damit kam ich irgendwie nicht klar, wahrscheinlich habe ich mich zu doof angestellt…
Du wirst mit dem Indizieren aber nicht weit kommen, wenn es
sich bei den PDFs um eingescannte Dokumente handelt, da diese
ausschliesslich Bildinhalte haben. Zunächst also wäre zu
klären, woher du die PDFs überhaupt hast.
Es sind pdf’s aus dem Internet. Es handelt sich also nicht um gescannte Bilder. Einzeln lassen sich die Dateien gut mit dem Acrobat Reader durchsuchen, aber alle 522 Dateien dauern extrem lange (habe dann irgendwann abgebrochen…).
was brauchst du denn google dazu? seit anbeginn der zeit hat
man auf windows-rechnern eine suchfunktion, die sowohl
dateinamen, als auch worte aus dem inhalt suchen kann. auch
bei pdfs geht das.
Das hat die Windows-Suchfunktion noch nie beherrscht.
Es sind pdf’s aus dem Internet. Es handelt sich also nicht um
gescannte Bilder. Einzeln lassen sich die Dateien gut mit dem
Acrobat Reader durchsuchen, aber alle 522 Dateien dauern
extrem lange (habe dann irgendwann abgebrochen…).
Auch mit dem Google Desktop wird der Index-Aufbau einmalig sehr lange dauern. Sobald der Index aber steht, kannst du dann sämtliche Dokumente mit einem Schlag sehr schnell durchsuchen.
Als zweiten Schritt möchte ich diese Dateien katalogisieren,
damit man sich in diesem Chaos zurechtfindet. Hat da jemand
zufällig eine Idee? Gibt es eine Software, die ein
Inhaltsverzeichnis mit allen Dateien erstellen kann?
Die Vollversion von Acrobat (zumindest die älteren, habe gerade keine aktuelle hier) haben das Tool Acrobat Catalog, mit dem sich die Dateien durchsuchen lassen und ein Index erstellt wird.
Die Programme sollten möglichst freeware sein.
Tscha, das ist es leider nicht, evtl. kann man irgendwo günstig an eine ältere Version kommen?
In dem Fall enthält die Datei Metadaten, die tatsächlich auch für die Windows-Suche lesbar in der Datei abgelegt sind. Dies ist aber ganz etwas anderes, als die hier gewünschte Volltextsuche. Du findest auf diese Weise ausschliesslich Stichwörter, die bei der PDF-Erstellung als ‚Keywords‘ angegeben wurden, nicht aber beliebige Stichwörter aus dem Volltext. Und dies eben auch nur dann, wenn diese Meta-Daten der Datei auch beigegeben wurden.
Auszug aus den Metadaten des v. dir genannten Dokuments: /ModDate(D:20060320003017+01’00’)/CreationDate(D:20060319224932+01’00’)/Title(Tauschticket: Einfach tauschen!)/Creator(Acrobat PDFMaker 6.0 für Word)/Author(thalasso)/ Keywords (Buchticket, Tauschticket, Bücher, Filme, Musik, CD, DVD, Tauschen, Tauschbörse, Computerspiele, PC-Games, Spiele, Games, tauschen, Hilfe, Anleitung, Handbuch, Tipps, Tricks)/Subject(Handbuch, Anleitung, Tipps und Tricks für die Tauschbörsen Buchticket und Tauschticket)/Producer(Acrobat Distiller 6.0.1 (Windows))/Company( )/SourceModified(D:20060319214836)
Danke an alle, die zur Lösung beigetragen haben.
Ich benutze jetzt Google-Desktop und konnte mir das Umbenennen sparen. Das geht schnell und die Suche ist erfolgreich.