Bildverwaltung mit besonderen Eigenschaften

Hallo allerseits,

vielleicht kennt jemand eine nette Software (Linux),
welche das Folgende kann:

Gegeben seien drei Festplatten NAS1, SYS1 und SYS2,
unter Linux also drei Verzeichnisbäume.

Gesucht wird von mir ein Programm, welches mir
fuer jedes Bild anzeigt, welches es in den drei
Bäumen findet (JPEG,TIF,Raw Files, etc), ob es
unique oder ein Duplikat eines anderen ist.

Oder alternativ: ein Programm, welches die drei Bäume
merged und Duplikate dabei erkennt und mir die Option
gibt, sie zu löschen.

Zu viel verlangt von einem Programm?
(Wenn ja, werd ich’s selber schreiben …)

Gruss
norsemanna

Hallo,

hast du mal Digikam probiert?

Cheers, Felix

eigentlich nicht so schwer ,
solange du durch ein Verzeichnisbaum itterieren kannst,
brauchst du nur ein MD5 wert erzeugen und gucken obs doppelte werte gibt.

Da wo doppelt speichert man den pfad :smile:

In Perl z.b. sinds nur paar zeilen zum Glück :smile:

Hi,

brauchst du nur ein MD5 wert erzeugen und gucken obs doppelte
werte gibt.

den Teil mit der md5sum hatte ich vorher schon fertig. Deswegen weiss ich ja auch, dass ich viele Duplikate habe und fuer diese moechte dann irgendwie komfortabel entscheiden koennen, welches fuer mich das Original ist und welches die Kopie (In anderen Worten: Ich will aus den drei Verzeichnissen eines machen, ohne Duplikate, und dieses eine Verzeichnis wird dann zurueckgespielt auf die Platten). Der digikam Tip vom Felix war schon richtig (und ja, ich hab schon gefunden, wo man die Similars findet; nur der Kommentar am Anfang, dass keine NFS und Network shares unterstuetzt werden, hat mich ein wenig ueberrascht)

Gruss
norsemanna

Gesucht wird von mir ein Programm, welches mir
fuer jedes Bild anzeigt, welches es in den drei
Bäumen findet (JPEG,TIF,Raw Files, etc), ob es
unique oder ein Duplikat eines anderen ist.

Hallo norsemanna,
also ich habe sehr gute Erfahrungen mit „Doublekiller“ (Freeware unter http://www.bigbangenterprises.de/de/products.htm) gemacht.
Ich weiß leider nicht, ob es auch unter Linux läuft.
Gruß Fritz

Hallo norsemanna,

den Teil mit der md5sum hatte ich vorher schon fertig.
Deswegen weiss ich ja auch, dass ich viele Duplikate habe und
fuer diese moechte dann irgendwie komfortabel entscheiden
koennen, welches fuer mich das Original ist und welches die
Kopie

Machst Du es dir da nicht zu kompliziert? Bilder mit dem gleichen MD5-Wert sind gleich, was willst Du da noch nach Kopie und Original unterscheiden? Ein digitales Foto, fünfmal kopiert, sieht immer noch so aus wie das Original.
Wenn A dein „Original-Verzeichnis“ ist und B und C deine „Kopien“, musst Du doch nur noch mit einen Skript automatisieren, welche Du löschst, bzw. verschiebst.
Liegt ein Bild in A, können die entsprechenden Bilder in B und C gelöscht werden, falls dort vorhanden.
Liegt ein Bild nur in B und/oder C, schiebst Du das eine Bild nach A und das andere löschst Du. Dabei spielt es keine Rolle, ob Du von B nach verschiebst und in C löschst, oder umgekehrt.
Sichten und entscheiden ist da unnötig, es sei denn, die Bilder in B und C wurden irgendwie verändert/verkleinert u.ä. Aber da hilft dir auch keine MD5-Summe mehr.
Oder übersehe ich was bei deinem Problem?
Ansonsten, wenn Du kein eigenes Skript schreiben möchtest, es gibt dupeGuru Picture Edition
http://www.hardcoded.net/dupeguru_pe/
fslint könnte auch für dich passen
http://wiki.ubuntuusers.de/fslint
oder fdupes
http://en.wikipedia.org/wiki/Fdupes
auf der letzten Seite sind dann noch paar andere Programme aufgeführt, die in die gleiche Richtung zielen. Empfehlungen kann ich mangels Erfahrungen damit keine geben.

Viele Grüße
Marvin

Howdy Marvin,

Machst Du es dir da nicht zu kompliziert? Bilder mit dem
gleichen MD5-Wert sind gleich,

tja, eben diese Aussage stimmt so nicht. Zwei unterschiedliche Dateien koennen von der Theory her durchaus die selbe md5sum haben (selbst fuer sha512sum gilt das noch, wenn es auch unwahrscheinlicher wird). Und ich möchte so ungern das einzige Exemplar eines Fotos löschen, weil ich mich darauf verlassen habe, dass dieser Fall bei mir nicht auftritt.

Also muss man zumindestens noch vergleichen, ob die Dateinamen identisch sind (dann ist die Wahrscheinlichkeit schon mal deutlich höher) und bei unterschiedlichen Dateinamen auch noch ein diff durchführen.

Dazu kommt, dass mein hash_files über 30000 Fotos und Videos laufen muss (die Videos teilweise GB gross), was auf dem NAS schon mal locker Stunden dauern kann (bei sha512sum +20%). Auf den lokalen Platten ist es natürlich etwas schneller.

Deswegen hab ich nach einem Tool gesucht, welches vielleicht schlau genug ist, eine eigene Datenbasis zu verwalten und nur dort neue und grossbittige Hashes zu berechnen, wenn Dateien hinzugekommen sind.

Ansonsten, wenn Du kein eigenes Skript schreiben möchtest, es
gibt dupeGuru Picture Edition
http://www.hardcoded.net/dupeguru_pe/
fslint könnte auch für dich passen
http://wiki.ubuntuusers.de/fslint
oder fdupes
http://en.wikipedia.org/wiki/Fdupes

werd ich mir bei Gelegenheit mal anschauen. Danke.

Gruss
norsemanna

Hallo norsemanna,

Machst Du es dir da nicht zu kompliziert? Bilder mit dem
gleichen MD5-Wert sind gleich,

tja, eben diese Aussage stimmt so nicht. Zwei unterschiedliche
Dateien koennen von der Theory her durchaus die selbe md5sum
haben

Ja, von der Theorie her. Klar, man hat z.B. zwei verschiedene postscript-Dateien mit dem gleichen MD5-Wert konstruiert
http://lwn.net/Articles/139923/
aber für normale Fotos ist diese Wahrscheinlichkeit doch sehr, sehr gering. Bei mir ist es bis jetzt noch nie aufgetreten. Aber gut, lieber zuviel Vorsicht…

Dazu kommt, dass mein hash_files über 30000 Fotos und Videos
laufen muss (die Videos teilweise GB gross), was auf dem NAS
schon mal locker Stunden dauern kann (bei sha512sum +20%).

Lass es über Nacht laufen…

Ansonsten, wenn Du kein eigenes Skript schreiben möchtest, es
gibt dupeGuru Picture Edition

werd ich mir bei Gelegenheit mal anschauen.

Da sieh aber nach, welche Algorithmen die benutzen. Mindestens eins davon hatte wohl MD5 als Basis, und wenn Du dem nicht so recht traust…

Viele Grüße
Marvin

Hi,

Da sieh aber nach, welche Algorithmen die benutzen. Mindestens
eins davon hatte wohl MD5 als Basis, und wenn Du dem nicht so
recht traust…

ja, Fdupes, aber das kommt ja ohnehin nicht in Frage, denn hard links gehen nicht ueber Filesystemgrenzen, insbesondere dann nicht, wenn das eine Filesystem ein NAS ist :wink:

Ich glaub, ich werd mir vorrangig dupeGuru angucken.

Gruss
norsemanna