Suche nach Dateinamen auf einem 100TB ReFS Volume

Ottifant · 14. November 2019 um 12:06

Hallo!

Ich habe hier einen Server mit Windows Server 2012 und einem großen externen Storage, der bei uns auf Arbeit als Projektablage dient. Das Storage habe ich zu einer großen Partition konfiguriert und mit ReFS formatiert (wegen Unterstützung für lange Pfad- und Dateinnamen).

Jetzt sind auf diesem Laufwerk schon zig Millionen Dateien abgelegt und der Windows interne Indexing Service kommt damit nicht mehr klar. Das Indexfile wird zu groß, der Service beendet sich dauernd.

Welche Alternativen gibt es, um ganz einfach und schnell nach Dateinamen oder Ordnernamen zu suchen?
Die Suchfunktion des Datei Explorers ist zu langsam. Und Tools wie Everything laufen leider nicht unter ReFS.
Eine Indexierung im eigentlichen Sinne benötigen wir gar nicht, weil nicht nach dem Inhalt von Dateien gesucht wird sondern meist nur nach dem Namen bzw. Namensbestandteilen.

Bin auf Eure Antworten gespannt. Danke schon mal!
Ottifant

Wiz · 14. November 2019 um 12:10

Hallo,

eine einfache und billige Lösung kann ich mir hierfür nicht vorstellen. Du arbeitest hier angesichts der Datenmenge offenbar in einem massiv professionellen Umfeld, und da braucht es bei solchen Datenmengen nun mal auch professionelles Werkzeug.

Das wäre z.B. ein ordentliches DMS mit einem CAS Speichersystem wie z.B. EMC Centera als Untergrund. CAS-Systeme haben zudem u.a. auch den Vorteil systemimmanent automatisch zu deduplizieren. D.h. eine identische Datei wird genau einmal physikalisch gespeichert (weil der Hashwert der Datei ihre Position bestimmt, und identische Dateien identische Hashwerte erzeugen, die dann natürlich auf die identische Position im Speichersystem verweisen). Jede weitere Speicherung führt dann nur zur Mitteilung der URL der bereits vorhandenen Datei. Zudem sind sie - im Rahmen entsprechender Verfahren - auch die erste Wahl für die revisionssichere Archivierung.

Ihr habt nicht zufällig SAP im Hause im Einsatz? Dazu gibt es den kostenlosen Content Server, den man mit den passenden API (nicht ganz billig) an eine Centera ankoppeln kann. Man kann aber natürlich unter Verzicht auf die ganzen CAS-Vorteile diesen Content Server durchaus auch mit MaxDB oder auf einem Standardfilesystem einsetzen.

Gruß vom Wiz

Anonym_cba4bf · 14. November 2019 um 12:11

Hallo,

was spricht dagegen das alles in eine couch zu schaufeln? ist bei der datenmenge doch sinnig.

hth

Ottifant · 14. November 2019 um 12:19

Danke für Eure Antworten!

@Genius malignus
Ich habe bisher noch keine Erfahrungen mit CouchDB und suchte hier nach einer idiotensicheren und schnell zu implementierenden Lösung.

@Wiz
naja, als „massiv professionell“ würde ich uns nicht bezeichnen.
Die Datenmengen sind im Laufe der letzten 15 Jahre entstanden. Es handelt sich dabei im wesentlichen um alte Datensicherungen und Dokumentationen von allen Projekten der Vergangenheit.
All diese Daten sollen möglichst einfach zugreifbar sein -> deswegen alles zusammen auf einer Maschine, direkt per Windows Explorer zugreifbar

Ich habe mich dazu entschieden, einfach nur ein Directory Listing der gesamten Ablage zu erstellen - Befehl „dir /s /O:G > listing.txt“. Das erzeugt eine einfache Textdatei, die jeder Kollege nach herzenslust durchsuchen kann. Ganz einfach und viel schneller als die Windows Dateisuche. Einziger NAchteil ist, dass diese Datei zu groß für Notepad++ ist. Aber Glogg (Freeware - http://glogg.bonnefon.org/index.html) hat mit der 1,5 GB großen Datei keine Probleme.