insgesamt habe ich in meinem Computer einige 100 Word-Dateien,
die sich teilweise komplett gleichen oder oft sehr ähnlich sind. Ich
möchte bei diesen Dateien die doppelten Textteile herausfiltern. Dazu
habe ich bisher das Programm „DupliFind“ benutzt, das allerdings nur
doppelte Zeilen löschen kann und dabei max. 30.000 Seiten verarbeitet.
Da alle Dateien zu umfangreich sind, um sie miteinander in einen Block
zusammen zu kopieren, musste ich einzelne Blöcke mit je ca. 30.000
Seiten zusammenfassen.
Da jedoch die Gefahr besteht, dass, wenn alle doppelten Zeilen
gelöscht werden, auch die Zeilen verschwinden, die doppelt bleiben
müssen, suche ich nach einer Möglichkeit, doppelte Absätze oder doppelte
Seiten zu suchen und zu löschen.
Kennt jemand eine Methode oder ein Programm, um doppelte Teile heraus zu filtern?