Hallo zusammen,
ich suche nach einer Software, die Textdateien auf Übereinstimmungen hin untersucht.
(Google und die Forensuche habe ich bereits bemüht, aber nur Hinweise auf Programme gefunden, die Unterschiede aufzeigen - diff, merge, etc.)
Was mir vorschwebt wäre ein Programm, das ich mit einer größeren Anzahl (ca. 50-100) nicht allzu kurzer Texte (je 10-100 Seiten) füttern kann und das mir dann Zeichenketten ab einer gewissen Länge (z.B. ab 20 Zeichen oder 5 Wörter) nebst Fundorten ausgibt. Etwa:
„lorem ipsum dolor sit amet consectetur sadipisci“
(48 Zeichen; 7 Wörter)
Text 1: Zeile 236
Text 17: Zeile 1612
…
Abweichungen in Zeichensetzung und Großkleinschreibung sollten das Auffinden nicht verhindern.
Laufen sollte das Programm möglichst unter Linux oder Windows. Ein GUI ist nicht nötig, die benötigte Rechenzeit bis zu einem gewissen Grad zweitrangig.
Dankbar wäre ich auch über Hinweise, mit welchen Hilfsmitteln sich so etwas ggf. selbst realisieren läßt.
(Rudimentäre Kenntnisse in Programmierung und Datenbanken sind vorhanden)
Es wäre schön, wenn mir jemand weiterhelfen könnte.
Herzlich
Bitmap