Hi,
ich habe in einer DB ein paar Datensätze und einige Felder davon können sehr ähnlich sein. Er soll immer die ersten zwei mit einem bestimmten Ähnlichkeitswert finden.
Den Wert kann ich mit levenshtein-Algorytmus berechnen.
Das problem ist die Datenmenge.
Bei 200.000 Datensätzen ist das ganze nicht mehr wirklich performant, wenn man es in PHP-cli schreibt.
Gibt es einen Mechanismus, die rechenoperationen zu veringern, wenn man dennoch jedes Feld mit jedem anderen seines Namens vergleichen will?
Wär für Tips jeder hinsicht dankbar.
Ich will auf eine Rechenzeit von unter 10min bei 200.000 Datensätzen kommen.
gez.
Der Desian