ich beschäftige mich gerade mit der Thematik im Bereich der Clusteranalyse. Was ich jedoch noch nicht verstehe:
Bei der Bestimmung der idealen Clusteranzahl mittels der in einem Koordinatensystem dargestellten Homogenitätsentwicklung (Fehlerquadratsumme und Anzahl der Cluster) sucht man ja nach dem „Elbow“ (Elbow-Kriterium). Warum sucht man gerade diesen Wert? Weil das die niedrigste Clusterzahl mit niedrigster Fehlerquadratsumme ist?
die Frage der optimalen Cluster ist sehr schwierig. einfacer ist der Fall, wenn man genau k cluster haben will - dann kann man hirarchical clustering anwenden und kommt zum Ergebnis.
ist k selbst variabel, kommen mehrere Möglichkeiten in Betracht. u.a. das elbow-kriterium. Dieses minimiert nicht die Fehlerquadratsummen (FQS), aber er zeigt gewissermassen an, bis wohin die Zahl der Cluster die FSQ massgeblich beeinflussen. Wobei das nicht test-basiert ist, sondern nur pi*Daumen.
Lit: http://www.lsta.upmc.fr/doct/fischer/fischer/publica…
Grüße,
JPL