Fragen zur Clusteranalyse

Hallo,

ich beschäftige mich gerade mit der Thematik im Bereich der Clusteranalyse. Was ich jedoch noch nicht verstehe:

Bei der Bestimmung der idealen Clusteranzahl mittels der in einem Koordinatensystem dargestellten Homogenitätsentwicklung (Fehlerquadratsumme und Anzahl der Cluster) sucht man ja nach dem „Elbow“ (Elbow-Kriterium). Warum sucht man gerade diesen Wert? Weil das die niedrigste Clusterzahl mit niedrigster Fehlerquadratsumme ist?

Ich würde mich über Antworten freuen!

Hi

die Frage der optimalen Cluster ist sehr schwierig. einfacer ist der Fall, wenn man genau k cluster haben will - dann kann man hirarchical clustering anwenden und kommt zum Ergebnis.
ist k selbst variabel, kommen mehrere Möglichkeiten in Betracht. u.a. das elbow-kriterium. Dieses minimiert nicht die Fehlerquadratsummen (FQS), aber er zeigt gewissermassen an, bis wohin die Zahl der Cluster die FSQ massgeblich beeinflussen. Wobei das nicht test-basiert ist, sondern nur pi*Daumen.
Lit: http://www.lsta.upmc.fr/doct/fischer/fischer/publica…
Grüße,
JPL

Dankeschön!