Statistik: Clusteranalyse (Distanzmaße, etc)

Hallo zusammen!

Ich bin auf der Suche nach nem Buch, Skript, etc über Clusteranalysen. Dabei geht es mir aber nicht darum, wie das ganze funktioniert (das weiß ich mittlerweile), sondern wie sie angewendet werden soll.

Es gibt bei SPSS/Statistica, etc zig Möglichkeiten zu Clustern, verschiedene Alghoritmen, verschiedene Distanzamße, etc.

Leider habe ich noch nirgendwo eine Übersicht gefunden, welches die Vor- und Nachteile der einzelnen Methoden sind, bzw. wann welche „Art“ sinnvoll ist.

Hat mir da jemand ein Tipp?
Wie gegsat, mir würde auch ein PDF-Skript o.Ä. reichen, oder ein paar Literaturtipps! (Ein bisschen was habe ich schon im Backhaus - multivariate analysemethoden gefunden)

Ach so, bevor ichs vergesse: Mich interessiert besonders der Bereich Wirtschaftswissenschaften, speziell Marketing & Marktforschung.

Thanx a lot!

Peer

Hallo !

Dabei geht es mir aber nicht darum, wie das
ganze funktioniert (das weiß ich mittlerweile), sondern wie
sie angewendet werden soll.

Hmmm… wenn du weißt, wie „das ganze“ funktioniert, dann sollte die eigentlich klar sein, welche Vor- und Nachteile und welche Anwendungsgebiete welche Methode hat.

Naja, trotzdem ein paar Links:

http://www.psychstat.missouristate.edu/multibook/mlt…
http://stat.ethz.ch/~stahel/courses/multivariate/scr…
http://ki.informatik.uni-wuerzburg.de/teach/ws-2004-…
http://www.gfsbern.ch/auswertungstechniken/cluster-a…
http://stats.math.uni-augsburg.de/lehre/SS04/CA1.pdf
http://stats.math.uni-augsburg.de/lehre/SS04/CA2.pdf
http://stats.math.uni-augsburg.de/lehre/SS04/CA3.pdf
http://www.cs.ualberta.ca/%7Ezaiane/courses/cmput690…
http://149.170.199.144/multivar/hc.htm
http://www2.chass.ncsu.edu/garson/PA765/cluster.htm

Bücher:

http://www.amazon.de/s?ie=UTF8&index=books-de&field-…

Und dann die Literaturtipps aus Wikipedia:

* Steffen Bickel and Tobias Scheffer, Multi-View Clustering. Proceedings of the IEEE International Conference on Data Mining, 2004

* Bortz, J. (1999), Statistik für Sozialwissenschaftler. (Kap. 16, Clusteranalyse). Berlin: Springer

* A. Dempster, N. Laird, and D. Rubin, Maximum likelihood from incomplete data via the EM algorithm. Journal of the Royal Statistical Society B 39, 1977

* Moosbrugger, H. & Frank, D. (1992). Clusteranalytische Methoden. Bern: Huber

* Shi, J., and J. Malik Normalized Cuts and Image Segmentation, in Proc. of IEEE Conf. on Comp. Vision and Pattern Recognition, Puerto Rico 1997

* Xu, L., Neufeld, J., Larson, B. and Schuurmans, D., Maximum margin clustering. To appear in Advances in Neural Information Processing Systems (NIPS*2004), 2004

* Klaus Backhaus, Bernd Erichson, Wulf Plinke, Rolf Weiber, Multivariate Analysemethoden. Springer

* Härdle, W.; Simar, L. Applied Multivariate Statistical Analysis, Springer, New York, 2003

* Ester, M. and Sander, J. Knowledge Discovery in Databases. Techniken und Anwendungen, Springer, Berlin, 2000

Hat mir da jemand ein Tipp?

Tipps genug?

Ach so, bevor ichs vergesse: Mich interessiert besonders der
Bereich Wirtschaftswissenschaften, speziell Marketing &
Marktforschung.

Die Sinnhaftigkeit einer Methode hängt immer vom genauen Problem und der Art der Daten ab. Das hat nichts mit dem Fachgebiet zu tun.

LG,
Jochen

Thanx, werd ich mir nacher mal in Ruhe anschaun!

btw… nur weil weiß, was die Mathematik macht, weiß man abernoch lange nicht welche Methode sich für was in der Praxis bewährt/eingebürgert hat :wink: ==> so meinte ich das :wink:

Greetz

btw… nur weil weiß, was die Mathematik macht, weiß man
abernoch lange nicht welche Methode sich für was in der Praxis
bewährt/eingebürgert hat :wink: ==> so meinte ich das :wink:

auch btw:

Das verstehe ich wohl…

… dennoch:

eigentlich und streng genommen ist es nicht nötig, zu schauen, was sich so „bewährt“ bzw. „eingebürgert“ hat. Es gibt nur zwei (vielleicht drei) Kriterien, nach denen eine Methode gewählt werden sollte:

  1. Die Methode muss zu den Daten und zur Fragestellung passen. Das ergibt sich streng aus der Mathematik.

  2. Wenn mehrere wirklich gleichwertige Methoden in Frage kommen, verwendet man die einfachere bzw. diejenige, welche mit weniger (unnötigen) Grundannahmen über die Daten auskommt.

[3) Wenn es auch dann noch gleichwertige Alternativen gibt, entscheidet die Vorliebe des Anwenders]

Gerade bei Clusteranalysen ist es so, dass viele Leute falsche bzw. für ihre Fragestellung sinnfreie Verfahren anwenden, nur, weil andere die gleichen Verfahren anwenden und „man das halt so kennt“. wissenschaftlich grenzt sowas an Schwachsinn (IMHO).

LG
Jochen