Prinzipiell Component Analyse?

hallo zusammen,
ich möchte von meherer eingangsvektoren(300 stuck), die 1700 lang sind
die wichtigste merkmale bestimmen damit ich den eingangsvektor reduzieren kann.
ich habe erfahren dass es mit PCA geht aber ich weiss nicht wie die implementation(mathematisch) des algorithnus aussieht.
kann jemand mir helfen oder kennt jemand ein paar literatur quellen.
danke

youssef

Hallo,

warum steckst Du Deine Daten nicht in ein Standardstatistikprogramm und läßt den Computer rechnen? Das Verfahren, was Du meinst, heißt Hauptkomponentenanalyse (principal component analysis) und ist eine bestimmte Art der Faktorenanalyse.

Gruß,

Oliver Walter

Hallo Youssef,

kannst Du mit Matrizen rechnen? Mehr brauchst Du bzw. Dein Programm dazu nicht - sogar Excel reicht aus.

X bildet die n x p Matrix Deiner (Spalten-)Vektoren mit n>p (Hier: 1700 x 300).

X’X ist also eine quadratische p x p (300 x 300) Matrix. X’X kannst Du als ZLZ’ darstellen mit L als der Diagonalmatrix der - absteigend geordneten - p (300) nichtnegativen Eigenwerte und Z als Matrix der Eigenvektoren.
XX’ ist eine quadratische n x n (1700 x 1700) Matrix vom Rang (höchstens) p und mit (höchstens) p Eigenwerten >0, d.h. mit mindestens n-p (1400) Eigenwerten = 0. Die Eigenwerte >0 von X’X und von XX’ sind identisch.
Man kann nun XX’ ebenso darstellen als ULU’ mit U als Matrix der Eigenvektoren von XX’.
Folglich lässt sich X, die Matrix der ursprünglichen Vektoren, darstellen als UL^(1/2)Z’. L^(1/2) ist die Diagonalmatrix der positiven Wurzeln der p Eigenwertevon X’X.

Berechne nun die n x p (1700 x 300) Matrix W=XZ=UL(1/2) (Gleichheit, da Z’Z=I).Die Spalten von W sind nun die Hauptkomponenten (principal components) Deiner Vektoren. Die Hauptkomponenten sind zueinander orthogonale Vektoren.

Die Hauptkomponentenanalyse wird zwar im Rahmen der Faktorenanalyse angewandt, ist aber ein eigenständiges Verfahren von großer Bedeutung.

Literaturquelle: z.B. Applied Regression Analysis von Rawlings/Pantula/Dockey, Springer Verlag.

Beste Grüße
Katharina

[Bei dieser Antwort wurde das Vollzitat nachträglich automatisiert entfernt]