Statistik:Principal Component Analysis und Varianz

Hallo,

In Wikipedia habe ich folgendes Gelesen:

„PCA can be used for dimensionality reduction in a data set by retaining those characteristics of the data set that contribute most to its variance, by keeping lower-order principal components and ignoring higher-order ones.“
http://en.wikipedia.org/wiki/Principal_components_an…

Anschließend wird die Singulärwertzerlegung vorgestellt. Nun versuche ich das ganze an einem Beispiel zu verstehen. Gegeben sei die Blockmatrix A:

A=
1 1 1 0 0
1 1 1 0 0
0 0 0 1 1
0 0 0 1 1

Die Singulärwertzerlegung zerlegt die Matrix in:

USV’ = A

A1 = u1*s1*v1’ =
1 1 1 0 0
1 1 1 0 0
0 0 0 0 0
0 0 0 0 0

A2 = u2*s2*v2’ =
0 0 0 0 0
0 0 0 0 0
0 0 0 1 1
0 0 0 1 1

D.h. die SVD hat die beiden Blöcke in verschiedene Unterräume abgebildet, wobei s1 > s2.

Wenn die Dimension auf eins reduziere, erhalte ich einfach A1. Aus dem zitierten Wikipedia-Artikel leite ich ab, dass das der Anteil ist, der zur Varianz in den Daten am meisten Beiträgt.

Laienhaft betrachtet, hat dieser Block mehr Einsen (Summe = 6), als der, der auf A1 abgebildet wurde (Summe = 4). Aber was hat das mit der Varianz zu tun? Wie kann ich die Ergebnisse für A1 und A2 mathematisch begründen?

Hallo,

Laienhaft betrachtet, hat dieser Block mehr Einsen (Summe =
6), als der, der auf A1 abgebildet wurde (Summe = 4). Aber was
hat das mit der Varianz zu tun? Wie kann ich die Ergebnisse
für A1 und A2 mathematisch begründen?

Laienhafte Antwort, mathematisch nicht korrekt, aber vom Prinzip her ähnlich und verstehbar:

An einem Bild kann man das so beschreiben: Stell Dir der Einfachheit halber mal einen 2-dimensionalen Datensatz vor, also eine Reihe Punkte mit x/y-Koordinaten. Eine (lineare) Regressionsanalyse würde die Gerade durch diese Punkte finden, für welche die Summe der Abweichungsquadrate minimal ist. Transformiert (=dreht) man nun diese Gerade (und gleichermaßen auch alle Punkte: x->x’; y->y’), so dass die Gerade auf der x-Achse zu liegen kommt, hat man im Prinzip schon das Ergebnis der PCA. Die x’-Werte haben die größte Varianz, die y’-Werte haben die nächst kleinere Varianz.

Bei 2D-Daten bringt da noch nicht so viel, aber konzeptionell geht das ja auch bei höher-dimensionalen Daten (zB. 3D mit x/y/z-Koordinaten). Hier kann man sich krückenhaft vorstellen, dass mehrere Regressionsanalysen nacheinander gemacht werden, wobei nach jeder Analyse Gerade auf die nächste zu allen vorigen orthogonale Achse („Hauptkomponente“) gedreht werden und diese Dimension bei der folgenden Regressionsanalyse rausgelassen wird.

Bei x/y/z zB. dreht man im ersten Schritt die Punktewolke so, dass die Regressionsgerade wieder auf der x-Achse zu liegen kommt. Die x’-Werte haben dann die größte Varianz. Nun läßt man die x’-Werte außen vor und macht durch die y’/z’-Koordinalen die nächste Regression. Die Gerade dreht man so, dass sie auf die y-Achse zu liegen kommt (y’->y"; z’->z"). Fertig: die y"-Werte haben die zweitgrößte Varianz, die z"-Werte haben die drittgrößte.

LG
Jochen

Okay, mit Deiner Antwort konnte ich jetzt den Deutschen Wikipedia-Artikel zu PCA besser verstehen.
http://de.wikipedia.org/wiki/Hauptkomponentenanalyse

Dennoch, habe ich keine mathematische Begründung für das geschilderte Beispiel. Mit der Summe allein lässt sich das jedenfalls nicht begründen, wie der folgende GEgenbeispiel zeigt:

A =
1 1 0
1 1 0
0 0 3

USV’ = A

S = diag(3 2 0)

A1 =
0 0 0
0 0 0
0 0 3

A2 =
1 1 0
1 1 0
0 0 0

Hier ist die Summe von A1=3 [Bei dieser Antwort wurde das Vollzitat nachträglich automatisiert entfernt]