Kovarianz

Hallo,

wie berechnet man die Kovarinaz ohne die lange Formel (siehe http://de.wikipedia.org/wiki/Kovarianz_%28Stochastik%29 und da ganz unten „Kovarianz zweier Merkmale einer Stichprobe“) zu benutzen, wenn man zwei Merkmale einer Stichprobe (2 Variablen; x und y) hat?
Mir wurde gesagt, dass es mit Cov= E(x*y)*E(x)*E(y) geht.

E(x) bedeutet dabei z.B. Erwartungswert von x (eigentlich meine ich damit den empirischen Mittelwert - nicht ganz formal richtig mit E(x)).

Meine Frage ist nun konkret: stimmt das? Wenn ja, dann wie berechnet man E(x*y)? Gibt es irgendwelche Internetseiten dazu, denn ich habe nichts gefunden.

Ich danke für jegliche Antworten.

Michael

Hallo,

Mir wurde gesagt, dass es mit Cov= E(x*y)*E(x)*E(y) geht.

ja, das ist korrekt. Es handelt sich um die Kovarianz zweier Zufallsvariablen („theoretisch“).

E(x) bedeutet dabei z.B. Erwartungswert von x (eigentlich
meine ich damit den empirischen Mittelwert - nicht ganz formal
richtig mit E(x)).

Wenn man die Kovarianz auf Stichprobenebene („empirisch“) berechnen möchte, dann verwendet man Kov = M(X*Y) - M(X)*M(Y).

M(X*Y) berechnet man, indem man zunächst das Produkt jedes realisierten Paares von X und Y berechnet, dann die Summe über alle Produkte bildet und schließlich durch die Anzahl der Paare teilt:

M(X*Y) = 1/N*Σxi*yi

Beste Grüße

Hallo,

Mir wurde gesagt, dass es mit Cov = E(x*y)*E(x)*E(y) geht.

E(x) bedeutet dabei z.B. Erwartungswert von x (eigentlich
meine ich damit den empirischen Mittelwert - nicht ganz formal
richtig mit E(x)).

Meine Frage ist nun konkret: stimmt das?

Das geht, wenn deine Stichproben groß sind. Dann kommt näherungsweise das gleiche raus.

Die Kovarianz zweier Grundgesamtheiten X und Y (X enthält die [i.d.R unendlich vielen] Werte x1, x2, …; entsprechend Y) wird mit den Erwartungswerten berechnet:

COV(X,Y) = 1/N * Summe[(X-E(X))*(Y-E(Y))]

was nach dem Verschiebungssatz das gleiche ist wie

COV(X,Y) = 1/N * (Summe[E(X)*E(Y)] - n*X*Y)

Beachte: N ist hier i.d.R. unendlich (bei unendlichen Grundgesamtheiten).

Nun kann man die Kovarianz der Grundgesamtheiten auch anhand von Stichproben (x und y, wobei wieder x die -nun in jedem Fall endlich vielen- Werte x1, x2, … xn) schätzen. Dabei werden die Erwartungswerte durch die Schätzer der Erwartungswerte ersetzt (das sind die Mittelwerte, nennen wir sie mx und my), außerdem wird die Zahl der Freiheitsgrade um eins reduziert(!), woraus dann folgt:

cov(x,y) = 1/(n-1) * Summe[(x-mx)*(y-my)]

bzw. nach Anwendung des Verschiebungssatzes

cov(x,y) = 1/(n-1) * (Summe[x*y] - n*mx*my)

Meine Frage ist nun konkret: stimmt das? Wenn ja, dann wie
berechnet man E(x*y)?

E(x*y) ist ja eigentlich E(X*Y). Wenn die Grundgesamtheiten unendlich sind, kannst du das nicht berechnen, sondern vielleicht nur aus anderen theoretischen Überlegungen ableiten. Bei Stichproben steht da aber einfach Summe[x*y], und das kannst du leicht ausrechnen, indem du die paarweisen Produkte addierst:

Summe[x*y] = (x1*y1)+(x2*y2)+…+(xn*yn)

Beispiel:

seien x und y zwei Stichproben aus den Grundgesamtheiten X und Y:

x = { 4, 3, 10, 8, 5 }
y = { 5, 2, 5, 1, 1 }

Summe[x*y] = 89
mx = 6
my = 2,8

cov = 1/(5-1) * (89 - 5*6*2,8) = 1,25

Wären die Grundgesamtheiten selbst gemeint (X=x und Y=y), ergäbe sich mit N=n=5:

COV = 1/5 * (89 - 5*6*2,8) = 1

Man kann sich auch direkt überlegen, dass COV = (n-1)/n * cov, und man sieht, dass der Korrekturterm [(n-1)/n)] gegen 1 geht, wenn n sehr groß wird.

Um das Berechnen der Produktsummen und Mittelwerte kommst Du nicht herum. Das kann aber in Zeiten überallverfügbarer Rechenknechte doch nicht das Problem sein…

LG
Jochen