Hallo,
Mir wurde gesagt, dass es mit Cov = E(x*y)*E(x)*E(y) geht.
E(x) bedeutet dabei z.B. Erwartungswert von x (eigentlich
meine ich damit den empirischen Mittelwert - nicht ganz formal
richtig mit E(x)).
Meine Frage ist nun konkret: stimmt das?
Das geht, wenn deine Stichproben groß sind. Dann kommt näherungsweise das gleiche raus.
Die Kovarianz zweier Grundgesamtheiten X und Y (X enthält die [i.d.R unendlich vielen] Werte x1, x2, …; entsprechend Y) wird mit den Erwartungswerten berechnet:
COV(X,Y) = 1/N * Summe[(X-E(X))*(Y-E(Y))]
was nach dem Verschiebungssatz das gleiche ist wie
COV(X,Y) = 1/N * (Summe[E(X)*E(Y)] - n*X*Y)
Beachte: N ist hier i.d.R. unendlich (bei unendlichen Grundgesamtheiten).
Nun kann man die Kovarianz der Grundgesamtheiten auch anhand von Stichproben (x und y, wobei wieder x die -nun in jedem Fall endlich vielen- Werte x1, x2, … xn) schätzen. Dabei werden die Erwartungswerte durch die Schätzer der Erwartungswerte ersetzt (das sind die Mittelwerte, nennen wir sie mx und my), außerdem wird die Zahl der Freiheitsgrade um eins reduziert(!), woraus dann folgt:
cov(x,y) = 1/(n-1) * Summe[(x-mx)*(y-my)]
bzw. nach Anwendung des Verschiebungssatzes
cov(x,y) = 1/(n-1) * (Summe[x*y] - n*mx*my)
Meine Frage ist nun konkret: stimmt das? Wenn ja, dann wie
berechnet man E(x*y)?
E(x*y) ist ja eigentlich E(X*Y). Wenn die Grundgesamtheiten unendlich sind, kannst du das nicht berechnen, sondern vielleicht nur aus anderen theoretischen Überlegungen ableiten. Bei Stichproben steht da aber einfach Summe[x*y], und das kannst du leicht ausrechnen, indem du die paarweisen Produkte addierst:
Summe[x*y] = (x1*y1)+(x2*y2)+…+(xn*yn)
Beispiel:
seien x und y zwei Stichproben aus den Grundgesamtheiten X und Y:
x = { 4, 3, 10, 8, 5 }
y = { 5, 2, 5, 1, 1 }
Summe[x*y] = 89
mx = 6
my = 2,8
cov = 1/(5-1) * (89 - 5*6*2,8) = 1,25
Wären die Grundgesamtheiten selbst gemeint (X=x und Y=y), ergäbe sich mit N=n=5:
COV = 1/5 * (89 - 5*6*2,8) = 1
Man kann sich auch direkt überlegen, dass COV = (n-1)/n * cov, und man sieht, dass der Korrekturterm [(n-1)/n)] gegen 1 geht, wenn n sehr groß wird.
Um das Berechnen der Produktsummen und Mittelwerte kommst Du nicht herum. Das kann aber in Zeiten überallverfügbarer Rechenknechte doch nicht das Problem sein…
LG
Jochen