Frage zur Varianz

Jo1_a88223 · 27. September 2004 um 15:44

Hallo,

wenn s² die varianz einer Stichprobe ist, dann wird s² ja berechnet als die Summe der Abweichungsquadrate vom Mittelwert geteilt durch der Stichprobenumfang: s² = SAQ/n

Sehe ich ein. Ist halt ein „mittleres Abweichungsquadrat“.

Möchte man anhand einer Stichprobe jedoch die Varianz der Population schätzen, so ist diese geschätzte Populations-Varianz SAQ/(n-1)

Ich verstehe, daß die Schätzung größer sein muß als die Varianz der Stichprobe, und es ist ja auch einsichtig, daß die Schätzung für große n gegen die Populationsvarianz strebt.

Aber: Wie bitte kommt man darauf, daß man durch (n-1) teilen muß? (Theoretisch könnte man doch auch zB durch n-Wurzel(n) oder durch n-2 oder sonstwas teilen). Ich habe schon in Statistikbüchern nachgesehen, da steht aber entweder „das is halt so“ oder sie gehen davon aus, daß man Mathe studiert hat und sich das ja aus Kapitel xy selber herleiten kann…

Bin dankbar für eine nachvollziehbare Hilfe, gerne auch für „Lügen für Nichtmathematiker“

Danke sagt

Jochen

Kevin_Johnson · 27. September 2004 um 18:16

Hallo Jochen

Puh, das ist lange her, aber ich will’s mal versuchen.

wenn s² die varianz einer Stichprobe ist, dann wird s² ja
berechnet als die Summe der Abweichungsquadrate vom Mittelwert
geteilt durch der Stichprobenumfang: s² = SAQ/n

Sehe ich ein. Ist halt ein „mittleres Abweichungsquadrat“.

Möchte man anhand einer Stichprobe jedoch die Varianz der
Population schätzen, so ist diese geschätzte
Populations-Varianz SAQ/(n-1)

Bei ersterer Formel ist der Mittelwert der Grundgesamtheit (in deinem Wortlaut hier auch „Stichprobe“ genannt) bekannt. Bei zweiterer Formel ist der Mittelwert der gesamten Population (der Grundgesamtheit) nicht bekannt und muss Anhand der Stichprobe (hier eine echte _Stichprobe_) geschaetzt werden. Da daher in der Berechnung der Varianz de facto eine Abweichung weniger auftaucht, wird auch durch einen weniger (n-1) geteilt.
Genauer gesagt: In dieser Formel (Mittelwert der Stichprobe) taucht jedes Element einmal als Summand auf. In der Berechnung von s^2 wird diese Summe dann wieder von jedem einzelnen Element abgezogen, um die Abweichung zu berechnen. Da man dabei aber auch ueber den Summanden (x-x)^2 stolpert, wird dieser Summand nicht gezaehlt.

Peace,
Kevin.

aiwendil · 27. September 2004 um 20:32

Hallo,

Aber: Wie bitte kommt man darauf, daß man durch (n-1) teilen
muß? (Theoretisch könnte man doch auch zB durch n-Wurzel(n)
oder durch n-2 oder sonstwas teilen). Ich habe schon in
Statistikbüchern nachgesehen, da steht aber entweder „das is
halt so“ oder sie gehen davon aus, daß man Mathe studiert hat
und sich das ja aus Kapitel xy selber herleiten kann…

der Erwartungswert der Stichprobenvarianz, die wir hier mit S² bezeichnen wollen, ist

E(S²) = E(M(X²) - E(M(X)²) = V(X) + (E(X)²) - V(X)/n - (E(X)²) = (n-1)/n V(X)

Bei der Stichprobenvarianz handelt es sich also um einen verzerrten Schätzer der Populationsvarianz. Diese Verzerrung läßt sich dadurch korrigieren, daß die Stichprobenvarianz mit n/(n-1) multipliziert wird:

s² = n/(n-1) S² = 1/(n-1) ∑ (X_i - M(X))²

Die Korrektur mit n/(n-1) wird als endliche Verzerrungskorrektur bezeichnet, s² als korrigierte Stichprobenvarianz.

Grüße,

Oliver Walter

Jo1_a88223 · 28. September 2004 um 08:36

Hallo Kevin,

danke für die Antwort.

Bei zweiterer Formel ist der Mittelwert der gesamten Population
(der Grundgesamtheit) nicht bekannt und muss Anhand der
Stichprobe (hier eine echte _Stichprobe_) geschaetzt werden.

Ok. Die „Schätzung“ für µ, x-quer, ist die n-te Teil der Summe aller Elemente der Stichprobe.

Genauer gesagt: In dieser Formel (Mittelwert der Stichprobe)
taucht jedes Element einmal als Summand auf.

Das ist aber doch bei der Grundgesamtheit das gleiche. Hier wird eben µ von jedem Wert subtrahiert, aber µ ist, genau wie x-quer, der N-te Teil der Summe aller Werte (hier der N Werte der Grundgesamtheit).

Man müßte doch also in _beiden_ Fällen „über (x-x)² stolpern“…

So wirklich einsichtig finde ich das noch nicht, irgendwo hab ich immer noch einen Knoten im Hirn…

Grüße,
Jochen

Jo1_a88223 · 28. September 2004 um 08:48

Hallo Oliver,

danke schonmal für die Antwort! Ich habe aber noch ein paar Sachen nicht verstanden:

E(S²) = E(M(X²) - E(M(X)²) =
V(X) + (E(X)²) - V(X)/n - (E(X)²) =
(n-1)/n V(X)

Steht E(y) für den Erwartungswert von y?

Für was steht M(y) ?

Wie komme ich auf E(S²) = E(M(X²) - E(M(X)²) ?

Steht V(y) für die Varianz von y ?

Bei der Stichprobenvarianz handelt es sich also um einen
verzerrten Schätzer der Populationsvarianz.

Klar.

Diese Verzerrung
läßt sich dadurch korrigieren, daß die Stichprobenvarianz mit
n/(n-1) multipliziert wird:

Auch klar, _daß_ es so ist. Aber warum? Mit meinem zu beschränkten Sachverstand entgeht mir wieder die logische Sinnhaftigkeit des angeführten Ausdrucks:

s² = n/(n-1) S² = 1/(n-1) ∑
(X_i - M(X))²

Ich verstehe nicht, warum

s² = n/(n-1) S²

Warum kann(muß) man das gleichsetzen? Ist das Konvention oder gibt es (was ich vermute) einen zwingenden Mathematischen Grund?

Die Korrektur mit n/(n-1) wird als endliche
Verzerrungskorrektur bezeichnet, s² als korrigierte
Stichprobenvarianz.

Das ist wieder klar.

Noch eine weitere Frage aber, die mir vielleicht hilft:

Wäre die „endliche Verzerrungskorrektur“ anders (und wie anders), wenn ich mit einer Stichprobe vom Umfang n die Varianz einer _endlichen_ Grundgesamtheit vom Umfang N schätzen will? Es sollte doch dann anders sein, weil hier ja für ein endliches n (n=N) ja die Verzerrungskorrektur ja schon 1 ergeben muß. Wie ginge das aus o.g. Formeln hervor?

Grüße,
Jochen

PS: Tut mir Leid, wenn ich vielleicht offensichtliche Sachen nicht sehe/verstehe. Es kann gut sein, daß ich da ein riesen Brett vorm Kopf habe… weißt ja: „Bretter, die die Welt bedeuten“…

aiwendil · 28. September 2004 um 12:53

Hallo Jochen,

E(S2) = E(M(X2) - E(M(X)2) = V(X) + (E(X)2) - V(X)/n - (E(X)2) = (n-1)/n V(X)

Steht E(y) für den Erwartungswert von y?

ja, E(X) ist der Erwartungswert von X, M(X) der Mittelwert von X und V(X) die Populationsvarianz von X.

Wie komme ich auf E(S²) = E(M(X²) -
E(M(X)²) ?

Weil S² = M(X²) - M(X)².

Daß dies gilt, läßt sich durch die Anwendung simpler Algebra aus der von Dir genannten Definition der Stichprobenvarianz zeigen.

Wenn man dann den Erwartungswert der Stichprobenvarianz berechnen will, bildet man die Differenz der Erwartungswerte der Terme, weil E(X-Y) = E(X) - E(Y), so daß

E(S²) = E(M(X²)) - E(M(X)²)

Diese Verzerrung läßt sich dadurch korrigieren, daß die Stichprobenvarianz mit
n/(n-1) multipliziert wird:

Auch klar, _daß_ es so ist. Aber warum?
Ich verstehe nicht, warum

s² = n/(n-1) S²

Warum kann(muß) man das gleichsetzen? Ist das Konvention oder
gibt es (was ich vermute) einen zwingenden Mathematischen Grund?

Weil der Erwartungswert der Stichprobenvarianz - wie gezeigt - gleich (n-1)/n V(X) ist. Wenn man diese Verzerrung korrigieren will, muß man die Stichprobenvarianz mit n/(n-1) multiplizieren, woraus wiederum - den Regeln der Mathematik entsprechend - die Formel für die korrigierte Stichprobenvarianz folgt.

Das sieht man so:

E(S²) = (n-1)/n V(X)

E(n/(n-1)S²) = n/(n-1) * (n-1)/n * V(X)= V(X)

Deshalb ist die korrigierte Stichprobenvarianz ein erwartungstreuer Schätzer der Populationsvarianz.

Wäre die „endliche Verzerrungskorrektur“ anders (und wie
anders), wenn ich mit einer Stichprobe vom Umfang n die
Varianz einer _endlichen_ Grundgesamtheit vom Umfang N
schätzen will? Es sollte doch dann anders sein, weil hier ja
für ein endliches n (n=N) ja die Verzerrungskorrektur ja schon
1 ergeben muß. Wie ginge das aus o.g. Formeln hervor?

Wenn Du eine Vollerhebung (Stichprobenumfang = Populationsumfang) machst, dann ist die Stichprobenvarianz gleich der Populationsvarianz und die Korrektur entfällt einfach. Du brauchst nur dann eine Korrektur, wenn Du statt des Populationsparameters (hier die Populationsvarianz) einen Schätzer desselben verwendest.

PS: Tut mir Leid,

Kein Problem.

Beste Grüße,

Oliver Walter