Statistik - Häufigkeitsverteilung - Varianz

littledon · 5. Oktober 2010 um 10:56

Hallo liebe Mathematiker und solche, die sich der Materie der Mathematik nahe fühlen.

Ich habe eine Frage bezüglich der Ermittlung der Varianz als Streuungsmaß.

Zunächst zur Definition: Die Varianz ist die Summe der quadratischen Abweichungen der Merkmalsausprägungen zum arithmetischen Mittel, dividiert durch die Anzahl der Merkmalsausprägungen.

Nun scheint es in der Fachliteratur diesbezüglich nicht ganz einhellige Meinungen zu geben, denn

a) Hartung (Statistik) beschreibt die Varianz als Summe der quadratischen Abweichungen der Merkmalsausprägungen zum arithmetischen Mittel dividiert durch die Menge der Merkmalsausprägungen -1,

b) während Bleymüller es als Summe der… dividiert durch die Menge der Merkmalsausprägungen versteht.

Was ist nun richtig bzw. was ist richtiger?

1/(n-1)oder 1/n

Ich freue micht auf eine belebte Diskussion mit hoffentlich positivem Ergebnis

MfG
Steffen

M_L_ · 5. Oktober 2010 um 11:33

Auch hallo

1/(n-1)oder 1/n

Hierzu gibt es im Archiv einiges an Material.

Das „1/(n-1)“ der bessere Schätzer ist (1/n wäre das Ergebnis der sog. „Maximum-Likelihood Schätzung“), lässt sich pragmatisch anhand eines Beispiels erklären: Person 1 hat eine Grösse von 180 cm, Person 2 190 cm. Person 1 als alleinige Stichprobe hat keine Varianz bei der Grösse. Erst durch Hinzunahme von Person 2 ergibt sich eine Vergleichsbasis. Aber im Archiv wird das wohl etwas schöner erklärt

mfg M.L.

Jo1_a88223 · 5. Oktober 2010 um 18:00

Hallo,

Die Varianz ist eine Eigenschaft von Daten. Sie ist definiert als

1/N * SUMME( (X-µ)² )

N = Anzahl der Werte
X = die Werte (X1, X2, X3… XN)
µ = Mittelwert von X

Oft kennt man nicht alle X, sondern hat nur eine Stichprobe und möchte anhand dieser kleinen Stichprobe schätzen wie die Varianz aller Werte aussehen würde. Tatsächlich unterschätzt diese nach obiger Formel berechnete Varianz die Varianz aller Werte.

Beispiel: Du hast eine 7. Schulklasse und du wiegst alle Kinder dieser Klasse, sagen 20 Kinder. Die Varianz des Gewichts der Kinder DIESER 7. Klasse mit genau DIESEN 20 Kindern hat eine Varianz, die sich nach der Formel oben berechnet (sagen wir, es sind 16 kg²). Meist interessier da einen aber nicht, sondern eigentlich will man wissen, in delchem Bereich das Gewicht von Siebtklässlern GENERELL so streut. Jetzt kennst du aber nicht das Gewicht aller Siebtklässler (der „Population“ oder „Grundgesamtheit“), sondern nur die dieser 20 Kinder. Würden wir behaupten, die Varianz aller Siebtklässler sei eben 16 kg², so würden wir diese Varianz unterschätzen.

Warum unterschätzen?

Die Varianz ist die mittlere quadr. Abweichung zum MITTELWERT. Das Problem an einer Stichprobe ist, dass man aus der selben Stichprobe auch schon den Mittelwert schätzen muß. Egal, wie viel Pech ich mit meiner Stichprobe habe: Der Mittelwert, den ich aus der Stichprobe berechne, liegt immer zentral in den Werten meiner Stichprobe (trivial!). D.h., es kann sein, dass ich eine Klasse erwische, die
(a) zu viele „zu leichte“ Kinder hat,
(b) zu viele „zu schwere“ Kinder hat,
© sowohl viele „zu schwere“ als auch „zu leichte“ Kinder hat und zu wenige Kinder nahe am Mittelwert aller Siebtklässler,
(d) zuwenige „zu leichte“ als auch „zu schwere“, dafür zu viele Kinder „mittleren Gewichts“ und schließlich
(e) Kinder mit einer Gewichtsverteilung, die der Verteilung aller Siebtkläßler ganz gut entspricht.

Wenn (e) zuträfe, wäre unsere Schätzung mit 16kg² gut. Für die Fälle (a), (b) und (d) wäre sie zu klein, und für den Fall © zu groß. Insgesamt ist es am Ende am wahrscheinlichsten, das die Schätzung zu klein sein wird.

Mathematisch läßt sich das so zeigen: http://www.math.uni-heidelberg.de/studinfo/oelschlae…

(Zum Begriff des Erwartungswertes E(X) siehe http://de.wikipedia.org/wiki/Erwartungswert).

Sumasumarum:

Der Stichprobenmittelwert ist ein erwartungstreuer Schätzer für den Populationsmittelwert (Mittelwert der Grundgesamtheit). Alles ist gut.

Die Varianz, berechnet aus einer Stichprobe, ist KEIN erwartungstreuer Schätzer. Der systematische Fehler ist abhängig vom Stichprobenumfang und kann durch Multiplikation mit dem Faktor n/(n-1) korrigiert werden. Die Größe

n/(n-1) * V(X) = n/(n-1) * 1/n*SUMME(X) = 1/(n-1)*SUMME(X)

nennen wir die Stichprobenvarianz. Sie ist nun ein erwartungstreuer Schätzer der Populationsvarianz.

Was ist nun richtig bzw. was ist richtiger?

1/(n-1)oder 1/n

Weil 1/(n-1) für große n gegen 1/n strebt, ist es bei großen n praktisch unerheblich, wie ich die Varianz berechne.

Wenn man die Varianz eine gegebenen Menge an Werten BESCHREIBEN will, dann ist 1/n richtiger.

Wenn man die Varianz einer Population anhand einer Sitchprobe SCHÄTZEN will, dann ist 1/(n-1) richtiger.

So einfach ist das

Ich freue micht auf eine belebte Diskussion mit hoffentlich
positivem Ergebnis

Da gibt es nix zu diskutieren. „Dasisso“, wie ein ehemaliger Kanzler gerne gesagt hat

VG
Jochen