Standardabweichung

Hi Leute,

Also die Formel zur Standardabweichung welche ich benutze ist:

s = wurzel(summenzeichen(Xi-mittelwert)²/N-1))

Mir bereitet folgende Sache ein gravierendes Denkproblem:

Nämlich: Das die Beobachtungwerte N mit 1 subtrahiert werden.

Ich verstehe nicht, warum das so ist.

Die Lösung des Problems scheint zu sein, wenn ich N Beobachtungswerte habe, dann sind nur N-1 Beobachtungswerte variabel, während irgendein Beobachtungswert von N festgelegt ist, wenn man auf einem bestimmten Mittelwert kommen will.

Mathematisch (versucht) ausgedrückt:

(X1+X2+X3+FESTEGLEGT)/4=Mittelwert

Meine Schlussfolgerung daraus wäre: Da ein Wert unweigerlich feststeht, während die anderen variabel sind, würde, wenn man durch N teilen würde, eine Verzerrung entstehen, aber das verstehe ich nicht (meine eigene schlussfolgerung verstehe ich nicht - geil)

Die einzige Antwort die sich mir gerade anbietet ist die folgende:

Ein N Wert ist nicht variabel, würde man durch N teilen, erhält man als antwort nicht, wie die N Beobachtungswerte vom Mittelwert variieren, sondern man hätte ein Mix von den variierenden und nicht-variiernden N-Variablen (wie ich sehe wiederhole ich mich hier).

Und deshalb verstehe ich es auch nicht mehr oder weniger als vorher.

Mh. Vielleicht kann mir ja hier jemand helfen :smile:

Hallo,

ich versuch’s mal…

Die Standardabweichung S ist die Wurzel aus der Varianz (V).

Die Varianz soll sein: Die mittlere quadratische Abweichung der Werte vom Mittelwert (M).

Im folgenden werde ich kurz „X“ (statt Xi) für eine Menge an Einzelwerten schreiben. N kennzeichnet die Anzahl von Werten.

Dein Problem liegt wahrscheinlich darin, dass Du nun außer Acht lässt, dass Du zum einen eine (vollständig gegebene) Menge Werte betrachten kannst, als auch eine Stichprobe , anhand der Du Größen wie M, S, oder V einer größeren, unbekannten Population von Werten schätzen willst.

Zunächst: Wenn Dir ALLE Werte vorliegen, dann IST das die Population. Dann muss man nichts schätzen, sondern rechnet alles direkt aus. Der Mittelwert ist schlicht

M = Mittelwert(X) = Summe(X)/N

und die Varianz ist

V = Mittelwert(X-M) = Summe(X-M)/N.

So, jetzt hast Du eine STICHPROBE von n Werten aus einer unendlich großen POPULATION (N=oo) gegeben. Anhand der n x-Werte willst Du die Varianz der (unbekannten, unendlich großen) Population von X-Werten schätzen. Dazu brauchst Du schonmal den Mittelwert der Population, M. Den kennst Du aber nicht. Also schätzt Du ihn aus der Stichprobe. Als besten Schätzwert nimmst Du

m = Summe(x)/n

Beachte: m ist NICHT gleich M. m sollte mehr oder weniger „nahe“ bei M liegen, und zwar umso näher, je größer die Stichprobe ist. Wenn man VIELE solche Stichproben betrachtet, wird man immer andere x-Werte bekommen und immer andere werte für m. Diese Werte von m werden aber um M herum streuen, und der Mittelwert von unendlich vielen m-Werten wird genau auf M fallen. Das meint man, wenn man sagt: „m ist ein erwartungstreuer Schätzer von M“.

Ok, wir haben m als Schätzer für M, wir wollen einen Schätzer für V. Naivereweise könnten wir sagen:

v = Summe((x-m)²)/n

wobei wir schon M durch m ersetzt haben!

Wenn wir die Varianzen vieler solcher Stichproben berechnen, erwarten wir von einem erwartungstreuen Schätzer der (Populations-)Varianz, dass er im Mittel eben wieder V ergibt. Tatsächlich tut er das aber nicht! Die Schätzwerte v sind systematisch kleiner als V.

Warum?

EIGENTLICH müssten wir Summe(x-M)/n rechnen, um einen unverzerrten, erwartungstreuen Schätzer zu bekommen. Mit m statt M klappt das aber nicht, weil m notgedrungen IMMER in der MITTE der x-Werte liegt, ganz egal, welche x-Werte zufällig aus der Population in die Stichprobe kommen. Es kommt zB. durchaus oft vor, dass bei n=3 ALLE 3 x-Werte kleiner sind als M. (genausooft kommt es natürlich vor, dass alle 3 x-Werte größer sind als M). Das aus diesen drei Werten berechnete m (als Schätzwert für M) liegt damit (im vergleich zu M) zu oft zu nahe bei den x-Werten. Mithin sind die Differenzen (x-m) zu oft zu klein, und erst recht die Quadrate davon, und somit auch die Summe der Quadrate.

Damit aus v ein erwartungstreuer Schätzer für V wird, müssen wir v mit einem Korrekturfaktor multiplizieren. Dieser Faktor ist abhängig von n: Für kleine n muss er recht groß sein und für sehr große n gegen 1 streben. Der gesuchte Faktor ist n/(n-1). Warum gerade so, weiß ich nicht. Hier mag ein Mathematiker aushelfen :wink:

Ok, fügen wir den Korrekturfaktor ein, ergibt sich

v = n/(n-1) * Summe((x-m)²)/n = 1/(n-1) * Summe((x-m)²) = Summe((x-m)²)/(n-1)

Dieser Schätzer ist nun erwartungstreu.

LG
Jochen

Danke. Du hast mir schon mal sehr weitergeholfen.

Eine neue idee von mir:

Vielleicht muss man n-1 rechnen, weil man einen Freiheitsgrad offen lassen muss. Wie du schon sagtest, wenn man eine Stichprobe hat, so ergibt der Mittelwert der Stichprobe eben nicht den Mittelwert der Population (es sei denn man hat die Grundgesamtheit)

Bei der Berechnung der Varianz hält man ja einen Parameter konstant und das ist der Mittelwert der Stichprobe.

Man rechnet ja die quadratische Differenz der N-Werte zum Mittelwert hin aus, um zu schauen wie weit sie von ihm entfernt sind.

Um den Mittelwert streuen nun aber gar nicht N-Werte, warum? weil ein N-wert für m draufgeht. Der letzte N-wert bestimmt ja endgültig m!

Um dies logisch völlig widersinnig mal darzustellen: Wenn man 50 Werte sammelt, dann müssen diese 50 Werte ja um irgendeinen Wert streuen. Dies ist wunderbar und toll wenn man den Mittelwert (M) kennt. Denn dann würde man ja die tatsächliche, wahre Varianz finden!

Wenn man von den 50 Werten, die man gesammelt hat, nun aber M nicht kennt, wird dies durch das aritmetische Mittel (m) geschätzt.

Ha! Nu weiß ich warum n-1 denke ich.

Man muss einen N-Wert offen lassen. Dieser N-Wert würde dann zum wahren M führen. Da man ihn aber nicht kennt, muss man ihn weglassen!

Als Beispiel: Wenn M 10 wäre und wir X-Werte von 9 und 12 hätten
Dann wäre der geschätzte!! Mittelwert (9+12)/2=11

Der Wahre Mittelwert wäre aber eingetreten, wenn das letzte x eine 10 gewesen wäre!

Wenn man nun die Varianz berechnet:

v={(9-11)²+(12-11)²}/2=2.5 Dies würde nun stimmen, wenn der Mittelwert tatsächlich 11 wäre. Ist er aber nicht (und man kann ja auch niemals wirklich davon ausgehen, dass der Wert wirklich stimmt) Deshalb darf man nicht durch 2 teilen, sondern nur durch eins! Eben ganz genau deshalb weil man M nicht kennt!

Wahrheitsgetreuer wäre eben:
v={(9-11)²+(12-11)²}/1=5

**Was soviel in Worte bedeutet: Ich kenne M zwar nicht, aber ich kann alle N-1 Werte benutzen, da letzlich nur der letzte N-Wert zum wahren M führt.

Wenn ich alle N-Werte benutze denke ich, dass alle diese Werte wirklich zu M führen, mit anderen Worten: kein N-Wert ist dort variabel. Weshalb es zu N führen muss!**

Danke. Du hast mir schon mal sehr weitergeholfen.

Fein. Freut mich.

Eine neue idee von mir:

Vielleicht muss man n-1 rechnen, weil man einen Freiheitsgrad
offen lassen muss.

Dieses Konzept mit den „Freiheitsgraden“ stammt von Pearson. Es ist wohl eine Verallgemeinerung dieser Sache - allerdings habe ich dazu auch noch keine mir verständliche Erklärung gefunden.

Wie du schon sagtest, wenn man eine
Stichprobe hat, so ergibt der Mittelwert der Stichprobe eben
nicht den Mittelwert der Population (es sei denn man hat die
Grundgesamtheit)

Korrekt.

Um den Mittelwert streuen nun aber gar nicht N-Werte, warum?
weil ein N-wert für m draufgeht. Der letzte N-wert bestimmt ja
endgültig m!

Im Prinzip: ja.

Um dies logisch völlig widersinnig mal darzustellen: Wenn man
50 Werte sammelt, dann müssen diese 50 Werte ja um irgendeinen
Wert streuen. Dies ist wunderbar und toll wenn man den
Mittelwert (M) kennt. Denn dann würde man ja die tatsächliche,
wahre Varianz finden!

NEIN! Achtung! Die wahre varianz ist die gesuchte Populationsvarianz - und die bekommt man NUR, wenn man ALLE Werte der Population auch kennt. Wenn Du den Populationsmittelwert (M) kennst, kannst Du anhand einer Stichprobe einen erwartungstreuen Schätzer von V berechnen, eben mit v=Summe((x-M)²)/n. Beachte: Wenn Du eine andere Stichprobe von 50 Werten nimmst, bekommst Du einen anderen Wert für v. Weil v hier erwartungstreu ist, heißt das, dass die v’s, die Du bekommst, ihrerseits um den Wert V schwanken (mit V = Mittelwert der v’s für sehr viele Stichproben).

Also: Solange Du es mit Stichproben zu tun hast, bleiben Deine daraus berechneten Parameter (m, s, v,…) Schätzer. Wenn Du’s richtig machst, sind diese Schätzer erwartungstreu (und effizient und was es da sonst noch so für Eigenschaften von Schätzern gibt).

Wenn man von den 50 Werten, die man gesammelt hat, nun aber M
nicht kennt, wird dies durch das aritmetische Mittel (m)
geschätzt.

Genau.

Ha! Nu weiß ich warum n-1 denke ich.

Ist der Groschen gefallen?

Als Beispiel: Wenn M 10 wäre und wir X-Werte von 9 und 12…

v={(9-11)²+(12-11)²}/2=2.5 Dies würde nun stimmen, wenn der
Mittelwert tatsächlich 11 wäre.

Beachte: Auch die 9 und die 12 sind nur zufällige Werte der Verteilung von X. Es hätten genausogut und genausorichtig auch andere Werte sein können. Korrekt müßte es heißen: Die Schätzung von v=2.5 wäre erwartungstreu, wenn M tatsächlich 11 wäre. Da M aber durch m aus der Stichprobe geschätzt wurde, wissen wir, dass v im Mittel zu klein sein muss (das heißt nicht, das _dieser_ Wert von 2.5 zu klein ist!). Eine _im Mittel_ richtigere Schätzung hätten wir, wenn wir die Varianz mit v={(9-11)²+(12-11)²}/(2 -1) = 5 schätzen würden (was wegen der nur 2 Werte in der Stichbrobe DEUTLICH größer ist als die obige Schätzung von nur 2.5):

Wahrheitsgetreuer wäre eben:
v={(9-11)²+(12-11)²}/1=5

Korrekt.

Was soviel in Worte bedeutet: Ich kenne M zwar nicht, aber
ich kann alle N-1 Werte benutzen, da letzlich nur der letzte
N-Wert zum wahren M führt.

Naja… ja… aber: Du „benutzt“ ja schon alle n Werte (N war in unsrer/meiner Notation die Menge der Werte in der Population - also i.d.R. unendlich).

Der Knackpunkt ist m.E. eher der, dass Du zunächst die n Werte der Stichprobe benutzt, um einen Parameter zu schätzen (m), den du zur Berechnung eines weiteren Parameters (v) brauchst. Damit benutzt du Informationen aus der Stichprobe doppelt; Der Wert von m hängt schon von den Werten der x ab, ebenso der Wert von v.

Im Allgemeinen verringert sich die Zahl der Freiheitsgrade bei der Berechnung eines Schätzers um die Zahl der Parameter, die dazu ebenfalls aus der Stichprobe geschätzt werden müssen. Ob man den Grund dafür korrekterweise so formulieren kann, wie Du es tust, weiß ich nicht. Aber sicher ist es nicht grundverkehrt.

Ich denke, das Prinzip mit den Freiheitsgraden verstehen auch nur wenige Mathematiker/Statistiker *wirklich*. Sie können anhand von Rechnungen beweisen, dass die Formeln so stimmen. Man rechnet damit - basta.

Wie gesagt: Ich würde mich auch immer noch freuen über eine laienverständliche Erklärungen eines Profis zum Thema Freiheitsgrade :smile:

LG
Jochen