Was ist die Varianz? Ggs. Standardabweichung

Hallo zusammen,

ich lerne gerade Statistik und habe eine glaube ich eigentlich sehr einfache Frage auf die ich keine einfache und plausible Antwort finde.

Ich weiß, dass die Standardabweichung einen Wert für die Verteilung um den Mittelwert bei einer Gauß-Kurve angibt. Und die Varianz ist die quadrierte Standardabweichung.
Was soll mir diese Zahl aussagen? Was soll ich mit dieser Zahl / wozu ist die gut?

Vielen Dank vorab!

Hallo,

Ich weiß, dass die Standardabweichung einen Wert für die
Verteilung um den Mittelwert bei einer Gauß-Kurve angibt.

Nicht nur bei einer „Gauß-Kurve“, sondern ganz allgemein für Daten irgendeiner Verteilung.

Der „Wert für die Verteilung“ ist genauer ein „Wert für die Streuung“ der Daten um den Mittelwert.

die Varianz ist die quadrierte Standardabweichung.
Was soll mir diese Zahl aussagen? Was soll ich mit dieser Zahl
/ wozu ist die gut?

Wie schon gesagt: Die Standardabweichung ist eine Maßzahl für die Streuung von Daten. Je größer dieser Wert, desto stärker streuen die Daten. Eine Angabe über die Streuung braucht man z.B., wenn man …

  1. … Aussagen über die Präzision von Messwerten machen möchte. Die an günstigen Zimmer-Thermometern eines Herstellers ablesbaren Temperaturen mögen zB. eine Standardabweichung von einem Kelvin (°C als Temperaturdifferenz) haben, und das ist vielleicht ok, aber ein Fieberthermometer sollte Werte mit geringerer Streuung liefern; hier liegt man ungerne mal ein bis zwei Kelvin neben dem wahren Wert.

  2. … das Regelverhalten von Systemen untersucht. Die Streuung von Werten einer Meßgröße (zB die Körpertemperatur, der Blutdruck, die Fahrzeugdichte im Stadtverkehr, die Wartezeiten an Schlatern usw) sind ganz unterschiedlich groß, jenachdem, ob und wie das System geregelt wird. Veränderungen oder Unterschiede von Streuungen können Aufschluß geben, ob und wie ein System reguliert ist.

  3. … Ergebnisse aus einer Stichprobe statistisch verallgemeinern möchte. Hier muss man abschätzen, inwiefern die Ergebnisse aus der Stichprobe durch zufällige Schwankungen der Werte zustande gekommen sein können. Wenn du z.B. den Erfolg eins Orchideen-Düngers testen willst und die Frischmassen von je 10 Orchideen die du mit bzw. ohne Dünger unter sonst identischen Bedingungen hast wachsen lassen vergleichst, wirst du am Ende je 10 Frischgewichte haben. Wahrscheinlich ist nicht jede gedüngte Orchidee schwerer als jede ungedüngte, aber die Hoffnung ist natürlich, dass die gedüngten im Mittel schwerer (größer) sind. Nun nimm an, sie sind es tatsächlich - also taugt der Dünger? Wenn die Pflanzen eh schon alle unterschiedliche sind und unterschiedlich wachsen, fragt sich natürlich, wie wahrscheinlich es ohne Dünger schon hätte passieren können, dass die gedüngten Pflanzen im Mittel um den gemessenen Betrag schwerer sind. Und das kann man mithilfe der Streuung ausrechnen. Es gibt natürlich noch weitere statistische Verfahren, wo die Streuungen benötigt werden.

Vielleicht gibt es noch ganz andere „Einsatzgebiete“ für die Streuung. Mir fällt gerade keine weitere ein.

Varianz und Standardabweichung sind im Prinzip dasselbe. Mathematisch/Statistisch grundlegend ist die Varianz als (lies den Satz ganz langsam - dann verstehst du ihn!) „die mittlere quadratische Abweichung der Werte zum Mittelwert“. Weil es die mittlere quadratische Abweichung ist, hat die Varianz auch als Einheit das Quadrat der Einheit der Werte. Also die Varianz von Wartezeiten (in Minuten) ist also Minuten² … mathematisch völlig problemlos stehen wir diesbezüglich eher einfältigen Wesen vor dem Problem schlechter Interpretierbarkeit. Was zum Henker sind „Quadratminuten“?! Um angaben zur Streuung besser interpretieren zu können, ziehen wir einfach die Wurzel und erhalten eine Zahl mit der Einheit, in der auch die Werte gegeben sind (hier: Minuten - alles klar!).

Warum der Umweg über die Quadrate? Nun, probier mal die Differenzen zum Mittelwert zu nehmen. Da kommt blöderweise immer genau Null raus. Das taugt also nicht als Maßzahl. Man kann das natürlich verhindern, indem bei den negativen Differenzen das Vorzeichen umgedreht wird, sprich: die Beträge der Differenzen genommen werden. Das geht (nennt sich „mittlere absolute Abweichung zum Mittelwert“) und dient auch tatsächlich als ein mögliches Streumaß (wobei hier oft nicht der Mittelwert, sondern der Median verwendet wird). Das doofe daran ist, daß man damit nicht gut weiterrechnen kann, insbesondere in statistischen Verfahren, wie ich es oben unter Punkt 3 angedeutet habe. Darum nimmt die kaum jemand gerne. Tja, und eine altbekannte Möglichkeit, negative Werte zu vermeiden, ist schließlich das Quadrieren. Damit kommt man dann auf die Varianz als Streumaß. Die schlechte Interpretierbarkeit läßt sich über das Wurzel-Ziehen (als Standardabweichung) wieder gut in den Griff bekommen, und außerdem hat die Varianz sehr viele sehr angenehme mathematische Eigenschaften, die in sehr vielen statistischen berechnungen genutzt werden.

VG
Jochen

Hi Jochen,

ein paar Ergänzungen noch:

Warum der Umweg über die Quadrate? Nun, probier mal die
Differenzen zum Mittelwert zu nehmen. Da kommt blöderweise
immer genau Null raus.

Man hatte früher eine Masszahl gesucht, die genau diese Eigenschaft hatte, weil sie - z.b. auch im Sinne einer Regressionsschätzung - ein sinnvoller Lageparameter ist. Praktischerweose erfüllt der Mittelwert genau diese Eigenschaft, gleichwohl ist er viel leichter zu berechnen.

Das geht (nennt sich
„mittlere absolute Abweichung zum Mittelwert“) und dient auch
tatsächlich als ein mögliches Streumaß (wobei hier oft nicht
der Mittelwert, sondern der Median verwendet wird). Das doofe
daran ist, daß man damit nicht gut weiterrechnen kann,
insbesondere in statistischen Verfahren, wie ich es oben unter
Punkt 3 angedeutet habe.

Das geht schon. Gerade in sog. robusten Verfahren hat das eine weite Anwendung, da man damit die Anfälligkeit gegenüber Extremwerten verringert und so meistens unverzerrtere Schätzer bekommt.
Der Nachteil ist eher, dass SD und MW auch gleich die Parameter der Normalverteilung sind, man hat also mit den beiden schätzwerten auch gleich die zugehörige Verteilung at hand - was bei Median und MAD leider nicht der Fall ist, so dass man sehr viel kompliziertere Verteilungen benutzen muss.

Viele Grüße,
JPL

1 Like