Hallo Christian,
wie’s aussieht, hast du von ganz elementaren Begriffen der Statistik keine Ahnung. Das ist zunächst nicht schlimm, aber das mußt du unbedingt ändern! Eigentlich ist es (zumindest heute) schon Schulstoff, aber es gibt auf außerschulisch sehr einfache Bücher über die Grundlagen (zB. „Statistik für Dummies“ etc). Das ist nicht schlecht, um ins Thema zu kommen! Du bist Student, willst also wissenschaftlich arbeiten. Dazu bauchst du ganz unbedingt wenigstens Grundkenntnisse der Statistik, weil aller Erkenntnisgewinn in emirischen Wissenschaften immer auf Statistischen Verfahren beruht.
Soweit nur eine ernst- und gutgemeinte Motivation für den Start… jetzt aber zu deinen Fragen:
Bedeutet die Standardabweichung
dann, dass in diesem Bereich alle Werte der vorhandenen
Datenreihen liegen?
Nein! Ich will etwas ausholen zum Verständnis:
Grundproblem ist, aus einem „Sack voller Daten(Werte)“ irgensdeine brauchbare Information zu gewinnen. Das geht idR nur schlecht, wenn man sich alle Werte einzeln anschaut. Also fasst man die Daten in geschickter Weise so zusammen, dass man die wesentlichen Eigenschaften der Daten in den Zusammenfassungen besser erkennt. Solche numerischen Zusammenfassungen von Daten heißen Kenngrößen oder Statistiken.
Es gibt beliebig viele denkbare Statistiken, die auch von der Art der Daten abhängen (zB. quantitative Daten [zB. Umsatz, Gewinn,…] oder qualitative Daten [zB. Unternehmenstyp, Sparte, Ort,…). Für Quantitative Daten gibt es zwei Kategorien von sehr wichtigen Statistiken:
(1) Lagemaße, die bestimmen, „WO die Daten liegen“, also welche Werte „typisch“ sind und
(2) Streumaße, die zeigen, WIE ÄHNLICH sich die Werte untereinander sind, also wie sehr die Werte untereinander streuen.
Das berühmteste Lagemaß ist der Mittelwert (arithmetisches Mittel = Summe aller Werte geteilt durch die Anzahl der Werte). Es gibt auch andere Lagemaße wie zB. den Median, das harmonische Mittel, das geometrische Mittel, den Modalwert (für qualitative Daten) …
Die Standardabweichung ist das bekannteste Streumaß. Es handelt sich hier um die Wurzel aus der Varianz, und die Varianz ist die mittlere quadratische Abweichung der Werte vom Mittelwert. Die Standardabweichung is also die Wurzel aus der mittleren quadratischen Abweichung der Werte vom Mittelwert. Nicht mehr und nicht weniger. Welche „Bedeutung“ das hat, hängt von der Verteilung der Daten ab. Was nun eine Verteilung ist, will ich hier nicht auch noch erklären. Dazu gebe ich dir Literaturhinweise weiter unten.
Zur Einordnung: Die Standardabweichung ist natürlich nicht das einzige
Streumaß. Ein viel anschaulicheres ist zB. die Spannweite, das ist einfach die Distanz zwischen dem kleinsten und größten Wert. Das Problem mit der Spannweite ist, das es außer diesen beiden Werten alle anderen Verte in den Daten ignoriert. Trotzdem ist auch die Spannweite oft ein sehr brauchbares Streumaß. Ein weitere ist so ähnlich wie die Standardabweichung: die Mittlere Absolute Abweichng (MAD) der Werte vom Median oder auch vom Mittelwert. Bei der Berechnung der Standardabweichung werden die Differenzen von Wert und Mittelwert quadriert, um immer nur positive Werte zu erhalten. Um ein Streumaß in der gleichen Einheit zu haben wie die Werte selbst, muß dann am Ende wieder die Wurzel gezogen werden. Bei der MAD nimmt man einfach die Beträge (Absolutwerte) der Differenzen, die ja immer positiv sind. Ein weiteres wichtiges Streumaß ist der Interquartilsabstand (IQA). Quartile sind besondere Quantile und Quantile sind Werte, von denen man weiß, welcher Anteil an Werte kleiner ist. Beispiel: Das 50%-Quantil ist derjenige Wert, für den gilt, dass 50% der Daten kleiner sind. Per Definition ist das der Median. Das 0%-Quantil ist das Minimum, das 100%-Quantil ist das Maximum. Die Quartile sind das 25%-, 50%, 75%- und 100%-Quantil und der IQA ist die Differenz zwischen dem 75%- und dem 25%-Quantil (bzw. dem 3. und dem 1. Quartil). Es umfasst also die zentralen 50% aller Werte.
Habe ausserdem gerade gelesen, dass man die Standardabweichung
für eine VErteilung von Zufallsvariablen einsetzt.
Der Satz ist recht sinnfrei…
Die Standardabweichung ist ein Streumaß für quantitative Daten. Fertig. Ob man anhand der Standardabweichung noch weitergehende Aussagen über die Daten treffen kann, hängt von der Kenntnis der Verteilung der Daten ab.
Kann ich
das also für mein Beispiel (oder besser gesagt für
Umsatzverläufe) verwenden?
Natürlich. Eben als Streumaß. Es kommt ja nur darauf an, was du anhand der Standardabweichung zeigen willst. Willst du zeigen, dass die Streuung der Umsätze im Winter anders ist als im Sommer, kannst du das tun (dazu kannst ju jedes beliebige Streumaß verwenden). Willst Du aber zeigen, dass die msätze alle innerhalb eine bestimmten Spanne liegen, dann nimm die Spannbreite. Willst du mit einem statistischen Test nachweisen, dass die Streuungen im Sommer und Winter verschieden sind, dann mußt du die Verteilung der Daten kennen und kannst dann erst entscheiden, welcher test und welches Streumaß für diese Daten anwendbar sind.
So, zum Nachlesen:
http://viles.zef.uni-oldenburg.de/navtest/viles2/
http://onlinestatbook.com/
http://www.uni-kiel.de/medinfo/biometrie/folien/ss05…
http://www.bmj.com/collections/statsbk/
http://faculty.vassar.edu/lowry/webtext.html
http://www.statsoft.com/textbook/stathome.html
Die Quellen behandeln alle das gleiche, nur auch unterschiedliche Art und Weise. Du kannst dir das raussuchen, womit du am besten klar kommst. Du brauchst zunächst von allen Angeboten immer nur die „Basic CConcepts“ sowie die Verteilungen. Alles Weitere kannst du später irgendwann mal nachlesen.
Ach ja, hier ist noch eine Statstik-Forum, wo man auch viel Grundlegendes lernen/nachlesen kann:
http://statistikforum.foren-city.de/
LG
Jochen