bei der analyse von zugriffstatistiken bin ich auf folgendes problem gestossen:
der grossteil der werte verhaelt sich durchschnittlich. d.h. im durchschnitt z.b. 5 clicks pro session. wenn jetzt aber einer mit nem spider auf den auftritt geht, hat eine session auf einmal 3000 clicks, und versaut mir damit jeden durschnitt, ist aber fuer meine betrachtungen absolut irrelevant.
die folge sieht also vereinfacht so aus:
4
5
4
3000
wie kann ich solche ausreisser erkennen? ab wann sit es einer? was waere mit einem eintrag von 10, waere der in der folge relevant? warum?
leider bin ich um die theorien zu statistik total unbedarft, weiss also nciht nach welchen stichpunkten ich im google suchen muss, um solche regeln zu finden.
Hallo!
- Ein gegen solche Ausreißer, wie dem von Dir beschriebenen, robustes Maß der zentralen Tendenz ist der Median. Der Median ist genau der Wert, der in der Mitte einer geordneten Datenreihe liegt.
Beispiel 1 (ungerade Anzahl von Daten):
1 1 2 2 3 3 50.000
Median = 2.
Beispiel 2 (gerade Anzahl von Daten):
1 1 2 2 3 3 3 50.000
Median = 2,5 (nämlich (2+3)/2).
- Du kannst die Ausreißer erkennen, indem Du Dir eine Häufigkeitstabelle ausgeben läßt, in der die Ausprägungen der Daten (z.B. der Wert 2) und die absolute (z.B. 10) und/oder die relative Häufigkeit (oder Prozente) angegeben werden. Dann setzt Du Dir ein bestimmtes Kriterium wie z.B. 2 Standardabweichungen oder z.B. 95% kumulative Häufigkeit (also die Häufigkeit der Datenausprägungen bis zu einer bestimmten Grenze) und definierst alles, was darüber liegt, als Ausreißer.
Mit Statistikprogrammen wie SPSS ist so etwas eine Sache von Sekunden. Aber auch mit Excel bekommt man so etwas recht schnell hin.
Gruß,
Oliver Walter
(bin in der ´Statistik` tätig)