Ich habe einen Stichprobenumfang von n=3300. Nun will ich diesen auf Ausreisser überprüfen. Dazu will ich nach dem Grubbs-Ausreissertest vorgehen. Um dies durchführen zu können benötige ich zu meinen errechneten Testwerten die Vergleichswerte aus der Grubbs-Tabelle. Ich bin nun schon seit 2,5 Stunden auf der Suche nach einer Tabelle, in der diese Werte für Stichprobenumfänge in meiner Größenordnung aufgelistet sind, jedoch finde ich nur Tabellen von maximal n=150 bzw. ein Exemplar mit n=600.
Nun zu meiner Frage: Gibt es überhaupt Werte für diesen Stichprobenumfang oder kann ich hier den Grubbstest nicht anwenden? Wie kann ich vorgehen um mir die Vergleichswerte selbst zu errechnen oder ist das nicht möglich?
auf der Seite http://eswf.uni-koeln.de/glossar/tvert.htm findest du eine Tabelle die bis 1000 geht und einen Link zu einem Rechner in dem du beliebige Werte eintragen kannst. Die Anwendung eines statistischen Tests sollte nicht an fehlenden Angaben einer Verteilung scheitern .
Ausreisser bei 3300 Werten? Da sollte man schon nach dem Sinn und Zweck fragen, denn wenn du einen Ausreisser eliminierst hat das quasi keine Auswirkungen, es sei denn er liegt dermassen weit weg vom Rest, dass man das auch ohne Test erkennen könnte.
Also die Ausreisser haben schon Auswirkungen. Es handelt sich um 12 Ausreisser, die relativ weit weg vom Mittelwert liegen und trotz der 3300 Werte Auswirkungen auf meine Berechnungen haben.
da die kritischen Werte für den Grubbs test mit Hilfe der
t-Verteilung berechnet werden, macht das schon Sinn.
Könntest du diesen Algorithmus dem User „Skanator“ angeben?
Er fragte ja: „Wie kann ich vorgehen um mir die Vergleichswerte selbst zu errechnen oder ist das nicht möglich?“
Also die Ausreisser haben schon Auswirkungen. Es handelt sich
um 12 Ausreisser, die relativ weit weg vom Mittelwert liegen
und trotz der 3300 Werte Auswirkungen auf meine Berechnungen
haben.
Klar haben sie Auswirkungen. Der MW kann sich z.B. in der 5 Nachkommastelle ändern, was vllt per se keine großer Unterscheid ist. Wenn man den Wert als Schätzer für Inzidenzen hernimmst und daher beispielsweise mit 10^6 multipliziert, sieht es dann schon ganz anders aus.
Dennoch -und da beachte bitte auch Safraels kommentar - kann einfach die zugrundeliegende Verteilung extreme Werte begünstigen, z.B. lognormalverteilung. dann wäre der mean sowieso eher unbrauchbar.
Für 3300 Werte würde ich aber keinen Ausreißertest machen, sondern entweder robuste Schätzer verwenden (was aber bei 3300 Werten irgendwie komisch aussieht) oder versuchen eine gemischte Verteilung zu fitten, die jene extremen Werte erklären könnte.
Aber ohne weitere Erklärungen kommt man da nicht gut weiter.
habe nun eine Tabelle gefunden, unter der für den Stichprobenumfang n > 100 folgende Näherungsformel angegeben ist:
1-0,01/n * (1 - 4,187/n + 152,4/n^2 -5370/n^3)
Als Quelle wurde „F.E. Grubbs und G. Beck: Extension of sample sizes and percentage point for significance tests of outlying observations. Technometrics 14(1972), 847“ angegeben.
Kennt diese Näherungsformel jemand?