Grubbs-Tabelle für Stichprobenumfang größer 3000?

Skanator · 8. März 2012 um 10:56

Hallo!

Ich habe einen Stichprobenumfang von n=3300. Nun will ich diesen auf Ausreisser überprüfen. Dazu will ich nach dem Grubbs-Ausreissertest vorgehen. Um dies durchführen zu können benötige ich zu meinen errechneten Testwerten die Vergleichswerte aus der Grubbs-Tabelle. Ich bin nun schon seit 2,5 Stunden auf der Suche nach einer Tabelle, in der diese Werte für Stichprobenumfänge in meiner Größenordnung aufgelistet sind, jedoch finde ich nur Tabellen von maximal n=150 bzw. ein Exemplar mit n=600.

Nun zu meiner Frage: Gibt es überhaupt Werte für diesen Stichprobenumfang oder kann ich hier den Grubbstest nicht anwenden? Wie kann ich vorgehen um mir die Vergleichswerte selbst zu errechnen oder ist das nicht möglich?

Gruß
Stefan

David_fe1815 · 9. März 2012 um 10:59

Hi,

auf der Seite http://eswf.uni-koeln.de/glossar/tvert.htm findest du eine Tabelle die bis 1000 geht und einen Link zu einem Rechner in dem du beliebige Werte eintragen kannst. Die Anwendung eines statistischen Tests sollte nicht an fehlenden Angaben einer Verteilung scheitern .

Viele Grüße
David

watergolf93_a4fdcf · 9. März 2012 um 18:06

Hallo,

auf der Seite http://eswf.uni-koeln.de/glossar/tvert.htm
findest du eine Tabelle die bis 1000 geht und einen Link zu

was hat die von dir angegebene Tabelle der T-Verteilung mit der gesuchten Grubbs-Tabelle zu tun?

Gruß

watergolf

JPL · 10. März 2012 um 18:48

Hi,

da die kritischen Werte für den Grubbs test mit Hilfe der t-Verteilung berechnet werden, macht das schon Sinn.

Grüße,
JPL

JPL · 10. März 2012 um 18:52

Hi,

Ausreisser bei 3300 Werten? Da sollte man schon nach dem Sinn und Zweck fragen, denn wenn du einen Ausreisser eliminierst hat das quasi keine Auswirkungen, es sei denn er liegt dermassen weit weg vom Rest, dass man das auch ohne Test erkennen könnte.

Grüße,
JPL

Skanator · 11. März 2012 um 09:34

Also die Ausreisser haben schon Auswirkungen. Es handelt sich um 12 Ausreisser, die relativ weit weg vom Mittelwert liegen und trotz der 3300 Werte Auswirkungen auf meine Berechnungen haben.

watergolf93_a4fdcf · 11. März 2012 um 09:44

Hallo,

da die kritischen Werte für den Grubbs test mit Hilfe der
t-Verteilung berechnet werden, macht das schon Sinn.

Könntest du diesen Algorithmus dem User „Skanator“ angeben?
Er fragte ja: „Wie kann ich vorgehen um mir die Vergleichswerte selbst zu errechnen oder ist das nicht möglich?“

Gruß

watergolf

Safrael · 11. März 2012 um 11:37

Bei 3300 Werten würde ich anfangen mir Gedanken darüber zu machen ob es wirklich Ausreißer sind oder ob diese Abweichungen regelmäßig auftreten.

JPL · 11. März 2012 um 12:34

Hi,

Also die Ausreisser haben schon Auswirkungen. Es handelt sich
um 12 Ausreisser, die relativ weit weg vom Mittelwert liegen
und trotz der 3300 Werte Auswirkungen auf meine Berechnungen
haben.

Klar haben sie Auswirkungen. Der MW kann sich z.B. in der 5 Nachkommastelle ändern, was vllt per se keine großer Unterscheid ist. Wenn man den Wert als Schätzer für Inzidenzen hernimmst und daher beispielsweise mit 10^6 multipliziert, sieht es dann schon ganz anders aus.
Dennoch -und da beachte bitte auch Safraels kommentar - kann einfach die zugrundeliegende Verteilung extreme Werte begünstigen, z.B. lognormalverteilung. dann wäre der mean sowieso eher unbrauchbar.

Für 3300 Werte würde ich aber keinen Ausreißertest machen, sondern entweder robuste Schätzer verwenden (was aber bei 3300 Werten irgendwie komisch aussieht) oder versuchen eine gemischte Verteilung zu fitten, die jene extremen Werte erklären könnte.

Aber ohne weitere Erklärungen kommt man da nicht gut weiter.

Grüße,
JPL

Skanator · 11. März 2012 um 23:01

Damit wär mir schon sehr geholfen!!

Vielen Dank und schönen Abend noch!!

Skanator · 13. März 2012 um 11:20

Guten Tag,

habe nun eine Tabelle gefunden, unter der für den Stichprobenumfang n > 100 folgende Näherungsformel angegeben ist:

1-0,01/n * (1 - 4,187/n + 152,4/n^2 -5370/n^3)

Als Quelle wurde „F.E. Grubbs und G. Beck: Extension of sample sizes and percentage point for significance tests of outlying observations. Technometrics 14(1972), 847“ angegeben.
Kennt diese Näherungsformel jemand?

Gruß
Skanator