Ausreißer Test nach Grubbs

Hallo!

ich habe eine Stichprobe und möchte innerhalb dieser die Ausreißer ermitteln. Dafür möchte ich den den Grubbs-Test verwenden. Nun zu meiner Frage: Kann ich diesen Test einmal auf die Stichprobe anwenden um alle Ausreißer zu identifizieren oder muss ich immer den „stärksten“ Ausreißer eliminieren, um den Test dann zu wiederholen?

Vielen Dank und Grüße

Hallo!

Grubbs Test liefert kritische Werte für genau einen Ausreißer. Man kann hergehen und sequentiell Ausreißer entfernen, aber dazu müssen dann die kritischen Werte angepasst werden. Wie genau, das weiß ich leider nicht :smile: sorry, aber hier könntest Du mehr darüber erfahren:

Boris Iglewicz & David C. Hoaglin (1993) How to Detect and Handle Outliers in: Asqc Basic References in Quality Control **16>/b>, American Society for Quality, ISBN 087389247X Buch anschauen.

Some Grubbs-Type Statistics for the Detection of Several Outliers, by Gary L. Tietjen and Roger H. Moore © 1972 American Statistical Association and American Society for Quality (http://www.jstor.org/pss/1267287).

Ansonsten kannst Du alternativ ja auch Rosner’s oder Dixon’s Test in Betracht ziehen (http://www.cee.vt.edu/ewr/environmental/teach/smprim…)

LG
Jochen**

Hi Metzei,

abgesehen davon, dass das Eliminieren von Daten (solange kein stichhaltiger Grund dafür vorliegt, wie etwa nachweislich falsche Messmethode) schon hasrt an der Grenze zur Datenfälschung ist und es eigentlch nicht Ausreißer (das sind Teenager, die von Zuhause weglaufen), sondern Extremwert heisst, zu deiner Frage:
eine gite Beschreiebung findest du hier:
http://www.itl.nist.gov/div898/handbook/eda/section3…
dort wird auch ersichtlich, dass der Test so oft widerholt wird, bis keine Extremwerte mehr gefunden werden. Dabei wird das Signifikanzniveau kontinuierlich angepasst.
Anschließend erfolgt die Ausgabe ob es Extremwerte gab und wieviele. Grüße,
JPL

Ausreißer (das sind
Teenager, die von Zuhause weglaufen), sondern Extremwert
heisst

Hehe, sehr gut!

Vielen Dank für die schnelle Hilfe. Ich bin der Meinung, dass es sich nicht um Ausreißer, eh Extermwerte, handelt. Leider ist mein Betreuer der Meinung, dass ich die Extermwerte entfernen sollte. Es handelt sich bei den Werten um Aktienredniten! Da wurde also definitiv nichts falsch gemessen. Ich werde mal nach einer Quelle schauen, die deine Argumentation bestätigt. Leider korrigiert er die Arbeit und wird nicht erfreut sein, wenn ich seinen „Befehl“ nicht befolge…

Auch dir vielen Dank! Die Quellen werde ich mir jetzt mal anschauen, aber ich denke den Grubb Test werde ich mal sein lassen…

Hi JPL,

[…] und es eigentlch nicht Ausreißer (das sind
Teenager, die von Zuhause weglaufen), sondern Extremwert
heisst,

Nee, Du, das heißt wohl „outlier“, Außenliegender, Außreißer, Datenwerte, die nicht innerhalb der Menge üblicher oder plausibler Werte liegen.

Extremwerte sind der Minimal- und der Maximalwert. Die gibt es zwangsläufig in jedem Datensatz mind. ordinal skalierter Variablen. „Extrem“ heißt ja nicht „fernab jeder Plausibilität“ (was ich für eine gute umgangssprachliche Definition für „Ausreißer“ halte).

zu deiner Frage:
eine gite Beschreiebung findest du hier:
http://www.itl.nist.gov/div898/handbook/eda/section3…
dort wird auch ersichtlich, dass der Test so oft widerholt
wird, bis keine Extremwerte mehr gefunden werden.

Nein, wird es nicht. Bzw.: Wo? Vielleicht habe ich es überlesen?

Dabei wird
das Signifikanzniveau kontinuierlich angepasst.

Wo steht das? Bin ich blind? - Wahrscheinlich, aber das Risiko gehe ich ein :smile:

Anschließend erfolgt die Ausgabe ob es Extremwerte gab und
wieviele.

Hmm, es kann natürlich sein, dass das Statistikprogramm, mit dem die Tabelle erstellt wurde, solche Anpassungen vornimmt, aber davon steht nichts im Text. So wie ich das lese, könnte die Tabelle als Ergebnis auch nur aussagen: „THERE ARE OUTLIERS“ oder „THERE IS AT LEAST ONE OUTLIER“ für den Fall, dass Ho für wenigstens eine der Werte verworfen werden muss.

LG
Jochen

Ihr scheint euch ja beide sehr gut auszukennen. Gibt es denn eine Möglichkeit einen Test auf Extremwerte mit SPSS durchzuführen?

Hallo,

Vielen Dank für die schnelle Hilfe. Ich bin der Meinung, dass
es sich nicht um Ausreißer, eh Extermwerte, handelt. Leider
ist mein Betreuer der Meinung, dass ich die Extermwerte
entfernen sollte.

Das ist dann sinnvoll, wenn die betreffenden Firmen besondere Merkmale haben, die für die Verallgemeinerung der Ergebnisse unsinnig sind. Wenn es zB. darum geht, die Rendite von Familienunternehmen mit denen von AGs zu vergleichen, kann ein Wert für ein Unternehmen, welches zum Erhebungszeitpunkt gerade in eine AG überführt wurde oder auch von Oper eines ungewöhnlichen Betrugsfalls wurde usw. die Aussagen verfälschen. Der Fehler muss also nicht in der Datenerhebung selbst liegen, sondern er kann sozusagen immanent sein. In jedem Fall sollten die „Ausreißer“ dokumentiert sein ebenso wie die Gründe der Einstufung als solche (und der Grund kann nicht sein, dass der Wert halt ein wenige größer/kleiner war als die anderen).

Leider korrigiert er die Arbeit und
wird nicht erfreut sein, wenn ich seinen „Befehl“ nicht
befolge…

Naja, ein guter Betreuer sollte einer stichhaltigen Argumentation immer positiv gegenüberstehen. Ansonsten musst Du abwägen: DEIN Name steht drauf. Das ist sicher bei der Doktorarbeit entscheidender als bei der Diplomarbeit.

LG
Jochen

Ansonsten kannst Du alternativ ja auch Rosner’s oder Dixon’s
Test in Betracht ziehen
(http://www.cee.vt.edu/ewr/environmental/teach/smprim…)

Rosners Test gefällt mir… Eine ganz doofe Frage: Wo finde ich denn die kritischen Werte zu diesem Test?

Ihr scheint euch ja beide sehr gut auszukennen. Gibt es denn
eine Möglichkeit einen Test auf Extremwerte mit SPSS
durchzuführen?

Also ich kenne SPSS nicht und ich finde persönlich auch, dass man wegen der ohnehin notwendigen logischen Begründung über die Plausibilität keinen Hypothesentest auf Ausreißer machen muss. Zumindest nicht in Studien. Anders sieht das sicher aus in der automatisierten Qualitätskontrolle, wo von Millionen von Messungen auch hin und wieder mal Müll dabei ist, der aussortiert werden muss, bevor der Mangen einer Produktionscharge deswegen nicht erkannt wird (oder umgekehrt).

Für Tests auf multiple Ausreißer mit SPSS habe ich nur folgende Literaturstelle gefunden: Thompson GL (2006) An SPSS implementation of the nonrecursive outlier deletion procedure with shifting z score criterion. Behav Res Methods 38 (2):344-352

Ich habe nur den Abstract:
Sophisticated univariate outlier screening procedures are not yet available in widely used statistical packages such as SPSS. However, SPSS can accept user-supplied programs for executing these procedures. Failing this, researchers tend to rely on simplistic alternatives that can distort data because they do not adjust to cell-specific characteristics. Despite their popularity, these simple procedures may be especially ill suited for some applications (e.g., data from reaction time experiments). A user friendly SPSS Production Facility implementation of the shifting z score criterion procedure (Van Selst & Jolicoeur, 1994) is presented in an attempt to make it easier to use. In addition to outlier screening, optional syntax modules can be added that will perform tedious database management tasks (e.g., restructuring or computing means).

Den Artikel bekommt man aber vielleicht in der Bibliothek oder direkt auf Anfrage bei [email protected].

LG
Jochen

Rosners Test gefällt mir… Eine ganz doofe Frage: Wo finde
ich denn die kritischen Werte zu diesem Test?

Gilbert, R. O.: 1987, Statistical Methods for Environmental Pollution Monitoring, Van Nostrand Reinhold, New York.

Im Netz direkt:

http://books.google.de/books?id=Eri7PWvXvEcC&pg=PA18… (Tabelle auf Seite 185)

LG
Jochen

Hi Jo,

Nee, Du, das heißt wohl „outlier“, Außenliegender, Außreißer,
Datenwerte, die nicht innerhalb der Menge üblicher oder
plausibler Werte liegen.

wobei die extremwerte immer als erste als outlier angesehen werden :smile:
aber eigentlich ist das auch egal.

zu deiner Frage:
eine gite Beschreiebung findest du hier:
http://www.itl.nist.gov/div898/handbook/eda/section3…
dort wird auch ersichtlich, dass der Test so oft widerholt
wird, bis keine Extremwerte mehr gefunden werden.

Nein, wird es nicht. Bzw.: Wo? Vielleicht habe ich es
überlesen?

zugegeben ist die Seite auf ein bestimmtes Programm zugeschnitten, das iterativ vorgeht. „Grubbs’ test detects one outlier at a time. This outlier is expunged from the dataset and the test is iterated until no outliers are detected.“

Dabei wird
das Signifikanzniveau kontinuierlich angepasst.

Wo steht das? Bin ich blind? - Wahrscheinlich, aber das Risiko
gehe ich ein :smile:

Die Anpassung siehst du an der Teststatistik: dort wird t2alpha/2N, N-2 verwendet.

Blinde Grüße *g*,
JPL

Hi,

besten Dank vom blinden Hessen!

erleuchtete Grüße,
Jochen

Gern geschehen,
hast mir ja auch schon das Licht gezeigt :smile:
Grüße,
JPL

Ansonsten musst
Du abwägen: DEIN Name steht drauf. Das ist sicher bei der
Doktorarbeit entscheidender als bei der Diplomarbeit.

Ja, es ist schon ein Problem für mich, dass in meiner Arbeit dieser „falsche“ Ansatz vorhanden ist, aber was soll ich machen…

Ich habe mich für Rosners Test entschieden. Ncoh mal zur Durchführung dieses Tests:

Ich identifiziere evtl. Ausreißer, entferne diese aus der Stichprobe, ermittle dann Standardabweichung und Mittelwert der „bereinigten“ Stichprobe und nehme dann diese Werte für die Teststatistik, um damit alle Werte zu testen!?

Ist diese Vorgehensweise korrekt? Nochmals vielen Dank für die Hilfe!