Liebe Statistiker,
das zentrale Grenzwerttheorem besagt, dass sich jede Verteilung ab ca. N=30 einer Normalverteilung annähert. In der Praxis wird dies manchmal benutzt, um im Falle der Verletzung der Normalverteilung bei einer Varianzanalyse diese dennoch zu berechnen bzw. das Ergebnis zu interpretieren.
Angenommen es handelt sich um eine zweifaktorielle ANOVA mit jeweils 2 Faktorstufen. Es gibt also 4 Zellen. Muss jede dieser 4 Zellen eine Zellbesetzungg von mindestens 30 aufweisen, damit das Theorem zur Anwendung kommt, und zwar auch dann, wenn es nur darum geht, bei einer NV-Verletzung einen signifikanten Haupteffekt zu interpretieren? Für diesen würden bei einer Zellebsetzung von 30 im Prinzip ja 60 Messwerte vorliegen, auf die sich dieser Vergleich stützt. Bei einer Interaktionen wären es hingegen wirklich nur 30 Werte, das ist klar… Ist also immer eine Zellbesetzung von 30 das Kriterium oder nur dann, wenn man Wechselwirkungen interpretieren will? Danke und LG! seitherp
Hi,
das zentrale Grenzwerttheorem besagt, dass sich jede
Verteilung ab ca. N=30 einer Normalverteilung annähert.
nein. Der ZGS sagt, dass sich die Verteilung asymptotisch einer Normalverteilung annähert. Über das N ist da nichts angegeben und die Kovergenzgeschiwindigkeit hängt auch von der Verteilung selber ab.
In der
Praxis wird dies manchmal benutzt, um im Falle der Verletzung
der Normalverteilung bei einer Varianzanalyse diese dennoch zu
berechnen bzw. das Ergebnis zu interpretieren.
aber nicht bei N=30. wenn man über N>1000 redet kann man das getrost machen, ansonsten gehen die Meinung auseinander ob n=100 doch schon reicht oder N=500 …
Das Argument hat noch einen weiteren Haken: wenn man erst auf Normalverteilung testet um dann (doch) mit der Anzahl zu argumentieren, dann kann man sich das eh sparen. Da die meisten ohnehin das falsche auf Normalverteilung testen (die abh. Variable statt der Residuen) machen sie dann eigentlich gleich 2 Fehler.
Von daher würde ich das Argument so gar nicht bringen.
Viele Grüße,
JPL
Lieber JPL,
herzlichben Dank für deine ausführlichen und kompetenten Antworten. Hab sie erst jetzt entdeckt, weil ich inzwischen im Urlaub war. Eine kurze Rückfrage hätte ich trotzdem noch (ganz unten):
das zentrale Grenzwerttheorem besagt, dass sich jede Verteilung ab ca. N=30 einer Normalverteilung annähert.
nein. Der ZGS sagt, dass sich die Verteilung asymptotisch einer Normalverteilung annähert. Über das N ist da nichts angegeben und die Kovergenzgeschiwindigkeit hängt auch von der Verteilung selber ab.
Ok, das ist eigentlich logisch und war von mir schlecht ausgedrückt.
In der Praxis wird dies manchmal benutzt, um im Falle der Verletzung der Normalverteilung bei einer Varianzanalyse diese dennoch zu berechnen bzw. das Ergebnis zu interpretieren.
aber nicht bei N=30. wenn man über N>1000 redet kann man das getrost machen, ansonsten gehen die Meinung auseinander ob n=100 doch schon reicht oder N=500 …
Das ist interessant, weil bei uns den Psychologiestudenten in der Lehrveranstaltung empfohlen wird, das ab Zellbestezung von 30 so zu machen. Ist also falsch… Mir sagete das auch schon mal ein anderer Statistiker…
Das Argument hat noch einen weiteren Haken: wenn man erst auf Normalverteilung testet um dann (doch) mit der Anzahl zu argumentieren, dann kann man sich das eh sparen. Da die meisten ohnehin das falsche auf Normalverteilung testen (die abh. Variable statt der Residuen) machen sie dann eigentlich
gleich 2 Fehler.
Ok, noch ein Fehler, den offenbar vielen „empfohlen“ wird…
Von daher würde ich das Argument so gar nicht bringen.
Jetzt meine letzte Frage. Angenommen ich hätte um einiges größere Stichprobe und würde auch die Residuen auf NV testen. Das Ergebnis sagt: Verletzung der NV. Würde es für die Anwendedbarkeit des Grenzwertteorems bei einer ANOVA mit Gruppenvergleichen einen Unterschied machen, ob ich Haupteffekte oder Wechselwirkungen interpretieren möchte? Können bei Haupteffekt Zellbesetzungen zusammengefasst werden? Beispiel: (1) Depressive vs. Unauffällige und (2) Männer vs. Frauen. Wenn beide Hauptreffekte signifikant werden und ich jeweils eine Haupteffekt (z.B. Geschlecht) betrachte, darf ich dann die Besetzungen der Gruppen, um die es gerade nicht geht (z.B. Depressivität) zusammenfassen oder nicht? Bei WW ist klar, dass die Einzelbesetzungen maßgeblich sind…
Wahrscheinlich wäre es aber auch bei großen Stichproben im Falle der Verletzung der NV besser, parameterfrei zu rechnen oder…? Mann-Whitney-U-Test oder bei mehr Gruppen Kruskal-Wallis-Test…?
Nochmals danke und liebe Grüße, seitherp
Viele Grüße,
JPL
Hi,
Jetzt meine letzte Frage. Angenommen ich hätte um einiges
größere Stichprobe und würde auch die Residuen auf NV testen.
Das Ergebnis sagt: Verletzung der NV.
Dann wäre damit Ende mit NV. Denn WENN der ZGS gezogen hätte, dann wäre das ergebnis ja nicht sig. (bis auf 5% Fehler).
Würde es für die
Anwendedbarkeit des Grenzwertteorems bei einer ANOVA mit
Gruppenvergleichen einen Unterschied machen, ob ich
Haupteffekte oder Wechselwirkungen interpretieren möchte?
Nein. generell ist aber die Schätzung des effektes nicht beeinflusst, sondern vorwiegend die Varianzschätzung und damit p-Wert und Konfi.
Können bei Haupteffekt Zellbesetzungen zusammengefasst werden?
Das ist lediglich gleichbedeutend mit dem weglassen einer trennenden Variablen. Wenn du eine modellbildung anstrebst, dann probiert man das mal und versucht über AIC, restfehler, und so weiter, das beste Modell zu finden. Nur diejenigen rauszuwerfen, die nicht sig. sind, ist zwar nicht falsch, aber suboptimal.
Wenn du sie nur rauswirfst, weil sie nicht sig. sind um damit die Zellbesetzung zu erhöhen könnte das interessant sein, wenn die Residuen dann NV haben. das ist aber eher unwahrscheinlich.
Wahrscheinlich wäre es aber auch bei großen Stichproben im
Falle der Verletzung der NV besser, parameterfrei zu rechnen
oder…? Mann-Whitney-U-Test oder bei mehr Gruppen
Kruskal-Wallis-Test…?
Ja, wobei diese alle nicht den Komfort einer ANOVA haben. Es gibt noh andere Wege, das Problem zu lösen, aber das wird dann recht kompliziert.
ein etwas aufwändigerer Weg, aber recht einfach ist folgender:
- ANOVA machen wie man es für sinnvoll hält.
- Residuen analysieren (a) auf NV und b) levene-test wegen gleicher Varianz)
- schmiert 2a oder 2b ab, noch einen Kurskall nachschieben für die Faktoren von 1). sind die auch sig. ->
wenn nicht: nur auf 3) verlassen.
In jedem Fall: multiples Testen beachten!
Viele Grüße,
JPL