Hallo Experten!
…ich hasse Statistik…
Ich muss einen U-Test machen. Dabei gehe ich wie folgt (nach Köhler, Schachtel, Voelske: Biostatistik, Springer-Verlag) vor:
Stichprobenwerte zählen (n1 und n2)
gemeinsam Stichprobenwerte sortieren, Rangzahlen vergeben und Summe der Rangzahlen R1 und R2 berechnen
U1 und U2 berechnen:
U1=n1*n2+n1*(n1+1)/2-R1
U2=n1*n2+n2*(n2+1)/2-R2
kleineren U-Wert mit dem U-Wert aus der Tabelle
Utab(n1,n2;alpha) vergleichen
Nun habe ich das Problem, dass die vorgegebene Tabelle bei weitem nicht für meine Anzahlen an Stichproben ausreicht…
Nun die Frage:
Nach welcher Formel berechnet sich Utab(n1,n2;alpha)?
Nun habe ich das Problem, dass die vorgegebene Tabelle bei
weitem nicht für meine Anzahlen an Stichproben ausreicht…
Verwendest Du große Stichproben? Dann brauchst Du nicht auf den U-Test zurückzugreifen, sondern kannst den t-Test benutzen. Die mathematische Untermauerung dieser Empfehlung ist der Rückgriff auf den Zentralen Grenzwertsatz, nachdem viele Stichprobenverteilungen mit steigender Stichprobengröße gegen eine Normalverteilung konvergieren. Also checke doch mal, ob Du Dir den Zentralen Grenzwertsatz zunutze machen kannst.
Verwendest Du große Stichproben? Dann brauchst Du nicht auf
den U-Test zurückzugreifen, sondern kannst den t-Test
benutzen. Die mathematische Untermauerung dieser Empfehlung
ist der Rückgriff auf den Zentralen Grenzwertsatz, nachdem
viele Stichprobenverteilungen mit steigender Stichprobengröße
gegen eine Normalverteilung konvergieren. Also checke doch
mal, ob Du Dir den Zentralen Grenzwertsatz zunutze machen
kannst.
Muß aber nicht zwangsläufig gelten. Viele machen den Fehler, daß sie einfachen, o.k., meine Stichprobe ist (sagen wir mal) 500, dann wird das schon klappen und rechnen munter darauf los. die Tests selbst fragen nicht nach den Voraussetzungen und schließlich prüft das kaum einer nach.
Ein Test auf Normalverteilung läßt sich nicht deswegen nicht umgehen, wenn man (fast) sicher sein will.
Muß aber nicht zwangsläufig gelten. Viele machen den Fehler,
daß sie einfachen, o.k., meine Stichprobe ist (sagen wir mal)
500, dann wird das schon klappen und rechnen munter darauf
los. die Tests selbst fragen nicht nach den Voraussetzungen
und schließlich prüft das kaum einer nach.
Ein Test auf Normalverteilung läßt sich nicht deswegen nicht
umgehen, wenn man (fast) sicher sein will.
Hier muß ich Dir widersprechen:
Große Stichproben sichern in vielen Fällen die Annahme der Normalverteiltheit. Speziell für die t-Tests für zwei Gruppen gilt, daß sie gegenüber der Normalverteilungsannahme derart robust sind, daß eine Abweichung von der Normalverteilung der Populationsvariable praktisch unerheblich ist, solange die Stichproben zumindest eine moderate Größe aufweisen. Die Tests auf Normalverteiltheit haben den Nachteil, daß sie zu leicht signifikant werden. Außerdem bedeutet eine Nichtsignifikanz in einem solchen Test nicht, daß die Normalverteiltheitsannahme beibehalten werden kann, sondern nur, daß in dem konkreten Test die Hypothese einer anderen Verteilung nicht sigifikant wurde. Was mit der Nullhypothese der Normalverteiltheit ist, kann gar nicht gesagt werden, so lange der Beta-Fehler, den es in diesem Fall zu minimieren gilt, nicht bekannt ist. Insofern ist es für den Praktiker durchaus vertretbar, die Normalverteiltheitsbedingung bei großen Stichproben als erfüllt anzusehen. Im Falle des t-Tests für unabhängige Gruppen ist das Augenmerk viel mehr auf die Überprüfung der Varianzhomogenität zu richten.
Im übrigen stimme ich Deiner Forderung zu, mehr auf die Erfüllung der Bedingungen bei der Verwendung inferenzstatischer Verfahren zu achten.