Statistik... Signifikanztest

Liebe wer-weiß-was Experten,

ist es richtig, dass der Mann-Whitney-U-Test für den vergleich zweier Verteilungen angibt, inwiefern sie sich signifikant unterscheiden?
a sei ein fester vektor, x sei ein beliebeger vektor gleicher länge mit werten aus der gleichen grundgesamtheit wie die auch von a sind.

der entsprechende befehl für diesen test bei matlab gibt mir bei 95% der fälle eine 0 aus, was in der hilfe heißt: h = 0 indicates a failure to reject the null hypothesis at the 5% significance level. das heißt: ich kann annehmen, dass die verteilungen nicht gleich sind und das in weniger als 5% der fälle ein fehler begangen wird?
habe ich das alles richtig verstanden?

hoffentlich konnte ich mein problem vernünftig erläutern.

danke für eure mithilfe,

riccardo

Hi riccardo,

Der MWU (oder auch MW)-Test, der übrigens äquivalent zum Wilcoxon-Test ist, reagiert auf alle Unterschiede, also sowohl solche bezogen auf den Mittelwert, die Streuung, Schiefe und Wölbung. Der t-Test z.B. ist explitiz darauf ausgelegt, Unterschiede bezogen auf den Mittelwert zu entdecken, wobei verschiedene Streuungen berücksichtigt werden.
Insofern hast du recht, dass der MWU auf gleiche Verteilung testet.

der entsprechende befehl für diesen test bei matlab gibt mir bei 95% :der fälle eine 0 aus, was in der hilfe heißt: h = 0 indicates a :failure to reject the null hypothesis at the 5% significance :level. das heißt: ich kann annehmen, dass die :verteilungen nicht gleich sind und das in weniger als 5% der :fälle ein fehler begangen wird?
habe ich das alles richtig verstanden?

Nicht mehr ganz.
Die Nullhypthese ist in diesem Fall: Die beiden Vertlungen sind gleich => Alternative: Die Verteilungen sind nicht gleich (warum auch immer). Da nicht abgelehnt werden kann, kann man nicht folgern, dass sie beiden Verteilungen verschieden sind. das heisst aber nciht, dass sie gleich sind, sondern nur, dass sie bestenfalls zufällige Abweichungen haben.
Nicht das alhpa=5% bedeutet, dass in

Hallo,

Der MWU (oder auch MW)-Test, der übrigens äquivalent zum
Wilcoxon-Test ist, reagiert auf alle Unterschiede, also sowohl
solche bezogen auf den Mittelwert, die Streuung, Schiefe und
Wölbung.

Aha. Heißt das, dass bei der verwendung des MW-Tests zur Prüfung auf Unterschiede im Lageparameter (hier wird oft der Median angegeben) eigentlich vorausgesetzt werden muss, dass die Verteilungsformen der zu vergleichenden GGs gleich sein müssen?

LG
Jochen

mein problem ist eher: ich habe die verteilung (nicht normalverteilt oder ähnlich einem anderen modell) zu einer gewissen nicht zufällig gewählten stichprobe (10 zahlen sind möglich, also 100 nennungen, wie 5mal ne 1 und 26 mal ne 3 und so weiter…).
ich kenne natürlich die grundgesamtheit und die verteilung dazu (nicht!!! normalverteilt, oder anderem „modell“ entsprechend).
nun habe ich zwei fragen: wie kann ich überprüfen ob die verteilung in meiner stichprobe signifikant anders ist als in meiner grundgesamtheit und/ oder wie kann ich testen, ob die stichprobe 1 zu einer anderen gewissen, nicht zufälligen stichprobe 2 signifikant unterschiedlich ist.
parametertests gehen ja irgendwie alle von normalverteilten grundgesamtheiten aus, oder nicht?

Danke für eure Hilfe!

PS: hätte ich mal nicht nur deskriptive statistik gemacht!!!

Hallo,

Aha. Heißt das, dass bei der verwendung des MW-Tests zur
Prüfung auf Unterschiede im Lageparameter (hier wird oft der
Median angegeben) eigentlich vorausgesetzt werden muss, dass
die Verteilungsformen der zu vergleichenden GGs gleich sein
müssen?

Richtig, und das steht genau so in etlichen Statistikbüchern drin.
Ich musste JPL’s Antwort zweimal lesen um zu erkennen dass sie vollkommen richtig ist.

Gruss,
TR

Jo, so ist das das :wink:
Oft heisst es dann lapidar: Die Verteilungen müssen symmetrisch sein und gleiche Streuung haben bis auf erstes Moment identisch.
Für den Fall zweier Normaverteilter ZV ist der MWU-Test dann etwa 5% weniger powerful als der t-test.

Grüße,
JPL

Dann muss ich noch an meiner Ausdrucksweise arbeiten …
Danke für den Tipp.
Grüße,
JPL

Hallo nochmal!

Danke erstmal für die Verdeutlichung. Ich habe mich einwickeln lassen von den Aussagen vieler Profs, dass man den MWU-Test *grundsätzlich* verwenden kann und soll, um Mittelwerte zu vergleichen, wenn die Verteilungsformen nicht bekannt sind oder bekanntermaßen schief sind (und „kleine“ Stichproben vorliegen).

Das wäre dann doch aber Quark, oder?

Nach dem ZGWS sind die Mittelwerte nägerungsweise NV. Das ist insbesondere dann bei „kleinen“ (n bis auf erstes

Moment identisch.

Gerade bei symmetrischen Verteilungen braucht man sich doch mit dem t-Test keinen Kopf zu machen- und im Ggs. zum MWU-Test wäre ersterer dann auch noch anwendbar bei Heteroskedastizität (klasse Wortgetüm). Oder?

Für den Fall zweier Normaverteilter ZV ist der MWU-Test dann
etwa 5% weniger powerful als der t-test.

Sollte das nicht auch eine Funktion des Stichprobenumfangs sein? Ein MWU-Test kann bei n

Hi Jochen,

totaler Quark ist das nicht, es kommt eben darauf an, was man für Voraussetzungen machen kann. Je nachdem kommt dann eine anderen Hypothese raus.

Gerade bei symmetrischen Verteilungen braucht man sich doch mit dem :t-Test keinen Kopf zu machen- und im Ggs. zum MWU-Test wäre :ersterer dann auch noch anwendbar bei Heteroskedastizität
(klasse Wortgetüm). Oder?

„Symmetrisch“ ist auch schlecht formuliert gewesen von mir. Klar kann man auch schiefe Verteilungen mit MWU testen. Richtig ist nur die Aussage gewesen: „bis auf erstes Moment identisch“ oder anders gesagt: „Bis auf Verschiebung gleich“. In den Fällen testet man dann einen Lokationsunterschied.
Für deine (Spezial)Fälle hast du aber recht, auch wenn ich mit der Näherung für n~20 bisher keine guten Erfahrungen gemacht habe.

Sollte das nicht auch eine Funktion des Stichprobenumfangs sein? Ein :MWU-Test kann bei n 50). Mit n=3 einen Test zu machen ist schlicht fahrlässig, weil die Schätzer dann alles andere als stabil sind. n=5 ist das absolute Minimum.

a) Bei kleinen Stichproben aus wenigstens symmetrisch verteilten GG :ist der t-Test die bessere Wahl, weil die Verteilungsform keine :Rolle spielt und wirklich der Mittelwert getestet wird. Ein :MWU-Test würde auch dann anschlagen, wenn der Mittelwert gleich :ist, die Verteilungsformen aber unterschiedlich.

Die annahme über die GG ist tatsächlich sehr wichtig. trotzdem würde ich für n50 ist: ja. Marginale power kann man noch diskutieren, denn es kann sich dann schon um eine hübsche anzahl von einsparbaren samples handeln.

Die n’s sind zugegebenermassen mehr Hausnummern als hart belegt, aber der ZGWS zieht eben erst bei großen n’s und selbst dann nicht immer.
Grüße,
JPL

Hallo JPL,

totaler Quark ist das nicht, es kommt eben darauf an, was man
für Voraussetzungen machen kann. Je nachdem kommt dann eine
anderen Hypothese raus.

Schon klar. Aber das Problem mit den Annahmen war der Punkt:

Für den t-test sollte man annehmen können, dass die GG symmetrisch verteilt ist und am besten sogar unimodal. So zumindest nach dem, was ich gelesen habe. Eigene Erfahrungen zeigen, dass bei unimodalen, symmetrischen Verteilungen der effektive Typ-I-Fehler den nominellen nicht übersteigt, auch bei sehr kleinen Stichproben nicht.

Nun stehen manchmal diese Annahmen in Zweifel. Man hat *keine* Ahnung von den Verteilungen der GG und kann vielleicht noch abschätzen/vermuten, dass sich die Varianzen unterscheiden. Was mir komisch vorkommt ist folgendes:

Ich würde nun erwarten, dass „man“ dann sagt: Pech! Kannste halt nix testen, wennde nix weißt.

Tatsächlich bekommt man aber aus vielberufenen Mündern zu hören, dass man dann „natürlich“ nicht de t-test, sondern den MWU-test nehmen muss, und dann ist alles gut. Und das durchaus auch bei 5-10 Werten pro Stichprobe.

Wenn aber doch die Verteilungen nicht bekannt sind und schon wegen der grob unterschiedlichen Varianzen klar ist, dass die Form der Verteilungen unterschiedlich sein müssen, kann ich doch mit dem WMU-test nicht mehr auf reine Lageunterschiede testen.

???

In den Fällen testet man dann einen Lokationsunterschied.
Für deine (Spezial)Fälle hast du aber recht,

Spezialfälle?

Das stimmt, aber ich ging auch implizit von
Stichprobenumfängen sinnvoller Größe aus (n> 50). Mit n=3
einen Test zu machen ist schlicht fahrlässig, weil die
Schätzer dann alles andere als stabil sind. n=5 ist das
absolute Minimum.

Auch das ist so ein Punkt, den ich nicht verstehe. Der Typ-I-Fehler wird gehalten. Was sonst verlangt man denn von einem Test?

Versteh mich nicht falsch: Ich verstehe das wirklich nicht und will es wirklich mal wissen.

würde ich für n

Sevus Jochen,

ich will dir die antworten natürlich nicht vorenthalten:

Für den t-test sollte man annehmen können, dass die GG symmetrisch :verteilt ist und am besten sogar unimodal

Er muss sogar unimodal sein. Sonst ist der MW gar kein guter Parameter zur Beschreibung der Verteilung.

[…]Wenn aber doch die Verteilungen nicht bekannt sind und schon wegen :der grob unterschiedlichen Varianzen klar ist, dass die Form :der Verteilungen unterschiedlich sein müssen, kann ich doch mit :dem WMU-test nicht mehr auf reine Lageunterschiede testen.

Richtig. Das sind die kleinen Feinheiten am Rande. Ich denke, dass ist einer der historisch gewachsenen „Fehler“. Der eine sagt noch: MWU testet MW-Unterschiede, wenn die Verteilungen sonst gleich sind, der andere macht daraus dann schon einen generellen Mittelwertsvergleich. Statsitische stille Post.

Auch das ist so ein Punkt, den ich nicht verstehe. Der Typ-I-Fehler :wird gehalten. Was sonst verlangt man denn von einem Test?

Das stimmt schon. WENN eine Normalverteilung vorliegt, hast du vollkommen recht. Der Punkt ist ja aber, wenn man es nicht weiß. Haut man dann einfach mit dem t-test drauf, wird der Fehler 1. Art eben nicht mehr eingehalten.
z.B.:

set.seed(87012)
n 0, count+1, count)
}
count/rep

liefert den schönen Wert 0.9591. Nimmt man kleinere Fallzahlen, wird er sogar noch größer! Super, denkt man im ersten Moment. Aber: Man sollt sich vor Augen halten, dass bei nichtausschöpfen des Fehlers 1.Art das KI einfach nur unnötig breit ist. d.h. man verschenkt auf der anderen Seite power, wenn man Unterschiede entdecken will.
Von daher meinte ich, im Falle n

Hallo,

ich will dir die antworten natürlich nicht vorenthalten:

Einen Moment lang dachte ich, Du hättest mich vergessen :smile:

Er muss sogar unimodal sein. Sonst ist der MW gar kein guter
Parameter zur Beschreibung der Verteilung.

Hmmm… der MW als Lageparameter… das muss doch kein „typischer Wert“ sein. Der Anteilswert von dichotomen Variablen ist ja auch ein MW, und es macht doch durchaus Sinn, Stichproben anhand ihrer Anteilswerte zu vergleichen (zB. Frauenquote, obwohl es keine 0.75-Frauen gibt - zumindest offiziell :smile: ).

Statsitische stille Post.

Ja, und deswegen habe ich hier enrsthaft Ärger mit einigen Profs. Aus diesem Grund ist zB. eine Doktorarbeit um ein Haar gescheitert - aber das ist ein anderes Schlachtfeld.

Aber: Man sollt sich vor Augen halten, dass bei
nichtausschöpfen des Fehlers 1.Art das KI einfach nur unnötig
breit ist. d.h. man verschenkt auf der anderen Seite power,
wenn man Unterschiede entdecken will.

Ja, das ist ein Punkt. Allerdings: Wie sollte man die Power retten können? Ich meine: man _verschenkt_ keine Power, sondern man _hat_ schlichtweg keine Power. Ein einfacherer Test hat u.U. noch viel weniger Power.

Grüße,
Jochen

PS: Lesenswert: Atlman DG (1994) BMJ 308:283-284

Hi Jochen,

Hmmm… der MW als Lageparameter… das muss doch kein „typischer :Wert“ sein. Der Anteilswert von dichotomen Variablen :ist ja auch ein MW, und es macht doch durchaus Sinn, :Stichproben anhand ihrer Anteilswerte zu vergleichen (zB. :Frauenquote, obwohl es keine 0.75-Frauen gibt - zumindest :offiziell :smile: ).

Eine Frauenquote heisst ja auch nicht, dass überall 0.75 Frauen arbeiten, sondern, dass im Mittel 0.75 Frauen arbeiten. Diese deskriptive aussage maht aber tatsächlich keinen Sinn, denn die nächste Frage vom Leser sollte dann eigentlich sein: Wie verteilt sich denn die Frauenarbeit, so dass 0.75 heauskommt. somit man wieder beim Boxlpot ist. 0.75 macth aber einen Sinn, wenn man das als Parameter z.B. für eine Binomialverteilung ansieht.
Zurück zur Unimodalität: Der MW hat bei NV den riesenvorteil, dass ach gleich den Erwartungswert darstellt. Und darauf will man ja eigentlich hinaus. Für eine bimodale Verteilung bräuchte man aber zwei EW, denn der MW liegt sehr wahrscheinlich einfah in der Mitte wo nix passiert und ist damit nicht mehr erwartungstreu.

Ja, und deswegen habe ich hier enrsthaft Ärger mit einigen Profs. :Aus diesem Grund ist zB. eine Doktorarbeit um ein Haar :gescheitert - aber das ist ein anderes Schlachtfeld.

Ich beneide dich da nicht, kenne aber gleiches von meiner Frau. Es ist mühsam, aber: der bessere ist der Feind des guten.

Ja, das ist ein Punkt. Allerdings: Wie sollte man die Power retten :können? Ich meine: man _verschenkt_ keine Power, sondern man :_hat_ schlichtweg keine Power. Ein einfacherer Test hat u.U. :noch viel weniger Power.

Mehrfach:
a) Viel größere sample size -> ZGWS greift
b) keine Statistik machen -> unzufriedener Kunde
c) bootstrap etc -> gute performance für 5 denn die 5% geringere power gelten nur, wenn NV vorliegt!

Es ist schwer, auf deine eigentliche Frage ein Kochrezept zu finden. Bei so kleinen Fallzahlen und evtl. verschiedener Varianz muss man da schon sehr Hypothesenbezogen planen, ggf. tut’s eben dch ein Permutationstest. Sonst neige ich eher zu c) oder d).

Grüße,
JPL

P.S.: Kannst du mir den Artikel mal schicken?