Voraussetzung für NHTs

Hallo,

Parametrische Nullhypothesentests (NHTs) sind ja an bestimmte Voraussetzungen gebunden. Bei Zweistichproben-t-Test zB. müssen die Mittelwerte normalverteilt und die Varianzen gleich sein.

Die Tests testen geben ja die Wahrscheinlichkeit an, die beobachteten Daten (oder extremere Ausprägungen) unter einer Modellannahme (der Nullhypothese, H0) zu erhalten.

Klar, dass ein Test nur sinnvolle Ergebnisse liefert, wenn die Bedingungen des Tests auch erfüllt sind, und das heißt doch, dass sie unter H0 erfüllt sein müssen.

Wenn H0 aber de facto falsch ist, ist dann ein t-Test nicht adäquat, selbst wenn die Varianzen dann ungleich sind?

Um das nochmal am Beispiel zu verdeutlichen (Anm: mathematisch mögen sich Spezialfälle konstuieren lassen, für die das ander ist, aber hier liegen den Daten ja reale Mechanismen ihrer Erzeugung zu Grunde!):

Eine Erkrankung steht in Verdacht, den Hb-Wert im Urin zu erhöhen. Normalerweise ist praktisch kein Hb im Urin, der Mittelwert ist nahe Null und streut auch nur ganz wenig. In der Stichprobe von erkrankten Personen ist der Mittelwert deutlich höher - UND er streut beträchtlich mehr.

Hätte die Erkrankung KEINEN Einfluss, wären auch bei den Erkrankten Werte nahe Null mit entsprechend kleiner Streuung zu sehen gewesen (das ist wohl ein Interpretationsunterschied zur „rein mathematischen“ Herangehensweise). Unter der wahren H0 wären damit die Varianzen gleich.

In der Literatur wird in solchen Fällen behauptet, man müsse den Welsh-Test nehmen, weil die Varianzen ungleich sind. Das sind sie zwar, aber doch „nur“ unter einer „offensichtlich“ falschen H0. Der Test wird also sowieso signifikant.

Real betreffen die Probleme nicht nur die Varianz, sondern auch die Form der Verteilung. Im obigen Beispiel könnte der Hb-Wert bei Gesunden zB. log-Normalverteilt sein, während er bei Erkrankten mit großer Varianz symmetrisch verteilt ist. Hier käme nicht mal der Welsh-Test in Frage. Wilcoxon-Mann-Whitney als Rang-Alöternative aber AUCH nicht, weil die Verteilungen ungleiche Formen haben und es sich nicht nur um einen „locationb shift“ handelt.

Also nochmal die Frage:

Wenn Stichproben aus zwei gleichartigen und nur in Bezug aus den interessierenden Faktor unterschiedlichen Populationen stammen, und der Faktor keinen Einfluss auf die Mittelwerte hat, kann man dann annehmen, dass unter H0 gleiche Verteilungen (Form+Varianz) gegeben sind?

Und wenn ja, ist ein Test, der gleiche Verteilungen und Varianzen voraussetzt, auch dann anwendbar, obwohl in den Stichproben die empirischen Verteilungsformen und/oder Varianzen offensichtlich unterschiedlich sind (weil offensichtlich H0 falsch ist)?

(ich weiß: bei offensichtlich falschen H0 braucht man nicht testen, leider verlangen die Reviewer aber immer p-Werte).

LG,
Jochen

Hi Jochen,

das Thema treibt dich wirklich um, was?

Die Tests testen geben ja die Wahrscheinlichkeit an, die
beobachteten Daten (oder extremere Ausprägungen) unter einer
Modellannahme (der Nullhypothese, H0) zu erhalten.

Genau.

Klar, dass ein Test nur sinnvolle Ergebnisse liefert, wenn die
Bedingungen des Tests auch erfüllt sind, und das heißt doch,
dass sie unter H0 erfüllt sein müssen.

Wenn H0 aber de facto falsch ist, ist dann ein t-Test nicht
adäquat, selbst wenn die Varianzen dann ungleich sind?

Bleiben wir beim bsp t-test.
Voraussetzungen (für den klassischen 2-Gruppen-Vergleich):

  • Normalverteilung in den Gruppen,
  • gleiche Varianz,
  • gleicher Stichprobenumfang.
    H0: µ1 = µ2.

Wenn die Voraussetzungen erfüllt sind, liefert der p-Wert die W’keit für den beobachteten outcome und der Annahme, dass H0 richtig ist.

Sind die Voraussetzungen nciht erfüllt (z.B. Varianzgleichheit), sinkt die Power, weil der Test die geänderten Voraussetzungen nicht adäquat berücksichtigt.

Wenn H0 de facto falsch ist, weil die Messwerte z.B. µ1=1000, sd1=5, n1=20 und µ2=5, sd2=5, n2=20 sind, dann ist das keine Verletzung der Voraussetzung und führt nciht zu eine Nichtanwendbarkeit des tests. Er sollte dann aber schon ein sig. Ergebnis erzeugen.

Hätte die Erkrankung KEINEN Einfluss, wären auch bei den
Erkrankten Werte nahe Null mit entsprechend kleiner Streuung
zu sehen gewesen (das ist wohl ein Interpretationsunterschied
zur „rein mathematischen“ Herangehensweise). Unter der wahren
H0 wären damit die Varianzen gleich.

In der Literatur wird in solchen Fällen behauptet, man müsse
den Welsh-Test nehmen, weil die Varianzen ungleich sind. Das
sind sie zwar, aber doch „nur“ unter einer „offensichtlich“
falschen H0. Der Test wird also sowieso signifikant.

die Voraussetzungen für Welsh sind:

  • Normalverteilung in den Gruppen,
  • gleicher Stichprobenumfang.
    H0: µ1 = µ2.

Die Hypothese bleibt also, und es liegt keine Verletzung der Voraussetzungen vor. Er ist also adäquat für das Testproblem.
weil der klassische t-test mehr df hat in diesem Fall, ist der p-Wert zwar kleiner als für Welsh. Das spiegelt aber nur ein Überpowern wider.

Wenn Stichproben aus zwei gleichartigen und nur in Bezug aus
den interessierenden Faktor unterschiedlichen Populationen
stammen, und der Faktor keinen Einfluss auf die Mittelwerte
hat, kann man dann annehmen, dass unter H0 gleiche
Verteilungen (Form+Varianz) gegeben sind?

Nein. wenn du weißt, dass sd1 sd2 (oder es vermutest), dann sollte sich das in dem Test widerspiegeln. Sprich: es darf nicht zu einer Verletzung der Voraussetznugen kommen und es muss irgendwie in der Teststatistik berücksichtigt werden.

Und wenn ja, ist ein Test, der gleiche Verteilungen und
Varianzen voraussetzt, auch dann anwendbar, obwohl in den
Stichproben die empirischen Verteilungsformen und/oder
Varianzen offensichtlich unterschiedlich sind (weil
offensichtlich H0 falsch ist)?

(Das hat nichts mit H0 zu tun, lange dies nicht wirklich explizit getestets werden soll.) Begrenzt, denn z.B. ist zwar 2

Hallo JPL,

das Thema treibt dich wirklich um, was?

ei, sicher.

Bleiben wir beim bsp t-test.
Voraussetzungen (für den klassischen 2-Gruppen-Vergleich):

  • Normalverteilung in den Gruppen,
  • gleiche Varianz,
  • gleicher Stichprobenumfang.
    H0: µ1 = µ2.

Das mit dem gleichen Stichprobenumfang hab ich noch nicht gehört… aber sei’s drum. Ich weiß, dass die Verletzung der Varianzengleichheit schlimmer wiegt, wenn n1 != n2, und insbesondere, wenn die größere Varianz in der kleineren Stichprobe ist. Warum, ist mir auch klar, aber darum geht’s hier nicht.

Wenn die Voraussetzungen erfüllt sind, liefert der p-Wert die
W’keit für den beobachteten outcome und der Annahme, dass H0
richtig ist.

Sach ich ja.

Sind die Voraussetzungen nciht erfüllt (z.B.
Varianzgleichheit), sinkt die Power, weil der Test die
geänderten Voraussetzungen nicht adäquat berücksichtigt.

Ja. Das ist wichtig für die Versuchsplanung, wenn Tierversuche oder klinische Studien anstehen.

Gehen wir hier aber mal vom Forschungsansatz aus. Man hat Kohle für 8 Messungen pro Gruppe. Punkt. Die macht man halt und guckt sich das Ergebnis an. Da sieht man dann: Hey, klasse, wie erwartet habe ich zB. höhere Werte in der „Treatment“-Gruppe als in der „Control-Gruppe“ (so als Bsp: Bereich Control: 0.2-1.0, Bereich Treatment: 0.9-6.5). Das mag man exploratorisch darstellen, vielleicht noch ein Stipchart dazu und gut. Tja, und das kommt das Manuskript zurück mit der Bitte, doch einen p-Wert dranzuschreiben.

…dann ist das keine
Verletzung der Voraussetzung und führt nciht zu eine
Nichtanwendbarkeit des tests. Er sollte dann aber schon ein
sig. Ergebnis erzeugen.

Ahso. Darum gehts. Jetz weiter im obigen Bsp:

Man macht also einen Standard t-Test (weil die Mittelwerte angegeben wurden) und erhält p = 0.000000003. Das Manuskript kommt wieder zurück, weil der Gutachter findet, dass die Varianzgleichheit nicht gegeben ist, außerdem ist zumindest die Verteilung der Treatmentwerte rechtsschief. Daher sei der t-Test nicht anzuwenden.

Da würde ich dem Gutachtet nun nicht zustimmen.

Der Gutachter will *daher* einen MW-Test.

Das käme m.E. als Alternative *dann* doch auch nicht in Frage, weil hier die Vorraussetzung gleicher Verteilungsformen verletzt ist.

Wenn Stichproben aus zwei gleichartigen und nur in Bezug aus
den interessierenden Faktor unterschiedlichen Populationen
stammen, und der Faktor keinen Einfluss auf die Mittelwerte
hat, kann man dann annehmen, dass unter H0 gleiche
Verteilungen (Form+Varianz) gegeben sind?

Nein.

Ach ja, das treatment kann ja auch einen Effekt auf die Varianz haben, ohne den Mittelwert zu beeinflussen. Das ist der Punkt, oder?

(Das hat nichts mit H0 zu tun, lange dies nicht wirklich
explizit getestets werden soll.)

??

Begrenzt, denn z.B. ist zwar
2 >50)?

Man kann
natürlich immer Welsh verwenden, was einem nur ein paar dfs
kostet, denn wo die Grenze zu ziehen ist, ist nicht so leicht
zu bestimmen.

Klaro.

Du weißt aber vorher nicht, ob H0 stimmt oder nicht. du
steckst hier schon wissen in den Test, der von den Daten
stammt, dabei soll der Test ja schon vorher festgelegt sein

-)

Ich weiß, ich weiß :frowning:

Aber in der Grundlagenforschung macht niemand erst eine Pilotstudie, um sich die Verteilungen anzuschauen. Und Literaturwerte gibt es notwendigerweise auch keine. In gewisser weise SIND solch Studien allesamt Pilotstudien, aber als solche können sie nicht veröffentlicht werden. Publish or perish… In diesem Satz sind gleich zwei p’s :smile:

Noch eine Nachfrage:

Wenn man nicht nur Heteroskedastizität, sondern auch Nicht-Normalität (als unter H0 möglich) annimmt, kann man dann

http://deposit.ddb.de/cgi-bin/dokserv?idn=982407912&…

http://bm2.genes.nig.ac.jp/RGM2/R_current/library/np…

nehmen?

LG
Jochen

Hi Jochen,

Gehen wir hier aber mal vom Forschungsansatz aus. Man hat
Kohle für 8 Messungen pro Gruppe. Punkt. Die macht man halt
und guckt sich das Ergebnis an. Da sieht man dann: Hey,
klasse, wie erwartet habe ich zB. höhere Werte in der
„Treatment“-Gruppe als in der „Control-Gruppe“ (so als Bsp:
Bereich Control: 0.2-1.0, Bereich Treatment: 0.9-6.5). Das mag
man exploratorisch darstellen, vielleicht noch ein Stipchart
dazu und gut. Tja, und das kommt das Manuskript zurück mit der
Bitte, doch einen p-Wert dranzuschreiben.

Also, nehemn wir das Sachlage.

Man macht also einen Standard t-Test (weil die Mittelwerte
angegeben wurden) und erhält p = 0.000000003. Das Manuskript
kommt wieder zurück, weil der Gutachter findet, dass die
Varianzgleichheit nicht gegeben ist, außerdem ist zumindest
die Verteilung der Treatmentwerte rechtsschief. Daher sei der
t-Test nicht anzuwenden.
Da würde ich dem Gutachtet nun nicht zustimmen.

Warum? er hat schon recht, denn du hast nicht den optimalen Test (z.B. Welsh) verwendet. In diesem Fall kennt man einen Test, der für den Fall der Varianzungleichheit entwickelt worden ist, dieser sollte in den Fällen dann auch Anwendung finden.

Der Gutachter will *daher* einen MW-Test.
Das käme m.E. als Alternative *dann* doch auch nicht in Frage,
weil hier die Vorraussetzung gleicher Verteilungsformen
verletzt ist.

Richtig, darauf kann man den Gutachter hinweisen. Oder du formulierst eine andere Hypothese (Verteilungen sind nicht gleich).

Wenn Stichproben aus zwei gleichartigen und nur in Bezug aus
den interessierenden Faktor unterschiedlichen Populationen
stammen, und der Faktor keinen Einfluss auf die Mittelwerte
hat, kann man dann annehmen, dass unter H0 gleiche
Verteilungen (Form+Varianz) gegeben sind?

Nein.

Ach ja, das treatment kann ja auch einen Effekt auf die
Varianz haben, ohne den Mittelwert zu beeinflussen. Das ist
der Punkt, oder?

Genau.

Bei „großen“ n wiederum ist die Normal-Approximation der
Mittelwerte wieder hinreichend gut, um den t-Test machen zu
können (oder hätte der MW-Test hier mehr Power, also für
n>>50)?

Kommt auf die tatsächlichr Verteilung an. MW hat bei vorliegen einer Normalverteilung saymptotisch 5% weniger power als der t-test. Liegt keine N-Verteilung vor,kann die power auch höher als beim t-test sein.

Aber in der Grundlagenforschung macht niemand erst eine
Pilotstudie, um sich die Verteilungen anzuschauen. Und
Literaturwerte gibt es notwendigerweise auch keine. In
gewisser weise SIND solch Studien allesamt Pilotstudien, aber
als solche können sie nicht veröffentlicht werden. Publish or
perish… In diesem Satz sind gleich zwei p’s :smile:

Dennoch kann man sich Gedanken über die Tests machen: Was habe ich, was will ich, und welcher Test kann das liefern?

Noch eine Nachfrage:

Wenn man nicht nur Heteroskedastizität, sondern auch
Nicht-Normalität (als unter H0 möglich) annimmt, kann man dann
http://deposit.ddb.de/cgi-bin/dokserv?idn=982407912&…
http://bm2.genes.nig.ac.jp/RGM2/R_current/library/np…
nehmen?

Ja, das geht. :smile:
Grüße,
JPL

Tach :smile:

Man macht also einen Standard t-Test …
und erhält p = 0.000000003.

…weil der Gutachter findet, dass die
Varianzgleichheit nicht gegeben ist,
außerdem ist zumindest die Verteilung der
Treatmentwerte rechtsschief.
Daher sei der t-Test nicht anzuwenden.
Da würde ich dem Gutachtet nun nicht zustimmen.

Warum? er hat schon recht, denn du hast nicht den optimalen
Test (z.B. Welsh) verwendet.

Warum soll dann denn der Welsh ok sein? Die Annahme, dass die Varianzhomogenität (unter H0!) verletzt sei, kann er doch nur aus den vorliegenden Stichproben haben. Und GENAUSO müßte er doch auch annehmen, dass die Symmetrie der Verteilung (bz. die „Normalität“) einer Population (unter H0!) NICHT gegeben ist, weshalb ein t-Test GRUNDSÄTZLICH nicht in Frage kommt.

Aus dem gleichen Grund ist dann auch ein MW-Test nicht akzeptabel.

Ich kann also -formal- weder die Mittelwerte noch die Mediane prüfen (ausser vlt. mit nparcomp oder bootstrappen).

Sicher könnte ich, wohl mit dem MW-Test?, die Verteilungen testen. Allerdings interessieren die Unterschiede in den Verteilungen praktisch nicht. Es geht tatsächlich um die Frage, ob die Mittelwerte unterschiedlich sind.

Doch gehen wir nochmal „nur“ von Heteroskedastizität aus: Der t-Test hat dann eine geringere Power. Nun ist das Ergebnis aber sowieso signifikant, d.h. auch bei suboptimaler Power wird H0 mit hoher Konfidenz verworfen. So what?

Ich verstehe die Diskussionen um dieses Thema immer noch nicht ganz. Ziel des NHT ist es doch, die H0 (Effekte sind nur durch Stichprobenfehler verursacht) nicht zu häufig fälschlicherweise zu verwerfen. Solange das auch bei Verletzungen der Testannahmen der Fall ist, ist es doch ok, denke ich. [ANDERS ist es bei GEPLANTEN Studien, wo man eine gewünschte Power mit minimalem Stichprobenumfang erreichen will. Hier brauchte man aber eigentlich Informationen darüber, wie die Verteilungen unter H0 aussehen würden.]

Da schließt sich noch eine Frage an:

Ist es nicht GRUNDSÄTZLICH UNMÖGLICH, die Verteilung unter H0 abzuschätzen? Wenn ich meinetwegen eine Kontrollpopulation und eine Treatmentpopulation habe, dann unterscheiden sich ja die Populationen wenigstens durch das Treatment. Nun man das Treatment den Mittelwert verschieben oder nicht (das gilt es ja herauszufinden). ZUSÄTZLICH mag das Treatment aber auch die Verteilungsform ändern. Nun ist es doch -so denke ich- sinnvoll, davon auszugehen, dass beide Effekte (Verschiebung und „Verzerrung“) einander bedingen, also korrelieren. Je größer die Verschiebung, desto unähnlicher die Verteilungsformen. Das hängt oft mit den natürlichen Grenzen zusammen, in denen die Werte überhaupt schwanken dürfen; auch gibt es in biologischen Systemen nichtlineare (meist unbekannte) Wechselwirkungen, die alles verkomplizieren.

Um also abschätzen zu können, ob die Verteilungen unter H0 (gleiche Populationsmittelwerte) also verschieden sind, brauchte man doch eine Population, in der alle Effekte des Treatments vorhanden sind BIS auf eine (mögliche) Verschiebung des Mittelwertes. Das ist aber unmöglich!

Genauso umgekehrt: Die Verteilungen könnten bei falscher H0 gleich aussehen, weil die Mittelwertverschiebung zu den Veränderungen in der Form der Verteilung „antikorreliert“ ist. Unter wahrer H0 hätte man dann ungleiche Verteilungen und diese Unterschiede werden geringer, je mehr die Realität von H0 abweicht. Somit stützt auch die Beobachtung gleicher Verteilungsformen nicht die Annahme, dass dies unter H0 auch der Fall sei.

Ich käme so zu dem Schluss, dass man -streng genommen- nie annehmen darf, dass die Verteilungen unter H0 gleich sind, weil es keine empirischen Daten geben kann, die diese Annahme stützen könnten, sei denn, H0 ist sowieso wahr, was man aber nicht weiss. Wenn die Verteilungen (die man in Pliotstudien untersucht) wirklich gleich sind, tja, dann gibt es auch keinen Hinweis auf einen Effekt. Dann brauche ich die „richtige“ Studie gar nicht erst zu machen.

So bleibt doch die Anwendung des t-Tests (meinetwegen die Welch-Variante) eine saubere pragmatische Lösung; ist er nicht signifikant, habe ich sowieso keinen Anhaltspunkt (zu kleine Stichproben? Verteilungen nicht ok? …) und kann ja nur sagen, dass die Evidenz aus den Daten nicht ausreicht, um einen statistisch signifikanten Unterschied der Mittelwerte zu zeigen. Ist der Test allerdings signifikant, so zeigen die Daten eine unter H0 überzufällig starke Abweichung der Mittelwerte. Nun mag die beobachtete Abweichung durch eine Verschiebung und/oder durch eine Veränderung der Verteilungsform zustandegekommen sein. Das ist jedoch nicht der zentrale Punkt. Entscheidend ist doch, dass (1) ein Unterschied in den Mittelwerten BEOBACHTET wurde [wichtiges Kriterium zur Beurteilung ist der Effekt selbst!] und dass (2) die der Unterschied unter H0 unwahrscheinlich ist.

Mithin ist die H0 mit ihren Annahmen gleicher Verteilungen (und! eigentlich auch gleicher Varianzen) beim t-Test doch sinnvoll - unabhängig von den realen Verteilungen (solange die Normalverteilung der Mittelwerte in der Kontrollgruppe gegeben ist). H0 wird dann abgelehnt, wenn die Mittelwerte eben aufgrund IRGENDEINER WIRKUNG des Treatments unterschiedlich sind. Diese Wirkung muss dabei eben nicht einfach nur in einer Verschiebung bestehen, sondern auch eine in einer Veränderung der Verteilungsform.

Dennoch kann man sich Gedanken über die Tests machen:
Was habe ich, was will ich,
und welcher Test kann das liefern?

Wie gesagt, in 99% der Fälle geht es um Mittelwerte. Also sollten auch Mittelwerte getestet werden, und der einzige mir bekannte „klassische“ Test, der das macht, ist der t-Test.

Ansonsten: Da gehen doch sicher Bootstrap-Tests. Hast Du da Infos, ab welchen Stichprobenumfängen das sinnvoll ist?

LG
Jochen

Moin :smile:

Warum? er hat schon recht, denn du hast nicht den optimalen
Test (z.B. Welsh) verwendet.

Warum soll dann denn der Welsh ok sein?

Wenn nur die Varianzen verschieden sind, ist Welsh geeigenter als klassik-t.

Die Annahme, dass die
Varianzhomogenität (unter H0!) verletzt sei, kann er doch nur
aus den vorliegenden Stichproben haben.

Die V-Homo ist nicht unter H0 verletzt sondern schlicht immer. Mit deiner H0 hat das nix zu tun.

Und GENAUSO müßte er
doch auch annehmen, dass die Symmetrie der Verteilung (bz. die
„Normalität“) einer Population (unter H0!) NICHT gegeben ist,
weshalb ein t-Test GRUNDSÄTZLICH nicht in Frage kommt.

Wenn Schiefe vorliegt: ja. Grundätzlich muss das aber nicht der Fall sein.

Aus dem gleichen Grund ist dann auch ein MW-Test nicht
akzeptabel.

Es sei denn, beide haben gleiche Var und sich „gleich schief“ :smile:

Ich kann also -formal- weder die Mittelwerte noch die Mediane
prüfen (ausser vlt. mit nparcomp oder bootstrappen).

Jedenfalls nicht mit t-tests.

Doch gehen wir nochmal „nur“ von Heteroskedastizität aus: Der
t-Test hat dann eine geringere Power. Nun ist das Ergebnis
aber sowieso signifikant, d.h. auch bei suboptimaler Power
wird H0 mit hoher Konfidenz verworfen. So what?

In diesem Fall ist das erbesezählerei, das stimmt. Die Chance ein nicht-sig. ergebnis zu bekommen, wenn der klassik-t (obwohl nciht anwendbar) ein p

Wenn nur die Varianzen verschieden sind, ist Welsh geeigenter
als klassik-t.

Es ist doch aber unsinnig anzunehmen, dass bei biologischen Daten die anderen Momente (zB. Schiefe) gleich seien. Woimmer wenigstens Boxplots gezeigt werden, ist das erkennbar.

Die V-Homo ist nicht unter H0 verletzt sondern schlicht immer.
Mit deiner H0 hat das nix zu tun.

Ich stehe wirklich auf’m Schlauch (sorry!). Der p-Wert wird doch unter der ANNAHME berechnet, H0 WÄRE korrekt. Das hat mit meiner H1 nix zu tun!

Wenn Schiefe vorliegt: ja. Grundätzlich muss das aber nicht
der Fall sein.

Dass Schiefe vorliegt? Das ist wohl eher die Regel als die Ausnahme.

Aus dem gleichen Grund ist dann auch ein MW-Test nicht
akzeptabel.

Es sei denn, beide haben gleiche Var und sich „gleich schief“

-)

Und das ist -wenn man sich die Plots in der Literatur ansieht - praktisch nie der Fall. Trotzdem ist überall der p-Wert des Wilcoxen-Tests angegeben.

In diesem Fall ist das erbesezählerei, das stimmt.

Meine Rede! Ich verstehe die Argumentiererei nicht, weil ich nicht verstehe, wo die praktische Relevanz liegt.

Das hängt mit der Robustheit des Tests bezüglich seiner
annahmen zusammen.

Gilt der t-Test nicht als robust?

Dennoch sollte man nach Möglichkeit nicht
damit argumentieren, vor allem nicht, wenn die Unterschiede
nich schon ein Blinder mit Krückstock sieht.

?

Die Power hängt aber von der Verteilung unter H1 ab.

Ja. Korrekt: sie hängt *AUCH* von der Verteilung unter H1 ab.

Genau deswegen gibt es ja die Omnibustest wie MW und Co, die
die Verteilung und damit alle möglichen Einflüsse eines
treatments auf die Verteilung testen.

Daher darf ich ein sig. Ergebnis dieser Tests aber auch nicht einfach als statistischen Nachweis einer „Erhöhung“ oder „Erniedrigung“ einer Größe interpretieren.

Überhaupt wird doch strenggenommen eine solche Interpretation unmöglich, wenn sich die Schiefe der Verteilung in den Gruppen unterscheidet.

Du musst aber zwischen zwei Sachen unterscheiden: …

Es ist ja nicht nur die Varianz, sondern auch die Schiefe!

Genauso umgekehrt: Die Verteilungen könnten bei falscher H0
gleich aussehen, weil die Mittelwertverschiebung zu den
Veränderungen in der Form der Verteilung „antikorreliert“ ist.

Das kapier ich jetzt nicht mehr.

Der Fall: Die Verteilungen von Kontrolle und Treatment sind bis auf den Mittelwert gleich. Unsere Annahme ist, dass das Treatment nur den Mittelwert verschoben hat, ohne die Form der Verteilung zu ändern. Dazu haben wir aber keine Evidenz. Spielen wir Gott, und nehmen wir nur die Wirkung der Mittelwertverschiebung aus dem Treatment, könnte es doch sein, dass andere Wirkungen des Treatments die Form der Verteilung ändern. Durch die „Hinzufügung“ der Verschiebung wird die Form aber auch beeinflusst, und zwar so, dass sie der der Kontrollgruppe wieder ähnlicher wird.

Mathematisches Beispiel (völlig konstruiert!): Die Vert. der Kontrollen sei normal. Durch das Treatment wird die Verteilungsform log-normal (hat biologische, mechanistische Gründe), bei gleichzeitiger Erhöhung des Mittelwertes (nur daran sind wir interessiert). Damit sieht die log-normal-Vert. recht symmetrich, also normal aus. Wäre die Mittelwertverschiebung keine Wirkung des Treatments, so kämen aber immer noch die anderen Mechanismen zum Tragen, welche die Verteilung log-normal machen.

Bingo! Ich glaube, das ist die beste Erklärung die ich je
gelesen habe, warum man H0 nicht belegen, sondern bestenfalls
nicht ablehnen kann. 100 Punkte für dich! :smile:

Klasse! Danke! Die kleb ich mir über’s Bett :smile:

Naja, das komtm drauf, wie klein dein p ist. Wäre er z.B.
0.045841 würde ich als reviewer vermuten, dass du auch einen
welsh gerechnet hast, der dir dann aber 0.05123 leiferte, was
dir nicht passte.

Nö, finde ich nicht. Was ist so groß unterschiedlich an 0.0.458 und 0.05123. Es ist doch ein Maß für die Evidenz gegen H0, die man aus den Daten bekommt. Hier geht es doch nicht um die Zulassung eines Medikaments oder das Umstellen eines Produktionsprozesses. Hier geht es um Erkenntnisgewinn aus wenigen, verrauschten Daten, die auch nicht isoliert bewertet werden, sondern immer im Kontext mit anderen Daten und eben den Modellen.

Kommt aber - wie gesagt - 0.00000001254
heraus würde ich das auch nciht so eng sehen - aber iem Fall
für die Relevanz ohnehin eine größere rolle spielen.

Bei den kleinen Stichproben ist das so. Allerdings verwischt sich das, wenn die Stichproben größer werden und die Power zu groß wird.

Schon aber genau DAS sollte dann in der Teststaitsik
berücksichtigt sein.

Halte ich nochmal fest: Man kann bei biol. Daten praktisch nie von gleichen Varianzen und gleichen Schiefen ausgehen. Damit fällt Welch und Wilcoxon sowieso raus. Wilcoxon könnte man höstens verwenden, um Unterschiede der Verteilungen insgesamt zu zeigen, kann das aber nicht direkt als Nachweis eines „location shifts“ benutzen.

:frowning:

Wenn man nun NUR schaut, ob die Werte in Y größer sind als in X, so sollte man doch einfach einen Binomialtest machen, oder?

Das Ergebnis ist manchmal interessant:

\> t.test(x,y)

 Welch Two Sample t-test

data: x and y 
t = -1.5, df = 8, p-value = 0.172
alternative hypothesis: true difference in means is not equal to 0 
95 percent confidence interval:
 -3.8060041 0.8060041 
sample estimates:
mean of x mean of y 
 3.0 4.5 

\> wilcox.test(x,y)

 Wilcoxon rank sum test

data: x and y 
W = 6, p-value = 0.2222
alternative hypothesis: true location shift is not equal to 0 

\> binom.test(sum(outer(x,y,"-")\>0),length(x)\*length(y))

 Exact binomial test

data: sum(outer(x, y, "-") \> 0) and length(x) \* length(y) 
number of successes = 6, number of trials = 25, p-value = 0.01463
alternative hypothesis: true probability of success is not equal to 0.5 
95 percent confidence interval:
 0.09356444 0.45128802 
sample estimates:
probability of success 
 0.24 

Kann man den Binomialtest so machen?

Oder doch besser so:

\> replicate(10000,mean(sample(x,5,T))\>mean(sample(y,5,T)))/10000
[1] 0.045

LG
Jochen

… zu kopieren:

\> x=1:5
\> y=x+1.5