Wenn nur die Varianzen verschieden sind, ist Welsh geeigenter
als klassik-t.
Es ist doch aber unsinnig anzunehmen, dass bei biologischen Daten die anderen Momente (zB. Schiefe) gleich seien. Woimmer wenigstens Boxplots gezeigt werden, ist das erkennbar.
Die V-Homo ist nicht unter H0 verletzt sondern schlicht immer.
Mit deiner H0 hat das nix zu tun.
Ich stehe wirklich auf’m Schlauch (sorry!). Der p-Wert wird doch unter der ANNAHME berechnet, H0 WÄRE korrekt. Das hat mit meiner H1 nix zu tun!
Wenn Schiefe vorliegt: ja. Grundätzlich muss das aber nicht
der Fall sein.
Dass Schiefe vorliegt? Das ist wohl eher die Regel als die Ausnahme.
Aus dem gleichen Grund ist dann auch ein MW-Test nicht
akzeptabel.
Es sei denn, beide haben gleiche Var und sich „gleich schief“
-)
Und das ist -wenn man sich die Plots in der Literatur ansieht - praktisch nie der Fall. Trotzdem ist überall der p-Wert des Wilcoxen-Tests angegeben.
…
In diesem Fall ist das erbesezählerei, das stimmt.
Meine Rede! Ich verstehe die Argumentiererei nicht, weil ich nicht verstehe, wo die praktische Relevanz liegt.
Das hängt mit der Robustheit des Tests bezüglich seiner
annahmen zusammen.
Gilt der t-Test nicht als robust?
Dennoch sollte man nach Möglichkeit nicht
damit argumentieren, vor allem nicht, wenn die Unterschiede
nich schon ein Blinder mit Krückstock sieht.
?
Die Power hängt aber von der Verteilung unter H1 ab.
Ja. Korrekt: sie hängt *AUCH* von der Verteilung unter H1 ab.
Genau deswegen gibt es ja die Omnibustest wie MW und Co, die
die Verteilung und damit alle möglichen Einflüsse eines
treatments auf die Verteilung testen.
Daher darf ich ein sig. Ergebnis dieser Tests aber auch nicht einfach als statistischen Nachweis einer „Erhöhung“ oder „Erniedrigung“ einer Größe interpretieren.
Überhaupt wird doch strenggenommen eine solche Interpretation unmöglich, wenn sich die Schiefe der Verteilung in den Gruppen unterscheidet.
Du musst aber zwischen zwei Sachen unterscheiden: …
Es ist ja nicht nur die Varianz, sondern auch die Schiefe!
Genauso umgekehrt: Die Verteilungen könnten bei falscher H0
gleich aussehen, weil die Mittelwertverschiebung zu den
Veränderungen in der Form der Verteilung „antikorreliert“ ist.
Das kapier ich jetzt nicht mehr.
Der Fall: Die Verteilungen von Kontrolle und Treatment sind bis auf den Mittelwert gleich. Unsere Annahme ist, dass das Treatment nur den Mittelwert verschoben hat, ohne die Form der Verteilung zu ändern. Dazu haben wir aber keine Evidenz. Spielen wir Gott, und nehmen wir nur die Wirkung der Mittelwertverschiebung aus dem Treatment, könnte es doch sein, dass andere Wirkungen des Treatments die Form der Verteilung ändern. Durch die „Hinzufügung“ der Verschiebung wird die Form aber auch beeinflusst, und zwar so, dass sie der der Kontrollgruppe wieder ähnlicher wird.
Mathematisches Beispiel (völlig konstruiert!): Die Vert. der Kontrollen sei normal. Durch das Treatment wird die Verteilungsform log-normal (hat biologische, mechanistische Gründe), bei gleichzeitiger Erhöhung des Mittelwertes (nur daran sind wir interessiert). Damit sieht die log-normal-Vert. recht symmetrich, also normal aus. Wäre die Mittelwertverschiebung keine Wirkung des Treatments, so kämen aber immer noch die anderen Mechanismen zum Tragen, welche die Verteilung log-normal machen.
Bingo! Ich glaube, das ist die beste Erklärung die ich je
gelesen habe, warum man H0 nicht belegen, sondern bestenfalls
nicht ablehnen kann. 100 Punkte für dich! 
Klasse! Danke! Die kleb ich mir über’s Bett 
Naja, das komtm drauf, wie klein dein p ist. Wäre er z.B.
0.045841 würde ich als reviewer vermuten, dass du auch einen
welsh gerechnet hast, der dir dann aber 0.05123 leiferte, was
dir nicht passte.
Nö, finde ich nicht. Was ist so groß unterschiedlich an 0.0.458 und 0.05123. Es ist doch ein Maß für die Evidenz gegen H0, die man aus den Daten bekommt. Hier geht es doch nicht um die Zulassung eines Medikaments oder das Umstellen eines Produktionsprozesses. Hier geht es um Erkenntnisgewinn aus wenigen, verrauschten Daten, die auch nicht isoliert bewertet werden, sondern immer im Kontext mit anderen Daten und eben den Modellen.
Kommt aber - wie gesagt - 0.00000001254
heraus würde ich das auch nciht so eng sehen - aber iem Fall
für die Relevanz ohnehin eine größere rolle spielen.
Bei den kleinen Stichproben ist das so. Allerdings verwischt sich das, wenn die Stichproben größer werden und die Power zu groß wird.
Schon aber genau DAS sollte dann in der Teststaitsik
berücksichtigt sein.
Halte ich nochmal fest: Man kann bei biol. Daten praktisch nie von gleichen Varianzen und gleichen Schiefen ausgehen. Damit fällt Welch und Wilcoxon sowieso raus. Wilcoxon könnte man höstens verwenden, um Unterschiede der Verteilungen insgesamt zu zeigen, kann das aber nicht direkt als Nachweis eines „location shifts“ benutzen.

Wenn man nun NUR schaut, ob die Werte in Y größer sind als in X, so sollte man doch einfach einen Binomialtest machen, oder?
Das Ergebnis ist manchmal interessant:
\> t.test(x,y)
Welch Two Sample t-test
data: x and y
t = -1.5, df = 8, p-value = 0.172
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-3.8060041 0.8060041
sample estimates:
mean of x mean of y
3.0 4.5
\> wilcox.test(x,y)
Wilcoxon rank sum test
data: x and y
W = 6, p-value = 0.2222
alternative hypothesis: true location shift is not equal to 0
\> binom.test(sum(outer(x,y,"-")\>0),length(x)\*length(y))
Exact binomial test
data: sum(outer(x, y, "-") \> 0) and length(x) \* length(y)
number of successes = 6, number of trials = 25, p-value = 0.01463
alternative hypothesis: true probability of success is not equal to 0.5
95 percent confidence interval:
0.09356444 0.45128802
sample estimates:
probability of success
0.24
Kann man den Binomialtest so machen?
Oder doch besser so:
\> replicate(10000,mean(sample(x,5,T))\>mean(sample(y,5,T)))/10000
[1] 0.045
LG
Jochen