Varianz-Schätzung bei kleinen Stichproben

Hallo,

Die Schätzung der Varianz(s²) ist bei kleinen Stichproben ja nicht sonderlich robust. Wenn Informationen aus anderen (größeren) Stichproben vorliegen, kann man die ja auch nutzen, um die Schätzung robuster zu machen. Doch wie macht man das professionell?

Kann man einfach ein gewichtetes Mittel der Standardabweichungen nehmen?
Gibt es dazu Fachliteratur? Wie verhält sich das zu „Shrinkage“-Methoden?

Wenn man die Varianzen bzw. Standardabweichungen so schätzt, hält man in t-Tests damit die Irrtumswahrscheinlichkeit (für den Fall der Varianzhomogenität)? Gibt es Anhaltspunkte, wie das bei Varianz-Inhomogenität aussieht?

Noch ein Problem:

Teilweise ist in einer Gruppe habe nur ein einziger(!) Messwert. In einer Vergleichsgruppe habe ich mehrere (>5) Werte. Es soll ein t-Test gemacht werden. Wie ist sowas zu bewerkstelligen? Ich könnte den einen Wert als Schätzung für den Mittelwert nehmen und die Varianzschätzung der anderen Gruppe als Varianzschätzung für die „n=1-Gruppe“ nehmen (wieder Varianzhomogenität vorausgesetzt). Darf man das? Wenn ja: wie viele Freiheitsgrade hat man dann? Hat das mal jemand so gemacht (ist das publiziert)? Gibt es andere/bessere Verfahren?

Danke für jeden Tipp!

LG
Jochen

Hallo Jochen,

Die Schätzung der Varianz(s²) ist bei kleinen Stichproben ja
nicht sonderlich robust.

Mit dem MAD kann robust eine Varianz geschätzt werden:

http://de.wikipedia.org/wiki/Mittlere_absolute_Abwei…

Hoffe, dass die Info Dir schonmal weiterhilft …

Grüße
Thorsten

Hi Jochen,

Die Schätzung der Varianz(s²) ist bei kleinen Stichproben ja
nicht sonderlich robust. Wenn Informationen aus anderen
(größeren) Stichproben vorliegen, kann man die ja auch nutzen,
um die Schätzung robuster zu machen. Doch wie macht man das
professionell?

Warum schätzt du nicht per Jacknife oder Bootstrap die Varianz/ den Standardfehler?

Kann man einfach ein gewichtetes Mittel der
Standardabweichungen nehmen?

Wozu brauchst du das denn? Wenn du ene Stichprobe beschreiben willst macht mitteln keinen Sinn.

Gibt es dazu Fachliteratur? Wie verhält sich das zu
„Shrinkage“-Methoden?

Ich bin kein Kenner der Shrinkage-Verfahren, was ich eben auf die schnelle gefunden habe kommt eher aus dem Berich der Wavlets und scheint baysanisch zu sein. Wenn du mir da auf die Sprüge hilfst, kann ich dir vielleicht was dazu sagen.

Wenn man die Varianzen bzw. Standardabweichungen so schätzt,
hält man in t-Tests damit die Irrtumswahrscheinlichkeit (für
den Fall der Varianzhomogenität)? Gibt es Anhaltspunkte, wie
das bei Varianz-Inhomogenität aussieht?

Die Schätzung von Parametern wirkt sich erst einmal nicht auf den Test aus - solange du nicht auf Varianzhomogenität testest. Auf der sichereren Seite ich man, wenn man V-H-Tests weg lässt und gleich Tests wählt, die das nciht voraussetzen.

Noch ein Problem:
Teilweise ist in einer Gruppe habe nur ein einziger(!)
Messwert. In einer Vergleichsgruppe habe ich mehrere (>5)
Werte. Es soll ein t-Test gemacht werden. Wie ist sowas zu
bewerkstelligen?

Gar nicht. Einen enzelnen Wert kann man nicht mit etwas anderem vergleichen. Das ist so wie die Frage: Ist 4,999965 von 5 verschieden?
Ausserdem brauchst du schon für die Varianzschätzung mindestens zwei Werte, sonst ist die Funktion gar nicht definiert.

Ich könnte den einen Wert als Schätzung für
den Mittelwert nehmen und die Varianzschätzung der anderen
Gruppe als Varianzschätzung für die „n=1-Gruppe“ nehmen
(wieder Varianzhomogenität vorausgesetzt). Darf man das?

Nein. Du kannst ja nicht von Homogenität ausgehen, wenn du gar nichts über die eine Streuung weisst. Du köntest sie ja nicht mal testen.
Dein Mittelwert-approach wäre zwar in Ordnung, wenn dich aber mal jemand man dem Standardfehler oder dem Konfi dafür fragt, siehst du ein wenig alt aus. :wink:

Wenn ja wie viele Freiheitsgrade hat man dann?

Da es sich um unterschiedliche große Stichproben handelt müsstest du eh die Freiheitsgrade schätzen. In diese gegen dann aber wieder die Steuungen mit ein …

Hat das mal jemand so gemacht (ist das publiziert)?

Ich hoffe nicht da es grob unwissenschaftlich ist.

Gibt es andere/bessere Verfahren?

Für so kleine Stichproben kann man nur eine deskriptive machen, jede Statistik ist da ohnehin unglaubwürdig.

Grüße,
JPL

Hallo JPL,

danke schonmal für Deine Antwort!

Ich glaube, ich muss noch ein Paar Dinge richtigstellen:

Warum schätzt du nicht per Jacknife oder Bootstrap die
Varianz/ den Standardfehler?

Was soll das bringen bei n ~ 5 ?

Zum Rest noch etwas Hintergrund:

Medizin. Wirkung von Sauerstoffmangel auf Zellen von Menschen mit bestimmten Erkrankungen. Genauer: Auf die Expression von Proteinen. Die Zellen sind superaufwändig zu bekommen, es gibt kaum Patientenmaterial, viele Proben sind vom Operateur nicht gleich eingefroren worden sonden dümpelten viele Stunden bei Raumtemperatur usw., und die Messung der Proteinmenge klappt oft nicht. Folge: Manche Stichproben sind klein. Sehr klein. Im Extremfall liegt nur ein einziger Wert vor.

Es gibt mehrere Gruppen, zB. „krank“ und „gesund“. Es ist nicht anzunehmen, dass die Varianz der Proteinexpression undter der Nullhypothese zwischen „kranken“ und „gesunden“ verschieden ist.

Warum sollte man also nicht die Varianz aus der „gesunden“ Stichprobe (n=5) hernehmen, um auch eine Aussage über die Varianz der „kranken“ Stichprobe zu machen (n=1-2)?

Kann man einfach ein gewichtetes Mittel der
Standardabweichungen nehmen?

Wozu brauchst du das denn? Wenn du ene Stichprobe beschreiben
willst macht mitteln keinen Sinn.

s.o.

Ich bin kein Kenner der Shrinkage-Verfahren, was ich eben auf
die schnelle gefunden habe kommt eher aus dem Berich der
Wavlets und scheint baysanisch zu sein. Wenn du mir da auf die
Sprüge hilfst, kann ich dir vielleicht was dazu sagen.

Ich kenne Shrinkage-Verfahren aus der Analyse von Microarray-Daten:

Tusher et al. PNAS 2001 98(9):5116-21.
Smyth. Stat Appl Genet Mol Biol. 2004 3:Article3

Teilweise ist in einer Gruppe habe nur ein einziger(!)
Messwert. In einer Vergleichsgruppe habe ich mehrere (>5)
Werte. Es soll ein t-Test gemacht werden. Wie ist sowas zu
bewerkstelligen?

Gar nicht. Einen enzelnen Wert kann man nicht mit etwas
anderem vergleichen. Das ist so wie die Frage: Ist 4,999965
von 5 verschieden?

Naja, wenn man doch davon ausgeht, dass alle Stichproben unter der Nullhypothese eine ähnliche Varianz haben (was sie in der Praxis ja auch haben, wie man an den vorliegenden größeren Stichproben sehen kann), dann ist es doch legitim anzunehmen, dass der Einzelwert aus einer Population gezogen wurde, welche eben auch eine solche Varianz hat.

Abgesehen davon gibt es ja auch Einstichproben-Tests, wo geprüft wird, ob ein gegebener, fester Wert innerhalb des (1-alpha)-Konfidenzintervalls für den Parameter (zB. Mittelwert) einer Stichprobe liegt. Hier wäre noch meine Frage: Ist sowas vorzuziehen?

Ausserdem brauchst du schon für die Varianzschätzung
mindestens zwei Werte, sonst ist die Funktion gar nicht
definiert.

Wie gesagt: Informationen über die Varianz LEIHE ich mir von anderen Stichproben, von denen es aus biologischer Sicht vernünftig ist, anzunehmen, dass sie unter der Nullhypothese die gleiche Varianz haben wie die Population, aus der die „n=1-Stichprobe“ gezogen wurde.

Nein. Du kannst ja nicht von Homogenität ausgehen, wenn du gar
nichts über die eine Streuung weisst. Du köntest sie ja nicht
mal testen.

Ich weiß doch was über die Streuung, und zwar aus anderen, sehr ähnlichen Stichproben mit größerem Umfang.

Dein Mittelwert-approach wäre zwar in Ordnung, wenn dich aber
mal jemand man dem Standardfehler oder dem Konfi dafür fragt,
siehst du ein wenig alt aus. :wink:

s.o.!

Hat das mal jemand so gemacht (ist das publiziert)?

Ich hoffe nicht da es grob unwissenschaftlich ist.

Woran machst du die „Unwissenschaftlichkeit“ fest?

Gibt es andere/bessere Verfahren?

Für so kleine Stichproben kann man nur eine deskriptive
machen, jede Statistik ist da ohnehin unglaubwürdig.

Hier geht es nicht um die Aussage, ob Patienten so oder so behandelt werden sollen. Es ist keine Klinische Studie, das Ergebnis führt nicht zu Entlassungen oder Kriegen, es verändert auch kein Lehrbuchwissen und stürzt keine etablierten Theorien. Die Untersuchungen wurden gemacht, um - so gut es technisch und praktisch möglich war! - HINWEISE zu erhalten, was in den Zellen abgehen könnte. Die Ergebnisse stehen nicht für sich alleine, sondern sie sind TEIL von VIELEN ANDEREN Untersuchungen, die erst alle Zusammen ein Bild ergeben. Trotzdem reicht eine rein deskriptive Aussage eben nicht aus; man benötigt IRGENDEINEN Anhaltspunkt für die Beurteilung der gefundenen Unterschiede (zu deinem Beispiel: eine Stichprobe hat einen Wert von 4,900. Die andere Stichprobe hat 5 Werte mit einem Mittel von 5,000. Sind die Mittelwerte in den Populationen nun verschieden? Wenn ich die Standardabw. der zweiten Stichprobe kenne - sagen wir sie ist 0,001 - und ich annehme, dass die Varianzen beider Gruppen unter der Nullhypothese gleich sein sollten, dann kann ich doch auch mit diesen angaben eine Aussage über die Wahrscheinlichkeit machen, mit welcher der Wert der ersten Stichprobe aus einer Population mit dem Mittelwert 5,000 und eben selbiger Standardabweichung gezogen wurde (was hier wohl recht unwahrscheinlich ist.

Ich würde mich sehr freuen, wenn Du das nochmal kommentiertest.
Mache ich irgendwo einen groben Denkfehler?

Danke nochmal und schonmal, LG
Jochen

LG
Jochen

Hallo,

danke für den Tipp. Mit „robust“ meinte ich NICHT robust gegen Ausreißer, sondern - wie soll ich sagen? - sondern eben „gut“, also „korrekt“. Das hat nichts mit Erwartungstreue zu tun. Hier geht es darum, auch bei sehr wenig Information schon nahe an den wahren Wert zu kommen. Natürlich(!) geht das NICHT, wenn man nur diese begrenzte Info hat. _Das_ meinte ich mit

Die Schätzung der Varianz(s²) ist bei kleinen Stichproben ja
nicht sonderlich robust.

Der MAD ist robust gegen Ausreißer. Das ist klar. Wenn ich nur zwei Werte in der Stichprobe habe, dann liefern mir beide Wege die gleiche Lösung, weil ja schlichtweg innerhalb einer Stichprobe bei weitem nicht genug Daten vorliegen, um Ausreißer überhaupt erkennen zu können. Auch logisch. Der MAD bringt mich also (natürlich!) auch mit sehr wenig Daten nicht automatisch näher an den „wahren Wert“. Und (natürlich!) werde ich mir Information irgendwoher leihen müssen, um eine bessere Schätzung zu bekommen.

LG
Jochen

Hi Jochen,

Warum schätzt du nicht per Jacknife oder Bootstrap die
Varianz/ den Standardfehler?

Was soll das bringen bei n ~ 5 ?

Dass es nicht-parametrisch ist und trotzdem robust. Bei n=5 kannst du i.a. nicht von Normalverteilung ausgehen. Oder ist das in deinem Fall legitim (wenn ja, warum?)

Zum Rest noch etwas Hintergrund:
Medizin. Wirkung von Sauerstoffmangel auf Zellen von Menschen
mit bestimmten Erkrankungen. Genauer: Auf die Expression von
Proteinen. Die Zellen sind superaufwändig zu bekommen, es gibt
kaum Patientenmaterial, viele Proben sind vom Operateur nicht
gleich eingefroren worden sonden dümpelten viele Stunden bei
Raumtemperatur usw., und die Messung der Proteinmenge klappt
oft nicht. Folge: Manche Stichproben sind klein. Sehr klein.
Im Extremfall liegt nur ein einziger Wert vor.
Es gibt mehrere Gruppen, zB. „krank“ und „gesund“. Es ist
nicht anzunehmen, dass die Varianz der Proteinexpression
undter der Nullhypothese zwischen „kranken“ und „gesunden“
verschieden ist.

Aber deine Alterntaive ist: Es gibt einen Unterschied, wenn ch das richtig verstehe. Warum sollte sich die P-Expression nur in einer Mittelwrtsverschiebung niederschlagen?

Warum sollte man also nicht die Varianz aus der „gesunden“
Stichprobe (n=5) hernehmen, um auch eine Aussage über die
Varianz der „kranken“ Stichprobe zu machen (n=1-2)?

Gut, spielen wir denn Fall durch, bevor wir weitere Möglichkeiten diskutieren: Wenn du das machst vervielfachst du für den t-Test einfach nur die verwendete Streuung.
Wenn du tatsächlich von gleicher und damit bekannter Streuung ausgehen willst, dann würde ich wenigstens die Streuung von der unten beschriebenen großen Stichprobe verwenden (weil es die Informationen maximal ausnutzt).
Dennoch soll man NIE seine Daten oder annahmen so hinbiegen, dass sie zu einem test passen. Warum also keinen nicht-parametrischen verwenden? Zum Beispiel kannst du mit einem ein-stichproben-wilcoxon einfach darauf testen, ob die Werte der 5er Stichprobe vom Mittelwert der 2er verschieden sind.

Ich kenne Shrinkage-Verfahren aus der Analyse von
Microarray-Daten:
Tusher et al. PNAS 2001 98(9):5116-21.
Smyth. Stat Appl Genet Mol Biol. 2004 3:Article3

danke für den Hinweis, aber ich komme im Moment nicht dazu mich tiefer einzuarbeiten. Kannst du mir das erfahren nicht in drei Sätzen umreissen?

Teilweise ist in einer Gruppe habe nur ein einziger(!)
Messwert. In einer Vergleichsgruppe habe ich mehrere (>5)
Werte. Es soll ein t-Test gemacht werden.

Das ist dein Denkfehler. Wenn t-Test nicht passt, dann nimmt man eben was anderes. Eine solche Vorgabe wäre nur sinnvoll, wenn das vorab festgelegt wurde. In klinischen Studien ist das üblich, aber so eine liegt ja nicht vor.

Naja, wenn man doch davon ausgeht, dass alle Stichproben unter
der Nullhypothese eine ähnliche Varianz haben (was sie in der
Praxis ja auch haben, wie man an den vorliegenden größeren
Stichproben sehen kann), dann ist es doch legitim anzunehmen,
dass der Einzelwert aus einer Population gezogen wurde, welche
eben auch eine solche Varianz hat.

Wie oben erwähnt sollte man dann aber die Varianz der Population heranziehen und nicht die der anderen Stichprobe.
Gleichzeitig machst du dich aber angreifbar: Wenn du die Population heranziehst, deren Verteilung dir bekannt ist, stellt sich die Frage, warum die überhaupt Messwerte erhoben hast um dann die Schätzer aus der Population zu verwenden. Dann kannst du genausogut aus deiner Population Zufallswerte generieren und die vergleichen.

Abgesehen davon gibt es ja auch Einstichproben-Tests, wo
geprüft wird, ob ein gegebener, fester Wert innerhalb des
(1-alpha)-Konfidenzintervalls für den Parameter (zB.
Mittelwert) einer Stichprobe liegt. Hier wäre noch meine
Frage: Ist sowas vorzuziehen?

Ja, auf jeden Fall. Meine Bemerkung oben zum 1-stichproben wilcoxon ist so ein Beispiel.

Ausserdem brauchst du schon für die Varianzschätzung
mindestens zwei Werte, sonst ist die Funktion gar nicht
definiert.

Wie gesagt: Informationen über die Varianz LEIHE ich mir von
anderen Stichproben, von denen es aus biologischer Sicht
vernünftig ist, anzunehmen, dass sie unter der Nullhypothese
die gleiche Varianz haben wie die Population, aus der die
„n=1-Stichprobe“ gezogen wurde.
Ich weiß doch was über die Streuung, und zwar aus anderen,
sehr ähnlichen Stichproben mit größerem Umfang.

du verfolgst her zwei Methoden: Als Varianz für die n=1-Stichprobe diejenigen aus deren Population nehmen oder die Varianz von der n=5-Stichprobe. Ist beides nicht der Königsweg, da du zu viele Annahmen reinstecken musst, was nicht sein müsste.

Woran machst du die „Unwissenschaftlichkeit“ fest?

Dass jemand sich seine Daten so hinbiegt und zurechtargumentiert, dass er seinen Standard benutzen kann, anstatt sich umzusehen, was es sonst noch gibt (war jetzt nicht auf dich bezogen, sondern nur meine allgemeine Antwort).

Für so kleine Stichproben kann man nur eine deskriptive
machen, jede Statistik ist da ohnehin unglaubwürdig.

Hier geht es nicht um die Aussage, ob Patienten so oder so
behandelt werden sollen. … Die Untersuchungen wurden gemacht, um -
so gut es technisch und praktisch möglich war! - HINWEISE zu
erhalten, was in den Zellen abgehen könnte. Die Ergebnisse
stehen nicht für sich alleine, sondern sie sind TEIL von
VIELEN ANDEREN Untersuchungen, die erst alle Zusammen ein Bild
ergeben. Trotzdem reicht eine rein deskriptive Aussage eben
nicht aus; man benötigt IRGENDEINEN Anhaltspunkt für die
Beurteilung der gefundenen Unterschiede

Die deskriptive ist ja gerade der Hinweis.
Was würde denn der Test für weitere Informationen bringen, die man in eine großangelegte Studie stecken würde. Böse formuliert ist das Augenwischerei: Zum einen sollen die Ergebnisse als Hinweise (und Planungsgrundlage für stat. aussagekräftige Studien?) verwendet werden - wozu man nur eine deskriptive braucht - auf der anderen Seite muss unbedingt ein (leider Gottes auch noch bestimmter?) Test her.

Ich würde mich sehr freuen, wenn Du das nochmal
kommentiertest.

Mach ich gerne. ein letztes noch: Ich habe den Eindruck, dass du Druck von irgendeiner Seite bekommst, etwas bestimmtes zu machen, kann das sein?

Viele Grüße, bin gespannt auf deine Antwort,

JPL

Hallo,

hier bin ich wieder. Klasse, dass Du Dir die Zeit nimmst! Danke!

Zuerst zu Deiner letzten Anmerkung:

ein letztes noch: Ich habe den Eindruck, dass
du Druck von irgendeiner Seite bekommst, etwas bestimmtes zu
machen, kann das sein?

Ja, sicher. Es geht um eine Mediziner-Doktorarbeit. Die ist geschrieben und in Re-Revision bei den Gutachtern. Der Betreuer bat mich, wegen eklatanter Schwächen in der Statistik dieser Arbeit mit MÖGLICHST WENIGEN ÄNDERUNGEN einen Lösungsvorschlag zu machen, der die Kritik eines anderen Gutachters (der die Arbeit abzulehnen gedenkt) unter den Gegebenen Umständen so gut wie möglich abzumildern. Große Änderungen sind nicht drin. Es wurden sowieso t-Tests gemacht. Die „Ergebnisse“ wurden schon diskutiert, und die Diskussion soll und kann nicht nochmal über den Haufen geworfen werden. Das ist alles ein riesengroßer Mist und ich wünschte, ich hätte nichts damit zu tun, aber hier stecke ich jetzt drin und versuche den Schaden zu minimieren…

Warum schätzt du nicht per Jacknife oder Bootstrap die
Varianz/ den Standardfehler?

Was soll das bringen bei n ~ 5 ?

Dass es nicht-parametrisch ist und trotzdem robust. Bei n=5
kannst du i.a. nicht von Normalverteilung ausgehen. Oder ist
das in deinem Fall legitim (wenn ja, warum?)

Die Erfahrung zeigt schon, dass solcherart Messwerte ungefähr normalverteilt sind.

Bei Jacknife läßt man doch immer einen oder mehrere Werte weg, un zu schauen, wie stabil die Schätzungen sind. Ich denke, bei wenigen Werten schießt man sich damit doch ins Knie? Vielleicht verstehe ich das auch falsch…

Aber deine Alterntaive ist: Es gibt einen Unterschied, wenn ch
das richtig verstehe. Warum sollte sich die P-Expression nur
in einer Mittelwrtsverschiebung niederschlagen?

Das verstehe ich nicht. Was meinst Du?

Dennoch soll man NIE seine Daten oder annahmen so hinbiegen,
dass sie zu einem test passen. Warum also keinen
nicht-parametrischen verwenden? Zum Beispiel kannst du mit
einem ein-stichproben-wilcoxon einfach darauf testen, ob die
Werte der 5er Stichprobe vom Mittelwert der 2er verschieden
sind.

Weil der Wilcoxon mit 2 und 5 Werten NIEMALS signifikant werden KANN.
der minimale p-Wert ist hier doch 0.09524. Dann brauch ich garnicht erst anfangen. Außerdem ist die Power bei kleinen Stichproben winzig. Also selbst, wenn man theoretisch auf p

Hi Jo,

hier bin ich wieder. Klasse, dass Du Dir die Zeit nimmst!
Danke!

Ich finde, wenn sich jemand schon Gedanken macht, dann soll man ihn nicht hängen lassen. Ausserdem macht es mir Spaß.

Es geht um eine Mediziner-Doktorarbeit. Die ist
geschrieben und in Re-Revision bei den Gutachtern. Der
Betreuer bat mich, wegen eklatanter Schwächen in der Statistik
dieser Arbeit mit MÖGLICHST WENIGEN ÄNDERUNGEN einen
Lösungsvorschlag zu machen, der die Kritik eines anderen
Gutachters (der die Arbeit abzulehnen gedenkt) unter den
Gegebenen Umständen so gut wie möglich abzumildern. Große
Änderungen sind nicht drin. Es wurden sowieso t-Tests gemacht.
Die „Ergebnisse“ wurden schon diskutiert, und die Diskussion
soll und kann nicht nochmal über den Haufen geworfen werden.
Das ist alles ein riesengroßer Mist und ich wünschte, ich
hätte nichts damit zu tun, aber hier stecke ich jetzt drin und
versuche den Schaden zu minimieren…

Okay, dann teilen das wir das folgende mal in zwei Teile: 1) konkrete Lösung für dein Problem, 2) wie man es besser machen könnte, wenn man alle Freiheiten hat/hätte.

  1. dann hast du nur eine Alternative: Nimm von der kleinen Stichprobe den Mittelwert und teste die andere darauf, ob sie sich davon unterscheidet.

Jetzt zu 2):

Die Erfahrung zeigt schon, dass solcherart Messwerte ungefähr
normalverteilt sind.

Hm, ungefähr ist natürlich nicht sehr genau. Hast du die die Verteilung der großen Stichprobe mal angesehen? Proteinexpression kann ja nicht negativ sein. wird das von der Verteilung der großen Stichprobe unterstützt? Schätze mal aus der großen Stichprobe die Parameter mü und sigma für eine Normalverteilung. Wenn dann P(x 10% für x~N(mü, sigma) gilt, kannst du es eh schon knicken.
Sowieso, wenn sigma > mü ist.
In dem Fall würde ich auf eine LogNormalverteilung oder eine truncierte Normalverteilung umsteigen.

Bei Jacknife läßt man doch immer einen oder mehrere Werte weg,
un zu schauen, wie stabil die Schätzungen sind. Ich denke, bei
wenigen Werten schießt man sich damit doch ins Knie?
Vielleicht verstehe ich das auch falsch…

Ja, so funktioniert das. Du simulierst anhand der Daten die zugrundeliegende Verteilung und kannst auf diese Weise die kritischen Werte (fast) jeder beliebigen Teststatistik korrekt ermitteln. Klat funktioniert das besser, je mehr Werte du hast, aber bei kleinen Stichporben ist es immer noch unverfälschter als wenn man irgendwelche Verteilungen annimmt.

Warum sollte sich die P-Expression nur
in einer Mittelwrtsverschiebung niederschlagen?

Das verstehe ich nicht. Was meinst Du?

Wenn das System Zelle durch den Sauerstoffmangel verändert ist eigentlich nicht nur zu erwarten, dass sich der Mittelwert ändert, sondern auch die Streuung, oder? Zumindest sollte man das berücksichten können.

Weil der Wilcoxon mit 2 und 5 Werten NIEMALS signifikant
werden KANN.
der minimale p-Wert ist hier doch 0.09524. Dann brauch ich
garnicht erst anfangen. Außerdem ist die Power bei kleinen
Stichproben winzig. Also selbst, wenn man theoretisch auf p

Hallo,

  1. dann hast du nur eine Alternative: Nimm von der kleinen
    Stichprobe den Mittelwert und teste die andere darauf, ob sie
    sich davon unterscheidet.

Fein.

Jetzt zu 2):

Die Erfahrung zeigt schon, dass solcherart Messwerte ungefähr
normalverteilt sind.

Hm, ungefähr ist natürlich nicht sehr genau. Hast du die die
Verteilung der großen Stichprobe mal angesehen? […]

Die Werte sind im Bereich von 8000, die Standardabw. im Bereich von 3000. Damit ist p(x

Hi,

Die Werte sind im Bereich von 8000, die Standardabw. im
Bereich von 3000. Damit ist p(x