Hallo,
Es geht um’s „Poolen“:
Nehmen wir an, ich habe 2 Gruppen mit je N Proben. Die Werte in den Gruppen seien normalverteilt und haben die gleicher Varianz (varN). Nun kann ich die Power für einen 2-seitigen 2-Stichproben t-Test berechnen.
Beispiel:
N = 12 je Gruppe
varN = 1
alpha = 0.05
delta = 1 (Mittelwert-Unterschied, „Effekt“)
-> Power = 0.649
Nun sind Messungen sehr teuer und man möchte immer n Proben poolen. Die Pools sollten immer gleich groß sein, weil das optimal ist. Bei N=12 ergeben sich zB. ja folgende mögliche n’s: 2, 3, 4 und 6.
Für eine Pool-Größe von n=3 macht man zB. je Gruppe nur N/n = 4 Messungen. Der t-Test hat also einen kleineren effektiven Stichprobenumfang, die gemessenen Werte sind aber schon Mittelwerte und haben eine kleinere Varianz, nämlich varn = varN/n.
Kann man ausrechnen:
n = 4 je Gruppe(Pool!)
varn = 1/4
alpha = 0.05
delta = 1 (Mittelwert-Unterschied, „Effekt“)
-> Power = 0.537
Alles schön und gut. Aber ich habe folgendes Problem :
Wenn ich den Effekt von „Poolen“ simuliere, dann erhalte ich für die Pools eine deutlich geringere Power. Was ist also falsch?
Wie ich simuliere (ich benutze R):
Ich erzeuge 2 Gruppen mit je 12 normalverteilte Zufallszahlen, Gruppe „x“ mit Mittelwert 0 und Varianz 1, Gruppe „y“ mit Mittelwert delta und Varianz varN.
Für eine Poolgröße von n=3 berechne ich jeweils die 4 Mittelwerte mx und my:
mx[1]
Poolgröße (n) 1 2 3 4 6
empirisch 0.6460 0.5808 0.4886 0.3682 0.1461
theoretisch 0.6486 0.5991 0.5373 0.4626 0.2908
Die kleinen Abweichungen bei n=1 (also _keine_ Pools) sind im Rahmen statistischer Schwankungen. Mit zunehmender Pool-Größe werden die Abweichungen aber immer größer! Was mache ich falsch? Was verstehe ich nicht? Hilfe, hilfe!
Ach, und ja: die Mittelwerte haben auch eine Varianz von 1/n…
Liebe Grüße,
Jochen