Hallo www’ler,
ich habe ein Screening von einigen zig-Tausend „Proben“. Zu jeder „Probe“ gibt es eine kleine Stichprobe von Messungen. Nun soll herausgefunden werden, bei welchen „Proben“ der Mittelwert von Null verschieden ist. Das wird mit zig-Tausend t-Tests gemacht. Um dem Multiziplitäts-Problem zu begegnen, werden die p-Werte korrigiert, um die false-discovery-rate (FDR) zu kontrollieren.
Soweit, sogut. Jetzt die Frage :
Wenn mich sowieso nur Mittelwerte (m) interessieren, die größer sind als ein gegebener Wert „x“ (also |m|>x mit x>0), kann man dann ZUERST NUR die „Proben“ mit |m|>x auswählen, und NUR von denen die Tests und Adjustierung der p-Werte machen? Ist die FDR dann noch unter Kontrolle? Oder verbiegt mir die Vor-Auswahl das Ergebnis? In anderen Worten: Erhöhe ich mit der Vorauswahl die Power oder lüge ich mir in die Tasche?
Hintergrund:
Die allermeisten Mittelwerte sind sehr nahe Null. Es gibt einige Mittelwerte, die stark von Null abweichen und auch hoch signifikant sind (einfach!). Es gibt aber auch viele Mittelwerte, die weichen stark von der Null ab, haben aber „relativ“ schlechte p-Werte, so dass sie bei der Adjustierung für alle zig-Tausend p-Werte eben „nicht-signifikant“ werden. Werden unter den zig-tausend aber nur die „Proben“ getestet, deren Mittelwerte schonmal um mind. x von Null abweichen, dann werden viele dieser p-Werte durch die Adjustierung nicht mehr sooo stark „verschlechtert“, und sie bleiben „signifikant“.
Danke schonmal für Tipps & LG
Jochen
