Hallo July,
Tja, mit 12 Werten ist es doch etwas schwierig einen
verlässlichen Test auf Normalverteilung zu machen oder?
Einen formalen Nullhypothesentest auf Normalverteilung kann ich nicht empfehlen. Bei wenigen Werten hat er keine Power, bei zu vielen Werten ist er überpowert. Eine statistisch signifikante Abweichung von der Normalverteilung sagt dann ja auch noch nicht, ob die Art und Stärke der Abweichung relevant ist. Daher: Einfach den NQ-Plot ansehen. Wenn da keine systematische Krümmung zu erkennen ist, ist alles gut.
Und
wenn ich nach Deinem Vorschlag den Grubbs-Test plattenweise
machen soll, müsste ich ja jede Platte auf Normalverteilung
testen.
Wie gesagt: erstmal nachsehen, ob nach der Normalisierung nicht doch alle Daten in einen Topf geworfen werden können! Dann hast du das Problem mit den unterschiedlichen Platten doch nicht mehr!
Würdest Du außer dem NQ-Plot nochwas empfehlen?
Nein, s.o. Es gibt Tests auf Normalverteilung, zu nennen wären der Shapiro-Wilk und der KS-Test, aber es bleibt das Problem der Interpretation (ist eine nicht-signifikante relevant? Ist eine signifikante Abweichung nicht-relevant?).
Ich denke mal, dass ich Verhältnisse nehmen muss (das würde
doch jetzt dem „Percent of Control“ entsprechen, was ich
eingangs beschrieben habe, oder?
Warum mußt Du? Hast du beide Möglichkeiten mal untersucht? Oder gibt es andere Gründe für diese Entscheidung? Ich denke, eine Subtraktion ist eine weniger herbe Transformation als eine Verhältnisbildung. Hier blieben die Einheiten und die Skalen erhalten.
Kann ich zum Testen der Varianzen den F-Test nehmen? Auch hier
die Frage: Sind 12 Werte genug um einen aussagekräftigen
F-Test zu machen???
Der F-Test erlaubt nur paarweise Vergleiche, dann hast du ein multiples Testproblem und zu wenig Power, wenn du für multiples Testen korrigierst. Nimm besser den Bartlett-Test. Alternativ kannst Du auch den Median-Test von Fligner und Killeen nehmen, insbesondere wenn die Daten nicht sonderlich normalverteilt sind.
Bei 12 Platten mit je 12 Werten liegt die Power vom Bartlett-Test zur Detektion von 3-fachen Unterschieden in der SD bei über 80%. Das ist gut genug! 2-fache Unterschieden findet man mit einer Power von ca. 45%. Weniger als 2-fache Unterschiede finde ich nicht relevant.
Sollte das für Deinen Fall aber wichtig sein, kannst du die Power, kleinere Unterschiede zu finde, erhöhen, indem du nicht nur die 12 Kontrollen pro Platte nimmst, sondern noch andere Wells, die nach einer ersten groben Durchsicht nicht völlig aus dem Rahmen fallen (Tipp: Zufallsauswahl aus den zentralen 90% der Daten).
Nochmal: Test auf Varianzhomogenität erst NACH der Verhältnisbildung, falls du eine solche machen solltest.
Wie gesagt, ich würde die Ausreißer gerne anhand des
kompletten (normalisierten) Datensatzes bestimmen.
Wenn ich einen gut normalisierten Daten hinbekäme, könnte ich
ja alle Referenzen zusammen nehmen und nochmal eine
Z-Score-Normalisierung drüberbügeln.
Aber WARUM denn?? Wenn die Normalisierung passt, dann sind Mittelwerte und Standardabweichungen gleich! Wenn du dann wieder durch die plattenweise berechneten SDs teilst, verschlimmbessertst du doch wieder alles. Man kann schlechte Daten nicht durch fünfmal hin-und-her-rechnen in gute Daten verwandeln.
Aber mal etwas weg von Deinem Lösungsansatz:
Wenn die allermeisten Werte KEINE Ausreißer sind, mach eine Quantilen-Normalisierung. Damit werden Mediane UND Streuungen in allen Platten gleich gemacht, ja soghar die kompletten Formen der Verteilungen. Und dann nimm alle Punkte außerhalb des Boxplot-Fences als Ausreißer. Fertig.
Die Quantilen-Normalisierung ist relativ simpel:
- Ordne die Werte jeder Platte der Größe nach.
- Sei M[n] der Mittelwert der Wells mit den n-t höchsten Werten.
- Ersetze den Messwert dieser Gene jeweils durch M[n].
- Verfahre so für alle Positionen n (von 1 bis 348).
LG
Jochen