Z-Score vs. Percent of control

Hallo allerseits,

vielleicht kann mir von Euch jemand weiterhelfen.
Angenommen ich habe an zwei verschiedenen Tagen mehrfach den gleichen Versuch gemacht und Messwerte bestimmt. Aus irgendwelchen Gründen gelingen die Versuche des einen Tages aber anders, als die des anderen Tages. Was durchaus akzeptabel ist. Dennoch möchte ich die Messwerte miteinander vergleichen.
Vom Tag eins liegen mir also beispielsweise 100 Werte mit einem Mittelwert von 100 und einer Standardabweichung 10 vor.
Vom Tag zwei liegen mir ebenfalls 100 Werte mit einem Mittelwert von 80 und einer Standardabweichung 7 vor.
Nun hab ich mir zwei Methoden der Normalisierung angeschaut (pro Tag durchgeführt).
Zum einen Z-Score:

(x - Mittelwert)/Standardabweichung

Zum anderen Percent of Control:

(x / Mittelwert)

Beide Normalisierungen hab ich sowohl mit den Populationsparametern (die ich ja im Realfall nicht habe), als auch mit den Stichprobenparametern berechnet.
Um die Genauigkeit zu vergleichen, hab ich den kompletten Datensatz dann nochmals mit dem Z-Score normalisiert.
Berechne ich nun jeweils die Differenz der Normalisierungen mit Populationsparametern und Stichprobenparametern, hab ich für die Z-Score Normalisierung immer größere Differenzen, als mit der zweiten Methode.
Ich vermute, dass es daran liegt, dass sowohl Mittelwert als auch Standardabweichung einem gewissen Fehler unterliegen und daher der Z-Score gleich zwei Fehlerquellen beinhaltet.

Nun meine Frage: Wozu ist der Z-Score dann gut??? Zum Vergleich von zwei Normalverteilungen scheint ja die zweite Methode die zuverlässigere zu sein…

(Ich komme eigentlich aus der Biotec-Branche und bisher hab ich den Z-Score immer angewandt, weil er ja die Standardabweichung berücksichtigt, aber ich seh grad nicht, dass das überhaupt wichtig wäre…)

Ich hoffe irgendjemand versteht in etwa mein Problem… Ansonsten bitte nachfragen :smile:

Viele Grüße,
July

Hallo,

der z-Score ist gut, wenn die Lage von Datenpunkten INNERHALB verschiedener Verteilungen verglichen werden sollen.

Wenn du die Verteilungen selbst miteinander vergleichen willst, helfen z-Scores nicht weiter.

Ansonsten ist mir nicht so ganz klar, was das mit den zwei Datenreihen auf sich hat und was genau du mit den Werten machen willst…

LG
Jochen

Na ja, ich möchte am Ende schon in der Lage sein alle Datenpunkte miteinander zu vergleichen. Das heißt, wenn ich in beiden Messreihen Outlier habe, möchte ich wissen, ob sie gleich stark vom Rest abweichen, oder unterschiedlich. Das wäre doch die typische Anwendung für den Z-Score. Meine Betrachtungen mit Dummy-Daten zeigt mir aber, dass die Genauigkeit der Normalisierung einfach größer zu sein scheint, wenn ich die andere Methode wähle…

Meine reale Anwendung ist folgende: Ich habe Messwerte von je 384 biologische Proben (= ein Probenset). Nun kann es sein, dass in einem Probenset die Werte etwas höher oder niedriger liegen wie im nächsten Probenset. Innerhalb der 384 Proben befinden sich 12 Referenzproben anhand derer ich die restlichen normalisieren möchte. Innerhalb der restlichen Proben ist es interessant die Proben zu finden, die sich klar von den 12 Referenzproben abheben (Outlier eben).
Bisher hab ich die 12 Proben genommen und mittel Z-Score den Rest des Probensets normalisiert. Genauso gut könnte ich aber mit dem Percent of Control arbeiten. Tests scheinen bisher darauf hinzweisen, dass letzteres robuster ist als der Z-Score. Nur warum???
Ich dachte bisher immer es wäre besser die Standardabweichung zu berücksichtigen, aber es scheint einen zusätzlichen Fehler zu erzeugen…

Vielleicht ist jetzt die Fragestellung ein bisschen klarer?

Sind das zufällig 384-Well qPCRs?

Wenn ja: sind die mit gleichen Einstellungen ausgewertet (zB. gleiche Hintergrundkorrektur und gleicher Schwellenwert)?

Du bestimmst also die Standardabweichung (SD) anhand der 12 Referenzproben. Die sind in allen Läufen identisch. Trotzdem ist die SD aber anders… da scheint was mit der Messung nicht zu stimmen. Oder aber die Schätzung der SD ist nicht gut. Hast du mal die KIs für die SD ermittelt? Oder mit einem F-Test geschaut, ob die Unterschiede statistisch überzufällig sind? Wenn nicht, baust du dir durch die Normalisierung auf die SD (also die z-Scores) einen gehörigen Fehler ein. Die Schätzung von SD ist schlechter als man so denkt! Die Schätzung von Mittelwerten ist viel besser. Zudem enthalten z-Scores sowohl den Fehler der Mittelwerte also auch noch den Fehler der SD. Die z-Scores lohnen daher nur, wenn man die wahre SD kennt oder aber sehr gut schätzen kann (also große n, und 12 ist eben nicht groß).

Das wird Dein Problem sein. Wie gesagt: wirf doch mal einen Blick auf die KI’s!

Was das mit den Outlieren soll verstehe ich noch nicht ganz. Warum machst du nicht einen Grubbs-Test, getrennt für jeden Lauf?

Auch könnte man - wenn es um den Vergleich zweier Läufe geht und eigentlich alle Proben gleich laufen sollten - auch eine Korrelation rechnen und sich die Residuen anschauen, um zu sehen, ob es einzelne Proben gibt, die in den beiden Läufen stark unterschiedlich laufen.

LG
Jochen

Hallo Jochen,

vielen Dank für Deine Antwort!

Sind das zufällig 384-Well qPCRs?

Jein, es sind zellbasierte Assays im 384 Well Format. Auch sind die verschiedenen Platten keine Wiederholungen, sondern ein Großteil der Wells ist mit Library-Compounds belegt. Theoretisch, sollten die Kontrollen der Platten vergleichbar sein, aber bei zellbasierten Assays ist das so eine Sache… Sowohl Standardabweichung als auch Mittelwert ändern sich mal mehr mal weniger stark (beispielsweise können nur eine eher geringe Zahl an Platten am gleichen Tag erzeugt werde, die Platten vom nächsten Tag können sich dann schon mal signifikant unterscheiden - damit muss ich leben :wink: ).
Schlußendlich möchte ich die Hits aus der ganzen Library wissen. Daher möchte ich die Werte aller Platten miteinander vergleichbar machen.

Dumme Frage: wie bestimme ich die KIs für die Standardabweichung?

Ich denke mal, Du hast ganz recht: Die Genaugkeit meiner errechneten Standardabweichung ist viel zu schlecht um sie für den Z-score zu verwenden.

Für den Grubbs-Test brauch ich doch aber auch die Standardabweichung. Stehe ich da nicht vor dem gleichen Problem? Könnte mir aber vorstellen ihn nach einer guten normalisierung der Daten auf den gesamten Datensatz anzuwenden…

Oder seh ich das falsch?

Hallo,

vielen Dank für Deine Antwort!

Gerne doch.

Sowohl Standardabweichung als auch Mittelwert ändern sich mal
mehr mal weniger stark (beispielsweise können nur eine eher
geringe Zahl an Platten am gleichen Tag erzeugt werde, die
Platten vom nächsten Tag können sich dann schon mal
signifikant unterscheiden - damit muss ich leben :wink: ).
Schlußendlich möchte ich die Hits aus der ganzen Library
wissen. Daher möchte ich die Werte aller Platten miteinander
vergleichbar machen.

Wenn ein „Hit“ ein „Ausreißer“ ist, die Platten aber untereinander nicht vergleichbar sind, dann solltest du - wie gesagt - die Ausreißer immer „innerhalb“ einer Platte bestimmen.

Dumme Frage: wie bestimme ich die KIs für die
Standardabweichung?

http://wind.cc.whecn.edu/~pwildman/statnew/estimatin…

Für den Grubbs-Test brauch ich doch aber auch die
Standardabweichung. Stehe ich da nicht vor dem gleichen
Problem?

Der Test ist relativ robust. Wichtige jedoch: die Werte müssen etwa normalverteilt sein (-> Normal-Quantilen-Plot angucken). Aber erstmal weiterlesen!

Könnte mir aber vorstellen ihn nach einer guten
normalisierung der Daten auf den gesamten Datensatz
anzuwenden…

Das kann wohl sein. Wenn sich die Varianzen zwischen den Platten nicht signifikant unterscheiden, kannst du schlicht gegen die Verschiebung der Mittelwerte normalisieren. Auch hier musst Du nochmal überlegen, ob die DIFFERENZ reicht: x_neu = (x_alt-µ) oder ob du die VERÄLTNISSE bilden musst: x_neu = x_alt/µ.

Wichtig ist: die Varianzgleichheit kann sich durch die Verhältnisbildung ändern. Daher erst die Verhältnisse bilden und die gleichheit der Varianzen prüfen. Die Differenzbildung hingegen hat keinen Einfluß. Die Normal-Quantilen-Plots aus besser nach der Normalisierung ansehen. Dazu kann man dann sogar alle Daten in einen Topf werfen. Damit werden systematische Abweichungen von der Normalverteilung besser sichtbar.

Wenn du den Grubbs-Test nicht machen willst kannst du dir auch ein Quantilen-basiertes Maß für die Ausreißer-Klassifizierung ausdenken. Üblich sind hier zB. x > Q3+f*IQR oder x

Hallo Jochen,

Wenn ein „Hit“ ein „Ausreißer“ ist, die Platten aber
untereinander nicht vergleichbar sind, dann solltest du - wie
gesagt - die Ausreißer immer „innerhalb“ einer Platte
bestimmen.

Ja, ein Hit ist ein Ausreißer. Ich möchte mit einer Normalisierung die Platten vergleichbar machen. Schlußendlich möchte ich sicherstellen, dass alle Hits auf der gleichen Basis bestimmt wurden.

Dumme Frage: wie bestimme ich die KIs für die
Standardabweichung?

http://wind.cc.whecn.edu/~pwildman/statnew/estimatin…

Danke für den Link. Schau ich mir gleich an!

Für den Grubbs-Test brauch ich doch aber auch die
Standardabweichung. Stehe ich da nicht vor dem gleichen
Problem?

Der Test ist relativ robust. Wichtige jedoch: die Werte müssen
etwa normalverteilt sein (-> Normal-Quantilen-Plot angucken).
Aber erstmal weiterlesen!

Tja, mit 12 Werten ist es doch etwas schwierig einen verlässlichen Test auf Normalverteilung zu machen oder? Und wenn ich nach Deinem Vorschlag den Grubbs-Test plattenweise machen soll, müsste ich ja jede Platte auf Normalverteilung testen.
Allerdings hab ich das mit der Normalverteilung durchaus schon bedacht. Da ich immer mal wieder Platten haben, in denen alle 384 Wells Referenz-Wells sind, hab ich mir die Verteilung dort schon mal angesehen. Zumindest der D’Agostino Test für Skewness hat auf eine Normalverteilung hingewiesen. Würde das auch reichen?
Würdest Du außer dem NQ-Plot nochwas empfehlen?

Könnte mir aber vorstellen ihn nach einer guten
normalisierung der Daten auf den gesamten Datensatz
anzuwenden…

Das kann wohl sein. Wenn sich die Varianzen zwischen den
Platten nicht signifikant unterscheiden, kannst du schlicht
gegen die Verschiebung der Mittelwerte normalisieren. Auch
hier musst Du nochmal überlegen, ob die DIFFERENZ reicht:
x_neu = (x_alt-µ) oder ob du die VERÄLTNISSE bilden musst:
x_neu = x_alt/µ.

Wichtig ist: die Varianzgleichheit kann sich durch die
Verhältnisbildung ändern. Daher erst die Verhältnisse bilden
und die gleichheit der Varianzen prüfen. Die Differenzbildung
hingegen hat keinen Einfluß.

Ich denke mal, dass ich Verhältnisse nehmen muss (das würde doch jetzt dem „Percent of Control“ entsprechen, was ich eingangs beschrieben habe, oder?
Kann ich zum Testen der Varianzen den F-Test nehmen? Auch hier die Frage: Sind 12 Werte genug um einen aussagekräftigen F-Test zu machen???

Wenn du den Grubbs-Test nicht machen willst kannst du dir auch
ein Quantilen-basiertes Maß für die Ausreißer-Klassifizierung
ausdenken. Üblich sind hier zB. x > Q3+f*IQR oder x

Hallo July,

Tja, mit 12 Werten ist es doch etwas schwierig einen
verlässlichen Test auf Normalverteilung zu machen oder?

Einen formalen Nullhypothesentest auf Normalverteilung kann ich nicht empfehlen. Bei wenigen Werten hat er keine Power, bei zu vielen Werten ist er überpowert. Eine statistisch signifikante Abweichung von der Normalverteilung sagt dann ja auch noch nicht, ob die Art und Stärke der Abweichung relevant ist. Daher: Einfach den NQ-Plot ansehen. Wenn da keine systematische Krümmung zu erkennen ist, ist alles gut.

Und
wenn ich nach Deinem Vorschlag den Grubbs-Test plattenweise
machen soll, müsste ich ja jede Platte auf Normalverteilung
testen.

Wie gesagt: erstmal nachsehen, ob nach der Normalisierung nicht doch alle Daten in einen Topf geworfen werden können! Dann hast du das Problem mit den unterschiedlichen Platten doch nicht mehr!

Würdest Du außer dem NQ-Plot nochwas empfehlen?

Nein, s.o. Es gibt Tests auf Normalverteilung, zu nennen wären der Shapiro-Wilk und der KS-Test, aber es bleibt das Problem der Interpretation (ist eine nicht-signifikante relevant? Ist eine signifikante Abweichung nicht-relevant?).

Ich denke mal, dass ich Verhältnisse nehmen muss (das würde
doch jetzt dem „Percent of Control“ entsprechen, was ich
eingangs beschrieben habe, oder?

Warum mußt Du? Hast du beide Möglichkeiten mal untersucht? Oder gibt es andere Gründe für diese Entscheidung? Ich denke, eine Subtraktion ist eine weniger herbe Transformation als eine Verhältnisbildung. Hier blieben die Einheiten und die Skalen erhalten.

Kann ich zum Testen der Varianzen den F-Test nehmen? Auch hier
die Frage: Sind 12 Werte genug um einen aussagekräftigen
F-Test zu machen???

Der F-Test erlaubt nur paarweise Vergleiche, dann hast du ein multiples Testproblem und zu wenig Power, wenn du für multiples Testen korrigierst. Nimm besser den Bartlett-Test. Alternativ kannst Du auch den Median-Test von Fligner und Killeen nehmen, insbesondere wenn die Daten nicht sonderlich normalverteilt sind.

Bei 12 Platten mit je 12 Werten liegt die Power vom Bartlett-Test zur Detektion von 3-fachen Unterschieden in der SD bei über 80%. Das ist gut genug! 2-fache Unterschieden findet man mit einer Power von ca. 45%. Weniger als 2-fache Unterschiede finde ich nicht relevant.

Sollte das für Deinen Fall aber wichtig sein, kannst du die Power, kleinere Unterschiede zu finde, erhöhen, indem du nicht nur die 12 Kontrollen pro Platte nimmst, sondern noch andere Wells, die nach einer ersten groben Durchsicht nicht völlig aus dem Rahmen fallen (Tipp: Zufallsauswahl aus den zentralen 90% der Daten).

Nochmal: Test auf Varianzhomogenität erst NACH der Verhältnisbildung, falls du eine solche machen solltest.

Wie gesagt, ich würde die Ausreißer gerne anhand des
kompletten (normalisierten) Datensatzes bestimmen.
Wenn ich einen gut normalisierten Daten hinbekäme, könnte ich
ja alle Referenzen zusammen nehmen und nochmal eine
Z-Score-Normalisierung drüberbügeln.

Aber WARUM denn?? Wenn die Normalisierung passt, dann sind Mittelwerte und Standardabweichungen gleich! Wenn du dann wieder durch die plattenweise berechneten SDs teilst, verschlimmbessertst du doch wieder alles. Man kann schlechte Daten nicht durch fünfmal hin-und-her-rechnen in gute Daten verwandeln.

Aber mal etwas weg von Deinem Lösungsansatz:

Wenn die allermeisten Werte KEINE Ausreißer sind, mach eine Quantilen-Normalisierung. Damit werden Mediane UND Streuungen in allen Platten gleich gemacht, ja soghar die kompletten Formen der Verteilungen. Und dann nimm alle Punkte außerhalb des Boxplot-Fences als Ausreißer. Fertig.

Die Quantilen-Normalisierung ist relativ simpel:

  1. Ordne die Werte jeder Platte der Größe nach.
  2. Sei M[n] der Mittelwert der Wells mit den n-t höchsten Werten.
  3. Ersetze den Messwert dieser Gene jeweils durch M[n].
  4. Verfahre so für alle Positionen n (von 1 bis 348).

LG
Jochen

Hallo Jochen,

ich versuche jetzt nochmal schrittweise durchzugehen.

  1. Ich habe eine Platte, die nur Referenzwells enthält hergenommen, alle Randwells (evtl. Randeffekte) herausgenommen und NQ-Plots von jedem Parameter erstellt (wir haben neun Messparameter).

Die Plots kannst Du hier anschauen, wenn Du möchtest (ich hoffe es funktioniert überhaupt):
http://rapidshare.com/files/283841195/nq2-plot.png

Welche dieser Plots kann man hier als normalverteilt interpretieren? Beispielsweise der erste Plot in Reihe zwei ist schon sehr gekrümmt, oder?
In einer anderen Platte sieht das ganze dann gleich wieder leicht anders aus…

http://rapidshare.com/files/283841130/nq-plot.png

  1. Dann habe ich einen Test zur Normalisierung gemacht. Die Wells sind ja in Spalten und Reihen aufgeteilt. Ich hab dann pro Spalte die ganze Platte auf diese Spalte als Referenz normalisiert (mit verschiedenen Methoden). Zum Schluss hab ich die Werte der ganzen Platte einfach nebeneinander geplottet um einen Eindruck zu bekommen, wie sehr das Normalisierungsergebnis je nach gewählter Referenzspalte vergleichbar bleibt. Hier mal der Plot, wenn ich mit der Differenz normalisiere (x - mittelwert(referenz)); die roten Daten wurden mit dem mittelwert aller referenzwells normalisiert, da der ja aufgrund der stichprobengröße noch zuverlässiger sein sollte.

http://rapidshare.com/files/283840844/dotplot.png

Alle anderen Methoden waren noch weniger homogen.

Hier steh ich jetzt vor der Frage, ob die 12 Wells nun repräsentativ genug sind…

Warum mußt Du? Hast du beide Möglichkeiten mal untersucht?
Oder gibt es andere Gründe für diese Entscheidung?

Du hast Recht, momentan sieht es so aus, als ob eine Differenz immer noch robuster ist, wie das Verhältnis.

Zum Varianztest:
Wie sieht es mit den Tests: Levene test bzw. Brown-Forsythe test
aus? (Bin grad drüber gestolpert und hab gelesen, dass sie sich mehr an einer Normalverteilung orientieren…)

Wie gesagt, ich würde die Ausreißer gerne anhand des
kompletten (normalisierten) Datensatzes bestimmen.
Wenn ich einen gut normalisierten Daten hinbekäme, könnte ich
ja alle Referenzen zusammen nehmen und nochmal eine
Z-Score-Normalisierung drüberbügeln.

Aber WARUM denn?? Wenn die Normalisierung passt, dann sind
Mittelwerte und Standardabweichungen gleich! Wenn du dann
wieder durch die plattenweise berechneten SDs teilst,
verschlimmbessertst du doch wieder alles. Man kann schlechte
Daten nicht durch fünfmal hin-und-her-rechnen in gute Daten
verwandeln.

Nein, ich würde bei der zweiten Runde nicht plattenweise normalisieren, sondern anhand aller Kontrollen aller Platten. Es ist einfacher zu begründen, dass ein Hit etwas ist, was über oder unter 2 SD liegt, als zu sagen für den Parameter nehm ich diese Differenz als Grenze, für den Parameter diese… Das wirkt willkürlicher.
Und mit dem kompletten Set, sollte es lediglich eine Transformation der Daten bleiben.

Aber mal etwas weg von Deinem Lösungsansatz:

Wenn die allermeisten Werte KEINE Ausreißer sind,

Hier ist schon das Problem. Ich kann nicht mit Sicherheit sagen, wie hoch der Anteil der Hits pro Platte ist. Da teilweise Familien von Chemikalien auf einer Platte sind, kann es auch zu Anhäufungen von Hits kommen.

mach eine
Quantilen-Normalisierung. Damit werden Mediane UND Streuungen
in allen Platten gleich gemacht, ja soghar die kompletten
Formen der Verteilungen. Und dann nimm alle Punkte außerhalb
des Boxplot-Fences als Ausreißer. Fertig.

So, die Antwort hat so lange gedauert, weil ich obiges erstmal ausprobieren wollte.

Hallo,

die meisten NQ-Plots weisen auf schiefe Verteilungen hin. Die Unterschiede zwischen den beiden Platten sind heftig; die kann ich mir nicht erklären. Das braucht zur sinnvollen Interpretation der Ergebnisse aber unbedingt eine gute Erklärung!

Die Unterschiede in den Verteilungen erfordern Transformationen, um die Verteilungen vergleichbar zu machen. Welche Transformation adäquat ist, kann man anhand von 12 Werten aber nicht entscheiden. Für dieses Problem sind die 12 Referenzproben pro Platte also tatsächlich nicht ausreichend.

  1. Dann habe ich einen Test zur Normalisierung gemacht. …

Durch Verschieben oder Strecken/Stauchen verändert sich die Form der Verteilung nicht. Hier habe ich nicht verstanden, was das bringen soll, was du gemacht hast.

Das Bild zeigt allerdings Muster. Ich nehme an, das liegt an der Reihen-Position der Wells. Sowas sollte eigentlich nicht sein. Überprüf das unbedingt! Die Ergebnisse dürfen nicht von der Position des Wells in der Platte abhängen! Wenn dem doch so sein sollte, musst du sehr aufwändig den Positionseffekt bestimmen und dagegen korrigieren. Das wird wahrscheinlich viele weitere Messungen erfordern (sei denn du hast die Positionen der Proben randomisiert, ebenso die Reihenfolge der Befüllung und hast VIELE Platten mit der Referenzen, was ich nicht annehme).

Zum Varianztest:
Wie sieht es mit den Tests: Levene test bzw. Brown-Forsythe
test
aus? (Bin grad drüber gestolpert und hab gelesen, dass sie
sich mehr an einer Normalverteilung orientieren…)

Genau das doch ist deren Problem! Deine Daten sind nicht normalverteilt, daher taugen Tests nicht, die normalverteilte Daten voraussetzen.

Das Problem wird hier noch überlagert von dem Problem, dass die Formen der Verteilungen von Platte zu Platte anders sind.

Aber WARUM denn?? Wenn die Normalisierung passt, dann sind
Mittelwerte und Standardabweichungen gleich! …

Nein, ich würde bei der zweiten Runde nicht plattenweise
normalisieren, sondern anhand aller Kontrollen aller Platten.
Es ist einfacher zu begründen, dass ein Hit etwas ist, was
über oder unter 2 SD liegt, als zu sagen für den Parameter
nehm ich diese Differenz als Grenze, für den Parameter
diese… Das wirkt willkürlicher.

Ich versteh’s nicht. Wenn die SD bei Platte 1 genauso groß ist wie bei Platte 2, dann hast du EINE gemeinsame SD für alle Platten. Das ist doch schon das, was du willst. Wozu und wie dann denn nochmal normalisieren?

Und mit dem kompletten Set, sollte es lediglich eine
Transformation der Daten bleiben.

Aber mal etwas weg von Deinem Lösungsansatz:

Wenn die allermeisten Werte KEINE Ausreißer sind,

Hier ist schon das Problem. Ich kann nicht mit Sicherheit
sagen, wie hoch der Anteil der Hits pro Platte ist. Da
teilweise Familien von Chemikalien auf einer Platte sind, kann
es auch zu Anhäufungen von Hits kommen.

Also sind die Chemikalien nicht auf die Platten randomisiert worden… :frowning:

mach eine
Quantilen-Normalisierung. Damit werden Mediane UND Streuungen
in allen Platten gleich gemacht, ja soghar die kompletten
Formen der Verteilungen. Und dann nimm alle Punkte außerhalb
des Boxplot-Fences als Ausreißer. Fertig.

So, die Antwort hat so lange gedauert, weil ich obiges erstmal
ausprobieren wollte.

Und?

LG
Jochen

Wow, schnelle Antwort. Danke!

die meisten NQ-Plots weisen auf schiefe Verteilungen hin. Die
Unterschiede zwischen den beiden Platten sind heftig; die kann
ich mir nicht erklären. Das braucht zur sinnvollen
Interpretation der Ergebnisse aber unbedingt eine gute
Erklärung!

Tja, leider kann ich hier nicht mit Erklärung dienen. Gut, eine Bedingung hat sich von einer Platte zur anderen geändert - aber ich bezweifle dass es bei Platten komplett gleicher Bedingung viel besser aussieht - leider (natürlich ist das jetzt nur meine Vermutung und müsste noch überprüft werden). Färbung der Proben, Gemütsverfassung der Zellen etc. sind aber erfahrungsgemäß sehr variable Komponenten…

Die Unterschiede in den Verteilungen erfordern
Transformationen, um die Verteilungen vergleichbar zu machen.
Welche Transformation adäquat ist, kann man anhand von 12
Werten aber nicht entscheiden. Für dieses Problem sind die 12
Referenzproben pro Platte also tatsächlich nicht ausreichend.

Angenommen alle Platten, die in einem Herstellungsprozess entstanden sind habe vergleichbare Verteilungen (die beiden oben genannten Platten sind nicht aus ein und dem selben Herstellungsprozess hervorgegangen).
In jedem Herstellungsprozess wird auch eine komplette Referenzplatte erzeugt. Würde diese genügen um eine entsprechende Transformation für alle Platten dieses Prozesses zu finden?
Wenn ja, wie müsste man da rangehen? Kann mir grad nicht vorstellen, wie ich die passende Transformation finden soll…

  1. Dann habe ich einen Test zur Normalisierung gemacht. …

Durch Verschieben oder Strecken/Stauchen verändert sich die
Form der Verteilung nicht. Hier habe ich nicht verstanden, was
das bringen soll, was du gemacht hast.

Das Bild zeigt allerdings Muster. Ich nehme an, das liegt an
der Reihen-Position der Wells. Sowas sollte eigentlich nicht
sein. Überprüf das unbedingt! Die Ergebnisse dürfen nicht von
der Position des Wells in der Platte abhängen! Wenn dem doch
so sein sollte, musst du sehr aufwändig den Positionseffekt
bestimmen und dagegen korrigieren. Das wird wahrscheinlich
viele weitere Messungen erfordern (sei denn du hast die
Positionen der Proben randomisiert, ebenso die Reihenfolge der
Befüllung und hast VIELE Platten mit der Referenzen, was ich
nicht annehme).

Vielleicht hab ich nicht richtig beschrieben, was ich gemacht habe. Die Plots zeigen nebeneinander die normalisierten Daten ein und derselben Referenz-Platte, allerdings auf Basis von zwanzig verschiedenen Referenzspalten. Also der erste Datenhaufen ist die Platte normalisiert anhand der Wells in Spalte 3, der nächste Datenhaufen daneben die gleiche Platte normalisiert anhand der Wells in Spalte 4, …, der letzte rote Datenhaufen die Platte normalisiert anhand aller Referenzwells.

Zum Varianztest:
Wie sieht es mit den Tests: Levene test bzw. Brown-Forsythe
test
aus? (Bin grad drüber gestolpert und hab gelesen, dass sie
sich mehr an einer Normalverteilung orientieren…)

Genau das doch ist deren Problem! Deine Daten sind nicht
normalverteilt, daher taugen Tests nicht, die normalverteilte
Daten voraussetzen.

Okay, verstanden - mir ging es hier mehr um ein generelles Statement warum Bartlett-Test z.B. dem Levene-Test vorzuziehen ist (wenn eine Normalverteilung vorliegt).

Aber WARUM denn?? Wenn die Normalisierung passt, dann sind
Mittelwerte und Standardabweichungen gleich! …

Nein, ich würde bei der zweiten Runde nicht plattenweise
normalisieren, sondern anhand aller Kontrollen aller Platten.
Es ist einfacher zu begründen, dass ein Hit etwas ist, was
über oder unter 2 SD liegt, als zu sagen für den Parameter
nehm ich diese Differenz als Grenze, für den Parameter
diese… Das wirkt willkürlicher.

Ich versteh’s nicht. Wenn die SD bei Platte 1 genauso groß ist
wie bei Platte 2, dann hast du EINE gemeinsame SD für alle
Platten. Das ist doch schon das, was du willst. Wozu und wie
dann denn nochmal normalisieren?

Ganz einfach, es hört sich einfach nicht so willkürlich an, wenn ich am Ende sagen kann:
Alle Wells deren Werte um mehr als ±2 SD von den Kontrollwells abweichen sind Hits
als wie wenn ich schreiben würde:
Alle Wells deren Werte um mehr als ±115 von den Kontrollwells abweichen sind Hits
In letzterem Fall käme sofort die Frage, wie ich auf „115“ als Grenzwert komme…

Also sind die Chemikalien nicht auf die Platten randomisiert
worden… :frowning:

Nein.

Viele Grüße,
July

Hallo,

Tja, leider kann ich hier nicht mit Erklärung dienen. Gut,
eine Bedingung hat sich von einer Platte zur anderen geändert

  • aber ich bezweifle dass es bei Platten komplett gleicher
    Bedingung viel besser aussieht - leider (natürlich ist das
    jetzt nur meine Vermutung und müsste noch überprüft werden).
    Färbung der Proben, Gemütsverfassung der Zellen etc. sind aber
    erfahrungsgemäß sehr variable Komponenten…

Das ist mir schon klar, dass biologische Proben nicht das eine wie das andere mal reagieren. Andere Verteilungsformen deuten aber auch andere zugrundeliegende Mechanismen hin, und das anzunehmen ist gewagt - oder einfach nur dumm.

Angenommen alle Platten, die in einem Herstellungsprozess
entstanden sind habe vergleichbare Verteilungen (die beiden
oben genannten Platten sind nicht aus ein und dem selben
Herstellungsprozess hervorgegangen).

Das wäre zu prüfen. Wenn dem so ist, haben wir einen Hauptverdächtigen für die Unterschiede der Verteilungsformen.

In jedem Herstellungsprozess wird auch eine komplette
Referenzplatte erzeugt. Würde diese genügen um eine
entsprechende Transformation für alle Platten dieses Prozesses
zu finden?

Ja.

Wenn ja, wie müsste man da rangehen? Kann mir grad nicht
vorstellen, wie ich die passende Transformation finden soll…

Box-Cox-Transformation. Die auf die Referenzplatte anwenden, Optimalen Parameter notieren und mit diesem Parameter die anderen Platten normalisieren. Ggf. zuerst zentrieren (d.h. Mittelwert der Referenzproben jeder Platte von allen Werten der selben Platte subtrahieren).

Vielleicht hab ich nicht richtig beschrieben, was ich gemacht
habe. Die Plots zeigen nebeneinander die normalisierten Daten
ein und derselben Referenz-Platte, allerdings auf Basis von
zwanzig verschiedenen Referenzspalten.

Ahso. Trotzdem ist da ein Muster drin. Es scheint doch, also hätten Wells mit größerem Index kleinere Werte.

Okay, verstanden - mir ging es hier mehr um ein generelles
Statement warum Bartlett-Test z.B. dem Levene-Test vorzuziehen
ist (wenn eine Normalverteilung vorliegt).

Wenn eine Normalverteilung vorliegt, tun sich die beiden Tests nicht viel. Wenn das mit der Transformation klappt, kannst du auch den Levene nehmen, um die transformierten Werte auf Varianzhomogenität zu testen.

Ganz einfach, es hört sich einfach nicht so willkürlich an,
wenn ich am Ende sagen kann:
Alle Wells deren Werte um mehr als ±2 SD von den
Kontrollwells abweichen sind Hits
als wie wenn ich schreiben würde:
Alle Wells deren Werte um mehr als ±115 von den Kontrollwells
abweichen sind Hits
In letzterem Fall käme sofort die Frage, wie ich auf „115“ als
Grenzwert komme…

Hmm, wenn Verteilungen alle gleich sind, dann entsprechen 115 bei Platte X zB. MW+2SD, und GENAUSO auch für Platte Y und Z und und…

Also sind die Chemikalien nicht auf die Platten randomisiert
worden… :frowning:

Nein.

Das ist dumm… schlechtes Studiendesign. Wäre ordentlich randomisiert, wären evtl. die Streuungen größer, aber die Werte wären nicht konfundiert und man kann verlässlichere stat. Aussagen ableiten. („Bias -> Noise“)

Viele Grüße,
Jochen

Hallo Jochen,

Das ist mir schon klar, dass biologische Proben nicht das eine
wie das andere mal reagieren. Andere Verteilungsformen deuten
aber auch andere zugrundeliegende Mechanismen hin, und das
anzunehmen ist gewagt - oder einfach nur dumm.

Gewagt ja - Grund ist dass auch in der Forschung ein gewisser Zeitdruck herrscht. Würde gerne das Gegenteil behaupten, aber mehr Zeit in Prozessoptimierung ist einfach nicht drin (und ich hab schon den Eindruck, dass wir nicht gerade wenig dafür tun…).

Box-Cox-Transformation. Die auf die Referenzplatte anwenden,
Optimalen Parameter notieren und mit diesem Parameter die
anderen Platten normalisieren. Ggf. zuerst zentrieren (d.h.
Mittelwert der Referenzproben jeder Platte von allen Werten
der selben Platte subtrahieren).

Danke, werd ich mir heute anschauen. Bei nächster Gelegenheit werd ich schauen, ob die Verteilungen der Platten eines Herstellungsprozesses sich gleichen (nur anhand des NQ-Plot? oder muss ich das noch anderweitig untermauern?)

Ahso. Trotzdem ist da ein Muster drin. Es scheint doch, also
hätten Wells mit größerem Index kleinere Werte.

Ja, würde auch erklären, warum da keine Normalverteilung zustande kommt.

Ganz einfach, es hört sich einfach nicht so willkürlich an,
wenn ich am Ende sagen kann:
Alle Wells deren Werte um mehr als ±2 SD von den
Kontrollwells abweichen sind Hits
als wie wenn ich schreiben würde:
Alle Wells deren Werte um mehr als ±115 von den Kontrollwells
abweichen sind Hits
In letzterem Fall käme sofort die Frage, wie ich auf „115“ als
Grenzwert komme…

Hmm, wenn Verteilungen alle gleich sind, dann entsprechen 115
bei Platte X zB. MW+2SD, und GENAUSO auch für Platte Y und Z
und und…

klar, müsste man nur explizit dazuschreiben, das spart man sich eben…

Also sind die Chemikalien nicht auf die Platten randomisiert
worden… :frowning:

Nein.

Das ist dumm… schlechtes Studiendesign.

Das Kompliment geb ich gern an die Designer der Masterplatten weiter. Da wir zum Teil nicht mal wissen, welche Chemikalien getestet werden (nur ne Referenznummer haben) und der technische/zeitliche/finanzielle Aufwand sehr hoch wäre die Chemikalien zufällig auf unsere Experiment-Platten zu verteilen, bleibt uns leider nichts anderes übrig als davon auszugehen, dass die Proben nicht randomisiert sind…

Nochmals herzlichen Dank für die geduldige Beantwortung all meiner Fragen! Mir fehlt hier leider ein Ansprechpartner mit einem fundierten Statistik-Hintergrund…

Viele Grüße,
July