Statistik - Welch-Test

Hallo,

ich möchte mal eure Meinung zu folgendem Vorgehen wissen.
Ich hab 3 verschiedene Konditionen und für jede jeweils 3 Messreihen mit je 10 Messwerten. Nun möchte ich zunächst testen, ob ich die 3 Messreihen zu einer pro Kondition zusammenfassen kann; und danach interessiert mich ob sich die Messwerte der verschiedenen Konditionen signifikant unterscheiden.
(Gehe von einer Normalverteilung der Messwerte aus)

Ich hab zunächst mit dem Welch-Test jeweils zwei Messreihen miteinander verglichen (also jede mit jeder pro Kondition) und anhand der t-Werte mit einem Signifikanzniveau von 95% festgestellt, dass sich die Mittelwerte der Messreihen nicht signifikant unterscheiden.

Das hat mich überzeugt, dass ich all Messwerte zusammen nehmen kann und dann habe ich den Welch-Test zwischen den verschiedenen Konditionen durchgeführt und festgestellt, dass sich zwei Konditionen nicht signifikant unterscheiden, die dritte aber schon von den beiden anderen.

Was sagt ihr zu dem Vorgehen? Ist es korrekt? Müsste man etwas anders machen? Oder kann man noch irgendwie anders an die Aufgabe herangehen?

Grüße,
July

Hallo,

ich möchte mal eure Meinung zu folgendem Vorgehen wissen.
Ich hab 3 verschiedene Konditionen und für jede jeweils 3
Messreihen mit je 10 Messwerten. Nun möchte ich zunächst
testen, ob ich die 3 Messreihen zu einer pro Kondition
zusammenfassen kann;

worin unterscheiden sich die drei Meßreihen pro „Kondition“, daß Du sie zunächst getrennt betrachtet hast?

Ich hab zunächst mit dem Welch-Test jeweils zwei Messreihen
miteinander verglichen (also jede mit jeder pro Kondition)

Warum hast Du die drei Meßreihen nicht simultan gegeneinander getestet? Warum mit dem Welch-Test? Unterscheiden sich die Varianzen der Meßreihen pro Kondition signifikant?

und
anhand der t-Werte mit einem Signifikanzniveau von 95%

Beträgt das p pro Mittelwertsvergleich tatsächlich 0.95 oder darüber?

Das hat mich überzeugt, dass ich all Messwerte zusammen nehmen
kann

Warum hättest Du die Meßwerte andernfalls nicht zusammen betrachten können?

Falls ich es bisher richtig verstanden habe, hast Du aus einem zweifaktoriellem ein einfaktorielles Design gemacht, indem Du die Stufen des zweiten Faktors zusammengefaßt hast. Geht doch eigentlich auch dann, wenn sich die Mittelwerte der Stufen des zweiten Faktors unterscheiden. Erhöht zwar die "Fehler"varianz auf, geht aber.

Grüße

Hallo,

vielen Dank für Deine Antwort. Ich muss ehrlich gestehen, dass ich gerade erst wieder beginne mich ein wenig mit Statistik auseinanderzusetzen…

worin unterscheiden sich die drei Meßreihen pro „Kondition“,
daß Du sie zunächst getrennt betrachtet hast?

Hmm, ich beschreibe es mal so: Ich mache einen biologischen Versuch mit Zellen. Für jede Kondition mach ich ihn aber 3-fach und dann nehme ich davon jeweils 10 Mikroskopbilder der Zellen auf und messe diverse Parameter der Zellen pro Bild. Nun kann es ja mal passieren, dass bei einer der 3 Wiederholungen was schief geht, deswegen möchte ich sicher gehen, dass ich alle Messwerte zusammen betrachten kann.

Warum hast Du die drei Meßreihen nicht simultan gegeneinander
getestet? Warum mit dem Welch-Test? Unterscheiden sich die
Varianzen der Meßreihen pro Kondition signifikant?

Was heißt simultan testen? Angenommen bei einer der 3 Wiederholungen wäre etwas schief gegangen, dann würden sich die Verteilungen ja doch unterscheiden und dann bin ich doch mit dem Welch-Test besser dran, oder?

Beträgt das p pro Mittelwertsvergleich tatsächlich 0.95 oder
darüber?

Es liegt darüber. Ich nehme meine Hypothese (dass die Mittelwerte sich nicht signifikant unterscheiden) ab 0.95 an.

Wie sieht es aus? Ist das okay?

July

Hallo,

vielen Dank für Deine Antwort. Ich muss ehrlich gestehen, dass
ich gerade erst wieder beginne mich ein wenig mit Statistik
auseinanderzusetzen…

:wink:

Hmm, ich beschreibe es mal so: Ich mache einen biologischen
Versuch mit Zellen. Für jede Kondition mach ich ihn aber
3-fach und dann nehme ich davon jeweils 10 Mikroskopbilder der
Zellen auf

3mal an den gleichen Zellen? 10 Mikroskopbilder der gleichen Zellen?

Warum hast Du die drei Meßreihen nicht simultan gegeneinander
getestet? Warum mit dem Welch-Test? Unterscheiden sich die
Varianzen der Meßreihen pro Kondition signifikant?

Was heißt simultan testen?

Die Vergleiche zwischen den Meßreihen nicht paarweise durchführen, sondern gleichzeitig alle Vergleiche auf Signifikanz testen. Die Nullhypothese ist doch: mü1 = mü2 = mü3. Das kann man „auf einen Schlag“ testen und muß nicht mü1=mü2, mü1=mü3, mü2=mü3 einzeln testen.

Angenommen bei einer der 3
Wiederholungen wäre etwas schief gegangen, dann würden sich
die Verteilungen ja doch unterscheiden

Und? Daß Du drei Replikationen durchführst und dann zusammenwirfst, hat doch den Zweck, Fehler herauszumitteln.

Beträgt das p pro Mittelwertsvergleich tatsächlich 0.95 oder
darüber?

Es liegt darüber. Ich nehme meine Hypothese (dass die
Mittelwerte sich nicht signifikant unterscheiden) ab 0.95 an.

O.k. Sehr konservativ.

Grüße

Hallo,

zur Bestätigung: aiwendil hat wohl Recht.
Du machst ja mehrere Messreihen, damit sich Fehler rausmitteln.

Mit dem „simultanen Test“ meint er die ANOVA.

Du kannst/solltest die ANOVA auch nehmen, um die verschiedenen Konditionen zu vergleichen.

Bei vielen einzelnen Vergleichen mit im zusammengehörigen Nullhypothesen mußt du aufpassen wegen der Typ-I-Fehlerinflation. Nach der ANOVA gibt es unterschiedlich konservative „post-hoc“-Tests (am unteren Ende ‚least significant difference‘ (LSD), am oberen Ende ‚Tukey’s honestly significant difference‘ (HSD)). Bei sehr vielen Tests ist auch eine Korrektur der p-Werte zB. nach Bonferroni (sehr konservativ) oder Benjamini-Hochberg (wenig konservativ) möglich.

Wenn du verschiedene biologische Proben mißt - und jede davon mehrfach, ist es empfehlenswert, die technischen Meßwiederholungen VOR der Analyse zu mitteln und pro biologischer Probe nur jeweils EINEN Meßwert zu haben. Wenn du technische und biologische Replikate mischst , dann geht der Test von zu vielen Proben aus und ist tendentiell deutlich zu wenig konservativ (d.h., dein Konfidenzniveau ist nicht 95% sondern deutlich kleiner). Natürlich kannst du das mit einer multivariaten ANOVA (besser gesagt: multiples lineares Modell) auch simultan behandeln. Die Mittelung der technischen Replikate ist aber i.d.R. einfacher zu verstehen und absolut adäquat.

LG
Jochen

Hallo,

3mal an den gleichen Zellen? 10 Mikroskopbilder der gleichen
Zellen?

nein, 10 verschiedene Bilder von einer Zellpopulation, die quasi durch die gleichen Pipettierschritte behandelt wurden (also wie wenn ich 3 Petrischalen mit Hefen nehme und alle Schalen gleich behandle und dann pro Schale an 10 verschiedenen Positionen Bilder von den Hefen aufnehme).

Warum hast Du die drei Meßreihen nicht simultan gegeneinander
getestet? Warum mit dem Welch-Test? Unterscheiden sich die
Varianzen der Meßreihen pro Kondition signifikant?

Was heißt simultan testen?

Die Vergleiche zwischen den Meßreihen nicht paarweise
durchführen, sondern gleichzeitig alle Vergleiche auf
Signifikanz testen. Die Nullhypothese ist doch: mü1 = mü2 =
mü3. Das kann man „auf einen Schlag“ testen und muß nicht
mü1=mü2, mü1=mü3, mü2=mü3 einzeln testen.

Hmm, kannst Du mir da mal nen Literaturtipp verlinken? Ich hab halt nur den paarweisen Vergleich bisher kennengelernt und weiß jetzt nicht inwiefern ich das gleich auf alle ausdehnen kann…

Angenommen bei einer der 3
Wiederholungen wäre etwas schief gegangen, dann würden sich
die Verteilungen ja doch unterscheiden

Und? Daß Du drei Replikationen durchführst und dann
zusammenwirfst, hat doch den Zweck, Fehler herauszumitteln.

Ja und nein, zum einen sollte ich ja auch darauf hingewiesen werden, dass es Fehler gab (um die dann herauszufinden und zu minimieren). Zum anderen geht es ja darum möglichst gute Aussagen über die verschiedenen Konditionen zu treffen. Angenommen ich habe unbehandelte Zellen und behandelte und bei den behandelten hat der Versuch in einem Fall nicht geklappt und die Zellen verhalten sich wie unbehandelte. Dann würde ja ein zusammenbringen aller Werte meinen Unterschied zu den Unbehandelten verkleinern. Da ich aber am Ende nur noch diesen Unterschied anschauen will, sollte ich möglichst vorher feststellen, ob so ein Fall möglicherweise vorliegt um die Daten dann entsprechend interpretieren zu können…

Es liegt darüber. Ich nehme meine Hypothese (dass die
Mittelwerte sich nicht signifikant unterscheiden) ab 0.95 an.

O.k. Sehr konservativ.

Wieso ist das konservativ? Was wäre denn „modern“?

Ciao,
Antje

Hallo Jochen,

zur Bestätigung: aiwendil hat wohl Recht.
Mit dem „simultanen Test“ meint er die ANOVA.

nicht unbedingt, denn der Welch-Test ist auch bei mehr als 2 Gruppen anwendbar.

Du kannst/solltest die ANOVA auch nehmen, um die verschiedenen
Konditionen zu vergleichen.

Der Welch-Test ist schon sinnvoll, wenn keine Varianzhomogenität besteht.

Meßwiederholungen

Genau. Es wäre wichtig zu wissen, ob July Meßwiederholungen im statistischen Sinn durchgeführt hat. Daher meine Fragen danach.

Beste Grüße

Hallo Jochen,

hab Deine Antwort gerade erst entdeckt :smile: Danke!

Mit dem „simultanen Test“ meint er die ANOVA.

Du kannst/solltest die ANOVA auch nehmen, um die verschiedenen
Konditionen zu vergleichen.

Okay, da muss ich mir erstmal Literatur hernehmen und schauen was sich dahinter verbirgt :wink: Gehört hab ich davon schon, aber mehr auch nicht…

Bei vielen einzelnen Vergleichen mit im zusammengehörigen
Nullhypothesen mußt du aufpassen wegen der
Typ-I-Fehlerinflation.
Nach der ANOVA gibt es unterschiedlich
konservative „post-hoc“-Tests (am unteren Ende ‚least
significant difference‘ (LSD), am oberen Ende ‚Tukey’s
honestly significant difference‘ (HSD)). Bei sehr vielen Tests
ist auch eine Korrektur der p-Werte zB. nach Bonferroni (sehr
konservativ) oder Benjamini-Hochberg (wenig konservativ)
möglich.

Okay, auch hier brauch ich glaub ich Nachhilfe…

Wenn du verschiedene biologische Proben mißt - und jede davon
mehrfach, ist es empfehlenswert, die technischen
Meßwiederholungen VOR der Analyse zu mitteln und pro
biologischer Probe nur jeweils EINEN Meßwert zu haben.

Du meinst, ich müsste die drei Werte jeweils mitteln um dann eine einzige Messreihe zu bekommen?
Das macht glaub ich bei mir nicht so richtig viel Sinn. Wie gesagt, schlußendlich sind alle Bilder die ich vermesse von verschiedenen Zellen; nur das jeweil 10 davon mit einem einzelnen Schritt behandelt wurden.

Wenn du
technische und biologische Replikate mischst ,

was wäre jetzt ein technisches Replikat?

dann geht der

Test von zu vielen Proben aus und ist tendentiell deutlich zu
wenig konservativ (d.h., dein Konfidenzniveau ist nicht 95%
sondern deutlich kleiner).

Hmm, ich glaube hier komme ich nicht ganz hinterher. Warum ist mein Konfidenzniveau dann kleiner???

Grüße,
July

Hallo,

nein, 10 verschiedene Bilder von einer Zellpopulation, die
quasi durch die gleichen Pipettierschritte behandelt wurden
(also wie wenn ich 3 Petrischalen mit Hefen nehme und alle
Schalen gleich behandle und dann pro Schale an 10
verschiedenen Positionen Bilder von den Hefen aufnehme).

also 3 unterschiedliche Hefe-Proben, von denen jeweils 10 Bilder gemacht wurden. Richtig? Da jeweils 10 Bilder von der gleichen Probe gemacht wurden, sind die Daten, die aufgrund der 10 Bilder erstellt wurden, wohl nicht unabhängig voneinander. Unabhängigkeit der Beobachtungen ist jedoch eine sehr wichtige Voraussetzung für den Welch-Test (und die einfaktorielle ANOVA ohne Meßwiederholung). Eventuell wäre ein Verfahren für Meßwiederholungsdaten angemessener. Um das genauer sagen zu können, müßte ich jedoch Dein Versuchsdesign + Fragestellungen besser kennen.

Hmm, kannst Du mir da mal nen Literaturtipp verlinken? Ich hab
halt nur den paarweisen Vergleich bisher kennengelernt und
weiß jetzt nicht inwiefern ich das gleich auf alle ausdehnen
kann…

Klar: pdf-File:

http://wase.urz.uni-magdeburg.de/dabergma/3.%20Semes…

Angenommen ich habe unbehandelte Zellen und behandelte und bei
den behandelten hat der Versuch in einem Fall nicht geklappt
und die Zellen verhalten sich wie unbehandelte. Dann würde ja
ein zusammenbringen aller Werte meinen Unterschied zu den
Unbehandelten verkleinern. Da ich aber am Ende nur noch diesen
Unterschied anschauen will, sollte ich möglichst vorher
feststellen, ob so ein Fall möglicherweise vorliegt um die
Daten dann entsprechend interpretieren zu können…

Ja, mit der Information wird’s einsichtig.

Es liegt darüber. Ich nehme meine Hypothese (dass die
Mittelwerte sich nicht signifikant unterscheiden) ab 0.95 an.

O.k. Sehr konservativ.

Wieso ist das konservativ? Was wäre denn „modern“?

:wink:
„Konservativ“ heißt hier, daß Du es Dir - korrekterweise - sehr schwer machst, die Nullhypothese beizubehalten.
Hat nichts mit „modern“ vs. „unmodern“ zu tun.

Beste Grüße,

Oliver

Hallo!

nicht unbedingt, denn der Welch-Test ist auch bei mehr als 2
Gruppen anwendbar.

Das kenne ich nicht. Ich kenne die ANOVA als erweiterung des t-Tests. Eine Erweiterung des Wlsch-Tests ist mit jedoch unbekannt. Ich würde mich freuen, wenn Du mir dazu eine Quelle nennen könntest, wo ich was darüber lesen/lernen kann.

Der Welch-Test ist schon sinnvoll, wenn keine
Varianzhomogenität besteht.

Korrekt. Allerdings muss man sich auch immer Fragen, warum (bei sonst NORMAL-Verteilten Daten und zu VERGLEICHENDEN Experimenten und read-outs die Varianzen unterschiedlich sind. Der t-Test ist außerdem recht robust gegenüber leichten Abweichungen von Normalität und Varianzhomogenität.

Meßwiederholungen

Genau. Es wäre wichtig zu wissen, ob July Meßwiederholungen im
statistischen Sinn durchgeführt hat. Daher meine Fragen
danach.

Wie’s aussieht sind es Hefe-Zellen. Damit wäre jede Zelle als biologische Probe zu betrachten. Die Unterschiede zwischen den Zellen per se sind sicher geringer als die durch die Behandlung induzierten Unterschiede.

Beste Grüße

Dito!
Jochen

Hallo Oliver,

danke für den Link; schau ich mir gleich mal an?

also 3 unterschiedliche Hefe-Proben, von denen jeweils 10
Bilder gemacht wurden. Richtig? Da jeweils 10 Bilder von der
gleichen Probe gemacht wurden, sind die Daten, die aufgrund
der 10 Bilder erstellt wurden, wohl nicht unabhängig
voneinander.

Hmm, heißt das, dass meine 10 Werte nicht unabhängig voneinander sind? Aber die 3 Messreihen sind schon voneinander unabhängig?
Was ändert sich dadurch für mich? Kann ich meinen Welch-Test jetzt „wegschmeißen“?

Grüße,
July

Hallo,

Eine Erweiterung des Wlsch-Tests ist mit jedoch
unbekannt. Ich würde mich freuen, wenn Du mir dazu eine Quelle
nennen könntest, wo ich was darüber lesen/lernen kann.

klar:

Maxwell, S. E. & Delaney, H. D. (2004). Designing Experiments and Analyzing Data. Chapter 3: Introduction to model comparison: one-way between subjects designs. Parametric modifications (p. 131-136).

Dieser Welch-Test ist optional anwählbar als Alternative zum F-Test bei der einfaktoriellen Varianzanalyse in SPSS.

Allerdings muss man sich auch immer Fragen, warum
(bei sonst NORMAL-Verteilten Daten und zu VERGLEICHENDEN
Experimenten und read-outs die Varianzen unterschiedlich sind.

Klar.

Der t-Test ist außerdem recht robust gegenüber leichten
Abweichungen von Normalität und Varianzhomogenität.

Wie die ANOVA. Dies gilt v.a. dann, wenn die Zell-n gleich groß sind.

Es wäre wichtig zu wissen, ob July Meßwiederholungen im

statistischen Sinn durchgeführt hat. Daher meine Fragen
danach.

Wie’s aussieht sind es Hefe-Zellen. Damit wäre jede Zelle als
biologische Probe zu betrachten. Die Unterschiede zwischen den
Zellen per se sind sicher geringer als die durch die
Behandlung induzierten Unterschiede.

Ja. Inzwischen wissen wir aber, daß sie Daten anhand von 10 Bildern der gleichen Probe hat. Diese Daten dürften nicht unabhängig voneinander, sondern Meßwiederholungsdaten sein.

Grüße

Hallo Jochen,

Wie’s aussieht sind es Hefe-Zellen. Damit wäre jede Zelle als
biologische Probe zu betrachten. Die Unterschiede zwischen den
Zellen per se sind sicher geringer als die durch die
Behandlung induzierten Unterschiede.

Hefezellen sind es zwar nicht, sondern Krebszellen (aber das dürfte ja nicht so entscheidend sein). Leider kann ich meine Parameter immer nur pro Mikroskop-Bild bekommen und nicht pro Zelle (in einem Bild sind bis zu 60 Zellen).

July

Hallo,

Hmm, heißt das, dass meine 10 Werte nicht unabhängig
voneinander sind?

scheint so zu sein. Ich müßte Dein Versuchsdesign jedoch genauer kennen, um mir sicher zu sein.

Aber die 3 Messreihen sind schon voneinander
unabhängig?

Wenn die von verschiedenen Proben sind, dann ja.

Was ändert sich dadurch für mich? Kann ich meinen Welch-Test
jetzt „wegschmeißen“?

Im Moment erscheint mir Dein Versuchsdesign als 10x3x3-Design mit 1 Meßwiederholungsfaktor (Bilder) und zwei Gruppenfaktoren (Nr 1: Hefeproben, Nr 2: Kondition). Auf Erwartungswertunterschiede zwischen den Hefeproben kannst Du schon mit dem Welch-Test testen (besser aber einen simultanen Test nehmen, also z.B. den Welch-Test für mehrere unabhängige Stichproben, den SPSS standardmäßig anbietet). Und zwischen den Konditionen ist das auch möglich. Ja, Maxwell/Delaney sehen das auch so. Der Meßwiederholungsfaktor spielt bei diesen Auswertungen keine Rolle.

Jetzt dürften alle Infos zusammen sein. Dein Vorgehen erscheint mir richtig (mit der Verbesserungsmöglichkeit, einen simultanen Test zu wählen). Danke für Deine Geduld.

Beste Grüße

Hallo July!

Okay, da muss ich mir erstmal Literatur hernehmen und schauen
was sich dahinter verbirgt :wink: Gehört hab ich davon schon, aber
mehr auch nicht…

Och, das ist nichts anderes als ein t-Test für den Vergleich von MEHR als 2 Mittelwerten. Mein Vorredner sagt, es gäbe einen „Mehrstichproben-Test“ auch als Erweiterung des Welch-Tests. Das ist mir aber nicht bekannt. (t-Test nimmt man bei normalvert. Daten mit homogener Varianz, der Welch-Test ist ein t-Test mit Berücksichtigung unterschiedlicher Varianzen zwischen den Stichproben) Unabhängig davon solltest du prüfen, OB der Welch-Test überhaupt notwendig ist (oder ob du stattdessen den t-Test [bzw. ANOVA] nehmen kannst). Wenn die Varianzen in den Gruppen unterschiedlich sind, stellt sich nämlich die Frage, WARUM dem so ist. Meist ist dann experimentell was nicht ok, es gibt einen „Bias“ (Verzerrung) oder die Daten sind nicht wirklich normalverteilt oder oder.

Zur ANOVA findest du ganz viel in Googel, Wikipedia etc.

Zum Weiterlesen noch ein paar Links:

http://www.faes.de/Basis/Basis-Lexikon/basis-lexikon…
http://www.reiter1.com/Glossar/Glossar.htm
http://onlinestatbook.com/
http://www.statsoft.com/textbook/stathome.html
http://faculty.vassar.edu/lowry/webtext.html
http://davidmlane.com/hyperstat/index.html

Okay, auch hier brauch ich glaub ich Nachhilfe…

Ein Beispiel:

Du möchtest herausfinden, ob EINE PERSON hellseherische Fähigkeiten hat. Dazu machst du einen Test und prüfst das Ergebnis auf dem 95%-Konfidenzniveau. Langfristig wirst du so - wenn es in Wahrheit KEINE Hellseher gibt! - in 5% ein (falsch-)positives Testresultat bekommen („Ja, die Person ist ein Hellseher“).

Das war ein einzelner Test. Jetzt stellst du die Frage anders und willst wissen, ob es ÜBERHAUPT Hellseher gibt. Dazu testest du eine Gruppe von sagen wir 20 Personen genau wie oben. Du erwartest natürlich nicht, dass JEDE Person ein Hellseher ist, aber WENN es Hellseher gibt, sollte - so hoffst Du ja - unter den 20 Leuten doch MINDESTENS einer dabei sein (Dir ist also EGAL, WER es sein wird). Wenn also mind. ein Ergebnis „statistisch signifikant“ ist, würdest du behaupten „Ja, es gibt Hellseher“. Der Typ-I-Fehler DIESER Aussage ist aber viel größer als 5%!!

Wie oben, bekommst du ja langfristig 5% (falsch-)positive Resultate. Bei 20 Tests ist die W’keit MINDESTES eines (falsch-)positive Resultats gemäß der Binomialverteilung 1 - (0.95)^20 = 0.64 als etwa 64% (und nicht, wie gewünscht 5%)!

In der Biologie sind das Fragestellungen, die mit einem Screening beantwortet werden. ZB.: Ist IRGENDEIN Gen/Molekül/… für den Effekt verantwortlich? Wenn du zB. testest, ob irgendeines der 25 an den DNA-Reparatursystemen beteiligten im mating-type switch involviert ist , dann wirst du fast sicher ein oder mehrere Gene identifizieren. Wenn die Aussage sein soll: „Ja, es sind Komponenten des DNA-Reparatursystems am mating-type switch beteiligt“ dann hast du alleine aufgrund des Screenings der Komponenten eine nur sehr geringe Konfidenz (wenn du jede Komponente auf dem 95%-Niveau testest).

Du meinst, ich müsste die drei Werte jeweils mitteln um dann
eine einzige Messreihe zu bekommen?

Naja, das hängt davon ab, WAS für proben das sind. (Primäre) humane Zellkuturen sind unbedingt je Spender als eine biologische Probe zu werten. Bei etablierten Zellkulturen (HeLa etc) kann man sich streiten, bei einzelligen Organismen ist - je nach Versuchsaufbau - meist die einzelne Zelle als biologische Probe zu sehen.

Das macht glaub ich bei mir nicht so richtig viel Sinn. Wie
gesagt, schlußendlich sind alle Bilder die ich vermesse von
verschiedenen Zellen; nur das jeweil 10 davon mit einem
einzelnen Schritt behandelt wurden.

Wie ich dich verstanden habe, handelt es sich um Hefe-Zellen. Somit wäre jede Zelle eine Probe. Du hast natürlich Recht, dass sich die Zellen von „Batch“ („Untersuchungs-Charge“) zu „Batch“ unterscheiden, weil zB. das Medium älter war, die Temperatur im Labor nicht gleich, die einen Zellen morgends, die anderen Mittags untersucht wurden usw. Daher ist es sinnvoll, nachzusehen, OB es zwischen Batches unterschiede gibt. Dann kann man Fehlerursachenforschung betreiben oder Ausreißer eliminieren, um das eigentliche Ergebnis besser herauszuarbeiten. Dennoch gilt auch hier: man macht generell Wiederholungen, damit sich Schwankungen zwischen den Batches „rausmitteln“.

was wäre jetzt ein technisches Replikat?

Bei deinen Hefen ist nicht sinnvoll, zwischen technischen und biologischen Replikaten zu unterscheiden. Doch nimm - zur Verdeutlichung - mal an, du würdest histologische Schnitte untersuchen . ZB. interessiert dich, ob ein bestimmtes Protein in bestimmten Zellen bei Frauen in höherer Konzentration vorliegt als bei Männern. Du hast Präparate von 4 Frauen und 4 Männern. Von jedem Präparat machst du 3 Schnitte und färbst das betreffende Protein. Die drei Schnitte je Person sind als EINE einzige Probe zu behandeln. Die drei Schnitte/Färbungen sind also TECHNISCHE Replikate. Jede Person hingegen ist ein BIOLOGISCHES Replikat (4 in jeder Gruppe). Also auch, wenn du am Ende 4x3 Schnitte von Frauen und nochmal 4x3 Schnitte von Männern ausgewertet hast, so hast du doch nur 4 + 4 Werte, um zB. in einem t-test zu prüben, ob die Färbeintensität zwischen Frauen und Männern unterschiedlich ist.

Hmm, ich glaube hier komme ich nicht ganz hinterher. Warum ist
mein Konfidenzniveau dann kleiner???

S.o.

LG
Jochen

Hallo July,

Hefezellen sind es zwar nicht, sondern Krebszellen (aber das
dürfte ja nicht so entscheidend sein).

Helas? Oder Primärzellen? Entscheident ist hier v.a., ob die Zellen ALLE aus dem SELBEN Tumor stammen. Jeder Tumor (auch des gleichen Typs, sogar auch vom gleichen Spender) sind NICHT gleich. Sie sollten als unterschiedliche „Individuen“ behandelt werden.

Leider kann ich meine
Parameter immer nur pro Mikroskop-Bild bekommen und nicht pro
Zelle (in einem Bild sind bis zu 60 Zellen).

Letzlich werden aber doch die einzelnen Zellen im Bild „vermessen“.

LG
Jochen

Hallo Jochen,

klingt so, als ob Du mit biologischen Versuchen speziell Erfahrung hast?
Danke erst mal für die Links, die schau ich mir mal in Ruhe an :smile:

Wie oben, bekommst du ja langfristig 5% (falsch-)positive
Resultate. Bei 20 Tests ist die W’keit MINDESTES eines
(falsch-)positive Resultats gemäß der Binomialverteilung 1 -
(0.95)^20 = 0.64 als etwa 64% (und nicht, wie gewünscht 5%)!

Ah okay, ich glaub das versteh ich jetzt :smile:

In der Biologie sind das Fragestellungen, die mit einem
Screening beantwortet werden. ZB.: Ist IRGENDEIN
Gen/Molekül/… für den Effekt verantwortlich? Wenn du zB.
testest, ob irgendeines der 25 an den DNA-Reparatursystemen
beteiligten im mating-type switch involviert ist , dann wirst
du fast sicher ein oder mehrere Gene identifizieren. Wenn die
Aussage sein soll: „Ja, es sind Komponenten des
DNA-Reparatursystems am mating-type switch beteiligt“ dann
hast du alleine aufgrund des Screenings der Komponenten eine
nur sehr geringe Konfidenz (wenn du jede Komponente auf dem
95%-Niveau testest).

Hmm, und wenn meine Frage ist: „Hat irgendein Gen einen Effekt (verglichen mit unbehandelten)?“ (oder ist das jetzt das gleiche wie oben - Ist IRGENDEIN Gen/Molekül/… für den Effekt verantwortlich?)
Aber ich verstehe jetzt, dass die Konfidenz

Du meinst, ich müsste die drei Werte jeweils mitteln um dann
eine einzige Messreihe zu bekommen?

Naja, das hängt davon ab, WAS für proben das sind. (Primäre)
humane Zellkuturen sind unbedingt je Spender als eine
biologische Probe zu werten. Bei etablierten Zellkulturen
(HeLa etc) kann man sich streiten, bei einzelligen Organismen
ist - je nach Versuchsaufbau - meist die einzelne Zelle als
biologische Probe zu sehen.

Es sind HeLa-Zellen (also stabile Zelllinien).

Bei deinen Hefen ist nicht sinnvoll, zwischen technischen und
biologischen Replikaten zu unterscheiden. Doch nimm - zur
Verdeutlichung - mal an, du würdest histologische Schnitte
untersuchen . ZB. interessiert dich, ob ein bestimmtes Protein
in bestimmten Zellen bei Frauen in höherer Konzentration
vorliegt als bei Männern. Du hast Präparate von 4 Frauen und 4
Männern. Von jedem Präparat machst du 3 Schnitte und färbst
das betreffende Protein. Die drei Schnitte je Person sind als
EINE einzige Probe zu behandeln. Die drei Schnitte/Färbungen
sind also TECHNISCHE Replikate. Jede Person hingegen ist ein
BIOLOGISCHES Replikat (4 in jeder Gruppe). Also auch, wenn du
am Ende 4x3 Schnitte von Frauen und nochmal 4x3 Schnitte von
Männern ausgewertet hast, so hast du doch nur 4 + 4 Werte, um
zB. in einem t-test zu prüben, ob die Färbeintensität zwischen
Frauen und Männern unterschiedlich ist.

Okay, das ist nun klar. Meine Zellen sollten alle aus dem gleichen Batch stammen und gleiche Passage sein :smile: also rein biologische Replikate. Würde ich Parameter pro Zelle auswerten und jede Zelle in verschiedenen Z-Stacks vermessen, wären das dann technische Replikate, richtig?

Okay, herzlichen Dank erstmal für die viele ausführlichen Erklärungen :smile: Mir wird langsam so einiges klar!

Grüße,
July

Letzlich werden aber doch die einzelnen Zellen im Bild
„vermessen“.

Jein, die Software die ich nutze berechnet Parameter auf Bildbasis. Heißt, wenn Endosomen angefärbt werden, wird deren Intensität über das Bild gemittelt, da es nicht möglich ist, sie einer einzelnen Zelle zuzuordnen und dann nur über die Zelle zu mitteln.
Leider kann ich auch an die Rohdaten (also beispielsweise die Intensität eines Endosomes) nicht ran, sondern muss mit den Statistiken pro Bild leben…

July

Hallo,

Im Moment erscheint mir Dein Versuchsdesign als 10x3x3-Design
mit 1 Meßwiederholungsfaktor (Bilder) und zwei Gruppenfaktoren
(Nr 1: Hefeproben, Nr 2: Kondition). Auf
Erwartungswertunterschiede zwischen den Hefeproben kannst Du
schon mit dem Welch-Test testen (besser aber einen simultanen
Test nehmen, also z.B. den Welch-Test für mehrere unabhängige
Stichproben, den SPSS standardmäßig anbietet). Und zwischen
den Konditionen ist das auch möglich. Ja, Maxwell/Delaney
sehen das auch so. Der Meßwiederholungsfaktor spielt bei
diesen Auswertungen keine Rolle.

leider hab ich kein SPSS zur Verfügung…

Jetzt dürften alle Infos zusammen sein. Dein Vorgehen
erscheint mir richtig (mit der Verbesserungsmöglichkeit, einen
simultanen Test zu wählen). Danke für Deine Geduld.

Ich muss mich bedanken! Eure Erklärungen und Nachfragen haben mir sehr geholfen!

Viele Grüße,
July

Hallo nochmal,

klingt so, als ob Du mit biologischen Versuchen speziell
Erfahrung hast?

Naja, ich bin Biologe…

Hmm, und wenn meine Frage ist: „Hat irgendein Gen einen Effekt
(verglichen mit unbehandelten)?“ (oder ist das jetzt das
gleiche wie oben - Ist IRGENDEIN Gen/Molekül/… für den
Effekt verantwortlich?)

Ja, wenn du eine Serie von N genen screenst und jedes individuell gegen unbehandelt testest, dann hast du es mit einer „Typ-I-Fehlerinflation“ zu tun.

Es sind HeLa-Zellen (also stabile Zelllinien).

Ok. (Allerdings sind Tumorzellen generell niemals wirklich „stabil“…)

Okay, das ist nun klar. Meine Zellen sollten alle aus dem
gleichen Batch stammen und gleiche Passage sein :smile: also rein
biologische Replikate.

Das wäre günstig aber nicht zwingend notwendig, sofern du die Batches und Passagen randomisierst oder systematisch gleich verteilst zwischen „behandelt“ und „unbehandelt“. Wenn du aber dooferweise zB. alle unbehandelten nach der 2. Passage mißt und alle behandelten nach der 5.Passage, dann kann ein Kritiker mit Recht behaupten, dass nicht klar ist, ob der Effekt, den du gemessen haben willst, von der Behandlung oder vom Batch (oder von beidem) kommt. Genauso könnte es sein, dass der Behandlungseffekt durch den Batcheffekt ausgeglichen wird und du ihn nicht siehst, obwohl er eigentlich da ist.

Würde ich Parameter pro Zelle auswerten
und jede Zelle in verschiedenen Z-Stacks vermessen, wären das
dann technische Replikate, richtig?

Korrekt.

Okay, herzlichen Dank erstmal für die viele ausführlichen
Erklärungen :smile: Mir wird langsam so einiges klar!

Mir auch…

LG
Jochen