ich bin derzeit auf der Suche nach einem geeigneten Signifikanztest. Leider bin ich noch sehr unbewandert auf diesem Gebiet, und bin durch das Experiment, das ich auswerten soll, etwas überfordert.
Probanden haben zwei Geräte getestet, dabei wurden an beiden Geräten gleichzeitig Messwerte einer Variablen aufgezeichnet. Diese Messung wurde insgesamt drei Mal durchgeführt. Die Schwierigkeit ist nun, dass ich nicht immer Wertepaare habe, sondern manchmal muss einer der beiden Werte z.B. aufgrund Bedienungs- oder Gerätefehler verworfen werden. Und ich habe eben nicht für jeden Probanden gleich viele Werte bzw. Wertepaare.
Gibt es da einen geeigneten Test, um zu prüfen, ob der Messunterschied zwischen den beiden Geräten statistisch signifikant ist? Oder bleibt mir für diesen Fall nichts weiter übrig, als deskriptive Statistiken darzustellen?
Ich habe bereits Tests durchgeführt, bei denen ich für jeden Probanden ein Wertepaar habe, bestehend aus dem ersten gültigen Wert für Gerät 1 und dem ersten gültigen Wert für Gerät 2. Dadurch gehen mir aber leider etwas mehr als die Hälfte der erhobenen Daten verloren.
Ist es statistisch gesehen sinnvoll, zusätzlich für jeden Probanden einen Mittelwert für Gerät 1 und einen Mittelwert für Gerät 2 zu bilden um diese dann zu vergleichen? Dann hätte ich zwar nur noch ein Wertepaar je Proband, aber das ändert ja nichts daran, dass ich unterschiedlich viele Daten erhoben habe, oder nicht?
Probanden haben zwei Geräte getestet, dabei wurden an beiden
Geräten gleichzeitig Messwerte einer Variablen aufgezeichnet.
Diese Messung wurde insgesamt drei Mal durchgeführt. Die
Schwierigkeit ist nun, dass ich nicht immer Wertepaare habe,
sondern manchmal muss einer der beiden Werte z.B. aufgrund
Bedienungs- oder Gerätefehler verworfen werden. Und ich habe
eben nicht für jeden Probanden gleich viele Werte bzw.
Wertepaare.
Also was genau fehlt jetzt? Optimalerweise hättest du für jeden Probanden 2(Geräte)*3(Messwerte) Werte. Fehen dir jetzt nur einzelne Messwerte oder alle drei von einem Probanden von einem Gerät?
Gibt es da einen geeigneten Test, um zu prüfen, ob der
Messunterschied zwischen den beiden Geräten statistisch
signifikant ist?
Dazu kommen wir dann später.
Ist es statistisch gesehen sinnvoll, zusätzlich für jeden
Probanden einen Mittelwert für Gerät 1 und einen Mittelwert
für Gerät 2 zu bilden um diese dann zu vergleichen? Dann hätte
ich zwar nur noch ein Wertepaar je Proband, aber das ändert ja
nichts daran, dass ich unterschiedlich viele Daten erhoben
habe, oder nicht?
Es kommt drauf an, was du wirklich testen willst. denn dann sind die 3 Messwerte / Proband / Gerät entweder techn. Replikationen, dir nur die Genauigkeit des Wertes Proband / Gerät verbessern soll; oder willst du eine „Austauschbarkeit“ der Geräte darlegen?
Viele Grüße,
JPL
Also was genau fehlt jetzt? Optimalerweise hättest du für
jeden Probanden 2(Geräte)*3(Messwerte) Werte. Fehen dir jetzt
nur einzelne Messwerte oder alle drei von einem Probanden von
einem Gerät?
Mir fehlen nur einzelne der sechs Messwerte. Ich habe von jedem Probanden für jedes Gerät mindestens einen, maximal drei Messwerte. Bei vielen Probanden komme ich auf sechs brauchbare Werte, bei einem allerdings nur auf drei (einen vom einen Gerät, zwei vom anderen Gerät).
Es kommt drauf an, was du wirklich testen willst. denn dann
sind die 3 Messwerte / Proband / Gerät entweder techn.
Replikationen, dir nur die Genauigkeit des Wertes Proband /
Gerät verbessern soll; oder willst du eine „Austauschbarkeit“
der Geräte darlegen?
Getestet werden soll, ob die beiden Geräte grundsätzlich unterschiedliche Messwerte erzeugen, die sich durch einen konstanten Offset erklären lassen, oder ob sie im Mittel die gleichen Werte ausspucken. Die Mehrfachmessungen werden vorrangig deswegen gemacht, um zum einen Ausreisser leichter identifizieren zu können, zum anderen um möglichst sicherzustellen, dass es für jeden Probanden je Gerät mindestens einen verwertbaren Wert gibt (dieses Kriterium wurde, wie geschrieben, erfüllt) und zu guter Letzt um die statistische Schwankung des angezeigten Messwerts ein Stück weit zu kompensieren. Die Geräte haben je nach Messbereich eine erlaubte Abweichung von 5-10%, sprich es werden Kalibrationsmessungen an unterschiedlichen Referenzen durchgeführt, die dann vom Referenzwert bis zu 5-10% abweichen dürfen.
Getestet werden soll, ob die beiden Geräte grundsätzlich
unterschiedliche Messwerte erzeugen, die sich durch einen
konstanten Offset erklären lassen, oder ob sie im Mittel die
gleichen Werte ausspucken. Die Mehrfachmessungen werden
vorrangig deswegen gemacht, um zum einen Ausreisser leichter
identifizieren zu können, zum anderen um möglichst
sicherzustellen, dass es für jeden Probanden je Gerät
mindestens einen verwertbaren Wert gibt (dieses Kriterium
wurde, wie geschrieben, erfüllt) und zu guter Letzt um die
statistische Schwankung des angezeigten Messwerts ein Stück
weit zu kompensieren. Die Geräte haben je nach Messbereich
eine erlaubte Abweichung von 5-10%, sprich es werden
Kalibrationsmessungen an unterschiedlichen Referenzen
durchgeführt, die dann vom Referenzwert bis zu 5-10% abweichen
dürfen.
Dann kannst du die Werte pro Proband und Gerät aggregieren (mittels MW oder Median) und dann als gepaarte Stichprobe auswerten. Ggf. nichtparametrisch.
Wenn du die Sequenz (Reihenfolge der Geräte pro Proband) randomisiert hast, kann man auch ein cross-over -design heranziehen.
Diese Tests zielen aber auf Lokationsunterscheide ab - eine generellere Aussage kann man über einen Bland&Altmann-Plot machen; dieser beinhaltet dann Mittelwertsunterschiede, Streuungsunterschiede und die Repeatability.
Grüße,
JPL
Dann kannst du die Werte pro Proband und Gerät aggregieren
(mittels MW oder Median) und dann als gepaarte Stichprobe
auswerten. Ggf. nichtparametrisch.
Wenn du die Sequenz (Reihenfolge der Geräte pro Proband)
randomisiert hast, kann man auch ein cross-over -design
heranziehen.
Diese Tests zielen aber auf Lokationsunterscheide ab - eine
generellere Aussage kann man über einen Bland&Altmann-Plot
machen; dieser beinhaltet dann Mittelwertsunterschiede,
Streuungsunterschiede und die Repeatability.
Danke erstmal für die hilfreiche Antwort. Ich war mir bzgl. des „Zusammenschmeissens“ der Messwerte nicht so ganz sicher, denn mir kommt es ein bisschen „gemogelt“ vor, für die Probanden unterschiedliche Anzahlen an Messwerten zusammenzuschmeissen, nur damit ich gepaarte Tests machen darf. Immerhin verändere ich doch durch die Aggregation meiner Daten auch deren Verteilung um den Mittelwert.
Noch zu meiner anderen Frage aus dem Ausgangsbeitrag: Gibt es denn einen Signifikanztest, mit dem ich die Einzelwerte als Datengrundlage verwenden kann?
Danke erstmal für die hilfreiche Antwort. Ich war mir bzgl.
des „Zusammenschmeissens“ der Messwerte nicht so ganz sicher,
denn mir kommt es ein bisschen „gemogelt“ vor, für die
Probanden unterschiedliche Anzahlen an Messwerten
zusammenzuschmeissen, nur damit ich gepaarte Tests machen
darf. Immerhin verändere ich doch durch die Aggregation meiner
Daten auch deren Verteilung um den Mittelwert.
Dein Misstrauen ist verständlich und auch sinnvoll. Trotzdem ist diese Aggegation eine Methode, das Modell zu vereinfachen. Denn ansonsten musst du etwas komplizierteres machen, was dann potenziell falsch durchgeführt wirde oder dessen Annahmen nicht erfüllt sind. Andererseits ist diese Aggregation ein typisches Mittel, um einen gescherteren Wert zu bekommen. Wenn man das auch so beschreibt, ist das okay, wenn man es einfach macht, sieht es nach gemogelt aus.
Noch zu meiner anderen Frage aus dem Ausgangsbeitrag: Gibt es
denn einen Signifikanztest, mit dem ich die Einzelwerte als
Datengrundlage verwenden kann?
Wie gesagt, kannst du entweder eine repeated measurement analysis machen (Voraussetzungen!) oder den Bland&Altmann-Plot. Letzteres ist relativ einfach, aber auch etwas konservativ. Bei der repated measurement analysis vergessen die meisten, sich um die Kovarianz zu kümmern, und nehmen einafch, was kommt. Zusätzliches Problem: eigentlich hast du keinen zeitlichen Verlauf und bist auch gar nicht an einer zeit-Measurement-Interaktion Interesse. Von daher passt die RMA eigentlich auch nicht.
Hoffe, das hilft dir weiter, Grüße,
JPL
Wie gesagt, kannst du entweder eine repeated measurement
analysis machen (Voraussetzungen!) oder den
Bland&Altmann-Plot. Letzteres ist relativ einfach, aber auch
etwas konservativ. Bei der repated measurement analysis
vergessen die meisten, sich um die Kovarianz zu kümmern, und
nehmen einafch, was kommt. Zusätzliches Problem: eigentlich
hast du keinen zeitlichen Verlauf und bist auch gar nicht an
einer zeit-Measurement-Interaktion Interesse. Von daher passt
die RMA eigentlich auch nicht.
Danke nochmal für die hilfreiche(n) Antwort(en). Ich werde für die Auswertung einfach mal beides umsetzen, also sowohl die Aggregation als auch einen Bland-Altman-Plot.
Danke nochmal für die hilfreiche(n) Antwort(en). Ich werde für
die Auswertung einfach mal beides umsetzen, also sowohl die
Aggregation als auch einen Bland-Altman-Plot.
dann nur zwei letzte Sachen:
Die ursprügliche Publuikation von J. Martin Bland, Douglas G. Altman: „STATISTICAL METHODS FOR ASSESSING AGREEMENT
BETWEEN TWO METHODS OF CLINICAL MEASUREMENT“ (Lancet, 1986; i: 307-310) ist durch das paper „Measuring agreement in method comparison studies“ (http://smm.sagepub.com/cgi/content/abstract/8/2/135) verfeinert und ein Fehler in „Agreement between methods of measurement with multiple observations per individual“ (http://eprints.whiterose.ac.uk/3411/) behoben worden. Mit den drei papers solltest du deinen Fall erschagen können.
Weiterhin sind solche Sensitivitätsanalysen eiene gute Sache, aber du musst dir sehr im Klaren sein, dass dies nicht die Lizenz zum „fishing for significance“ ist. D.h. du musst due Analysen klar trennen und eine davon als primär und die andere als supportiv behandeln udn zwar von vornherein! Sonst sieht es doch wieder gemogelt aus.
Viele Grüße,
JPL
Danke für die Links, die werd ich mir beizeiten zu Gemüte führen.
Die klare Strukturierung der Signifikanztests versteht sich von selbst. Signifikanzen lassen sich bei solchen Studien eben sehr schnell durch geschickte Daten- oder Testauswahl erzeugen und genau an der Stelle muss man höllisch aufpassen, dass man sich nicht aufs Glatteis bewegt.
Nun ja, medizinische Studien sind halt keine exakte Wissenschaft, daher muss man das Sinnvollste draus machen, was man kann