ich habe gerade mit Datenaufarbeitung einer Studie zu tun. Bei 24 Probanden wurden im Verlauf von vier aufeinanderfolgenden Tagen täglich Messreihen mit ca. 2000 Messwerten aufgezeichnet. Nach Fehlerausschluss bleiben zwischen Null und zwei Messreihen für jeden Tag übrig. An einem Tag fallen von zwei Probanden alle beiden Messreihen aus, zudem gibt es in fünf Fällen nur eine Messreihe. Die aufgezeichneten Daten folgen keiner Normalverteilung.
Um die Daten zu charakterisieren, möchte ich gerne Median und Quartile darstellen, mir ist nur noch nicht ganz klar, welches der beste Ansatz ist.
Laut Studienplan ist vorgesehen, dass der Proband die kleinste Auswertungseinheit ist.
Mein bisheriger Ansatz war folgender:
Ich bilde über jede Datenreihe den Median (und die Quartile)
Bei zwei Datenreihen für den selben Probanden bilde ich den Mittelwert aus den Medianen, bei einer Datenreihe wird der Median dieser Datenreihe verwendet, bei Null Datenreihen habe ich für diesen Probanden an diesem Tag einfach keinen Wert.
Anschließend bilde ich Tagesmediane aus den Probandenmedianen, um eine eventuell vorhandene Tagesabhängigkeit feststellen zu können.
Zudem bilde ich einen Gesamtmedian über alle Probandenmediane (94, da ich zwei Komplettausschlüsse habe).
Meine Frage ist nun, ob diese Art der Datenaufbereitung überhaupt sinnvoll ist. Der Median von zwei Datenreihenmedianen ist ja nicht das selbe wie der Median über alle Daten aus den zwei Datenreihen. Wäre es besser, alle Datenreihen einzeln zu betrachten, wenn ich Populationsmediane bilden möchte, auch wenn ich dann wieder nicht berücksichtige, dass nicht von allen Probanden gleich viele Datenreihen vorhanden sind?
es kommt darauf an, weswegen die Werte erhoben wurden.
wenn es Mehrfachbestimmungenn sind um die Präzision der Messung u erhöhen, dann its die Mittelwert/Median-bildung sinnvoll.
Mediane sind weniger anfällig gegen extreme Werte als Mittelwerte, nach meinen Dafürhalten ist deswegen Median von Mittelwerten sinnvoller als Mittelwert von Medianen, logisch wäre aber Mittelwert von MWs oder Median von Medianen.
Was wie zusammengasst wird kommt darauf, was du charaktersieren willst und was letzlich analysiert werden soll.
Wenn wirklich der Patient die kleinste auswertungseinheit sein soll, dann würde ich die Mediane verwenden (wegen nicht-normalverteilung) und dann wie folgt zusammenfassen: Messreihe pro Tag, dann Tage pro Patient, dann Patienten.
Warum erst die Tage und dann die Messreihen? Es ist zu erwarten, dass die Messreihen pro Tag weniger stark variieren als die gleichen Messreihen an unterschiedlichen Tagen. Deswegen bildet man so die Variation besser in den Daten ab, als anders herum.
Würde die Annahme nicht stimmen, wäre es natürlich anders Zudem ist dieser Effekt wesentlich ausgeprägter, wenn man MW und keine Mediane verwendet.
spaßeshalber kannst du auch mal einfach den Median über alle Werte bilden und dir den Unterschied ansehen.
Danke für die Antwort, ich werde bei nächster Gelegenheit mal nachhaken (und nachrechnen). Mathematisch möglich ist ja eine ganze Menge, und während der Mittelwert (bei gleicher Anzahl zugrundeliegender Daten) noch recht leicht abzuschätzen ist, wird das bei Medianen anstrengender