Normalisierung (?!)

Hallo,

ich hab eine Frage im Bereich Statistik. Beispiel:
Ich habe Messwerte (bspw. Blutdruck, Puls, …) von (vielen) Patienten, die kein Medikament bekommen haben und dann habe ich Messwerte von wenigen Patienten, die mit Medikament A, B, C, D, … behandelt wurden.
Dazu kommt, dass ich aus organisatorischen Gründen die Erhebung der Daten auf zwei Tage verteilen musste - heißt, ich hab von beiden Tagen sowohl Werte der Kontrollgruppe, als auch Werte der behandelten Gruppe.

Bisher bin ich so verfahren, dass ich von den Messwerten der Kontrollgruppe je Tag, den Mittelwert berechnet habe.
Dann habe ich die Werte aller Patienten dieses Tages durch diesen Wert geteilt um zu „normalisieren“.

Jetzt hab ich allerdings von Normalisierungsmethoden wie Z-Score bzw. Min-Max-Normalisierung gehört und ich bin etwas verwirrt, ob das was ich mache richtig ist; ob es überhaupt eine Normalisierung ist?

Wäre es sinnvoll stattdessen den Z-Score zu nehmen mit dem Mittelwert und SD-Wert meiner Kontrollgruppe (natürlich wieder nach Messtagen getrennt)?

Ciao,
July

Hi July,
Ob man jetzt Differeenzen oder Quotienten miteinander vergleicht ist eigentlich egal. Du musst aber bedenken, dass bei deiner Methode die Streuung der Kontrollguppe komplett unter den Tisch fällt, tendenziell verminderst du damit deine Power.
Warum musst du denn normieren? Wenn es dir keinen erheblichen(!) Vorteil für deine Verteilung ringt, macht es mehr Sinn, die Gruppen zu belassen wie sie sind und dann eine Analyse zu machen.
„Normieren“ umfasst übrigens ein weites Feld. Selbst sinnloses Abziehen aller Werte von einer bel. Konstanten ist eine Normierung … Normalerweise dient Normierung dazu, eine bestimmte Verteilung zu „erzeugen“.
Grüße,
JPL

Hallo JPL,

danke für Deine Antwort.

Hi July,
Ob man jetzt Differeenzen oder Quotienten miteinander
vergleicht ist eigentlich egal. Du musst aber bedenken, dass
bei deiner Methode die Streuung der Kontrollguppe komplett
unter den Tisch fällt, tendenziell verminderst du damit deine
Power.

Stimmt, das gibt mir auch zu denken. Wobei die Normierung an sich ja keinen Verlust der Streuung mit sich bringt, oder? Schlußendlich transformiere ich ja meine Daten einfach nur in einen einheitlichen Wertebereich.

Warum musst du denn normieren? Wenn es dir keinen
erheblichen(!) Vorteil für deine Verteilung ringt, macht es
mehr Sinn, die Gruppen zu belassen wie sie sind und dann eine
Analyse zu machen.

Also m.E. macht es dadurch Sinn, dass ich (beispielhaft gesprochen) zwei verschiedene Messtage habe. Das kann meine Messwerte beeinflussen. Dadurch, dass ich mich immer auf die Messwerte meiner Referenzgruppe beziehe, werden die Werte der behandelten Gruppe miteinander vergleichbar.

„Normieren“ umfasst übrigens ein weites Feld. Selbst sinnloses
Abziehen aller Werte von einer bel. Konstanten ist eine
Normierung … Normalerweise dient Normierung dazu, eine
bestimmte Verteilung zu „erzeugen“.

Ja, ich hab dann gestern auch noch ein bischen gelesen. Bin zu dem Schluß gekommen, dass der Z-Score (gibt es dafür eine deutsche Bezeichnung?), die bequemste Methode ist (im Vergleich zu Min-Max-Normalisierung, und Quotient des Messwertes mit dem Mittelwert der Kontrollgruppe), da ich schlußendlich alle Messwerte, die unter- oder oberhalb der 2-Sigma-Grenze der Kontrollgruppe liegen als „abweichend von der Kontrolle“ betrachte. Leider hab ich für meine behandelten Patienten nur einen Patienten pro Medikament (dafür gibt es Gründe) und damit keine Information über Streuung. Lediglich die Kontrollgruppe besteht aus hinreichend vielen Patienten.

Viele Grüße,
July

Hi July,

Stimmt, das gibt mir auch zu denken. Wobei die Normierung an
sich ja keinen Verlust der Streuung mit sich bringt, oder?
Schlußendlich transformiere ich ja meine Daten einfach nur in
einen einheitlichen Wertebereich.

Dann hab ich das vielleicht verstanden gehabt. Wenn du Kontrolle und Patienten mit dem mean der Kontrolle normierst und dann vergleichst, dann hast du recht. Wenn du aber nur die Patienetne normierst und diese dann „gegen 0“ testest, hast du aus einem zwei- einen ein-stichprobenfall gemacht, der dann die Streuung der Kontrolle nicht mehr berücksichtigt.

Also m.E. macht es dadurch Sinn, dass ich (beispielhaft
gesprochen) zwei verschiedene Messtage habe. Das kann meine
Messwerte beeinflussen. Dadurch, dass ich mich immer auf die
Messwerte meiner Referenzgruppe beziehe, werden die Werte der
behandelten Gruppe miteinander vergleichbar.

Wenn du die Tage rausmitteln willst, dann musst du auch auf die tagesmittelwerte der Kontrolle normieren, sonst hast du Effekt immer noch drin. Eleganter und besser wäre es, den Tag noch als Kovariable in der Analyse zu berücksichtigen.

Ja, ich hab dann gestern auch noch ein bischen gelesen. Bin zu
dem Schluß gekommen, dass der Z-Score (gibt es dafür eine
deutsche Bezeichnung?), die bequemste Methode ist (im
Vergleich zu Min-Max-Normalisierung, und Quotient des
Messwertes mit dem Mittelwert der Kontrollgruppe),

sorry, aber um Bequemlichkeit geht es nicht :smile: wie du sinnvoll normierst, hängt auch von deiner Analyse ab und der Messskala: Wenn du proportions hast wäre es sinnvoller mit Quotienten zu arbeiten, bei einer metrischen Skala kann man auch gut Differenzen werwenden.

da ich
schlußendlich alle Messwerte, die unter- oder oberhalb der
2-Sigma-Grenze der Kontrollgruppe liegen als „abweichend von
der Kontrolle“ betrachte. Leider hab ich für meine behandelten
Patienten nur einen Patienten pro Medikament (dafür gibt es
Gründe) und damit keine Information über Streuung. Lediglich
die Kontrollgruppe besteht aus hinreichend vielen Patienten.

Da macht dann der Z-score Sinn (keine Ahnung, wie man den auf deutsch benennen kann, z-TRansformation ist jedenfalls falsch), da es sich dann - wenn alle Voraussetzungen erfüllt sind - um einen Vergleich der Kontrollstichprobe an einem Tag mit einem bestimmten Wert handelt (den einen Wert deines Pateienten vom selben Tag).
dann müsstest du aber auch nicht selber transformieren, sondern einfach den Test rechnen und bekommst alles, was du brauchst: schätzer, Konfi, p-Wert.
Bleibt nur noch die Adjustierung für multiples testen … :-]

Grüße,
JPL

Hi JPL,

Dann hab ich das vielleicht verstanden gehabt. Wenn du
Kontrolle und Patienten mit dem mean der Kontrolle normierst
und dann vergleichst, dann hast du recht. Wenn du aber nur die
Patienetne normierst und diese dann „gegen 0“ testest, hast du
aus einem zwei- einen ein-stichprobenfall gemacht, der dann
die Streuung der Kontrolle nicht mehr berücksichtigt.

Ja, die Idee war alle Daten mit dem mean der Kontrolle (jeweils pro Tag) zu normieren (gibt es eigentlich einen Unterschied zwischen den Begriffen „Normierung“ und „Normalisierung“?).

Eleganter und besser wäre es, den Tag
noch als Kovariable in der Analyse zu berücksichtigen.

Hui, kannst du das näher erklären, wie sowas gemacht wird? Kann mir jetzt nicht wirklich vorstellen, wie das praktisch aussehen muss…

sorry, aber um Bequemlichkeit geht es nicht :smile: wie du
sinnvoll normierst, hängt auch von deiner Analyse ab und der
Messskala: Wenn du proportions hast wäre es sinnvoller mit
Quotienten zu arbeiten, bei einer metrischen Skala kann man
auch gut Differenzen werwenden.

was meinst du mit „proportions“? entspricht das der „Verhältnisskala“ bei Wikipedia (http://de.wikipedia.org/wiki/Skalenniveau#Intervalls… ?). Dann hab ich wohl solche Daten :smile:

Bleibt nur noch die Adjustierung für multiples testen … :-]

Hmm, kannst Du mir das näher erklären? (Sorry, steige gerade erst in die Datenanalyse ein und bin bei Methode etc. eher unsicher und noch unwissend…)

Viele Grüße,
July

Hi July,

Ja, die Idee war alle Daten mit dem mean der Kontrolle
(jeweils pro Tag) zu normieren (gibt es eigentlich einen
Unterschied zwischen den Begriffen „Normierung“ und
„Normalisierung“?).

nein, eigentlich nicht.

Eleganter und besser wäre es, den Tag
noch als Kovariable in der Analyse zu berücksichtigen.

Hui, kannst du das näher erklären, wie sowas gemacht wird?
Kann mir jetzt nicht wirklich vorstellen, wie das praktisch
aussehen muss…

Wenn du eine ANOVA verwenden würdest, dann würde man Tag als Kovariable einfügen, oder: Bei einer Varianzanalyse gäbe es dann noch einen zusätzlichen Faktor „Tag“, der mit berücksichtgt würde.

sorry, aber um Bequemlichkeit geht es nicht :smile: wie du
sinnvoll normierst, hängt auch von deiner Analyse ab und der
Messskala: Wenn du proportions hast wäre es sinnvoller mit
Quotienten zu arbeiten, bei einer metrischen Skala kann man
auch gut Differenzen werwenden.

was meinst du mit „proportions“? entspricht das der
„Verhältnisskala“ bei Wikipedia
(http://de.wikipedia.org/wiki/Skalenniveau#Intervalls… ?).
Dann hab ich wohl solche Daten :smile:

Ja. Z.B. entsprechen Prozentwerte (also Anteile oder eben proportions) diesem Skalenniveau.

Bleibt nur noch die Adjustierung für multiples testen … :-]

Hmm, kannst Du mir das näher erklären? (Sorry, steige gerade
erst in die Datenanalyse ein und bin bei Methode etc. eher
unsicher und noch unwissend…)

Ich weiß jetzt grad nicht mehr, wieviele Behandlungsgruppen du hast, aber sagen wir mal, es wären 5. Dann machst du 5 Vergleiche. Ausserdem setzt du deinen Fehler erste Art (Alphafehler) auf 5%, d.h. du lässt 5% Irrtum zu, mit denen du fälschlich die Hypothese der Gleichheit (in deinem Fall: Der Unterscheid des Mittelwertes der Kontrollgruppe zu dem vorgegebenen wert des einen Patienten ist 0) ablehnt und schlußfolgerst, dass der Patient einen signifikant verschiedenen Wert vom Mittel der Kontrollgruppe hat. andersherum heisst das, dass du mit 100*(1-alpha), sprich 95% Sicherheit die Hypothese ablehnst, wenn sie wirklich nicht stimmt. Wenn du das jetzt aber 5 Mal machst, dann ist deine (gesamt) Sicherheit aber (1-0.05)^5 = 0.773781, d.h. du hast einen (gesamt) Irrtumsfehler von etwa 22.6 %! Oder anders gesagt: Du hast eine Chance von 22.6% mindestens einmal fälschlich die Hypothese abzulehnen. Also nix mehr mit 5% Fehler insgesamt. Daher gibt es Verfahren, die dazu diesen das Gesamtfehlerniveau von z.B. 5% bei gegebener Zahl der Tests einzuhalten, d.h. selbst wenn du 5 Mal testest ist dein Gesamtfehler 5%. In der Umkehrung verringert sich natürlich das alpha pro Test. Das hängt aber vom Verfahren ab. Da bei dir die Situation vorliegt, dass du immer wieder eine der beiden(?) Kontrollgruppen gegen einen Wert testest, hast du eine „many-to-one-comparison“, die du nach Dunnett adjustieren kannst.

Viele Grüße,
JPL