Z-Standardisierung des Einkommens

a_jaberg · 10. November 2019 um 17:47

Hallo zusammen

Darf man das Einkommen ohne weiteres z-standardisieren?

Die Voraussetzung, dass die Variable normalverteilt ist, ist ja erfüllt (dass sie rechtsschief bzw. linkssteil ist, spielt ja keine Rolle).

Vielen Dank für eure Antworten.

lg

michael_f7f5bc · 10. November 2019 um 17:47

hi,

Darf man das Einkommen ohne weiteres z-standardisieren?

Die Voraussetzung, dass die Variable normalverteilt ist, ist
ja erfüllt (dass sie rechtsschief bzw. linkssteil ist, spielt
ja keine Rolle).

einkommen ist rechtsschief, ja; und also keine normalverteilung. normalverteilungen haben die schiefe 0.

m.

Jo1_a88223 · 10. November 2019 um 17:48

Hallo,

Darf man das Einkommen ohne weiteres z-standardisieren?

Du meinst, von jedem Wert den Mittelwert abziehen und diese Differenz durch die Standardabweichung teilen? Klar. Warum nicht?!

Das Problem ist die *Interpretation*.

Die Voraussetzung, dass die Variable normalverteilt ist, ist
ja erfüllt (dass sie rechtsschief bzw. linkssteil ist, spielt
ja keine Rolle).

Wie michael schon sagte: Eine Normalverteilung ist *nicht* schief! Einkommen ist eine Variable, die gerade *nicht* normalverteilt ist.

LG
Jochen

Vielen Dank für eure Antworten.

lg

aiwendil · 10. November 2019 um 17:48

Hallo,

Darf man das Einkommen ohne weiteres z-standardisieren?

ja, klar.

Die Voraussetzung, dass die Variable normalverteilt ist,

Die z-Standardisierung setzt nicht voraus, daß die Variable eine bestimmte Verteilung hat.

ist ja erfüllt

Das Einkommen ist meistens nicht normalverteilt. Im Gegenteil wird die Variable deshalb oft transformiert, um eine Normalverteilung zu erreichen. Das bekommst Du mit einer z-Standardisierung aber nicht hin.

Beste Grüße

a_jaberg · 10. November 2019 um 17:49

Vielen Dank für eure Antworten.
Wenn ich nun das Einkommen zuerst logarithmiere, dann kann ich es nachher z-standardisieren?

michael_f7f5bc · 10. November 2019 um 17:49

hi,

Wenn ich nun das Einkommen zuerst logarithmiere, dann kann ich
es nachher z-standardisieren?

wenn die einkommensverteilung nach logarithmierung eine normalverteilung ist (was nicht selbstverständlich ist), kannst du durch z-standardisierung eine standardnormalverteilung herstellen (und mit dieser dann rechnen).

wenn du die gegebene einkommensverteilung einer z-transformation unterziehst, bekommst du eine neue schiefe verteilung. kann sein, dass die dann durch logarithmieren eine standardnormalverteilung wird.

m.

JPL · 10. November 2019 um 17:50

Hi,

dfu kannst beliebig viele, beliebig komplexe Transformationen anwenden. Allerdings ist es dann mit der Interpretierbarkeit nicht mehr allzuweit her (was ist denn z.B. log(€) für eine Einheit?) und ggf. ist sie nicht monoton und dann hat es mit deinen Originaldaten nicht mehr viel zu tun.
Wenn du nicht explizit an der Verteilung der Daten interessiert bist solltest du alternative Methoden andenken.
Grüße,
JPL

Jo1_a88223 · 10. November 2019 um 17:51

Huhu,

Allerdings ist es dann mit der Interpretierbarkeit
nicht mehr allzuweit her (was ist denn z.B. log(€) für eine
Einheit?)

Naja, aber man kann doch sehr wohl Vertauensintervalle für die transformierte Variable berechnen und die Grenzen zurücktransformieren.

Beispiel auch: Geometrisches Mittel und arithmetisches Mittel bei log-Normalverteilten Daten: rücktransformiert gibt Letzeres das Erstere.

LG
Jochen

JPL · 10. November 2019 um 17:51

Hi Jochen!

Naja, aber man kann doch sehr wohl Vertauensintervalle für die
transformierte Variable berechnen und die Grenzen
zurücktransformieren.

Klar, aber das ist nicht dasselbe wir auf der Originalskala zu rechnen. Man könnte ja kontrahierende Transformationen verwenden, so dass die Streuung auf der transformierten Skala kleiner ist und schon hätte man sig. ergebnisse nur wegen der TRansformation.

Beispiel auch: Geometrisches Mittel und arithmetisches Mittel bei
log-Normalverteilten Daten: rücktransformiert gibt Letzeres das
Erstere.

Nö. exp(mean(ln(x1,…,xn))) ist der Median der log-Verteilung, der mean ist exp(mü+s/2), wobei mü das Mittel der log-Werte und s die Varianz dazu ist.
Freilich: Für einen 2-Gruppenvergleich unter der Voraussetzung, dass die Streuungen in den Gruppen gleich sind, ist
exp(mü₁+s₁/2) / exp(mü₂+s₂/2)
= exp(mü₁+s₁/2) / exp(mü₂+s₁/2)
= exp(mü₁) / exp(mü₂)
= mean₁ / mean₂ [mit mean_i = Mittelwert log-Verteilten ZV X_i], aber eben nur dann.
Ist das nicht gegeben, vergleicht man nur zwei Mediane, aber mit Streuungsmassen, die nichts mit den Medianen zu tun haben, denn wenn X~logN(m, s²) ist, gilt: Var(X) = (exp(s²)-1)*exp(2m+s²) was. i.a. ungleich exp(s²) ist.
Nicht ohne Grund gibt es bei GLMs keine(!) Transformation für eine LogNormalverteilung.

Grüße,
JPL

Jo1_a88223 · 10. November 2019 um 17:56

Hallo JPL,

herzlichen Dank für Deine wie gewohnt vollkommen korrekten Anmerkungen.

Wir haben seinerzeit diesen „naiven“ Ansatz beigebracht bekommen. Tatsächlich taucht er auch noch in aktueller Literatur auf, aber er hat - wie Du ja angemekrt hast - große Schwächen.

Dank Dir ist mir das Problems bewußt geworden (dafür auch das Sternchen) und ich habe mich schlau gemacht. Offensichtlich ist es nicht trivial, Konfidenzintervalle für Log-Normalverteilte ZV zu berechnen.

Eine gute Übersicht, wie ich finde, steht in J Appl Sci 7:1790-1794 (2007).

Auch der Artikel von Ulf Olsson in J Stat Edu 13 (2005) ist ganz interessant.

Danke nochmal & viele Grüße,

Jochen

JPL · 10. November 2019 um 17:56

Servus Jochen!
Deine empfohlenen paper werde ich mir gleich mal reinziehen, danke dafür!
Die besagten Schwächen werden gerne ignoriert und den den gängigen (für mich sehr relevanten Guidelines) der FDA und EMEA wird das Problem der exakten Schätzung von KIs gar nicht behandelt. Fragt man bei Kollegen nach ob man nicht alternative Methoden verwenden sollte, reagieren diese eher erschrocken … und ziehen sich gerne auf die guideline oder die Varainzhomogenität zurück. Die Alternativen sind aber auch nicht besonders ausgefeilt . Insgesamt ist da ist aber noch viel Potential, vgl z.B. auch

XIAO-HUA ZHOU & SUJUAN GAO: CONFIDENCE INTERVALS FOR THE LOG-NORMALMEAN; STATISTICS IN MEDICINE, VOL. 16, 783-790 (1997)
Haipeng Shen1, Lawrence D. Brown and Hui Zhi: Efficient estimation of log-normal means with application to pharmacokinetic data ; Statist. Med. 2006; 25:3023–3038
Haipeng Shen & Zhengyuan Zhu: Efficient mean estimation in log-normal linear models; Journal of Statistical Planning and Inference 138 (2008) 552 – 567
K. Cimermanová: Estimation of Confidence Intervals for the Log-normal Means and for the Ratio and the Difference of Log-normal Means with Application of Breath Analysis; MEASUREMENT SCIENCE REVIEW, Volume 7, Section 1, No. 4, 2007
Yea-Hung Chen1 and Xiao-Hua Zhou: Interval estimates for the ratio and difference of two lognormal means; STATISTICS IN MEDICINE
Statist. Med. 2006; 25:4099–4113
um das Bild ein wenig abzurunden.

Grüße,
JPL

Jo1_a88223 · 10. November 2019 um 17:57

Exakte KIs
Hallo nochmal

und danke nochmal! Du schüttest mich ja zu mit Arbeit

Eine Anmerkung habe ich aber noch, bzgl. „exakter KIs“.

Diese mögen die mathematisch einzig wahren sein, aber sie spielen in der Forschung keine große Rolle. Wie auch p-Werte sind KIs nur Schätzungen, die nicht besser sind als das zur Verfügung stehende Datenmaterial. Es geht bei der Interpretation doch in der Hauptsache um die Größenordnung. Klar - *richtig* daneben liegen sollten die Schätzungen nicht, und schon gar nicht systematisch, aber ob ein KI nun etwas zu groß ist oder etwas zu klein, ist eher ein mathematisches Problem als ein Problem der sachlichen/fachlichen Interpretation. Dazu reicht eine gut begründete, hinreichend gute Ahnung. Was nun hinreichend gut ist, ist wieder reine Interpretationssache und hängt vom Fachgebiet und der Fragestellung ab.

LG
Jochen

JPL · 10. November 2019 um 17:58

Hi Jochen,

hoffentlich mehr mit Erkenntnis, als mit Arbeit

Hallo nochmal

und danke nochmal! Du schüttest mich ja zu mit Arbeit

Eine Anmerkung habe ich aber noch, bzgl. „exakter KIs“.
Diese mögen die mathematisch einzig wahren sein, aber sie spielen in
der Forschung keine große Rolle. Wie auch p-Werte sind KIs nur
Schätzungen, die nicht besser sind als das zur Verfügung stehende
Datenmaterial. Es geht bei der Interpretation doch in der Hauptsache
um die Größenordnung. Klar - *richtig* daneben liegen sollten die
Schätzungen nicht, und schon gar nicht systematisch, aber ob ein KI
nun etwas zu groß ist oder etwas zu klein, ist eher ein
mathematisches Problem als ein Problem der sachlichen/fachlichen
Interpretation. Dazu reicht eine gut begründete, hinreichend gute
Ahnung. Was nun hinreichend gut ist, ist wieder reine
Interpretationssache und hängt vom Fachgebiet und der Fragestellung
ab.

Das spielt m.N. alles zusammen. Die klinische Relevanz ist immer der andere Schuh, aber wenn das numerische Ergebnis schon „unsicher“ ist - z.B. weil der Schätzer verzerrt ist, dei Coverage des KI nicht der nominellen entspricht oder nur deswegen, weil es extrem breit ist - dann sind die ergebnisse noch weiter verzerrt und hängen noch mehr von der Einschätzung ab, was ja gerade vermieden werden soll. So gut es eben geht, und das ist eben nur der Fall, wenn man ein minimales KI mit Einhaltung des nominellen alpha-Levels verwendet. Ob das nun ein exaktes oder ein asymptotisches ist, ist dann egal. Hauptsache, man versucht das Beste aus den Daten herauszuholen.
Ich bin auch in der Forschung, und da hat es sehr wohl einen großen impact, ob z.B. Äquivalenz gezeigt wird oder nicht, mitunter fliessen da einige Millionen dann in eine andere Richtung. Zum anderen besteht die Notwendigkeit, keine falschen Effekte zu erzeugen, was auch nur dann wieder geht, wenn das 95%KI sehr nahe an 95% ist.
Anders könnte es sein, wenn der Effekt derart groß ist, dass die klin. Relevanz immer gegeben ist - aber was vergibt man sich auch in der Situation, das Beste zu versuchen?
Grüße,
John