Hallo zusammen
Darf man das Einkommen ohne weiteres z-standardisieren?
Die Voraussetzung, dass die Variable normalverteilt ist, ist ja erfüllt (dass sie rechtsschief bzw. linkssteil ist, spielt ja keine Rolle).
Vielen Dank für eure Antworten.
lg
Hallo zusammen
Darf man das Einkommen ohne weiteres z-standardisieren?
Die Voraussetzung, dass die Variable normalverteilt ist, ist ja erfüllt (dass sie rechtsschief bzw. linkssteil ist, spielt ja keine Rolle).
Vielen Dank für eure Antworten.
lg
hi,
Darf man das Einkommen ohne weiteres z-standardisieren?
Die Voraussetzung, dass die Variable normalverteilt ist, ist
ja erfüllt (dass sie rechtsschief bzw. linkssteil ist, spielt
ja keine Rolle).
einkommen ist rechtsschief, ja; und also keine normalverteilung. normalverteilungen haben die schiefe 0.
m.
Hallo,
Darf man das Einkommen ohne weiteres z-standardisieren?
Du meinst, von jedem Wert den Mittelwert abziehen und diese Differenz durch die Standardabweichung teilen? Klar. Warum nicht?!
Das Problem ist die *Interpretation*.
Die Voraussetzung, dass die Variable normalverteilt ist, ist
ja erfüllt (dass sie rechtsschief bzw. linkssteil ist, spielt
ja keine Rolle).
Wie michael schon sagte: Eine Normalverteilung ist *nicht* schief! Einkommen ist eine Variable, die gerade *nicht* normalverteilt ist.
LG
Jochen
Vielen Dank für eure Antworten.
lg
Hallo,
Darf man das Einkommen ohne weiteres z-standardisieren?
ja, klar.
Die Voraussetzung, dass die Variable normalverteilt ist,
Die z-Standardisierung setzt nicht voraus, daß die Variable eine bestimmte Verteilung hat.
ist ja erfüllt
Das Einkommen ist meistens nicht normalverteilt. Im Gegenteil wird die Variable deshalb oft transformiert, um eine Normalverteilung zu erreichen. Das bekommst Du mit einer z-Standardisierung aber nicht hin.
Beste Grüße
Vielen Dank für eure Antworten.
Wenn ich nun das Einkommen zuerst logarithmiere, dann kann ich es nachher z-standardisieren?
hi,
Wenn ich nun das Einkommen zuerst logarithmiere, dann kann ich
es nachher z-standardisieren?
wenn die einkommensverteilung nach logarithmierung eine normalverteilung ist (was nicht selbstverständlich ist), kannst du durch z-standardisierung eine standardnormalverteilung herstellen (und mit dieser dann rechnen).
wenn du die gegebene einkommensverteilung einer z-transformation unterziehst, bekommst du eine neue schiefe verteilung. kann sein, dass die dann durch logarithmieren eine standardnormalverteilung wird.
m.
Hi,
dfu kannst beliebig viele, beliebig komplexe Transformationen anwenden. Allerdings ist es dann mit der Interpretierbarkeit nicht mehr allzuweit her (was ist denn z.B. log(€) für eine Einheit?) und ggf. ist sie nicht monoton und dann hat es mit deinen Originaldaten nicht mehr viel zu tun.
Wenn du nicht explizit an der Verteilung der Daten interessiert bist solltest du alternative Methoden andenken.
Grüße,
JPL
Huhu,
Allerdings ist es dann mit der Interpretierbarkeit
nicht mehr allzuweit her (was ist denn z.B. log(€) für eine
Einheit?)
Naja, aber man kann doch sehr wohl Vertauensintervalle für die transformierte Variable berechnen und die Grenzen zurücktransformieren.
Beispiel auch: Geometrisches Mittel und arithmetisches Mittel bei log-Normalverteilten Daten: rücktransformiert gibt Letzeres das Erstere.
LG
Jochen
Hi Jochen!
Naja, aber man kann doch sehr wohl Vertauensintervalle für die
transformierte Variable berechnen und die Grenzen
zurücktransformieren.
Klar, aber das ist nicht dasselbe wir auf der Originalskala zu rechnen. Man könnte ja kontrahierende Transformationen verwenden, so dass die Streuung auf der transformierten Skala kleiner ist und schon hätte man sig. ergebnisse nur wegen der TRansformation.
Beispiel auch: Geometrisches Mittel und arithmetisches Mittel bei
log-Normalverteilten Daten: rücktransformiert gibt Letzeres das
Erstere.
Nö. exp(mean(ln(x1,…,xn))) ist der Median der log-Verteilung, der mean ist exp(mü+s/2), wobei mü das Mittel der log-Werte und s die Varianz dazu ist.
Freilich: Für einen 2-Gruppenvergleich unter der Voraussetzung, dass die Streuungen in den Gruppen gleich sind, ist
exp(mü1+s1/2) / exp(mü2+s2/2)
= exp(mü1+s1/2) / exp(mü2+s1/2)
= exp(mü1) / exp(mü2)
= mean1 / mean2 [mit meani = Mittelwert log-Verteilten ZV Xi], aber eben nur dann.
Ist das nicht gegeben, vergleicht man nur zwei Mediane, aber mit Streuungsmassen, die nichts mit den Medianen zu tun haben, denn wenn X~logN(m, s²) ist, gilt: Var(X) = (exp(s²)-1)*exp(2m+s²) was. i.a. ungleich exp(s²) ist.
Nicht ohne Grund gibt es bei GLMs keine(!) Transformation für eine LogNormalverteilung.
Grüße,
JPL
Hallo JPL,
herzlichen Dank für Deine wie gewohnt vollkommen korrekten Anmerkungen.
Wir haben seinerzeit diesen „naiven“ Ansatz beigebracht bekommen. Tatsächlich taucht er auch noch in aktueller Literatur auf, aber er hat - wie Du ja angemekrt hast - große Schwächen.
Dank Dir ist mir das Problems bewußt geworden (dafür auch das Sternchen) und ich habe mich schlau gemacht. Offensichtlich ist es nicht trivial, Konfidenzintervalle für Log-Normalverteilte ZV zu berechnen.
Eine gute Übersicht, wie ich finde, steht in J Appl Sci 7:1790-1794 (2007).
Auch der Artikel von Ulf Olsson in J Stat Edu 13 (2005) ist ganz interessant.
Danke nochmal & viele Grüße,
Jochen
Servus Jochen!
Deine empfohlenen paper werde ich mir gleich mal reinziehen, danke dafür!
Die besagten Schwächen werden gerne ignoriert und den den gängigen (für mich sehr relevanten Guidelines) der FDA und EMEA wird das Problem der exakten Schätzung von KIs gar nicht behandelt. Fragt man bei Kollegen nach ob man nicht alternative Methoden verwenden sollte, reagieren diese eher erschrocken … und ziehen sich gerne auf die guideline oder die Varainzhomogenität zurück. Die Alternativen sind aber auch nicht besonders ausgefeilt . Insgesamt ist da ist aber noch viel Potential, vgl z.B. auch
Grüße,
JPL
Exakte KIs
Hallo nochmal
und danke nochmal! Du schüttest mich ja zu mit Arbeit
Eine Anmerkung habe ich aber noch, bzgl. „exakter KIs“.
Diese mögen die mathematisch einzig wahren sein, aber sie spielen in der Forschung keine große Rolle. Wie auch p-Werte sind KIs nur Schätzungen, die nicht besser sind als das zur Verfügung stehende Datenmaterial. Es geht bei der Interpretation doch in der Hauptsache um die Größenordnung. Klar - *richtig* daneben liegen sollten die Schätzungen nicht, und schon gar nicht systematisch, aber ob ein KI nun etwas zu groß ist oder etwas zu klein, ist eher ein mathematisches Problem als ein Problem der sachlichen/fachlichen Interpretation. Dazu reicht eine gut begründete, hinreichend gute Ahnung. Was nun hinreichend gut ist, ist wieder reine Interpretationssache und hängt vom Fachgebiet und der Fragestellung ab.
LG
Jochen
Hi Jochen,
hoffentlich mehr mit Erkenntnis, als mit Arbeit
Hallo nochmal
und danke nochmal! Du schüttest mich ja zu mit Arbeit
Eine Anmerkung habe ich aber noch, bzgl. „exakter KIs“.
Diese mögen die mathematisch einzig wahren sein, aber sie spielen in
der Forschung keine große Rolle. Wie auch p-Werte sind KIs nur
Schätzungen, die nicht besser sind als das zur Verfügung stehende
Datenmaterial. Es geht bei der Interpretation doch in der Hauptsache
um die Größenordnung. Klar - *richtig* daneben liegen sollten die
Schätzungen nicht, und schon gar nicht systematisch, aber ob ein KI
nun etwas zu groß ist oder etwas zu klein, ist eher ein
mathematisches Problem als ein Problem der sachlichen/fachlichen
Interpretation. Dazu reicht eine gut begründete, hinreichend gute
Ahnung. Was nun hinreichend gut ist, ist wieder reine
Interpretationssache und hängt vom Fachgebiet und der Fragestellung
ab.
Das spielt m.N. alles zusammen. Die klinische Relevanz ist immer der andere Schuh, aber wenn das numerische Ergebnis schon „unsicher“ ist - z.B. weil der Schätzer verzerrt ist, dei Coverage des KI nicht der nominellen entspricht oder nur deswegen, weil es extrem breit ist - dann sind die ergebnisse noch weiter verzerrt und hängen noch mehr von der Einschätzung ab, was ja gerade vermieden werden soll. So gut es eben geht, und das ist eben nur der Fall, wenn man ein minimales KI mit Einhaltung des nominellen alpha-Levels verwendet. Ob das nun ein exaktes oder ein asymptotisches ist, ist dann egal. Hauptsache, man versucht das Beste aus den Daten herauszuholen.
Ich bin auch in der Forschung, und da hat es sehr wohl einen großen impact, ob z.B. Äquivalenz gezeigt wird oder nicht, mitunter fliessen da einige Millionen dann in eine andere Richtung. Zum anderen besteht die Notwendigkeit, keine falschen Effekte zu erzeugen, was auch nur dann wieder geht, wenn das 95%KI sehr nahe an 95% ist.
Anders könnte es sein, wenn der Effekt derart groß ist, dass die klin. Relevanz immer gegeben ist - aber was vergibt man sich auch in der Situation, das Beste zu versuchen?
Grüße,
John