Statistik

Liebe/-r Experte/-in,
ich schreibe an meiner Diss im Bereich VWL. Bisher dachte
ich, ich wüsste, wie man eine Regression auswertet.
Leider ist dem nicht so, jetzt hoffe ich, Sie können mir
weiterhelfen. Wenn ich den Regressionsoutput habe, stehen
am Ende viele Werte (R-squares, adjusted R-squared, S.E:
of regression, Log Likelihood, F-statistic, Prob(F-
Statistic), mean dependent variable, S.D. dependent
variable, Akaike info criterion, Schwarz criterion,
Hannan-Quinn criter., Durban-watson stat).
Ich habe viele Modelle, von denen ich das beste wählen
muss. Bislang habe ich immer nur das mit dem höchsten R-
squared adjusted gewählt, soll aber nun mit den anderen,
insb. Schwarz crit. o.ä. argumentieren. Wie finde ich
hiermit das beste Modell? Gibt es eine Regel so wie „der
höchste Wert siegt“ oder eben den niedrigste?

Meine zweite Frage ist, woher weiß ich, ob ich log nehmen
muss oder ob die einfache Variable reicht?

Vielen Dank für die Antwort! :smile:

(Hinweis: ich verwende EViews für meine Ananlysen, falls
das irgend eine Rolle spielt)

Hallo Frau Neumann!

Puh. Gute Regressionsdiagnostik ist eine Kunst. Durchaus eine erlernbare, aber keine, die man mal so kurz in 10 Zeilen und ohne grafische Anschauung vermittelt.

In der Regel bildet man sich eine Reihe von Kontroll-Grafiken und -Statistiken und schaut anhand dieser Statistiken z.B., ob die Residuen (Abstand zwischen Modellpunkt und Datenpunkt) normalverteilt sind, ob es Ausreisser gibt, ob die Residuen vielleicht selbst einer Kurve folgen (Hinweis auf Nichtlinearität ==> Frage nach der Logverteilung) usw.

Allerdings sind auch nicht alle ausgeworfenen Statistiken der Programme immer hilfreich. Die ersten, die sie genannt haben (R2, Log-Likelihood, Akaike, S.E.) testen mehr oder weniger alle das Gleiche, nämlich die Fähigkeit des Modells, sich an die Daten anzupassen, wobei sie unterschiedlich sensibel auf mögliche Artefakte reagieren, bzw. für unterschiedliche Modelle nur gültig sind. (R2 gibt es nicht für diskrete Modelle, Log-Likelihood wird man selten für LR’s verwenden.)

Ich kann Ihnen da eigentlich nur Literatur nennen:
http://www.amazon.de/Multivariate-Analysemethoden-Ei…

ist ein Standardwerk für angewandte Nebenfachstatistiker. Das sollten Sie in jedem Fall gut studiert haben. (Sie brauchen ja nur die ca. 50 Seiten für Regressionen).

Eine sehr kompakte Übersicht ist
http://www.askos.de/misc/regressionsdiag.gif

Dieses ppt habe ich mal aus dem www aufgegabelt:
http://www.askos.de/misc/ols_regr.ppt

Ansonsten einfach mal nach „Regressionsdiagnostik“ bzw. „Regression Diagnostics“ googeln. Da findet sich immer viel Nützliches.

Viele Grüsse!

C. Schatz

HI Andrea,

Bislang habe ich immer nur das mit dem höchsten R-
squared adjusted gewählt,

Das ist ist deswegen nicht das optimale, weil es z.B. die Anzahl der verwendeten Variablen nicht berücksichtigt. Da aber jede (egal wie sinnlose) Variable immer etwas Streuung erklärt, kann man mit entsprechend vielen Variablen immer ein hohes R^2 bekommen. Deswegen gibt es bei den ICs (AIC, BIC, …) immer einen penalty term, der irgendwie die Zahl der Variablen im Modell berücksichtigt.

soll aber nun mit den anderen,
insb. Schwarz crit. o.ä. argumentieren. Wie finde ich
hiermit das beste Modell? Gibt es eine Regel so
wie „der höchste Wert siegt“ oder eben den niedrigste?

Ja, gibt es: Je kleiner, je besser (http://en.wikipedia.org/wiki/Bayesian_information_cr…). Mit einem Likelihood-ratio test kann man dann noch testen, ob sich bei Hinzunahme weiterer Variablen der BIC signifikant verbessert (http://en.wikipedia.org/wiki/Likelihood_ratio_test), ansonsten kann man BICs nur vergleichen, wenn man dieselbe Zahl von Variablen hat.

Meine zweite Frage ist, woher weiß ich, ob ich log
nehmen muss oder ob die einfache Variable reicht?

Prinzipiell sollte nur dann eine Transformation verwendet werden, wenn a) ein GLM verwendet wird oder b) eine lognormalverteilung vorliegt (Achtung: Dann schätzt man aber nicht den mean!). Ansonsten muss man sich enrsthaft fragen, ob es einem wirklich einen Nutzen bringt (van Belle, 2008, section 8.14).

Grüße,
JPL

Hallo :smile:

Zunächst einmal möchte ich mich für die späte Antwort entschuldigen. Hatte es gelesen und dann absolut vergessen zu antworten…
Also beim Schwarz-Kriterium (BIC bzw. SBC) „gewinnt“ wie beim AIC der kleinste Wert.

Zur zweiten Frage: Ich kann mich nicht daran erinnern, dass es Regeln gibt oder ähnliches, wann man logarithmieren sollte und wann nicht.

Ich hoffe ich konnte ein wenig weiterhelfen. Bei weiteren Fragen steh ich gern zur Verfügung!

Viele Erfolg bei der Dissertation :wink:

Viele Grüße
Anja