Hallo Eisblümchen,
ok, dass ist mir nun schonmal klar. Allerdings weiß ich noch
nicht genau, was der dann Regressionskoeffizient z.B. R²=.45
aussagt.
R² wird üblicherweise nicht als Regressionskoeffizient bezeichnet, sondern als Bestimmtheitsmaß. Regressionskoeffizienten sind hingegen Teile (Faktoren) des Regressionsmodells (im einfachsten Falle eine Gerade mit den Koeffizienten „Steigung“ und „Achsenabschnitt“), die anhand der Daten so bestimmt werden, das das Modell die Daten möglichst gut beschreibt. Die „Güte“ der Beschreibung der Daten durch das Modell kann durch R² angegeben werden.
Um genauer zu verstehen, was R² ist, muss man etwas mehr über die Hintergrunde bzw. das Verfahren der Regression wissen. Im Prinzip geht es darum, die Koeffizienten so zu wählen, dass die Abstände von den Modellvorhersagen zu den Datenwerten minimal werden. Diese Abstände bezeichnet man als Residuen. Rechnet man die Residuen als Differenz von Datenwert minus Vorhersagewert, dann gibt es positive und negative Residuen. Die Summe kann beliebig klein (d.h. negativ) werden. Das ist schlecht. Man könnte stattdessen die Beträge der Residuen nehmen. Das ist später mathematisch aber nicht gut handhabbar. Eine andere Art, nur positive Werte zu bekommen, ist, die Residuen zu quadrieren. Die Summe der quadrierten Residuen haben auch schöne math. Eigenschaften; sie wird als SS (für Sum of Squares) bezeichnet, im Deutschen auch als QS (Quadrate-Summe).
Nehmen wir mal die lineare Regression durch eine X|Y - Punktewolke mit n Punkten. Es gilt, die Y-Werte zu beschreiben.
Ohne ein Modell nähme man schlicht den Mittelwert. Das entspricht einer horizontalen Geraden durch die Punktewolke. Hier ist die SS gerade dem (n-1)-fachen der Varianz von Y (die Varianz ist ja definiert als „Summe der quadrierten Differenzen von Daten und Mittelwert, geteilt durch die Anzahl der Werte minus 1“, gelle. Das ist praktisch eine mittlere Quadratesumme, die als MSS oder MQS abgekürzt wird).
Haben wir jetzt ein Modell (hier: Y = b1*X+b0 mit b1:Steigung und b0:Achsenabschnitt), dann kann man zu diesem Modell auch eine SS berechnen. Wenn das Modell besser ist als die schlichte Verwendung des Mittelwertes, dann ist die SS des Modells kleiner als die SS des Mittelwerts. Der Anteil, um den die SS mit Modell kleiner geworden ist, ist quasi ein Teil der Varianz der Y-Werte, die durch das Modell „erklärt“ (rausgerechnet, eliminiert) wird.
Also: Ohne Modell haben wir eine volle Varianz in den Residuen, nennen wir die zugehörige Quadratesumme SStotal. Die Quadratesumme, die übrig bleibt, nachdem die Vorhersagewerte des Modells abgezogen wurden (d.h. die Residuen um die Vorhersagewerte des Modells korrigiert wurden), nennen wir SSungeklärt (ungeklärt, weil es die Abweichungen sind, die durch das Modell eben nicht erklärt werden, also auch nach Anwendung des Modells übrigbleiben). Der Betrag, um den SSungeklärt kleiner ist als SStotal, wird durch das Modell erklärt. Nennen wir ihn SSmodell. Es gilt der einfache Zusammenhang
SStotal = SSmodell + SSungeklärt
Der relative Anteil an SStotal, der vom Modell erklärt wird, das ist das bestimmtheitsmaß:
R² = SSmodell/SStotal
Und was bedeutend folgende Buchstaben (Beispeile mit den
dazughörigen Werten): F (2,27)=5.02, p=.01, partiell R².27?
Aus den SS-Werten können wir Varianzen berechnen. Hier muss man wissen, wuf wievielen Freiheitsgraden die SS beruhen. SStotal ändert sich, wenn jeder beliebige der n Datenwerte geändert wird. Da die Formel für die Varianz aber von einem bereits aus den Daten berechnetn Mittelwert ausgeht, kann man effektiv nur n-1 Werte verändert, denn der n. Wert muss dan so sein, dass sich wieder der gleiche Mittelwert ergibt. Hier haben wir also n-1 Freiheitsgrade. Die gleiche Anzahl müssen wir auch auf der rechten Seite der Gleichung oben haben. Die SS des Modells hängt einzig ab von den Koeffizienten. Das sind 2 in unserem Fall; nennen wir die Anzahl der geschätzten Koeffizienten allgemein k. Das in die Schätzung der Koeffizienten auch der Mittelwert eingeht, bleiben hier k-1 Freiheitsgrade (hier: 1; die Wahl des Achsenabschnitts hängt ab von der Wahl Steigung). Dann verbleiben noch (n-1)-(k-1) = n-k-1 Freiheitsgrade für SSungeklärt. Wir bekommen:
VARmodell = 1/(k-1) * SSmodell
VARungeklärt = 1/(n-k-1) * SSungeklärt
Unter der Nullhypothese erklärt das Modell garnichts (die Steigung ist Null, der Achsenabschnitt ist der Mittelwert von Y). D.h., die Varianz ändert sich nicht, wenn wir das Modell auf die Residuen loslassen. Wenn X und Y normalverteilt sind, dann folgt
VARmodell = VARungeklärt
bzw.
VARmodell/VARungeklärt = 1
Nun ist das natürlich ein Idealfall. Wenn man eine Stichprobe nimmt, dann bekommt man natürlich immer etwas andere Werte für jede Stichprobe. Man kann zeigen, dass der Quotient der Varianzen einer F-Verteilung gehorcht (daher nennt man den Quotienten der Varianzen auch „F-Wert“). Das ist eine Verteilung wie die Normalverteilung oder die t-Verteilung, nur mit einer anderen Form. So kennt die F-Verteilung zB. keine Werte kleiner Null (ein Quotient aus zwei immer positiven Varianzen kann nicht kleiner Null werden). Während die t-Verteilung von nur einem Freiheitsgrad abhängt, hängt die F-Verteilung von zwei Freiheitsgraden ab, einen für den Zähler (k-1, hier: 1) und einen für den Nenner (n-k-1, hier: n-2).
Wenn man nun aus gegebenen Daten einen F-Wert berechnet, kann anhand der F-Verteilung ausrechnen, wie wahrscheinlich man ein F-Wert größer oder gleich dem gegebenen Wert rein Zufällig bekommen würde, wenn kein Zusammenhang zwischen Y unx X besteht und man den vermeintlich in den Daten zu sehenden Zusammenhang nur bekommt, weil man eine „blöde“ Stichprobe gezogen hat.
Deine Angaben
F (2,27)=5.02, p=.01
zeigen das. Der Zählerfreiheitsgrad ist 2, d.h. das Modell schätzt 3 Koeffizienten. Der Nennerfreiheitsgrad ist 27, d.h., die Schätzung beruht auf 30 Datenwerten (27+2+1). Der Wert F aus den Daten beträgt 5.02. Die Wahrscheinlichkeit, einen F-Wert >= 5.02 aus solchen Stichproben zu bekommen, wenn es in Wahrheit keinen Zusammenhang zwischen X und Y gibt, ist 1%. Würdest du also aufgrund des F-Wertes behaupten „Ja, es gibt einen Zusammenhang zwischen Y und X“, dann ist die Wahrscheinlichkeit, damit falsch zu liegen, kleiner als 1%.
Zu
partiell R².27?
Der Wert von R² steigt zwangsläufig kit der Anzahl von Koeffizenten im Modell. Mit einem irrwitzig komplizierten Modell kann man die Residuen immer beliebig klein machen. Beispiel: Wenn ich ein Polynom 9. Grades an 9 Daten-Werte anpasse, dann passt es immer perfekt, d.h., die Residuen werden Null:
SSungeklärt = 0
und mithin
SStotal = SSmodell + 0
R² = SSmodell/SStotal = 1
Wenn ich nun Modelle anhand von R² vergleichen will, muss ich gegen den „positiven“ Einfluß der Anzahl an Koeffizienten im Modell korrigieren. Genau das macht das adjustierte bzw. partielle R², das immer kleiner ist als R².
Und was ist der Unterschied zwischen dem linearen und dem
quadratischen Kontast?
Dein Modell hat ja 3 Koeffizienten. Eine Gerade hätte zwei Koeffizienten, also kann dein Modell schonmal keine Gerade sein. Ein häufiges Modell mit drei Parametern ist die Parabel:
Y = b2*X² + b1*X + b0
Hier sind die drei Koeffizienten b0, b1 und b2 zu bestimmen. Die Koeffizienten haben jetzt aber nicht mehr so klare Bedeutungen wie bei der Geraden (Steigung und Achsenabschnitt), sondern werden als „quadratischer“ und „linearer Koeffizient“ und „Konstante“ bezeichnet, mitunter finden sich auch andere Bezeichnungen dafür.
Vorteil dieses etwas komplizierteren Modells ist, dass man damit zusammenhänge zwischen X und Y modellieren kann, die nicht linear sind (und eben dem Verlauf einer Parabel folgen; also eben quadratische Zusammenhänge). In aller Regel können die Werte von b2, b1 und b0 aber nicht unabhängig voneinander betrachtet werden. Wenn das Modell aber sagt, dass zB. der quadratische Kontrast nicht signifikant ist, kann man überlegen, ob es nicht besser wäre, die Daten durch ein einfacheres Modell (also eine Gerade) zu beschreiben.
VG
Jochen