Ich suche nach einer Möglichkeit um zu testen, ob der Anstieg einer Regressionsgeraden signifikant ist, um schließlich schlussfolgern zu können, ob ein Zusammenhang besteht.
Hallo Falk,
also, hier gibt’s zwei Möglichkeiten. Die erste ist die saubere, du
randomisierst deine Daten. Das heißt, wenn du ein Modell y_i = a *
x_i + b hast, dann permutierst du die (x_i) zufällig, berechnest
wieder die Regression und merkst dir die Steigung. Das machst du,
sagen wir mal, 1000x. Dann schaust du, wie wahrscheinlich es war,
eine mindestens genau so große Steigung wie auf den Originaldaten in
der Randomisierung zu finden. Das liefert dir das Quantil, nach dem
du suchst. Vorteil: Das ist statistisch exakt, keine Modell-Annahme.
Nachteil: Mit Rechnerei verbunden.
Zweite Möglichkeit, eine Art Faustregel: Angenommen, du hast N Punkte
(x_i, y_i) zufällig gezogen. Dann ist der Erwartungswert der Steigung
einer linearen Regression Null. Die Standardabweichung beträgt
Wurzel(N-1)/N, wenn mich nicht alles täuscht. Unter der Annahme, daß
die Verteilung normal ist (was sie nicht ist), kannst du dann einfach
so ausrechnen, wie unwahrscheilich das Auffinden einer solchen
Steigung ist. Vorteil: Schnell. Nachteil: Nur Faustregel, nicht
belastbar.
Ich würde es so machen, daß ich den ersten Test nehme
(Randomisierung), wenn es die Zeit zuläßt (ich weiß ja nicht, wie
viele Daten du hast!). Wenn das zu lange dauert, würde ich den
zweiten Test machen und dann erst einmal schauen, ob sich der erste
überhaupt lohnt oder ob ich sowieso schon nicht signifikant bin.
Viel Spaß beim Rechnen,
Chris
PS: Die Randomisierung kann man beschleunigen, wenn man sich die
Formeln für die Steigung der Regression genauer anguckt. Angenommen,
ich permutiere die (y_i). Dann ändern sich Summe x_i, Summe x_i^2
offenbar nicht. Auch Summe y_i = Summe y_p(i) ändert sich nicht. Nur
der „gemischte“ Term Summe x_i * y_i ändert sich – na, dann mußt du
auch nur den neu berechnen.
Du kannst auch gleich testen, ob die Korrelation zwischen den beiden Variablen signifikant von Null verschieden ist. Prüfgröße ist
t = r * SQRT(n-2) / SQRT(1-r2)
r: Korrelation
SQRT: Quadratwurzel
n: Stichprobenumfang
Für Stichproben des Umfangs n > 3 ist die Prüfgröße t-verteilt mit n-2 Freiheitsgraden.
Grüße,
Oliver Walter