Lineare Regression & Vorhersage

Hallo!

Gegeben sei eine Kalibriergerade (y = mx+b), die Parameter m und b sind anhand einer Regressionsanalyse aus einem Datensatz geschätzt. Aufgrund der Varianz im Datensatz habe ich ja einen Vorhersagefehler für einen bestimmten x-Wert.

Wenn nun der x-Wert aber auch einen Fehler hat - muss das in dem Konfidenzintervall für die Vorhersage berücksichtigt werden und wenn ja: wie?

Zur Verständlichung noch ein simples Beispiel:

Eine Kalibriemessung wurde erstellt mit x = 1,2,3,4,5. Die Messwerte sind y = 1.1, 1.8, 3.2, 4.1, 4.9.

Die bestimmte Rergessionsgerade ist hier y = 0.99x + 0.05.

Nun messe ich einen x-Wert einer unbekannten Probe (mehrfach) und bekomme einen mittleren Wert von x = 2 mit einem Standardfehler von z.B. 0.1.

Nehme ich den Mittelwert, bekomme ich y = 2.03 mit einem 95%-Konfidenzintervall von 1.34 - 2.72. Dabei ist der Standardfehler meiner x-Messung aber nicht berücksichtigt worden. Ich denke, wenn nun x weniger genau bestimmt wurde (z.B. mit einem Standardfehler von 0.5), dann sollte doch auch das KI für y größer sein - oder?

Gibt es da eine offizielle Lösung für?

Sollte man dazu vielleicht zunächst das KI für x berechnen und dann das vereinigte y-KI an beiden Grenzen des x-KI nehmen?

Fragen über Fragen…

LG
Jochen

Hallo,

Die bestimmte Rergessionsgerade ist hier y = 0.99x + 0.05.

Nun messe ich einen x-Wert einer unbekannten Probe (mehrfach)
und bekomme einen mittleren Wert von x = 2 mit einem
Standardfehler von z.B. 0.1.

Nehme ich den Mittelwert, bekomme ich y = 2.03 mit einem
95%-Konfidenzintervall von 1.34 - 2.72. Dabei ist der
Standardfehler meiner x-Messung aber nicht berücksichtigt
worden.

Du kannst ja y = mx + b schreiben, d.h. du hasst eine Funktion
y = f(m, x, b).
Damit kannst du ganz normale Fehlerrechnung mit dem Fortpflanzungsgesetz machen (siehe http://de.wikipedia.org/wiki/Fehlerfortpflanzung#Meh… z.B.)

Grüße,
Moritz

Hallo,

Du kannst ja y = mx + b schreiben, d.h. du hasst eine Funktion
y = f(m, x, b).
Damit kannst du ganz normale Fehlerrechnung mit dem
Fortpflanzungsgesetz machen (siehe
http://de.wikipedia.org/wiki/Fehlerfortpflanzung#Meh…
z.B.)

Ach richtig, hätte ich selbst drauf kommen müssen…!

Aber: Macht „man“ das so? Ist das ein akzeptiertes Verfahren, ein standard-Verfahren?

LG
Jochen

Hallo,

warum minderungskorrigierst Du die Korrelation zwischen x und y nicht mit Hilfe der Reliabilität? Dann hast Du gleichzeitig den standardisierten Regressionskoeffizienten für die Regression von y auf die meßfehlerfreien Werte von x.

Grüße,

Oliver Walter

Hallo,

tut mir leid, ich verstehe überhaupt nix.

warum minderungskorrigierst Du die Korrelation

Was ist das und wie mache ich das?

zwischen x und y nicht mit Hilfe der Reliabilität?

Wie berechne ich die Relabilität? - Ich könnte es nachschauen, aber ich müsste sehr, sehr lange suchen! Vielleicht hast du einen Tipp für mich.

Dann hast Du gleichzeitig
den standardisierten Regressionskoeffizienten für die
Regression von y auf die meßfehlerfreien Werte von x.

Was bringt mir das? - Mein gemessener x-Wert hat doch nun mal einen Fehler. Alles, was ich will, ist doch, zu wissen, wie groß der Fehler für den damit vorhergesagten y-Wert ist. - - ich versteh’s nicht…

Den Tipp mit der Fehlerfortpflanzung finde ich logisch und einfach umsetzbar. Wäre das denn verkehrt?

LG
Jochen

Hallo,

Aber: Macht „man“ das so? Ist das ein akzeptiertes Verfahren,
ein standard-Verfahren?

Ich habe, erlich gesagt, keine Ahnung. Aber das ist auch die falsche Frage. Die richtige Frage wäre, ob es gute Gründe gibt, es so zu machen, und das ist definitiv der Fall. Und das einzige, was dagegen spricht, ist der Rechenaufwand. Wenn du den nicht scheust (oder es einen Computer machen lässt) gibt es keine Gründe, es nicht so zu machen.

Grüße,
Moritz

Hallo, Jochen,

m berechnet sich zu

Korrelation von x und y * SD(Y)/SD(X)

SD: Standardabweichung.

Standardisiert man beide Variablen berechnet sich m zu

Korrelation von X und Y.

Nun führen Meßfehler in X dazu, daß die Korrelation von X und Y unterschätzt wird (die Korrelation ist negativ verzerrt, das Problem sind also nicht oder nicht nur erhöhte Vorhersagefehler). Ein Maß für die Meßgenauigkeit ist die Reliabilität. Mit ihrer Hilfe kann die Korrelation um den Effekt korrigiert werden, durch den der Meßfehler sie herabdrückt.

Korrelation zwischen X und Y / Wurzel(Reliabilität(X)*Reliabilität(Y))

Da die Korrelation gleich dem standardisierten Regressionskoeffizienten ist, kann man statt einer Regressionsgerade mit verzerrtem Regressionskoeffizienten, für deren Vorhersagen Du nur größere Konfidenzintervalle zu basteln versuchtest, halt eine Regressionsgerade mit einem korrigierten Regressionskoeffizienten und korrigierten Vorhersagen rechnen.

Falls Du das unstandardisierte Gewicht korrigieren willst, mußt Du noch den Meßfehler aus SD(Y) und SD(X) rausholen.

Beste Grüße,

Oliver Walter

Hallo Jochen,
ich verwende eine andere Nomenklatur: y= a + b * x !

Zunächst mal ist bei der Fehlerrechnung für einen interpolierten oder extrapolierten Punkt zu beachten, dass Steigung und Achsenabschnitt korreliert sind. Der Effekt davon ist folgender: Ohne Berücksichtigung der Kovarianz Cov(a,b) käme heraus, dass der genaueste Punkt bei x=0 liegt, was offensichtlich nicht sein kann, wenn die Messwerte für x, die zur Bestimmung der Geraden verwendet wurden, weit weg von x=0 liegen.

Die „normale Fehlerfortpflanzung“ (siehe Vorschlag von Moritz bzw. den dort erwähnten Wikipedia-Artikel). tut’s hier nicht. Man muss satt der Varianzen der „Messwerte“ (für die Extrapolation sind das dann also a und b) die Kovarianzmatrix einsetzen, an die man dann von vorne (transponiert!) und von hinten den Vektor der part. Ableitungen dranmultipliziert. Mit der richtigen Rechnung kommt dann auch heraus, dass ein interpolierter Punkt am Schwerkunkt der x-Werte der genaueste ist!

Eine gute Darstellung der Ausgleichsgeradenberechnung findest Du bei den „Numerical Recipies“ im Kapitel 15.2 : http://www.nrbook.com/a/bookfpdf.html

Formel 15.2.6 ergibt a und b, Formel 15.2.10 die Kovarianz (a,b).

Wenn du nun noch eine x-Fehler berücksichtigen willst, dann musst du die Kov-Matrix um eine 3. Zeile/Spalte erweitern, in der auf der Diagonale sigma_x^2 steht. Annahme dabei: dein x-Fehler ist nicht mit den Parametern a und b korreliert!

Fehlerfortplanzung ergibt dann (ich verwende die Nomenklatur von den Num.Rec., Formel 15.2.4):
sigma_y^2 = 1/S_1 + S_1/Delta * (x-S_x/S_1)^2 + sigma_x^2 * b*2

Der letzte Term ist das, was durch die x-Unsicherheit dazukommt, der Rest ist die Fehlerfortpflanzung von a und b.

Gruß Kurt

Erratum
… es muss natürlich heißen :

sigma_y^2 = 1/S_1 + S_1/Delta * (x-S_x/S_1)^2 + sigma_x^2 * b^2

also b-Quadrat nicht „b mal zwei“.

Gruß Kurt