Regression und Fehler

Hallo Statistik-Experten!

Die lineare oder auch nichtlineare Regression geht ja von dem Ansatz aus, die Summe der Fehlerquadrate oder Residuen zu minimieren. Dabei wird die Differenz zwischen dem Messwert und dem Wert der Zielfunktion an derselben Stelle x betrachtet.
Nun kann ja bei Messungen nicht nur der y-Wert fehlerbehaftet sein sondern auch der x-Wert. Leider habe ich zu diesem Fall nichts finden können. Vielleicht fehlt mir auch nur der passende Suchbegriff.
Meine Überlegungen bisher: Als Residuum könnte pythagoras-mäßig DeltaX²+DeltaY² herhalten. Dann müsste noch die Ableitung der Zielfunktion mit eingehen, denn bei einem sehr steilen Verlauf hat eine Abweichung in x-Richtung eine viel größere Wirkung als bei flachem Verlauf. Schließlich sind die zu erwartenden Messfehler ja voneinander unabhängig, bei unterschiedlichen Größen überhaupt nicht vergleichbar. Das heisst, man müsste noch beispielsweise die Fehlergrenzen für beide Größen mit verwursten. Daran bin ich bisher gescheitert. Im Grenzfall, dass der x-Fehler Null wird, muss sich ja der bekannte Algorithmus ergeben.

Sicher hat sich da schon ein schlauer Mensch Gedanken zu gemacht, dann bitte ich um Quellen dazu. Wenn nicht, können wir das ja hier mal gemeinsam tun …

Gruß,
Arndt

Hallo,

im anderen Extremfall, wenn y ohne Fehler und x zufällig ist, kannst Du eine Regression mit umgekehreter Abhängigkeit rechnen und dann umformulieren. Die Kurve, wo beide Variablen fehlerbehaftet sind, liegt dann zwischen den beiden Kurven.

Woher weißt Du, welche Variable wie stark fehlerbehaftet ist und wozu brauchst Du das ganze?

Grüße
Jürgen

Hallo Jürgen!

Das ist auch kein schlechter Ansatz. Leider kann ich da nicht ihne Weiteres die unterschiedlichen Fehler berücksichtigen. Außerdem bin ich nicht sicher, ob der Algorithmus über die Messpunkte ja unterschiedlich verteilte Abweichungen sinnvoll berücksichtigt.

Es geht konkret um eine Konzentrationsmessung über die Zeit. Da die Probennahme einige Sekunden dauert, ist die Zeit deutlich fehlerbehaftet. Und die Konzentrationsmessung eben auch. Beide Fehler kann ich abschätzen.
Das Problem taucht aber doch fast ständig auf. Eigentlich bei allem, wo keine der Größen durch bloßes Abzählen bestimmt wird.

Gruß,
Arndt

Hallo Arndt,

warum nimmst Du nicht meine kürzlich vorgeschlagene Kurve, ggf. Mittelwert aus beiden Kurven, als Startwert und bestimmst, wenn Du ja die Standardabweichung von beiden Variablen kennst, interativ die beste Kurve nach der Formel Res Quardrat = alpha * Res(X) Quadrat + beta * Res(Y) Quadrat. Res=Residuum. Allzuviele Interationen dürften wirklich nicht notwendig sein, um die Koeffizienten z.B. auf 6 Stellen genau zu bestimmen.

Grüße
Jürgen

Hallo Jürgen!

Die Iteration ist kein Problem, das macht Excel mit links. Auch geeignete Startwerte lassen sich leicht finden, da muss man wohl noch viel weniger Aufwand treiben als von Dir vorgeschlagen.

Das eigentliche Problem ist das Residuum.

Res Quardrat = alpha * Res(X) Quadrat + beta * Res(Y) Quadrat.

Was sind hier alpha und beta? Die Kehrwerte der Standardabweichungen? Das würde von den Einheiten her hinkommen. Die Grenzwerte für alpha->0 ließen sich durch passende Normierung auch hinbiegen. Mir kommt nur eigenartig vor, dass die Ableitung keine Rolle spielt, anschaulich sollte sie das, siehe Ursprungsposting.

Danke für Deine Anregungen!

Gruß,
Arndt

Hallo Arndt,

ja, die Startwerte sind nicht so ausschlaggebend, dann sind es ggf. ein paar Iterationen mehr. Jedoch müssen die Startwerte so gewählt werden, daß das Optimum auch mit Sicherheit erreicht wird.

Was Du als Ableitung bezeichnest, geht so nicht in eine Regression ein. Wenn bei größeren Werte die Streuung größer ist, kann man die Kurve entweder linearisieren, z.B. durch Bildung von Wurzel oder Logarithmus oder man kann auch eine gewichtete Regression berechnen, wo größere Werte bzw. Werte mit größerer Streuung ein kleineres Gewicht erhalten.

Als Wert für alpha bzw. beta nicht den Kahrwert der Standardabweichung, sondern der Varianz nehmen. Oder wie Du sagst, die Werte vorher normieren und beides ist gleich 1.

Grüße

Jürgen

[Bei dieser Antwort wurde das Vollzitat nachträglich automatisiert entfernt]