Bootstrapping als Modellgeltungstest

Hallo,

ich habe ein Verständnisproblem zum Verfahren des Bootstrappings, was als Test zur Modellgeltung probabilistischer Testtheorien angewandt wird. Meine Informationen beruhen hauptsächlich auf dem Buch „Testtheorie - Testkonstruktion“ von Jürgen Rost (2. Auflage), Seite 336ff.

Was ich nicht verstehe: Aus den gegebenen Daten wird zunächst ein Modell geschätzt (d.h. seine Parameter geschätzt). Aus diesem Modell werden nun erwartete Daten errechnet und per Vergleich mit den tatsächlichen Daten ein Chi²-Wert gebildet.

Außerdem werden aus dem Modell computergestützt neue Daten errechnet. Wenn ich das richtig verstanden habe, werden aus diesen neuen simulierten Daten auch wieder Parameter (und somit ein neues Modell) geschätzt. Aus diesem simulierten Modell wiederum werden erwartete Daten gebildet. Die erste Frage: Werden für die Berechnung der „Simulations-Chi²-Werte“ die erwarteten Daten des neuen Modells mit den simulierten Daten oder mit den ursprünglichen, „echt gemessenen Daten“ verglichen?

Und eine zweite Frage: Im Buch steht sinngemäß: „Sind mehr als 95% der simulierten Prüfstatistiken kleiner als der CHI-Wert des echten Datensatzes, so ist die Prüfstatistik signifikant, d.h. das geschätzte Testmodell gilt.“ Mir ist unklar, warum man das daraus schließen kann.

Das Ganze ist etwas kompliziert, ich würde mich aber sehr freuen, wenn sich jemand die Zeit nimmt und mir dabei helfen könnte.

Vielen Dank schon mal,
Tobias

Hi Tobias,

zuerst ein wenig Theorie:
bootstrapping wurde von Bradley Efron „erfunden“, um das Jackknife von Tukey besser zu verstehen. Mittlerweile hat es dasselbige abgelöst da es ein paar Vorteile hat und es haben sich diverse Sonderformen entwickelt (BCA, percentile, bootstrap-t, basic, …).

Eine gute Einführung ist von Efron erschienen (http://www.amazon.de/Introduction-Bootstrap-Monograp…) und eine gute Anwendung findet sich bei Davison (http://www.amazon.de/Bootstrap-Application-Statistic…)

Die grundlegende Idee ist immer dieselbe: da man keine annahmen über die Verteilung machen kann oder will, scheiden GLM und Co aus. Statt dessen nimmt man die Daten selber her und approximiert aus ihnen selbst die Verteilung. Da zieht man aus den Daten immer wieder eine Stichprobe derselben Größe, aber mit zurücklegen. D.h. dass Werte mehrfach auftreten können. Diese so genannten Bootstrap-samples (i.a. mit einem * gekennzeichnet) kann man dann für alles Mögliche heranziehen: Varianzschätzung, Berechnung von Konfidenzintervallen, von test-statistiken und p-Werten.

Zu deinen Fragen:

  1. „Was ich nicht verstehe: Aus den gegebenen Daten wird zunächst
    ein Modell geschätzt (d.h. seine Parameter geschätzt). Aus diesem
    Modell werden nun erwartete Daten errechnet und per Vergleich mit
    den tatsächlichen Daten ein Chi²-Wert gebildet.“

Das ist erstmal nichts anderes, als ein Modell auf Basis der Daten zu schätzen und dessen Güte dann anhand der tats. Werte zu bestimmen. Das ist dann ein chi²-Anpassungstest von dem aber nur(!) die Teststatistik berechnet wird. Nennen wir di mal chi_obs.

  1. Außerdem werden aus dem Modell computergestützt neue Daten
    errechnet. Wenn ich das richtig verstanden habe, werden aus diesen
    neuen simulierten Daten auch wieder Parameter (und somit ein neues
    Modell) geschätzt. Aus diesem simulierten Modell wiederum werden
    erwartete Daten gebildet. Die erste Frage: Werden für die Berechnung
    der „Simulations-Chi²-Werte“ die erwarteten Daten des neuen Modells
    mit den simulierten Daten oder mit den ursprünglichen, „echt
    gemessenen Daten“ verglichen?

Jetzt werden aus den originalen Daten bootstrap-samples gezogen (z.B. 1000 Stück, wie oben beschrieben) und für jedes dieser samples wird wieder wie bei 1) die Teststatistik berechnet, nennen wir diese 1000 Werte mal chi_b_1 ,…, chi_b_1000.
Also um deine Frage zu beantworten: mit den simulierten Daten.

  1. Und eine zweite Frage: Im Buch steht sinngemäß: „Sind mehr als
    95% der simulierten Prüfstatistiken kleiner als der CHI-Wert des
    echten Datensatzes, so ist die Prüfstatistik signifikant, d.h. das
    geschätzte Testmodell gilt.“ Mir ist unklar, warum man das daraus
    schließen kann.

Der Clou ist, dass der Chi²-Test von Freiheitsgraden abhängig ist, die anscheinend nicht bekannt sind. Um das zu umgehen, und trotzdem einen p-Wert zu bekommen, wird ge-bootstrappt, um die Verteilung der Chi²-Werte unabhängig von den Freiheitsgraden zu bestimmen. Jetzt kann man einfach auszählen und den Anteil der chi_b bestimmen, die kleiner als chi_obs sind (P (x chi_obs) gibt dann an, wie wahrscheinlich es ist, einen noch extremeren Wert als chi_obs zu bekommen. Ist P(x > chi_obs)