Hi Tobias,
zuerst ein wenig Theorie:
bootstrapping wurde von Bradley Efron „erfunden“, um das Jackknife von Tukey besser zu verstehen. Mittlerweile hat es dasselbige abgelöst da es ein paar Vorteile hat und es haben sich diverse Sonderformen entwickelt (BCA, percentile, bootstrap-t, basic, …).
Eine gute Einführung ist von Efron erschienen (http://www.amazon.de/Introduction-Bootstrap-Monograp…) und eine gute Anwendung findet sich bei Davison (http://www.amazon.de/Bootstrap-Application-Statistic…)
Die grundlegende Idee ist immer dieselbe: da man keine annahmen über die Verteilung machen kann oder will, scheiden GLM und Co aus. Statt dessen nimmt man die Daten selber her und approximiert aus ihnen selbst die Verteilung. Da zieht man aus den Daten immer wieder eine Stichprobe derselben Größe, aber mit zurücklegen. D.h. dass Werte mehrfach auftreten können. Diese so genannten Bootstrap-samples (i.a. mit einem * gekennzeichnet) kann man dann für alles Mögliche heranziehen: Varianzschätzung, Berechnung von Konfidenzintervallen, von test-statistiken und p-Werten.
Zu deinen Fragen:
- „Was ich nicht verstehe: Aus den gegebenen Daten wird zunächst
ein Modell geschätzt (d.h. seine Parameter geschätzt). Aus diesem
Modell werden nun erwartete Daten errechnet und per Vergleich mit
den tatsächlichen Daten ein Chi²-Wert gebildet.“
Das ist erstmal nichts anderes, als ein Modell auf Basis der Daten zu schätzen und dessen Güte dann anhand der tats. Werte zu bestimmen. Das ist dann ein chi²-Anpassungstest von dem aber nur(!) die Teststatistik berechnet wird. Nennen wir di mal chi_obs.
- Außerdem werden aus dem Modell computergestützt neue Daten
errechnet. Wenn ich das richtig verstanden habe, werden aus diesen
neuen simulierten Daten auch wieder Parameter (und somit ein neues
Modell) geschätzt. Aus diesem simulierten Modell wiederum werden
erwartete Daten gebildet. Die erste Frage: Werden für die Berechnung
der „Simulations-Chi²-Werte“ die erwarteten Daten des neuen Modells
mit den simulierten Daten oder mit den ursprünglichen, „echt
gemessenen Daten“ verglichen?
Jetzt werden aus den originalen Daten bootstrap-samples gezogen (z.B. 1000 Stück, wie oben beschrieben) und für jedes dieser samples wird wieder wie bei 1) die Teststatistik berechnet, nennen wir diese 1000 Werte mal chi_b_1 ,…, chi_b_1000.
Also um deine Frage zu beantworten: mit den simulierten Daten.
- Und eine zweite Frage: Im Buch steht sinngemäß: „Sind mehr als
95% der simulierten Prüfstatistiken kleiner als der CHI-Wert des
echten Datensatzes, so ist die Prüfstatistik signifikant, d.h. das
geschätzte Testmodell gilt.“ Mir ist unklar, warum man das daraus
schließen kann.
Der Clou ist, dass der Chi²-Test von Freiheitsgraden abhängig ist, die anscheinend nicht bekannt sind. Um das zu umgehen, und trotzdem einen p-Wert zu bekommen, wird ge-bootstrappt, um die Verteilung der Chi²-Werte unabhängig von den Freiheitsgraden zu bestimmen. Jetzt kann man einfach auszählen und den Anteil der chi_b bestimmen, die kleiner als chi_obs sind (P (x chi_obs) gibt dann an, wie wahrscheinlich es ist, einen noch extremeren Wert als chi_obs zu bekommen. Ist P(x > chi_obs)