Konfidenz Intervall für p mit Hilfe des MLE

Lars_f4d96c · 11. Februar 2010 um 15:29

Hey.

Ein Binomiales Modell für die Anzahl an Defekten D ist gegeben: P ( D_i=j ) = ⁶C_j * p^j * (1-p)^6-j, j=0,…,6
Es gibt D₁,…,D_n Beobachtungen.

Den MLE habe ich gefunden als p̂ = 1/6 * [Durchschnitt der beobachteten Defekte = 1/n * sum(j_i)]

Jetzt soll ich ein asymptotisches 95%-Konfidenzintervall für p mit Hilfe des MLE finden.

Was muss ich machen? Ich weiß nicht mal, wie ich anfangen soll …

Ganz. ganz lieben Dank,

Lars

JPL · 12. Februar 2010 um 09:11

Hi Lars,

Den MLE habe ich gefunden als p̂ = 1/6 * [Durchschnitt der
beobachteten Defekte = 1/n * sum(j_i)]

Auch wenn deine Schribweise etwas kryptisch ist, sollte das stimmen.

Jetzt soll ich ein asymptotisches 95%-Konfidenzintervall für p
mit Hilfe des MLE finden.

Was man für ein CI braucht:

einen Punktschätzer, p
ein Konfidenzinevau, alpha
ein Quantil, q
eine Streuung, s
und dann ist [p-q(alpha)*s, p+q(alpha)*s] ein 1-2*alpha CI.

p hast du oben schon ebrechnet, alpha ist 0.95.
3) kann man sich wegen „approximativ“ basierend auf der Normalverteilung vorstellen, also q=z(0.025) uns s=sqrt(p(1-p)/n).

Ich weiß nicht, wie tief du in das ganze einsteigen musst / sollst / willst, aber jetzt könnte man noch zeigen, dass dies tatsächlich ein approximatives CI ist. Es gibt noch andere Approximationen, siehe http://projecteuclid.org/DPubS/Repository/1.0/Dissem…

HTH,
JPL

Was muss ich machen? Ich weiß nicht mal, wie ich anfangen soll
…

Ganz. ganz lieben Dank,

Lars

Lars_f4d96c · 12. Februar 2010 um 14:49

Erstmal ganz lieben Dank!

kann man sich wegen „approximativ“ basierend auf der
Normalverteilung vorstellen, also q=z(0.025) uns
s=sqrt(p(1-p)/n).

Welches p wuerde ich nehmen? Das, das ich oben berechnet habe (mit eingesetzten Datenpunkten)? Verstehe den Ansatz nicht ganz.

Sollte man nicht schauen, was fuer eine Verteilung das oben errechnete p hat?

Nochmals ganz lieben Dank,

Lars

JPL · 12. Februar 2010 um 16:19

Hi Lars,

Erstmal ganz lieben Dank!

kann man sich wegen „approximativ“ basierend auf der
Normalverteilung vorstellen, also q=z(0.025) uns
s=sqrt(p(1-p)/n).

Welches p wuerde ich nehmen? Das, das ich oben berechnet habe
(mit eingesetzten Datenpunkten)?

Ja genau.

Sollte man nicht schauen, was fuer eine Verteilung das oben
errechnete p hat?

Klar wäre das besser - aber auch komplizierter. Die approximative Verteilung des MLE-Schätzers für p ist eine Normalverteilung (siehe http://de.wikipedia.org/wiki/Maximum-Likelihood-Methode, absatz „Existenz…“), dann müsstest du aber noch die Fisher-Information ausrechnen auch interessant: http://schmettow.info/downloads/MLE.pdf, http://cnx.org/content/m13527/latest/, http://www.econ.iastate.edu/classes/econ671/hallam/d… (harter Stoff) und http://www.stat.umn.edu/geyer/old03/5102/notes/fish.pdf. m letzten ist Example 1.1 alles,w as du brauchst und du wirst festellen, dass die Normalapprox - wie vorher angegeben - genau dem Resultat anhand der Fisher-Info entspricht

Grüße,
JPL

Lars_f4d96c · 14. Februar 2010 um 00:44

Nachdem ich das jetzt gelesen habe …

Mein MLE p̂ hat also eine N(p,p(p-1)/n) Verteilung, wobei das n das gleiche ist, wie in B(p,n), was die Verteilung ist, die allen meinen Beobachtungen zu Grunde liegt. (Leider nicht das n, was in meinem Bsp als n benutzt wird).

Also hat sqrt(n) * (p̂-p) / sqrt( p(p-1) ) eine N(0,1) Verteilung.

Das ist eine Funktion g§, da ich für p̂ durch meine Daten einen Wert habe.

Jetzt finde ich P( -c c = 1.96

=> g^-1(-1.96) -1(1.96)

Das ist das gesuchte CI, auch wenn g^-1(±c) wohl nicht ganz schön sein wird.

Stimmt das so, oder bin ich total auf dem falschen Weg?

Nochmals ganz herzlichen Dank!

Lars

JPL · 14. Februar 2010 um 12:29

Hi Lars,

Mein MLE p̂ hat also eine N(p,p(p-1)/n) Verteilung, wobei das
n das gleiche ist, wie in B(p,n), was die Verteilung ist, die
allen meinen Beobachtungen zu Grunde liegt. (Leider nicht das
n, was in meinem Bsp als n benutzt wird).

Richtig, dein n müsste 6 sein. Ein kleien Fehler hast du schon: p(p-1) ist nicht p(1-p)! Bei deiner formulierng kommt (fast) immer etwas negatives heraus, da für alle p c = 1.96

=> g^-1(-1.96) -1(1.96)

Das ist das gesuchte CI, auch wenn g^-1(±c) wohl
nicht ganz schön sein wird.

Hier machst du dir das Leben unnötig schwer. Denn die Umkehrfunktion zu g zu bestimmen dürfte nicht unbedingt easy sein. Wenn du dein c bestimmt hast, kannst du das CI als
p± c*sqrt(p(1-p)/n)
bilden, gemäß der Verteilungsannahme über p.
Das wars dann schon.
Es kann passieren, dass dass das CI nicht in [0,1] enthalten ist, was dann tatsächlich unschön ist. Deswegen gibt es noch andere Wege das CI zu bestimmen, die dann z.b. die Streuung oder das quantil anders approximativ oder exakt bestimmen. Das eine paper gibt da eine umfangreiche Übersicht. Für deine Aufgabe müsste es aber so reichen.
Grüße,
JPL

Lars_f4d96c · 14. Februar 2010 um 13:09

Ups, ja, habe ich irgendwie vertauscht

Ganz, ganz lieben Dank für die ausführliche Hilfe!

Lars

Lars_f4d96c · 15. Februar 2010 um 19:55

Hier machst du dir das Leben unnötig schwer. Denn die
Umkehrfunktion zu g zu bestimmen dürfte nicht unbedingt easy
sein. Wenn du dein c bestimmt hast, kannst du das CI als
p± c*sqrt(p(1-p)/n)
bilden, gemäß der Verteilungsannahme über p.

Da nehme ich als p ueberall meinen MLE? Ist bei mir 3/46, wo dann der - Fall negativ ist. Mit g^-1 bekomme ich etwas anderes raus, allerdings ist der eine Wert ziemlich nahe an 3/46 waehrend der zweite etwa 0.5 ist. Kann das denn sein?? Wo koennte das Problem liegen?

Danke!!

Lars

JPL · 15. Februar 2010 um 20:24

Hi Lars,

poste bitte mal deine Ergebnisse (deine beiden CIs), dann wird es anschaulicher und besser diskutierbar.
Grüße,
JPL

Lars_f4d96c · 15. Februar 2010 um 21:09

Also,

mein MLE ist 3/46=0,065 und c=1,96 da alpha=5% (beidseitig)

Dann bekomme ich für p± c*sqrt( p(1-p)/n ) ein CI von -0,13 bis 0,26.

Wenn ich sqrt(6) * (MLE-p) / sqrt( p(p-1) ) = ±c nach p auflöse, bekomme ich 0,0056 und 0,46.

Hilft Dir das, um mir zu helfen?

Ganz, ganz lieben Dank!!

Lars

JPL · 16. Februar 2010 um 09:33

Hi Lars,

mein MLE ist 3/46=0,065 und c=1,96 da alpha=5% (beidseitig)
Dann bekomme ich für p± c*sqrt( p(1-p)/n ) ein CI von -0,13
bis 0,26.

Passt. Das ist das klassische Interval mit all seinen Schwächen

Wenn ich sqrt(6) * (MLE-p) / sqrt( p(p-1) ) = ±c nach p
auflöse, bekomme ich 0,0056 und 0,46.

wie löst du das denn nach p auf? Wenn du es nach MLE auflöst bekommst du das klassische Intervall. Deins müsste eine zu kleine coverage haben.

Grüße,
JPL

Lars_f4d96c · 16. Februar 2010 um 10:13

Ich glaube, ich weiß, wo der Fehler lag. Ich habe 6 und 23 falsch benutzt für n. In sqrt(n)*(MLE-p)->N(0,*) sollte es doch sicher die 23 sein und nicht die 6? Auch sollte * = p(1-p)/6 sein, da die Fischer Information bei einer Bin(6,p) gleich 6/p(1-p) ist. Dann bekomme ich einen zusätzlichen Faktor von sqrt(23). Also wäre MLE->N(p,p(1-p)/(6*23), und das CI wird p± c*sqrt(p(1-p)/(6*23)). Dann bekomme ich ein wesentlich engeres CI um den MLE herum, und CI>0.

Kann das so stimmen?

Lieben Dank,

Lars

JPL · 17. Februar 2010 um 08:34

Hi Lars,

Ich glaube, ich weiß, wo der Fehler lag. Ich habe 6 und 23
falsch benutzt für n. In sqrt(n)*(MLE-p)->N(0,*) sollte es
doch sicher die 23 sein und nicht die 6? Auch sollte * =
p(1-p)/6 sein, da die Fischer Information bei einer Bin(6,p)
gleich 6/p(1-p) ist.

soweit richtig.
Dann bekomme ich einen zusätzlichen

Faktor von sqrt(23). Also wäre MLE->N(p,p(1-p)/(6*23), und das
CI wird p± c*sqrt(p(1-p)/(6*23)). Dann bekomme ich ein
wesentlich engeres CI um den MLE herum, und CI>0.

Das ist zwar verlockend, aber nicht deswegen richtig. Die Fisher-Info _ist_ ja die kleinste mögliche Streuung.
wenn du Lust hast kannst du dein „neues“ CI ja mal testen indem du die coverage überprüfst. die wird wohl