Konfidenz Intervall für p mit Hilfe des MLE

Hey.

Ein Binomiales Modell für die Anzahl an Defekten D ist gegeben: P ( Di=j ) = 6Cj * pj * (1-p)6-j, j=0,…,6
Es gibt D1,…,Dn Beobachtungen.

Den MLE habe ich gefunden als p̂ = 1/6 * [Durchschnitt der beobachteten Defekte = 1/n * sum(ji)]

Jetzt soll ich ein asymptotisches 95%-Konfidenzintervall für p mit Hilfe des MLE finden.

Was muss ich machen? Ich weiß nicht mal, wie ich anfangen soll …

Ganz. ganz lieben Dank,

Lars

Hi Lars,

Den MLE habe ich gefunden als p̂ = 1/6 * [Durchschnitt der
beobachteten Defekte = 1/n * sum(ji)]

Auch wenn deine Schribweise etwas kryptisch ist, sollte das stimmen.

Jetzt soll ich ein asymptotisches 95%-Konfidenzintervall für p
mit Hilfe des MLE finden.

Was man für ein CI braucht:

  1. einen Punktschätzer, p
  2. ein Konfidenzinevau, alpha
  3. ein Quantil, q
  4. eine Streuung, s
    und dann ist [p-q(alpha)*s, p+q(alpha)*s] ein 1-2*alpha CI.

p hast du oben schon ebrechnet, alpha ist 0.95.
3) kann man sich wegen „approximativ“ basierend auf der Normalverteilung vorstellen, also q=z(0.025) uns s=sqrt(p(1-p)/n).

Ich weiß nicht, wie tief du in das ganze einsteigen musst / sollst / willst, aber jetzt könnte man noch zeigen, dass dies tatsächlich ein approximatives CI ist. Es gibt noch andere Approximationen, siehe http://projecteuclid.org/DPubS/Repository/1.0/Dissem…

HTH,
JPL

Was muss ich machen? Ich weiß nicht mal, wie ich anfangen soll

Ganz. ganz lieben Dank,

Lars

Erstmal ganz lieben Dank!

  1. kann man sich wegen „approximativ“ basierend auf der
    Normalverteilung vorstellen, also q=z(0.025) uns
    s=sqrt(p(1-p)/n).

Welches p wuerde ich nehmen? Das, das ich oben berechnet habe (mit eingesetzten Datenpunkten)? Verstehe den Ansatz nicht ganz.

Sollte man nicht schauen, was fuer eine Verteilung das oben errechnete p hat?

Nochmals ganz lieben Dank,

Lars

Hi Lars,

Erstmal ganz lieben Dank!

  1. kann man sich wegen „approximativ“ basierend auf der
    Normalverteilung vorstellen, also q=z(0.025) uns
    s=sqrt(p(1-p)/n).

Welches p wuerde ich nehmen? Das, das ich oben berechnet habe
(mit eingesetzten Datenpunkten)?

Ja genau.

Sollte man nicht schauen, was fuer eine Verteilung das oben
errechnete p hat?

Klar wäre das besser - aber auch komplizierter. Die approximative Verteilung des MLE-Schätzers für p ist eine Normalverteilung (siehe http://de.wikipedia.org/wiki/Maximum-Likelihood-Methode, absatz „Existenz…“), dann müsstest du aber noch die Fisher-Information ausrechnen :smile: auch interessant: http://schmettow.info/downloads/MLE.pdf, http://cnx.org/content/m13527/latest/, http://www.econ.iastate.edu/classes/econ671/hallam/d… (harter Stoff) und http://www.stat.umn.edu/geyer/old03/5102/notes/fish.pdf. m letzten ist Example 1.1 alles,w as du brauchst und du wirst festellen, dass die Normalapprox - wie vorher angegeben - genau dem Resultat anhand der Fisher-Info entspricht :smile:

Grüße,
JPL

Nachdem ich das jetzt gelesen habe …

Mein MLE p̂ hat also eine N(p,p(p-1)/n) Verteilung, wobei das n das gleiche ist, wie in B(p,n), was die Verteilung ist, die allen meinen Beobachtungen zu Grunde liegt. (Leider nicht das n, was in meinem Bsp als n benutzt wird).

Also hat sqrt(n) * (p̂-p) / sqrt( p(p-1) ) eine N(0,1) Verteilung.

Das ist eine Funktion g§, da ich für p̂ durch meine Daten einen Wert habe.

Jetzt finde ich P( -c c = 1.96

=> g-1(-1.96) -1(1.96)

Das ist das gesuchte CI, auch wenn g-1(±c) wohl nicht ganz schön sein wird.

Stimmt das so, oder bin ich total auf dem falschen Weg?

Nochmals ganz herzlichen Dank!

Lars

Hi Lars,

Mein MLE p̂ hat also eine N(p,p(p-1)/n) Verteilung, wobei das
n das gleiche ist, wie in B(p,n), was die Verteilung ist, die
allen meinen Beobachtungen zu Grunde liegt. (Leider nicht das
n, was in meinem Bsp als n benutzt wird).

Richtig, dein n müsste 6 sein. Ein kleien Fehler hast du schon: p(p-1) ist nicht p(1-p)! Bei deiner formulierng kommt (fast) immer etwas negatives heraus, da für alle p c = 1.96

=> g-1(-1.96) -1(1.96)

Das ist das gesuchte CI, auch wenn g-1(±c) wohl
nicht ganz schön sein wird.

Hier machst du dir das Leben unnötig schwer. Denn die Umkehrfunktion zu g zu bestimmen dürfte nicht unbedingt easy sein. Wenn du dein c bestimmt hast, kannst du das CI als
p± c*sqrt(p(1-p)/n)
bilden, gemäß der Verteilungsannahme über p.
Das wars dann schon.
Es kann passieren, dass dass das CI nicht in [0,1] enthalten ist, was dann tatsächlich unschön ist. Deswegen gibt es noch andere Wege das CI zu bestimmen, die dann z.b. die Streuung oder das quantil anders approximativ oder exakt bestimmen. Das eine paper gibt da eine umfangreiche Übersicht. Für deine Aufgabe müsste es aber so reichen.
Grüße,
JPL

Ups, ja, habe ich irgendwie vertauscht :smile:

Ganz, ganz lieben Dank für die ausführliche Hilfe!

Lars

Hier machst du dir das Leben unnötig schwer. Denn die
Umkehrfunktion zu g zu bestimmen dürfte nicht unbedingt easy
sein. Wenn du dein c bestimmt hast, kannst du das CI als
p± c*sqrt(p(1-p)/n)
bilden, gemäß der Verteilungsannahme über p.

Da nehme ich als p ueberall meinen MLE? Ist bei mir 3/46, wo dann der - Fall negativ ist. Mit g-1 bekomme ich etwas anderes raus, allerdings ist der eine Wert ziemlich nahe an 3/46 waehrend der zweite etwa 0.5 ist. Kann das denn sein?? Wo koennte das Problem liegen?

Danke!!

Lars

Hi Lars,

poste bitte mal deine Ergebnisse (deine beiden CIs), dann wird es anschaulicher und besser diskutierbar.
Grüße,
JPL

Also,

mein MLE ist 3/46=0,065 und c=1,96 da alpha=5% (beidseitig)

Dann bekomme ich für p± c*sqrt( p(1-p)/n ) ein CI von -0,13 bis 0,26.

Wenn ich sqrt(6) * (MLE-p) / sqrt( p(p-1) ) = ±c nach p auflöse, bekomme ich 0,0056 und 0,46.

Hilft Dir das, um mir zu helfen?

Ganz, ganz lieben Dank!!

Lars

Hi Lars,

mein MLE ist 3/46=0,065 und c=1,96 da alpha=5% (beidseitig)
Dann bekomme ich für p± c*sqrt( p(1-p)/n ) ein CI von -0,13
bis 0,26.

Passt. Das ist das klassische Interval mit all seinen Schwächen :smile:

Wenn ich sqrt(6) * (MLE-p) / sqrt( p(p-1) ) = ±c nach p
auflöse, bekomme ich 0,0056 und 0,46.

wie löst du das denn nach p auf? Wenn du es nach MLE auflöst bekommst du das klassische Intervall. Deins müsste eine zu kleine coverage haben.

Grüße,
JPL

Ich glaube, ich weiß, wo der Fehler lag. Ich habe 6 und 23 falsch benutzt für n. In sqrt(n)*(MLE-p)->N(0,*) sollte es doch sicher die 23 sein und nicht die 6? Auch sollte * = p(1-p)/6 sein, da die Fischer Information bei einer Bin(6,p) gleich 6/p(1-p) ist. Dann bekomme ich einen zusätzlichen Faktor von sqrt(23). Also wäre MLE->N(p,p(1-p)/(6*23), und das CI wird p± c*sqrt(p(1-p)/(6*23)). Dann bekomme ich ein wesentlich engeres CI um den MLE herum, und CI>0.

Kann das so stimmen?

Lieben Dank,

Lars

Hi Lars,

Ich glaube, ich weiß, wo der Fehler lag. Ich habe 6 und 23
falsch benutzt für n. In sqrt(n)*(MLE-p)->N(0,*) sollte es
doch sicher die 23 sein und nicht die 6? Auch sollte * =
p(1-p)/6 sein, da die Fischer Information bei einer Bin(6,p)
gleich 6/p(1-p) ist.

soweit richtig.
Dann bekomme ich einen zusätzlichen

Faktor von sqrt(23). Also wäre MLE->N(p,p(1-p)/(6*23), und das
CI wird p± c*sqrt(p(1-p)/(6*23)). Dann bekomme ich ein
wesentlich engeres CI um den MLE herum, und CI>0.

Das ist zwar verlockend, aber nicht deswegen richtig. Die Fisher-Info _ist_ ja die kleinste mögliche Streuung.
wenn du Lust hast kannst du dein „neues“ CI ja mal testen indem du die coverage überprüfst. die wird wohl