Ich habe ein kleines Problem zu Statisktik bei Binomialverteilungen:
Kann man zu bei einer Binomialverteilung ein Vertrauensintervall angeben?
Beispiel: Ich habe eine Urne mit insgesamt 100 Kugeln. Davon sind p rot, 100-p sind schwarz. Ich kenne den wahren wert für p jedoch nicht.
Nun ziehe ich ohne zurücklegen aus der Urne N Kugeln. Den Anteil der roten Kugeln, die ich gezogen habe, nehme ich als Schätzer für den wahren Anteil in der Urne. Da ich den Versuch nur einmal wiederhole, wird mein Schätzer mit grösster Wahrscheinlichkeit nicht mit dem wahren Wert übereinstimmen. Ich möchte nun aber ein Vertrauensintervall von p mit einem Signifikanzniveau von sagen wir 5% für meinen Mittelwert angeben. Kann ich das so einfach machen und wenn ja: wie?
Ich habe ein kleines Problem zu Statisktik bei
Binomialverteilungen:
Kann man zu bei einer Binomialverteilung ein
Vertrauensintervall angeben?
Beispiel: Ich habe eine Urne mit insgesamt 100 Kugeln. Davon
sind p rot, 100-p sind schwarz. Ich kenne den wahren wert für
p jedoch nicht.
Nun ziehe ich ohne zurücklegen aus der Urne N Kugeln. Den
Anteil der roten Kugeln, die ich gezogen habe, nehme ich als
Schätzer für den wahren Anteil in der Urne. Da ich den Versuch
nur einmal wiederhole, wird mein Schätzer mit grösster
Wahrscheinlichkeit nicht mit dem wahren Wert übereinstimmen.
Ich möchte nun aber ein Vertrauensintervall von p mit einem
Signifikanzniveau von sagen wir 5% für meinen Mittelwert
angeben. Kann ich das so einfach machen und wenn ja: wie?
Hallo Stephan!
Wenn Du die Kugeln nicht zurücklegst, dann liegt keine Binomialverteilung vor, sondern eine hypergeometrische Verteilung.
Um ein Vertrauensintervall für p anzugeben, verwendet man die Binomialverteilung, d.h., die Kugeln müssen zurückgelegt werden;
genauer:
n-mal wird nacheinander eine Kugel gezogen und sofort wieder zurückgelegt.
Den Zusammenhang zwischen Stichprobenumfang n, Vertrauensintervall und Signifikanzniveau findet man in jedem Buch über Statistik.
Der Stichprobenumfang ist unabhängig von der Anzahl N der Kugeln.
Genau genommen hast Du hier ja keine theoretische Verteilung, sondern eine Stichprobe vor Dir - ist zwar im Modell das gleiche, aber bei einer Stichprobe arbeitest Du mit einem Versuch und errechnest nicht nur einen theoretischen Wert.
theoretische Verteilung (z.B. geometrisch, Poisson, binomial oder hypergeometrisch) -> Ein Wert wird aufgrund einer Theorie vorausberechnet.
Stichprobe -> Man „probiert“ aus, was rauskommt. Aufgrund dieses Ergebnisses rechnet man die Verteilung hoch.
In beiden Fällen kann man per Konfidenzintervall oder Hypothesenannahmekriterien festlegen, wann man das Ergebnis akzeptiert.
In Deinem Fall „Modell ohne Zurücklegen“ gibt es kein Konfidenzintervall im eigentlichen Sinne (ist der Wert zwischen a und b, dann halte ich ihn für richtig), sondern nur die Möglichkeit „Annahme oder Ablehnung der Hypothese“. Du führst also die Stichprobe durch, schätzt dann (ja, sowas unmathematisches! *g* In der Regel wirst Du aber natürlich den Anteilswert aus der Stichprobe nehmen), dass ein bestimmter Anteil Kugeln schwarz ist. Daraufhin willst Du wissen, ob dieses Ergebnis mit 95%iger Sicherheit richtig ist. Dafür gibt es verschiedene Tests, die allerdings sehr ausführlich zu erläutern wären -> verweise wie mein Vorredner auf gute Statistik-Einführungsbücher. (Stichwort „Gauß-Test“ und andere, je nach Sachlage.) Du solltest Dir dafür aber etwas mehr als 5 Minuten Zeit nehmen. Die Aussage, dass Du den Versuch nur einmal wiederholst ist übrigens irrelevant - Du erhältst durch häufige Wiederholung kein besseres oder schlechteres Ergebnis der Stichprobe. Die Abweichungen sind zwar bei einer so geringen Gesamtzahl wie 100 augenscheinlich vielleicht in absoluten Zahlen hoch, aber das ist eben die Krux mit Stichproben. Wenn Du von diesen 100 nur 5 entnimmst, wirst Du sehr starke Schwankungen haben, entnimmst Du 90, wirst Du Deines Ergebnisses sehr sicher sein. Die Tests sagen Dir ja dann auch nur: WENN man insgesamt 100 Stück hat, schwarze und rote, und man nimmt davon N raus und bekommt dieses oder jenes Ergebnis, dann liegt das innerhalb oder ausserhalb Deiner 95%, die Du forderst, um Deine Hypothese zu akzeptieren. Durch mehrmalige Stichproben OHNE zurücklegen würdest Du ja nur diesen Test quasi „häppchenweise“ verlängern, bis keine Kugeln mehr da sind. Es bleibt also bei genau einer Stichprobe von einem möglichst hohen, aber sinnvoll erscheinenden Umfang, nicht bei möglichst vielen Wiederholungen mit gleichen Mengen.
Vertrauensintervall der Binomialverteilung
Die Beiträge unten enthalten zuviel Prosa.
Es sei p die Wahrscheinlichkeit dafür, eine rote Kugel zu ziehen.
p soll geschätzt werden.
Dazu wird n-mal nacheinander eine Kugel gezogen, die Farbe wird notiert,
und die Kugel wird sofort wieder zurückgelegt.
rn = Anzahl der gezogenen roten Kugeln / n .
rn ist ein Näherungswert für p. Es gilt
(\*) r<sub>n</sub> - c/(2n<sup>0,5</sup>) n + c/(2n<sup>0,5</sup>) ,
wobei c durch
PHI(c) = 1-a/2
definiert ist; PHI ist dabei die Normalverteilung, a das Signifikanzniveau.
Für jedes Siginifikanzniveau kann das Vertrauensintervall (*) beliebig klein gemacht werden, wenn man nur n (=Stichprobenumfang) hinreichend groß wählt.
Beispiel:
Auf dem Signifikanzniveau 5% soll die Wahrscheinlichkeit p mit einer Genauigkeit von 0,02 ermittelt werden. Wie groß muß die Stichprobe sein?
Es muß
c/(2n<sup>0,5</sup>)
sein, bzw.
(\*\*) n \> c<sup>2</sup>/0,0016 .
Mit a = 0,05 folgt PHI(c) = 0,975 und hieraus c = 1,96. Eingesetzt in (\*\*) erhält man
n \> 2401 .
Gruß
meridium