ich möchte mit Hilfe einer stichprobenartigen gut-schlecht Prüfung
(Stichprobengröße n, Ergebnis: n_g und n_s) einer produzierten
Gesamtheit N von Produkten statistische Aussagen über den
Anteil von guten und schlechten Produkten N_g und N_s machen können;
Aussagen wie z.B.: „Mit einer Wahrscheinlichkeit von p=0.9 ist der Anteil
von guten Produkten der Gesamtheit N_g/N größer als 0.8“
Ich bin in der Lage, für eine bekannte Verteilung der Gesamtheit (N, N_g, N_s vorgegeben)
die Wahrscheinlichkeiten auszurechnen, bestimmte Ergebnisse der
Stichprobenmessungen zu erhalten. Aber klappt das auch im umgekehrten Fall?
Ich habe für ein bestimmtes Stichprobenergebnis (n, n_g, n_s vorgegeben) die Wahrscheinlichkeiten für alle möglichen Zusammensetzungen der Gesamtheit
ausgerechnet, jedoch ist dann die Summe der Wahrscheinlichkeiten in diesem Fall
z.T. größer als 1.
Ist mein Gedankenansatz falsch, sollte ich einfach die errechneten Wahrscheinlichkeiten
normieren, so daß die Summe = 1 wird, oder gibt es einen Weg, das Problem ganz anders
in den Griff zu bekommen?
Bitte antwortet mir bald, und Vielen Dank im voraus für Eure Hilfe.
Also, mal angenommen, Du hast 100 Beobachtungen durchgeführt und dabei 5 Fehler entdeckt. Ergibt eine Fehlerquote von 5% in der Stichprobe. Aus diesen Werten läßt sich der Standardfehler errechnen als
sqrt(5*95/100) = 2,18%
darin ist 5 der beobachtete Prozentsatz des interessierenden Ereignisses (Fehler), 95 der Anteil des Gegenereignisses (kein Fehler) und 100 ist der Stichprobenumfang.
Unterstellen wir, daß die Binomialverteilung für p = 0,05 und n = 100 ausreichend gut durch eine Normalverteilung repräsentiert werden kann, dann kann man folgern, daß der Populationsparameter (die „wahre“ Fehlerquote) mit einer Wahrscheinlichkeit von 95,5% zwischen 5+2*2,18 und 5-2*2,18 liegt, also zwischen 9,36 und 0,64 Prozent.
2*2,18 ergibt sich aus der Normalverteilung, in der nur ca. 4,5% aller Werte um mehr als zwei Standardabweichungen vom Mittelwert entfernt liegen. Die Werte der Standardnormalverteilung findet man in jedem Statistikbuch.
danke für Deine Antwort, ich bin leider noch nicht ganz überzeugt von dieser
Lösung.
Die Grundgesamtheit N, die ich betrachte, ist nicht unendlich groß, sondern eine
relativ kleine Anzahl (Größenordnung 10^2 bi 10^3), bei der man von einer konstanten
Fehlerdichte sprechen kann (Produktionslos).
Ich denke, daß bei diesen Voraussetzungen der Umfang der Stichprobe, relativ zur Größe
der Grundgesamtheit, also n/N doch auch in die Betrachtung eingehen müßte.
Bei n=100, wie in deinem Besipiel, sind für N=150 oder für N=1500 unterschiedlich „genaue“
Aussagen zu erwarten, oder?
Grüße, Andi
[Bei dieser Antwort wurde das Vollzitat nachträglich automatisiert entfernt]
es sieht so aus, als ob du ein Konfidenzinterval für eine unbekannte Wahrscheinlichkeit suchst.
Bei großen Stichproben ist zur Berechnung der Standardabweichung der relativen Häufigketi p = n_g / n die Binomialverteilung zu verwenden, d.h. die Wurzel aus:
s2 = p * (1-p) / n
Das zweiseitige Konfidenzintervall ist dann:
p +/- t1-a/2; n-1 * s
Das einseitig obere:
p + t1-a; n-1 * s
und das einseitig untere:
p - t1-a; n-1 * s
Wenn die Stichprobe tatsächlich relativ niedrig ist (i.d.R. 2 = p * (1-p) * ((N - n)/(N - 1)) / n
Hier muß explizit die Normalverteilung der relativen Häufigkeiten angenommen werden, da der zentrale Grenzwertsatz nicht anwendbar ist.
Übrigens: für große Stichproben kann die t-Verteilung durch die Normalverteilung ersetzt werden.
Daniel.
[Bei dieser Antwort wurde das Vollzitat nachträglich automatisiert entfernt]