Konfidenzintervall

Hallo,

ich habe eine Frage zum in der Statistik verwendeten Konfidenzintervall. Das gibt an, wenn ich das richtig verstanden habe, in welchem Bereich 95% der Parameter liegen, die den empirischen Wert „erzeugen“ können.

1.) Ist es richtig, dass theoretisch jeder „wahre“ Wert zu dem empirischen Wert hätte führen können, nur eben mit einer unterschiedlichen Wahrscheinlichkeit?

2.) Warum kann man nicht sagen, dass der wahre Wert mit einer Wahrscheinlichkeit von 95% im Konfidenzintervall liegt?

3.) Was bedeutet das Konfidenzintervall numerisch? Ist das der empirische Wert + Fehlerstreuung oder so etwas ähnliches?

Ich würde mich sehr über Antworten freuen.
Vielen Dank schon mal,
Tobias

Moin Tobias,

ich glaube, du gehst zu kompliziert an die sache heran :smile:

2.) Warum kann man nicht sagen, dass der wahre Wert mit einer
Wahrscheinlichkeit von 95% im Konfidenzintervall liegt?

Das ist genau die richte Denkweise! Das KI gibt den Bereich an, in dem der wahre Wert mit der angegebenen W’keit liegt - vorausgesetzt, dass der wahre Wert auch richtig geschätzt wird (Erwartungstreue). Deswegen sind 90%KI auch schmaler als 95%ige und 100%KI decken den gesamten Parameterraum ab (es sei denn deine Stichprobe ist unendlich).

ich habe eine Frage zum in der Statistik verwendeten
Konfidenzintervall. Das gibt an, wenn ich das richtig
verstanden habe, in welchem Bereich 95% der Parameter liegen,
die den empirischen Wert „erzeugen“ können.

Nein. Der wahre Wert in einer aus dem gesamten Bereich des Parameterraums. Das KI ist ein Intervall des raumes und gibt an, mit welcher W’keit der wahre Wert darin liegt (was nicht bedeuten muss, dass es wirklich tut :smile:)

1.) Ist es richtig, dass theoretisch jeder „wahre“ Wert zu dem
empirischen Wert hätte führen können, nur eben mit einer
unterschiedlichen Wahrscheinlichkeit?

Nein, das ist vekehrt herum gedacht. Der wahre Wert existiert, aber ist unbekannt. Deswegen schätzt man ihn aus aus einer Stichprobe, die einen Teil der Gesamthait darstellt mittels einer Formel (z.B. den Erwartungswert über den Mittelwert), die am besten erwartngstreu ist (d.h. dass sich bei steigender Stichprobengröße der empirische Wert dem wahren Wert annähert) und dabei minimale Streuung hat (d.h. dass im Vergleich zu anderen Schätzmetoden die Abweichung kleiner ist).
Der wahre Wert bestimmt zwar eine Verteilung, und die bestimmt in einer Weise auch wieder die W’keit für die Stichprobe und damit den empirischen Wert, aber das spiegelt sich nciht im KI wider.

3.) Was bedeutet das Konfidenzintervall numerisch? Ist das der
empirische Wert + Fehlerstreuung oder so etwas ähnliches?

Genau. Der empirische Wert ist der Schätzwert (S, z.B. Mittelwert) und i.a. gibt einen Fehler zu dem Schätzwert (F, hier SE für den Mittelwert). Dann braucht man noch die Verteilung des Schätzwertes (V, hier die t-Verteilung) um davon die Quantile der Verteilung zu bestimmen (für ein 95% KI sind das die 2.5% und 97.5% Quantil, q2.5 und q97.5 [das kommt von der symmetrischen Aufteilung der 5% Fehler auf beide Enden]), so dass ein (zweiseitiges) alpha%-KI immer die Form hat (in Intervallschreibweise):
[S + F\*q<sub>alpha/2</sub> ; S + F\*q<sub>1-alpha/2</sub>]

Ich würde mich sehr über Antworten freuen.

Hoffe, das hilft dir,
Grüße,
JPL

Vielen Dank und moin,

Moin Tobias,

ich glaube, du gehst zu kompliziert an die sache heran :smile:

2.) Warum kann man nicht sagen, dass der wahre Wert mit einer
Wahrscheinlichkeit von 95% im Konfidenzintervall liegt?

Das ist genau die richte Denkweise! Das KI gibt den Bereich
an, in dem der wahre Wert mit der angegebenen W’keit liegt -
vorausgesetzt, dass der wahre Wert auch richtig geschätzt wird
(Erwartungstreue). Deswegen sind 90%KI auch schmaler als
95%ige und 100%KI decken den gesamten Parameterraum ab (es sei
denn deine Stichprobe ist unendlich).

So habe ich das erst auch verstanden, dann habe ich aber im Buch „Forschungsmethoden und Evaluation“ von Bortz/Döring (2006) gelesen: „Die Aussage, der gesuchte Parameter liege mit einer Wahrscheinlichkeit von 95% im Bereich x±a ist nicht korrekt, denn tatsächlich kann sich der Parameter nur innerhalb oder außerhalb des gefundenen Bereiches befinden.“ (Kapitel 7.1.3, S. 414). Weiter steht da „Das KI kennzeichnet denjenigen Bereich von Merkmalsausprägungen, in dem sich 95% aller möglichen Populationsparameter befinden, die den empirisch ermittelten Stichprobenkennwert erzeugt haben können.“ (S. 415).

Das würde doch dem widersprechen, was Du geschrieben hast, oder habe ich hier die subtilen Unterschiede nicht kapiert? :wink:

3.) Was bedeutet das Konfidenzintervall numerisch? Ist das der
empirische Wert + Fehlerstreuung oder so etwas ähnliches?

Genau. Der empirische Wert ist der Schätzwert (S, z.B.
Mittelwert) und i.a. gibt einen Fehler zu dem Schätzwert (F,
hier SE für den Mittelwert). Dann braucht man noch die
Verteilung des Schätzwertes (V, hier die t-Verteilung) um
davon die Quantile der Verteilung zu bestimmen (für ein 95% KI
sind das die 2.5% und 97.5% Quantil, q2.5 und q97.5 [das kommt
von der symmetrischen Aufteilung der 5% Fehler auf beide
Enden]), so dass ein (zweiseitiges) alpha%-KI immer die Form
hat (in Intervallschreibweise):
[ S + F*qalpha/2 ; S +
F*q1-alpha/2 ]

Das heißt, dass man annimmt, dass der empirisch ermittelte Wert t-verteilt ist und mit Hilfe der Streuung schätzt, on welchem Bereich sich 95% der Werte befinden? Was bedeutet das inhaltlich, wenn ich die Fehlerstreuung (F) mit q multipliziere - bzw. was bedeutet q inhaltlich?

Vielen Dank schon mal und beste Grüße,
Tobias

Moin Tobias,

So habe ich das erst auch verstanden, dann habe ich aber im
Buch „Forschungsmethoden und Evaluation“ von Bortz/Döring
(2006) gelesen: „Die Aussage, der gesuchte Parameter liege mit
einer Wahrscheinlichkeit von 95% im Bereich x±a ist nicht
korrekt, denn tatsächlich kann sich der Parameter nur
innerhalb oder außerhalb des gefundenen Bereiches befinden.“
(Kapitel 7.1.3, S. 414).

Herr Bortz macht es manchmal zu plakativ. Klar ist der wahre Wert entweder drinnen oder draussen wenn man eine Stichprobe zieht. Wenn man den wahren Wert kennt und dann „nachsieht“ hat man eine 0/1 bzw. drinnen/draussen-Entscheidung. Macht man dasselbe Prozedere aber, sagen wir mal, 10000 Mal, dann bekommt man eine W’keit dafür, dass der wahre Wert innerhalb des KI liegt. Diese W’keit sollte für möglichst kleinen Stichprobenumfang möglichst immer genau das alpha-Niveau des vorgegebenen KI betragen - dann ist das KI gut (Stichwort Coverage).
KI’s werden immer in Hinblick darauf betrachtet (und auch so angegeben), als ob man die Stichprobengröße, die man hatte, festhält und dann unendlich oft wieder zieht und guckt, wie oft man den wahren Wert drin hat. Das ist dann das Optimum (=Coverage), was man mit der Stichprobengröße rausholen kann.
Es gibt also das nominale Niveau, z.B. 95%, die coverage für gegebenes n (z.B. 75%) und die Tatsache, ob der wahre Wert nun drin liegt oder nicht (was man i.a. nicht weiß).
Der Gedankengang ist nun folgender: Wenn n groß genug ist, dann ist die Coverage = nominalem Niveau und dann weiß ich auch bei nur einmaliegm Ziehen meiner Stichprobe, dass der wahre Wert mit nominalem Niveau im KI liegt.
Das ganze ist wie beim fairen Würfeln: Bei 1xilgem Würfeln weiß icha uch nicht, was die W’keit für eine 5 ist, denn sie ist entweder da oder nicht. Erst wenn ich mehrmals würfle, kann die W’keit angeben - trotzdem ist die W’keit (der wahre Wert) für eine 5 nicht abhängig davon, wie oft ich würfle.

Weiter steht da „Das KI kennzeichnet
denjenigen Bereich von Merkmalsausprägungen, in dem sich 95%
aller möglichen Populationsparameter befinden, die den
empirisch ermittelten Stichprobenkennwert erzeugt haben
können.“ (S. 415).

es ist das Ganze nur in anderem Kleid; es bleiben immer noch 5% Fehler und 95% „Sicherheit“.

Genau. Der empirische Wert ist der Schätzwert (S, z.B.
Mittelwert) und i.a. gibt einen Fehler zu dem Schätzwert (F,
hier SE für den Mittelwert). Dann braucht man noch die
Verteilung des Schätzwertes (V, hier die t-Verteilung) um
davon die Quantile der Verteilung zu bestimmen (für ein 95% KI
sind das die 2.5% und 97.5% Quantil, q2.5 und q97.5 [das kommt
von der symmetrischen Aufteilung der 5% Fehler auf beide
Enden]), so dass ein (zweiseitiges) alpha%-KI immer die Form
hat (in Intervallschreibweise):
[ S + F*qalpha/2 ; S +
F*q1-alpha/2 ]

Das heißt, dass man annimmt, dass der empirisch ermittelte
Wert t-verteilt ist und mit Hilfe der Streuung schätzt, in
welchem Bereich sich 95% der Werte befinden?

Eigentlich nur „der Wert“. Einen will man wissen, für diesen gibt man einen Bereich an, in dem er mit 95% W’keit liegt. Sonst richtig, die t-Verteilung passt aber nur in diesem Fall, für andere Schätzer sind mitunter andere Verteilungen nötig.

Was bedeutet das
inhaltlich, wenn ich die Fehlerstreuung (F) mit q
multipliziere - bzw. was bedeutet q inhaltlich?

q_x gibt den kleinsten Wert an, für den die kumulierte Verteilungsfunktion (i.a. F, hier aber mal V genannt) einen Wert >= x% annimmt, also V(q)=x oder anders herum x = inf{y aus dem Parameterraum für die gilt: V(y) >= x}.
die Multplikaltion von q und F leitet sich aus der Standardisierung des Schätzers ab: z = (S - w)/F, wobei z eben eine bestimmte Verteilung hat. Eigentlich interessiert man sich ja aber für die q1 und q2 die P(q1 = w >= -q2*F + S)
= P(S - q2*F

Was bedeutet das
inhaltlich, wenn ich die Fehlerstreuung (F) mit q
multipliziere - bzw. was bedeutet q inhaltlich?

q_x gibt den kleinsten Wert an, für den die kumulierte
Verteilungsfunktion (i.a. F, hier aber mal V genannt) einen
Wert >= x% annimmt, also V(q)=x oder anders herum x = inf{y
aus dem Parameterraum für die gilt: V(y) >= x}.
die Multplikaltion von q und F leitet sich aus der
Standardisierung des Schätzers ab: z = (S - w)/F, wobei z eben
eine bestimmte Verteilung hat. Eigentlich interessiert man
sich ja aber für die q1 und q2 die P(q1 = w >= -q2*F + S)
= P(S - q2*F

Moin Tobias,

Ah ok. D.h., dass das Konfidenzintervall vom t-Wert und der
Streuung des erhobenen Stichprobe abhängt?

Jip. Und vom Schätzwert natürlich.

Kann man dann bezüglich der KI-Grenzen sagen, dass die beiden
Grenzwerte solche Werte darstellen, die gerade noch zu den 95%
der am häufigsten „zufällig“ gezogenen Werten gehören, wenn
der vorher ermittelte empirische Wert (die Mitte des KI), dem
wahren Wert in der Population entspricht?

Ja.

Grüße,
JPL