Moin Tobias,
So habe ich das erst auch verstanden, dann habe ich aber im
Buch „Forschungsmethoden und Evaluation“ von Bortz/Döring
(2006) gelesen: „Die Aussage, der gesuchte Parameter liege mit
einer Wahrscheinlichkeit von 95% im Bereich x±a ist nicht
korrekt, denn tatsächlich kann sich der Parameter nur
innerhalb oder außerhalb des gefundenen Bereiches befinden.“
(Kapitel 7.1.3, S. 414).
Herr Bortz macht es manchmal zu plakativ. Klar ist der wahre Wert entweder drinnen oder draussen wenn man eine Stichprobe zieht. Wenn man den wahren Wert kennt und dann „nachsieht“ hat man eine 0/1 bzw. drinnen/draussen-Entscheidung. Macht man dasselbe Prozedere aber, sagen wir mal, 10000 Mal, dann bekommt man eine W’keit dafür, dass der wahre Wert innerhalb des KI liegt. Diese W’keit sollte für möglichst kleinen Stichprobenumfang möglichst immer genau das alpha-Niveau des vorgegebenen KI betragen - dann ist das KI gut (Stichwort Coverage).
KI’s werden immer in Hinblick darauf betrachtet (und auch so angegeben), als ob man die Stichprobengröße, die man hatte, festhält und dann unendlich oft wieder zieht und guckt, wie oft man den wahren Wert drin hat. Das ist dann das Optimum (=Coverage), was man mit der Stichprobengröße rausholen kann.
Es gibt also das nominale Niveau, z.B. 95%, die coverage für gegebenes n (z.B. 75%) und die Tatsache, ob der wahre Wert nun drin liegt oder nicht (was man i.a. nicht weiß).
Der Gedankengang ist nun folgender: Wenn n groß genug ist, dann ist die Coverage = nominalem Niveau und dann weiß ich auch bei nur einmaliegm Ziehen meiner Stichprobe, dass der wahre Wert mit nominalem Niveau im KI liegt.
Das ganze ist wie beim fairen Würfeln: Bei 1xilgem Würfeln weiß icha uch nicht, was die W’keit für eine 5 ist, denn sie ist entweder da oder nicht. Erst wenn ich mehrmals würfle, kann die W’keit angeben - trotzdem ist die W’keit (der wahre Wert) für eine 5 nicht abhängig davon, wie oft ich würfle.
Weiter steht da „Das KI kennzeichnet
denjenigen Bereich von Merkmalsausprägungen, in dem sich 95%
aller möglichen Populationsparameter befinden, die den
empirisch ermittelten Stichprobenkennwert erzeugt haben
können.“ (S. 415).
es ist das Ganze nur in anderem Kleid; es bleiben immer noch 5% Fehler und 95% „Sicherheit“.
Genau. Der empirische Wert ist der Schätzwert (S, z.B.
Mittelwert) und i.a. gibt einen Fehler zu dem Schätzwert (F,
hier SE für den Mittelwert). Dann braucht man noch die
Verteilung des Schätzwertes (V, hier die t-Verteilung) um
davon die Quantile der Verteilung zu bestimmen (für ein 95% KI
sind das die 2.5% und 97.5% Quantil, q2.5 und q97.5 [das kommt
von der symmetrischen Aufteilung der 5% Fehler auf beide
Enden]), so dass ein (zweiseitiges) alpha%-KI immer die Form
hat (in Intervallschreibweise):
[ S + F*qalpha/2 ; S +
F*q1-alpha/2 ]
Das heißt, dass man annimmt, dass der empirisch ermittelte
Wert t-verteilt ist und mit Hilfe der Streuung schätzt, in
welchem Bereich sich 95% der Werte befinden?
Eigentlich nur „der Wert“. Einen will man wissen, für diesen gibt man einen Bereich an, in dem er mit 95% W’keit liegt. Sonst richtig, die t-Verteilung passt aber nur in diesem Fall, für andere Schätzer sind mitunter andere Verteilungen nötig.
Was bedeutet das
inhaltlich, wenn ich die Fehlerstreuung (F) mit q
multipliziere - bzw. was bedeutet q inhaltlich?
q_x gibt den kleinsten Wert an, für den die kumulierte Verteilungsfunktion (i.a. F, hier aber mal V genannt) einen Wert >= x% annimmt, also V(q)=x oder anders herum x = inf{y aus dem Parameterraum für die gilt: V(y) >= x}.
die Multplikaltion von q und F leitet sich aus der Standardisierung des Schätzers ab: z = (S - w)/F, wobei z eben eine bestimmte Verteilung hat. Eigentlich interessiert man sich ja aber für die q1 und q2 die P(q1 = w >= -q2*F + S)
= P(S - q2*F