Hallo,
ich habe so meine Probleme mit der Sinnhaftigkeit von Hypothesentests, daher habe ich ein wenig rumgestöbert und bin auf die Alternative gestoßen, dass man Modelle ja daran messen kann, wieviel Information verloren geht, wenn man ein (unbekannten) wahren Zusammenhang durch ein Modell beschreibt. Das kann man letzlich ausdrücken in Akaikes Informations-Kriterium (AIC), was eigentlich verwendet wird, um das geeignetste aus mehreren möglichen Modellen auszuwählen.
Nun hab ich mir gedacht, kann man das doch vielleicht auch benutzen, um anstatt eines t-Tests zwei (lineare) Modelle anhand ihres AIC zu vergleichen. Das eine Modell ist y = a0 (beide Gruppen haben den selben Mittelwert, das lineare Modell hat keine „Steigung“ und beschreibt nur den gemeinsamen Mittelwert), das andere Modell ist y = a1*x + a0 (um den gemeinsamen Mittelwert herum gibt es noch einen Gruppen-Effekt).
Das zweite Modell macht Sinn: die ANOVA liefert ja den gleichen p-Wert wie der t-Test. Bei dem ersten Modell bin ich mir nicht ganz sicher, aber ich denke doch, dass es die Nullhypothese des t-Tests beschreibt.
Wenn ich nun die AICs für die beiden Modelle berechne für Daten, die in den Stichproben nicht unterschiedlich sind, dann die AICs beider Modelle etwa gleich groß. Je größer der Unterschied in den beiden Stichproben, desto kleiner ist das Verhältnis der AICs von Modell 1 zu Modell 2. Wie erwartet ist das Ergebnis unabhängig vom Stichprobenumfang, was das Verfahren ja so attraktiv gegenüber dem t-Test macht.
Nun ist die Frage: Gibt es irgentwelche Anhaltspunkte, ab welchem AIC-Verhältnis man ein Modell gegenüber einem anderen favorisiert?
Für gleiche Mittelwerte in 1000 Wiederholungen bekomme ich eine stark rechts-schiefe Verteilung von Verhältnissen, mit einem Mittelwert von 1.02, einem Interquartilsbereich (IQB) von 1.01-1.06 und einem Minimum von 0.5.
Für einen relativen Effekt (Mittelwertunterschied relativ zur Standardabweichung d=m/s) von 1 (was in der Psychologie schon als „starker Effekt“ bezeichnet wird) ist die Verteilung immer noch rechts-schief, mit einem Mittelwert von „nur“ 0.95, einem IQB von 0.89-1.03 und einem Minimum von 0.5.
Bei wirklich extremen Unterschieden (d=10) wird die Verteilung in etwa symmetrisch um die 0.5 (IQB: 0.43-0.53, Min: 0.12). Bei noch größeren unterschieden bleibt die Verteilung etwa symmetrisch, der Mittelwert geht auf die Null zu und der IQB wird enger.
Nicht die Lage des Mittelwertes (der AIC-Verhältnisse), wohl aber die Breite der IQB (IQR) scheint vom Stichprobenumfang abzuhängen: sie scheinen enger zu werden für größere Stichproben. Der Effekt ist allerdings nicht sehr groß. Die oben angegebenen Werte beziehen sich auf Stichproben vom Umfang 5 (IQR 0.14); für n=50 ist der IQR 0.04.
Wie geht man damit um? Hat das mal jemand versucht? Ist es überhaupt sinnvoll, einen Grenzwert für das Verhältnis zu nehmen? Fragen über Fragen…
LG
Jochen
PS: Für den unwahrscheinlichen Fall, dass tatsächlich jemand antwortet, dann bitte, bitte nicht zu mathematisch. Ich habe weder Mathe noch Statistik studiert - das ist alles nur „fundiertes Halbwissen“, also habt Nachsicht mit mir!
