T-Test goes AIC

Hallo,

ich habe so meine Probleme mit der Sinnhaftigkeit von Hypothesentests, daher habe ich ein wenig rumgestöbert und bin auf die Alternative gestoßen, dass man Modelle ja daran messen kann, wieviel Information verloren geht, wenn man ein (unbekannten) wahren Zusammenhang durch ein Modell beschreibt. Das kann man letzlich ausdrücken in Akaikes Informations-Kriterium (AIC), was eigentlich verwendet wird, um das geeignetste aus mehreren möglichen Modellen auszuwählen.

Nun hab ich mir gedacht, kann man das doch vielleicht auch benutzen, um anstatt eines t-Tests zwei (lineare) Modelle anhand ihres AIC zu vergleichen. Das eine Modell ist y = a0 (beide Gruppen haben den selben Mittelwert, das lineare Modell hat keine „Steigung“ und beschreibt nur den gemeinsamen Mittelwert), das andere Modell ist y = a1*x + a0 (um den gemeinsamen Mittelwert herum gibt es noch einen Gruppen-Effekt).

Das zweite Modell macht Sinn: die ANOVA liefert ja den gleichen p-Wert wie der t-Test. Bei dem ersten Modell bin ich mir nicht ganz sicher, aber ich denke doch, dass es die Nullhypothese des t-Tests beschreibt.

Wenn ich nun die AICs für die beiden Modelle berechne für Daten, die in den Stichproben nicht unterschiedlich sind, dann die AICs beider Modelle etwa gleich groß. Je größer der Unterschied in den beiden Stichproben, desto kleiner ist das Verhältnis der AICs von Modell 1 zu Modell 2. Wie erwartet ist das Ergebnis unabhängig vom Stichprobenumfang, was das Verfahren ja so attraktiv gegenüber dem t-Test macht.

Nun ist die Frage: Gibt es irgentwelche Anhaltspunkte, ab welchem AIC-Verhältnis man ein Modell gegenüber einem anderen favorisiert?


Für gleiche Mittelwerte in 1000 Wiederholungen bekomme ich eine stark rechts-schiefe Verteilung von Verhältnissen, mit einem Mittelwert von 1.02, einem Interquartilsbereich (IQB) von 1.01-1.06 und einem Minimum von 0.5.

Für einen relativen Effekt (Mittelwertunterschied relativ zur Standardabweichung d=m/s) von 1 (was in der Psychologie schon als „starker Effekt“ bezeichnet wird) ist die Verteilung immer noch rechts-schief, mit einem Mittelwert von „nur“ 0.95, einem IQB von 0.89-1.03 und einem Minimum von 0.5.

Bei wirklich extremen Unterschieden (d=10) wird die Verteilung in etwa symmetrisch um die 0.5 (IQB: 0.43-0.53, Min: 0.12). Bei noch größeren unterschieden bleibt die Verteilung etwa symmetrisch, der Mittelwert geht auf die Null zu und der IQB wird enger.

Nicht die Lage des Mittelwertes (der AIC-Verhältnisse), wohl aber die Breite der IQB (IQR) scheint vom Stichprobenumfang abzuhängen: sie scheinen enger zu werden für größere Stichproben. Der Effekt ist allerdings nicht sehr groß. Die oben angegebenen Werte beziehen sich auf Stichproben vom Umfang 5 (IQR 0.14); für n=50 ist der IQR 0.04.

Wie geht man damit um? Hat das mal jemand versucht? Ist es überhaupt sinnvoll, einen Grenzwert für das Verhältnis zu nehmen? Fragen über Fragen…

LG
Jochen

PS: Für den unwahrscheinlichen Fall, dass tatsächlich jemand antwortet, dann bitte, bitte nicht zu mathematisch. Ich habe weder Mathe noch Statistik studiert - das ist alles nur „fundiertes Halbwissen“, also habt Nachsicht mit mir!

Hallo,

ich habe so meine Probleme mit der Sinnhaftigkeit von
Hypothesentests,

Da kann man sehr lange philosophieren.
Ich denke, es gibt nichts Besseres.

daher habe ich ein wenig rumgestöbert und bin
auf die Alternative gestoßen, dass man Modelle ja daran messen
kann, wieviel Information verloren geht, wenn man ein
(unbekannten) wahren Zusammenhang durch ein Modell beschreibt.

Das ist doch nicht wirklich eine Alternative zu Hypothesentests?
Bei Hypothesentests wird -vereinfacht formuliert- technisches Wissen und Erfahrung mit einbezogen, während bei der Suche nach dem besten Modell nur die Zahlen selbst befragt werden. Das kann je nach Einzelfall zu völlig theoriefreien und somit praxisirrelevanten Modellen führen.

Das kann man letzlich ausdrücken in Akaikes
Informations-Kriterium (AIC), was eigentlich verwendet wird,
um das geeignetste aus mehreren möglichen Modellen
auszuwählen.

Ich würde gar nicht so weit gehen.
Das adjustierte Bestimmtheitsmass tut es doch auch, und wird obendrein von vielen Standard-Statistiksoftare-Paketen mitberechnet.

Nun hab ich mir gedacht, kann man das doch vielleicht auch
benutzen, um anstatt eines t-Tests zwei (lineare) Modelle
anhand ihres AIC zu vergleichen. Das eine Modell ist y = a0
(beide Gruppen haben den selben Mittelwert, das lineare Modell
hat keine „Steigung“ und beschreibt nur den gemeinsamen
Mittelwert), das andere Modell ist y = a1*x + a0 (um den
gemeinsamen Mittelwert herum gibt es noch einen
Gruppen-Effekt).

Dieses Beispiel zeigt mir, dass da zwei sich widersprechende Modelle verglichen werden. Ausserdem liefern sie , wie du unten schreibst, ähnliche AIC Werte. Die beiden widersprüchlichen Modelle sind also gleichermassen erklärend. Was bringt das jetzt?

Das zweite Modell macht Sinn: die ANOVA liefert ja den
gleichen p-Wert wie der t-Test.

Das ist ein Zirkelschluss. Eine ANOVA über 2 Stichproben
I_S_T ein t-Test.

Bei dem ersten Modell bin ich
mir nicht ganz sicher, aber ich denke doch, dass es die
Nullhypothese des t-Tests beschreibt.

Wenn ich nun die AICs für die beiden Modelle berechne für
Daten, die in den Stichproben nicht unterschiedlich sind, dann
die AICs beider Modelle etwa gleich groß. Je größer der
Unterschied in den beiden Stichproben, desto kleiner ist das
Verhältnis der AICs von Modell 1 zu Modell 2. Wie erwartet ist
das Ergebnis unabhängig vom Stichprobenumfang, was das
Verfahren ja so attraktiv gegenüber dem t-Test macht.

Attraktiv? Da wäre ich aber vorsichtig!

Nun ist die Frage: Gibt es irgentwelche Anhaltspunkte, ab
welchem AIC-Verhältnis man ein Modell gegenüber einem anderen
favorisiert?

Keine Ahnung, aber ich denke, Nein.
Deine folgenden Ausführungen habe ich -nach mehrfachem Durchlesen - nicht verstanden.

Grundsätzlich verstehe ich nicht, wie man Hypothesentests mit Informationskriterien in Zusammenhang bringen kann, aber evtl. bin ich da nicht vollständig informiert.

Gruss,
TR

Nochwas
Hallo,

ich habe so meine Probleme mit der Sinnhaftigkeit von
Hypothesentests.

Das ist grundsätzlich diskutabel.
Bedenke aber, dass Hypothesentests das statistische Werkzeug Nummer Eins bei der Erkenntnisgewinnung ist, fachübergreifend.
„Andere“ Werkzeuge setzt man eigentlich nur ein, wenn man keine Hypothese hat, wenn man also Zahlenmaterial vor sich liegen und Null Ahnung von Zusammenhängen hat.

Gruss,
TR

Hallo Thomas,

ich habe so meine Probleme mit der Sinnhaftigkeit von
Hypothesentests,

Da kann man sehr lange philosophieren.
Ich denke, es gibt nichts Besseres.

Das Problem an den Hypothesentestes ist, dass sie praktisch immer statistische Signifikanz erreichen, wenn der Stichprobenumfang hinreichend groß ist, weil die *realen* Populationen - auch bei Abwesenheit jedlichen Effekts -, die man vergleicht, nicht *einunddieselbe* Population ist (also die selbe Verteilung haben), wie sie unter der Nullhypothese aber angenommen werden.

Also: Bei realen Experimenten ist die Nullhypothese von vornherein NIE wahr. In manchen besonderen Fällen, bei gezielt geplanten Experimenten unter sehr gut kontrollierten Bedingungen kann man vielleicht noch davon ausgehen, dass, wenn kein Effekt existiert, die verglichenen Stichproben der „selben“ Population entstammen. Bei beobachtenden Studien kann man das aber auf keinen Fall mehr.

Hinzu kommt, dass Hypothesentests mit hinreichend großen Stichprobenumfängen einen noch so winzigen, vorhandenen Unterschied in den Stichproben statistisch signifikant nachweisen können. Die Aussage „statistisch signifikant“ gibt ohne die Angabe einer Effektstärke und die Beurteilung der Relevanz des beobachteten Effekts keine Information über die interessanten Aspekte. Dann bleibt immer noch das Problem mit der Beurteilung, was nun denn ein „reklevanter Effekt“ sei.

Das ist doch nicht wirklich eine Alternative zu
Hypothesentests?
Bei Hypothesentests wird -vereinfacht formuliert- technisches
Wissen und Erfahrung mit einbezogen, während bei der Suche
nach dem besten Modell nur die Zahlen selbst befragt werden.

Bei Hypothesentests wird gefragt, wie gut die Daten mit einer (zumeist nicht haltbaren und real eingermaßen sinnfreien) Nullhypothese erklärt werden können.

Das kann je nach Einzelfall zu völlig theoriefreien und somit
praxisirrelevanten Modellen führen.

Die Nullhypothese ist doch schon ein praxisirrelevantes Modell.

Ich würde gar nicht so weit gehen.
Das adjustierte Bestimmtheitsmass tut es doch auch, und wird
obendrein von vielen Standard-Statistiksoftare-Paketen
mitberechnet.

Das ist auch zu überlegen.

Dieses Beispiel zeigt mir, dass da zwei sich widersprechende
Modelle verglichen werden. Ausserdem liefern sie , wie du
unten schreibst, ähnliche AIC Werte.

Ähnliche AIC Werte liefern sie dann, wenn sie beide den gleichen Informationsverlust haben. Der Unterschied im Informationsverlust ist gering, weil das einfachere Modell nur halb so viele Parameter (nämliche einen) nutzt wie das „komplexere“ Modell (2). Durch die Einführung neuer Parameter sinkt aber der Erklärungswert.

Die beiden
widersprüchlichen Modelle sind also gleichermassen erklärend.
Was bringt das jetzt?

Der Unterschied ist doch da, er ist nur klein. Das mag doch eine Bedeutung haben. Vielleicht mache ich ja auch was falsch, weil womöglich die AICs um die Zahl der Parameter korrigiert werden müßten. Wie gesagt, ich habe ja leider keine Ahnung, und das waren nur so erste wilde Versuche.

Das ist ein Zirkelschluss. Eine ANOVA über 2 Stichproben
I_S_T ein t-Test.

Nee, kein Zirkelschluß. Ich habe nur angeführt DASS die ANOVA (und somit auch der t-Test) nichts anderes sind als lineare Modelle.

Attraktiv? Da wäre ich aber vorsichtig!

Warum? Es ist doch blöd, wenn ein Ergebnis mehr vom Stichprobenumfang als vom „Erklärungswert des Modells“ anhängt.

Grundsätzlich verstehe ich nicht, wie man Hypothesentests mit
Informationskriterien in Zusammenhang bringen kann, aber evtl.
bin ich da nicht vollständig informiert.

Informiert bin ich gewiß auch nicht :frowning:

Es geht nicht darum, beide in einen Zusammenhang zu bringen, sondern darum, mit einer ganz anderen Vorgehensweise als mit Hypothesentests einen interpretierbaren Anhaltspunkt aus Daten zu erhalten, der einem sagt, wie relevant Unterschiede in den Stichproben sind. Als Maß für die Relevanz könnte man - so meine vage Hoffnung - evtl. den „Erkärungswert“ oder eben die AICs hernehmen. War nur so’ne Idee.

Danke für die Antwort! - Ich denke weiter drüber nach!

LG
Jochen

Hallo,

unabhängig vom Stichprobenumfang

in der Literatur wird darauf hingewiesen, daß komplexere Modelle mit zunehmenden Stichprobenumfang bei Verwendung des AIC bevorzugt werden. Deshalb verwenden wir andere Informationskriterien.

Nun ist die Frage: Gibt es irgentwelche Anhaltspunkte, ab
welchem AIC-Verhältnis man ein Modell gegenüber einem anderen
favorisiert?

Wir sehen das Modell mit dem kleinsten AIC-Wert als das beste an und betrachten Differenzen zu Modellen mit höheren AIC-Werten. Zur Beurteilung der Größe der Differenzen machen wir von keinen Regeln Gebrauch, jedoch gibt es anscheinend solche Faustregeln.

Anscheinend versuchst Du für den AIC einen Signifikanztest zu entwickeln. Widerspricht das nicht Deiner anfänglichen Intention, die Entscheidung für ein Modell nicht vom Signifikanztest und seiner Stichprobenabhängigkeit abhängig zu machen?

Grüße

Hallo,

Deshalb verwenden wir andere
Informationskriterien.

Die da wären?

Wir sehen das Modell mit dem kleinsten AIC-Wert als das beste
an und betrachten Differenzen zu Modellen mit höheren
AIC-Werten. Zur Beurteilung der Größe der Differenzen machen
wir von keinen Regeln Gebrauch, jedoch gibt es anscheinend
solche Faustregeln.

Die da wären?

Anscheinend versuchst Du für den AIC einen Signifikanztest zu
entwickeln. Widerspricht das nicht Deiner anfänglichen
Intention, die Entscheidung für ein Modell nicht vom
Signifikanztest und seiner Stichprobenabhängigkeit abhängig zu
machen?

Hach ja, ich weiß, es siht so aus. Doch mißverstehe mich nicht. Ich will keinen Signifikanztest für AICs. Ich will sie _ersetzen_ durch AICs. Nun bekomme ich statt einer vom Stichprobenumfang abhängigen Irrtumswahrscheinlichkeit einer real sowieso nicht zutreffenden Nullhypothese einen Verhältniswert, der - unabhängig vom Stichprobenumfang - mit zunehmender Effektstärke größer wird, aber eben trotzem ein empirischer Wert ist, der eine Verteilung aufweist. Wie beurteile ich nun einen solchen Verhältniswert? Bei welchem „relativen Informationsverlust“ ist ein 2-Parametermodell einem 1-Parametermodell vorzuziehen? Es kann sein, dass ich mich jetzt wieder im Kreis drehe, wenn ich glaube, _dazu_ wieder einen Signifikanztest einzusetzen. Hier hat der aber ganz andere Voraussetzungen, weil die SELBEN Daten an unterschiedlichen Modellen getestet werden - ja, nichtmal die Daten, sondern die Modellbedingten Informationsverluste. Bei gleichwertigen Modellen ist die Nullhypothese hier wirklich wahr und kann sinnvoll getestet werden - allerdings wüßte ich nicht, wie… :frowning:

LG
Jochen

Hallo,

neben dem AIC gibt es noch diverse andere Informationskriterien. Wir verwenden eher den CAIC und den BIC. Eine Möglichkeit, Differenzen in diesen Maßen inferenzstatistisch abzusichern, ist mir nicht bekannt.

Grüße