Vielen Dank für die Antwort. Nicht alles habe ich
verstanden…
-)
Ich denke man sollte hier eine Nominalskalierung annehmen.
Ok. Sehe ich ein.
Stimmen die Vorraussetzungen für die Anova (gleiche Varianzen,
normalverteilte Residuen)?
Die Voraussetzungen sind gegeben.
Gut.
Gibt es "Einflußreiche Datenwerte?
Was ist das?
Das sind Datenwerte, die einen großen Einfluß auf das Ergebnis haben. „Ausreißer“ sozusagen.
Welche Raten? Was meinst du mit „Normalverteilungsmodell ok“?
Deine Antwortvariable sind doch Fehlerraten (hast du so geschrieben). Eine solche Fehlerrate stelle ich mir vor als zB „Anzahl falsche Antworten pro Anzahl Fragen“. Wenn die Raten nahe an 0 oder nahe an 1 liegen, kann man nicht mehr von normalverteilten Fehlern ausgehen (dann sollte man negative Raten oder Raten > 1 erwarten, was aber logisch unmöglich ist).
Wenn man sich mal als Beispiel vorstellt, dass unter Bed. A
A.1 größer ist als A.2 und A.3. Unter Bed. B ist wiederum B.1
am größten (und sagen wir mal identisch zu A.1), B.2 jedoch
kleiner als B.3. Wenn man .1 weglässt, hat man also eine
schöne Interaktion. Mit .1 wird diese Interaktion jedoch
abgeschwächt, da sich diese Faktorstufe gar nicht durch den
anderen Faktor beeinlussen lässt. Oder sehe ich das falsch?
Hmm, mit dem Beispiel komme ich nicht ganz klar. Ich versuche es mal anders:
Nehmen wir die Faktoren mal ZEIT und POS (Position). Ein simpler Haupteffekt im Einfaktoriellen Modell von ZEIT sagt, dass die Mittelwerte in den Stufen von ZEIT nicht alle gleich sind. Das gleiche gilt für POS. Im zweifaktorielle Modell ohne Interaktion gilt das genauso, getrennt für jeden Faktor, als wären es zwei einfaktorielle Modelle, die nur in einem Aufwasch behandelt werden.
Die Interaktion testet, ob sich die Mittelwerte der ZEIT-Stufen für alle POS-Stufen gleich verhalten.
Beispiel:
ZEIT hat die Stufen „kurz“, „mittel“ und „lang“
POS hat die Stufen „oben“ und „unten“
Als Antwortvariable (Mittelwerte) nehmen wir nun mal folgende Werte:
ZEIT
POS kurz mittel lang
oben 1 2 3
unten 6 7 8
Mach davon mal ein Balkendiagramm. Du siehst, dass das Muster über die ZEIT in beiden Stufen von POS gleich ist (genauso natürlich die Muster über POS in allen drei Stufen von ZEIT).
Das ist keine Interaktion. Hier wären beide Haupteffekte sig., nicht aber die Interaktion.
Nun sowas:
ZEIT
POS kurz mittel lang
oben 1 4 1
unten 6 7 8
Auch hier sind wieder Haupteffekte, aber wenn man die Muster vergleicht, sind die eben anders. Das wäre eine sig. Interaktion.
Sowas kann dazu führen, dass man nur die sig. Interaktion erhält, aber keiner der Haupteffekte sig. ist:
ZEIT
POS kurz mittel lang
oben 5 4.5 5
unten 4.5 5 4.5
Also nochmal: Wenn beide Balkenreihen das gleiche Muster zeigen und im wesentlichen nur verschoben sind, dann hat man keine Interaktion. Interaktion heist: Das Muster in den Reihen ist verschieden; durch eine Verschiebung der einen Reihe gegen die andere ließen sich die Balken nicht in Deckung bringen.
Wenn man schon a priori bestimmte Hypothesen bzgl. der
Direktvergleiche hat, müsste man doch eigentlich keine
Korrektur vornehmen, oder? Dann „fische“ ich ja nicht nach
möglichen Unterschieden, die eben auch zufällig entstehen
können, sondern schaue mir gezielt bestimmte Vergleiche an.
Dann ist die Frage, wieso alle Kombinationen untersucht wurden!
Was ist eine Varianzstabilität?
Der t-Test basiert ja auf dem t-Wert, das ist ja die Mittelwertdifferenz durch den Standardfehler. Dieser wiederum wird geschätzt aus den Varianzen der beiden Stichproben. So eine Schätzung ist aber nicht sonderlich gut, insbesondere nicht für kleine Stichproben. So kommt es, dass sich die geschätzten Varianzen verschiedener Stichproben aus ein und derselben Population oft drastisch unterschieden.
Wenn man weiß, dass die Erwartungswerte der Varianzen in all den Stichproben nicht großartig unterschiedlich sein dürfen (das ist zB. eine Annahme, die bei der ANOVA sowieso erfüllt sein muss), dann kann man die Varianzschätzung verbessern, indem man ALLE Daten dafür nimmt, und nicht nur den Teil, der gerade im T-Test benutzt wird. Damit werden die Schätzungen der Varianzen in den vielen Stichproben einander ähnlicher, also „stabiler“.
Bitte und Gruß,
Jochen