Statistik: Auswertungsmethode

Hallo zusammen,

ich weiß nicht, ob das hier das richtige Board ist, eigentlich schade, dass es keine Rubrik „Statistik“ gibt. Es könnte auch bei Psychologie passen, aber ein Doppelposting ist ja nicht erwünscht.

Also, es geht um die statistische Auswertung eines Experiments. Es gibt 2 Faktoren, 1.) zeitlicher Abstand zwischen zwei Reizen und 2.) Position des zweiten Reizes. Beide Faktoren sind 4-fach gestuft. Gemessen wurde die Fehlerrate, alle Bedingungen wurden von den gleichen Probanden absolviert (within-subject-Design).

Zunächst habe ich eine ANOVA gerechnet. Hier werden die beiden Haupteffekte signifikant, nicht jedoch die Interaktion. Das liegt vermutlich an einer Faktorstufe, die sich deskriptiv fast gar nicht zwischen den Stufen des anderen Faktors unterscheidet.

Wie gehe ich am besten vor um zu zeigen, dass sich die anderen Faktorstufen durchaus interaktiv bzgl. des zweiten Faktors zeigen? Theoretisch wären auch viele t-Tests möglich, was jedoch zur Alphafehlerkumulation führen würde.

Vielen Dank schon mal,
Jan

Hallo,

ich weiß nicht, ob das hier das richtige Board ist, eigentlich
schade, dass es keine Rubrik „Statistik“ gibt. Es könnte auch
bei Psychologie passen, aber ein Doppelposting ist ja nicht
erwünscht.

Nö, Mathe ist besser. Eine Anova hat ja auch nix mit Psychologie zu tun! Das die Daten dazu aus einem Psychologischen Experiment kommen, ist der Anova egal.

Also, es geht um die statistische Auswertung eines
Experiments. Es gibt 2 Faktoren, 1.) zeitlicher Abstand
zwischen zwei Reizen und 2.) Position des zweiten Reizes.
Beide Faktoren sind 4-fach gestuft.

Ist die Frage, ob man den Faktor „Zeitlicher Abstand“ als gestufte Größe ins Modell nehmen muss. Bei Position weiß ich’s nicht, das hängt ja davon ab, was du unter „Position“ verstehst.

Wenn du die Faktoren als quantitative Regressoren beschreiben kannst, mußt du zwar auf eventuelle nichtlineare Zusammenhänge achten, gewinnst aber Freiheitsgrade für die Tests.

Gemessen wurde die Fehlerrate, alle Bedingungen wurden von den
gleichen Probanden absolviert (within-subject-Design).

Zunächst habe ich eine ANOVA gerechnet.

Stimmen die Vorraussetzungen für die Anova (gleiche Varianzen, normalverteilte Residuen)?

Gibt es "Einflußreiche Datenwerte?

In welchem Bereich liegen die Raten? Ist ein Normalverteilungs-Modell für die Residuen ok? Man könnte überlegen, ob man die log-Transformierten Raten nimmt oder besser (wenn die Anzahl der Versuche für jede Kombination gleich war) die Anzahl der Fehler und rechnet ein GLM mit Poisson-Fehlermodell.

Hier werden die beiden
Haupteffekte signifikant, nicht jedoch die Interaktion. Das
liegt vermutlich an einer Faktorstufe, die sich deskriptiv
fast gar nicht zwischen den Stufen des anderen Faktors
unterscheidet.

Nein, das glaube ich nicht. Die Interaktion testet, ob sich irgendeine Kombination von Faktorstufen anders verhält als die anderen.

Wie gehe ich am besten vor um zu zeigen, dass sich die anderen
Faktorstufen durchaus interaktiv bzgl. des zweiten Faktors
zeigen?

s.o.

Theoretisch wären auch viele t-Tests möglich, was
jedoch zur Alphafehlerkumulation führen würde.

Doch, das kann man machen. Gegen die Fehlerinflation mußt du natürlich korrigieren, das geht ja. Hier kannst du die Methode von Bonferroni-Holm nehmen (sei N die Anzahl der t-Tests; p-Werte sortieren, mit kleinstem anfangen, p-Wert mal N nehmen, nächschten p-Wert mal (N-1), usw. korrigierte p-Werte > 1 werden auf 1 gesetzt).

Auch hier gilt: Sind bei den Raten die Bedingungen erfüllt? Und: Wenn du keine krassen Unterschiede in den Varianzen hast, kann eine Varianzstabilisierung hilfreich sein (z.B. Verwendung eines gewichteten Mittelwertes der Varianzen aller Kombinationen).

VG
Jochen

In welchem Bereich liegen die Raten? Ist ein
Normalverteilungs-Modell für die Residuen ok? Man könnte
überlegen, ob man die log-Transformierten Raten nimmt

Ach, ich meine eine Probit- oder Logit-Transformation!

Vielen Dank für die Antwort. Nicht alles habe ich verstanden…

Hallo,

Also, es geht um die statistische Auswertung eines
Experiments. Es gibt 2 Faktoren, 1.) zeitlicher Abstand
zwischen zwei Reizen und 2.) Position des zweiten Reizes.
Beide Faktoren sind 4-fach gestuft.

Ist die Frage, ob man den Faktor „Zeitlicher Abstand“ als
gestufte Größe ins Modell nehmen muss. Bei Position weiß ich’s
nicht, das hängt ja davon ab, was du unter „Position“
verstehst.

Ich denke man sollte hier eine Nominalskalierung annehmen. Zeitlicher Abstand ist zwar im Prinzip ein Verhältnismaß, sollte sich aber qualitativ vollkommen unterschiedlich auf die kognitiven Prozesse auswirken. Position ist eine von vier Positionen auf dem Bildschirm, da gibt es keine Möglichkeit das als verhältnisskaliert zu interpretieren.

Wenn du die Faktoren als quantitative Regressoren beschreiben
kannst, mußt du zwar auf eventuelle nichtlineare Zusammenhänge
achten, gewinnst aber Freiheitsgrade für die Tests.

Gemessen wurde die Fehlerrate, alle Bedingungen wurden von den
gleichen Probanden absolviert (within-subject-Design).

Zunächst habe ich eine ANOVA gerechnet.

Stimmen die Vorraussetzungen für die Anova (gleiche Varianzen,
normalverteilte Residuen)?

Die Voraussetzungen sind gegeben.

Gibt es "Einflußreiche Datenwerte?

Was ist das?

In welchem Bereich liegen die Raten? Ist ein
Normalverteilungs-Modell für die Residuen ok? Man könnte
überlegen, ob man die log-Transformierten Raten nimmt oder
besser (wenn die Anzahl der Versuche für jede Kombination
gleich war) die Anzahl der Fehler und rechnet ein GLM mit
Poisson-Fehlermodell.

Welche Raten? Was meinst du mit „Normalverteilungsmodell ok“?

Hier werden die beiden
Haupteffekte signifikant, nicht jedoch die Interaktion. Das
liegt vermutlich an einer Faktorstufe, die sich deskriptiv
fast gar nicht zwischen den Stufen des anderen Faktors
unterscheidet.

Nein, das glaube ich nicht. Die Interaktion testet, ob sich
irgendeine Kombination von Faktorstufen anders verhält als die
anderen.

Wenn man sich mal als Beispiel vorstellt, dass unter Bed. A A.1 größer ist als A.2 und A.3. Unter Bed. B ist wiederum B.1 am größten (und sagen wir mal identisch zu A.1), B.2 jedoch kleiner als B.3. Wenn man .1 weglässt, hat man also eine schöne Interaktion. Mit .1 wird diese Interaktion jedoch abgeschwächt, da sich diese Faktorstufe gar nicht durch den anderen Faktor beeinlussen lässt. Oder sehe ich das falsch?

Wie gehe ich am besten vor um zu zeigen, dass sich die anderen
Faktorstufen durchaus interaktiv bzgl. des zweiten Faktors
zeigen?

s.o.

Theoretisch wären auch viele t-Tests möglich, was
jedoch zur Alphafehlerkumulation führen würde.

Doch, das kann man machen. Gegen die Fehlerinflation mußt du
natürlich korrigieren, das geht ja. Hier kannst du die Methode
von Bonferroni-Holm nehmen (sei N die Anzahl der t-Tests;
p-Werte sortieren, mit kleinstem anfangen, p-Wert mal N
nehmen, nächschten p-Wert mal (N-1), usw. korrigierte p-Werte
> 1 werden auf 1 gesetzt).

Wenn man schon a priori bestimmte Hypothesen bzgl. der Direktvergleiche hat, müsste man doch eigentlich keine Korrektur vornehmen, oder? Dann „fische“ ich ja nicht nach möglichen Unterschieden, die eben auch zufällig entstehen können, sondern schaue mir gezielt bestimmte Vergleiche an.

Auch hier gilt: Sind bei den Raten die Bedingungen erfüllt?
Und: Wenn du keine krassen Unterschiede in den Varianzen hast,
kann eine Varianzstabilisierung hilfreich sein (z.B.
Verwendung eines gewichteten Mittelwertes der Varianzen aller
Kombinationen).

Was ist eine Varianzstabilität?

VG
Jochen

Danke und Gruß,
Jan

Vielen Dank für die Antwort. Nicht alles habe ich
verstanden…

-)

Ich denke man sollte hier eine Nominalskalierung annehmen.

Ok. Sehe ich ein.

Stimmen die Vorraussetzungen für die Anova (gleiche Varianzen,
normalverteilte Residuen)?

Die Voraussetzungen sind gegeben.

Gut.

Gibt es "Einflußreiche Datenwerte?

Was ist das?

Das sind Datenwerte, die einen großen Einfluß auf das Ergebnis haben. „Ausreißer“ sozusagen.

Welche Raten? Was meinst du mit „Normalverteilungsmodell ok“?

Deine Antwortvariable sind doch Fehlerraten (hast du so geschrieben). Eine solche Fehlerrate stelle ich mir vor als zB „Anzahl falsche Antworten pro Anzahl Fragen“. Wenn die Raten nahe an 0 oder nahe an 1 liegen, kann man nicht mehr von normalverteilten Fehlern ausgehen (dann sollte man negative Raten oder Raten > 1 erwarten, was aber logisch unmöglich ist).

Wenn man sich mal als Beispiel vorstellt, dass unter Bed. A
A.1 größer ist als A.2 und A.3. Unter Bed. B ist wiederum B.1
am größten (und sagen wir mal identisch zu A.1), B.2 jedoch
kleiner als B.3. Wenn man .1 weglässt, hat man also eine
schöne Interaktion. Mit .1 wird diese Interaktion jedoch
abgeschwächt, da sich diese Faktorstufe gar nicht durch den
anderen Faktor beeinlussen lässt. Oder sehe ich das falsch?

Hmm, mit dem Beispiel komme ich nicht ganz klar. Ich versuche es mal anders:

Nehmen wir die Faktoren mal ZEIT und POS (Position). Ein simpler Haupteffekt im Einfaktoriellen Modell von ZEIT sagt, dass die Mittelwerte in den Stufen von ZEIT nicht alle gleich sind. Das gleiche gilt für POS. Im zweifaktorielle Modell ohne Interaktion gilt das genauso, getrennt für jeden Faktor, als wären es zwei einfaktorielle Modelle, die nur in einem Aufwasch behandelt werden.

Die Interaktion testet, ob sich die Mittelwerte der ZEIT-Stufen für alle POS-Stufen gleich verhalten.

Beispiel:

ZEIT hat die Stufen „kurz“, „mittel“ und „lang“
POS hat die Stufen „oben“ und „unten“

Als Antwortvariable (Mittelwerte) nehmen wir nun mal folgende Werte:

 ZEIT
POS kurz mittel lang
oben 1 2 3
unten 6 7 8

Mach davon mal ein Balkendiagramm. Du siehst, dass das Muster über die ZEIT in beiden Stufen von POS gleich ist (genauso natürlich die Muster über POS in allen drei Stufen von ZEIT).

Das ist keine Interaktion. Hier wären beide Haupteffekte sig., nicht aber die Interaktion.

Nun sowas:

 ZEIT
POS kurz mittel lang
oben 1 4 1
unten 6 7 8

Auch hier sind wieder Haupteffekte, aber wenn man die Muster vergleicht, sind die eben anders. Das wäre eine sig. Interaktion.
Sowas kann dazu führen, dass man nur die sig. Interaktion erhält, aber keiner der Haupteffekte sig. ist:

 ZEIT
POS kurz mittel lang
oben 5 4.5 5
unten 4.5 5 4.5

Also nochmal: Wenn beide Balkenreihen das gleiche Muster zeigen und im wesentlichen nur verschoben sind, dann hat man keine Interaktion. Interaktion heist: Das Muster in den Reihen ist verschieden; durch eine Verschiebung der einen Reihe gegen die andere ließen sich die Balken nicht in Deckung bringen.

Wenn man schon a priori bestimmte Hypothesen bzgl. der
Direktvergleiche hat, müsste man doch eigentlich keine
Korrektur vornehmen, oder? Dann „fische“ ich ja nicht nach
möglichen Unterschieden, die eben auch zufällig entstehen
können, sondern schaue mir gezielt bestimmte Vergleiche an.

Dann ist die Frage, wieso alle Kombinationen untersucht wurden!

Was ist eine Varianzstabilität?

Der t-Test basiert ja auf dem t-Wert, das ist ja die Mittelwertdifferenz durch den Standardfehler. Dieser wiederum wird geschätzt aus den Varianzen der beiden Stichproben. So eine Schätzung ist aber nicht sonderlich gut, insbesondere nicht für kleine Stichproben. So kommt es, dass sich die geschätzten Varianzen verschiedener Stichproben aus ein und derselben Population oft drastisch unterschieden.

Wenn man weiß, dass die Erwartungswerte der Varianzen in all den Stichproben nicht großartig unterschiedlich sein dürfen (das ist zB. eine Annahme, die bei der ANOVA sowieso erfüllt sein muss), dann kann man die Varianzschätzung verbessern, indem man ALLE Daten dafür nimmt, und nicht nur den Teil, der gerade im T-Test benutzt wird. Damit werden die Schätzungen der Varianzen in den vielen Stichproben einander ähnlicher, also „stabiler“.

Bitte und Gruß,
Jochen

1 „Gefällt mir“

In welchem Bereich liegen die Raten? Ist ein
Normalverteilungs-Modell für die Residuen ok? Man könnte
überlegen, ob man die log-Transformierten Raten nimmt

Ach, ich meine eine Probit- oder Logit-Transformation!

Was - unabhängig von allen Fragen - auf jeden Fall zu empfehlen ist. Dennoch sollte man sich die „Mühe“ machen und einen QQ Plot generieren und anschauen. Tipp: Mal mit zufälligen normalverteilten Werten einen entsprechenden Plot genereiren um ein (vages) Gefühl dafür zu bekommen, wie soetwas im Bestfall aussieht.
Grüße,
JPL

1 „Gefällt mir“

Vielen Dank für die Antwort. Nicht alles habe ich
verstanden…

-)

Ich denke man sollte hier eine Nominalskalierung annehmen.

Ok. Sehe ich ein.

Stimmen die Vorraussetzungen für die Anova (gleiche Varianzen,
normalverteilte Residuen)?

Die Voraussetzungen sind gegeben.

Gut.

Gibt es "Einflußreiche Datenwerte?

Was ist das?

Das sind Datenwerte, die einen großen Einfluß auf das Ergebnis
haben. „Ausreißer“ sozusagen.

Welche Raten? Was meinst du mit „Normalverteilungsmodell ok“?

Deine Antwortvariable sind doch Fehlerraten (hast du so
geschrieben). Eine solche Fehlerrate stelle ich mir vor als zB
„Anzahl falsche Antworten pro Anzahl Fragen“. Wenn die Raten
nahe an 0 oder nahe an 1 liegen, kann man nicht mehr von
normalverteilten Fehlern ausgehen (dann sollte man negative
Raten oder Raten > 1 erwarten, was aber logisch unmöglich
ist).

Ja genau, die Fehlerrate, bzw. umgekehrt die Korrektheit der Antworten. Die liegt so zwischen 60 und 90%, über alle Bedingungen gerechnet.

Wenn man sich mal als Beispiel vorstellt, dass unter Bed. A
A.1 größer ist als A.2 und A.3. Unter Bed. B ist wiederum B.1
am größten (und sagen wir mal identisch zu A.1), B.2 jedoch
kleiner als B.3. Wenn man .1 weglässt, hat man also eine
schöne Interaktion. Mit .1 wird diese Interaktion jedoch
abgeschwächt, da sich diese Faktorstufe gar nicht durch den
anderen Faktor beeinlussen lässt. Oder sehe ich das falsch?

Hmm, mit dem Beispiel komme ich nicht ganz klar. Ich versuche
es mal anders:

Nehmen wir die Faktoren mal ZEIT und POS (Position). Ein
simpler Haupteffekt im Einfaktoriellen Modell von ZEIT sagt,
dass die Mittelwerte in den Stufen von ZEIT nicht alle gleich
sind. Das gleiche gilt für POS. Im zweifaktorielle Modell ohne
Interaktion gilt das genauso, getrennt für jeden Faktor, als
wären es zwei einfaktorielle Modelle, die nur in einem
Aufwasch behandelt werden.

Die Interaktion testet, ob sich die Mittelwerte der
ZEIT-Stufen für alle POS-Stufen gleich verhalten.

Beispiel:

ZEIT hat die Stufen „kurz“, „mittel“ und „lang“
POS hat die Stufen „oben“ und „unten“

Als Antwortvariable (Mittelwerte) nehmen wir nun mal folgende
Werte:

ZEIT
POS kurz mittel lang
oben 1 2 3
unten 6 7 8

Mach davon mal ein Balkendiagramm. Du siehst, dass das Muster
über die ZEIT in beiden Stufen von POS gleich ist (genauso
natürlich die Muster über POS in allen drei Stufen von ZEIT).

Das ist keine Interaktion. Hier wären beide Haupteffekte sig.,
nicht aber die Interaktion.

Nun sowas:

ZEIT
POS kurz mittel lang
oben 1 4 1
unten 6 7 8

Auch hier sind wieder Haupteffekte, aber wenn man die Muster
vergleicht, sind die eben anders. Das wäre eine sig.
Interaktion.
Sowas kann dazu führen, dass man nur die sig. Interaktion
erhält, aber keiner der Haupteffekte sig. ist:

ZEIT
POS kurz mittel lang
oben 5 4.5 5
unten 4.5 5 4.5

Also nochmal: Wenn beide Balkenreihen das gleiche Muster
zeigen und im wesentlichen nur verschoben sind, dann hat man
keine Interaktion. Interaktion heist: Das Muster in den Reihen
ist verschieden; durch eine Verschiebung der einen Reihe gegen
die andere ließen sich die Balken nicht in Deckung bringen.

Die Beispiel leuchten mir ein, aber bei mir sieht es folgendermaßen aus:

ZEIT
POS kurz mittel lang
oben 3 3 3
mitte 1 4 1
unten 6 4 6

Wenn man POS=oben weglassen würde, wäre es eine klare Interaktion, aber durch die „Nichtreaktivität“ dieser Faktorstufe auf den zweiten Faktor, wird die Interaktion insgesamt nicht mehr signifikant. Dennoch steckt da ja eine Interaktion in den Daten, die Frage ist, wie man sie sichtbar macht und statistisch testet.

Wenn man schon a priori bestimmte Hypothesen bzgl. der
Direktvergleiche hat, müsste man doch eigentlich keine
Korrektur vornehmen, oder? Dann „fische“ ich ja nicht nach
möglichen Unterschieden, die eben auch zufällig entstehen
können, sondern schaue mir gezielt bestimmte Vergleiche an.

Dann ist die Frage, wieso alle Kombinationen untersucht
wurden!

Was ist eine Varianzstabilität?

Der t-Test basiert ja auf dem t-Wert, das ist ja die
Mittelwertdifferenz durch den Standardfehler. Dieser wiederum
wird geschätzt aus den Varianzen der beiden Stichproben. So
eine Schätzung ist aber nicht sonderlich gut, insbesondere
nicht für kleine Stichproben. So kommt es, dass sich die
geschätzten Varianzen verschiedener Stichproben aus ein und
derselben Population oft drastisch unterschieden.

Wie teste ich diese Varianzstibilität in SPSS?

Wenn man weiß, dass die Erwartungswerte der Varianzen in all
den Stichproben nicht großartig unterschiedlich sein dürfen
(das ist zB. eine Annahme, die bei der ANOVA sowieso erfüllt
sein muss), dann kann man die Varianzschätzung verbessern,
indem man ALLE Daten dafür nimmt, und nicht nur den Teil, der
gerade im T-Test benutzt wird. Damit werden die Schätzungen
der Varianzen in den vielen Stichproben einander ähnlicher,
also „stabiler“.

Wie verwende ich die Varianzen aller Daten für einen einzelnen t-Test?

Bitte und Gruß,
Jochen

Besten Dank und schöne Grüße,
Jan

Hi,

Die Beispiel leuchten mir ein, aber bei mir sieht es
folgendermaßen aus:

ZEIT
POS kurz mittel lang
oben 3 3 3
mitte 1 4 1
unten 6 4 6

Vorausgesetzt, diese Werte beruhen auf hinreichend großen Stichproben, so zeigt diese Tabelle doch auf jeden Fall eine Interaktion: Die Werte über die ZEIT haben eben NICHT alle die gleiche Verteilungform in allen POS-Kategorien.

Wenn man POS=oben weglassen würde, wäre es eine klare
Interaktion, aber durch die „Nichtreaktivität“ dieser
Faktorstufe auf den zweiten Faktor, wird die Interaktion
insgesamt nicht mehr signifikant.

Hast du das so ausgerechnet?
Sowas kann passieren, wenn die Stichprobe fast zu klein ist; durch einen dreistufigen Faktor verliert man dann noch einen Freiheitsgrad, und dann kann es eng werden mir der Signifikanz.

Dennoch steckt da ja eine
Interaktion in den Daten, die Frage ist, wie man sie sichtbar
macht und statistisch testet.

Sichtbar: Am besten über ein sog. Interaction-Plot (zB.: http://www.stat.psu.edu/online/courses/stat502/15_re…)

Test: Naja, eben über den Interaktions-Term in der Anova.

Wie teste ich diese Varianzstibilität in SPSS?

Levene-Test vielleicht?

Wie verwende ich die Varianzen aller Daten für einen einzelnen
t-Test?

Für jede Gruppe gibt es eine Varianz. Diese Varianzen kann man „poolen“ (http://en.wikipedia.org/wiki/Pooled_variance).

Daraus kann man den Standardfehler berechnen und den t-Wert und den p-Wert (http://de.wikipedia.org/wiki/T-Test).

VG
Jochen