Likert-Skala und Nicht-parametrische Tests

Hallo zusammen,

ich werte zur Zeit einen selbsterstellen Fragebogen aus, der u.a. 5-stufige-Likert-Skalen verwendet. Diese sind nach den vorgeschlagenen Ausprägungen von Rohrmann 1978 aufgebaut (außerordentlich = 4, ziemlich = 2, mittelmäßig = 0, kaum = -2, gar nicht = -4), sodass sie – nach der gängigen Meinung verschiedener Fachrichtungen (z.B. Sozialwissenschaften) – als annähernd intervallskaliert betrachtet werden können. Damit ließen sich bspw. auch t-Tests durchführen.
Da Aufgrund der teilweise gegebenen Verletzung der Normalverteilungsannahme diese Test aber nicht anwendbar sind, wollte ich nun auf nicht-parametrische Tests ausweichen.
Jetzt aber zu meinem Problem: Laut diverser Statistikliteratur setzt bspw. der Wilcoxon- oder auch der Vorzeichentest eine stetige Verteilung der Differenzen zweier abhängiger Variablen voraus. Jetzt ist nur die Frage können die Differenzen von Likert-Variablen stetig verteilt sein? Wenn nicht-parametrische Tests im Allg. nur ordinales Skalenmaß benötigen, die normal nie stetig sind, wie kann dann diese Voraussetzung allg. erfüllt werden? Oder verwechsele ich hier etwas?

Desweiteren noch eine Frage, die eher in den Bereich parametrische Tests fallen würde: Wenn die Annahme der Normalverteilung durch einen Shapiro-Wilk-Test abgelehnt werden muss (z.B. p = 0,001), ich aber ein n > 30 habe, können dann dennoch parametrische Tests (t-Test für verbundene Stichproben) angewendet werden (im Sinne des zentralen Grenzwertsatzes)?

Und noch eine kleine letzte Frage zu den Unterschieden in den Voraussetzungen von Wilcoxon- und Vorzeichentest. Besteht hier nur der Unterschied, dass der Vorzeichentest keine Symmetrie der Verteilung voraussetzt?

Würde mich sehr über Antworten freuen.

Beste Grüße
Julian

Hi,

ich werte zur Zeit einen selbsterstellen Fragebogen aus, der
u.a. 5-stufige-Likert-Skalen verwendet. Diese sind nach den
vorgeschlagenen Ausprägungen von Rohrmann 1978 aufgebaut […]
sodass sie – nach der gängigen Meinung verschiedener Fachrichtungen
(z.B. Sozialwissenschaften) – als
annähernd intervallskaliert betrachtet werden können. Damit
ließen sich bspw. auch t-Tests durchführen.

Was sie aber per se nicht sind. Von daher ist der t-test mit vorsicht zu geniessen.
Vielmehr sollte man die ordinale Struktur bedenken und sich auf ansätze wie diesen konzentrieren: http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2613284/
Das zugegebenermassen etwas härtere paper wäre dann http://www.ncbi.nlm.nih.gov/pubmed/18266890

Jetzt aber zu meinem Problem: Laut diverser
Statistikliteratur setzt bspw. der Wilcoxon- oder auch der
Vorzeichentest eine stetige Verteilung der Differenzen zweier
abhängiger Variablen voraus. Jetzt ist nur die Frage können
die Differenzen von Likert-Variablen stetig verteilt sein?

Nein. und: Die voraussetzung der stetigen Verteilung für wilcoxon ist auch keine echte Voraussetzung für den Test, sondern nur, um Bindungen zu vermeiden, die bei dir auf jeden Fall auftreten werden. Mittlerweile gibt es aber korrekturen für Bindungen (im einfachsten Fall werden sie einfach ignoriert).

Wenn nicht-parametrische Tests im Allg. nur ordinales
Skalenmaß benötigen, die normal nie stetig sind, wie kann dann
diese Voraussetzung allg. erfüllt werden? Oder verwechsele ich
hier etwas?

Nein, da liegst du völlig richtig. es sollen wie gesagt nur bindungen vermieden werden.

Desweiteren noch eine Frage, die eher in den Bereich
parametrische Tests fallen würde: Wenn die Annahme der
Normalverteilung durch einen Shapiro-Wilk-Test abgelehnt
werden muss (z.B. p = 0,001), ich aber ein n > 30 habe, können
dann dennoch parametrische Tests (t-Test für verbundene
Stichproben) angewendet werden (im Sinne des zentralen
Grenzwertsatzes)?

Der zentrale Gernzwertsatz macht keine Aussage über die Konvergenzgeschwindigkeit. Das hängt i.a. von der Verteilung deiner Daten ab, wie schnell da was gegen was konvergiern könnte. Du könntest ein noch besseres Bild bekommen, wenn du auch noch einen QQ-Plot machst, aber ich denke nicht, dass das ein schönes bild ergibt, wenn der Shapiro schon sig. ist.
Überhaupt würde ich als reviewer die Argumentation recht fragwürdig finden: Der Test lässt auch keine normalverteilung schließen, aber (weil es einem nicht passt) dann wird der ZGS herangezerrt um zu ‚zeigen‘, dass die daten doch normalverteilt sind …

Und noch eine kleine letzte Frage zu den Unterschieden in den
Voraussetzungen von Wilcoxon- und Vorzeichentest. Besteht hier
nur der Unterschied, dass der Vorzeichentest keine Symmetrie
der Verteilung voraussetzt?

auch der Wilcoxon setzt keine Symmetrie voraus. Aber: wenn man lokationsunterschiede testen will, dann sollte symmetrie vorliegen, bzw. gleich shape der beiden Verteilungen, sonst kann es sein, dass ein Unterschied zwischen mittelwerten gefunden wird, obwohl sie gleich sind (weil aber die Verteilung anders ist). anders gesagt: wie auch bei allen anderen Tests beinhaltet die Nullhpothese nicht nur das, was man untersuchen will, sondern auch alle voraussetzungen für den Test. Lehnt man H0 nun ab und ist sich nicht sicher, dass man alle Voraussetzungen für den test erfüllt, kann man auch statt dem, was man untersuchen wollte eine der voraussetzungen abgelehnt haben.
damit kommen wir dann zu deiner zweiten Frage: Wenn du mit dem vorzeichentest Lageunterschiede testen will, dann wäre symmetrie von Vorteil, denn sonst testest du auf gleich Lage und Symmetrie. Was dann abgelehnt wird, wäre (erstmal) unklar.
von daher ist es immer richtig und wichtig eine deskriptive analyse zu machen.

Viele Grüße,
JPL

Hallo JPL,

vielen Dank schon mal für deine ausführliche Antwort.

Mir sind nun ein paar Fragen zu deiner Antwort aufgekommen. Ich wäre sehr dankbar, wenn du mir diesbezüglich nochmal ein paar Erklärungen geben könntest!

Büning und Trenkler weißen für den Vorzeichen- und Wilcoxon-Test die Stetigkeit als Voraussetzung aus und verweisen später – wie du sagtest – auf das zusammenhängende Problem mit den Bindungen hin (das wurde mir leider erst jetzt durch deine Antwort klar!). Wie kann ich aber nun Begründen, dass ich den Test doch anwende, obwohl keine Stetigkeit vorliegt und somit prinzipiell die Voraussetzung nicht erfüllt ist. Kann ich hier vlt. Bentler und Chou (1987), S. 88 zitieren?
„Continuous methods can be used with little worry when a variable has four or more categories, but with three or fewer categories one should probably consider the use of alternative procedures.“

Allgemein gibt es bei mir folgende Bindungen bei den Wilcoxon-Tests:

  1. Pos. 2 Neg. 26 Bind. 4
  2. Pos. 0 Neg. 25 Bind. 7
  3. Pos. 2 Neg. 15 Bind. 15

Geht SPSS vernünftig und konservativ mit Bindungen hinsichtlich des Verwerfens der H0 vor, so dass ein Testergebnis valide ist? Kann ich hierzu etwas zitieren?

Bzgl. der Normalverteilung. Kann ich nicht so in meiner Argumentation vorgehen: Nach Shapiro prüfe ich auf Normalverteilung, da diese nicht gegeben ist, kann ich aber auf die Gegebenheit n > 30 springen, wie dies Sachs in seinem Buch „Angewandte Statistik“ schreibt. Und zur Überprüfung, des Testergebnisses führe ich noch einen NP-Test durch, der allerdings an Teststärke verliert, sofern doch eine Normalverteilung in der Grundgesamtheit vorliegt!?

Irgendwie verstehe ich es noch nicht so ganz. Im Prinzip ist ja die Normalverteilung der Grundgesamtheit entscheidend nicht der der Stichprobe, oder? Der Shapiro-Wilk testet aber quasi, ob die Stichprobenrealisation von einer NV-Grundgesamtheit stammen kann, wenn das abgelehnt wird, dann könnte man doch mit dem n > 30 kommen, oder?

Zur Symmetrie: Büning und Trenkler 1994 schreiben bei den Voraussetzungen beim Wilcoxon-Test: Die Verteilung der Differenzen Di = Yi - Xi sind symmetrisch um den Median M. Beim Vorzeichen-Test erwähnen sie diese Voraussetzungen nicht. Ich habe in meinen drei Differenzen einmal einen Schiefewert von 0,819; 0,008 und -0,279. Bei ersteren und letzterem kann man wohl von Schiefe reden, oder? So müsste man doch den Vorzeichentest anwenden müssen und können!?

Welche Lageparameter müssen denn gleich sein, damit „nur“ der Mittelwert bzw. Median untersucht wird? Und warum wird dann sowas nicht in den Voraussetzungen genannt?

Meine Unterschiede sind wie folgt:

  1. Test: Schiefe: -0,974 vs. 0,179 -> Schiefe der Differenzen 0,819
    Kurtosis: 1,739 vs. 0,265 -> Kurtosis der Differenzen 0,540

  2. Test: Schiefe: -0,792 vs. -0,142 -> Schiefe der Differenzen 0,008
    Kurtosis: -0,391 vs. -0,920 -> Kurtosis der Differenzen: -1,309

  3. Test: Schiefe: -1,404 vs. -0,924 -> Schiefe der Differenzen -0,279
    Kurtosis: 2,182 vs. 1,395 -> Kurtosis der Differenzen 0,404

Wäre sehr dankbar für deine, aber auch andere Hilfe!

Grüße,
Julian

Noch als kleine Anmerkung. Ich test verbundene Stichproben, daher auch der t-test für verbundene Stichproben bzw. der Wilcoxon(-Vorzeichen-Rang-Test).
Die Voraussetzung gleiche Verteilung kam mir bisher nur bei unabhängigem Vergleich vor bspw. U-Test.

Hi Julian,

Geht SPSS vernünftig und konservativ mit Bindungen
hinsichtlich des Verwerfens der H0 vor, so dass ein
Testergebnis valide ist? Kann ich hierzu etwas zitieren?

Zuerst würde ich nachsehen, was SPSS im Falle von Bindungen macht. Dann würde ich mir überlegen, ob ich das okay finde und mit pseudodaten herumspielen um ein Gefüh für das Ausmass des Vorgehens bei Bindungen zu bekommen.
Ich vermute, dass SPSS die Bindungen ignoriert und dann die Teststatistik nur auf Basis der nicht-Bindungen berechnet. Das kann insofern irreführend sein, also dass bspw bei 1000 Bindungen (die ja keine Veränderung bedeuten) und 20 nicht-bindungen ein sig. ergebnis herauskommt, weil für den kritischen Wert nur n=20, statt 1020 verwendet wird.

Bzgl. der Normalverteilung. Kann ich nicht so in meiner
Argumentation vorgehen: Nach Shapiro prüfe ich auf
Normalverteilung, da diese nicht gegeben ist, kann ich aber
auf die Gegebenheit n > 30 springen, wie dies Sachs in seinem
Buch „Angewandte Statistik“ schreibt. Und zur Überprüfung, des
Testergebnisses führe ich noch einen NP-Test durch, der
allerdings an Teststärke verliert, sofern doch eine
Normalverteilung in der Grundgesamtheit vorliegt!?

bei dem vorgehen würde ich dich fragen, arum du dann überhaupt getestet hast. Du overrulest den Test ja in genau dem Fall, wenn etwas herauskommt, was dir nicht passt um dann ein Arguemtn herzunehmen (n> 30) was sowieso gegeben ist. D.h. du wolltest dich eh nur absichern, aber sowieso einen t-test machen.
Wenn du aber dem outcome des tests aber nicht folgen willst, dann kannst du ihn dir auch gleich sparen.
Aber bei n>30 (von welchem n reden wir eiegentlich, n=2000 oder n=31?) mit Näherung durch die Normalverteilung zu kommen ist - naja - etwas altmodisch. R (wilcox.test) bspw zieht die Normalverteilung erst bei n>50 heran und auch sonst hat sich schon einiges getan in den letzten 24 Jahren. Nen paar neue schmöcker wären da mal angebracht :smile:

Irgendwie verstehe ich es noch nicht so ganz. Im Prinzip ist
ja die Normalverteilung der Grundgesamtheit entscheidend nicht
der der Stichprobe, oder?

Nein. Deine GG liegt ja nicht zum testen vor, sondern eben nur deine Stichprobe.

Der Shapiro-Wilk testet aber quasi,
ob die Stichprobenrealisation von einer NV-Grundgesamtheit
stammen kann, wenn das abgelehnt wird, dann könnte man doch
mit dem n > 30 kommen, oder?

Hä? ne.
Der test gibt einen p-Wert von sagen wir 0.0002 aus, und du willst dann argumentieren, dass die GG normalverteilt sei, weil deren n > 30 ist? Dann ist jede GG normalverteilt - schön, aber das nützt dir nichts. du musst ja mit der Verteilung deiner Daten arbeiten, weil das das einzige ist, was du hast.

Zur Symmetrie: Büning und Trenkler 1994 schreiben bei den
Voraussetzungen beim Wilcoxon-Test: Die Verteilung der
Differenzen Di = Yi - Xi sind symmetrisch um den Median M.
Beim Vorzeichen-Test erwähnen sie diese Voraussetzungen nicht.
Ich habe in meinen drei Differenzen einmal einen Schiefewert
von 0,819; 0,008 und -0,279. Bei ersteren und letzterem kann
man wohl von Schiefe reden, oder? So müsste man doch den
Vorzeichentest anwenden müssen und können!?

Ja, kannst du. aber:
die Verteilung der Diffs für den wilcox werden vorausgesetzt, weil man eine abweichung des lageparameters von 0 testen will und keine abweichung von der Verteilung.
Spiel mal ein wenig mit R (http://www.r-project.org/), bei

set.seed(7);x=rnorm(n=10009); wilcox.test(x=x, mu=median(x)) 

kommt p-value = 0.7755 heraus, macht auch Sinn, da die Verteilung symmetrisch ist und man gegen ihren eigenen Mittelwert testet.
Hingegen:

set.seed(7);x=rlnorm(n=10009); wilcox.test(x=x, mu=median(x)) 

ergibt p-value

Hi Julian,

Noch als kleine Anmerkung. Ich test verbundene Stichproben,
daher auch der t-test für verbundene Stichproben bzw. der
Wilcoxon(-Vorzeichen-Rang-Test).

in dem Fall kannst du dir viel Arbeit/Mühe ersparen, in dem du erst die parigen differenzen ausrechnest.

Grüße,
JPL

D.h. die Schiefe und Kurtosis ist nicht bei X und Y entscheidend, sondern nur bei den Differenzen Y-X? Oder welche Arbeit spare ich mir konkret?

Hi,

D.h. die Schiefe und Kurtosis ist nicht bei X und Y
entscheidend, sondern nur bei den Differenzen Y-X?

genau.
Grüße,
JPL

Hi,

vielen Dank, dass du dich mit mir als einen relativ unwissenden Statistiker beschäftigst :wink:

Ich bin nun nur etwas mehr verwirrt.

Daher nochmal meine Frage genauer gestellt:
Ich möchte zwei verbundene Stichproben prüfen. Ich gehe nun davon aus, dass die GG nicht normalverteilt sind und vernachlässige auch das n > 30 ist, da es zu gering ist und die NV eh vom Shapiro-Wilk-Test abgelehnt wurde. Nun muss ich ja auf NP-Tests zurückgreifen, also nehme ich den Wilcoxon-Vorzeichen-Rang-Test (also das ganze ist für !verbundene! Stichproben). Hier sind jetzt nicht – so wie ich dich in deinem letzten Post verstanden habe – die Lageparameter der einzelnen Stichproben für die Erfüllung der Voraussetzungen relevant, sondern nur die der Differenzen. Diese habe ich nun berechnet. Die Schiefen der Differenzverteilung (sind insgesamt 3 Tests, da ich 3 mal 2 verbundene Stichproben testen will, die nichts miteinander zu tun haben) sind 0,819; 0,008 und -0,279. Die Symmetrievoraussetzung ist nun aber nur vom 2. erfüllt, sodass ich für 1. und 3. keinen Wilcoxon anwenden kann, sondern auf den Vorzeichentest ausweichen muss, da er keine Symmetrie der Differenzen voraussetzt.
Stimmt dies nun soweit, und du hast deine Aussagen in deiner ersten Antwort auf unverbundene Stichproben bezogen, oder wo ist mein Denkfehler?

Nochmals vielen vielen Dank für deine Mühe!!!

Beste Grüße
Julian

Hi Julian,

Stimmt dies nun soweit, und du hast deine Aussagen in deiner
ersten Antwort auf unverbundene Stichproben bezogen, oder wo
ist mein Denkfehler?

Ja, das stimmt soweit.
Wenn du jetzt noch das signifikanzniveau pro Test von 5% auf 5/3% setzt (bonferroni-korrektur), wirds noch besser! :smile:

Grüße,
JPL

Hallo JPL,

habe nun auch mal kurz R ausprobiert, da mir dein Beispiel nicht mehr aus dem Kopf ging.
Aber deine Ausdrücke:
set.seed(7);x=rnorm(n=10009); wilcox.test(x=x, mu=median(x)) und
set.seed(7);x=rlnorm(n=10009); wilcox.test(x=x, mu=median(x))

beziehen sich wohl tatsächlich auf den NP-Test für UNABHÄNGIGE Stichproben, denn für abhängige muss u.a. „paired=TRUE“ angefügt werden.

Aber nochmal zum Abhängigen-Test. Es wird also keine gleiche Verteilung für die beiden Stichproben vorausgesetzt, sondern nur z.B. Symmetrie (Wilcoxon), die aber nicht beim Vorzeichentest vorausgesetzt wird!?

SPSS weist auch als Nullhypothese „Der Median der Differenzen zwischen X und Y ist gleich 0.“ aus. Beim NP-Test für unabhängige Stichproben gilt nämlich die Nullhypothese „Die VERTEILUNG von X ist in den Kategorien von Y identisch.“, was für deine Voraussetzungen spricht.

Das Signifikanzniveau habe ich heruntergesetzt, macht allerdings keinen Unterschied, da der Unterschied wohl zu signifikant ist bspw. 0,004.

Bitte nimm zu meiner Ausführung kurz Stellung. Danke!!

Viele Grüße
Julian

Hi Julian,

Aber deine Ausdrücke:
set.seed(7);x=rnorm(n=10009); wilcox.test(x=x, mu=median(x))
und
set.seed(7);x=rlnorm(n=10009); wilcox.test(x=x, mu=median(x))
beziehen sich wohl tatsächlich auf den NP-Test für
UNABHÄNGIGE Stichproben, denn für abhängige muss u.a.
„paired=TRUE“ angefügt werden.

Es ist sogar nur der 1-stichprobenfall. Was aber an der aussage nichts ändert. Im paarigen 2-sample fall werden auch nur die parweisen diffs verwendet. es ging auch nur darum zu zeigen, wie die Schiefe das ergebnis beeinflussen kann, obwohl gar kein MW-Unterschied vorliegt.

Aber nochmal zum Abhängigen-Test. Es wird also keine gleiche
Verteilung für die beiden Stichproben vorausgesetzt, sondern
nur z.B. Symmetrie (Wilcoxon), die aber nicht beim
Vorzeichentest vorausgesetzt wird!?

wie du ja ovben siehst, beeinflusst die Verteilungsform den p-Wert. daher sollte man sich zumindest die Symmetrie mal ansehen und ebenso den vorliegenden MW-Unterschied. Wenn da diskrepanzen herauskommen (Unterscheid ist minimal, aber p-wert install.packages(„BSDA“)
und laden

library(BSDA)

dann kannst du mit

?SIGN.test

die Hilfe aufrufen und loslegen :smile:

SPSS weist auch als Nullhypothese „Der Median der Differenzen
zwischen X und Y ist gleich 0.“ aus. Beim NP-Test für
unabhängige Stichproben gilt nämlich die Nullhypothese „Die
VERTEILUNG von X ist in den Kategorien von Y identisch.“, was
für deine Voraussetzungen spricht.

richtig.

Das Signifikanzniveau habe ich heruntergesetzt, macht
allerdings keinen Unterschied, da der Unterschied wohl zu
signifikant ist bspw. 0,004.

Wenn’s immer noch signifikant ist, bist du ein lucky guy. Ansonsten hättest du eben ein paar sig’s weniger, dafür aber den globalen Fehler auf 5% begrenzt.

Viele Grüße,
JPL