Chi-Quadrat-Test mit SPSS

Hallo!

Kann jemand mir die folgende Tabelle beschreiben? Ich habe einen Signifikanztest mit SPSS durchgeführt (mittels ANALYSIEREN–>DESKRIPTIVE STATISTIKEN–>KREUTZTABELLE–>Chi-Quadrat angekreuzt). Ich möchte jetzt wissen, ob das Ergebnis signifikant ist oder nicht und woran ich das erkenne!
Ich brauche es sehr dringend!

Vielen Dank schon im voraus!

Chi-Quadrat-Tests

Chi-Quadrat
nach Pearson:

Wert=7,274a
df=2
Asymptotische-Signifikanz-2-seitig)=,026

Likelihood-Quotient:

Wert=9,113
df=2
Asymptotische-Signifikanz-2-seitig)=,011

Zusammenhang linear-mit-linear:

Wert=,009
df=1
Asymptotische-Signifikanz-2-seitig)=,923

Anzahl der gültigen Fälle:
45


a. 2 Zellen (33,3%) haben eine erwartete Häufigkeit
kleiner 5. Die minimale erwartete Häufigkeit ist 2,11.

Hallo!

Ich möchte jetzt wissen, ob das Ergebnis signifikant ist oder
nicht und woran ich das erkenne!

Was heist denn „signifikant“?

Du hast eine Fragestellung, die du als Hypothese formulieren kannst. Bein Chi²-Test ist das die Hypothese, dass die verglichenen Häufigkeitsverteilungen irgendwie unterschiedlich sind.

Eigentlich interessiert dich dabei die „Ursache“ der beobachteten Häufigkeitsverteilungen. Also: Sind da unterschiedliche Prozesse am Werk, die eben unterschiedliche Häufigkeitsverteilungen erzeugen?

Die Prozesse selbst kannst du nicht direkt sehen. Aber du kannst Stichproben nehmen, die durch diese Prozesse entstanden sind. Leider sind Stichproben aber fast nie identisch, wegen ihrer zufälligen Natur unterscheiden sich zwei Stichproben wahrscheinlich auch dann mehr oder weniger, selbst wenn der zugrunde liegende Prozess derselbe war.

Jetzt kommt die Statistik ins Spiel: Die erlaubt es nähmlich, abzuschätzen, wie wahrscheinlich es ist, dass sich zwei zufällige Stichproben mindestens so stark voneinander unterscheiden wie die tatsächlich beobachteten, WENN der zugrunde liegende Prozess tatsächlich DERSELBE ist.

Diese Wahrscheinlichkeit nennt der Statistiker mitunter auch „Signifikanz“. Das ist also eine Wahrscheinlichkeit, mind. so „extreme“ Ergebnisse zu bekommen wie die, die gemessen/beobachtet wurden, rein wegen ZUFÄLLIGER Schwankungen („Stichprobenfehler“). Die Hypothese, dass alle beobachteten unterschiede/Effekte rein zufällig sind und NICHTS mit echten Unterschieden in den Prozessen zu tun haben, nennen Statistiker auch „Null-Hypothese“.

Ein statistischer Test berechnet die Wahrscheinlichkeit, die beobachteten Daten (oder noch „extremere“) unter der Null-Hypothese zu erhalten. Diese Wahrscheinlichkeit wird „Signifikanz“ genannt.

Hohe Werte bedeuten, dass man SEHR WAHRSCHEINLICH solche Ergebnisse bekommt, wenn die Nullhypothese wahr ist (also wenn die Prozesse gleich sind, wenn sich die Populationen, aus denen die Stichproben genommen wurden, NICHT unterscheiden). Niedrige Werte sagen, dass es eben unwahrscheinlich ist, bei in Wahrheit gleichen Populationen derart unterschiedliche Stichproben zu bekommen.

Nun musst du dich aufgrund dieser Wahrscheinlichkeit/Signifikanz entscheiden, ob du die Nullhypothese aufgrund deiner Daten verwirfst (zugunsten der alternativen Hypothese, dass sich die Populationen/Prozesse tatsächlich unterscheiden). Wenn du das IMMER machst (also die Nullhypothese verwerfen), wenn diese Wahrscheinlichkeit kleiner ist als, sagen wir mal 5%, dann wird im ungünstigsten Fall jede 20. Entscheidung gegen die Nullhypothese falsch sein. Diese „5%“ (oder ein anderer festgelegter Wert) nennen sich dann das „Signifikanzniveau“ und immer, wenn die vom Test ermittelte Wahrscheinlichkeit (auch „p-Wert“ genannt von probability) unter diesem Wert liegt, wird das Ergebnis als „statistisch Signifikant“ ausgewiesen, was bedeutet, dass die Nullhypothese auf dem angegebenen Signifikanznievau verworfen wurde.

In den Sozialwissenschaften und der bio- u. medizinischen Forschung sind diese 5% das übliche Signifikanzniveau. In seltenen Fällen sieht man die Sache lockerer und setzt sich 10% als Grenze. In wichtigen Sachen wie Arzneimittelprüfungen usw. wird das Niveau strenger gesetzt, bis in den Promille-Bereich.

Dieses „zweiseitig“, wass SPSS für den Chi²-Test dazuschreibt, kannst du ignorieren. Es ist beim Chi²-Test nicht sinnvoll, „einseitige“ und „zweiseitige“ Signifikanzen zu vergleichen.

„Asymptotisch“ steht da, weil die Signifikanzen nicht exajkt berechnet wurden, sondern es wurde ein mathematisches Modell verwendet, welches die echte Verteilung nur so ungefähr beschreibt. Das passt ganz gut, solange ein paar Bedingungen erfüllt sind. Eine davon ist zB. dass die „erwarteten Häufigkeiten“ in allen Zellen größer sind als 5. Das ist bei dir nicht der Falll, darum warnt dich SPSS mit dem letzten Sprüchlein. Man kann das verhindern, indem man Zellen mit wenigen Werten zusammenfasst.

Noch besser wäre es, Fishers Exakten Test zu verwenden. Der rechnet zum einen nicht asymptotisch und zum anderen funktioniert der auch korrekt, wenn Zellen mit wenigen oder gar keinen Werten in den Tabellen sind.

VG
Jochen

Hi Jochen,

vielen lieben Dank für deine ausführliche Erklärung!
Die Daten sind aus einer Studie zum Thema „Benutzerverhalten in Information Retrieval“.
Da ich mich leider kaum mit SPSS auskennne, weiss ich jetzt nicht an welchem Wert (von der Tabelle) ich meine H0 verwerfen kann! Ist es der Wert 0,026? 0,011 oder 0,923?
0,026 und 0,011 sind ja beide keliner als 0,05. So kann dann die H0 verworfen werden. Aber was ist dann mit 0,923???
Was sind denn überhaupt „Chi-Quadrat nach Pearson“, „Likelihood-Quotient“, „Zusammenhang linear-mit-linear“ oder bzw. was sagen sie aus?

Wie kann man in SPSS Zellen mit wenigen Werten zusammenfassen??

Gibt es dieser Fishers Exakten Test auch bei SPSS??

Danke und viele Grüße!
Sheyda

Hallo,

Da ich mich leider kaum mit SPSS auskennne,

Mit SPSS kenne ich mich garnicht aus.

nicht an welchem Wert (von der Tabelle) ich meine H0 verwerfen
kann! Ist es der Wert 0,026? 0,011 oder 0,923?
0,026 und 0,011 sind ja beide keliner als 0,05. So kann dann
die H0 verworfen werden.

Auf einem Niveau von 5%, ja. Das hast du ja verstanden.

Aber was ist dann mit 0,923???

Na, da kannst du H0 nicht verwerfen. D.h., die Daten srechen NICHT GEGEN H0. Die Evidenz der Daten reicht nicht aus, H0 zu verwerfen. WENN H0 zuträfe, würde man in mehr als 92% solcher Experimente Häufigkeitsverteilungen ider Stichproben erhalten, die sich mehr unterscheiden als deine. Aufgrund der Daten gibt es keine Hinweis darauf, dass H0 *nicht* zuträfe. Das sagt nicht, dass damit erwiesen wäre, dass H0 wahr ist. Es sagt nur, dass sich anhand der vorliegenden Daten H0 eben nicht verwerfen lässt.

Was sind denn überhaupt „Chi-Quadrat nach Pearson“,

Chi² ist die Testgröße. Die heißt so. Chi² berechnet sich als summe normalisierter quadratischer Abweichungen. Von deiner Kontingenztabelle werden entsprechend der Randsummen erwartete Häufigkeiten berechnet. Dann werden die Differenzen von beobachteten zu erwarteten Häufigkeiten ermittelt. Diese Differenzen werden quadriert und diese Quadrate schließlich noch durch die erwarteten Häufigkeiten geteilt. Dann werden alle diese Werte aller Zellen aufsummiert. Diese Summe ist der Chi²-Wert. Unter H0 hat dieser Wert eine bekannte Verteilung, die sich konsequenterweise Chi²-Verteilung nennt. Anhand dieser Verteilung wird dann berechnet, wie wahrscheinlich es ist, unter H0 einen Chi²-Wert zu bekommen, der *noch* größer ist als der, den du aus deinen Daten berechnet hast.

„Nach Pearson“ heist dass zu Ehren des Mathematikers, der das Verfahren entwickelt hat:

http://en.wikipedia.org/wiki/Pearson%27s_chi-square_…
http://psychology.wikia.com/wiki/Karl_Pearson
http://de.wikipedia.org/wiki/Karl_Pearson

„Likelihood-Quotient“,

Hmm, meinst du sowas:

http://www.medi-stat.de/statistik-lexikon-medizin-li…

„Zusammenhang linear-mit-linear“

??

Wie kann man in SPSS Zellen mit wenigen Werten
zusammenfassen??

Keine Ahnung. s.o. Aber du kannst die Werte ja vorher zusammenzahlen. Ganz dummes Beispiel:

Folgende Häufigkeitstabelle zum Faktor „Was trinken sie gerne“:

Wasser: 142
Limonade: 35
Cola: 62
Bier: 92
Rum: 2
Wodka: 1
Campari: 12

Da haben die Zellen „Rum“ und „Wodka“ ein Problem. Man kann die letzten drei addieren und sagen:

Wasser: 142
Limonade: 35
Cola: 62
Bier: 92
Spirituosen: 15

Und diese Daten in SPSS eingeben.

Gibt es dieser Fishers Exakten Test auch bei SPSS??

Sicher. Soweit ich weiss, gibt es den in SPSS aber nur für 2x2-Tafeln. Mit R geht der auch mit beliebigen Tafeln (http://www.r-project.org).

LG
Jochen

1 Like

Hi,

„linear mit linear“ ist der Chi² nach Mantel-Haenszel (http://books.google.de/books?id=AelYbyeGhAoC&pg=PA28…) und ist nur für ordinale Daten aussagekräftig.
Da du aber einige Felder mit weniger als 5 Fällen hast, solltest du sowieso besser den Fisher verwenden.
Grüße,
JPL

Ich habe irgendwo gelesen, dass, wenn die Stichprobe weniger als 20 Fälle hat, wird der exakte Fisher-test verwendet. Zwischen 20 und 60 Fällen, wird bei der Teststatistik die Yates-Korrektur (Kontinuitätskorrektur)verwendet. Da bei mir die Anzahl der gültigen Fälle 45 ist, muss ich ja dann die Yates-Korrektur (Kontinuitätskorrektur)verwenden. Aber die Kontinuitätskorrektur wird doch für 2*2 Tabellen berechnet oder??? Bei mir handelt sich nämlich um 2*3 Tabellen (2 Zeilen, 3 Spalten). Was soll ich jetzt machen???

Hi,

Was soll ich jetzt machen???

da gibts mehrere Möglichkeiten:
a) Chi² mit Konti-Korrektur
b) im SPSS Syntax archiv suchen, ob jemand eine Syntax für 2x3 Fisher programmiert hat
c) Handbuch zu Rate ziehen, ob deine Version das nicht doch irgendwie anbietet
d) logistiches Modell verwenden.
e) auf eine andere Software umsteigen

Meine empfehlung der Abarbeitung wäre c) b) d) a) e).
Grüße,
JPL