Chi-Quadrat-Test ist für alle Skalenniveaus?

WinfriedDie · 26. Januar 2012 um 13:22

Hallo,
ich frage mich, warum der Chi-Quadrat-Test für nominale und ordinale Daten geeignet ist.
Die Teststatistik für einen Chi-Quadrat-Homogenitätstest ist z. B. folgendermaßen definiert:

\chi^2 = \sum_{j=1}^{k}\sum_{i=1}^{m} \frac{(n_{ij}-E_{ij})^2}{E_{ij}}

Dabei bezeichnet x_ij die jeweilige Häufigkeit der Stichprobe i für das Merkmal j. Analog bezeichnet E_ij die erwartete Häufigkeit.
Die Häufigkeiten n_ij und E_ij sind ordinal skaliert. Bei ordinal skalierten Daten sind allerdings Operationen wie „+“ und „/“ nicht definiert. Genau diese Operationen werden aber zur Berechnung der Teststatistik berechnet, siehe oben.
Warum darf man die Berechnungen zur Bestimmung der Teststatistik trotzdem durchführen?

Vielen Dank für Eure Hilfe.

Winfried

WalterH · 26. Januar 2012 um 17:15

Hallo :WinfriedDie,

das eine hat mit dem anderen nichts zu tun. Das eine sind erlaubte Transformation für die respektiven Skalenniveaus, das andere ist die Berechnung einer Teststatistik.

Für jede Zelle wird etwas berechnet, nämlich die quadrierte Differenz, diese wird wieder mit Erwartungswert korrigiert. Letztendlich erhält man für eine Zelle ein quadriertes Residuum, das um so größer wird, um so stärker sich der beobachtet Wert von dem unter der Nullhypothese erwartete unterscheidet. Diese quadrierten Residuen werden zum Chi-Quadrat addiert.

Du kannst bei der Tabelle (dem Vektor) mit Häufigkeiten die Zeile beliebig anordnen, wie auch die Spalten. Es kommt immer das gleiche raus.

Man kann also rechnerisch keinen Vorteil daraus ziehen, dass eine Variable ordinal gemessen wurde, sie wird so behalndelt wie eine nominal skalierte Variable. Lediglich bei der Interpretation kann man gewisse Schlüsse zusätzlich ziehen i.S. v. wenn das eine größer wird (im Rang), dann…

VG, Walter.

WinfriedDie · 26. Januar 2012 um 19:44

Hallo Walter,

vielen Dank für deine Antwort.

das eine hat mit dem anderen nichts zu tun. Das eine sind
erlaubte Transformation für die respektiven Skalenniveaus, das
andere ist die Berechnung einer Teststatistik.

Dann ist für mich nur noch die Frage, warum das eine mit dem anderen nichts zu tun hat.

Man kann also rechnerisch keinen Vorteil daraus ziehen, dass
eine Variable ordinal gemessen wurde, sie wird so behalndelt
wie eine nominal skalierte Variable. Lediglich bei der
Interpretation kann man gewisse Schlüsse zusätzlich ziehen
i.S. v. wenn das eine größer wird (im Rang), dann…

Aus meiner Sicht nutzt man zur Berechnung der Chi-Quadrat-Teststatistik metrisches Skalenniveau: ich bilde die Differenz zwischen Häufigkeiten, ich teile durch eine Häufigkeit usw. Operationen die mit nominal- oder ordinal-skalierte Werten eben nicht nicht definiert sind.

Noch ist der Groschen bei mir leider nicht gefallen…

Gruß
Winfried

Robert_Heim · 26. Januar 2012 um 22:05

Sorry, aber da kann ich nicht helfen. Gruß Robert

WalterH · 27. Januar 2012 um 06:41

Du vergleichst Äpfel mit Birnen.

Nehmen wir Geschlecht: Nominal
Anzahl Männer: Absolut
Anzahl Frauen: Absolut

Du rechnest mit Häufigkeiten der diskreten Merkmalsausprägungen von nominalen oder ordinalen Variablen.

VG, Walter.

Andreas_Kladroba · 27. Januar 2012 um 07:55

Hallo Winfried,

vorsicht, nicht die Häufigkeiten sind ordinal skaliert sondern die dahinter stehende Variablen. Häufigkeiten haben keine Skala, weil sie keine Variablen, sondern einfach nur Zahlen sind. Natürlich kann man Häufigkeiten addieren oder auch dividieren (solange das inhaltlich sinnvoll ist, also z.B. die Summe relativer Häufigkeiten nicht größer als eins wird oder auch nichts negatives dabei heraus kommt). Die Zulässtigkeit des Tests für alle Skalen kommt eben gerade daher, dass nicht mit den Variablen sondern mit den Häufigkeiten gearbeitet wird.

Ich hoffe, das hat ein wenig Licht ins Dunkel gebracht.

Viele Grüße

Andreas

JPL · 27. Januar 2012 um 16:34

Hi Winfried,

das geht weil du nicht mit den ordinalen/nominalen Werten selbst rechnest, sondern nur mit deren Häufigkeiten x_ij.

Grüße,
JPL

WinfriedDie · 27. Januar 2012 um 19:04

Hallo liebe Experten,

danke, jetzt habe ich es auch geschnallt. Das mit dem Skalenniveau ist tückischer als man denkt .

Schönes Wochenende und nochmals vielen Dank,

Winfried

Anja_Kipke · 28. Januar 2012 um 09:56

Hallo Winfried,

ich würde nicht sagen, dass n_ij und E_ij ordinal skaliert sind. Man kann doch zum Beispiel sagen, dass in der ersten SP für Merkmal j 3 Beobachtungen mehr drin sind als in der zweiten SP. Also ist hier eine Differenz logisch. Auch die Relativierung der SP mit „/“ ist für mich eine logische Anwendung. Deshalb sollten die beiden Häufigkeiten mindestens intervallskaliert sein, wodurch die verwendeten Operationen möglich sind.
Das ist keine Expertenmeinung in dem Fall, sondern einfach nur eine Meinung und Herleitung von mir.
Ich hoffe das hilft weiter.
Was meinst du zu dem Vorschlag?

viele Grüße
Anja

WinfriedDie · 29. Januar 2012 um 12:31

Hallo Anja,

Du liegst komplett richtig. Man muss unterscheiden, ob man vom Skalenniveau der Messungen selbst oder von Skalenniveau der daraus abgeleiteten Häufigkeiten spricht. Das hatte ich vermischt.

Gruß und schönes Wochenende

Winfried