Hallo,
ich frage mich, warum der Chi-Quadrat-Test für nominale und ordinale Daten geeignet ist.
Die Teststatistik für einen Chi-Quadrat-Homogenitätstest ist z. B. folgendermaßen definiert:
Dabei bezeichnet x_ij die jeweilige Häufigkeit der Stichprobe i für das Merkmal j. Analog bezeichnet E_ij die erwartete Häufigkeit.
Die Häufigkeiten n_ij und E_ij sind ordinal skaliert. Bei ordinal skalierten Daten sind allerdings Operationen wie „+“ und „/“ nicht definiert. Genau diese Operationen werden aber zur Berechnung der Teststatistik berechnet, siehe oben.
Warum darf man die Berechnungen zur Bestimmung der Teststatistik trotzdem durchführen?
das eine hat mit dem anderen nichts zu tun. Das eine sind erlaubte Transformation für die respektiven Skalenniveaus, das andere ist die Berechnung einer Teststatistik.
Für jede Zelle wird etwas berechnet, nämlich die quadrierte Differenz, diese wird wieder mit Erwartungswert korrigiert. Letztendlich erhält man für eine Zelle ein quadriertes Residuum, das um so größer wird, um so stärker sich der beobachtet Wert von dem unter der Nullhypothese erwartete unterscheidet. Diese quadrierten Residuen werden zum Chi-Quadrat addiert.
Du kannst bei der Tabelle (dem Vektor) mit Häufigkeiten die Zeile beliebig anordnen, wie auch die Spalten. Es kommt immer das gleiche raus.
Man kann also rechnerisch keinen Vorteil daraus ziehen, dass eine Variable ordinal gemessen wurde, sie wird so behalndelt wie eine nominal skalierte Variable. Lediglich bei der Interpretation kann man gewisse Schlüsse zusätzlich ziehen i.S. v. wenn das eine größer wird (im Rang), dann…
das eine hat mit dem anderen nichts zu tun. Das eine sind
erlaubte Transformation für die respektiven Skalenniveaus, das
andere ist die Berechnung einer Teststatistik.
Dann ist für mich nur noch die Frage, warum das eine mit dem anderen nichts zu tun hat.
Man kann also rechnerisch keinen Vorteil daraus ziehen, dass
eine Variable ordinal gemessen wurde, sie wird so behalndelt
wie eine nominal skalierte Variable. Lediglich bei der
Interpretation kann man gewisse Schlüsse zusätzlich ziehen
i.S. v. wenn das eine größer wird (im Rang), dann…
Aus meiner Sicht nutzt man zur Berechnung der Chi-Quadrat-Teststatistik metrisches Skalenniveau: ich bilde die Differenz zwischen Häufigkeiten, ich teile durch eine Häufigkeit usw. Operationen die mit nominal- oder ordinal-skalierte Werten eben nicht nicht definiert sind.
Noch ist der Groschen bei mir leider nicht gefallen…
vorsicht, nicht die Häufigkeiten sind ordinal skaliert sondern die dahinter stehende Variablen. Häufigkeiten haben keine Skala, weil sie keine Variablen, sondern einfach nur Zahlen sind. Natürlich kann man Häufigkeiten addieren oder auch dividieren (solange das inhaltlich sinnvoll ist, also z.B. die Summe relativer Häufigkeiten nicht größer als eins wird oder auch nichts negatives dabei heraus kommt). Die Zulässtigkeit des Tests für alle Skalen kommt eben gerade daher, dass nicht mit den Variablen sondern mit den Häufigkeiten gearbeitet wird.
Ich hoffe, das hat ein wenig Licht ins Dunkel gebracht.
ich würde nicht sagen, dass n_ij und E_ij ordinal skaliert sind. Man kann doch zum Beispiel sagen, dass in der ersten SP für Merkmal j 3 Beobachtungen mehr drin sind als in der zweiten SP. Also ist hier eine Differenz logisch. Auch die Relativierung der SP mit „/“ ist für mich eine logische Anwendung. Deshalb sollten die beiden Häufigkeiten mindestens intervallskaliert sein, wodurch die verwendeten Operationen möglich sind.
Das ist keine Expertenmeinung in dem Fall, sondern einfach nur eine Meinung und Herleitung von mir.
Ich hoffe das hilft weiter.
Was meinst du zu dem Vorschlag?
Du liegst komplett richtig. Man muss unterscheiden, ob man vom Skalenniveau der Messungen selbst oder von Skalenniveau der daraus abgeleiteten Häufigkeiten spricht. Das hatte ich vermischt.