Vergleich zweier diskreter W.-Verteilungen

ich möchte zwei diskrete Häufigkeitsverteilungen mit 7 ordinalen Klassen miteinander vergleichen. Dabei möchte ich wissen, ob die eine Verteilung im Vergleich zur anderen signifikant nach rechts (oder links) verschoben ist.*

Hier ein Beispiel:

Ordinale Klasse - - 1 - - - - 2 - - - - 3 - - - - 4 - - - - 5 - - - - 6 - - - - 7
Verteilung 1 - - - 5,00 - - 7,00 - - 13,00 - - 8,00 - - 3,00 - - 0,00 - - 0,00
Verteilung 2 - - - 3,16 - - 9,48 - - 11,85 - - 7,90 - - 2,96 - - 0,59 - - 0,05

Vielen Dank für eure Hilfe…

Gruß

Jan

*: Wie ich prüfe, ob sich die Verteilungen signifikant unterscheiden, das weiss ich (z.B. Chi-Quadrat oder Kolmogorov-Smirnov).

Hallo erstmal.

ich möchte zwei diskrete Häufigkeitsverteilungen mit 7
ordinalen Klassen miteinander vergleichen. Dabei möchte ich
wissen, ob die eine Verteilung im Vergleich zur anderen
signifikant nach rechts (oder links) verschoben ist.*

Hier ein Beispiel:

Ordinale Klasse - - 1 - - - - 2 - - - - 3 - - - - 4 - - - - 5

        • 6 - - - - 7
          Verteilung 1 - - - 5,00 - - 7,00 - - 13,00 - - 8,00 - - 3,00 -
  • 0,00 - - 0,00
    Verteilung 2 - - - 3,16 - - 9,48 - - 11,85 - - 7,90 - - 2,96 -
  • 0,59 - - 0,05

Interessant: normalerweise werden nur Parameter auf ihre Signifikanz überprüft, nicht Verteilungen…
Evtl. hilft es, die Verteilungen von ‚Verteilung 1‘ und ‚Verteilung 2‘ getrennt zu schätzen und dann einen bestimmten Test (welchen ?)zu verwenden. Siehe auch http://www.reiter1.com/Glossar/Glossar.htm für weitere Inspirationen

*: Wie ich prüfe, ob sich die Verteilungen signifikant
unterscheiden, das weiss ich (z.B. Chi-Quadrat oder
Kolmogorov-Smirnov).

Genauer: ob sich eine Stichprobe signifikant von einer bestimmten Verteilung unterscheidet :wink: Und wenn, warum wurden diese dann nicht verwendet ?

HTH
mfg M.L.

Hallo nochmal.

Hier ein Beispiel:

> > Ordinale Klasse - - 1 - - - - 2 - - - - 3 - - - - 4 - - - - 5- -  
> > --6 - - - - 7  
> > Verteilung 1 - - - 5,00 - - 7,00 - - 13,00 - - 8,00 - - 3,00 -  
> > - 0,00 - - 0,00  
> > Verteilung 2 - - - 3,16 - - 9,48 - - 11,85 - - 7,90 - - 2,96 -  
> > - 0,59 - - 0,05  
> > \*: Wie ich prüfe, ob sich die Verteilungen signifikant  
> > unterscheiden, das weiss ich (z.B. Chi-Quadrat oder  
> > Kolmogorov-Smirnov).

Okay, es gibt ja fast alles Mögliche. So auch das Überprüfen ob zwei Verteilungen übereinstimmen mittels Chi-Quadrat-Homogenitätstest. Da könnte das Beispiel hier weiterhelfen: http://www.reiter1.com/Glossar/Glossar\_detailliert\_Inhalt.htm#Chi%20Quadrat%20Test

HTH
mfg M.L.

Hallo Jan!

Wie kommen die Dezimalzahlen für das diskrete Merkmal in der 2.ten Verteilung zustande?

Im Prinzip möchtest Du einen Mittelwertvergleich machen, wie wäre es mit dem Mann-Whitney-U-Test?

Allerdings sieht man aufgrund der Datenlage, dass hier nichts sigifikant verschieden ist?

Lieben Gruß
Patrick

Hallo Markus,

vielen dank für deinen Input! Hab mein Problem noch mal präzisiert (s. Text)

Grüße

Jan

ich möchte zwei diskrete Häufigkeitsverteilungen mit 7
ordinalen Klassen miteinander vergleichen. Dabei möchte ich
wissen, ob die eine Verteilung im Vergleich zur anderen
signifikant nach rechts (oder links) verschoben ist.*

Hier ein Beispiel:

Ordinale Klasse - - 1 - - - - 2 - - - - 3 - - - - 4 - - - - 5

        • 6 - - - - 7
          Verteilung 1 - - - 5,00 - - 7,00 - - 13,00 - - 8,00 - - 3,00 -
  • 0,00 - - 0,00
    Verteilung 2 - - - 3,16 - - 9,48 - - 11,85 - - 7,90 - - 2,96 -
  • 0,59 - - 0,05

Evtl. hilft es, die Verteilungen von ‚Verteilung 1‘ und
‚Verteilung 2‘ getrennt zu schätzen und dann einen bestimmten
Test (welchen ?)zu verwenden.

Hier verstehe ich dich nicht. Es wurde nichts geschätzt.

*: Wie ich prüfe, ob sich die Verteilungen signifikant
unterscheiden, das weiss ich (z.B. Chi-Quadrat oder
Kolmogorov-Smirnov).

Genauer: ob sich eine Stichprobe signifikant von einer
bestimmten Verteilung unterscheidet :wink:

Ja: um präzise zu sein:
Verteilung 1 ist eine empirische Stichprobe mit dem Umfang 36
Verteilung 2 ist eine diskrete (!) theoretische Häufigkeitsverteilung

Und wenn, warum wurden diese dann nicht verwendet ?

Das verstehe ich wieder nicht.

Okay, es gibt ja fast alles Mögliche. So auch das Überprüfen ob zwei
Verteilungen übereinstimmen mittels Chi-Quadrat-Homogenitätstest. Da
könnte das Beispiel hier weiterhelfen:

Genau das will ich eben nicht: Ich will nicht prüfen, ob sie übereinstimmen, sondern ob sie nach rechts oder links verschoben sind. Das ist ein Problem das deswegen nur bei ordinalen Klassen auftaucht, nicht bei nominaler Skalierung.

Hallo Patrick,

vielen Dank für deine Antwort!
s.Text.

Hallo Jan!

Wie kommen die Dezimalzahlen für das diskrete Merkmal in der
2.ten Verteilung zustande?

Verteilung 1 ist eine empirische Stichprobe
Verteilung 2 ist eine diskrete theoretische Häufigkeitsverteilung

Im Prinzip möchtest Du einen Mittelwertvergleich machen, wie
wäre es mit dem Mann-Whitney-U-Test?
Allerdings sieht man aufgrund der Datenlage, dass hier nichts
sigifikant verschieden ist?

Das sieht man in der Tat. Mir geht es um die korrekte Methode.
Hättest du einen Tip, wo ich am besten recherchieren kann, was den Mittelwertvergleich mit dem Mann-Whitney-U-Test angeht?

Vielen Dank

Jan

Hallo Jan!

Oh - Mist…

Da es keinen Weg bequem über SPSS gibt, muss man zu Fuss rechnen.

Da die 2te Verteilung nun aber dezimal bzw. theoretisch ist, muss man sie erst einmal „konkret“ machen. So spontan fällt mir erst einmal die Erweiterung um 100 ein.

V1: n= 36; 5-7-13-8-3-0-0
V2: n= 3599; 316-948-1185-790-296-59-5

Nun schaut man nach, wie sich die Ränge des ordinalen Merkmales (hier: Abhängige Variable) über die beiden Stichproben verteilen.

Also z.B. für die „1“ der „AV“ gibt es 5 Kandidaten in der ersten Stichprobe und 316 Kandidaten in der zweiten Stichprobe, die allesamt den Wert „1“ haben und sich somit einen Rang teilen müssen.

321 Kandidaten belegen normalerweise die Plätze 1 bis 321, da sie aber alle den gleichen Wert haben, bekommen sie den mittleren Rang, also „Rang 161“.

Analog gilt für die restlichen AV’s:

AV=1; n1+n2= 321; Rang von/bis: 1 bis 321; mittlerer Rang: 161
AV=2; n1+n2= 955; Rang von/bis: 322 bis 1276; mittlerer Rang: 798
AV=3; n1+n2= 1198; Rang von/bis: 1277 bis 2474; mittlerer Rang: 1875
AV=4; n1+n2= 798; Rang von/bis: 2475 bis 3272; mittlerer Rang: 2873.5
AV=5; n1+n2= 299; Rang von/bis: 3273 bis 3571; mittlerer Rang: 3422
AV=6; n1+n2= 59; Rang von/bis: 3572 bis 3630; mittlerer Rang: 3601
AV=7; n1+n2= 5; Rang von/bis: 3631 bis 3636; mittlerer Rang: 3633.5

Nun berrechnen wir die Rangsumme in der ersten Stichprobe:

Rangsumme V1 = 5*161 + 7*768 + 13*1875 + 8*2873.5 + 3*3422 = 63810

Und - nehmen wir einmal kurz an, die Nullhypothese würde Gültigkeit besitzen - berechnen den Erwartungswert für die Rangsumme in der ersten Stichprobe (eben für H0: {Es gibt keinen Unterschied zwischen den Verteilungen}):

E[Rangsumme V1]= [n1*(n1+n2+1)]/2 = (36*3637)/2 = 65466

Die Differenz zwischen beiden Werten zeigt, wie weit die Daten von der H0 entfernt liegen; allerdings muss man diese noch im Verhältnis zur theoretischen Varianz der Rangsumme in V1 sehen, die wir wie folgt ermitteln:

VAR[Rangsumme V1]= [n1*n2*(n1+n2+1)] / 12 = (36*3599*3637) / 12
= 39268689

Leider muss dieser Wert Bindungskorrigiert werden, und zwar um:

Bindungskorrektur
= [n1*n2* Summe(i=Bindung1 bis Bindung7)über[Bindungslänge³ - Bindungslänge] ] / [12*(n1+n2)*(n1+n2-1)]

Das ist hart, deswegen berrechnen wir erst
Summe(i=Bindung1 bis Bindung7)über[Bindungslänge³ - Bindungslänge] ], d.h. für jede Av die Bindungslänge, die n1+n2 entspricht, jeweils mit 3 potentiert und um die Länge reduziert insgesammt alles miteinanderaufaddiert, also:

(321³ - 321) + (955³ - 955) + … + (5³ - 5) = 3158536788

Eingesetzt in die Bindungskorrektur ergibt sich:

Bindungskorrektur = (36*3599*3158536788) / (12*3636*3635) = 2580243.848

welche wir von der Varianz abziehen:

39268689 - 2580243.848 = 36688445.15

Für unsere Teststatistik erhalten wir

U = [RangsummeV1 - Erwartungswert(RangsummeV1)]/[Bindungskorrigierte Varianz(RangsummeV1)]
= (63810 - 65466)/36688445.15 = 0.000045136826

Unser U ist unter der Annahme, dass H0 gilt asymptotisch N(0,1)-verteilt. Der Wert, den wir für U gefunden haben ist sehr nahe an 0, dem 50% Quantil der Standardnormalverteilung, so dass wir sagen können:

Behaupten wir, dass die Alternativhypothese richtig ist, so ist diese Behauptung zu 50% falsch.

Auf einem 5%-Niveau wäre dieser Test also nicht signifikant (naja, eben erst ab Alpha>0.5, aber das macht hoffentlich niemand…).

Man würde es, wenn man die Stichproben etwas gleich-größer kriegen könnte, eventuell noch ein wenig verschieben können (das Quantil); insgesamt tut sich aber nicht viel daran: die Verteilungen kann man nicht als Ungleich beschreiben (sowohl ein- wie auch zweiseitig).

Du hattest Glück, dass ich in (Fuss-)Rechenlaune gewesen in, was aber einfacher gewesen ist, als den U-Test hier zu erklären…

Bei Rückfragen gerne,
lieben Gruß
Patrick

Hallo Patrick,

wow - hast mich schwer beeindruckt!
Werde das so verwenden.
Ist das der Mann-Whitney-U-Test?
s.Text

Hallo Jan!

Oh - Mist…

Da es keinen Weg bequem über SPSS gibt, muss man zu Fuss
rechnen.

Da die 2te Verteilung nun aber dezimal bzw. theoretisch ist,
muss man sie erst einmal „konkret“ machen. So spontan fällt
mir erst einmal die Erweiterung um 100 ein.

V1: n= 36; 5-7-13-8-3-0-0
V2: n= 3599; 316-948-1185-790-296-59-5

Nun schaut man nach, wie sich die Ränge des ordinalen
Merkmales (hier: Abhängige Variable) über die beiden
Stichproben verteilen.

Also z.B. für die „1“ der „AV“ gibt es 5 Kandidaten in der
ersten Stichprobe und 316 Kandidaten in der zweiten
Stichprobe, die allesamt den Wert „1“ haben und sich somit
einen Rang teilen müssen.

321 Kandidaten belegen normalerweise die Plätze 1 bis 321, da
sie aber alle den gleichen Wert haben, bekommen sie den
mittleren Rang, also „Rang 161“.

Analog gilt für die restlichen AV’s:

AV=1; n1+n2= 321; Rang von/bis: 1 bis 321; mittlerer Rang: 161
AV=2; n1+n2= 955; Rang von/bis: 322 bis 1276; mittlerer Rang:
798
AV=3; n1+n2= 1198; Rang von/bis: 1277 bis 2474; mittlerer
Rang: 1875
AV=4; n1+n2= 798; Rang von/bis: 2475 bis 3272; mittlerer Rang:
2873.5
AV=5; n1+n2= 299; Rang von/bis: 3273 bis 3571; mittlerer Rang:
3422
AV=6; n1+n2= 59; Rang von/bis: 3572 bis 3630; mittlerer Rang:
3601
AV=7; n1+n2= 5; Rang von/bis: 3631 bis 3636; mittlerer Rang:
3633.5

Hier eine Frage: Du hattest die theoretische Verteilung mit 100 erweitert. Sinkt in obiger Rechnung nicht der Einfluß der empirischen Verteilung, wenn du die zweite mit 100 (oder 1.000, 10.000 etc.) erweiterst?

Nun berrechnen wir die Rangsumme in der ersten Stichprobe:

Rangsumme V1 = 5*161 + 7*768 + 13*1875 + 8*2873.5 + 3*3422 =
63810

Und - nehmen wir einmal kurz an, die Nullhypothese würde
Gültigkeit besitzen - berechnen den Erwartungswert für die
Rangsumme in der ersten Stichprobe (eben für H0: {Es gibt
keinen Unterschied zwischen den Verteilungen}):

E[Rangsumme V1]= [n1*(n1+n2+1)]/2 = (36*3637)/2 = 65466

Die Differenz zwischen beiden Werten zeigt, wie weit die Daten
von der H0 entfernt liegen; allerdings muss man diese noch im
Verhältnis zur theoretischen Varianz der Rangsumme in V1
sehen, die wir wie folgt ermitteln:

VAR[Rangsumme V1]= [n1*n2*(n1+n2+1)] / 12 = (36*3599*3637) /
12
= 39268689

Leider muss dieser Wert Bindungskorrigiert werden, und zwar
um:

Bindungskorrektur
= [ n1*n2* Summe(i=Bindung1 bis Bindung7)über[Bindungslänge³ -
Bindungslänge] ] / [12*(n1+n2)*(n1+n2-1)]

Das ist hart, deswegen berrechnen wir erst
Summe(i=Bindung1 bis Bindung7)über[Bindungslänge³ -
Bindungslänge] ], d.h. für jede Av die Bindungslänge, die
n1+n2 entspricht, jeweils mit 3 potentiert und um die Länge
reduziert insgesammt alles miteinanderaufaddiert, also:

(321³ - 321) + (955³ - 955) + … + (5³ - 5) = 3158536788

Eingesetzt in die Bindungskorrektur ergibt sich:

Bindungskorrektur = (36*3599*3158536788) / (12*3636*3635) =
2580243.848

welche wir von der Varianz abziehen:

39268689 - 2580243.848 = 36688445.15

Für unsere Teststatistik erhalten wir

U = [RangsummeV1 -
Erwartungswert(RangsummeV1)]/[Bindungskorrigierte
Varianz(RangsummeV1)]
= (63810 - 65466)/36688445.15 = 0.000045136826

Unser U ist unter der Annahme, dass H0 gilt asymptotisch
N(0,1)-verteilt. Der Wert, den wir für U gefunden haben ist
sehr nahe an 0, dem 50% Quantil der Standardnormalverteilung,
so dass wir sagen können:

Behaupten wir, dass die Alternativhypothese richtig ist, so
ist diese Behauptung zu 50% falsch.

Auf einem 5%-Niveau wäre dieser Test also nicht signifikant
(naja, eben erst ab Alpha>0.5, aber das macht hoffentlich
niemand…).

Man würde es, wenn man die Stichproben etwas gleich-größer
kriegen könnte, eventuell noch ein wenig verschieben können
(das Quantil); insgesamt tut sich aber nicht viel daran: die
Verteilungen kann man nicht als Ungleich beschreiben (sowohl
ein- wie auch zweiseitig).

Du hattest Glück, dass ich in (Fuss-)Rechenlaune gewesen in,
was aber einfacher gewesen ist, als den U-Test hier zu
erklären…

Bei Rückfragen gerne,
lieben Gruß
Patrick

Den Mann-Whitney-U-Test (einseitig) kann ich also verwenden, wenn ich über einen Mittelwertvergleich herausfinden will, ob eine Verteilung oberhalb (oder unterhalb) einer anderen liegt.
Frage: Wenn ich mit Chi-Quadrat oder Kolmogorov-Sm. (zweiseitige Betrachtung) keinen signifikanten Unterschied feststellen kann, dann werde ich beim Mann-Whitney-U-Test (einseitig) in jedem Fall auch nicht erfolgreich sein, richtig?

Vielen Dank für den langen „Fußweg“!

Grüße

Jan

Hallo Jan!

Ist das der Mann-Whitney-U-Test?

Ja, genaugenommen heisst er bei uns „Wilcoxon-Mann-Whitney-Test“, da unser Professor historisch sehr interessiert ist… In SPSS heisst er „Mann-Whitney-U-Test“, ebenso z.B. in T. Köhler „Statistik für Psychologen, Pädagogen und Mediziner“.

Es ist ein nichtparametrischer Test (Rangbildung) und dient dem Mittelwert-/Verteilungsvergleich zweier unabhängiger Stichproben die identisch verteilte Daten auf mind. ordinalskaliertem Niveau aufweisen sollten und ist ansonsten vorraussetzungsfrei (Varianzhomogenität, Normalverteilung etc).

Hier eine Frage: Du hattest die theoretische Verteilung mit
100 erweitert. Sinkt in obiger Rechnung nicht der Einfluß der
empirischen Verteilung, wenn du die zweite mit 100 (oder
1.000, 10.000 etc.) erweiterst?

Das Problem hier ist natürlich die Varianzberechnung der Rangsummen in solchen gigantischen Stichproben, deswegen ist es zu 100% wahrscheinlich, dass das gefundene Quantil nahe 0 liegt.

Wenn man die 2. Verteilung runden & kürzen könnte, würde das Ergebnis sehr wahrscheinlich besser - aber ungenauer - und, wie eigangs erwähnt - ohnehin nicht signifikant. Man könnte auch die erste Stichprobe um 100 erweitern und schauen, wie die Daten dann liegen. Gefuscht werden muss sowieso, ich würde eher zu der ungenauen Rechnung mit vereinfachteren Werten für die 2.Stichprobe rechnen, dass macht das ganze auch handlicher…

Den Mann-Whitney-U-Test (einseitig) kann ich also verwenden,
wenn ich über einen Mittelwertvergleich herausfinden will, ob
eine Verteilung oberhalb (oder unterhalb) einer anderen liegt.

Richtig. Als inferenzstatistisches, hypothesentestendes Verfahren möchte der U-Test als Entscheidungshilfe zwischen:

H0: {µ1, µ2: µ1 ≤ µ2} bzw. {µ1, µ2: µ1 ≥ µ2}
HA: {µ1, µ2: µ1 > µ2} bzw. {µ1, µ2: µ1

Hey Patrick,

noch mal vielen Dank für deine ganze Mühe.
War ein echter „eye-opener“!
Viele Grüße
Jan

[Bei dieser Antwort wurde das Vollzitat nachträglich automatisiert entfernt]