Chi Quadrat, Mc Nemar und telweise abhängige Daten

Hallo Leute! Bin gerade sehr ratlos und hoffe, dass ich hier Hilfe finden kann.
Ich habe eine Kreuztabelle vor mir: Die Variable, die in den Spalten steht, ist 9stufig und nominalskaliert. Die Variable, die in den Zeilen steht ist dichotom und ebenfalls nominalskaliert. Als Test wäre nun ja eigentlich klar: Chi Quadrat! Aber: ich habe Abhängigkeiten in den Daten, und zwar befinden sich die Abhängigkeiten zwischen den 9 Stufen der Spaltenvariable, nicht jedoch zwischen der Spalten- und der Zeilenvariable. Nun frage ich mich: Kann ich dennoch den Chi-Quadrat testen, da sich meine Abhängigkeiten nur innerhalb einer Variable befinden und sie nicht zwischen den beiden Variablen bestehen? Falls ich keinen Chi-Quadrat-Test rechnen darf: McNemar haut bei mir nicht hin, da eine der beiden Variablen nicht dichotom ist. Gibt es in SPSS ein Chi-Quadrat-Äquivalent für abhängige Daten außer McNemar?
Vielen Dank und viele Grüße,

  • Michael

Hallo!

Wäre natürlich interessant, was da inhaltlich gelaufen ist.

Ich stelle es mir mal als messwiederholte Geschichte (über 9 Versuchsbedingungen) von n Personen vor, von denen jede pro Messzeitpunkt ein Merkmal aufgewiesen hat oder nicht.

Je nach der Frage nach dem Merkmal könnte man auch von binären Daten ausgehen. Obwohl mit SIcherheit nicht unproblematisch (wegen der Konstitution der AV= binär), so wäre eine messwiederholte Anova drin.
Es gibt auch Verfahren, die für diesen Fall speziell geeignet sind (ordinale ANOVA), aber die gibt es nicht unter SPSS - produzieren im Übrigen vergleichbare Effekte wie die metrische ANOVA.

Alternative: wenn es keine Hauptfragestellung in dem Vergleich zwischen allen 9 Messzeitpunkten (global) gibt, so könnte man die Messzeitpunkte untereinander vergleichen:

MZP1 mit MZP2, MZP1 mit MZP3, … etc.

Das wäre 9 über 2 = 36 Vergleiche, eine Alpha-Adjustierung würde eventuell keine signifikanten Effekte mehr produzieren.

Aber: bei dem Vergleich von MZP1 und MZP2 über das dichotome Merkmal hat man eine Vierfeldertafel.

Hier sind dann sowohl Vergleiche nach McNemar als auch dem exakten Test von Fisher denkbar - je nach Fragestellung.

Im Übrigen: nichts spricht gegen die Anwendung des Chi-Quadrat-Tests, nur ist der eben nicht für diesen Fall gedacht und bei zu vielen Zellen (>20%) mit einer Besetzung

Hallo patr1ck! Vielen Dank für die Antwort. Ich merke, dass ich wohl tatsächlich etwas mehr Hintergrundinfo liefern muss. Der Hintergrund ist ziemlich unspektakulär: Ich habe zwei Gruppen von Teilnehmern (das sind meine beiden Stufen der dichotomen Zeilenvariable). Alle Teilnehmer gaben mir auf drei offen gestellte Fragen jeweils mehrere Antworten. Ihre Äußerungen habe ich in 9 Kategorien kategorisiert (das sind meine 9 Stufen der Spaltenvariable). Da jeder Teilnehmer mehrere Themen innerhalb seiner Antworten ansprach, mussten die Antworten in die verschiedenen Sinneinheiten aufgesplittet werden, so dass jede Sinneinheit in die zugehörige Kategorie fallen kann. Somit stammen jedoch mehrere Einheiten aus verschiedenen Kategorien gemeinsam von jeweils nur einem Teilnehmer und - zack, da habe ich die Abhängigkeit zwischen den neun Kategorienstufen (sehe ich doch richtig so, oder?). Da ich hier also nur Häufigkeiten habe, glaube ich, dass ich keine Binärdaten daraus machen kann und mich nur auf Nominalskalenniveau bewegen darf.
Viele Grüße, Michael

Hi Michael,

das Ding hatten wir doch schon mal vor der Nase :wink:
Was wäre denn, wenn man die Kategoriserung so aufbauen würde, dass man die Antworten nur in eine Kategorie einordnen kann?
Deine Tabelle sieht also in etwa so aus (5 Befragte, je drei Antworten, je 4 Sinneinheiten)

 K1 | K2 | K3 | K4 | K5 | K6 | K7 | K8 | K9
G1 | 5 | 5 | 5 | 4 | 6 | 1 | 3 | 4 | 0
G2 | 0 | 2 | 4 | 0 | 4 | 5 | 1 | 4 | 2

Im Grunde handelt es sich da um eine multivariate Poisson-Verteilung, deren Korrelationsstruktur noch geschätzt werden muss.
Hm. Ich sehe keinen einfachen Weg daraus proportions zu machen, die schon etwas einfacher zu analysieren wären.
vielleicht hilft dir eins von den papers weiter:
http://www3.interscience.wiley.com/journal/114102745…
http://ideas.repec.org/a/bes/jnlbes/v19y2001i4p428-3…
http://www3.interscience.wiley.com/journal/109857689…

Alles kein leichter Stoff, aber es gibt etwas dazu.
Wie Patrik schon andeutete kann man eine Art repeated ANOVA machen, wenn man eine Poisson-Verteilung annimmt und eine log-transformation der Counts macht (wird dann nur problematisch, wenn es 0er gibt).
Grüße,
JPL

1 „Gefällt mir“

Hallo Michael,

ok, da sieht die Sache so aus:

Du hast natürlich mit den 9 Items inhaltlich abhängige Messungen, da jedes der Items an einer Person gemessen worden ist.

Die Items selbst sind binär codiert, d.h. bei einer Person liegt dieser Antwortinhalt entweder vor (=1) oder nicht vor (=0).

Schließlich hast Du noch zwei Gruppen an Personen gefragt, das ist eine unabhängige Messung.

Jetzt hängt es ganz stark von der Fragestellung ab: interessiert der Vergleich zwischen den Gruppen, zwischen den Items oder eine mögliche Wechselwirkung zwischen Gruppen und Items?

Falls das Hauptthema die Gruppenvergleiche sind, so ist der AUswertungsstil vereinfacht.

Im Prinzip hast Du eine unabhängige(!) 2x2 Kontingenztafel pro Item, welches nach Chi-Quadrat oder besser dem exakten Test von Fisher ausgewertet werden kann (Tabellenüberschrift: Item, Zeilenüberschrift: Gruppe 1, Gruppe 2, Spaltenüberschrift: Item=1, Item= 2; unter SPSS -->Analysieren–>Deskriptive Statistik–>Kreuztabellen, hier unter Statistik bei Chi-Quadrat ein Häckchen setzen - voila).

Besser wird die Auswertung natürlich, wenn Du erst die Antwortkategorien (die Items) auf Ihre inhaltliche STruktur hin untersuchst. Im Prinzip wäre eine Faktorenanalyse das Mittel der Wahl, um die Items zu gruppieren. Da hier allerdings sowohl die binäre Datenstruktur als auch u. U. die Personenzahl dieses Verfahren fraglich machen können, so wäre m. E. nach eine Clusteranalyse (für binäre Daten) über die Items ein geeignetes Mittel. Zusätzlich könnte man mittels einer multidimensionalen Skalierung die Itemsstruktur in einem zweidimensionalen Raum sichtbar machen.

Ergeben sich Itembündel (Also z.B. Cluster1= Item1,3 und 5; Cluster 2= Item 2, 4, 6; Cluster3= Item 7,8 und 9), so lassen sich Summenscores (Cluster1= Item1+Item3+Item5) bilden - und die sind nun nicht mehr binär! Eine gute Analyseform wäre eine hirarchische Clusteranalyse mit Ward’s Kriterium für binäre Distanzen. Eine optimale Einteilung wäre natürlich in 3 Cluster zu je 3 Items - dann wäre der mögliche Range pro Cluster-Item-Summe 0 bis 3).

Hiermit könnte nun eine ANOVA für messwiederholte Daten gerechnet werden (Innersubjektfaktor: Cluster, Zwischensubjektfaktor: Gruppenzugehörigkeit).

Alternativ könnten über die Cluste-Item-Summen zwischen den Gruppen unabhängiges Tests gerechnet werden; hier fallen mir Welch-Test (bzw. T-Test) oder Mann-Whitney-Wilcoxon-U-Test ein.

Letztlich wäre als quantitative Auswertungsmethode zur STrukturaufdeckung aber auch die Korrespondenzanalyse geeignet (http://de.wikipedia.org/wiki/Korrespondenzanalyse).

Was ich in jedem Fall überprüfen würde wäre anhand eines zweiten Beobachters, mit welcher Genauigkeit die einzelnen Items aus den Antworten gebildet werden können (Interraterreliabilität). Dazu müsste eine weitere Person die Items aus den Antworten konstruieren.

Lieben Gruß
Patrick

Hallo patr1ck! Wow, herzlichen Dank für diese Antwort! Ich hätte nicht gedacht, dass ich hier direkt einen statistischen Projektplan mit verschiedenen Handlungsoptionen präsentiert bekomme, das ist ja wahnsinnig gut. Ja, meine Fragestellung ist vor allem der Vergleich zwischen den beiden Gruppen. Die Kategorien miteinander zu vergleichen und auch vorhandene Interaktionen aufzudecken, wäre allerdings auch cool. Verstand ich Deine Antwort in der Weise richtig, dass mir die Clusteranalyse mit anschließender ANOVA für messwiederholte Daten diese beiden „Nebenfragstellungen“ zu beantworten ermöglichen würde? (Clusterstruktur und ANOVA-Haupteffekt der Kategorien ==> Verhältnis der Kategorien zueinander; ANOVA-Interaktionseffekt Gruppe/Kategorien ==> Interaktion der Gruppen mit den Kategorien)
Vielen Dank und viele Grüße,

  • Michael

Hi JPL,
ertappt… Ich setzte an Deinem Vorschlag zum McNemar (ich übertrug ihn auf meine hier jetzt behandelte etwas andere Chose) an und stolperte direkt wieder (was mir echt peinlich ist :wink:), weil McNemar dichotome Variablen will und weil meine Abhängigkeiten sich nur innerhalb einer Variable befinden. Meine Teilnehmerantworten behandeln leider jeweils so grundsätzlich verschiedene Themen, dass ich sie nicht in nur jeweils eine Kategorie einordnen kann, sondern in Sinneinheiten als Codiereinheiten aufteilen muss. Vielen Dank für die verlinkten papers. Da wirds für einen mathematischen Laien wie mich allmählich schwierig, aber ich werd’ mich da durchbeißen :wink:

Hi Michael,

was mir aufgefallen ist: Wenn die Sinneinheiten bzw. Items nicht zusammengefasst werden können, machen im Grunde auch Bündelungen via Clusteranalyse keinen (inhaltichen) Sinn.
Für eine repated ANOVA ergibt sich das Problem, dass eine Zeitvariable vorhanden sein muss, die die Messungen ordnet. Das wird hier schwer werden, da es keine Ordnung der Items gibt (es sei denn du definierst eine).

noch mehr zu lesen (:smile:):
http://www.maths.uq.edu.au/~gjm/lwsym_smmr06.pdf
http://www.springerlink.com/content/r448784t72k02mu2/
http://faculty.ucr.edu/~hanneman/linear_models/c10.html

Ich denke, dass eine poisson-regression am besten passt - ist aber nicht ganz trivial.

Grüße,
JPL

Hi Partik,

Besser wird die Auswertung natürlich, wenn Du erst die
Antwortkategorien (die Items) auf Ihre inhaltliche STruktur hin :untersuchst. Im Prinzip wäre eine Faktorenanalyse das Mittel der :Wahl, um die Items zu gruppieren. Da hier allerdings sowohl die :binäre Datenstruktur als auch u. U. die Personenzahl dieses :Verfahren fraglich machen können, so wäre m. E. nach eine :Clusteranalyse (für binäre Daten) über die Items ein geeignetes :Mittel.

Binäre Daten liegen doch aber nur für einen Befragten für eine Antwort vor. Es liegen aber mehrere Antworten pro Frage pro Befragtem vor, dann wären das entsprechend viele Clusteranalysen. Und wie würden die dann zusammengefasst?
Ich würde erst die Summenscores pro item über die Befragten bilden und dann Clustern.

Hiermit könnte nun eine ANOVA für messwiederholte Daten gerechnet :werden (Innersubjektfaktor: Cluster, :Zwischensubjektfaktor: Gruppenzugehörigkeit).

Hm. ANOVA für ordinale Daten ist aber nicht unbedingt state of the art - oder hast du neuere Referenzen dafür?

Grüße,
JPL

Hallo!

Besser wird die Auswertung natürlich, wenn Du erst die
Antwortkategorien (die Items) auf Ihre inhaltliche STruktur hin :untersuchst. Im Prinzip wäre eine Faktorenanalyse das Mittel der :Wahl, um die Items zu gruppieren. Da hier allerdings sowohl die :binäre Datenstruktur als auch u. U. die Personenzahl dieses :Verfahren fraglich machen können, so wäre m. E. nach eine :Clusteranalyse (für binäre Daten) über die Items ein geeignetes :Mittel.

Binäre Daten liegen doch aber nur für einen Befragten für eine
Antwort vor. Es liegen aber mehrere Antworten pro Frage pro
Befragtem vor, dann wären das entsprechend viele
Clusteranalysen. Und wie würden die dann zusammengefasst?
Ich würde erst die Summenscores pro item über die Befragten
bilden und dann Clustern.

Kann sein, ich habe das eventuell immer noch nicht 100%tig verstanden.

Wie ich es verstanden habe: Es wurden drei Fragen gestellt, und hinterher wurde zu 9 Themenkomplexen geschaut, ob in mind. einer der Antworten auf die drei Fragen dieser Themenkomplex erwähnt worden ist.

Somit gehe ich davon aus, dass pro VP genau 9 binäre Daten (zu jedem Themenkomplex ein Datum) vorliegen.

Hiermit könnte nun eine ANOVA für messwiederholte Daten gerechnet :werden (Innersubjektfaktor: Cluster, :Zwischensubjektfaktor: Gruppenzugehörigkeit).

Hm. ANOVA für ordinale Daten ist aber nicht unbedingt state of
the art - oder hast du neuere Referenzen dafür?

Das stimmt wohl - nur ist ein binäres Datum ja nicht unbedingt per se als ordinalskaliert anzusehehn. Wenn ich nun sogar die Themenkomplexe bündele, dann habe ich z.B. einen Themenkomplex mit 3 Unterthemen und als AV eben die „Anzahl der angesprochenen Subthemen des Komplexes“. Bei Anzahl diskutieren wir wieder auf einem höherem Niveau der Skala - also warum keine ANOVA?

Lieben Gruß
Patrick

Hallo Michael,

ich bin mir immer noch nicht sicher, ob ich das Thema richtig verstanden habe (siehe meine ANtwort an JPL).

Gehen die 3 Fragen einzeln oder gemeinsam betrachtet in die Auswertung mit ein?

Also hast Du 3 Fragen x 9 Antwortalternativen (mit Mehrfachnennung) x 2 Gruppen oder nur 9 angesprochenen Themen x 2 Gruppen?

Lieben Gruß
Patrick

Hallo patr1ck und JPL!
Bei dem Teil meiner Analyse, bei dem ich hier gerade Probleme habe, fließen alle drei Fragen in einen gemeinsamen Topf, d.h. ich habe pro Teilnehmer drei Antworten, die jeweils mehrere Codiereinheiten enthalten. Alle Codiereinheiten aller drei Fragen zusammen (ohne weitere Trennung der Fragen) wurden pro Teilnehmer nun auf 9 Kategorien verteilt, wobei nicht eine Kategorie per 0 und 1 „angeschaltet“ wird, sobald min. eine passende Codiereinheit vorliegt, sondern in jeder Kategorie die tatsächlichen Häufigkeiten zusammengerechnet werden; d.h. wenn Person A zwei Codiereinheiten zu Kat 1 beiträgt und Person B nur eine, dann addieren sich für A und B die Häufigkeiten in Kat1 zu drei auf. Da ich zwei Personengruppen habe, addieren sich jeweils die Häufigkeiten pro Gruppenteilnehmer auf, sodass ich letztendlich meine Kreuztabelle habe im Sinne von

Gruppe | Kat1 | ... | Kat9
1 | 49 | ... | 115
2 | 36 | ... | 348

Vergleichen möchte ich hier die beiden Gruppen, aber die Kategorien miteinander vergleichen und eine Interaktion zu prüfen wäre auch nicht schlecht :wink: Anschließend würde ich genau die gleiche(n) Methode(n) für jede einzelne der drei Fragen wiederholen, denn das Prinzip dürfte dann ja identisch sein, nur dass ich dann jeweils nur eine Teilmenge der Codiereinheiten untersuche.

Vielen Dank und viele Grüße,

  • Michael

Hallo JPL!

was mir aufgefallen ist: Wenn die Sinneinheiten bzw. Items
nicht zusammengefasst werden können, machen im Grunde auch
Bündelungen via Clusteranalyse keinen (inhaltichen) Sinn.

Hm. Du hast Recht.

Für eine repated ANOVA ergibt sich das Problem, dass eine
Zeitvariable vorhanden sein muss, die die Messungen ordnet.
Das wird hier schwer werden, da es keine Ordnung der Items
gibt (es sei denn du definierst eine).

argl, stimmt, es gibt keine Ordnung - und wenn ich eine definieren würde, wäre sie nicht sinnvoll, denn es gab ja kein Prä/Post-Design oder so. Man könnte allenfalls die drei Fragen, die jedem Teilnehmer gestellt wurden, als zeitliche Reihenfolge sehen, das hat allerdings inhaltlich gesehen nicht viel Sinn. Scheint so, als würde soeben die Kombination Clusteranalyse/ANOVA in meinem Fall zu Nonsense zerbröckeln.

noch mehr zu lesen (:smile:):

Yes, danke! :smile:

Ich denke, dass eine poisson-regression am besten passt - ist
aber nicht ganz trivial.

Muss ich dann nicht zuerst testen, ob meine Häufigkeiten poissonverteilt sind? (Lillefors-Test, wobei der allerdings nicht damit klar kommt, dass ich nur nominalskalierte Kategorien habe und er aus der Reihenfolge meiner Kategorien anscheinend (laut SPSS-Output) stets eine Ordinalskala machen will, was bei mir sinnlos ist. Die Reihenfolge meiner Kategorien ist ja variant und völlig wurscht.)
Ich habe gerade lange bei SPSS und Google gesucht, wie bzw. wo man eine Poisson-Regression in SPSS rechnet und bin nicht fündig geworden. Bin ich auf dem Holzweg und muss statt dessen meine Datenstruktur umgestalten nach dem folgenden Schema?

Teilnehmer | Kat1 |...| Kat9
1 | 1 |...| 0
2 | 0 |...| 0
...

und so also bei jedem Teilnehmer kodieren, ob eine Kategoriennennung vorliegt (1) oder nicht (0)? Blöd jedoch, dass ich ja Mehrfachnennungen habe und eine Person die gleiche Kategorie eben auch mehrfach füllen kann, was ich bisher dadurch deutlich machen konnte, dass pro Person die tatsächlichen Häufigkeiten der Kategoriennennungen in den Daten stehen.

Viele Grüße und vielen Dank,

  • Michael

Hi Patrik,

selbst wenn man pro Befragtem items zusammenfasst, landet man bei einem Wertebereich von 0-x, also einer Variablen „anzahl der Verwendung der Sinneinheit in den Antworten“ oder so ähnlich. Klar, dass die nicht mehr binär ist, sondern schon ordinal (denn mehr counts bedeutet häufigere Verwendung).
Aber eine ANOVA auf den simplen counts? Das hat man früher gemacht, aber zeitgemäß ist das nicht. Andererseits lasse ich mich da gerne mit neueren Referenzen überzeugen.

Grüße,
JPL

Hallo Michael,

die Darstellung der Datenmatrix unter SPSS macht meines Erachtens nach nur Sinn unter Aufsplittung nach Versuchspersonen mit Gruppenvariable:

Also
Spalte 1 = VP-Nr.
Spalte 2 = Gruppe (1 oder 2)
Spalte 3 = Frage 1, Item 1 (0 oder 1)
Spalte 4 = Frage 1, Item 2 (0 oder 1)

Spalte 11 = Frage 1, Item 9 (0 oder 1)

Spalte 29 = Frage 3, Item 9 (0 oder 1)
Spalte 30 = Summe Frage 1 bis 3, jeweils Item 1 (0, 1, 2 oder 3)

Spalte 38 = Summe Frage 1 bis 3, jeweils Item 9 (0, 1, 2 oder 3)

Was den Sinn oder Unsinn einer Faktorenanalyse bzw. Clusteranalyse über die Items angeht so ist dies m.E. nach von dem Inhalt der 9 Items abhängig.

In ganz gängigen Tests gliedert man u.U. Fragen auch nach einzelnen Themen erst einmal auf, um sie hinterher inhaltlich wieder zusammenzufassen. Wenn a priori die Zusammenfassung von einzelnen Items - welche man seperat zueinander aufgestellt hat - zu Clustern nicht sinnvoll wäre, würden z.B. Persönlichkeitstests nur auf Einzelitemebene funktionieren etc.

In Deinem Falle könnte ja z.B. die Fragen sein, wonach man
Frage 1. beim Apfelkauf
Frage 2. beim Birnenkauf
Frage 3. beim Bananenkauf
seine Kaufentscheidung abhängig macht.

Die Antworten könnten nun nach folgenden Kriterien durchforstet werden:
Item 1. Frische des Produktes
Item 2. Preis-Leistungs-Verhältnis
Item 3. Ist ein Bioprodukt
Item 4. Ist ökologisch unbedenklich Verpackt

Item 9. Ist ein regionales Produkt

Mich würde es in der Folge nicht überraschen, wenn nun z.B. 3, 4 und 9 auf einen Faktor (in der Faktorenanalyse) laden bzw. in ein Cluster (in der Clusteranalyse) fallen würden. Also warum nicht, so macht man das nun einmal…

Das Design bei Dir ist nun klassisch messwiederholt mit 3 Fragen x 9 Items pro Frage = 27 Innersubjektbedingungen x 2 Gruppen (Zwischensubjektfaktoren).

Problem: die Items haben binäre Codes. Weiteres Problem: die hirarchische Innersubjektstruktur (Frage x Item).

Nun - dies sind eventuell Gründe gegen die Faktorenanalyse bzw. Clusteranalyse, da eventuell Cluster zustande kämen wie

Cluster 1: (Item 3, Frage 1), (Item 4, Frage 2), …,

d.h. die Items unterschiedlicher Fragen in einem Cluster landen. Nun ja - wenn sie dasselbe messen…

Um noch mal auf die Spalten 30-38 der Matrix zu kommen: hier sind Werte von 0-3 enthalten.

Hier kann man meines Erachtens nach ruhig eine ANOVA rechnen (auch wenn es veraltet ist). Es gibt entsprechende ordinale Verfahren, welche aber m.E. nach den Rahmen sprengen würden und unter SPSS ohnehin nicht implementiert sind (SAS täte Not).

Problem wäre, bei eventuellen Follow-Up-Analysen auf Einzel-Frage-Ebene sollte man dassselbe Verfahren anwenden - also z.B. auch eine ANOVA. Bei den binären Daten nicht unmöglich, aber unschön.

Also ohne es unnötig kompliziert zu machen bleibe ich bei einer globalen ANOVA über Spalte 30-38 als Innersubjektfaktoren und der Gruppe als Zwischensubjektfaktoren und im Anschluss den Follow-Up-Analysen über die Spalten 3-11, 12-20 und 21 bis 29.

Lieben Gruß
Patrick

Hi Michael,

womit du nun die Qual der Wahl hast.
Zum einen kann man Partiks Vorschlag folgen - der Argumentation, dass es so gemacht wurde und teilweise auch (noch) gemacht wird, wird dein Prof wahrscheinlich folgen.
Andererseits kann man es moderner aber auch komplizierter versuchen; und damit auch besser passend zur Fragestellung. Dazu reicht vermutlich SPSS nicht mehr aus und es muss entweder SAS ran oder R und vor allem musst du dich mindestens durch die paper wühlen, die ich dir vorgeschlagen habe. Dein prof wird dann wohl mit den Ohren wackeln aber wenn du es sauber machst, wird dir kaum einer was „anhängen“ können.
Ich denke, nun sind alle Fakten auf dem Tisch und es liegt bei dir, in welche Richtung du weitergehen willst.

Viel Erfolg und viele Grüße,
JPL

Hi Michael,

Muss ich dann nicht zuerst testen, ob meine Häufigkeiten :stuck_out_tongue:oissonverteilt sind? (Lillefors-Test, wobei der :allerdings nicht damit klar kommt, dass ich nur nominalskalierte :Kategorien habe und er aus der Reihenfolge meiner :Kategorien anscheinend (laut SPSS-Output) stets eine :open_mouth:rdinalskala machen will, was bei mir sinnlos ist. Die :Reihenfolge meiner Kategorien ist ja variant und völlig wurscht.)

Jein. :smile: Kommt drauf an, was du alles wissen willst. Wenn du die Antwortverteilung wirklich untersuchen willst, dann solltest du eine Anpassung versuchen - hierzu gibt es eigene Literatur *g*, ansonsten ist es nicht abwegig, couts als poisson-verteilt anzunehmen, weil just diese Verteilung eben Zählprozesse abbildet.
Lilliefors ist übrigens nur eine Verbesserung des Kolmogoroff-smirnov-Tests für Normalverteilungen.

Ich habe gerade lange bei SPSS und Google gesucht, wie bzw. wo man :eine Poisson-Regression in SPSS rechnet und bin nicht fündig :geworden.

Was ist damit:
http://www.ats.ucla.edu/stat/spss/dae/poissonreg.htm ?

Mit SPSS kenne ich mich leider nicht besonders gut aus, sorry.

Bin ich auf dem Holzweg und muss statt dessen meine Datenstruktur :umgestalten nach dem folgenden Schema?

Was ich aus den papern so lesen konnte, war vor allem auch, dass man eine GLM machen kann mit link-funktion=log. aber da musst du nch weiter in die Lit einsteigen um die einzelnen Voraussetzungen zu ergründen.
wegen der Datenstruktur: ZUerst würde ich alle Teilnehmer nach frage und Kat aufteilen, also die maximale Differenzierung, und in SPSS anlegen. Aggregieren kannst du dann die Werte bei Bedarf immer noch.

Tut mir leid, dass ich keine ad hoc Lösung zur Hand habe, aber deine Fragestellung ist mit den Klassikern eigentlich nicht erschlagbar.

Wenn du noch weitere Fragen hast, helfe ich dir aber gerne.

Grüße,
JPL

Hallo Patrick und JPL,
noch einmal vielen Dank für Eure Hilfe. Aus meiner anfangs simpel angedachten Frage ist dank Euch beiden ein extrem gehaltvoller und umfassender Thread geworden, der schon allein zur statistischen Fortbildung viele Ansatzpunkte liefert :wink:
Mal gucken, ob ich irgendwie an SAS oder R herankomme. Von beiden Programmen habe ich noch nie gehört. Ist mit R ==> GNU R gemeint? (gerade bei Wikipedia entdeckt)
Vielleicht noch einmal zurück zu meinem Anfangsposting, da mich ein Teil von Patricks zweiter Antwort verwirrt hat: Bedeutet das, dass man bei der von mir geschilderten Kreuztabelle Gruppe*Kategorie den Chi-Quadrat-Test (alleinig zum Vergleich zwischen den Gruppen, nicht zum Vergleich zwischen den Kategorien oder zum Prüfen einer Interaktion) verwenden darf, da ich trotz der Abhängigkeiten innerhalb einer der beiden Variablen unabhängige Messungen zwischen den beiden Variablen habe?

Hallo JPL!

Jein. :smile: Kommt drauf an, was du alles wissen willst. Wenn du
die Antwortverteilung wirklich untersuchen willst, dann
solltest du eine Anpassung versuchen - hierzu gibt es eigene
Literatur *g*, ansonsten ist es nicht abwegig, couts als
poisson-verteilt anzunehmen, weil just diese Verteilung eben
Zählprozesse abbildet.

Ah, das ist dann ja mal völlig unkompliziert :smile:

Was ist damit:
http://www.ats.ucla.edu/stat/spss/dae/poissonreg.htm ?

ok, ich war dumm. Auf die Idee, das ganze rein per Syntax zu machen, bin ich gar nicht gekommen. Das kommt dabei heraus, wenn man so ein Menü-verwöhnter Weichspül-User geworden ist…

Tut mir leid, dass ich keine ad hoc Lösung zur Hand habe, aber
deine Fragestellung ist mit den Klassikern eigentlich nicht
erschlagbar.

Du hast mir schon in ganz extremer Weise geholfen, jetzt muss ich das erstmal aufarbeiten :wink:

Wenn du noch weitere Fragen hast, helfe ich dir aber gerne.

Super, danke! Ich glaube, ich habe noch in keinem anderen Forum Leute getroffen, die so viel Ahnung von einem mathematischen Spezialthema haben und zugleich in so hohem Maß bereit sind, zu helfen. Das ist echt beeindruckend.

Viele Grüße,

  • Michael

Hi Michael,

wegen R: Den download gibts hier: http://www.r-project.org/
es handelt sich dabei um ein freeware open-source programm. Wenn du mit der Syntax von SPSS einigermassen vertraut bist, dann kommst du auch mit R klar.
Grüße,
JPL