hier eine Frage, die mich seit einiger Zeit „belastet“.
Ich habe im Rahmen meiner Abschlussarbeit eine Befragung durchgeführt: Personen mit Wechselerfahrung vs. Personen ohne Wechselerfahrung (in der Krankenversicherung) wurden zu allerlei Hintergründen, Soziodemographie, Zufriedenheit usw. befragt.
Nun ist es so, dass ich weiß, dass in der Realität nur etwa 5% aller Leute ihren Versicherer wechseln. Wir mussten allerdings (aus vielerlei Gründen und Zielsetzungen der Studie) gleich große Gruppen anschreiben. Das heißt, ich habe nun Antworten von 800 Wechslern und 700 Nicht-Wechslern (also rund 50% vs. 50%, was s.o. nicht dem realen Verhältnis von 5% vs. 95% entspricht).
Meine Frage nun: Ist es unter diesen Umständen überhaupt zulässig, eine Regressionsanalyse durchzuführen, um die signifikanten Einflussparameter auf den Wechselwillen einer Person festzustellen?
Ich muss dazu sagen, dass ich bereits eine Regression gemacht habe und die Ergebnisse absolut logisch und zufriedenstellend sind, auch alle sonst so üblichen Voraussetzungen habe ich geprüft und alles ist OK… Ich nehme aber an, das die Ergebnisse dennoch mit Vorsicht zu genießen sind?!
Ich war bislang davon ausgegangen, dass die Ergebnisse im Großen und Ganzen in Ordnung sind bzw. in die korrekte Richtung deuten. ABER, dass z.B. Signifikanzen nur mit Vorsicht zu genießen sind, da es ja viel einfacher ist, die Signifikanz überhaupt „herzustellen“ (da die Gruppe der Wechsler verhältnismäßig größer ist als sie eigentlich sein sollte)?
Nun ist es so, dass ich weiß, dass in der Realität nur etwa 5%
aller Leute ihren Versicherer wechseln. Wir mussten allerdings
(aus vielerlei Gründen und Zielsetzungen der Studie) gleich
große Gruppen anschreiben. Das heißt, ich habe nun Antworten
von 800 Wechslern und 700 Nicht-Wechslern (also rund 50% vs.
50%, was s.o. nicht dem realen Verhältnis von 5% vs. 95%
entspricht).
Meine Frage nun: Ist es unter diesen Umständen überhaupt
zulässig, eine Regressionsanalyse durchzuführen, um die
signifikanten Einflussparameter auf den Wechselwillen einer
Person festzustellen?
Das hängt nicht von deiner Gruppengröße, sondern von den Annahmen der Regressionsanalyse und deinem Skalenniveau ab.
…ABER, dass z.B. Signifikanzen nur mit
Vorsicht zu genießen sind, da es ja viel einfacher ist, die
Signifikanz überhaupt „herzustellen“ (da die Gruppe der
Wechsler verhältnismäßig größer ist als sie eigentlich sein
sollte)?
Du kannst davon ausgehen, dass die Genauigkeit der Ergebnisse bei den Wechslern höher ist als bei den anderen und dadurch tatsächlich dort eher sig. Ergebnisse zu erwarten sind. Falsch ist das nicht, aber man sollte das im Hinterkopf behalten.
Was der „Fehler“ war: Du hast nicht randomisiert befragt, dadruch die Verzerrung.
Je nachdem, was du für einen Vergleich der Gruppen zueineander gemacht hast, wird das aber entsprechend durch die gepoolte Streuung berücksichigt.
Das mit den angepassten Gruppengrößen ist kein Problem. Du möchtest mit Deiner Analyse ja auch nicht herausfinden, welchen Anteil von Wechslern es gibt. Du willst ja was ganz anderes wissen, und dafür ist die Verwendung gleicher Gruppengrößen sinnvoll.
Meine Frage nun: Ist es unter diesen Umständen überhaupt
zulässig, eine Regressionsanalyse durchzuführen, um die
signifikanten Einflussparameter auf den Wechselwillen einer
Person festzustellen?
Es ist nicht nur zulässig, sondern sogar sinnvoll.
Ich nehme aber an, das die
Ergebnisse dennoch mit Vorsicht zu genießen sind?!
Korrekt, und zwar aus dem Grund, den JPL schon genannt hat: Deine Stichproben sind nicht zufällig gewesen, weil Du nur die Angaben derer hast, die Antwortwillig waren. Gerade bei Wechslern könnte ich mir vorstellen, dass solche, die damit schlechte Erfahrungen gemacht haben, sich nicht auch noch mit so einer Umfrage an ihre schlechten Erfahrungen erinnern zu lassen. So bekommt man möglicherweise eine handfeste Verzerrung der Ergebnisse.
da es ja viel einfacher ist, die
Signifikanz überhaupt „herzustellen“
Die Signifikanzen sagen ja nur aus, wie wahrscheinlich man ähnliche Ergebnisse auch erwarten würde, wenn es keinen Unterschied in den Gruppen gäbe. Es ist zwar erstmal wichtig, festzustellen, dass das für die vorliegenden Ergebnisse entsprechend unwahrscheinlich ist. Allerdings ist das dann noch nicht die interessante Aussage. Die Effekte sind viel mehr von Interesse!