Statistik-Probleme

Hallo zusammen,

ich muss gerade einige Daten auswerten und komme irgendwie nicht voran, weil ich keinen wirklich funktionierenden Ansatz finde.

Zu den Daten:
Es handelt sich um das allgemeine Bildungsniveau der deutschen Bevölkerung aufgesplittet nach Migrationshintergrund. Das ganze sieht dann ungefähr so aus:

Abschluss Kein Hauptschule Realschule etc.
Gesamtbevölerung 10 % 20 % 20 % etc.
Ohne Migrationsh. 8 % 22 % 35 % etc.
Türkischer Migra. etc.
Italienischer Mi. etc.
etc.

Die Frage, die ich mir nun gestellt habe, war die folgende: Wie kann ich Aussagen über die Unterschiede zwischen den verschiedenen Ethnien ansprechen, ohne einfach plump zu sagen: ja, bei den italienischstämmigen gibt es 10 % mehr auf der Hauptschule als bei den deutschstämmigen etc.

Meine Überlegung: Ich berechne die Standardabweichung. Alles was jeweils mehr von der Gesamtbevökerung abweicht als die Standardabweichung ist auffällig. Ist das überhaupt sinnvoll???

Nun gut, aber soweit kam ich gar nicht, denn ich habe zwar die prozentuale Verteilung für die Gesamtbevölkerung und auch noch mal die Verteilung für Personen mit bzw. ohne Migrationshintergrund allgemein, aber die bei den einzelnen Elemente muss ich passen. Die Daten liegen nur für ausgesuchte Ethnien vor, so dass ich beispielsweise für Niederländer oder Chinesen keine expliziten Daten habe. So lässt sich natürlich auch die Standardabweichung nicht berechnen, nicht wahr?

Okay, wie kann ich dann statistisch sinnvolle Aussagen über die Daten machen?

Ich habe zwar kleine Statistikkenntnisse, aber nichts berauschendes. Über Hilfe würde ich mich sehr freuen. Danke im voraus,
der marc

Hallo Marc,

Abschluss Kein Hauptschule Realschule etc.
Gesamtbevölerung 10 % 20 % 20 % etc.
Ohne Migrationsh. 8 % 22 % 35 % etc.
Türkischer Migra. etc.
Italienischer Mi. etc.
etc.

In erster Linie ist es immer sinnvoll erstmal eine deskriptive Beschreiebung der Daten zu machen, also genau sowas wie

bei den italienischstämmigen gibt es 10 % mehr auf der
Hauptschule als bei den deutschstämmigen etc.

Desweiteren hast du Anteile (proportions), da macht eine standardabweichung deswewg keinen Sinn, weil sie nciht beschränkt ist, d.h. du kannst einen Anteil von z.B. 5% und eine Standardabweichung von 6% haben. Sieht erstmal toll aus, bedeutet aber, dass es auch negative Anteile geben könnte. Nicht sehr sinnvoll. Es gibt aber eine einfache und stabile Methode Konfidenzintervalle für proportions und Konfidenzintervalle für Differenzen von proportions nach der Wilson-Score-Methode zu berechnen. Hab leider auf die schnelle nichts Besseres zur Berechnung gefunden:
http://stat.ethz.ch/R-manual/R-patched/library/stats…

Meine Überlegung: Ich berechne die Standardabweichung. Alles
was jeweils mehr von der Gesamtbevökerung abweicht als die
Standardabweichung ist auffällig. Ist das überhaupt
sinnvoll???

Selbst wenn die SD sinnvoll wäre, wäre das nur unter zweu Bedingungen sinnvoll: 1. Ist das überhaupt ein massgeblicher Unterschied? 2. Mean+/- SD entspricht bei Annahme einem 68% Konfidenzintervall, aber auch nur, wenn eine Sandardnormalverteilung vorliegt. Damit lässt du aber ganze 32% Fehler zu … ganz schön happig, gell? Ganz davon ab, dass du eine Menge Annahmen machen musst.

Grüße,
JPL

Hallo,

zusätzlich zu JPL’s Antwort:

Proportionen sind zwar ganz nett zu interpretieren, aber sie verschleiern eine ganz wichtige Information, nämlich WIE VIELE Individuen überhaupt in der Gruppe sind (also den Stichprobenumfang). Warum ist das so entscheidend?

Wenn die Stichproben sehr groß sind, spielt das keine sehr große Rolle, aber bei kleinen Stichproben können die berechneten Proportionen ganz schön weit neben dem wahren Wert liegen (anders ausgedrückt: die Unsicherheit über die angegebene Proportion hängt vom Stichprobenumfang ab). Beispiel: Wenn bei der Umfrage, die Deinen Daten zugrunde liegt, nur 3 (Ex-)Libanesen (zB) gefragt wurden, kann es leicht sein, dass alle drei nur hier waren, um zu Studieren, also haben 100% der (Ex-)Libanesen Abi oder einen Hochschulabschluss. Genausogut hätte bei der Befragung aber auch ein Wert von 100% Hauptschulabschluss oder gar kein Abschluss rauskommen können. Die Angabe einer Proportion für eine solch kleine Stichprobe hat also wenig Verläßliches.

Ob sich die Verteilungen der Abschlüsse zwischen den Bevölkerungsgruppen überhaupt unterscheiden, kann man mit dem Chi-Quadrat-Test oder mit Fishers Exaktem Test „messen“. Die Tests geben einen Wert für die empirische Wahrscheinlichkeit zurück, mindestens so große Unterschiede zwischen den Gruppen rein zufällig in die Stichprobe zu bekommen, wenn es in Wirklichkeit keinen Unterschied zwischen den Bevölkerungsgruppen gäbe. Je kleiner diese Wahrscheinlichkeit, desto mehr spricht für die Annahme, dass es in der Bevölkerung tatsächlich Unterschiede gibt. Diese Tests benutzen natürlich die Zählwerte und nicht die Proportionen, und zwar aus den o.g. Gründen. Für Deine Aussage ist das aber wahrscheinlich nicht so wahnsinnig erleuchtend, weil man sowieso schon weiß, dass es Unterschiede gibt. Für Dich interessanter ist es wohl, zu wissen, welches besonders hervorstechenden Unterschiede es gibt. Dazu kann man Verfahren wie das von JPL genannte benutzen, welche die Wahrscheinlichkeitswerte für spezielle Vergleiche liefern. Bei einer Serie von Vergleichen sollte man dann eigentlich noch die erhaltenen Wahrscheinlichkeitswerte korrigieren, aber das führt hier zu weit, denke ich.

Man kann nun für Proportionen auch Konfidenzintervalle (KI) berechnen. Dazu braucht man wiederum die Stichprobenumfänge. Statt einem Punkt-Wert (zB. 10%) bekommt man ein Intervall (zB. 2% bis 37%), in welchem sich der wahre Wert der Bevölkerung mit einer gegebenen Wahrscheinlichkeit befindet (im 95%-KI befindet er sich mit 95%iger Wahrscheinlichkeit). Merke: Je größer die Stichprobe, desto enger das KI (desto besser die Schätzung), je höher die Sicherheit (also zB. 99%-KI statt 95%-KI), desto breiter das Intervall. Wenn nun diese KI für verschiedene Gruppen nicht überlappen, kann man mit gegebener Sicherheit davon ausgehen, dass in der Bevölkerung dort tatsächlich Unterschiede existieren. Das Verfahren ist im Prinzip analog zu den o.g. Tests, und ohne entsprechende Korrektur für multiple Vergleiche werden die vorgegebenen Sicherheiten hier auch nicht eingehalten, aber sie sind allemal ein viel viel besserer Anhaltspunkt als der schlichte Vergleich von Punkt-Werten mit Standardabweichungen.

Ach ja, schließlich noch: Kein statistisches Verfahren macht Angaben über die Relevanz von Unterschieden! Aufgrund einer sehr großen Stichprobe mag zB. der Unterschied zwischen 10% und 14% statistisch klar abgesichert sein, aber ein Unterschied dieser Größe könnte für die Lebensumstände der betreffenden Bevölkerungsschichten keine Bedeutung haben.

LG
Jochen

Hallo nochmal,

erstmal vielen Dank für die prompten Antworten.

Nochmal was zu den Daten. Es handelt sich dabei um Daten vom Statistischen Bundesamt, die auf dem Mikrozensus beruhen. Ich habe natürlich neben den Prozentwerten auch die absoluten Zahlen, nur lassen Prozentwerte - zumindest reinm optisch - doch bessere Vergleiche zu.

Die Daten beziehen sich nur auf diese ethnischen Minderheiten in Deutschland, über die man aufgrund ihrer Häufigkeit Aussagen treffen kann. Des weiteren geht es in der Tat nur um Personen, die in Deutschland dauerhaft leben (wollen). Studenten mit befristeten Aufenthaltgenehmigungen sind nicht enthalten.

Der Mikrozensus ist natürlich eine Stichprobe. Ich habe die Daten aber als Hochrechnung auf die Gesamtbevölkerung vorliegen, macht das nochmal einen Unterschied?

Vielen Dank und schönen Gruß,
der marc