Statistik zu Einwohnerzahlen

Hallo liebe Mathematiker,

ich habe zwei Fragen bezüglich der statistischen Auswertung von Bevölkerungszahlen.

Es geht um folgendes Problem:

Ich habe eine Liste von 60 sehr unterschiedlich großen Städten (einige 1000 bis > 2000000 Einwohner) und würde gerne statistisch die Bevölkerungsentwicklung über einen bestimmten Zeitraum auswerten. Dabei soll zu einem jeweils bestimmten Stichtag (-jahr) ausgewertet werden, ob die Einwohnerzahlen über diese 60 Städte normalverteilt sind.

Aus dem chemischen Qualitätsmanagement kenne ich die Prüfung auf Normalverteilung nach DAVID (Spannweite / Standardabweichung und Vergleich mit Prüfgröße bei gegebenem Signifikanzniveau…) Kann ich das auch auf so weit streuende Daten anwenden? Oder gelten da andere Verteilungsgesetzte als die Gauß’sche Normalverteilung?

Die zweite Frage schließt sich daran an. Ich habe einfach mal aus dem Bauch heraus 10 Größenklassen gebildet und die Anzahl der Städte bestimmt, die von der Einwohnerzahl her in eine dieser Klassen fallen. Daraus könnte ich mir ja jetzt strenggenommen eine Normalverteilungskurve berechnen, oder? Aber geht das auch, wenn die Klassen nicht alle gleich groß sind, sprich die Abstufungen nicht gleichmäßig sind? Ich habe z.B. die Stadtgröße einfach pro Klasse immer halbiert (> 2.000.000; 1.000.000 bis 2.000.000; 500.000 bis 1.000.000 usw.) So rein optisch ergibt sich daraus ein Histogramm mit dem Maximum bei den mittleren Größenklassen.

Hoffe ihr könnt das nachvollziehen und mir helfen. Wenn noch Fragen sind bitte melden.

Danke schon mal

Sven

Hallo Sven,

Um was geht es Dir eigentlich?

Willst Du nun (a)

die Bevölkerungsentwicklung über einen bestimmten
Zeitraum auswerten

oder (b) prüfen,

ob die Einwohnerzahlen
über diese 60 Städte normalverteilt sind.

Wenn (a) das Problem ist, dann stellt sich mir die Frage, ob zu den verschiedenen Zeiten immer die selben 60 Städte betrachtet wurden. Wenn ja, ist das gut. Nun kann es sein, nur zwei Zeitpunkte analysiert wurden, oder dass mehrere Zeitpunkte betrachtet werden.

Bei mehreren Zeitpunkten kann man Regressionsanalysen machen, und zwar durchaus für jede Stadt einzeln. Man könnte ggf. Die Bevölkerungszahlen jeder Stadt auf den ersten Zeitpunkt normalisieren. Wenn der Zusammenhang zw. Zeit und Bevölkerung nicht linear ist, kann man die Daten ggf. transformieren, um die Zusammenhang zu linearisieren. Dann kann man die Steigungen der Regressionsgeraden vergleichen. Man kann auch gleich eine multiple Regressionsanalyse machen. Ganz primitiv und ohne jedwede Annahme über die Verteilung der Steigungen könnte man die Ergebnisse schlicht in „steigt“ (=1) und „fällt“ (=0) einteilen, und den Mittelwert daraus auf Verschiedenheit von 0.5 testen. Das geht exakt mit dem Binomialtest, bei 60 Werten darf man aber auch zur Normalapproximation greifen.

Sehr ähnlich kann man natürlich auch vorgehen, wenn man nur zwei Zeitwerte hat, wo statt den Steigungen schlicht die Differenzen betrachtet werden.

Ist hingegen (b) das Problem, verstehe ich nicht, warum du später schreibst, dass Du Größenklassen bildest. Das sagt dir ja dann nichts mehr über die Verteilung „über diese 60 Städte“ (s. oben).

Ganz allgemein kann man die Übereinstimmung einer gegebenen Verteilung mit der Normalverteilung gut mit Quantil-Quantil-Plots visualisieren

http://de.wikipedia.org/wiki/Normal-Quantil-Plot
http://www.itl.nist.gov/div898/handbook/eda/section3…
http://www.cms.murdoch.edu.au/areas/maths/statsnotes…

Formale Tests auf Abweichungen zur Normalverteilung sind (u.a.!) der Shapiro-Wilk-Test und der Kolmogorov-Smirnov-Test

http://de.wikipedia.org/wiki/Shapiro-Wilk-Test
http://www.itl.nist.gov/div898/handbook/prc/section2…

Oliver Walter sagte in W-W-W schonmal, dass Shapiro-Wilk heute wohl der bestes Test sei (/t/normalverteilung–3/2432537

LG
Jochen