Unterstützung für Prognose-Berechnung gesucht

Hallo, Ihr klugen Köpfe.
Mein Problen ist nicht so wichtig, daß gelehrte Häupter sich ihren Kopf damit zerbrechen müssen. Es ist eher eine statistische Spielerei.
Aber es wäre schön, wenn mir mal jemand auf die Sprünge helfen würde.
Es geht um die zu erwartenden Pilgerscharen auf dem Camino de Santiago im „Heiligen Jahr“ 2004.
Der Camino erfreut sich zunehmender Bekanntheit. In den letzten Jahren sind die Pilgerzahlen sprunghaft angestiegen. Immer in sog. „Heiligen Jahren“ schnellt die Anzahl der Pilger in die Höhe. 2004 ist wieder ein „Heiliges Jahr“.
Ich habe die Pilgerstatistik der letzten 16 Jahre mit den monatlichen Zahlen der in Santiago eintreffenden Pilger zugrunde gelegt. Für Jan 2004 gibt es auch schon eine Zahl.
Jetzt habe ich auf der Basis dieser Daten eine Prognose für 2004 erstellt. Mir kommen aber langsam Zweifel, ob meine Berechnungen seriös sind.
Wer Lust und Zeit hat, kann sich ja mal meine Berechnung ansehen.
Zu finden auf meiner Jakobus-Homepage http://stud.uni-paderborn.de/~r00326
Auf der Download-Seite unter „Pilgerstatistik.zip“ findet Ihr meinen Versuch einer Prognose.
Tach auch.
Jochen

Hi Jochen,
die Prognose ist nicht serioes. Sie ist aber auch nicht falsch. Die statistische Signifikanz fuer die scheinbar exrem hohe zu erwartende Zahl von Besuchern in 2004 ist nur sehr gering. Du nimmst an, dass sich die Besucherzahlen in „heiligen Jahren“ genauso entwickeln wie in anderen. Das muss aber nicht so sein und fuer „heilige“ Jahre hast Du nur 2 Datenpunkte (1993 und 99). Damit laesst sich keine gute Statistik machen, d.h. Du kannst *prinzipiell nicht* herausfinden, ob die Zahlen sich in heiligen Jahren anders entwickeln als in anderen. Kann sein, dass es in 2004 tatsaechlich soviele werden, wie die Prognose angibt, muss aber nicht sein. Kann auch sein, dass es nur 210.000 werden. Sehr wahrscheinlich werden es aber deutlich mehr als je.
Also Viel Spass,
T

[Bei dieser Antwort wurde das Vollzitat nachträglich automatisiert entfernt]

Hallo Thomas.

die Prognose ist nicht serioes.

Das hatte ich ja schon befürchtet.

Sie ist aber auch nicht falsch.

Na immerhin.

Die statistische Signifikanz fuer die scheinbar exrem
hohe zu erwartende Zahl von Besuchern in 2004 ist nur sehr
gering.

Schade.

Sehr wahrscheinlich werden es aber deutlich mehr als je.

Naja, wenigstens ist das gewiss. :wink:

Es wird gewiss Verfahren geben, mit denen man wohl etwas genauere Voraussagen machen kann. Ich denke an Voraussagen wie bei den sog. „Schweinezyclen“. Da hat man auch in der Graphik über die Jahre gesehen „Berge“ und „Täler“.
Aber diese Statistiken werden gewiß komplizierter sein als meine doch recht primitive Prognose.
Bis jetzt habe ich ja nur die Zahlen der vergangenen Jahre und die Zahl vom Januar 2004 als feste Größen. Aber bald werde ich auch die Zahlen vom Februar haben. Und da verliere ich ganz und gar den Boden unter den Füßen.
Wie sollen dann die beiden Größen in die Prognose eingehen? Mir fehlen dafür einfach die mathematischen Voraussetzungen.

Hi Jochen,
ich wuerde sagen, mit vernuenftigem Aufwand kannst Du es kaum besser machen, als Du es gemacht hast. Das Prognostizieren geht so, dass Du eine Prototypfunktion annimmst, wie sich dein beobachtetes System entwickelt und die erhobenen Daten daran fittest (das hat alles moeglicherweise Excel fuer dich erledigt). Dabei gibt es zwei Probleme

  1. Du weisst nicht genau, welche Funktion Du nehmen sollst.
  2. Selbst wenn Du die genaue Funktion weisst, streuen die Daten, so dass Du die Zukunft nicht genau vorhersagen kannst.

In Deinem Fall koennte es sein, dass sich die Pilgerzahl in den heiligen Jahren anders entwickelt als sonst. Fuer die heiligten Jahre hast Du aber nur zwei Datenpunkte und da kann man fast jede Funktion durchlegen. Wegen der Streuungen in den Daten werden die Prognosen zusaetzlich ungenau.

Wahrscheinlich werden sich die Zahlen in den heiligen Jahren aber schon irgendwie so aehnlcih, wenn auch nicht genauso, verhalten wie in den anderen. Deshalb geben diese anderen Jahre Dir auch noch gewisse Informationen ueber die Entwicklung fuer 2004. Die Annahme, die Deiner bisherigen Prognose zugrunde liegt, dass die Zahlen waehrend heiliger Jahre ueber die Jahre proportional zunehmen wie waehrend unheiliger, nur das per se in heiligen Jahren ca 4 mal so viele Leute kommen, ist nicht unbedingt gerechtfertigt. Du kannst aber prinzipiell mit Deinem Datensatz nicht rausfinden, ob diese Annahme gerechtfertigt ist oder nicht. Dazu ist er zu klein.

Es wird gewiss Verfahren geben, mit denen man wohl etwas
genauere Voraussagen machen kann. Ich denke an Voraussagen wie
bei den sog. „Schweinezyclen“. Da hat man auch in der Graphik
über die Jahre gesehen „Berge“ und „Täler“.
Aber diese Statistiken werden gewiß komplizierter sein als
meine doch recht primitive Prognose.

Du kannst nur besser werden, wenn Du irgendwoher noch Informationen bekommst.
Also entweder mehr Daten, oder ein besseres Modell (das aufgrund von Naturgesetzen oder anderen „Argumenten“ besser ist). Diese Informationen hast Du aber nicht.

Bis jetzt habe ich ja nur die Zahlen der vergangenen Jahre und
die Zahl vom Januar 2004 als feste Größen. Aber bald werde ich
auch die Zahlen vom Februar haben. Und da verliere ich ganz
und gar den Boden unter den Füßen.
Wie sollen dann die beiden Größen in die Prognose
eingehen? Mir fehlen dafür einfach die mathematischen
Voraussetzungen.

Im Prinzip koenntest Du eine Funktion
f(m,j) = f1(m)*f2(t)
fitten, wobei f1 Deine Annahmen ueber das Jahresprofil (12Monate) enthaelt und f2(t) der Verlauf ueber die Jahre ist (da stecken Annahmen ueber die Entwicklung waehrend heiliger und anderer Jahre drin). Die Funktion muesstest Du dann an die Daten fitten. Frag mich nicht, ob und wie das mit Excel geht.

f1 koennte vermutlich ein Polynom 2ten Grades sein, f2 so etwas wie eine exponentialfunktion exp(lambda t) fuer die heiligen und die anderen Jahre (oder vielleicht auch Polynome? Diese Wahl beeinflusst die Genauigkeit der Vorhersage, aber Du hast theoretisch keine Moeglichkeit zu entscheiden was besser ist).

Eine einfache Abschaetzung kannst Du so machen, wie bisher:

  1. Aus den Vorjahresdaten bestimmst Du den 12-Monatsverlauf in relativen Werten (sodass der Maximalwert im July oder August = 1 ist); d.h. Du teilst jeden Monatswert durch die Gesamtzahl des jeweiligen Jahres und berechnest dann den Mittelwert fuer jeden Monat.
  2. Diesen Verlauf passt Du an Deine beiden Datenpunkte fuer Januar und Februar 2004 an, z.B. indem Du sie auf Millimeterpapier auftraegst und gemaess der Verhaeltnisse der 12-Monatskurve nach Maerz, April, usw extrapolierst.
    Das wird nicht sehr genau werden, aber um so besser je mehr Punkte Du in 2004 zusammenbekommst.
    2’ Statt 2. Kannst Du auch aus den Maxima fuer die beiden bekannten heiligen Jahre abschaetzen, wie es 2004 wohl aussehen wird. Dafuer kannst Du zB ein lineare Zunahme annehmen. Falls rauskommt, dass es 2004 ca 1.5 mal soviele sein sollten wie im letzten heiligen jahr, dann multiplizierst Du das 12Monatsprofil mit 1.5 mal der Gesamtzahl im letzen heiligen Jahr und hast ein Schaetzung ueber die Monate in 2004. Das gibt Dir vemutlich nur eine untere Schranke, weil die Entwicklung vermutlich staerker als linear waechst.

Du kannst auch exponentielles Wachstum annehmen (exp(lambda t)) und einen Faktor lambda nehmen, der aus den unheiligen Jahren durch fitten der Gesamtzahlen per Jahr bestimmt wird. Das nimmt wieder an, das sich die heiligen und unheiligen Jahre gleich entwickeln bis auf einen multiplikativen Faktor.

Ciao, ich muss jetzt wieder nach meinen Programmen gucken, der Rechner ruckelt schon so.
T