sorry, ich komm mir reichlich blöd vor, aber ich komm einfach nicht drauf
Ich versuche gerade ein paar Daten zu plotten und irgendwie wollen Realität und Theorie nicht zusammen passen …
Aus der Normalverteilung (besser: der Dichte, also N(\mu, \sigma) ) lese ich die Wahrscheinlichkeit ab, dass eine Zufallsvariable in einem bestimmten Bereich liegt. Schön. Wenn ich also, sagen wir mal, 1 Mio. Werte haben, die mit \mu und \sigma verteilt sind und ein Histogramm davon plotte, sollte gerade die Gaußglocke mit
f(x) = 1/(sigma*sqrt(2pi) * exp(-0.5 ( (x-mu)/sigma )^2 )
erscheinen, nicht wahr? (Oder?!?)
Ich habe hier Daten mit mu~3.2 und sigma~0.3
Mein Problem ist, dass ich das ‚reale‘ Ergebnis (also das Histogramm) plotte und eine Gaußkurve mit dem höchsten Punkt bei ca. 0.4 erhalte. Schön.
Plotte ich aber die ‚echte‘ Funktion, liegt das Maximum bei ca. 1.2
(klar, erste Ableitung nullsetzen, x_max = mu, f(x_max) = 1/(sigma*sqrt(2pi)) )
Anfangs dachte ich an einen Tippfehler, aber f(x_max) ist für sigma
Die DICHTE der Verteilung ist maximal bei x=3.2 und hat dort einen Wert von f(x)~1.2
Mein Problem ist, dass ich das ‚reale‘ Ergebnis (also das
Histogramm) plotte und eine Gaußkurve mit dem höchsten Punkt
bei ca. 0.4 erhalte. Schön.
Wie plottest du das? Entsprechen die Balkenhöhen den DICHTEN oder den rel. Häufigketen oder was? Wenn Du das Histogramm mit der Formel oben vergleichen willst, dann mußt du die DICHTEN zeichnen. Die Dichten sind abh. von den Klassenbreiten, die im Histogramm gewählt sind.
Also ganz offenbar nehme ich die falsche Funktion für die
‚theoretische‘ Gausskurve, welche ich durch die Daten annähern
will - aber was, wenn nicht die Dichte?
Du hast das schon richtig. Wenn du R oder S bemühst, kannst du das an diesem Code nachprüfen:
ich glaube dein Fehler ist: Du hast nicht über die Normierung der Glockenkurve nachgedacht.
Die „theoretische“ Funktion nach Lehrbuch (die Dichte) ist so normiert, dass das INTEGRAL (-unendl. … + unendl) EINS ergibt. Jetzt kommt’s drauf an, wie du den Histogramm plottest. Das können
absolute Häufigkeiten (dann ist die SUMME aller Werte gleich die Anz. der Beobachtungen N) oder
relative Häufigkeiten (dann ist die SUMME aller Werte gleich EINS)
sein. In jedem Fall ist das INTEGRAL wieder was anderes,
nämlich Summe * Klassenbreite.
Um die th. und exp. Kurven aufeinander zu normieren musst du also im Falle abs. Häufigkeit die th. Kurve noch mit N*Klassenbreite multiplizieren. Dann sollte es passen.
Gruß Kurt
PS: Physiker (u.a.) arbeiten mit Einheiten. Die Fläche unter der th. Dichtekurve ist eine Wahrscheinlichkeit, hat also Einheit „1“, die x-Achse hat die Einh. der Messgröße. also z.B. kg. Damit hat die Dichte f(x) die Einheit 1/kg. Wenn man die Einheiten mitschleppt, dann sieht man den vergessenen Faktor Klassenbreite sofort!
Argh! Die Klassenbreite! Ich musste erst einen Moment überlegen, was damit gemeint ist … dann fiel aber selbst mir auf, dass meine absoluten (und relative…) Werte natürlich kleiner werden, je mehr Einträge/Abtaststellen mein Histogramm hat.
Die Grundlagen der Integralrechnung sind schon eine ganze Weile her, kann nur hoffen, dass meine Mathelehrerin das nie liest!
Allerherzlichsten Dank (ein bissel schäm’ ich mich ja schon) und eine schöne Woche!