Median sinnvoll

Hallo zusammen,

sitze gerade an einer Fragebogenauswertung für mein Studium & komm auf keinen grünen Zweig. Ich will die durchschnittliche Kundenstruktur eines Supermarktes kurz erläutern, d.h Mittelwerte berechnen. Nun komme ich mit der Sinnhaftigkeit des Median nicht ganz klar. Man nimmt ihn ja für Ordinalskalen. Ist es daher auch sinnvoll das Alter, das Einkommen (jeweils in Gruppen angeordnet) mit dem Median zu berechnen oder ist hier die relative Häufigkeit (Modus?) sinnvoller?

DANKE! Grüße, Lisa

Hallo zusammen,

Ich will die durchschnittliche Kundenstruktur
…d.h. Mittelwerte berechnen.

Durchschnitt = Mittelwert (im math. Sinne). Wenn das dein Ziel ist, dann solltest du den Mittelwert nehmen.

Ich vermute aber, du versuchst eher, eine typische Kundenstruktur zu ermitteln. „Typisch“ ist kein math. Begriff, ist aber im „common sense“ (mit dem gesunden Menschenvarstand) viel besser zu interpretieren als der Begriff „Durchschnitt“. Daher finde ich den Begriff „typische Kundenstruktur“ sowieso schonmal besser als „durchschnittliche Kundenstruktur“.

Nun komme ich mit der Sinnhaftigkeit
des Median nicht ganz klar. Man nimmt ihn ja für
Ordinalskalen.

Nö. Auch, ja, aber nicht nur. Bei Ordinalskalen ist ein Durchschnitt (Mittelwert) nicht definiert. Als Maß für die zentrale Tendenz von Ordinaldaten hat man dann (nur noch) den Median oder (abh. von der Struktur der Verteilung) den Modus.

Der Median ist der Wert, für den gilt: 50% aller Werte sind kleiner und 50% sind größer. Gebe ich einen Median des Einkausfwertes pro Person von z.B. €27,30 an, dann weiß ich, dass jededr 2. Kund weniger als €27,30 zahlt und auch dass jeder 2. Kunde mehr als €27,30 zahlt. Wenn die Einkaufswerte alle nur wenig um diesen Wert herum streuen (und damit wahrscheinlich recht symmetrisch verteilt sind), gibt der Mittelwert ein sehr ähnliches Ergebnis. Wenn es Kunden gibt, die superteure Einkäufe machen, dann juckt das den Median überhaupt nicht, den Mittelwert allerdings schon. So könnte der Mittelwert auf €50 und mehr hochschnellen, obwohl bei den meisten Einkäufe trotzdem nur so zwischen 20 und 40 Euro ausgegeben werden. Dann (also bei sehr schiefen Verteilungen oder „häufigen“ oder „sehr extremen“ Extremwerten) ist der Mittelwert also kein Maß mehr für einen „typischen“ Wert.

Grundsätzlich ist die Zusammenfassung in einer einzigen Maßzahl (ob nun Mittelwert oder Median) schon eine sehr rigide Art, Informationen aus Daten „einzudampfen“. Neben der „zentralen Tendenz“ oder dem „typischen Wert“ sollte wenigstens auch noch ein Anhaltspunkt zur Streuung oder zu einem „typischen Bereich“ angegeben werden.

Da gibt es auch zig Möglichkeiten, mein Tipp aber ist, den Interquartilsbereich (IQR) als ein Maß für einen „typischen Bereich“ zu verwenden. Der IQR ist der Bereich, in dem 50% aller Werte liegen. Die Grenzen sind so gewählt, dass 25% unterhalb und 25% oberhalb der Bereichsgrenzen liegen. Die Grenzen sind also das 0.25-Quantil (bzw. 1. Quartil) und das 0.75-Quantil (bzw. 3. Quartil) (vgl: Der Median ist das 0.5-Quantile bzw. das 2. Quartil).

So kannst du die Verteilungen der Werte in drei Zahlen zusammenfassen: q0.25, q0.5 und q0.75. Für den Einkaufswert könnte das dann zB. so aussehen: „Der Mediane Einkaufswert betrug €27,30 mit einem IQR von €20,10-€45,90.“

Ist es daher auch sinnvoll das Alter, das
Einkommen (jeweils in Gruppen angeordnet) mit dem Median zu
berechnen oder ist hier die relative Häufigkeit (Modus?)
sinnvoller?

Median und IQR sind hier m.E. die beste Wahl. Es ist aber auch absolut legitin, SOWOHL den Median ALSO AUCH den Mittelwert anzugeben. Aus dem Vergleich dieser beiden Angaben kann man auch auf die (mögliche) Schiefe der verteilung schließen. Stünde im Bereicht also zB. „Der mediane bzw. mittlere Einkaufswert lag bei €27,30 bzw. €47,10“, so wüßte ich: Aha, ein typischer Einkauf liegt so bei 30€, es gibt aber auch Kunden, die sehr viel teurere Einkäufe machen.

Der Modus ist bei kontinuierlichen Variablen nicht gut definiert. Dazu müßtest du die Werte in Gruppen einteilen, was wieder das „wegwerfen von Information“ bedeutet. Wichtig : Wenn du sowieso nur diskrete Gruppen hast, und davon nur recht wenige, dann würde nur die modale Gruppe Angeben. Beispiel: Das mtl. Einkommen der Kunden wurde wie folgt erfragt: (a) 5000€. Hier wäre dann „nur“ eine Aussage gerechtfertigt wie „das mtl. Einkommen der meisten Kunden lag zw. 1000 und 2000€.“ (hier wäre also (b) die modale Gruppe).

VG
Jochen

Nach der super Antwort meines Vorredners möchte ich nur ein kurzes Beispiel zeigen.

Ob der Median sinnvoll ist oder nicht hängt von der zu ermittelnden Größe ab.

Beispiel:
Temperatur Sensor am Motor
20°C, 23°C, 10420°C, 21°C, 20°C, 27°C, 19°C
Median sagt 21°C
Durchschnitt sagt 1507°C
Der logische Menschenverstand würde den einen Wert ausblenden weil er wahrscheinlich fehlerhaft ist. Rechnerisch geht das aber nicht.
Der Bordcomputer eines Autos nutzt folglich den Median.

Auf den Supermarkt bezogen kann es sein, dass Fernseher für 1000€ verkauft werden, was eine einmalige Aktion ist. So etwas würde den Durchschnitt nach oben ziehen, verfälscht dann aber Aussagen über den Durchschnittseinkauf.

Nach der super Antwort meines Vorredners möchte ich nur ein
kurzes Beispiel zeigen.

Danke für die Blumen!

Ich finde es gut, dass du noch ein Beispiel anführst, konkret hierzu habe ich aber noch einen Hinweis:

Beispiel:
Temperatur Sensor am Motor
20°C, 23°C, 10420°C, 21°C, 20°C, 27°C, 19°C

Der logische Menschenverstand würde den einen Wert ausblenden
weil er wahrscheinlich fehlerhaft ist. Rechnerisch geht das
aber nicht.

Das kann ich so nicht stehen lassen :smile:

Man sollte Messwerte immer auf ihre Plausibilität überprüfen. Wenn ich Sachen messe, die physikalisch/chmisch/biologisch/wirtschaftlich/logisch oder wie auch immer nicht sein _KÖNNEN_, so _DARF_ man diese Werte nicht in die Analyse einbeziehen (das wäre ja auch super dämlich!). Es ist leicht, gerade für die Motortemperaturen, Grenzwerte anzugeben, außerhalb derer keine Werte gemessen werden können. Ein Wert, der über der Verdampfungstemperatur des Metalls liegt, ist ganz sicher kein echter Messwert :wink:

Weiterhin kann man, wenn man sowieso sehr viele Messwerte hat (wie sie von Sensoren anfallen) durchaus anhand der Verteilung der Daten solche Grenzen bestimmen. Man kann auch zB. die 1% größten und kleinsten der Messwerte generell „rauswerfen“ und hat mit dem sog. „getrimmten Mittelwert“ eine gute Schätzung der mittleren Motortemperatur.

Der Bordcomputer eines Autos nutzt folglich den Median.

Ist das so? Weißt du das?

VG
Jochen

1 „Gefällt mir“

Ist das so? Weißt du das?

Ja, das weiß ich. Die Sensoren werden als Tupel angebracht. Wenn ein Sensor aufgrund eines Bitfehlers eine falsche Temperatur anzeigt wird dieser durch Benutzung des Medians kaschiert.

Ist das so? Weißt du das?

Ja, das weiß ich. Die Sensoren werden als Tupel angebracht.
Wenn ein Sensor aufgrund eines Bitfehlers eine falsche
Temperatur anzeigt wird dieser durch Benutzung des Medians
kaschiert.

Cool, danke ! Wieder was gelernt :smile:

VG
Jochen