Hallo zusammen,
Ich will die durchschnittliche Kundenstruktur
…d.h. Mittelwerte berechnen.
Durchschnitt = Mittelwert (im math. Sinne). Wenn das dein Ziel ist, dann solltest du den Mittelwert nehmen.
Ich vermute aber, du versuchst eher, eine typische Kundenstruktur zu ermitteln. „Typisch“ ist kein math. Begriff, ist aber im „common sense“ (mit dem gesunden Menschenvarstand) viel besser zu interpretieren als der Begriff „Durchschnitt“. Daher finde ich den Begriff „typische Kundenstruktur“ sowieso schonmal besser als „durchschnittliche Kundenstruktur“.
Nun komme ich mit der Sinnhaftigkeit
des Median nicht ganz klar. Man nimmt ihn ja für
Ordinalskalen.
Nö. Auch, ja, aber nicht nur. Bei Ordinalskalen ist ein Durchschnitt (Mittelwert) nicht definiert. Als Maß für die zentrale Tendenz von Ordinaldaten hat man dann (nur noch) den Median oder (abh. von der Struktur der Verteilung) den Modus.
Der Median ist der Wert, für den gilt: 50% aller Werte sind kleiner und 50% sind größer. Gebe ich einen Median des Einkausfwertes pro Person von z.B. €27,30 an, dann weiß ich, dass jededr 2. Kund weniger als €27,30 zahlt und auch dass jeder 2. Kunde mehr als €27,30 zahlt. Wenn die Einkaufswerte alle nur wenig um diesen Wert herum streuen (und damit wahrscheinlich recht symmetrisch verteilt sind), gibt der Mittelwert ein sehr ähnliches Ergebnis. Wenn es Kunden gibt, die superteure Einkäufe machen, dann juckt das den Median überhaupt nicht, den Mittelwert allerdings schon. So könnte der Mittelwert auf €50 und mehr hochschnellen, obwohl bei den meisten Einkäufe trotzdem nur so zwischen 20 und 40 Euro ausgegeben werden. Dann (also bei sehr schiefen Verteilungen oder „häufigen“ oder „sehr extremen“ Extremwerten) ist der Mittelwert also kein Maß mehr für einen „typischen“ Wert.
Grundsätzlich ist die Zusammenfassung in einer einzigen Maßzahl (ob nun Mittelwert oder Median) schon eine sehr rigide Art, Informationen aus Daten „einzudampfen“. Neben der „zentralen Tendenz“ oder dem „typischen Wert“ sollte wenigstens auch noch ein Anhaltspunkt zur Streuung oder zu einem „typischen Bereich“ angegeben werden.
Da gibt es auch zig Möglichkeiten, mein Tipp aber ist, den Interquartilsbereich (IQR) als ein Maß für einen „typischen Bereich“ zu verwenden. Der IQR ist der Bereich, in dem 50% aller Werte liegen. Die Grenzen sind so gewählt, dass 25% unterhalb und 25% oberhalb der Bereichsgrenzen liegen. Die Grenzen sind also das 0.25-Quantil (bzw. 1. Quartil) und das 0.75-Quantil (bzw. 3. Quartil) (vgl: Der Median ist das 0.5-Quantile bzw. das 2. Quartil).
So kannst du die Verteilungen der Werte in drei Zahlen zusammenfassen: q0.25, q0.5 und q0.75. Für den Einkaufswert könnte das dann zB. so aussehen: „Der Mediane Einkaufswert betrug €27,30 mit einem IQR von €20,10-€45,90.“
Ist es daher auch sinnvoll das Alter, das
Einkommen (jeweils in Gruppen angeordnet) mit dem Median zu
berechnen oder ist hier die relative Häufigkeit (Modus?)
sinnvoller?
Median und IQR sind hier m.E. die beste Wahl. Es ist aber auch absolut legitin, SOWOHL den Median ALSO AUCH den Mittelwert anzugeben. Aus dem Vergleich dieser beiden Angaben kann man auch auf die (mögliche) Schiefe der verteilung schließen. Stünde im Bereicht also zB. „Der mediane bzw. mittlere Einkaufswert lag bei €27,30 bzw. €47,10“, so wüßte ich: Aha, ein typischer Einkauf liegt so bei 30€, es gibt aber auch Kunden, die sehr viel teurere Einkäufe machen.
Der Modus ist bei kontinuierlichen Variablen nicht gut definiert. Dazu müßtest du die Werte in Gruppen einteilen, was wieder das „wegwerfen von Information“ bedeutet. Wichtig : Wenn du sowieso nur diskrete Gruppen hast, und davon nur recht wenige, dann würde nur die modale Gruppe Angeben. Beispiel: Das mtl. Einkommen der Kunden wurde wie folgt erfragt: (a) 5000€. Hier wäre dann „nur“ eine Aussage gerechtfertigt wie „das mtl. Einkommen der meisten Kunden lag zw. 1000 und 2000€.“ (hier wäre also (b) die modale Gruppe).
VG
Jochen