Statistik: Auswertung einer Schätzfrage

hallo forum!

ich entwickle z.zt. für meine diplomarbeit einen fragebogen und habe eine kurze frage zur auswertung von schätzfragen.

in einem abschnitt des fragebogens sollen die befragten schätzen, wie hoch die steuerbelastung bei fünf fiktiven personen ist (z.b. eines rentners, eine familie mit 2 kindern und einem jahreseinkommen von 60.000 EUR). die differenzen zwischen den antworten und den tatsächlichen werten möchte ich dann in einer einzigen kennziffer zusammenfassen, die anschaulich wiedergibt, wie stark die schätzung einer befragten person von der realität abweicht.

wie würdet ihr eine solche frage auswerten? macht es evtl. sinn, größere abweichungen stärker zu gewichten?

freue mich über jede antwort bzw. über jeden tipp!

beste grüße
CHA

Hallo, CHA,

wie würdet ihr eine solche frage auswerten?

spontane Idee:

(geschätzter Wert - tatsächlicher Wert)2/(tatsächlicher Wert)

Dann sind die Abweichungen vom tatsächlichen Wert am tatsächlichen Wert standardisiert (eine Abweichung um 1 von 1 ist dann mehr als eine Abweichung um 1 von 10) und größere Abweichungen stärker gewichtet als kleinere (eine Abweichung um 5 wird stärker „bestraft“ als eine um 2).

Wie ich darauf komme: So geht man bei den Chi-Quadrat-Tests vor.

Beste Grüße,

Oliver Walter

hallo,

vielen dank für die schnelle antwort!

(geschätzter Wert - tatsächlicher
Wert)2/(tatsächlicher Wert)

an eine solche berechnung hatte ich
anfangs auch gedacht. probleme: die
steuerbelastung eines rentners mit einem
geringen einkommen beträgt z.b. 0 EUR
=> die formel funktioniert leider nicht.

haben sie oder jemand anderes noch einen
anderen ansatz?

beste grüße aus dem süden
CHA

Hallo,

haben sie oder jemand anderes noch einen
anderen ansatz?

Du kannst entweder die Division durch den tatsächlichen Wert weglassen - die Formel gibt dann den quadratischen Fehler an - oder Dein Beispiel so ändern, daß der Rentner Einkommensteuer zahlt. Grundsätzlich besteht ja Einkommensteuerpflicht für Rentner.

Beste Grüße,

Oliver Walter

Nur mal so erwähnt…
Hallo,

zum einen beträgt die Steuerbelastung eines Rentners, wenn man
es genau nimmt, nicht 0 Euro, sondern ein Teil seiner
Lebenshaltungs- und sonstigen Kosten sind Steuern.
Mwst, Ökosteuer, Versicherungssteuer etc.
Und wenn du tatsächlich NUR Einkommenssteuer schätzen lassen
willst, warum nimmst du dann ausgerechnet einen Rentner
in deine Reihe auf?

Gruß
Walden

hallo walden,

zum einen beträgt die Steuerbelastung eines
Rentners, wenn man es genau nimmt, nicht 0
Euro, sondern ein Teil seiner Lebenshaltungs-
und sonstigen Kosten sind Steuern. Mwst,
Ökosteuer, Versicherungssteuer etc.

die von dir angesprochenen indirekten steuern
werden im zweiten abschnitt meines fragebogens
thematisiert. da ich davon ausgehe, dass die
ESt über- und die indirekten steuern unterschätzt
werden, ist eine seperate betrachtungsweise
angezeigt. aber vielen dank für den hinweis!

Und wenn du tatsächlich NUR Einkommenssteuer
schätzen lassen willst, warum nimmst du
dann ausgerechnet einen Rentner in deine
Reihe auf?

ca. 25% der deutschen bundesbürger zahlen
keine ESt. da ich in meiner diplomarbeit
untersuchen möchte, wie das deutsche
steuersystem wahrgenommen wird, müssen
also auch 1/4 meiner fiktiven durchschnitt-
steuerzahlen keine ESt zahlen. daher werde
ich auch einen rentner und einen
geringverdiener in die liste aufnehmen.

beste grüße
CHA

hallo,

Du kannst entweder die Division durch den tatsächlichen Wert
weglassen - die Formel gibt dann den quadratischen Fehler an -
oder Dein Beispiel so ändern, daß der Rentner Einkommensteuer
zahlt. Grundsätzlich besteht ja Einkommensteuerpflicht
für Rentner.

um eine steuerbelastung von 0 EUR komme ich leider
nicht herum, da ich mit meinen beispielen einen
querschnitt der deutschen bevölkerung darstellen
möchte und viele gar keine steuern zahlen (rentner,
geringverdiener, kinerreiche familien etc.)

an die von dir vorgeschlagenen vereinfachung habe
ich auch gedacht, so dass ich einem jeden
befragten folgenden wert zuweisen kann:

MSE = 1/I * sum( (Tigeschätzt - Titatsächlich)2 )

mit I=anzahl der fiktiven fällen und i
element von I.

an dem weg gefällt mir jedoch nicht, dass ein
fehler unabhängig von der basis immer gleich
behandelt wird (1 von 10 ist das gleiche wie
1 von 100). ich fand daher die von dir zuerst
vorgeschlagene normierung deutlich
aussagekräftiger.

als einzige alternative fällt mir noch der
durchschnittliche absolute fehler ein
(MAE = 1/I * sum( |Tigeschätzt - Titatsächlich|) ).
ich denke aber, dass die höhere gewichtung
größerer fehler wie bei dem MSE sinnvoller ist.
ich werde daher, sofern du oder jemand anderes
keine andere idee mehr hat, wahrscheinlich den MSE
verwenden.

für deine hilfe schon mal vielen dank.
beste grüße aus dem süden
CHA

Hallo CHA,

da ich davon ausgehe, dass die
ESt über- und die indirekten steuern unterschätzt
werden,

Davon gehe ich auch aus, dann ist deine Strategie
verständlich.

ca. 25% der deutschen bundesbürger zahlen
keine ESt. da ich in meiner diplomarbeit
untersuchen möchte, wie das deutsche
steuersystem wahrgenommen wird, müssen
also auch 1/4 meiner fiktiven durchschnitt-
steuerzahlen keine ESt zahlen. daher werde
ich auch einen rentner und einen
geringverdiener in die liste aufnehmen.

Das Ergebnis würde mich interessieren…
Viel Erfolg mit deiner Untersuchung!

Gruß
Walden

Das Ergebnis würde mich interessieren…
Viel Erfolg mit deiner Untersuchung!

werde mich melden und berichten!

beste grüße
CHA

Hallo,

MSE = 1/I * sum( (Tigeschätzt -
Titatsächlich)2 )

ja, den MSE hatte ich im Sinn. Du kannst auch seine Wurzel nehmen, um ihn wieder auf die gleiche Metrik wie die der tatsächlichen Werte zu bringen. Nennt sich dann logischerweise RMSE.

ich fand daher die von dir zuerst
vorgeschlagene normierung deutlich
aussagekräftiger.

Was meinst Du denn dazu, wenn Du im Fall einer nicht vorhandenen Einkommensteuerlast statt durch Null durch 1 dividierst?

Beste Grüße aus Kiel,

Oliver Walter

ja, den MSE hatte ich im Sinn. Du kannst auch seine Wurzel
nehmen, um ihn wieder auf die gleiche Metrik wie die der
tatsächlichen Werte zu bringen. Nennt sich dann logischerweise
RMSE.

klingt gut. aber mach ich dadurch nicht die überproportionale
gewichtung von großen abweichungen teilweise wieder rückgängig?
werde das mal morgen nachlesen - vielen dank für den hinweis!

Was meinst Du denn dazu, wenn Du im Fall einer nicht
vorhandenen Einkommensteuerlast statt durch Null durch 1
dividierst?

interessante überlegung! aber wäre das statistisch
sauber? klingt fast zu einfach :wink:

hab vielen dank für deine hilfe!
wünsche einen schönen abend
CHA

Hi,

werde mich melden und berichten!

Würde mich freuen. Nur würde ich mir an deiner Stelle,
die Sache mit der stärkeren Gewichtung von größeren
Abweichungen noch einmal überlegen. Wenn du ein anschauliches,
sprich adäquates Bild darstellen willst, würde ich einen
schlichten Quotienten wählen.
Was versprichst du dir davon, da du mit effektiven Zahlen
arbeitest? Bei Trendanalysen etc. finde ich stärkere
Gewichtungen eher angebracht.

Gruß
Walden

hallo walden,

entschuldige bitte die verspätete aw - haben dein
posting übersehen.

Was versprichst du dir davon, da du mit effektiven Zahlen
arbeitest? Bei Trendanalysen etc. finde ich stärkere
Gewichtungen eher angebracht.

meine oberstes ziel ist es, ein skala zu erschaffen,
mit der ich messen kann, wie stark die wahrgenommene
bzw. geschätzte steuerbelastung von der tatsächlichen
abweicht. im zweiten schritt werde ich dann analysieren,
ob irgendwelche einflußfaktoren zu erkennen sind (zb.
medienkonsum, bildungsniveau, einkommen, etc.)

der durchschnitt der absoluten differenzen (MAD) wäre
eine einfache möglichkeit, die gewünschte kennziffer
zu berechnen. ich möchte aber größere abweichungen
stärker „bestrafen“, da ich davon ausgehe, dass nur
große abweichungen einen systematischen hintergrund
haben. der RMSE (root mean square error) erfüllt genau
dieses kriterium, ist aber in der tat nicht so
anschaulich zu interpretieren.


ein beispiel: person A verschätzt sich fünf mal
um 1000 EUR; person B hingegen schätzt vier mal
richtig und unterschätzt die steuer von reichen
um 5000 EUR. der MAD beider personen beträgt
jeweils 1000 EUR. der RMSE zeigt jedoch an, dass
die schätzung von A (RMSE=1000 EUR) besser ist
als die von B (RMSE=ca. 2240 EUR).

allerdings bin ich kein statistiker und lasse
mich daher gern von einem besseren weg überzeugen! :wink:

beste grüße
CHA

Hallo CHA,

meine oberstes ziel ist es, ein skala zu erschaffen,
mit der ich messen kann, wie stark die wahrgenommene
bzw. geschätzte steuerbelastung von der tatsächlichen
abweicht.

Eben, da würde ich eine einfachen Quotienten wählen,
ganz simpel mittels Normalverteilung, grafisch einfach
darstellbar (Pareto etc.).

im zweiten schritt werde ich dann analysieren,
ob irgendwelche einflußfaktoren zu erkennen sind (zb.
medienkonsum, bildungsniveau, einkommen, etc.)

Das ist der springende Punkt! Wenn du dich apriorisch
schon von Vorurteilen leiten lässt, (das tue ich auch
zugegeben, da haben wir wohl ähnliche Erwartungen), dann
nimmst du deiner Arbeit den objektiven Charakter, weil
deine Intentionen klar erkennbar sind und deine
Konklusionen entsprechend deiner Prämisse ausfallen.

der durchschnitt der absoluten differenzen (MAD) wäre
eine einfache möglichkeit, die gewünschte kennziffer
zu berechnen.

Als ersten Schritt! Und darauf aufbauen, bzw. in die
Tiefe gehen.

ich möchte aber größere abweichungen
stärker „bestrafen“, da ich davon ausgehe, dass nur
große abweichungen einen systematischen hintergrund
haben.

(s. auch oben Vorurteile)
Das wäre der nächste Schritt, wenn du klar erkennbare
Tendenzen analysierst hast, dann kannst du diese Ausreisser
immer noch gesondert abarbeiten. Wiewohl man auch erwarten
könnte, dass auch geringe Abweichungen einen systematischen
Hintergrund haben. (z.B. Bildung, Einkommen,
ein wohlhabender Akademiker wird die steuerliche
Belastung eines Langzeitarbeitslosen nicht so falsch
einschätzen wie das umgekehrt der Fall sein wird.)
So, das wäre ein Vorurteil von mir. Wenn du das mittels
deiner empirischen Daten nachweisen kannst, kann man
damit auch herrliche logische Schlüsse und Trends,
induktiv wie abduktiv ableiten.

der RMSE (root mean square error) erfüllt genau
dieses kriterium, ist aber in der tat nicht so
anschaulich zu interpretieren.

Deshalb würde ich schrittweise vorgehen, das eine
schliesst das andere nicht aus. Und du kannst deine
individuelle Intention immer noch erfüllen.

allerdings bin ich kein statistiker und lasse
mich daher gern von einem besseren weg überzeugen! :wink:

Es ist deine Arbeit, du kennst deine Intentionen besser als
jeder andere, lass dir nur nicht von mir dreinreden! :wink:
Liegt die Gewichtung auf der Analyse der Ausreisser, oder
auf der der Masse? (Bei Trends werden eben
die Ausreisser am meisten bestraft, weil diese zu
vernachlässigen sind.z.B.) Willst du eine Erkenntnis für dich
selbst, oder willst du eine allgemeinverständliche
Auswertung?
Dein Beispiel unten war klar und klug, nur meine ich, dass
man das abarbeiten muss und nicht auf eine Formel bringen kann.
Schon gar nicht apriorisch! Erst einmal anschauliche Fakten schaffen.
Der RMSE wäre dann eine logisch nachvollziehbare Konsequenz und
nicht übers Knie gebrochen, ohne selbsterklärenden Charakter.
So wie unsere Diskussion hier.

Nochmals viel Erfolg und lass von dir hören!

Viele Grüße
Walden