Datenauswertung - Missing Values

Hallo ich habe eine Frage,
ich hoffe die kann mir hier jemand beantworten:
Und zwar ich schreibe gerade an einer Diplomarbeit über Prognosefähigkeit von Schulnoten und will da Korrelationen berechnen und eventuell auch eine Regression. Jetzt habe ich 200 Zeugnisse ausgewertet und habe in manchen Fächern natürlich Missingwerte (durch Abwählen und dass das Fach nicht unterrichtet wird).
Für meine Auswertung (ich werte in Winstat für Excel aus) bin ich Startbereit für die Auswertung.

1.) Nur für die Häufigkeitsauszählung muss ich die fehlenden Werte codieren?
2.) Für alle anderen Sachen die ich berechne (t-Tests, Korrelationen , Regression , Standartfehler etc.). Rechne ich ohne eine Codierung von Missing Werten (wenn ich das so mache kommt von Excel eine Warnmeldung dass er die fehlende Werte als Missing Values benutzt)?

Besten Dank und viele Grüße
Nico

Hallo,

eine erste Idee: Ich würde die Auswertung pro Fach vornehmen und dann nur die Fälle berücksichtigen, die keine fehlenden Daten aufweisen. Wenn die Auswertung über mehrere Fächer stattfinden soll, würde ich Kernfächer mit relativ wenigen Missings wählen und auch hier nur diejenigen Fälle berücksichtigen, die keine Missings aufweisen.

Grüße,

Oliver Walter

Danke für die schnelle Antwort :smile:
Bei Variante 2, aufgrund der kleinen Stichprobe: Daten mit Missings kann ich nicht berücksichtigen ?

Bei Variante 2, aufgrund der kleinen Stichprobe: Daten mit
Missings kann ich nicht berücksichtigen ?

Du könntest die Missings durch Schätzwerte ersetzen. Eine einfache Möglichkeit wäre es, die Noten einfach fortzuschreiben. Beispielsweise könnte eine Schülerin, die in einem Schuljahr keinen Mathematikunterricht mehr hatte und ein Jahr zuvor eine 3 hatte, in dem Jahr wiederum eine 3 erhalten. Eine etwas verfeinerte Lösung wäre es, wenn Du bei der Schätzung die Varianz der Noten in den Jahren zuvor berücksichtigst, noch besser, wenn Du zusätzlich mögliche Trends in den Daten einbeziehst. Natürlich sind diese Schätzungen mit Unsicherheiten und statistischen Veränderungen der Korrelationsmatrix verbunden. Darüber muß man sich im Klaren sein.

Pro Fach, indem Noten geschätzt wurden, würde ich einen Missing Indikator einführen, der angibt, ob ein Datum beobachtet (codiert mit 0 im Indikator) oder geschätzt (codiert mit 1 im Indikator) wurde. Die Indikatoren sollte man mit in die Regressionsgleichung aufnehmen. Dadurch werden Verzerrungen aufgrund der Schätzungen korrigiert.

Grüße,

Oliver Walter