Wie Datensatz mit vielen Lücken auswerten?

hallo zusammen,

ich habe einen datensatz von mehreren messstellen über einen längeren zeitraum mit sehr vielen lücken.
es soll untersucht werden, ob manche messstellen sehr ähnliche werte messen (und deshalb entfernt werden können), also gruppen bzw. strukturen zu finden. außerdem soll die entwicklung der einzelnen messreihen bezüglich deren funktionstüchtigkeit (ich denke da an abnehmende amplituden) untersucht werden.

ich habe mich vorher in einer statistikberatung informiert und folgende analysemethoden vorgeschlagen bekommen:

  • clusteranalyse
  • multidimenional scaling
  • räumliche gruppierungen
  • graphische gruppenbildung über boxplots
  • korrelationsbestimmung

die letzten drei punkte konnte ich mehr oder weniger bewerkstelligen. dei der clusteranalyse und dem mds habe ich allerdings probleme.

ich meine mittlerweile herausgefunden zu haben, dass die clusteranalyse nur funktioniert wenn in allen enthaltenen fällen zum gleichen variablen vorhanden sind. da mein datensatz aber so lückenhaft ist, gibt es keinen einzigen zeitpunkt an dem alle fälle variablen aufweisen. stimmt das?

bei der mds komme ich überhaupt nicht voran. ist sowas bei einer solchen datengrundlage überhaupt möglich?

welche analyse methoden würdet ihr mir weiterhin raten? mir steht spss sowie R zur verfügung.

über eure hilfe würde ich mich sehr freuen. mir qualmt langsam der kopf Very Happy
vielen dank schonmal…

shugach

Hallo shugach,

es ist schon spät - einige Gedanken zu Deiner Mail schreibe ich trotzdem mal nieder…

ich habe einen datensatz von mehreren messstellen über einen
längeren zeitraum mit sehr vielen lücken.

Wodurch sind den die vielen Lücken entstanden? Liegen Sie bei allen Messstellen gleichermaßen vor? Je nach Antwort auf diese Fragen kann es sinnvoll sein, mehrere Daten derselben Messstellen zusammenzufassen, um das Problem der fehlenden Werte zu umgehen.

ich meine mittlerweile herausgefunden zu haben, dass die
clusteranalyse nur funktioniert wenn in allen enthaltenen
fällen zum gleichen variablen vorhanden sind. da mein
datensatz aber so lückenhaft ist, gibt es keinen einzigen
zeitpunkt an dem alle fälle variablen aufweisen. stimmt das?

Ja, so habe ich es auch in Erinnerung. Daher werden Clusteranalysen in meinem Fachgebiet (Psychologie) auch meist auf Summen- oder Mittelwerte statt auf Rohwerte gerechnet.

bei der mds komme ich überhaupt nicht voran. ist sowas bei
einer solchen datengrundlage überhaupt möglich?

Sorry, meine letzte MDS liegt Jahr zurück - da kann ich Dir nicht weiterhelfen.

Viele Grüße,
Kutya

Hallo shugach,

dass der Kopf raucht ist ja erst mal kein schlechtes Zeichen.

Ich muss erst einmal im Dunklen stochern, da ich eigentlih zu wenig Information habe.

Wie du richtig schreibst, verursachen die ‚Lücken‘ das Hauptproblem. Ohne Kenntnis darüber, was die Lücken verursacht hat, nennen wir diese ab jetzt Missig Data (MD) ist es schwer einen Tipp zu geben. Am besten du versuchst die Lücken zu schliessen, indem du zB bei Messwiederholungsdaten dafür den Mittelwert der Nachbarn zeitlich früher und zeitlich später einsetzt. Bei engen Messdaten (Wochen, Tage oder noch weniger) hast du vermutlich das geringste Problem, es sei denn (a) die fehlenden Daten folgen einem System/ Muster, was bei Wirtschaftsdaten (b) zB Saisonalität sein kann (im Winter ist die Arbeitslosigkeit immer höher). Wenn einer dieser beiden Punkten zutrifft, musst du einen intelligenten Weg des MD-Ersatzes finden --entlang des oben beschriebenen Erssetzens durch den Mittelwert. Es gibt noch intelligentere Verfahren, die aber alle nicht trivial sind (Stichwort bei Google-Suche: missing data imputation).

Bei den Verfahren hast du ein Potpourri aufgelistet. Die meisten leiden daran, dass sie völlig andere Lösungen erzeugen können, wenn man nur wenige Fälle/Variablen aus der Berechnung raus nimmt. da ist zuvorderst die Clusteranalyse zu nennen. Auf der anderen Seite mag sie aber auch Hinweise geben, die den Kopf weniger rauchen lässt, weil man Erkenntnisse gewinnt. Solltest du zB die MD mit einer Konstanten ersetzen, mag es sein, dass dir die Clusteranalyse Cluster anbietet, die eben aus Fällen mit ähnlichem MD-Muster bestehen (insb. wenn man eine schräge Konstante wählt zB -999).

Schau doch aber deine bisherigen Ergebnisse mal an; was sagen sie dir? Lässt sich schon eine Message raus lesen?

Wenn du schreibst, dass es keinen Zeitpunkt ohne MD gibt; ist der Zeitpunkt dein Fokus? Oder der das Verlaufsmuster eines gemessenen Merkmals über viele Objekte hinweg im Sinne einer Zeitreihenanalyse/ repeated measures?

Viel Erfolg, bin dann in Urlaub,

Walter.

Hallo Kutya,

vielen dank für die schnelle antwort.
die lücken sind messausfälle und treten nicht kontinuierlich oder regelmäßig auf. sie treten bei allen messstellen auf, allerdings jeweils zu unterschiedlichen zeitpunkten und mit unterschiedlichen längen. dabei gibt es keinen einzigen keine messreihe eine lücke hat.

ich hoffe es gibt eine möglichkeit die fehlenden werte zu umgehen.
vielen dank schonmal und schöne grüße

shugach

Hallo,

mich macht etwas stutzig, dass du sagst, du konntest die letzten drei Verfahren mehr oder weniger anwenden. Wenn du z.B: mit SPSS eine Korrelationsanalyse durchfürhst und du Missing Values dabei hast, lässt SPSS die entwprechenden Datensätze einfach raus. Wenn du aber sagst, dass deine Daten stark lückenhaft sind, solltest du einmal überprüfen, wie wievel Datensätze noch in deine Auswertung gegangen sind und ob das Ergebnis, das SPSS errechnet hat wirklich aussagekräftig ist. Sinnvoll wäre hier z.B. die Bestimmung von Konfidenzintervallen.

Ansonsten würde ich dir eher vorschlagen, dich im Bereich der Missing Value Analyse etwas schlau zu machen und zu versuchen, ob du deine Problem nicht über das Füllen der Datenlücken lösen kannst. Du läufst sonst immer Gefahr Ergebnisse nur über die wenigen vollständigen Datensätze zu bekommen und hast wahrscheinlich dadurch eine systematische Verzerrung drin, weil es meistens einen Grund hat, warum bei bestimmten Fällen Daten fehlen und bei anderen nicht.

Schönen Gruß, Andreas

Hallo shugach,

bei der Clusterananlyse wird ja versucht, in den Daten bestimmte Gruppen oder auch in Gruppen Untergruppen zu finden bzgl. einem Merkmal. Deshalb wird in deinem Fall eine Clusteranalyse nicht möglich sein.

Beim MDS werden die einzelnen Objekte in einen Vektorraum projeziert und dann die Distanz zwischen den Punkten gemessen. Also je kleiner die Distanz desto ähnlicher sind sich die Objekte. Ich denke, dass diese Methoden bei deinen Daten nicht funktionieren würden, da die Projektion ja über alle Variablen laufen wird und somit die Berechnung verzerrt wären…

Weitere Methoden fallen mir nicht ein. Sollte ich doch noch eine Idee haben, dann melde ich mich nochmal.

Viel Erfolg noch bei der Auswertung!
Anja

Sorry, aber da kann ich leider nicht weiter helfen. Gruß Robert

Hi,

ganz unabhaengig davon, welche Analyse du machen willst kannst du dich mit dem Thema multiple imputation auseinandersetzen um die Luecken / missing values aufzufuellen. In R ist meine ich de MI function (package weiss ich nicht). Fuer SPSS gibts da auch was in der Richtung, enn ich nicht irre.
Ist nicht gerade einfach aber besser als nur die complete cases zu verwenden (in SPSS ist das die casewise deletion).

Gruesse,
JPL