Mein Semester Statistik ist schon länger her, und mir fallen die passenden Stichworte zu folgendem Problem nicht ein:
Ein Analyse-Algorithmus bekommt eine große Menge an Datensets um diese zu analysieren. Nun möchte ich die Zuverlässigkeit des Algorithmus anhand einer (bzw. ein paar) manuell analysierten Stichprobe ermitteln. Es gibt also konkret ermittelte Fehler der manuell ausgewerteten Sets. Wie kann ich nun auf den durchschnittlichen Fehler des Verfahrens, bzw. auch die Varianz des Fehlers ermitteln? Da gibt es doch sicherlich irgendwelche statistischen Verfahren, oder?
Mein Semester Statistik ist schon länger her, und mir fallen
die passenden Stichworte zu folgendem Problem nicht ein:
Ein Analyse-Algorithmus bekommt eine große Menge an Datensets
um diese zu analysieren. Nun möchte ich die Zuverlässigkeit
des Algorithmus anhand einer (bzw. ein paar) manuell
analysierten Stichprobe ermitteln. Es gibt also konkret
ermittelte Fehler der manuell ausgewerteten Sets. Wie kann ich
nun auf den durchschnittlichen Fehler des Verfahrens, bzw.
auch die Varianz des Fehlers ermitteln? Da gibt es doch
sicherlich irgendwelche statistischen Verfahren, oder?
Ein paar Schlagworte:
-Anpassungstests (Chi-Quadrat, Kolmogorov-Smirnov,…)
-Data Mining (http://www.datenbank-spektrum.de/archiv_idx_html?bg=… -> Beiträge als pdf im Volltext)
-Mustererkennung
*hier bitte weitere Ideen einsetzen*
Bei soviel „Unbekanntem“
wuerde ich erstmal eine Stichprobe machen um zu sehen, wie sich die Fehler ueberhaupt verteilen. Die Stichprobe wuerde ich sequentiell machen, das heisst, solange Datensaetze vergleichen, bis sich eine (fuer das Auge) aussagefaehige Verteilung ergibt.
Danach kann man evtl. mit einfachen Standardmethoden testen, oder, was oft ausreicht, graphisch („per Auge“) die Streuung ermitteln.
Zusätzlich zu den anderen genannten Möglichkeiten würde ich die Konfidenzintervalle zu Mittelwert des Fehlers und der Varianz des Fehlers bestimmen.
Ein Problem in der Überprüfung der Verteilung des Fehlers sehe ich in der inferenzstatistischen Konstruktion der Standardtests (manuell: X²Anpassungstest; SPSS: K-S für eine Stichprobe, von Markus ja schon genannt); diese sind eigentlich nur geeignet, eine spezielle Verteilungsform abzulehnen (sie Testen ja nur die HA: ist ungleich einer speziellen Verteilungsform), aber nicht, eine zu akzeptieren. Es gibt auch kompliziertere Testverfahren (zum Überprüfen einer H0: ist gleich einer speziellen Verteilungsform), aber die kenne ich leider noch nicht.
Wenn Du Dich traust, bereits im Vorfeld Hypothesen über Mittelwert und Varianz des Fehlers abzugeben, kommen natürlich auch inferenzstatistische Einstichprobentests in Frage (Vergleich einer Stichprobe mit vorgegebenem Wert, z.B. Einstichproben-T-Test bzw. X²Varianztest). Dies würde aber m.E. nur Sinn machen, wenn es Hinweise in der Literatur oder durch das Konstrukt auf die Höhe gibt.
Ansonsten wären, wie gesagt, die Konfidenzintervalle das erste Mittel meiner Wahl.
da sind eine ganze Menge netter Ansatzpunkte genannt worden. Wichtig ist aber für dich, erstmal sicherzugehen, dass du keinen Bias hast, d.h. dass dein Fehler im Mittel 0 beträgt. Du gehst von H0 aus, dass dein Fehler mit MW 0 und Varianz sigma^2 verteilt ist. Letztere schätzt du aus deinen Daten [1/(n-1) summe(x_i - x_quer)] x_quer ist einfach die Summe deiner Fehler geteilt durch die Anzahl der getesteten Datensätze. Dann machst du einen t-Test zur H_0: MW=0.
Lehnt dieser t-Test nicht ab, dann hast du schon mal keinen systematischen Fehler (=Bias) drin. Mit Hilfe der geschätzten Varianz kannst du dann ein Konfidenzintervall für den Fehler konstruieren, um abschätzen zu können, wie groß dein Fehler „schlimmstenfalls“ wird.
Bias^2 + Varianz ergibt dann den sogenannten MSE (Mean Square Error), der - nicht nur - im Quality Engineering ein gängiges Maß ist. Wenn’s um Prozessverbesserungen geht, kannst du dich auch noch mit den Themen Verlustfunktion (sehr oft nimmt man eine quadratische, weil man die aus der Taylor-Entwicklung ableiten kann) und Toleranzintervall beschäftigen.
Solltest du gar nicht klarkommen, kannst du mich direkt anmailen.
(Anm.: Klar sollte man erstmal einen Test auf Normalverteilung machen; meine persönliche Erfahrung ist aber: in der Praxis macht das aber fast keiner, und wenn es nur ein Studienprojekt ist, kannst du’s dir sparen. Du müsstest schon sehr abartige Fehler haben bzw. sehr wenige manuell ausgewertete Daten.)
LG
Katharina
[Bei dieser Antwort wurde das Vollzitat nachträglich automatisiert entfernt]
vielen Dank für Deine ausführlichen Informationen. Damit kann ich glaub ich schon eingiges anfangen.
Bias^2 + Varianz ergibt dann den sogenannten MSE (Mean Square
Error), der - nicht nur - im Quality Engineering ein gängiges
Maß ist.
das ist mir ein wenig unklar. woher kommt plötzlich Bias?
Solltest du gar nicht klarkommen, kannst du mich direkt
anmailen.
ich werd es mir merken. zunächst werd ich mich ein wenig näher mit den entsprechenden themen auseinandersetzen. ich hab ja auch noch keine manuelle fehlerbestimmung…
(Anm.: Klar sollte man erstmal einen Test auf Normalverteilung
machen; meine persönliche Erfahrung ist aber: in der Praxis
macht das aber fast keiner, und wenn es nur ein Studienprojekt
ist, kannst du’s dir sparen. Du müsstest schon sehr abartige
Fehler haben bzw. sehr wenige manuell ausgewertete Daten.)
der test würde wohl sehr viel zeit kosten, da das manuelle nachprüfen eines datensets schon recht aufwändig ist. bis man da eine relevante menge an sets durch hat…
der mittlere quadratische Fehler (MSE) setzt sich zusammen aus einem systematischen Fehler und einem zufälligen Fehler. Der zufällige Fehler ist die Varianz. Der systematische Fehler ist der quadrierte Bias, wobei der Bias eines Schätzers theta’ für einen Parameter theta definiert ist als
Bias(theta’; theta) = E(theta’ - theta)
also der Erwartungswert deines Fehlers, den du selbst dann begehst, wenn dein Verfahren gar keine Varianz hätte.
Einen Bias sollte man möglichst (es gibt seltene Ausnahmen) vermeiden; Schätzverfahren ohne Bias heißen „erwartungstreu“.
So, bevor ich dich hier total verwirre, höre ich auf mit den neuen Fachbegriffen Es reicht mE für dich, mit dem t-Test zu testen, ob der Mittelwert deiner Abweichung = 0 ist. Wenn der Test nicht ablehnt (p-Wert im SPSS- oder Excel-Output > 0,05), dann kannst du mit der Annahme arbeiten, dass dein Verfahren keinen systematischen Fehler/Bias hat. Also brauchst du dann nur noch an der Minimierung der Varianz zu arbeiten.
neuen Fachbegriffen Es reicht mE für dich, mit dem t-Test
zu testen, ob der Mittelwert deiner Abweichung = 0 ist. Wenn
der Test nicht ablehnt (p-Wert im SPSS- oder Excel-Output >
0,05), dann kannst du mit der Annahme arbeiten, dass dein
Verfahren keinen systematischen Fehler/Bias hat.
Das ist mir unklar! Ich dachte immer, dass die Umkehrung des Tests nicht sinnvoll ist. Also, p0.05 sei _kein_ Unterschied vorhanden?
Die Fragen sind ernst gemeint! Ich habe nämlich das Problem, Bei Datensätzen zeigen zu sollen, dass sie einen Mittelwert von Null haben. Ich kenne keinen Test für sowas und auf Nachfrage (auch bei Statistikern) kam ein Achselzucken und die Anmerkung, dass man die Tests auf Unterschiede nicht einfach „rumdrehen“ darf.
sorry, das ist ein Missverständnis, und es liegt daran, dass ich es schlampig formuliert habe (weil ich July nicht noch mehr durcheinanderbringen wollte).
Also, H0 ist: my = 0, und H1 ist: my ungleich 0. Wenn ich nun H0 nicht ablehne, dann bleibe ich bei der Annahme, dass my nicht von 0 verschieden ist, was - wie du richtig anmerkst - nicht dasselbe ist wie zu zeigen, dass my = 0 ist. Meine Beobachtung widerspricht also H0 nicht, beweist aber nicht H0. Die Teststärke, also somit auch den Fehler 2. Art, müsste July separat aus den Daten berechnen.
Für July geht es ja - soweit ich es interpretiere - nur darum, dass sie die Annahme, keinen Bias zu haben, nicht verletzt. Beweisen, dass sie keinen Bias hat, kann sie so natürlich nicht. Braucht sie, wenn es sich um eine Studienarbeit handelt, aber auch nicht.
Ich erinnere mich an ein Oberseminar zur Testtheorie, in dem ich von „Umkehrungen“ solcher Tests gehört habe. Aber ich bin auswärts und komme gerade nicht an die Unterlagen. Sei so lieb und erinnere mich per Mail daran, dann schaue ich heute abend für dich nach, okay?
LG
Katharina
[Bei dieser Antwort wurde das Vollzitat nachträglich automatisiert entfernt]
Das ist mir unklar! Ich dachte immer, dass die Umkehrung des
Tests nicht sinnvoll ist. Also, p0.05 sei _kein_ Unterschied vorhanden?
Die Fragen sind ernst gemeint! Ich habe nämlich das Problem,
Bei Datensätzen zeigen zu sollen, dass sie einen Mittelwert
von Null haben. Ich kenne keinen Test für sowas und auf
Nachfrage (auch bei Statistikern) kam ein Achselzucken und die
Anmerkung, dass man die Tests auf Unterschiede nicht einfach
„rumdrehen“ darf.