Signifikanz-Test bei 2 abhängigen Merkmalen?

Hallo,

ich habe zwei Merkmale (A & B), von denen Merkmal B nur dann beobachtet werden kann, wenn Merkmal A vorhanden ist. Bei einer Vierfeldertabelle wäre also das Feld ‚!AB‘ immer=0. Das Feld ‚!A!B‘ kann theoretisch jeden beliebigen Wert annehmen - ist also nicht wirklich zu gebrauchen. Einzig die Felder ‚A!B‘ und ‚AB‘ sind mit sinnvollen Werten gefüllt.

Jetzt möchte ich die bedingten Wahrscheinlichkeit p(B|A=wahr) anzeigen. Mein Problem: A kann manchmal sehr klein sein (z.B. A=‚3‘); in anderen Fällen ist A sehr groß (A=‚500‘). Das heißt, die bedingte Wahscheinlichkeit p(B|A=Wahr) ist nur begrenzt zuverlässig/sicher - ich möchte jedoch gerne eine Aussage treffen, wie sicher man sein kann, dass die bedingte Wahrscheinlichkeit statistisch valide ist.

Ich wollte ursprünglich auf statistische Signifikanz mit Chi^2 testen - das erscheint mir hier bei abhängigen Merkmalen aber nicht wirklich sinnvoll, oder? Was macht man da sinnvollerweise? Einen festen Grenzwert für A wählen (sowas wie A>=10) oder gibt es da bessere Wege um die Häufigkeit von A mit einzubeziehen?

Vielen Dank und schöne Grüße!

Hi dominik,

deine Frage unterscheidet sich insofern von klassischen stat. Fragen, als dass du nicht einfach eine Korrelation hast, sondern einen Prozess, der nur gewisse Zustände erlaubt.
Dazu fällt mir folgendes ein:
Chi² ist wirklich unpassed, da das für eine relativ vollständige Kreuztabellen konzipiert ist. Der Fisher-Test ist da weniger restriktiv, aber ob die Hypothese dann zu deiner Frage passt wage ich zu bezweifeln.
Trotzdem gilt der Zusammenhang über die bedingten W’keiten:
P(B|A=wahr) = P(B und A=wahr) / P(A=wahr) was man aus der Tabelle schätzen könnte. Um ein Konfi für diesen p-Wert anzugeben, könnte man bootstrap verwenden.
Eine andere Idee wäre, das ganze Problem als Markov-Kette darzustellen und die entsprechenden Übergangsw’keiten zu schätzen.
vielleicht fällt anderen noch was besseres ein, das wären erstmal meine Ideen zu deiner Frage.
Grüße,
JPL

Hi,

danke für die beiden Hinweise - von beiden hatte ich so noch keine Ahnung. Ich habe mir mal Bootstrapping bzw. Markov-Ketten näher angeschaut. Wenn ich beides richtig verstehe, schlägst du mir zwei Resampling-Verfahren vor, oder? Bei Bootstrapping zieht man n-mal einen Wert aus der Menge aller Messdaten (also B=0 oder B=1, wobei immer A=1) und ermittel aus dieser "resample"ten Liste die neue Wahrscheinlichkeit. Die Idee mit der Markovkette geht so ungefähr in die gleiche Richtung, oder? Ich habe Markovketten im Zusammenhang mit der Monte-Carlo-Simulation gesehen.

Mir ist leider nur noch nicht klar, was mir Resampling in meinem Problem bringt (meine Statistikkenntnisse sind etwas begrenzt :frowning: ). Ziehen mit Zurücklegen wie bei Bootstrap sollte doch (Trotz Zufall) ungefähr die gleiche Verteilung erzielen, wie in der Ursrungsstichprobe vorhanden war, oder?

Ich habe mal etwas weiter überlegt, was ich gerne Ausdrücken möchte. Und eigentlich möchte ich gerne sowas wie die Stabilität oder Senstivität der Bedingten Wahrscheinlichkeit ausgeben. Z.B. in der Art:

Gegeben a, dann trat in 4 von 4 Fällen Ergeignis B ein --> p(B|A=T)=100% Beobachte ich nun einen neuen Datenpunkt mit B=Falsch, so würde p(B|A=T)=80% betragen. Das heißt, das mein System relativ instabil ist. Dagegen würde in einem Fall, wo 100 Messpunkte vorliegen ein neuer Datenpunkt nur eine Änderungvon maximal einem ~+/-1% erreichen. Gibt es vielleicht einen Ansatz, der soetwas misst? Begriffe wie „Sensitivität“ oder „Stabilität“ haben mich noch nicht weitergebracht.

Vielen Dank für eure Tipps!

Hi,

Wenn ich beides richtig
verstehe, schlägst du mir zwei Resampling-Verfahren vor, oder?

Markov nicht unbedingt. MK kann man benutzen, um die Übergangswa’keiten von einem Zustand in einern anderen zu modellieren. Bei dir wäre das A zu B und A zu nichtB. War aber nur eine Idee, ob das schlußendlich zeilführend ist, muss man mal sehen.

Bei Bootstrapping zieht man n-mal einen Wert aus der Menge
aller Messdaten (also B=0 oder B=1, wobei immer A=1) und
ermittel aus dieser "resample"ten Liste die neue
Wahrscheinlichkeit.

Genau, wobei die Bootstrap-Stichprobe aber genauso groß ist, wie die originale. wie ich dich evrstanden habe, hast du Häufigkeiten (n1 für AB, n2 für A!B, n3 für !A!B und n4 für !AB) also n=n1+n2+n3+n4 (wobei n3=0 war?). So groß ist jede deiner bootstrap-Stichprobe auch wieder.

Mir ist leider nur noch nicht klar, was mir Resampling in
meinem Problem bringt.

ein naiver Schätzer für P(A!B) ist die enstsprechende bedingte W’keit. Diesem liegt auch wieder eine Verteilung zugrunde, und er schwankt um den wahren Wert. Sowohl Verteilung als auch Streuung des Schätzers sind aber unbekannt (jedenfalls fällt mir nichts ein, wie man das analytisch lösen könnte). Sowohl Verteilung als auch Varianz des naiven Schätzers lassen sich dann mit resampling schätzen und damit dann ein Konfidenzintervall für deinen p-Wert. Dann weißt du, wie genau dein p-Wert ist. Gute Schätzer erhälst du dann, wenn n groß ist.

Ziehen mit Zurücklegen wie bei Bootstrap sollte
doch (Trotz Zufall) ungefähr die gleiche Verteilung erzielen,
wie in der Ursrungsstichprobe vorhanden war, oder?

Im Mittel schon, aber es soll vor allem die Streuung des Schätzers berechenbar machen.

Ich habe mal etwas weiter überlegt, was ich gerne Ausdrücken
möchte. Und eigentlich möchte ich gerne sowas wie die
Stabilität oder Senstivität der Bedingten Wahrscheinlichkeit
ausgeben. Z

Was du suchst sind die prädiktiven Werte eines Tests: http://de.wikipedia.org/wiki/Positiver_pr%C3%A4dikti…
und http://de.wikipedia.org/wiki/Beurteilung_eines_Klass…
Grüße,
JPL