Statistik?! Wie findet man einen Grenzwert?

Hallo zusammen,

ich habe folgendes Problem, bei dem ihr mir hoffentlich helfen könnt.

Im Rahmen meiner Diplomarbeit habe ich eine Meßreihe durchgeführt.
Als Ergebnis der Kraft-Duktilitäts-Prüfungen unterschiedlicher
Proben, habe ich Kurven erhalten, die die aufgebrachte Kraft über den
zurückgelegten Weg beschreiben. Aus den Kurven bestimme ich einen
Parameter, der wie folgt ermittelt wird:
Die Fläche unter der Kurve (also die Energie) von 0 - 100mm ist E1.
Die Fläche unter der Kurve von 100 - 400mm ist E2.
Der zu untersuchende Parameter ist E2/E1, also das Verhältnis der
beiden Energieen.
Ich teile die untersuchten Proben in 2 Gruppen unterschiedlicher
Größe (Gruppe 1 hat 19 Werte, Gruppe 2 hat 31 Werte) und stelle die
Hypothese auf, dass sich die Gruppen bzgl. des Parameters
unterscheiden. Bis hierhin würde ich jede Gruppe auf Normalverteilung
testen (Kolmogoroff-Smirnoff?) und anschließend die Mittelwerte der
beiden Gruppen auf signifikante Unterschiede (t-Test?).
Idealerweise möche ich am Ende einen Grenzwert definieren und die
Aussage „…mit einer Wahrscheinlichkeit von XX% wird dieser
Grenzwert von Gruppe 1 nicht überschritten UND (mit der gleichen
Wahrscheinlichkeit) von Gruppe 2 nicht unterschritten…“ treffen
können. Wie könnte ich da vorgehen?

Viele Grüße
Dennis

Hallo,

Hypothese auf, dass sich die Gruppen bzgl. des Parameters
unterscheiden. Bis hierhin würde ich jede Gruppe auf
Normalverteilung
testen (Kolmogoroff-Smirnoff?) und anschließend die
Mittelwerte der
beiden Gruppen auf signifikante Unterschiede (t-Test?).

Ja, das ist ok. Alternativ zum KS-Test auf Normalverteilung kann man sich auch mal die Boxplots anschauen oder einen QQ-Plot (http://de.wikipedia.org/wiki/Normal-Quantil-Plot) und visuell abschätzen, ob die Daten einigermaßen symmetrisch bzw. normal verteilt sind (mäßige Abweichungen zur Normalverteilung sind akzeptabel, sofern die Verteilungen nicht schief sind).

Idealerweise möche ich am Ende einen Grenzwert definieren und
die
Aussage „…mit einer Wahrscheinlichkeit von XX% wird dieser
Grenzwert von Gruppe 1 nicht überschritten UND (mit der
gleichen
Wahrscheinlichkeit) von Gruppe 2 nicht unterschritten…“
treffen
können. Wie könnte ich da vorgehen?

Berechne die Konfidenzintervalle für die Einzelwerte. Dazu mußt du schon mehr über die Verteilungen wissen. Wenn sie _wirklich_ normal sind, dann kannst du natürlich die Formel der Normalverteilung dafür hernehmen.

Beispiel: Die erste Gruppe hat MW1 = 5 und SD1 = 0.5, die zweite Gruppe hat MW2 = 7 und SD2 = 0.2. Wenn dir die Funktion Phi(x, MW, SD) den Wert der Normalverteilung mit dem Mittelwert MW und der Standardabw. SD für das Quantil x zurückgibt (Excel-Funktion NORMVERT), dann gilt für deinen Grenzwert:

Phi(x,MW1,SD1) = 1 - Phi(x,MW1,SD1)

In dieser Gleichung ist nur das x unbekannt, das ist das Grenzwert-Quantil, an dem die „Übertrittswahrscheinlichkeiten“ von beiden Seiten her gleich groß sind. Das läßt sich nicht direkt analytisch lösen. In Excel zB. kann man aber die Zielwertsuche oder auch den Solver benutzen, um x herauszubekommen. Für das Zahlenbeispiel ergibt sich hier x = 6.42 (mit Solver gerechnet; der ist etwas genauer als die Zielwertsuche).

Die Grenzwahrscheinlichkeit ist durch das Phi schon berechnet. Hier war es 0.998 oder 99.8%.

Ich hoffe, das war in etwa das, was Du wolltest.Wenn du das nicht mit den Einzelwerten machen willst, sondern mit den Mittelwerten, geht das genauso, nur dass du statt den SD’s die Standardfehler und statt der Normalverteilung die T-Verteilung nimmst (in Excel etwas trickreich, weil die in TVERT immer „zweiseitig“ gerechnet wird - aber es geht).

LG
Jochen

Moin Jochen,

ich glaube du meinst statt

Phi(x,MW1,SD1) = 1 - Phi(x,MW1,SD1),

Phi(x,MW1,SD1) = 1 - Phi(x,MW2,SD2),
denn sonst wäre Phi(x,MW1,SD1) = 1/2 mit der offensichtlichen Lösung x=MW1.
Grüße,
JPL

Hi Dennis,
ein anderer Ansatz für eine Grenzwert wäre eine ROC-Kurve. Mithilfe dieser kannst du einen Grenzwert finden, der die D = E2/E1-Werte der beiden Gruppen oprimal voneinander trennt. Üblicherweise wird so etwas für ELISA’s gemacht, um einen sog. cut-point zu finden. Der Vorteil ist, dass du keine annahmen über die Verteilung der Daten machen musst. die Wahrscheinlichkeiten, die du suchst, ist dann für eine gegebenen cut-point C genau P(D1 C) (fürden Fall, dass die Werte der Gruppe 1 im Schnitt kleiner als C sind und die der Gruppe 2 größer).
Wenn’s dich interessiert kann ich dir mehr dazu schreiben.
Grüße,
JPL

Hi JPL,

erstmal mein Dank für’s aufmerksame Korrekturlesen (Copy&amp:stuck_out_tongue_winking_eye:aste ist irgendwie ein fehleranfälliges Verfahren :smile:).

Wenn’s dich interessiert kann ich dir mehr dazu schreiben.

MICH würde das interessieren. Ich kenne ROCs aus einem anderen Zusammenhang (in Verbindung mit Hypothesentests) und mir ist auf die Schnelle nicht klar, wie man damit auf einen Cut-off kommen will. Für einen Link oder eine beispielhafte Erklärung wäre ich sehr dankbar.

LG
Jochen

Hi Jochen,

MICH würde das interessieren. Ich kenne ROCs aus einem anderen
Zusammenhang (in Verbindung mit Hypothesentests) und mir ist
auf die Schnelle nicht klar, wie man damit auf einen Cut-off
kommen will. Für einen Link oder eine beispielhafte Erklärung
wäre ich sehr dankbar.

Die ROC bestimmt sich ja aus der Sensitivität und Spezifität der Menge der cut-points. D.h. pro cut-off wird auf x die Sens. und auf y (1-Spez) dargsetsllt. Ein optimaler cut-off wäre dann lniks oben in der Ecke (also der Punkt (0,1)). Da es den meistens nicht gibt, kannst du den optimalen Wert C entweder nach der (0,1)-regel via
C = min{(1-spez©)²+(1-sens©)²}
oder über den Youden-Index als
C = max{sens©+spez© -1}
berechnen, wobei nicht dasselbe herauskommen muss. Empfohlen wird, den Youden-Index zu verwenden. Über resampling kann man dann noch CI’s für die AUC und den cut point angeben.

Ref:
Perkins N. J., Schisterman E. F. (2006). The Inconsistency of ‘‘Optimal’’ Cutpoints Obtained using Two Criteria based on the Receiver Operating Characteristic Curve. American Journal of Epidemiology 163:670–675
Altman D. G., Machin D., Bryant T. N., Gardener M. J. (2000). Statistics with Confidence. Brit. Med. J. Books, 2nd ed., JW Arrowsmith Ltd., Bristol

Viele Grüße,
JPL

1 „Gefällt mir“

Hallo JPL,
hi Jochen,

vorweg erst mal vielen Dank für die schnelle Hilfe. Bin was Statistik angeht nicht mal Fortgeschrittener.

Der Ansatz von JPL hört sich ja erst mal gut an, weil man sich dabei anscheinend nicht um die Verteilungsfunktion kümmern muss. Allerding habe ich doch einige Probleme mit der Anwendung auf meine Daten. Weiß einfach nicht wie ich’s technisch umsetzen soll.

Daher, dem Vorschlag von Jochen folgend, der Versuch es mit Excel hinzukriegen. Wenn ich’s richtig verstanden habe muss ich die Funktionen meiner beiden Verteilungen in Abhängigkeit von x gleichsetzen und mein x solange verändern bis die von x abgeschnittenen „Restflächen“ die gleichen Größen (also die gleichen Wahrscheinlichkeiten) haben?! Ich taste mich also iterativ an den Grenzwert heran. Dein Beispiel kann ich mit dem Solver auch nachvollziehen.
Was ich hieran nicht ganz verstehe ist der Hinweis „…Wenn du das nicht mit den Einzelwerten machen willst, sondern mit den Mittelwerten…“ und die Lösung dazu. Rechne ich nicht bereits mit den Mittelwerten?

Um das Ganze noch ein wenig schwieriger zu machen habe ich mir eine weitere Kenngröße überlegt, für die auf die gleiche Weise ein Grenzwert bestimmt werden soll. Dieser Parameter ist das Verhältnis der Energiee E(0-Xmm)/E(X-400mm). Die Grenze der Bereiche für die die Energieen berechnet werden sollen sind dabei für jede Kurve variabel und werden anhand der Kurvenparameter ABGELESEN!! Problem ist also nicht die Variabilität der Grenze (am Ende ist das Verhältnis ja doch nur ein Parameter entsprechend E1/E2=D), sondern die Tatsache, dass unterschiedliche Betrachter der Kurven (hoffentlich nur leicht) unterschiedliche Grenzen festlegen. Jeder einzelne Kurven-Parameter D schwankt somit auch.
Ausgehend von einer Normalverteilung könnte ich mir Mittelwert, Standardabweichung und Variationskoeffizient der D’s der Kurven ermitteln (Hierzu lasse ich gerade von einigen Kollegen die D’s von 8 ausgewählten Kurven bestimmen).
Daraus ergeben sich mehrere Fragen:

  1. Ich habe nachher für 8 von xx Kurven Mittelw, Stabw und Varkoef. Wie komme ich zu einer Aussage der Art: „…für den Vorgang des D-Bestimmens besteht eine Genauigkeit von, oder Abweichungswahrscheinlichkeit von o.ä…“?
  2. Wie bekomme ich die dann bestimmte (Un-)Genauigkeit der D’s in die Berechnung des Grenzwertes?

Viele Fragen, Keine Ahnung, Vielen Dank
Dennis

Hi dennis,

vorweg erst mal vielen Dank für die schnelle Hilfe. Bin was
Statistik angeht nicht mal Fortgeschrittener.

Macht nix. Wir fragen auch sachen nach, verlass dich drauf.

Der Ansatz von JPL hört sich ja erst mal gut an, weil man sich
dabei anscheinend nicht um die Verteilungsfunktion kümmern
muss. Allerding habe ich doch einige Probleme mit der
Anwendung auf meine Daten. Weiß einfach nicht wie ich’s
technisch umsetzen soll.

ROC’s müsstest du selber programmieren, da gibt es keine standard-windows-software für. Ich kann dir höchstens einen R-Code zur Verfügung stellen oder weitere Infos zum selber rechnen.
Zu Jochens’s Vorschlag soll der sich lieber selbst äussern :-p

Um das Ganze noch ein wenig schwieriger zu machen
[…]
die Tatsache,
dass unterschiedliche Betrachter der Kurven (hoffentlich nur
leicht) unterschiedliche Grenzen festlegen. Jeder einzelne
Kurven-Parameter D schwankt somit auch.
Ausgehend von einer Normalverteilung könnte ich mir
Mittelwert, Standardabweichung und Variationskoeffizient der
D’s der Kurven ermitteln (Hierzu lasse ich gerade von einigen
Kollegen die D’s von 8 ausgewählten Kurven bestimmen).
Daraus ergeben sich mehrere Fragen:

Generelle ist das das Problem der Urteilüberinstimmung / Konkordanz für m Urteiler mit ordinalen Daten.

  1. Ich habe nachher für 8 von xx Kurven Mittelw, Stabw und
    Varkoef. Wie komme ich zu einer Aussage der Art: „…für den
    Vorgang des D-Bestimmens besteht eine Genauigkeit von, oder
    Abweichungswahrscheinlichkeit von o.ä…“?

Das ist schon mal gut, um die Genauigkeit der beurteilung zu messen, zusammen mit einem geeigenten Konkordanzmass ist das dann eine geeignete deskriptive.

  1. Wie bekomme ich die dann bestimmte (Un-)Genauigkeit der D’s
    in die Berechnung des Grenzwertes?

ein einfacher weg wäre, die Werte bei genügend hoher Konkordanz zu mtteln, dann hast du nur noch einen Wert pro Proband und kannst damit weiterrrechnen. Bei ungenügender Übereinstimmung könnetst du ein repeated measurement design drüber legen, wenn die Voraussetzungen passen (wie bei ANOVA).
Grüße,
JPL