Statistik: Verknüpung von p-Werten

Hallo,

Gegeben man hat mehrere unabh. Versuchs-Wiederholungen. Jedesmal ist ein Effekt in der gleichen Richtung zu beobachten, jedoch ist der Effekt nie statistisch signifikant. Hätte man alle Versuche zusammen gemacht (als einen großen Versuch), dann wäre das Ergebnis wegen der höheren Power aber klar statistisch signifikant. Nun gibt es in der Praxix aber Fälle, wo das nicht geht; zwar liegen die Ergebnisse vor (p-Werte), nicht aber die Originaldaten. Kann man dort aufgrund der vorliegenden p-Werte (evtl. auch noch mit Kenntnis der Stichprobenumfänge) einen p-Wert berechnen/schätzen, der sich bei einer gemeinsamen Auswertung aller Daten ergeben würde/hätte? Und wenn ja: wie? Ich habe das Gefühl, dass das was mit dem Satz von Bayes zu tun hat, kann es mir aber nicht zusammenreimen.

Danke schonmal!

LG
Jochen

Hallo,

ich habe inzwischen folgenden Artikel gefunden, der mir etwas weiterhalf:

Thomas ML (2004) A systematic comparison of methods for combining p-values from independent tests. Computational Statistics & Data Analysis 47 :467-485

Sie schildern verschiedene Methoden und stellen fest, dass im Mittel für unterschiedliche Bedingungen und Verteilungen von p-Werten die Logistsche Methode von Mudholkar & George am besten/robustesten ist.

Ich komme an das Originalpaper nicht ran, habe aber an anderer Stelle folgendes gefunden:

Mudholkar & George’s t für k p-Werte:

t(df=5k+4) = -sqrt((15k+12)/((5k+2)k(PI²))Sum[ln(pi/(1-pi))]

Ist es das? Kommt jemand an den Artikel von Mudholkar & George:
Mudholkar GS & George EO (1979) The logit method for combining probabilities. In: Rustagi J (Ed.), Symposium on Optimizing Methods in Statistics. Academic Press, New York, pp. 345–366.

LG
Jochen

Hallo Jochen,

Für die Zusammenfassung von mehreren t-Tests würde ich nicht auf den p-Wert zurückgreifen, sondern auf die Mittelwerte, Größen und die Varianzen der einzelnen Gruppen. Diese sollten theoretisch eigentlich immer angegeben werden.
Wenn diese gegeben sind, würde ich die Gruppenmittelwerte als die mit den Stichprobengrößen gewichtete Mittel der Gruppenmittelwerte der verschiedenen Untersuchungen berechnen und bei den Varianzen anschließend ebenso verfahren.

Wenn die Varianzen nicht gegeben sind, was m.E. eigentlich nicht sein sollte, müsste man aber auf den p-Wert zurückgreifen.
Man kann aus dem p-Wert leicht auf den Wert der Prüfgröße zurückschließen, wenn man deren Verteilung kennt. Beim t-Test musste man einfach in der Tabelle für die t-Verteilung nachschlagen.
Die Mittelwertsdifferenz ist eigentlich immer angegeben. Somit kann man die Formel für den t-Wert umstellen und damit die Varianzen berechnen. Man erhält 1/gepoolte_Varianz=t-Wert/Mittelwertsdiffernz.
Dies führt aber letztlich auf eine Gleichung der Form Zahl=Größe_von_Grupp1*Varianz1+Größe_von_Grupp2*Varianz2. Somit kann allein aus dem p-Wert nicht auf die Varianzen geschlossen werden.
Man könnte allerdigns davon ausgehen, dass beide Varianzen in einem bestimmten, aus anderen Untersuchungen bekannten Verhältnis stehen oder sie gleich setzen. Aber in diesen Fällen bräuchte man den p-Wert nicht.

Vielleicht kann man aber auch die Prüfwerte geeignet zu einem Prüfwert zusammenfassen. Dazu ist mir aber noch nichts bekannt.

Viele Grüße Falk

Kontra Signifikanztest Pro Effektstärken
Hallo,

Eben diese Problematik zeigt, warum man das Signifikanztestritual überwinden und zu Effektstärken übergehen sollte. p-Werte lassen keine Schlussfolgerung darüber zu, ob es an der Größe der Stichprobe oder der Größe des Effekts liegt, dass dieser nicht entdeckt wurde.

Falk

Du hast vollkommen recht!

Bei Metaanalysen aus publizierten Studien muss man sowieso nochmal viiiiel vorsichtiger rangehen, weil es hier ja einen publication bias gibt (wer publiziert schon nicht-signifikante Ergebnisse?!).

Zu meiner Verteidigung muß ich aber sagen, dass es hier um nicht-publizierte Sachen geht (also kein Bias) und auch nur um Klein-Experimente, die in einigen Labors durchgeführt werden und zwar immer mit ähnlichen Stichprobenumfängen (3-5), die alle die selbe miserable Power haben. Man käme hier wohl sogar mit etwas Aufwand noch an die Rohdaten (die man dann ja zusammen auswerten könnte), das Problem ist hier aber, dass mit unterschiedlichen Messverfahren gearbeitet wird und die Daten nicht direkt vergleichbar sind. Könnte man die z-Transformierten Daten denn zusammenfassen?

LG
Jochen

[Bei dieser Antwort wurde das Vollzitat nachträglich automatisiert entfernt]

Hallo,

Bei Metaanalysen aus publizierten Studien muss man sowieso
nochmal viiiiel vorsichtiger rangehen, weil es hier ja einen
publication bias gibt (wer publiziert schon
nicht-signifikante Ergebnisse?!).

Leider fast niemand. Das finde ich sehr bedenklich, weil es unser Bild von der Wirklichkeit verzerrt. Leider beeinflusst es nicht nur die Auswahl der Ergebnisse, die publiziert werden, sondern auch die Ergebnise selbst. Ich finde wir müssen unbedingt zu einer neuen Publikationskultur gelangen.

Zu meiner Verteidigung muß ich aber sagen, dass es hier um
nicht-publizierte Sachen geht (also kein Bias) und auch nur um
Klein-Experimente, die in einigen Labors durchgeführt werden
und zwar immer mit ähnlichen Stichprobenumfängen (3-5), die
alle die selbe miserable Power haben. Man käme hier wohl sogar
mit etwas Aufwand noch an die Rohdaten (die man dann ja
zusammen auswerten könnte), das Problem ist hier aber, dass
mit unterschiedlichen Messverfahren gearbeitet wird und die:smiley:aten :nicht direkt vergleichbar sind. Könnte man die
z-Transformierten Daten denn zusammenfassen?

Ich finde, dass man diese Frage nicht pauschal beantworten kann. Da es verschiedene Messungen des selben Konstrukts sind, würde ich eine Faktorenanalyse durchführen, um nachzuweisen, dass Variationen in den verschiedenen Messungen von einem einzigen Faktor bestimmt werden. Dieser Faktor entspricht dem zu messendem Konstrukt. Um eine Unterschiedshypothese zu prüfen würde ich folglich auch die Schätzwerte für diesen Faktor vergleichen. Diese ergeben sich aus Faktorladung * Wert der z-Transformierten Indikatorvariablen.

Korrektur

Diese ergeben sich aus Faktorladung * Wert
der z-Transformierten Indikatorvariablen.

Ich meine natürlich: Diese ergeben sich aus der Summe der Produkte aus den Faktorladungen und den Werten der Indikatorvariablen.

Falk

Hallo,

Ich finde wir
müssen unbedingt zu einer neuen Publikationskultur gelangen.

DAS IST GENAU MEINE MEINUNG!
(Das musste mal laut gesagt werden!)

Ich finde, dass man diese Frage nicht pauschal beantworten
kann. Da es verschiedene Messungen des selben Konstrukts sind,
würde ich eine Faktorenanalyse durchführen,

Ich habe noch keine Faktorenanalyse gemacht. Hast Du eine Empfehlung für den einfachen Einstieg (für Dummies, sozusagen…)?

Danke und LG
Jochen

Hallo!

Mein Tipp, eine Faktorenanalyse zu rechnen, war leider unangebracht. Sie wäre das Verfahren der Wahl, wenn in einer Messreihe jeweils alle Indikatoren mehrfach gemessen wurden wären.
Tut mir Leid, ich war wohl etwas durcheinander.

Vor diesem Hintergrund hat man keine Möglichkeit aus den Daten abzuleiten, ob die verschiedenen Verfahren das gleiche messen.
Wenn dies aber als sicher angenommen werden kann, lassen sich die Daten auch zusammenfassen. Wenn die verschiedenen Verfahren nur dazu führen, dass die Werte unterschiedliche Mittelwerte und Standardabweichungen haben, dann sollten sie nach der Normierung gleichartig sein. Die Frage ist nur, was Du mit den normierten Werten machen möchtest. Durch die Transformation gehen die Informationen MW und Streuung verloren. Somit ergäbe z.B. der t-Test keinen Sinn mehr.

Sinnvoll erscheint es mir hingegen aus den Rohdaten die Effektstärken zu berechnen. Die Effektstärken lassen sich dann zu einer mittleren Effektstärke zusammenfassen. Somit hat man eine aussagekräftige Statistik, die auf einem großen n beruht.

Viel Erfolg Falk

Falk

Hallo,

Ich finde wir
müssen unbedingt zu einer neuen Publikationskultur gelangen.

an wie vielen wissenschaftlichen Publikationen warst Du beteiligt?

Ich finde, dass man diese Frage nicht pauschal beantworten
kann. Da es verschiedene Messungen des selben Konstrukts sind,
würde ich eine Faktorenanalyse durchführen, um nachzuweisen,
dass Variationen in den verschiedenen Messungen von einem
einzigen Faktor bestimmt werden. Dieser Faktor entspricht dem
zu messendem Konstrukt.

Du meinst, mit der Faktorenanalyse könne man das wirklich nachweisen?

Grüße,

Oliver Walter

Hallo,

Ich finde wir
müssen unbedingt zu einer neuen Publikationskultur gelangen.

an wie vielen wissenschaftlichen Publikationen warst Du
beteiligt?

Ich verstehe Deine Kritik: In Anbetracht meiner geringen Erfahrung, wirkt dieses Urteil vermessen. Ich empfinde dies selbst ähnlich und bin bin mir diesbezüglich keineswegs so sicher wie es den Anschein hat. Ich reagiere auf dieses Thema etwas zu emotional.

Dieser Faktor entspricht dem
zu messendem Konstrukt.

Du meinst, mit der Faktorenanalyse könne man das wirklich
nachweisen?

Nein, das glaube ich nicht. Die Faktorenanalyse lässt keine Aussagen über die inhaltliche Bedeutung der Faktoren zu.
Wenn aber bekannt ist, dass die drei Indikatoren dasselbe Konstrukt messen, und es nur einen Faktor gibt, dann finde ich es naheliegend, diesen als das Konstrukt zu interpretieren.

Falk

Hallo, Falk,

Ich verstehe Deine Kritik: In Anbetracht meiner geringen
Erfahrung, wirkt dieses Urteil vermessen. Ich empfinde dies
selbst ähnlich

ja, ich denke auch, daß man etwas mehr Erfahrung haben sollte, um zu solchen Urteile zu kommen.

Nein, das glaube ich nicht. Die Faktorenanalyse lässt keine
Aussagen über die inhaltliche Bedeutung der Faktoren zu.
Wenn aber bekannt ist, dass die drei Indikatoren dasselbe
Konstrukt messen, und es nur einen Faktor gibt, dann finde ich
es naheliegend, diesen als das Konstrukt zu interpretieren.

Falls bekannt ist, daß die Indikatoren dasselbe Konstrukt messen, bräuchte man dann eine Faktorenanalyse? Meistens wird die Faktorenanalyse doch dazu verwendet, um herauszufinden (exploratorisch) oder zu überprüfen (konfirmatorisch), ob die Indikatoren das gleiche Konstrukt messen.
Mit der Aussage „es gibt nur einen Faktor“ kann ich - je mehr ich mich mit der Faktorenanalyse beschäftige - immer weniger anfangen: Existieren Faktoren wirklich (als Gegenstände? als Prozesse?) oder sind es nur mathematische Konstruktionen, um lineare Gleichungssysteme zu lösen? Die linearen Gleichungssysteme, mit denen man es in der Regel zu tun hat, wenn man die Faktorenanalyse anwendet, haben unendlich viele Lösungen. Selbst wenn die Ergebnisse einer Faktorenanalyse darauf hindeuten, daß sich die linearen Zusammenhänge in einer Datenmatrix durch einen Faktor gut beschreiben lassen, so bedeutet das nicht, daß sich die linearen Zusammenhänge nur durch einen Faktor gut beschreiben lassen - davon, daß sie durch einen Faktor (oder mehrere) „verursacht werden“ ganz zu schweigen.

Beste Grüße,

Oliver

Hallo, Oliver,

Falls bekannt ist, daß die Indikatoren dasselbe Konstrukt
messen, bräuchte man dann eine Faktorenanalyse?

Die Faktorenanalyse ist nützlich um ein Messmodell zu spezifizieren. In diesem Fall würde man die Faktorenanalyse einsetzen, um das Messmodell zu überprüfen und die Pfadkoeffizienten zu bestimmen. Mit deren Hilfe können dann die gemessenen Indikatoren zu einem Konstrukt zusammengefasst werden. Dies war das Ziel des Unterfangens. Ginge das auch ohne Faktorenanalyse?

Mit der Aussage „es gibt nur einen Faktor“ kann ich - je mehr
ich mich mit der Faktorenanalyse beschäftige - immer weniger
anfangen: Existieren Faktoren wirklich (als Gegenstände? als
Prozesse?) oder sind es nur mathematische Konstruktionen, um
lineare Gleichungssysteme zu lösen?

Sie sind mathematische Konstruktionen. Sie abstrahieren bestimmte Gemeinsamkeiten zwischen den verschiedenen Indikatoren. Dadurch haben sie einen heuristischen Wert: Sie helfen hilfreiche Konstrukte zu entdecken. Diese müssen dann aber erst validiert werden, bevor ihnen eine inhaltliche Bedeutung zugeschrieben werden kann.

Selbst wenn die Ergebnisse einer Faktorenanalyse
darauf hindeuten, daß sich die linearen Zusammenhänge in einer
Datenmatrix durch einen Faktor gut beschreiben lassen, so
bedeutet das nicht, daß sich die linearen Zusammenhänge nur
durch einen Faktor gut beschreiben lassen

Das ist ein ganz wichtiger Punkt. Man kann ein Modell nicht „beweisen“, indem man eine konfirmative Faktorenanalyse rechnet. Sinvolle Aussagen kann man nur durch den Vergleich mehrerer Strukurmodelle erhalten.

  • davon, daß sie
    durch einen Faktor (oder mehrere) „verursacht werden“ ganz zu
    schweigen.

Wenn man bedenkt, dass die Ergebnisse der FA auf Korrelationsdaten beruhen, ist es verwunderlich, dass in Strukturmodellen überhaupt gerichtete Beziehungen eingezeichnet werden. Dies täuscht vor, man hätte diese Aussage durch die FA gewonnen. In Wirklichkeit ist dies aber nur eine Annahme, auf welcher die Modellspezifikation beruht.

Du hast auch erwähnt, dass es unendlich viele Lösungen für die Gleichungssysteme gibt. Dies finde ich sehr problematisch, weil der Anwender nur eine dieser Lösung sieht. Kann es theoretisch auch zwei sehr unterschiedliche, aber ähnlich gute Lösungen geben? Wie kann man überprüfen, dass dies nicht der Fall ist?

Viele Grüße,
Falk

Effektstärken aus t-Werten berechnen
Hallo, Jochen,

Man kann die t-Werte in Effektstärken umrechnen und diese zu einer mittleren Effektstärke zusammenfassen. Die t-Werte sind sicherlich gegeben, oder? Wenn nicht, dann kannst Du sie auch aus den p-Werten ermitteln.

Der Zusammenhang zwischen Cohens d und dem t-Wert ist folgender:
d=t/Wurzel(n1*n2/(n1+n2))

Quelle:
Sedlmeier, P. (1996). Jenseits des Signifikanztest-Rituals: Ergänzungen und Alternativen. Methods of Psychological Research Online, Vol.1, 4, S. 41-63.
http://www.dgps.de/fachgruppen/methoden/mpr-online/i…

Der Artikel ist übrigens frei verfügbar und – wie ich finde – sehr lesenswert.

Beste Grüße,
Falk

Hallo, Falk,

Die Faktorenanalyse ist nützlich um ein Messmodell zu
spezifizieren. In diesem Fall würde man die Faktorenanalyse
einsetzen, um das Messmodell zu überprüfen und die
Pfadkoeffizienten zu bestimmen. Mit deren Hilfe können dann
die gemessenen Indikatoren zu einem Konstrukt zusammengefasst
werden. Dies war das Ziel des Unterfangens.

mir ging es darum, daß ein nichtsignifikantes Ergebnis nicht bedeutet, daß das postulierte Modell richtig ist. Es ist bloß mit den Daten vereinbar.

Ginge das auch ohne Faktorenanalyse?

Ja, z.B. mit dem Rasch-Modell.

Du hast auch erwähnt, dass es unendlich viele Lösungen für die
Gleichungssysteme gibt. Dies finde ich sehr problematisch,
weil der Anwender nur eine dieser Lösung sieht. Kann es
theoretisch auch zwei sehr unterschiedliche, aber ähnlich gute
Lösungen geben?

Ja.

Wie kann man überprüfen, dass dies nicht der Fall ist?

Manche sagen: Gar nicht.
Man kann Restriktionen einführen und damit die Anzahl der möglichen Lösungen eines Faktorenproblems einschränken. Allerdings: Wer sagt einem, daß die Restriktionen der „Wirklichkeit“ gerecht werden?

Grüße,

Oliver

1 „Gefällt mir“