Werte A sind signifikant mit Werte B assoziiert

Guten Tag,

ich bin Biochemiker und stehe vor einen statistik problem, was nicht gerade meine Stärke ist.
ich habe zwei proben A und B. Ich will zeigen dass A und B assoziert sind. Über Excel habe ich das bestimmtheitsmass ausgerechnet und dabei R^2= 0.8 erhalten. Das heißt ich habe ein lineare korrelation zwischen A und B. Alerdings findet man in Publikationen zu diesen Thema immer P-value angaben.
Meine Frage/en sind wie kann ich diese p-values berechen (mit welchen Programm/ist es in Excel möglich)? Wie kann ich die aussage der signifikanz der assoziation/korrelation treffen?

Über konstruktive Antworten würde ich mich sehr freuen!

Grüße Peter

Hallo Peter,

ich habe zwei proben A und B. Ich will zeigen dass A und B
assoziert sind. Über Excel habe ich das bestimmtheitsmass
ausgerechnet und dabei R^2= 0.8 erhalten. Das heißt ich habe
ein lineare korrelation zwischen A und B.

Hier hast du gezeigt, dass man relativ „gut“ eine Gerade durch deine Datenpunktwolke legen kann.

Alerdings findet man
in Publikationen zu diesen Thema immer P-value angaben.

Der immer das ergebnis einen statistischen Tests ist. (Den hast du allerdings noch nicht gemacht)

Meine Frage/en sind wie kann ich diese p-values berechen (mit
welchen Programm/ist es in Excel möglich)?

Der statistische Test deiner Wahl heißt lineare Regression.
Ist in Excel wohl auch möglich (habe ich aber noch nie auf diesem Wege gemacht)
http://faculty.kfupm.edu.sa/SE/salamah/mis/linear_re…

Solltest du mehr Statistik benötigen, würde sich wohl eine Statistik Sotware besser eignen. SpSS falls ihr Geld habt. R (R-Project) falls ihr open source arbeitet.

Wie kann ich die
aussage der signifikanz der assoziation/korrelation treffen?

Sollte der p-Value kleiner 0.05 liegen liegt eine signifikante Korrelation vor.

Über konstruktive Antworten würde ich mich sehr freuen!

Ich hoffe geholfen zu haben
Grüße
g

Hallo,

wenn du Excel verwendet hast, nehme ich an, dass Du ein lineare Korrelation untersucht hast (Pearsons Produkt-Moment-Korrelation).

Über Excel habe ich das bestimmtheitsmass
ausgerechnet und dabei R^2= 0.8 erhalten.

Das bedeutet, dass 80% der Varianz in Y mithilfe des linearen Modells durch die Varianz von X erklärt werden. Die Wurzel daraus, r=0.89, ist der Korrelationskoeffizient. Wenn es keine Korrelation gibt, dann ist der gleich Null. Weil Daten streuen, streut auch ein empirisches r um die Null. Je kleiner der Stichprobenumfang, umso mehr kann r zufällig von Null abweichen, obwohl es eigentlich Null sein müsste.

Der Korrelationtest gibt dir die Wahrscheinlichkeit, zufälligerweise ein r größer als 0.89 zu finden, wenn r tatsächlich eigentlich Null sein sollte (und du nur „Pech“ gehabt hast mit deiner Stichprobe).

Dieser Test gibt dir den p-Wert (p für probability) dafür. Wie er durchgeführt wird, steht hier:

http://www.wzw.tum.de/dvs/mathstat/mathstatistik/pdf…

Du braucht r (hast Du), n (hast du auch) und die t-Verteilung, die gibt die Excel mit der Funktion TVERT. Damit solltest du es hinbekommen.

VG
Jochen

Vielen Dank für die hiflfreichen Antworten, besonders an Gwapa.
Ich habe die regressions analyse durchgeführt. In meiner deutschen excel version sind die p-values die F-Krit werte. Ist das richtig?
Mir ist allerdings immer noch nicht klar, warum die regression analyse die analyse meiner Wahl ist. Denn es gibt ja soviele statistische analysen, wie T-Test, U-Test…
Ich habe ja bereits geschrieben, dass ich kein Mathe ass bin.

Viele Grüße

Peter

Hallo Peter,

gwapa verwechselte einen statistischen Test mit einen statistischen Verfahren/Analyse. Eine Analyse fasst letztlich Daten irgendwie zusammen. Ein Test berechnet dir anhand von Daten einen p-Wert. Der p-Wert sagt dir, wie wahrscheinlich du ähnlich „extreme“ Daten alleine durch den Stichprobenfehler bekommen kannst.

Die Lineare Regression ins ein Verfahren, bei dem die Abhängigkeit von Kovariablen (also zB. X- und Y-Werten) durch ein lineares Modell der Form Y = mX+b dargestellt wird (m=Steigung, b=Achsenabschnnitt). Die Parameter m und b werden so bestimmt, dass die mittlere quadratische Abweichung der Y-Werte zur Geraden minimal wird.

Das ganze hat zunächst noch nichts mit einem Test zu tun, sondern liefert dir schlicht eine einfache Zusammenfassung über die (lineare) Abhängigkeit deiner (empirischen) X- und Y-Werte. Die Regressionsgerade bezieht sich auf deine Stichprobe und gilt für genau die n Werte-Paare, die du vorliegen hast. Diese Werte sind aber nur eine Auswahl aus möglichen anderen Werten, die sie hätten annehmen können. Eine neue Untersuchung würde mehr oder weniger andere Werte liefern und eben auch ein mehr oder weniger anderes Ergebnis für die Regressiongerade.

Nehmen wir an, X und Y hängen nicht voneinander ab. Wenn du nun eine endliche (meist kleine) Anzahl von Daten hast (deine Stichprobe!), dann ist es sehr wahrscheinlich so, dass die Punkte deiner Stichprobe so liegen, dass eine Regressionsgerade dadurch eine Steigung ungleich Null hat. Dummes Beispiel: Du hast nur genau 2 Punkte in der Stichprobe. Die Regressionsgerade geht natürlich genau durch diese 2 Punkte. Immer dann (und das wird wegen der Streuung der Daten praktisch immer der Fall sein) wenn die 2 Punkte nicht exakt die selben Y-Werte haben, wird die Steigung der Regressionsgeraden nicht gleich Null sein. Unter der Voraussetzung, dass X und Y tatsächlich unkoreliert sind, wird es natürlich langfristig in vielen gleichartigen Untersuchungen gleichhäufig vorkommen, dass die Regressionsgerade eine positive wie auch eine negative Steigung hat.

Nun hast du deine n Punkte deiner einen Untersuchung und deine Regressionsgerade mit einer Steigung m. Frage: Wie wahrscheinlich wirst Du mindestens so große Steigungen bekommen, wenn in Wahrheit X und Y unkorreliert sind? Das macht ein Test. Und der Test, den man hier nimmt, ist im Prinzip ein t-Test (s. mein voriges Posting; man kann m testen wie auch r - das ist statistisch äquivalent. Zur Veranschaulichung bleibe ich hier bei der Steigung m).

Sagen wir, für deine Daten liefert der Test p=0,02. D.h., in 2% solcher Untersuchungen würde auch dann eine Steigung größer als die deiner Daten herauskommen, wenn X und Y in Wahrheit nicht korrelieren würden. Also, entweder du hast verdammtes Pech gehabt, dass deine Daten zufällig so streuen, dass man eine so große Steigung bekommt, oder aber in Wahrheit sind X und Y korreliert und daher ist es nicht ungewöhnlich, eine so große Steigung in den Daten zu finden. Je kleiner der p-Wert, desto mehr sprechen deine Daten gegen die Annahme, dass X und Y unkorreliert seien. Wenn man nun eine Ja/Nein-Entscheidung treffen muss, ob X und Y korreliert sind oder nicht, setzt man sich meist eine Grenze von 5%. Wenn p

Hi Jo

gwapa verwechselte einen statistischen Test mit einen
statistischen Verfahren/Analyse.

An welchem Punkt genau?
Danke
gwapa

Huhu,

gwapa verwechselte einen statistischen Test mit einen
statistischen Verfahren/Analyse.

An welchem Punkt genau?

Test -> liefert p-Wert
Regressionsanalyse -> liefert r bzw. m und b.

Danke

Bitte.

Jochen

Hi Jochen,

Test -> liefert p-Wert
Regressionsanalyse -> liefert r bzw. m und b.

Ok, ich sehe das Problem. Eine Regressonsanalyse umfasst in meinen Augen auch die Signifikanzabschätzung der Steigung und des Y-Achsenabchnittes (unter anderem). Das was du hier oben als Regressionsanalyse beschreibst ist für mich eine Ausgleichsgerade nach der Methode der kleinsten Quadrate.
Ich werde mal prüfen, ob es hier eine stehende Definition gibt.

Gruß
gwapa

Vielen Dank für die hiflfreichen Antworten, besonders an
Gwapa.
Ich habe die regressions analyse durchgeführt. In meiner
deutschen excel version sind die p-values die F-Krit werte.
Ist das richtig?

Nein das ist nicht richtig. der p-value ergibt sich aus dem Vergleich von FKrit und FTab. In Excel könnte dir FVert weiter helfen. Ist bei mir allerdings schon etwas her. Kann auch sein, dass das nicht richtig ist.

Mir ist allerdings immer noch nicht klar, warum die regression
analyse die analyse meiner Wahl ist. Denn es gibt ja soviele
statistische analysen, wie T-Test, U-Test…
Ich habe ja bereits geschrieben, dass ich kein Mathe ass bin.

Analysen und Tests gibt es unzählige und diese sind immer abhängig von der Fragestellung. In der Regressions-Analyse wird (unter anderem) wie von Jo richtig angemerkt auch ein t-Test gerechet.

ganz einfach runtergebrochen:
Regression: Zusammenhang (zweier) Merkmale, wovon eines von de(n)m andern abhängt. (Größe Vater-Sohn)
Korrelation: Zusammenhang zweier unabhägiger Merkmale (Länge rechter Zeigefinger linker Zeigfinger)
t-Test: vergleich metrischer Daten zweier Gruppen (Länge der Zeigefinger aller Jungs einer Klasse vs. Länge der Zeigefinger der Mädchen)
U-Test: sollte die Normalverteilungs-Voraussetzung des t-Test nicht erfüllt sein, kann der U-Test genutzt werden. Ebenso bei ordinalskalierten Daten.

Viel Spass
gwapa

Hallo,

das ist sehr hilfreich was ihr da schreibt.

Nein das ist nicht richtig. der p-value ergibt sich aus dem
Vergleich von FKrit und FTab. In Excel könnte dir FVert weiter
helfen. Ist bei mir allerdings schon etwas her. Kann auch
sein, dass das nicht richtig ist.

Langsam fange ich auch an zu zweifeln dass die Rgressions analyse die richtige ist. In dem Link von Gwapa (http://faculty.kfupm.edu.sa/SE/salamah/mis/linear_re…) wird der ausgegebene Wert significance F als p-value bezeichnet. In der deutschen Version steht hier F Krit.

In meinen jugendlichen leichtsinn habe ich den p value mit den freien p-value calculator ausgerechnet (http://www.graphpad.com/quickcalcs/PValue1.cfm) mit dFN und dFd und den erhlatenen F krit werten von der ANOVA analyse aus der Regressions analyse. dFN habe ich 1 und dFd als 15 gesetzt, da ich zwei Gruppen habe, sample A(X) und B(Y) und je 17 Werte. Somit würde ich keinen signifikante korrelation erhalten.

In der Literatur wird bezüglich meines Themas oft der Wilcoxon Test angewandt. Es geht um die Korrelation von 2 Histonmodifikationen an gene regulatory sequences die ja unabhängig voneinader auftretten. Was haltet ihr von diesen Test in diesem Zusammenhang?

LG

Peter

Hi Peter,

Nein das ist nicht richtig. der p-value ergibt sich aus dem
Vergleich von FKrit und FTab. In Excel könnte dir FVert weiter
helfen. Ist bei mir allerdings schon etwas her. Kann auch
sein, dass das nicht richtig ist.

Langsam fange ich auch an zu zweifeln dass die Rgressions
analyse die richtige ist.

So schlimm ist nun auch wieder nicht. REgressionanalyse kann schon das richtige tool sein, es kommt eben - wie immer - auf die zu beantwortende Frage an. Mit Regression kannst du - wie von den anderen beschrieben - eine Gerade berechnen lassen, welche die Daten optimal fittet. Ob das überhpt geht ist eine andere Frage und wird anhand des Korrelationskoeffizienten (der sehr eng mit der Steigung der Geraden zusammenhängt) bestimmt. Ob dieser signifikant ist, st dabei eigentlich unerheblich, sondern vielmehr seine absolute Größe.

In der Literatur wird bezüglich meines Themas oft der Wilcoxon
Test angewandt. Es geht um die Korrelation von 2
Histonmodifikationen an gene regulatory sequences die ja
unabhängig voneinader auftretten. Was haltet ihr von diesen
Test in diesem Zusammenhang?

Der Wilcoxon setzt keinen Normalverteilung voraus und ist daher universeller einsetzbar. allerdings muss man bedenken, dass er u.a. nicht nur auf Lokationssunterschiede anspricht, sondern auf alle Arten unterschiedlicher Verteilung. Das ist nämlich auch, was getestet wird; nicht etwa die Korrelation der Daten. Von daher behandelt er gänzlich andere Frag als die Regressionsanalyse.
Grüße,
JPL

Hallo JPL,

So schlimm ist nun auch wieder nicht. REgressionanalyse kann
schon das richtige tool sein, es kommt eben - wie immer - auf
die zu beantwortende Frage an. Mit Regression kannst du - wie
von den anderen beschrieben - eine Gerade berechnen lassen,
welche die Daten optimal fittet. Ob das überhpt geht ist eine
andere Frage und wird anhand des Korrelationskoeffizienten
(der sehr eng mit der Steigung der Geraden zusammenhängt)
bestimmt. Ob dieser signifikant ist, st dabei eigentlich
unerheblich, sondern vielmehr seine absolute Größe.

danke für die Antwort. Meine daten korrelieren pearsons R^2 0,86 das ist sicher. Nur ob sie signifikant assoziieren dass ist die frage. wenn ich dei regressions analyse mit MS excel ausführe erhalte ich durch die anova analyse (integreiert in regression) Freiheitsgrade, quadratsummen, Prüfgröße F und den F krit wert, z.B. 8,72E-08. Wie ichdaraus dei p-values erhalte ist die frage, oder ist F krit der p-value?

Wilcoxon: Lokalisationsunterschie sind mir eigtl egal, da ich analysieren will ob das level von Probe A (wie viel von A) mit den level von B an bestimmten orten assoziert.

Vile Grüße

Peter

Hi Peter,

danke für die Antwort. Meine daten korrelieren pearsons R^2
0,86 das ist sicher. Nur ob sie signifikant assoziieren dass
ist die frage.

Kurzer Einschub: „Assoziieren“ ist kein stat. Ausdruck. Wenn du „korrelieren“ meinst, dann schreib das auch, wenn nicht, müssen wir erst herausfinden, was du wirklich wissen willst.

wenn ich dei regressions analyse mit MS excel
ausführe erhalte ich durch die anova analyse (integreiert in
regression) Freiheitsgrade, quadratsummen, Prüfgröße F und den
F krit wert, z.B. 8,72E-08. Wie ichdaraus dei p-values erhalte
ist die frage, oder ist F krit der p-value?

Das müsste eigentlich so sein (und zeigt mal wiedern, dass man Excel nicht für stats verwenden sollte, weil die Bezeichnung völlig daneben ist).

Wilcoxon: Lokalisationsunterschie sind mir eigtl egal, …

Dann kannst du den Test an dieser Stelle vergessen. Fragt sich nur, warum die anderen ihn dann gemacht haben.

…da ich analysieren will ob das level von Probe A (wie viel von A) mit
den level von B an bestimmten orten assoziert.

Ähm, gibt es einen Unterschied zwischen „assoziiert“ und „an bestimmten Orten assoziieren“?
Grüße,
JPL