Bioinformatik - Statistik

Hallo liebe Wissenden,

hoffentlich bin ich mit meinem Anliegen im richtigen Brett gelandet, denn so wirklich passend erschien mir keins von den vorhandenen. Ansonsten bitte ich die Moderatoren um Verschiebung.

Ich mache zurzeit ein Praktikum im Bereich der bioinformatischen Microarray-Auswertung. Konkret schreibe ich an einem Skript zur statistischen Beurteilung solcher Daten. Die Begriffe, mit denen ich arbeite, sind mir theoretisch schon klar (hatte das alles auch schon in der Vorlesung). Aber mir fehlt der Überblick, der Gesamtzusammenhang, die bildliche Zuordnung, was wofür wichtig ist und womit ich was bemesse. Ich würde mich sehr freuen, wenn ihr mir dabei weiterhelfen könnten. Hier sind die Begriffe, die mir gerade einfallen:

  • t-Statistik
  • P-Value
  • FDR
  • Q-Value
  • QQ-Plot
  • Quantile, Konfidenzintervall
  • Volcano-Plot
  • MA-Plot

Mag sein, dass ich jetzt etwas vergessen habe. Das sind jedenfalls die Sachen, mit denen ich arbeite. Rein technisch habe ich einige dieser Sachen schon implementiert (weiß also, was z.B. wogegen bei welchem Plot aufgetragen wurde), aber der Überblick aus Sicht des „Auswerters“ fehlt mir.

Eine spezielle Frage zu dem, was ich noch machen muss, ist auch: Wie hängen P-Value, FDR und die Benjamin-Hochberg-Methode zusammen? Ich hätte ja gedacht, dass der Q-Value für die FDR ein ähnlicher Schwellenwert sei wie P-Value für die t-Statistik. Aber in einem Beispiel habe ich gefunden, dass FDR mit nach Benjamin-Hochberg adjustierten P-Werten gleichgesetzt wurde.

Gar nicht klar ist mir der QQ-Plot mit den Konfidenzintervallen. Aufgetragen sind hier ja z.B. die Quantile der Probe gegen die Quantile einer zufällig erzeugten t-Statistik. Sind mit „Quantilen“ die absoluten Werte gemeint, also von mir aus „das 5%-Quantil liegt für diese Verteilung beim x-Wert 1,2“? Muss dann der Definitionsbereich der beiden Verteilungen also ungefähr gleich sein? Und was genau bedeutet es, wenn ich dort ein Konfidenzintervall einzeichne? Sprich: Welche Bedeutung hat jeder konkrete Punkt auf diesem Plot? (Dass der Plot allgemein die Beurteilung der Vergleichbarkeit von zwei Verteilungen ermöglicht und bei identischen Verteilungen alle Punkte auf der Winkelhalbierenden liegen, ist mir klar; ebenso, wie der Konfidenzintervall eingezeichnet wird) Wie verfährt man, wenn die Anzahl der Beobachtungen in beiden Verteilungen unterschiedlich ist?

Fragen über Fragen. :smile: Ich hoffe, ihr könnt mir weiterhelfen.

Viele Grüße,
Anja

Hallo Anja,

Ich mache zurzeit ein Praktikum im Bereich der
bioinformatischen Microarray-Auswertung.

Am DKFZ? - Da habe ich auch damit angefangen…

Deine Frage ist nicht sonderlich konkret, also wird’s die Antowrt auch nicht… trotzdem:

  • t-Statistik

Is doch klar, oder? Diese Statistik wird benutzt, um eine Wahrscheinlichkeit zu berechnen, mit der ein mindestens so großer wie der beobachtete Mittelwertunterschied unter der Nullhypothese auftreten kann.

  • P-Value

P steht für Probability, also ein Wahrscheinlichkeitswert. Ein solcher könnte zB. anhand einer t-Statistik berechnet worden sein.

  • FDR

False discovery rate. Ist sinnvoll, wenn sehr viel Hypothesen parallel getestet werden. Beim t-Test wird ja genau eine Hypothese getestet. Ein p-Wert nicht mehr als ein falsch-positives Ergebnis bekommt. Da ist hier doch auch wieder zu extrem, weil man so sicher auch viele richtig-positive übersieht. Mit der Adjustierung von Benjamini-Hochberg hingegen kann man einstellen, wie viele falsch-positive man unter den abgelehnten Hypothesen akzeptiert. Und genau das ist die FDR. Wenn man in Microarray-Experimenten regulierte Gene finden will, verwendet man meist die FDR, um die Liste der Kandidaten zu bestimmen. Meist werden eine FDR von 10-20% akzeptiert. Will man „nur“ „cherry-picking“ betreiben, also einzelne, interessante Kandidaten finden, setzt man die FDR niedrig (1-5%). Will man die Genlisten hinterher zur Pathway-Analyse nutzen lockert man die Stringenz.

  • Q-Value

?

  • QQ-Plot

Quantile-Quantile-Plot. Abgetragen werden die (empirischen) Quantilen deiner Daten gegen die theoretischen Quantilen der zu testenden Verteilung. Die Quantilen-Reihen werden beide natürlich sortiert und sie enthalten natürlich die selbe Anzahl Werte.

  • Quantile, Konfidenzintervall

Die a%-Quantile bezeichnet den a%-größten Wert in der Liste (d.h., a% aller Werte in der Liste sind kleiner als der Wert der a%-Quantile). Das Minimum ist die 0%-Quantile, der Median ist die 50%-Quantile und das Maximum ist die 100%-Quantile.

  • Volcano-Plot

Aufgetragen werden die Teststatistik (meist als -log§) gegen die Regulation (meist „log fold-change“). Weil die Punkte wie ein Vulkan aussehen, der gerade spuckt, wird der Plot Volcano-Plot genannt. Es dient dem Überblick, ob die Daten und Tests ok waren (sieht der Plot strakt „verzerrt aus“?), außerdem sieht man, ob viele (im Mittel) nur schwach regulierte Gene ungewöhnlich gute Teststatistiken bekommen oder viele sehr stark regulierte Gene schlechte Statistiken haben. Das können Hinweise auf experimentelle Artefakte sein.

  • MA-Plot

Aufgetragen werden die M-Werte („log fold-change“) gegen die A-Werte („average log intensity“). Je weiter ein Punkt rechts liegt, destointensiver war das mittlere Signal, desto mehr Transkript war in der Probe. Es gibt Signal- und Hybridisierungs-Effekte, die von der Menge des Transkripts abhängen (intensitätsabhängige Artefakte). Diese kann man mit dem MA-Plot visualisieren. Man kann dann auch gleich die MA-Daten nehmen, um diese Artefakte zu korrigieren, zB. mit einer LOESS-Normalisierung.

Eine spezielle Frage zu dem, was ich noch machen muss, ist
auch: Wie hängen P-Value, FDR und die
Benjamin-Hochberg-Methode zusammen?

Wie oben gesagt: FDR = Benjamini-Hochberg.

Gar nicht klar ist mir der QQ-Plot mit den
Konfidenzintervallen. Aufgetragen sind hier ja z.B. die
Quantile der Probe gegen die Quantile einer zufällig erzeugten
t-Statistik. Sind mit „Quantilen“ die absoluten Werte gemeint,
also von mir aus „das 5%-Quantil liegt für diese Verteilung
beim x-Wert 1,2“?

Ja.

Muss dann der Definitionsbereich der beiden
Verteilungen also ungefähr gleich sein?

Nein. Wenn die FORMEM der Verteilungen gleich sind, liegen die Quantilen auf einer GERADEN. Ein unterschiedlicher Mittelwert verschiebt die Gerade nur, eine unterschiedliche Standardabweichung kippt sie nur (ändert die Steigung). Wesentlich ist, dass die Punkte auf einer Geraden liegen. Sind Werte dabei, die nicht unter der Nullhypothese zustandegekommen sind, weichen diese Punkte dann deutlich von der Geraden ab.

Wie verfährt man, wenn die Anzahl der Beobachtungen in
beiden Verteilungen unterschiedlich ist?

Der Plot vergleicht immer nur eine empirische mit einer theoretischen Verteilung. Die theoretische Verteilung wird immer so konstruiert, dass sie genausoviele Werte hat wie die empirische.

Fragen über Fragen. :smile: Ich hoffe, ihr könnt mir weiterhelfen.

Das hoffe ich auch. Wenn nicht, kannst Du ja nochmal nachfragen.

LG
Jochen