Hallo liebe Wissenden,
hoffentlich bin ich mit meinem Anliegen im richtigen Brett gelandet, denn so wirklich passend erschien mir keins von den vorhandenen. Ansonsten bitte ich die Moderatoren um Verschiebung.
Ich mache zurzeit ein Praktikum im Bereich der bioinformatischen Microarray-Auswertung. Konkret schreibe ich an einem Skript zur statistischen Beurteilung solcher Daten. Die Begriffe, mit denen ich arbeite, sind mir theoretisch schon klar (hatte das alles auch schon in der Vorlesung). Aber mir fehlt der Überblick, der Gesamtzusammenhang, die bildliche Zuordnung, was wofür wichtig ist und womit ich was bemesse. Ich würde mich sehr freuen, wenn ihr mir dabei weiterhelfen könnten. Hier sind die Begriffe, die mir gerade einfallen:
- t-Statistik
- P-Value
- FDR
- Q-Value
- QQ-Plot
- Quantile, Konfidenzintervall
- Volcano-Plot
- MA-Plot
Mag sein, dass ich jetzt etwas vergessen habe. Das sind jedenfalls die Sachen, mit denen ich arbeite. Rein technisch habe ich einige dieser Sachen schon implementiert (weiß also, was z.B. wogegen bei welchem Plot aufgetragen wurde), aber der Überblick aus Sicht des „Auswerters“ fehlt mir.
Eine spezielle Frage zu dem, was ich noch machen muss, ist auch: Wie hängen P-Value, FDR und die Benjamin-Hochberg-Methode zusammen? Ich hätte ja gedacht, dass der Q-Value für die FDR ein ähnlicher Schwellenwert sei wie P-Value für die t-Statistik. Aber in einem Beispiel habe ich gefunden, dass FDR mit nach Benjamin-Hochberg adjustierten P-Werten gleichgesetzt wurde.
Gar nicht klar ist mir der QQ-Plot mit den Konfidenzintervallen. Aufgetragen sind hier ja z.B. die Quantile der Probe gegen die Quantile einer zufällig erzeugten t-Statistik. Sind mit „Quantilen“ die absoluten Werte gemeint, also von mir aus „das 5%-Quantil liegt für diese Verteilung beim x-Wert 1,2“? Muss dann der Definitionsbereich der beiden Verteilungen also ungefähr gleich sein? Und was genau bedeutet es, wenn ich dort ein Konfidenzintervall einzeichne? Sprich: Welche Bedeutung hat jeder konkrete Punkt auf diesem Plot? (Dass der Plot allgemein die Beurteilung der Vergleichbarkeit von zwei Verteilungen ermöglicht und bei identischen Verteilungen alle Punkte auf der Winkelhalbierenden liegen, ist mir klar; ebenso, wie der Konfidenzintervall eingezeichnet wird) Wie verfährt man, wenn die Anzahl der Beobachtungen in beiden Verteilungen unterschiedlich ist?
Fragen über Fragen.
Ich hoffe, ihr könnt mir weiterhelfen.
Viele Grüße,
Anja