Hallo Anja,
sowie das PDF daraus:
Habe ich ausgedruckt vor mir liegen, werde in diesem Punkt
aber auch nicht schlauer daraus.
DIch glaube, ich habe nur die Vignette verlinkt (die hat nur eine Seite). Du solltest dir natürlich das Manual durchlesen. Auch andere Publikationen von Gordon Smyth zu Limma sind lesenwert.
So wirklich klar ist mir das noch immer nicht.
Bei der
Erstellung eines Regressionsmodells stelle ich mir immer zwei
Variablen vor, von denen beide (also auch die unabhängige)
nicht nur zwei Werte (im einfachsten Fall 0 und 1 in der
Design-Matrix, wenn man ohne Dye-Swap arbeitet) haben, sondern
eine Vielzahl an Werten annehmen können.
Ok, die Regressionsgerade ist nur eine Form eines linearen Modells. Ein lineares Modell heißt so, weil die zu fittenden Parameter des Modells alle nur linear sind. Die Funktion
y = a1x + a2
ist LINEAR in Bezug auf die Parameter a_i_. Dieses Modell beschreibt tatsächlich eine Regressionsgeade mit der Steigung a_1_ und dem Achsenabschnitt a_2_, mit x als Unabhängige.
Beachte: es geht um die Bestimmung der a’s! So ist auch folgendes Modell linear:
y = a1x³ + 5*a2x² - 2*a3
oder
y = a1sin(x) + a2*exp(-x) + ln(x)/ln(x+1)
oder auch
y = a1A + a2B + a3C
Du sagst, die unabhängige Variable
(„x-Werte“) seien in der Designmatrix enthalten. Aber dort
habe ich doch nur 0 und 1 (bzw. auch -1 beim Dye-Swap),
entsprechend den beiden Klassen (ich gehe jetzt nur von zwei
Klassen aus, z.B. Tumorgewebe/kein Tumorgewebe). Das kann man
doch nicht vergleichen mit dem Bleiacetat im Futter, einer
Variablen, deren Wert stetig verändert werden kann!
Doch, kann man. Warum denn nicht. Beim Bleiacetat gibst du doch letzlich auch die Werte vor. Es ist für das Modell unerheblich, ob die Werte ganzzahlig sind oder nicht.
Bildlich
stelle ich mir als Plot dann genau zwei x-Werte vor, bei denen
jeweils eine Vielzahl von Expressionswerten zugeordnet sind,
sodass man quasi zwei „Säulen“ im Bild hat (die
Expressionswerte sind dann auf zwei vertikale Linien
verteilt). Wo liegt mein Denkfehler?
Da ist kein Denkfeler. Genau so ist es gemeint.
Wie gesagt, für ein simples „common reference“-Design ohne dye-swap ist das mit Kanonen auf Spatzen geschossen. Das lineare Modell hat in der Design-Matrix bei jede Hybridisierung eine 1 stehen („x“ ist also immer 1), so ist das Modell schlicht
y = a1*1
y ist ja ein VEKTOR von log-ratios und enthält die Werte für EIN Gen für ALLE Hybridisierungen. Der Einfachheit halbe nehmen wir mal 1 Gen 2 Hybridisierungen an. Dann hast du hier eigentlich 2 Gleichungen:
y(1) = a1x und
y(2) = a1x
Da x immer 1 ist, läßt sich das vereinfacht schreiben:
y(1) = a1 und
y(2) = a1
Das Modell wird formal gelöst durch die Wahl eines Wertes für a1, für den die Summe der Abweichungsquadrate (y(j)-a1x)² also (y(j)-a1) ² minimal wird. Das ist, wie schon gesagt, einfach der Mittelwert aller y(j).
Ein common-reference-Design mit dye-swaps wäre im Prinzip genauso einfach, wenn man vorher die Vorzeichen der betreffenden log-rations umkehrt. Das kann man aber auch in der Design-Matrix berücksichtigen. Machen wir das wieder, Schritt für Schritt an unserem einfachten aller Beispiele:
Die Design-Matrix X ist jetzt (1 -1), also x(1)=1 und x(2)=-1. Das Modell ist damit
y(1) = a1x(1) und
y(2) = a1x(2),
also (X eingesetzt:smile:
y(1) = a1 und
y(2) = a1(-1) = -a1
Auch das Modell wird durch Minimierung der Abweichungsquadrate gelöst und liefert mit dem Parameter a1 die gewünschte Lösung für die „mittlere“ log-Ratio.
Nun muss nicht in allen Hybridisierungen immer diesselbe „behandelte“ Probe gegen die selbe „Referenz“-Probe hybridisiert sein. Man kann sich auch 3 verschiedene Proben (von jeweils mehreren biologischen Individuen) vorstellen, zB. eine Normalprobe A, eine Probe eines intraduktalen Mammacarcinoms B und eine Probe eines lobulären Mammacarcinoms C. Dich interessieren die Unterschiede in der Genexpression beider Carinomtypen zur Normalprobe und auch zwischen den Carcinomtypen. Es gibt viele Designs, die man dazu machen kann. Als Beispiel möchte ich das Ringdesign nehmen:
Du hybridisierst
- A gegen B (A:B),
- B gegen C (B:C) und
- C gegen A (C:A).
Um A:B zu bekommen, kannst du direkt die A:B-Hybridisierungen nehmen. Da du aber AUCH B:C UND C:A hybridisiert hast, kannst du hier zusätzliche Information bezüglich A:B gewinnen, sozusagen INDIREKT über die Probe C. Sowas kann man mit einem linearen Modell sehr einfach bewerkstelligen. Hier hat die Design-Matrix 2 Spalten (immer eine Spalte weniger als Probentypen):
( 1 -1)
X = (-1 0)
( 0 -1)
Analog zu oben wird mit den Messwerten y das lineare Modell
y = aX
gelöst, und schon hat man den interessierenden Kontrast in a1, berechnet unter Nutzung ALLER zur Verfügung stehender Informationen.
Ansonsten hae ich noch eine andere Quelle gefunden, wo die Anwendung linearer Modelle in der Microarrayanalytik erklärt wird:
http://www.bepress.com/cgi/viewcontent.cgi?article=1…
Eine PowerPoint-Datei, wo Experimentdesigns und die Auswertung mit linearen Modellen aufgezeigt wereden, findest du hier:
www.mcb.mcgill.ca/~blanchem/618/DifferentialExpressi…
So, viel Spaß damit, erstmal… 
LG
Jochen