Sequenzhäufigkeit

Jo1_a88223 · 7. November 2003 um 20:17

Hallo Experten,

ich möchte berechnen / abschätzen, wie häufig eine gegebene, nicht-palindrome, degenerierte Sequenz in beliebiger Orientierung in Mittel zufällig in einer zufälligen Sequenz einer gegebenen Länge vorkommt.

Hat jemand eine Idde, wie man das anstellen kann bzw. wo ich weitersuchen kann oder wen ich da fragen kann ?

Gruß
Jochen

Stephan_7affdd · 10. November 2003 um 09:33

Hi Jo,

nicht-palindrom ist klar, aber was soll denn eine „degenerierte“ Sequenz sein? Nicht-codierend? Zudem: DNA, RNA oder AS-Sequenz?

Ich befürchte aber, daß ich selbst bei Verfeinerung der Fragestellung keine Antwort geben kann.

Dennoch viel Glück bei der Antwort-Findung,

Stephan

[Bei dieser Antwort wurde das Vollzitat nachträglich automatisiert entfernt]

Jo1_a88223 · 10. November 2003 um 12:31

Moin Stephan,

nicht-palindrom ist klar, aber was soll denn eine
„degenerierte“ Sequenz sein? Nicht-codierend?

Nein, nein. Ob kodierend oder nicht spielt keine Rolle. „Degeneriert“ heißt einfach, daß es mehrere Möglichkeiten gibt. Nehmen wir einen normalen Würfel. Bezeichnen wir die Augenzahlen {1,3,5} als „odd“ und {2,4,6} als „even“. Die Sequenz 1-5-3-3-2-4-5 zB wäre eindeutig. Die Sequenz 1-odd-odd-3-2-even-5 zB wäre ziemlich degeneriert. Sie beinhaltet die erste Sequenz, aber eben auch noch eine ganze Reihe andere -eindeutige- Sequenzen.

Zudem: DNA, RNA oder AS-Sequenz?

Eigentlich ist das egal - es könnte eine gewürfelte Sequenz sein, meinetwegen „Augenzahlen“, „Farben“ oder „Formen“ oder was-auch-immer. In meinem konkreten Fall geht’s um DNA, weil mir die Tatsache mit den komplementären Strängen noch ein Problem bereitet.

Es gibt im Bereich um +/- 3kB vor und hinter dem Gen Bereiche, die Bindungssequenzen für (trans-)regulatorische Elemente enthalten können. Es geht mir darum, zu zeigen, wie häufig eine solche Sequenz(en) zufällig in diesen Abschnitten zu finden sein müßten.

Mein Ansatz ist der:

Die Häufigkeiten von A,C,G,T seinen gleich = 0.25.

Die Wahrscheinlichkeit p, an einer bestimmten Stelle in einer Sequenz zB ein A zu finden, ist also p=0.25. In einer Sequenz der Länge n (sagen wird 3000) treten damit im Mittel p*n = 0.25*1000 = 250 A’s auf. Stimmt das soweit?

Die Wahrscheinlichkeit, eine Sequenz der Länge m (zB. AAC für m=3)zu „würfeln“, ist p=0.25*0.25*0.25 = 0.016.
Es gibt in einer Sequenz der Länge n nun (n-m+1)-mal die Möglichkeit, daß diese Sequenz auftaucht, und das wird, analog zur Rechnung oben, mit einer mittleren Häufigkeit von p*(n-m+1) passieren. Richtig?

Auch die Degeneriertheit sollte hier noch kein Problem sein, das ist eine Oder-Verknüpfung von Ereignissen. Ist die zu suchende Sequenz zB. AGK mit K={G oder T}, dann ist p = 0.25*0.25*(0.25+0.25) = 0.0325. Die mittlere Häufigkeit, mit der ich diese Sequenz in einer der Länge n finde, ist wieder p*(n-m+1). Stimmts?

Soweit, galube ich, sollte es stimmen. Nun kommen meine Probleme:

Wenn ich auch die Sequenzen finden will, die Rückwärtz vorkommen, wie mache ich das? Ist das einfach die Summe aus beiden Einzelergebnissen ? Also, wenn ich ACCG suche, finde ich sie nach obiger Rechnung in 3kB im Mittel zB. 0.25^4*(3000-4+1)=11.7 mal. Auch die Sequenz GCCA würde ich mit gleicher Begründung 11.7 mal finden. Wenn mich die Orientierung nicht interessiert, würde ich {ACCG oder GCCA) dann im Mittel 23.4 mal finden ?

Und was, wenn die Sequenze so aussieht: ACTXXXTCA ? Die drei mittleren Positionen seien beliebig. Bei der Prüfung ist es egal, ob ich die Sequenz von vorne oder hinten lese - sie verhält sich wie eine palindrome Sequenz (muß aber keine sein!). Und selbst, wenn diese beiden Fälle noch offensichtlich sind, wie steht’s bei zB. ACKKCAXK ?

Und wie sieht das alles aus, wenn ich die Sequenz auch noch auf dem komplementären Strang suche?

Das verschwindet bei mir alles im Nebel…

Wer weiß, vieleicht ist die Lösung trivial und ich hab mich hier in unnötigen, viel zu verwirrenden Sackgassen verrannt!

Das war jetzt etwas ausführlicher. Vielleicht kommt dir ja noch eine Idee,

Grüße,
Jochen

Stephan_7affdd · 10. November 2003 um 12:48

Hilfe …

… das ist mir zu hoch. Sorry.

Falls Du Transkriptionsfaktoren-Bindungsstellen (-sequenzen) suchen solltest, könnte ich evtl. behilflich sein. Für derartig (s.u.) empirische Probleme bin ich allerdings der falsche Ansprechpartner (Pseudo-Experte).

*wink*

Stephan

[Bei dieser Antwort wurde das Vollzitat nachträglich automatisiert entfernt]