Moin Stephan,
nicht-palindrom ist klar, aber was soll denn eine
"degenerierte" Sequenz sein? Nicht-codierend?
Nein, nein. Ob kodierend oder nicht spielt keine Rolle. "Degeneriert" heißt einfach, daß es mehrere Möglichkeiten gibt. Nehmen wir einen normalen Würfel. Bezeichnen wir die Augenzahlen {1,3,5} als "odd" und {2,4,6} als "even". Die Sequenz 1-5-3-3-2-4-5 zB wäre eindeutig. Die Sequenz 1-odd-odd-3-2-even-5 zB wäre ziemlich degeneriert. Sie beinhaltet die erste Sequenz, aber eben auch noch eine ganze Reihe andere -eindeutige- Sequenzen.
Zudem: DNA, RNA oder AS-Sequenz?
Eigentlich ist das egal - es könnte eine gewürfelte Sequenz sein, meinetwegen "Augenzahlen", "Farben" oder "Formen" oder was-auch-immer. In meinem konkreten Fall geht's um DNA, weil mir die Tatsache mit den komplementären Strängen noch ein Problem bereitet.
Es gibt im Bereich um +/- 3kB vor und hinter dem Gen Bereiche, die Bindungssequenzen für (trans-)regulatorische Elemente enthalten können. Es geht mir darum, zu zeigen, wie häufig eine solche Sequenz(en) zufällig in diesen Abschnitten zu finden sein müßten.
Mein Ansatz ist der:
Die Häufigkeiten von A,C,G,T seinen gleich = 0.25.
Die Wahrscheinlichkeit p, an einer bestimmten Stelle in einer Sequenz zB ein A zu finden, ist also p=0.25. In einer Sequenz der Länge n (sagen wird 3000) treten damit im Mittel p*n = 0.25*1000 = 250 A's auf. Stimmt das soweit?
Die Wahrscheinlichkeit, eine Sequenz der Länge m (zB. AAC für m=3)zu "würfeln", ist p=0.25*0.25*0.25 = 0.016.
Es gibt in einer Sequenz der Länge n nun (n-m+1)-mal die Möglichkeit, daß diese Sequenz auftaucht, und das wird, analog zur Rechnung oben, mit einer mittleren Häufigkeit von p*(n-m+1) passieren. Richtig?
Auch die Degeneriertheit sollte hier noch kein Problem sein, das ist eine Oder-Verknüpfung von Ereignissen. Ist die zu suchende Sequenz zB. AGK mit K={G oder T}, dann ist p = 0.25*0.25*(0.25+0.25) = 0.0325. Die mittlere Häufigkeit, mit der ich diese Sequenz in einer der Länge n finde, ist wieder p*(n-m+1). Stimmts?
Soweit, galube ich, sollte es stimmen. Nun kommen meine Probleme:
Wenn ich auch die Sequenzen finden will, die Rückwärtz vorkommen, wie mache ich das? Ist das einfach die Summe aus beiden Einzelergebnissen ? Also, wenn ich ACCG suche, finde ich sie nach obiger Rechnung in 3kB im Mittel zB. 0.25^4*(3000-4+1)=11.7 mal. Auch die Sequenz GCCA würde ich mit gleicher Begründung 11.7 mal finden. Wenn mich die Orientierung nicht interessiert, würde ich {ACCG oder GCCA) dann im Mittel 23.4 mal finden ?
Und was, wenn die Sequenze so aussieht: ACTXXXTCA ? Die drei mittleren Positionen seien beliebig. Bei der Prüfung ist es egal, ob ich die Sequenz von vorne oder hinten lese - sie verhält sich wie eine palindrome Sequenz (muß aber keine sein!). Und selbst, wenn diese beiden Fälle noch offensichtlich sind, wie steht's bei zB. ACKKCAXK ?
Und wie sieht das alles aus, wenn ich die Sequenz auch noch auf dem komplementären Strang suche?
Das verschwindet bei mir alles im Nebel...
Wer weiß, vieleicht ist die Lösung trivial und ich hab mich hier in unnötigen, viel zu verwirrenden Sackgassen verrannt!
Das war jetzt etwas ausführlicher. Vielleicht kommt dir ja noch eine Idee,
Grüße,
Jochen