Servus,
Ich hätte mal einige Frage zu BLAST.
BLAST ist ja ein Tool, mit dem man zum Beispiel experimentell
ermittelte DNA- oder Proteinsequenzen mit Datenbanksequenzen
vergleichen kann und somit Übereinstimmung finden, und damit
schlussendlich das Protein oder Gen, welches man isoliert
hat.
Soweit richtig?
Ja.
http://de.wikipedia.org/wiki/BLAST-Algorithmus
Nun verstehe ich den Algorithmus nicht so richtig.
Es kommt immer wieder der Begriff Alignments vor, also
Gegenüberstellungen kurzer Stücke der Datenbank- und
Vergleichssequenz. Und das Programm gibt dann für dieses
Alignment an, wie signifikant der Treffer ist, richtig?
Jain.
Es gibt eine Gegenüberstellung an, z.B.
ATGCCGTGAAGTCGCGCTAG
||| ||||||||||||
ATGGTAGGAAGTCGCG.TAG
UND bewertet deren Signifikanz.
D.h. wenn die Übereinstimmung in repetitiven Bereichen liegt (z.B. GCGCGCGC) wird deren Signifikanz geringer bewertet, als Einzelsequenzbereiche.
Irgendwie verstehe ich die Idee des Algorithmus, die „auf der
Wahrscheinlichkeit dass Alignments mit vielen Treffern kurze
Stücke von großer Identität besitzen.“ Weiter geht es mit
„Diese Teilstücke werden dann während der Scuhe nach besseren
und längeren Alignments weiter vergrößert.“
Bitte?
Dieser Satz (stammt aus Wiki?) meint, dass BLAST erst kurze Teilstücke mit hoher Übereinstimmung sucht und dann bei diesen Sequenzen langsam die Länge erhöht, um die Restbereiche, die evtl. stärker abweichen, ebenfalls sinnvoll mit der Zielsequenz in Beziehung zu setzen.
Beispiel:
Nehmen wir an Du hast eine Sequenz für ein Gen aus der Maus (gerade die Suche nach paralogen und othologen Genen ist ja der Hauptanwendungsbereich von BLAST). Nun suchst Du orthologe Abschnitte im Genom des Menschen.
Es ist sehr wahrscheinlich, dass die Teile des Maus-Gens, die für wichtige Bereiche des Proteins kodieren (z.B. katalytisches Zentrum) höher konserviert sind, als andere Bereiche, die maus- bzw. menschspezifische Eigenarten des Proteins darstellen (z.B. Oberflächenstruktur).
Würde BLAST gleich mit der Gesamtlänge suchen (=alignen), dann könnte der Algorithmus die Relevanz zu niedrig einstufen (da die mausspezifischen Sequenzen das Gesamtergebnis „verwässern“) und einen sinnvollen Treffer „übersehen“.
Deshalb werden erst einmal Teilstücke gesucht, die sehr gut passen und dann diese Stücke verlängert. Wenn dann die Sequenz immernoch einigermaßen passt, wird sie als möglicher Treffer ausgegeben.
Was ich weiter verstehe, ist, dass die Vergleichssequenz (also
die experimentell ermittelte) quasi zerstückelt wird in
kleine, ganz kurze Segmente. Dadurch soll es möglich sein, die
Abfragesequenz individuell vor Start der Suche einzustellen,
auch wenn ich nicht verstehe wie.
Nun je kleiner die Sequenzen, desto mehr Anfangstreffer, aber desto höher die Wahrscheinlichkeit von „falsch positiven“.
"Dabei stellt der Algorithmus eine Liste aller benachbarten
Worte fester Länge auf, die einen Treffer auf der
Abfragesequenz mit einem höheren Scoring als ein zu wählender
Parameter erzeugen würden.
Das Scoring ist ein Filter (= Cutoff), der vom Anwender gewählt werden kann, und darüber entscheidet, welche Mindesthomologie bei den kurzen Sequenzen der Anfangssuche vorliegen muss. Wenn man einen hoch konservierten Abschnitt in seiner Suchsequenz vermutet, wird es sinnvoll sein, diesen Filter hoch zusetzen. Wenn man allerdings nach unbekannten orthologen Genen sucht, kann es sinnvoll sein mehr „Hintergrundrauschen“ zuzulassen.
Anschließend wird die Zieldatenbank
nach Worten in dieser Liste abgefragt und die gefundenen
Treffer erweitert, um mögliche maximale zusammenhängende
Treffer in beiden Richtungen zu finden."
Das Bedeutet das Programm geht nun jeden Treffer mit der kurzen Sequenz durch und verlängert die Sequenz in beide Richtungen. Wenn dann die Übereinstimmung immer noch akzeptabel ist, bekommt die Sequenz eine hohe Bewertung.
Ich hoffe ich konnte ein wenig Licht in die Angelegenheit bringen.
Gruß,
Sax