BLAST-DNA-Sequenzen umgekehrt

Ich habe versucht, einige grundlegende DNA-Sequenzierungstechniken zu lernen, und habe BLAST als Referenz verwendet. Ich dachte, ich fange an, es zu verstehen, aber dann stieß ich auf Folgendes:

Geben Sie hier die Bildbeschreibung ein

Es sieht so aus, als würde es sagen, dass das Match bei 10835 beginnt und bei einem kleineren Index (10714) endet. Ich habe versucht, auf den Link zu klicken, um die vollständige Sequenz anzuzeigen, und ich konnte den hervorgehobenen Teil nirgendwo finden (nicht bei 10835 oder bei 10776).

Meine Frage ist: Wo (in NR_046235.1 ) finde ich die hervorgehobene Sequenz? Und was bedeutet es zu sagen, dass der Sbjctbei 10835 beginnt und bei einem niedrigeren Index endet?

Bei Bedarf kann ich meine Anfrage posten. Vielen Dank.

Nur um Ihnen bei den folgenden Antworten zu helfen - es gibt viele Online-Tools, mit denen Sie das umgekehrte Komplement einer Sequenz erstellen können, wenn Sie Schwierigkeiten haben, dies zu "sehen", z. B. bioinformatics.org/sms/rev_comp.html
@Alan Das ist nicht nötig, ein einfacher Konsolenbefehl macht dasselbe für Sie:(tr ACGT TGCA | rev) <<< 'GATTACA'
Ich mag den Einzeiler von @KonradRudolph als direkte Lösung besser, bemerke aber auch, dass viele Programmiersprachen Bibliotheken für alltägliche Sequenzverarbeitungsaufgaben haben.

Antworten (2)

Beachten Sie, dass die von Ihnen bereitgestellte Abfragesequenz mit dem Minusstrang Ihrer Zielsequenz übereinstimmt. Das bedeutet, dass die Zielsequenz nicht nur umgekehrt wird (wie Sie bemerkt haben), sondern auch komplementiert wird. Im GenBank-Datensatz sollten Sie also nicht nach der Sequenz suchen, die CCGACCGA...bei Position 10835 beginnt, sondern nach der Sequenz ...TCGGTCGG, die bei 10835 endet.

ccgaccga...    minus strand
||||||||
bbɔʇbbɔʇ...    forward strand

Die Sequenz im GenBank-Datensatz enthält Leerzeichen, was das Auffinden Ihrer Sequenz mit der Suchfunktion des Browsers erschwert, aber wenn Sie die Positionsindizes am Anfang und am Ende jeder Sequenzzeile verwenden, können Sie das umgekehrte Komplement finden der übereinstimmenden Sequenz, die in den BLAST-Ergebnissen angegeben ist.

Vielen Dank für diese Erklärung! Ich habe die Antwort von @terdon akzeptiert, weil sie etwas anfängerfreundlicher war.

Um die Antwort von Daniel Standage ein wenig zu konkretisieren, denken Sie daran, dass ein Genom doppelsträngig ist, wobei ein Strang zum anderen komplementär ist. Gene können auf beiden Strängen gefunden werden, die beiden sind biologisch gleichwertig. Sequenzierungsprojekte wählen jedoch einen der beiden Stränge (zufällig) und nennen ihn den Plus-Strang (+) und speichern dann alle Sequenzen in Bezug auf diesen Strang. Das bedeutet, dass die genomische Sequenz, die Sie aus einer Datenbank herunterladen, manchmal die Ergänzung der tatsächlichen Sequenz ist, nach der Sie suchen.

BLAST und ähnliche Algorithmen berücksichtigen dies und vergleichen Ihre Abfragesequenz mit beiden Strängen. Wenn Ihre Abfrage die Zielsequenz auf dem --Strang trifft, gibt BLAST ein Ergebnis wie das, was Sie erhalten haben, wobei der Anfang des HSP niedriger als das Ende ist. Dies liegt daran, dass die RNA-Translation (aber nicht die DNA-Transkription) auf beiden Strängen in 5'-3'-Richtung verläuft. Wir "lesen" also Gene in diese Richtung. Die Koordinaten beziehen sich immer auf den +-Strang, da wir die DNA immer in einer 5'-3'-Richtung betrachten, was bedeutet, dass ihre Startposition hinter ihrer Endposition zu liegen scheint. Anhand eines Bildes lässt sich das besser erklären:

Geben Sie hier die Bildbeschreibung ein

Im obigen Bild stellt die blaue Linie Ihren BLAST-Treffer dar. Er erstreckt sich von Position 10 bis Position 40 (in Bezug auf den + Strang). Da es sich jedoch auf dem Minusstrang befindet, zeigt BLAST es von Position 40 bis Position 10 an.