Ich habe versucht, einige grundlegende DNA-Sequenzierungstechniken zu lernen, und habe BLAST als Referenz verwendet. Ich dachte, ich fange an, es zu verstehen, aber dann stieß ich auf Folgendes:
Es sieht so aus, als würde es sagen, dass das Match bei 10835 beginnt und bei einem kleineren Index (10714) endet. Ich habe versucht, auf den Link zu klicken, um die vollständige Sequenz anzuzeigen, und ich konnte den hervorgehobenen Teil nirgendwo finden (nicht bei 10835 oder bei 10776).
Meine Frage ist: Wo (in NR_046235.1 ) finde ich die hervorgehobene Sequenz? Und was bedeutet es zu sagen, dass der Sbjct
bei 10835 beginnt und bei einem niedrigeren Index endet?
Bei Bedarf kann ich meine Anfrage posten. Vielen Dank.
Beachten Sie, dass die von Ihnen bereitgestellte Abfragesequenz mit dem Minusstrang Ihrer Zielsequenz übereinstimmt. Das bedeutet, dass die Zielsequenz nicht nur umgekehrt wird (wie Sie bemerkt haben), sondern auch komplementiert wird. Im GenBank-Datensatz sollten Sie also nicht nach der Sequenz suchen, die CCGACCGA...
bei Position 10835 beginnt, sondern nach der Sequenz ...TCGGTCGG
, die bei 10835 endet.
ccgaccga... minus strand
||||||||
bbɔʇbbɔʇ... forward strand
Die Sequenz im GenBank-Datensatz enthält Leerzeichen, was das Auffinden Ihrer Sequenz mit der Suchfunktion des Browsers erschwert, aber wenn Sie die Positionsindizes am Anfang und am Ende jeder Sequenzzeile verwenden, können Sie das umgekehrte Komplement finden der übereinstimmenden Sequenz, die in den BLAST-Ergebnissen angegeben ist.
Um die Antwort von Daniel Standage ein wenig zu konkretisieren, denken Sie daran, dass ein Genom doppelsträngig ist, wobei ein Strang zum anderen komplementär ist. Gene können auf beiden Strängen gefunden werden, die beiden sind biologisch gleichwertig. Sequenzierungsprojekte wählen jedoch einen der beiden Stränge (zufällig) und nennen ihn den Plus-Strang (+) und speichern dann alle Sequenzen in Bezug auf diesen Strang. Das bedeutet, dass die genomische Sequenz, die Sie aus einer Datenbank herunterladen, manchmal die Ergänzung der tatsächlichen Sequenz ist, nach der Sie suchen.
BLAST und ähnliche Algorithmen berücksichtigen dies und vergleichen Ihre Abfragesequenz mit beiden Strängen. Wenn Ihre Abfrage die Zielsequenz auf dem --Strang trifft, gibt BLAST ein Ergebnis wie das, was Sie erhalten haben, wobei der Anfang des HSP niedriger als das Ende ist. Dies liegt daran, dass die RNA-Translation (aber nicht die DNA-Transkription) auf beiden Strängen in 5'-3'-Richtung verläuft. Wir "lesen" also Gene in diese Richtung. Die Koordinaten beziehen sich immer auf den +-Strang, da wir die DNA immer in einer 5'-3'-Richtung betrachten, was bedeutet, dass ihre Startposition hinter ihrer Endposition zu liegen scheint. Anhand eines Bildes lässt sich das besser erklären:
Im obigen Bild stellt die blaue Linie Ihren BLAST-Treffer dar. Er erstreckt sich von Position 10 bis Position 40 (in Bezug auf den + Strang). Da es sich jedoch auf dem Minusstrang befindet, zeigt BLAST es von Position 40 bis Position 10 an.
Alan Boyd
Konrad Rudolf
(tr ACGT TGCA | rev) <<< 'GATTACA'
Galen