BLASTn vs. ORF-Tools

Sequenzierungsprojekte sequenzieren einen Strang und nennen diesen den +-Strang und extrapolieren dann die Sequenz des --Strangs. Das bedeutet, dass manchmal die genomische Sequenz, die Sie aus einer Datenbank herunterladen, das Komplement der tatsächlichen Sequenz ist, nach der Sie suchen. ORF-Tools wie exonerate und genewise berücksichtigen dies und suchen dadurch nach sechs möglichen Leserahmen. Verwenden Sie Sequenzähnlichkeits-Tools wie blastn berücksichtigen dies und führen auch ein paarweises Alignment für das Komplement der tatsächlichen Sequenz durch?

Antworten (1)

Es hängt von der Geschmacksrichtung von BLAST ab, die Sie verwenden. Manche tun es, manche nicht. Die klassischen BLAST-Aromen sind insbesondere:

  • blastp : vergleicht eine Aminosäure-Abfragesequenz mit einer Proteinsequenz-Datenbank
  • blastn : vergleicht eine Nukleotid-Abfragesequenz mit einer Nukleotidsequenz-Datenbank
  • blastx : vergleicht die konzeptuellen Sechs-Frame-Translationsprodukte einer Nukleotid-Abfragesequenz (beide Stränge) mit einer Proteinsequenz-Datenbank
  • tblastn : vergleicht eine Protein-Abfragesequenz mit einer Nukleotidsequenz-Datenbank, die in allen sechs Leserahmen (beide Stränge) dynamisch übersetzt wurde.
  • tblastx : vergleicht die Sechs-Frame-Translationen einer Nukleotid-Abfragesequenz mit den Sechs-Frame-Translationen einer Nukleotidsequenz-Datenbank. (Aufgrund der Natur von tblastx sind lückenhafte Ausrichtungen mit dieser Option nicht verfügbar.)

Von diesen prüfen tblastn, tblastxund blastxalle die 6 möglichen Leserahmen (beide Stränge). Dies ist nur für Proteinsuchen sinnvoll, da nur dort der Leserahmen relevant ist. Der einfache blastn befasst sich nicht mit Leserahmen, aber mit Treffern gegen den umgekehrten Strang. Der passende Strang wird in der Ausgabe hervorgehoben und die Zahlen im HSP spiegeln dies wider.

Dies sind zum Beispiel die ersten und letzten Zeilen eines der Treffer, wenn das reverse Komplement des menschlichen tP53-Gens gegen die menschlichen Sequenzen der nrDatenbank gesprengt wird:

Range 1: 1 to 2591GenBankGraphics Next Match Previous Match
Alignment statistics for match #1 Score Expect  Identities  Gaps    Strand
4673 bits(5182)     0.0     2591/2591(100%)     0/2591(0%)  Plus/Minus

Query  1     CACCCCTCAGACACACAGGTGGCAGCAAAGTTTTATTGTAAAATAAGAGATCGATATAAA  60
             ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct  2591  CACCCCTCAGACACACAGGTGGCAGCAAAGTTTTATTGTAAAATAAGAGATCGATATAAA  2532


[...]

Query  2521  AGACTTTTGAGAAGCTCAAAACTTTTAGCGCCAGTCTTGAGCACATGGGAGGGGAAAACC  2580
             ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct  71    AGACTTTTGAGAAGCTCAAAACTTTTAGCGCCAGTCTTGAGCACATGGGAGGGGAAAACC  12

Query  2581  CCAATCCCATC  2591
             |||||||||||
Sbjct  11    CCAATCCCATC  1

Beachten Sie, dass 1) die Stränge als "Plus/Minus" angegeben sind, was bedeutet, dass die Abfragesequenz gegen den --Strang des Ziels ausgerichtet ist, und 2) dass die Koordinaten der betreffenden Sequenz am Ende (2591) beginnen und zum gehen Anfang (1).

Also ja, selbst einfache Tools wie unübersetztes BLAST berücksichtigen die beiden Stränge.

Manchmal könnten die Treffer auch "Falsch-Positive" sein, wenn die Sequenz gegen den --Strang ausgerichtet ist. Was ist in diesem Fall die Lösung?
@ Raghavakrishna, warum sollten sie falsch positiv sein, weil sie sich gegen den - Strang ausrichten?
Wenn die negative Strangsequenz nicht die eigentliche Sequenz ist, für die sie kodiert, kann sie manchmal einer anderen Sequenz entsprechen (falsch positiv?)
@ Raghavakrishna Es tut mir leid, aber ich verstehe immer noch nicht. Die Details hängen immer davon ab, was Sie tatsächlich tun. Wenn BLAST dir einen Hit gibt, dann ist das ein Hit. Ob das biologisch relevant ist oder nicht, ist eine andere Frage, und ich kann sie nur beantworten, wenn ich weiß, welche Frage Sie stellen.