Mein PI hat mir die Aufgabe übertragen, Beweise zu sammeln, um festzustellen, ob eine Liste bestimmter Arten von Campylobacter und Helicobacter für eine Liste mehrerer Proteine kodiert oder nicht. Um es einfach auszudrücken, wurde ich gefragt: „Codieren die Spezies X, Y, Z die Proteine A, B, C?“ Die Genome dieser Bakterienarten wurden vollständig sequenziert und ich bin in der Lage, die FASTA-Dateien für jede von ihnen abzurufen. Ich habe Probleme, mich für die richtige Methode zu entscheiden, um diese Genome auf die Gene zu untersuchen. Ich habe die Namen der Proteine erhalten, dh VgrG und HCP, aber die in den Datenbanken aufgeführten Aminosäuresequenzen sind mit verschiedenen Arten der Bakterien kommentiert. Ich stecke anscheinend in einer Grauzone fest und habe Probleme, die überwältigende Menge an Ressourcen zu verbinden, die auf der NCBI-Website verfügbar sind.
Erstens, erfinden Sie das Rad nicht neu, suchen Sie zuerst nach kommentierten Homologen. Angenommen, Sie finden sie nicht, ist der nächste Schritt:
Sammeln Sie die Sequenzen Ihrer Suchproteine (nicht Gene) einer Spezies in einer Multifasta-Datei.
Führen Sie einen tBLASTn mit diesen Sequenzen gegen die Genome aller anderen interessierenden Spezies aus.
Analysieren. Suchen Sie nach HSPs mit einem bestimmten Maß an Sequenzidentität. Die Details, welchen Schwellenwert Sie wählen, hängen von Ihren Daten ab, ich kann Ihnen dabei nicht helfen.
Während der tBLASTn-Ansatz empfindlicher sein wird, ist eine einfachere Methode, die Genstrukturen und nicht nur HSPs finden kann, zu verwenden exonerate
:
exonerate -m p2g proteins.fa genome.fa
Schließlich, für eine empfindlichere Suche als jede der oben genannten, die nützlich ist, um weiter entfernte Homologe zu finden, führen Sie einen Psi-tBLASTn Ihrer Proteine gegen die interessierenden Genome durch.
Bei all diesen Ansätzen besteht die Schwierigkeit darin, den richtigen Schwellenwert zu wählen. Leider gibt es hier keine goldene Regel. Es hängt alles davon ab, wie eng Ihre Arten verwandt sind und wie ähnlich die Homologe sind. Sie müssen ein paar verschiedene ausprobieren, bevor Sie die richtige auswählen können.
Führen Sie ein multiples Sequenz-Alignment Ihrer Proteinsequenzen durch. Dadurch erhalten Sie eine evolutionäre Beziehung zwischen Ihren Sequenzen.
kodax
Terdon
kodax
Terdon
kodax
Terdon
exonerate
um die Gene genauer abzugleichen.