Kodieren die Bakterienarten X, Y, Z die Proteine ​​A, B, C?

Mein PI hat mir die Aufgabe übertragen, Beweise zu sammeln, um festzustellen, ob eine Liste bestimmter Arten von Campylobacter und Helicobacter für eine Liste mehrerer Proteine ​​kodiert oder nicht. Um es einfach auszudrücken, wurde ich gefragt: „Codieren die Spezies X, Y, Z die Proteine ​​A, B, C?“ Die Genome dieser Bakterienarten wurden vollständig sequenziert und ich bin in der Lage, die FASTA-Dateien für jede von ihnen abzurufen. Ich habe Probleme, mich für die richtige Methode zu entscheiden, um diese Genome auf die Gene zu untersuchen. Ich habe die Namen der Proteine ​​erhalten, dh VgrG und HCP, aber die in den Datenbanken aufgeführten Aminosäuresequenzen sind mit verschiedenen Arten der Bakterien kommentiert. Ich stecke anscheinend in einer Grauzone fest und habe Probleme, die überwältigende Menge an Ressourcen zu verbinden, die auf der NCBI-Website verfügbar sind.

Antworten (2)

Erstens, erfinden Sie das Rad nicht neu, suchen Sie zuerst nach kommentierten Homologen. Angenommen, Sie finden sie nicht, ist der nächste Schritt:

  1. Sammeln Sie die Sequenzen Ihrer Suchproteine ​​(nicht Gene) einer Spezies in einer Multifasta-Datei.

  2. Führen Sie einen tBLASTn mit diesen Sequenzen gegen die Genome aller anderen interessierenden Spezies aus.

  3. Analysieren. Suchen Sie nach HSPs mit einem bestimmten Maß an Sequenzidentität. Die Details, welchen Schwellenwert Sie wählen, hängen von Ihren Daten ab, ich kann Ihnen dabei nicht helfen.

Während der tBLASTn-Ansatz empfindlicher sein wird, ist eine einfachere Methode, die Genstrukturen und nicht nur HSPs finden kann, zu verwenden exonerate:

exonerate -m p2g proteins.fa genome.fa

Schließlich, für eine empfindlichere Suche als jede der oben genannten, die nützlich ist, um weiter entfernte Homologe zu finden, führen Sie einen Psi-tBLASTn Ihrer Proteine ​​gegen die interessierenden Genome durch.

Bei all diesen Ansätzen besteht die Schwierigkeit darin, den richtigen Schwellenwert zu wählen. Leider gibt es hier keine goldene Regel. Es hängt alles davon ab, wie eng Ihre Arten verwandt sind und wie ähnlich die Homologe sind. Sie müssen ein paar verschiedene ausprobieren, bevor Sie die richtige auswählen können.

Mir ist unklar, wie ich diese Abfrageproteine ​​erhalten könnte. Sie sind noch in keiner Datenbank verzeichnet. Ich glaube, mein PI möchte, dass ich vorhersehe, ob ein Protein in diesen Organismen existiert oder nicht.
@codax das ist eine ganz andere Frage! Was versuchst du zu machen? WAS hast du und wonach suchst du? Haben Sie keine Liste von Proteinen der Spezies X und möchten diese in der Spezies Y finden?
Es tut mir wirklich leid, wenn ich mich unklar ausgedrückt habe, aber Ihr Rat ist für mich von unschätzbarem Wert und ich lerne so viel. Ich habe eine Liste von Arten und ich muss herausfinden, ob sie Gene enthalten, die für bestimmte Proteine ​​kodieren. Ex. Campylobacter Jejuni und VgrG.
@codax OK, wenn Sie eine Liste von Proteinen haben, die Sie wollen, holen Sie sich ihre Sequenzen von einer verwandten Bakterienart, je näher, desto besser, und verwenden Sie diese Sequenzen, um Ihre Zielgenome abzufragen. Die Methoden, die ich beschreibe, sind empfindlich genug, um mit kleinen Unterschieden in der Reihenfolge umzugehen.
Ich habe Ihren Ansatz für dieses Problem ausprobiert. Die HSPs zeigen eine allgemeine Ähnlichkeit mit allen in die Abfrage eingegebenen Sequenzen an. Soweit ich weiß, gibt es eine nahezu 100%ige Identität, die von 97-100% reicht. Jetzt weiß ich, dass es eine große Ähnlichkeit zwischen der Liste der eingegebenen Proteine ​​und der von mir eingegebenen Spezies gibt. Müsste ich eine Abfrage nach der anderen stellen und sie gegen eine Art sprengen, um zu bestätigen, ob die Sequenzen für die einzelnen Proteine ​​kodieren?
@codax nein, jedes Abfrageprotein sollte seinen eigenen Satz von HSPs haben. Sie suchen nach HSPs, die i) eine hohe Sequenzidentität aufweisen und ii) die gesamte Länge der Abfragesequenz (oder fast) abdecken. Jetzt, da Sie wissen, dass sie vorhanden sind und eine hohe Ähnlichkeit aufweisen, können Sie auch verwenden, exonerateum die Gene genauer abzugleichen.

Führen Sie ein multiples Sequenz-Alignment Ihrer Proteinsequenzen durch. Dadurch erhalten Sie eine evolutionäre Beziehung zwischen Ihren Sequenzen.

Ich denke, das OP muss Gene in der Genomsequenz identifizieren und hat nur Proteine ​​​​einer Art. Mehrfache Ausrichtung wird nicht helfen.
Ich muss herausfinden, ob diese Gene in einer Artenliste vorkommen. Ich habe die Namen einiger Proteine. MSA würde in dieser Situation nicht gelten. Ich kann das FASTA abrufen, das die gesamten Genome dieser Arten enthält. Gibt es eine Möglichkeit, die Proteinsequenzen abzurufen und sie irgendwie mit der Nukleotidsequenz zu vergleichen?