Wie führt man PSI-BLAST für eine bestimmte Proteinsequenz nur gegen die bakterielle Proteindatenbank durch?

Ich habe eine Liste mit über 100 Proteinen und muss für jedes einzelne Psi-Blast nur gegen "bakterielle Proteine" durchführen.

Ich ging zum Protein-Blast-Tool von NCBI , konnte aber nicht herausfinden, wie ich die Zieldatenbank auswählen/begrenzen sollte.

Hier sind die 2 Konfigurationen, die ich ausprobiert habe:

  1. Datenbank: pdb, Organismus:bacteria (taxid:2)
  2. Datenbank: landmark, Organismus:bacteria (taxid:2)

Kann mir jemand sagen, ob einer der Ansätze richtig ist? Wenn nicht, zeigen Sie bitte den richtigen Weg.


Bearbeiten 1 - weitere Details hinzufügen

Alle meine Daten stammen aus „ Ergänzungstabelle 10 “ des Artikels „ Vergleichende Genomik des vernachlässigten menschlichen Malariaparasiten Plasmodium vivax “.

Etwa 5 % aller meiner Proteinsequenzen sind ISS-vorhergesagt. Die verbleibenden Sequenzen sind von der IEA vorhergesagt

pdb enthält nur IDs mit hinterlegten Strukturen. Ich habe noch nie von Landmark gehört, könnten Sie einen Link dazu bereitstellen? Ich stimme @Michael_A zu, dass Uniprot der richtige Weg ist.

Antworten (1)

Ihr Ansatz ist richtig, aber es lohnt sich zu überlegen, welche Datenbank für Sie am besten geeignet ist. Zu berücksichtigende Fragen sind;

  1. Bietet die Datenbank einen großen Suchraum für die Organismen, an denen Sie interessiert sind?
  2. Funktionieren seine IDs gut für die Suche in anderen Datenbanken?
  3. Wie behandelt die Hostdatenbank Kennungen im Laufe der Zeit?

Für Proteinsequenzen würde ich verwenden;

Datenbank; UniProtKB/Swiss-Prot(swissprot)

Organismus Bakterien (taxid:2) (oder eine Untergruppe)

Die Gründe dafür sind, dass ich damit vertraut bin, wie Uniprot ihre IDs handhabt, sie bieten einen großen Suchraum mit klarer Abgrenzung zwischen zuverlässigen (überprüften) und anderen (nicht überprüften) Sequenzen, und schließlich lassen sich UniprotKB-IDs gut auf Gene abbilden. Letzteres kann problematisch sein. Ich weiß auch, dass ich keine Probleme haben werde, PDB mit UniprotKB-IDs zu durchsuchen.

Obwohl ich die Proteindatenbank (PDB) verwende und mag, würde ich sie nicht für diese Art der Suche verwenden, da sie eine strukturelle Datenbank ist, die Ihren Suchraum einschränkt. PDB hat 8292 Strukturen für E.coli im Vergleich zu 23.017 überprüften und 1.335.860 nicht überprüften Sequenzen in Uniprot. Wenn Sie sich nur für Strukturen interessieren, ist die PDB ideal geeignet.

Ich habe Landmark nicht verwendet .

Ich suche nach struktureller Homologie in bakteriellen Proteinen. Da Sie darauf hingewiesen haben, dass PDB eine strukturelle Datenbank ist, wäre es deshalb ein besserer Kandidat?
Ich würde immer noch Uniprot verwenden, da die Uniprot-IDs zum Durchsuchen von PDB verwendet werden können. Sie könnten jedoch beides tun. Der einzige Nachteil von Uniprot ist, dass es wahrscheinlich eine große Liste zurückgeben wird. Sich Zeit zu nehmen, um die Struktur der Beteiligungen von uniprot zu verstehen, wird Ihnen helfen, damit umzugehen. Wenn Sie mit überprüften Sequenzen davonkommen, würde ich bei diesen bleiben.