Ich habe eine Liste mit über 100 Proteinen und muss für jedes einzelne Psi-Blast nur gegen "bakterielle Proteine" durchführen.
Ich ging zum Protein-Blast-Tool von NCBI , konnte aber nicht herausfinden, wie ich die Zieldatenbank auswählen/begrenzen sollte.
Hier sind die 2 Konfigurationen, die ich ausprobiert habe:
pdb
, Organismus:bacteria (taxid:2)
landmark
, Organismus:bacteria (taxid:2)
Kann mir jemand sagen, ob einer der Ansätze richtig ist? Wenn nicht, zeigen Sie bitte den richtigen Weg.
Alle meine Daten stammen aus „ Ergänzungstabelle 10 “ des Artikels „ Vergleichende Genomik des vernachlässigten menschlichen Malariaparasiten Plasmodium vivax “.
Etwa 5 % aller meiner Proteinsequenzen sind ISS-vorhergesagt. Die verbleibenden Sequenzen sind von der IEA vorhergesagt
Ihr Ansatz ist richtig, aber es lohnt sich zu überlegen, welche Datenbank für Sie am besten geeignet ist. Zu berücksichtigende Fragen sind;
Für Proteinsequenzen würde ich verwenden;
Datenbank; UniProtKB/Swiss-Prot(swissprot)
Organismus Bakterien (taxid:2) (oder eine Untergruppe)
Die Gründe dafür sind, dass ich damit vertraut bin, wie Uniprot ihre IDs handhabt, sie bieten einen großen Suchraum mit klarer Abgrenzung zwischen zuverlässigen (überprüften) und anderen (nicht überprüften) Sequenzen, und schließlich lassen sich UniprotKB-IDs gut auf Gene abbilden. Letzteres kann problematisch sein. Ich weiß auch, dass ich keine Probleme haben werde, PDB mit UniprotKB-IDs zu durchsuchen.
Obwohl ich die Proteindatenbank (PDB) verwende und mag, würde ich sie nicht für diese Art der Suche verwenden, da sie eine strukturelle Datenbank ist, die Ihren Suchraum einschränkt. PDB hat 8292 Strukturen für E.coli im Vergleich zu 23.017 überprüften und 1.335.860 nicht überprüften Sequenzen in Uniprot. Wenn Sie sich nur für Strukturen interessieren, ist die PDB ideal geeignet.
Ich habe Landmark nicht verwendet .
James