Filtern Sie Proteine ​​nach Domäne mit InterProScan

Ich habe eine Reihe von Proteinen (über 300000) im Fasta-Format und möchte diejenigen finden, die eine bestimmte Domäne enthalten (unter Verwendung eines bestimmten InterPro-Zugangs).

Ich kann InterPro auf den Proteinen ausführen und jede Domäne abrufen, die sie haben, aber bei so vielen Proteinen wird es sehr viel Zeit in Anspruch nehmen, die mir knapp ist. Ich möchte meine Suche auf die von mir gesuchte spezifische Domain beschränken, da ich davon ausgehe, dass sie erheblich schneller sein wird.

Gibt es eine Möglichkeit, dies mit InterPro zu tun? Das Durchsuchen der Dokumente gibt mir keine Hoffnung. Wenn InterPro dazu nicht in der Lage ist, wäre es mit einer einzigen Datenbank wie Pfam oder CDD machbar?

Antworten (1)

1. Beschränken Sie den InterPro-Scan auf eine bestimmte Datenbank :
Wie Sie gesagt haben, kennen Sie die Domäne, an der Sie interessiert sind, damit Sie wissen, in welcher Datenbank sich diese befindet. Dann können Sie Ihren InterPro-Scan auf diese Datenbank beschränken, was viel Zeit spart: Dann nur die Datenbank auswählen, in der die Domain gespeichert ist (z. B. ProSite)Geben Sie hier die Bildbeschreibung ein
Geben Sie hier die Bildbeschreibung ein



2. Wenn sich Ihre Domain in der ProSite-Datenbank befindet (was wahrscheinlich der Fall ist), können Sie ScanProsite verwenden und Ihre Suche auf eine bestimmte Domain beschränken . Gehen Sie dazu auf den obigen Link und wählen Sie die letzte Option: Wenn Sie dann ein wenig nach unten scrollen, können Sie einen ProSite-Zugangscode der Domain / des Profils eingeben, an dem Sie interessiert sind:Geben Sie hier die Bildbeschreibung ein
Geben Sie hier die Bildbeschreibung ein


3. Verwenden Sie den PFAM-Scan

Ich habe dies noch nie zuvor verwendet, daher weiß ich nicht, ob dies schneller wäre, als den InterPro-Scan auf die PFAMa-Datenbank zu beschränken. Das kannst du natürlich nachprüfen.


4. Clustern Sie zuerst Ihre Sequenzen

Dies funktioniert nur, wenn Ihre Sequenzen einander ähneln. Abhängig von der Größe der Domäne und der Position in den Sequenzen können Sie alle Ihre Sequenzen zuerst gruppieren (z. B. mit CD-HIT). Wählen Sie dann für jeden Cluster repräsentative Sequenzen aus und verwenden Sie diese, um sie Ihrer Analyse zu unterziehen. Wenn Sie beispielsweise wissen, dass sich Ihre Domäne immer am Ende der Sequenz befindet, schneiden Sie den ersten Teil jeder Sequenz ab und gruppieren die Proteine ​​​​über die gesamte Länge mit 100% Identität. Wenn Sie dann feststellen, ob jeder Cluster die Domäne enthält oder nicht (basierend auf der repräsentativen Sequenz, die CD-HIT Ihnen zur Verfügung stellt), können Sie diese Ergebnisse den Sequenzen zuordnen, aus denen jeder Cluster besteht. Aber natürlich wird dies den Suchraum nur dann verkleinern, wenn Ihre Sequenzen einander ähnlich aussehen (oder wenn Teile dies tun).


5. MOTIF-Suche mit heruntergeladenem Profil oder HMM

Die MOTIF-Suche ermöglicht Ihnen die Abfrage mehrerer Datenbanken wie PFAM, CDD, PROSITE usw. Interessanter ist, dass Sie damit auch Ihr eigenes Profil oder HMM angeben können. So können Sie das HMM Ihrer Wunschdomain zB von PFAM oder das Domainprofil von Prosite herunterladen .Geben Sie hier die Bildbeschreibung ein


6. HMM herunterladen und HMMscan (oder HMMER) verwenden
Dies wurde von @seven11 vorgeschlagen, Sie können Ihre HMM-Domain in der PFAM- Datenbank suchen und dann HMMscan verwenden .

Fazit


Wenn Sie sich wirklich für eine Domain interessieren. Ich denke, das Herunterladen des ProSite-Scan-Tools wäre die beste Option. Bemerkenswerterweise sind alle oben erwähnten Webtools als Befehlszeilentool verfügbar, und das ist es, was Sie brauchen, wenn Sie so viele Sequenzen haben. Zurück zum ProSite-Scan, den können Sie hier herunterladen und vergessen Sie nicht die README . Wie in der Readme erwähnt:

Input/Output:
  -e : specify the ID or AC of an entry in sequence-file
  -o : specify an output format : $formats_string
  -d : specify a prosite.dat file
  -p : specify a pattern or the AC of a prosite motif
  -f : specify a motif AC to scan against together with all its 
       releated post-processing motifs (but show only specified 
       motif hits)

Mit können Sie -pden Acc des gewünschten Musters angeben.

Ich bin ziemlich beschäftigt, also habe ich dieses hier wirklich schnell getippt. Bitte lassen Sie es mich wissen, wenn etwas nicht klar ist.

Danke, deine Antwort hat mir einige sehr gute Hinweise gegeben. Ich habe das HMM für diese Domain auf der Pfam-Site gefunden. Ich werde es lokal mit hmmscan ausführen.
Aah schön, das ist eine gute Option und wahrscheinlich viel schneller, da HMM nicht so lange dauern sollte @seven11
Wenn Ihre Sequenzen ziemlich ähnlich sind, können Sie diese auch zuerst gruppieren (sagen wir bei 100% Identität über 80% über die Sequenzlänge) und dann einen Vertreter für jeden Cluster auswählen und diesen verwenden, um damit zu suchen. Und wenn Ihre Domain immer am Ende der Sequenzen steht, können Sie nur an diesen Enden clustern und dann suchen. Dies funktioniert nur, wenn Ihre Sequenzen natürlich @seven11 gleich sind