Was ist eine gute Liste ungelöster Proteinstrukturen?

Ich versuche, eine Liste einzigartiger löslicher strukturierter Proteine ​​​​zu erhalten, die keine gelöste Struktur haben. Das heißt, sie sind nicht die üblichen Membranproteine ​​oder Abkömmlinge eines anderen Proteins.

Dinge, an die ich denken konnte, sind schwach produzierende Transkriptionsfaktoren und neuartige Fusionsproteine.

Sie können es selbst erstellen, indem Sie Proteinnamen (der Art Ihrer Wahl) und PDB-Datensätze vergleichen. UniProt-Flatfiles haben PDB-Zugriffe für einige, nicht alle Proteine. Das Extrahieren der Einträge ohne PDB sollte ein guter Ausgangspunkt sein. Lassen Sie mich wissen, ob Sie das interessiert, und ich kann eine Antwort mit den Details schreiben.
@terdon, das klingt ziemlich nach dem, wonach ich suche. Unglücklicherweise könnte es eine beträchtliche Anzahl von Proteinen geben, die Analoga in anderen Spezies, aber im Wesentlichen die gleiche Struktur aufweisen. Wahrscheinlich wäre der sichere Test, sich die ungelösten Strukturen in Ecoli anzusehen.
Wählen Sie ein Protein, irgendein Protein. Sie werden wahrscheinlich eine auswählen, die keine gelöste Kristallstruktur hat. Außerdem müssen Sie Beweise dafür finden, dass das Protein nicht ungeordnet ist, wenn Sie möchten, dass Ihre Struktur etwas bedeutet.
@leonardo, nun, das scheint eine Herausforderung zu sein.

Antworten (3)

Hierfür stehen einige geförderte Projekte und Analysen zur Verfügung.

Strukturgenomik- oder Hochdurchsatz-Strukturprojekte nehmen alle verfügbaren Peptidsequenzen auf, gruppieren sie in Familien und stellen sicher, dass Sequenzfamilien verfügbar sind, die auf höchstwahrscheinlich neue Faltungen hinweisen.

Hier die Status- und Zielliste des gemeinsamen Zentrums für Strukturgenomik . Diese Liste ist sowohl nach Arten als auch nach Projektstatus gefiltert.

Ihre Analyse steht uns zum Durchsuchen zur Verfügung. http://www1.jcsg.org/prod/newscripts/psca/help/document.cgi

Sorry, das ist nicht so gründlich. Nature beherbergt auch Target Track, das es mehreren Strukturzentren mit hohem Durchsatz ermöglicht, ihre Bemühungen zu koordinieren. Jeder könnte Ressourcen haben, die Ihre Arbeit für Sie erledigen könnten.

So würde ich es machen:

  1. Laden Sie hier die UniProt/SWISSPROT-Flatfile für Bakterien herunter .

  2. Extrahieren Sie nach dem Dekomprimieren der Dateien die E. coli-Protein-IDs, für die es keine PDB-Anmerkung in der Datei gibt (ich gebe Ihnen eine Befehlszeile, die auf * ix-Systemen (Linux/Unix/OSX usw.) funktioniert):

    zcat uniprot_sprot_bacteria.dat.gz | gawk '{if($1~/ID/){if($2~/_ECOLI/){id=$2; frag=0; eco=1; want=1}else{eco=0}}  if($1~/DE/ && $0~/Flags: Fragment/){frag=1;}if($1~/DR/ && $2~/PDB/){want=0; } if($1~/\/\// && want==1 && eco==1 && frag==0){print id}}' > no_pdbs.txt
    

    Das Erklären der Details dieser Befehlszeile ist hier eindeutig kein Thema :). Es genügt zu sagen, dass es diejenigen UniProt-IDs aus der Flatfile druckt, deren Name auf _ECOLI endet und für die es keine PDB-Anmerkung in der Datei gibt. Es ignoriert auch Proteinfragmente. Wenn Sie Hilfe beim Verständnis brauchen, lassen Sie es mich wissen und wir können uns unterhalten oder so.

Das Ergebnis dieser Quick-and-Dirty-Analyse ist eine Liste von 2694 E.coli - Proteinen ohne PDB-Anmerkungen in den UniProt-Flatfiles.

VORBEHALTE:

  • Dies sind nur die kuratierten SWISSPROT-Proteine, vielleicht möchten Sie auch die UniProt/TrEMBL-Proteine ​​von hier beziehen . Ich würde dir aber empfehlen, bei SWISSPROT zu bleiben.

  • Wie andere bereits betont haben, sollten Sie diese Liste nach Homologie zu anderen bekannten Strukturen filtern.

  • Die Tatsache, dass es keine PDB-Annotation in der Flatfile gibt, bedeutet nicht notwendigerweise, dass es keine bekannte Struktur gibt.

Das ist also nicht perfekt, aber es sollte als Ausgangspunkt dienen. Viel Glück!

Sie können auch nach verschiedenen Proteinmodelldatenbanken wie "ProteinModelPortal" filtern, um Proteine ​​zu entfernen, die auf der Grundlage von Homologie modelliert werden können.

Versuchen Sie, sich Strukturhomologiedatenbanken anzusehen - die Sequenzen, für die sie keine Anmerkung haben, sind wahrscheinlich die Art von Sequenzen, die Sie suchen.

SUPERFAMILY verfügt über eine umfassende Annotation über fast 2500 vollständig sequenzierte Zellgenome. das wäre ein guter Anfang...