Ich versuche, eine Liste einzigartiger löslicher strukturierter Proteine zu erhalten, die keine gelöste Struktur haben. Das heißt, sie sind nicht die üblichen Membranproteine oder Abkömmlinge eines anderen Proteins.
Dinge, an die ich denken konnte, sind schwach produzierende Transkriptionsfaktoren und neuartige Fusionsproteine.
Hierfür stehen einige geförderte Projekte und Analysen zur Verfügung.
Strukturgenomik- oder Hochdurchsatz-Strukturprojekte nehmen alle verfügbaren Peptidsequenzen auf, gruppieren sie in Familien und stellen sicher, dass Sequenzfamilien verfügbar sind, die auf höchstwahrscheinlich neue Faltungen hinweisen.
Hier die Status- und Zielliste des gemeinsamen Zentrums für Strukturgenomik . Diese Liste ist sowohl nach Arten als auch nach Projektstatus gefiltert.
Ihre Analyse steht uns zum Durchsuchen zur Verfügung. http://www1.jcsg.org/prod/newscripts/psca/help/document.cgi
Sorry, das ist nicht so gründlich. Nature beherbergt auch Target Track, das es mehreren Strukturzentren mit hohem Durchsatz ermöglicht, ihre Bemühungen zu koordinieren. Jeder könnte Ressourcen haben, die Ihre Arbeit für Sie erledigen könnten.
So würde ich es machen:
Laden Sie hier die UniProt/SWISSPROT-Flatfile für Bakterien herunter .
Extrahieren Sie nach dem Dekomprimieren der Dateien die E. coli-Protein-IDs, für die es keine PDB-Anmerkung in der Datei gibt (ich gebe Ihnen eine Befehlszeile, die auf * ix-Systemen (Linux/Unix/OSX usw.) funktioniert):
zcat uniprot_sprot_bacteria.dat.gz | gawk '{if($1~/ID/){if($2~/_ECOLI/){id=$2; frag=0; eco=1; want=1}else{eco=0}} if($1~/DE/ && $0~/Flags: Fragment/){frag=1;}if($1~/DR/ && $2~/PDB/){want=0; } if($1~/\/\// && want==1 && eco==1 && frag==0){print id}}' > no_pdbs.txt
Das Erklären der Details dieser Befehlszeile ist hier eindeutig kein Thema :). Es genügt zu sagen, dass es diejenigen UniProt-IDs aus der Flatfile druckt, deren Name auf _ECOLI endet und für die es keine PDB-Anmerkung in der Datei gibt. Es ignoriert auch Proteinfragmente. Wenn Sie Hilfe beim Verständnis brauchen, lassen Sie es mich wissen und wir können uns unterhalten oder so.
Das Ergebnis dieser Quick-and-Dirty-Analyse ist eine Liste von 2694 E.coli - Proteinen ohne PDB-Anmerkungen in den UniProt-Flatfiles.
VORBEHALTE:
Dies sind nur die kuratierten SWISSPROT-Proteine, vielleicht möchten Sie auch die UniProt/TrEMBL-Proteine von hier beziehen . Ich würde dir aber empfehlen, bei SWISSPROT zu bleiben.
Wie andere bereits betont haben, sollten Sie diese Liste nach Homologie zu anderen bekannten Strukturen filtern.
Die Tatsache, dass es keine PDB-Annotation in der Flatfile gibt, bedeutet nicht notwendigerweise, dass es keine bekannte Struktur gibt.
Das ist also nicht perfekt, aber es sollte als Ausgangspunkt dienen. Viel Glück!
Versuchen Sie, sich Strukturhomologiedatenbanken anzusehen - die Sequenzen, für die sie keine Anmerkung haben, sind wahrscheinlich die Art von Sequenzen, die Sie suchen.
SUPERFAMILY verfügt über eine umfassende Annotation über fast 2500 vollständig sequenzierte Zellgenome. das wäre ein guter Anfang...
Terdon
bobthejoe
Benutzer560
bobthejoe