Die Datenbanken CATH und SCOP enthalten beide etwa 1400 einzigartige Proteinfaltungen, die aus der Analyse der PDB aufgezeichnet wurden. Ich sehe jedoch keine Methode, um auf diese bestimmten Daten zuzugreifen.
Eine Liste aller 1400 Faltungen (nur eine ID-Nummer und/oder eine Beschreibung)?
Für jede einzelne Faltung (der 1400), eine Liste von PDB-IDs für Proteine, von denen bekannt ist, dass sie jede einzelne Faltung annehmen?
Wenn es eine einfache Möglichkeit gibt, dies zu tun, ist sie sehr gut versteckt. Der mühsame und dumme Weg, 1 zu tun (eine Liste der Faltungen zu erhalten), scheint darin zu bestehen, dass Sie Ihre eigenen rollen:
Gehen Sie zu http://scop.berkeley.edu/ver=2.07 (oder was auch immer die neueste Version ist).
Klicken Sie nacheinander auf jede der 12 Klassen. zB (a) Alle Alpha-Proteine führen Sie zu http://scop.berkeley.edu/sunid=46456 .
Speichern Sie die Quelle jeder Seite als Text.
Schreiben Sie Ihren eigenen Parser und führen Sie ihn aus, um die Sunid ( ) aus http://scop.berkeley.edu/sunid= und der Beschreibungszeile herauszuziehen, wenn Sie dies wünschen. (Dies setzt voraus, dass Sie programmieren.) Ich denke, diese Sunid ist die Fold-ID.
Wenn Sie dann eine Datenbank oder Tabelle finden, die PDB- und Sunid-Werte enthält, können Sie ein anderes Programm schreiben, um die Antwort auf 2 zu finden.
Alternativ… (ergänzt Januar 2021)
Anscheinend können Sie hier die vollständige Datenbank im SQL-Format oder parsbare Textdateien herunterladen: SCOP Download - Berkeley
Der Link enthält auch einen Link zum Schema:
Mike Serfas