Wie erhält man eine Liste von Proteinen, sortiert nach den ~1400 einzigartigen Proteinfaltungen?

Die Datenbanken CATH und SCOP enthalten beide etwa 1400 einzigartige Proteinfaltungen, die aus der Analyse der PDB aufgezeichnet wurden. Ich sehe jedoch keine Methode, um auf diese bestimmten Daten zuzugreifen.

  1. Eine Liste aller 1400 Faltungen (nur eine ID-Nummer und/oder eine Beschreibung)?

  2. Für jede einzelne Faltung (der 1400), eine Liste von PDB-IDs für Proteine, von denen bekannt ist, dass sie jede einzelne Faltung annehmen?

Antworten (2)

Wenn es eine einfache Möglichkeit gibt, dies zu tun, ist sie sehr gut versteckt. Der mühsame und dumme Weg, 1 zu tun (eine Liste der Faltungen zu erhalten), scheint darin zu bestehen, dass Sie Ihre eigenen rollen:

  1. Gehen Sie zu http://scop.berkeley.edu/ver=2.07 (oder was auch immer die neueste Version ist).

  2. Klicken Sie nacheinander auf jede der 12 Klassen. zB (a) Alle Alpha-Proteine ​​führen Sie zu http://scop.berkeley.edu/sunid=46456 .

  3. Speichern Sie die Quelle jeder Seite als Text.

  4. Schreiben Sie Ihren eigenen Parser und führen Sie ihn aus, um die Sunid ( ) aus http://scop.berkeley.edu/sunid= und der Beschreibungszeile herauszuziehen, wenn Sie dies wünschen. (Dies setzt voraus, dass Sie programmieren.) Ich denke, diese Sunid ist die Fold-ID.

Wenn Sie dann eine Datenbank oder Tabelle finden, die PDB- und Sunid-Werte enthält, können Sie ein anderes Programm schreiben, um die Antwort auf 2 zu finden.

Alternativ… (ergänzt Januar 2021)

  1. Laden Sie dir.cla.scope.2.07-stable.txt (oder die neueste Version) herunter
  2. Als Textdatei speichern.
  3. In Microsoft Excel öffnen. (Durch einfaches Ziehen auf das App-Symbol wurde es auf meinem Mac richtig formatiert. Ihre Laufleistung kann variieren.)
  4. Sie können einfach die Spalte mit den IDs auswählen, in ein anderes Blatt einfügen und dann Duplikate entfernen, um alle verschiedenen Falt-IDs zu erhalten. (Alternativ haben Sie etwa 276.000 Einträge, mit denen Sie tun können, was Sie wollen.)
Da dies nach etwa fünf Jahren wieder auftauchte und ich es kürzlich tatsächlich verwendet habe, habe ich eine nicht programmierende Methode hinzugefügt, um an die Informationen zu gelangen, indem ich einfach eine Excel-Tabelle verwende.

Anscheinend können Sie hier die vollständige Datenbank im SQL-Format oder parsbare Textdateien herunterladen: SCOP Download - Berkeley

Der Link enthält auch einen Link zum Schema:

Geben Sie hier die Bildbeschreibung ein

Danke für die Antwort, aber sie beantwortet nicht die Frage. Die Möglichkeit, die Datenbank herunterzuladen, hilft nicht. Das Schema könnte nützlich gewesen sein - außer dass keine der Tabellen etwa 1400 Zeilen hat oder überhaupt Falten/Topologien im Tabellennamen oder in der Beschreibung erwähnt.