Gemeinsame Identifikationscodes (IDs) in Biologiedatenbanken verstehen

Ich weiß, das ist sehr einfach, aber ich würde es gerne verstehen, und es ist schwierig zu wissen, wo ich mit einer neuen Datenbank anfangen soll.

Ich habe die Ausgabe:

sp|Q9NZT1|CALL5_HUMAN

Allerdings bin ich mir nicht sicher, worauf sich das genau bezieht.

  • Ist Q9NZT1 q eine eindeutige Kennung?
  • Ist CALL5_HUMAN auch einzigartig?
  • Sollte man beide zusammen verwenden, um Informationen zu erhalten?

  • Wie viele ID-Typen gibt es?

Hallo und willkommen bei Bio.SE! Ich habe ein paar Änderungen an Ihrer Frage vorgenommen, damit klarer wird, worauf Sie hinauswollen. Fühlen Sie sich frei, diese Änderungen rückgängig zu machen :)
@James danke, alles ist gut. Ich freue mich über jeden Kommentar und jede Hilfe :-)
Froh, dass ich helfen konnte. Ich war mir nicht sicher, was Sie genau gefragt haben, als Sie sagten: "Wie viele Arten von Ausweisen gibt es?" Habe ich Ihre Frage beantwortet oder meinten Sie allgemeiner: "Wie viele Datenbanken verwenden unterschiedliche IDs?"
@James, deine Antwort war sehr gut, aber ich schätze es, wenn du es allgemeiner zu Datenbanken usw. machst, damit ich es akzeptieren kann
Wenn Sie die Frage für allgemeine Datenbanken öffnen, wird sie viel zu weit gefasst, um sie sinnvoll zu beantworten. Ich würde vorschlagen, dass Sie die Frage bearbeiten, um deutlich zu machen, was Sie wissen möchten. Ich habe meine Antwort mit ein paar Informationen zu einigen der beliebtesten Datenbanken aktualisiert.

Antworten (1)

Gemeinsame Biologie-ID-Codes.

  • PDB: 2BIB zum Beispiel. 4-Buchstaben-Code für eine bestimmte Struktur.

  • Uniprot: Q9NZT1 zum Beispiel. Eine aus sechs Buchstaben bestehende Kombination aus Zahlen und Buchstaben für einen TrEMBL- oder Swissprot-Eintrag. Dieser Datensatz enthält Informationen zu Domänen, und Uniprot verlinkt auf viele nützliche Dinge wie Interaktionsdatenbanken, Redundanzdatensätze usw.

  • Pfam: X1WG39_DANRE Eine Uniprot-ID, gefolgt von einer Kennung. Eng verbunden mit Uniprot, aber mit Schwerpunkt auf Domains.

  • NCBI: NP_000108.1 Zum Beispiel. Diese IDs sind entweder mit einem Gen, Transkript oder Protein in Refseq verknüpft. In einem NCBI-Datensatz gibt es zwei Hauptunterschiede im Präfix des ID-Codes: hypothetische/automatische Behauptungen (XM_, XR_ und XP_) und manuell kuratierte Behauptungen (NM_, NR_ und NP_). Darauf folgt eine 6-stellige Zahl und manchmal ein "." und eine Zahl, die eine Spleiß-Isoform anzeigt.


Uniprot-IDs

Ich bin mir nicht sicher, woher Sie diese Ausgabe haben, daher scheint dies eine seltsame Verkettung von Uniprot-Informationen zu sein.

Q9NZT1 ist tatsächlich die eindeutige Uniprot-ID. Dies ist spezifisch für Uniprot.

CALL5_HUMAN ist der "Genname" oder "Identifikator" und erstreckt sich oft über verschiedene Datenbanken für dieses Gen. Es ist etwas mehr Back-End, aber aufgrund von Spleiß-Isoformen im Wesentlichen nicht einzigartig.

Es gibt viele IDs in Uniprot und viele Typen. Bereits unten werden Sie feststellen, dass einige schweizer Prot sind, andere Trembl. Dies sind die Haupttypen. Swissprot werden manuell überprüft, während Trembl eine automatisch zusammengestellte Sammlung ist.

Screenshot, der zeigt, dass es eine halbe Million Swiss-Prot-IDs und 60 Millionen TrEMBL-IDs gibt

Es gibt viele, viele verschiedene Arten von Zugangscodes, wobei jede Datenbank ihre eigene Nomenklatur verwendet, auf die Sie stoßen werden. Leider sind es zu viele, um sie hier umfassend aufzulisten.