Online-Ressource zum Herunterladen von Genvariantendaten?

Ich habe eine lange Liste von Genvariationen. Hier sind zum Beispiel 4 davon:

CBL Q249E

TERT H412Y

SF3B1 R625H

EGFR L747_T751delinsP

Der erste Begriff identifiziert das Gen, der zweite die Variation.

Ich bin Data Scientist ohne Hintergrund in Biologie oder Medizin. Ich suche nach einer Online-Ressource, wo ich Synonyme, beschreibende Daten und andere relevante Informationen für alle Genvarianten herunterladen kann.

Ich habe zwei Seiten gesehen, wo Daten für einige Genvarianten angeboten werden, aber nicht für andere. Beispielsweise ist die EGFR L747_T751delinsP-Variante auf dieser und dieser Seite gut dokumentiert.

Während CBL Q249E auf der ckb.jax-Site dokumentiert ist, aber nicht auf der Reaktom-Site. Andere Varianten sind bei Reactome dokumentiert, aber nicht bei ckb.jax usw.

Außerdem scheint es keine leicht herunterladbare Datei zu geben, die diese Daten enthält. Bevor ich das, was ich brauche, aus einem Sammelsurium von Websites kratze, wollte ich mit Ihnen schlauen Leuten nachsehen, ob es eine benutzerfreundliche Ressource gibt, die diese Daten in einem herunterladbaren Format enthält.

Versuchte dieses? dgv.tcag.ca/dgv/app/home

Antworten (3)

Scheint, dass Ihre Varianten alle möglicherweise schädliche Mutationen für menschliche Gene sind, in diesem Fall kann ClinVar sehr nützlich sein, es gibt Treffer für alle Ihre Varianten außer L747_T751delinsP zurück. Ich habe die ClinVar-API noch nie verwendet, daher kann ich leider nicht dafür bürgen, wie einfach sie zu verwenden ist.

Wenn ClinVar die Variante (oder Informationen darüber) nicht hat, die Sie benötigen, können Sie EBI durchsuchen , um zu sehen, ob andere Websites Informationen für diese Variante haben, wenn EBI mit L747_T751delinsP abgefragt wird, zeigt uns EBI tatsächlich, dass sie zweimal in Reactome eingegeben wurde. (Willkommen im Chaos der Sequenzannotation!).

Dies liegt möglicherweise außerhalb Ihres Bereichs, aber wenn Sie eine interessante Variante haben, zu der Sie keine Informationen finden können, können Sie versuchen, die ähnlichste (bekannte) Variante mit BLAST zu finden .

Ja, das sind alles potenziell schädliche Mutationen. Obwohl Passagiergene mit Mutationen letztendlich nützlich (schädlich für den Krebs) sein könnten, wenn ich das richtig verstehe. Danke für diese großartigen Ressourcen. Könnte es sein, dass L747_T751delinsP 2 Einträge bei Reactome hat, weil es sich um eine Art Variation handelt, die in verschiedenen Genen auftreten kann?
@ben scheint der einzige Unterschied zwischen den beiden Einträgen darin zu bestehen, dass das Protein des Eintrags "p-6Y-EGFR" eine Reihe phosphorylierter Tyrosinreste aufweist. Grundsätzlich scheinen die beiden Einträge dasselbe Gen, dieselbe Variante in diesem Gen und dieselbe Proteinsequenz abzudecken, aber der p-6Y-Eintrag enthält zusätzliche Modifikationen an diesem Protein. Dies weist wahrscheinlich auf einen Unterschied in der Funktion hin, aber dies sollte Ihnen eine Vorstellung davon geben, wie verwirrend und schwierig zu automatisieren dies sein kann.

Sie können den Tabellenbrowser verwenden .

Wählen Sie für die Varianten im Gruppenfeld Variante auswählen , im Track -Feld eine beliebige Datenbank aus, die Sie interessiert, geben Sie schließlich die Genomposition Ihres interessierenden Gens ein und Sie können die relativen Daten herunterladen.

Für die Synonyme, beschreibenden Daten und andere relevante Informationen für alle Genvarianten wählen Sie im Gruppenfeld Phänotyp und Literatur und im Track -Feld eine beliebige Datenbank aus, an der Sie interessiert sind. Möglicherweise müssen Sie Daten aus mehreren Datenbanken herunterladen, um sie zu erhalten alle Informationen, die Sie wollen, aber das ganze Verfahren ist ziemlich schnell und Sie können es direkt vom Browser aus tun.

Danke. Ich habe Standortinformationen für jedes der Gene in meinen Daten (die ich von einer Website erhalten habe - ich kann mich gerade nicht erinnern, welche aus dem Kopf fallen), damit ich die wichtigen Felder bei Table Browser ausfüllen kann. Das Problem ist nun, dass die Namen der Variationen, die auf dieser Seite angegeben sind, mit keinem in meiner Liste der Variationen übereinstimmen. Sie beginnen alle mit "rs", gefolgt von einer Zahl, während Sie in der ursprünglichen Frage oben sehen können, dass die Variationen in meinen Daten einer anderen Nomenklatur folgen. Irgendeine Idee, wie man zwischen den beiden übersetzt?
@ben Es ist nicht trivial, die richtige ID zu finden, verschiedene Datenbanken verwenden eine andere. Das rs -Suffix stammt aus der dbSNP-Datenbank. Die Mutation, nach der Sie suchen, EGFR L747_T751>P , ist eine Indel, Sie finden sie in der Cosmic-Datenbank

Ich denke, die korrekte Nomenklatur ist EGFR L747_T751delinsP, basierend auf http://varnomen.hgvs.org/recommendations/protein/variant/delins/

Sie können auch ein Übersetzungstool wie TransVar verwenden

@smock2020 und @JAX_CKB