Ich habe eine lange Liste von Genvariationen. Hier sind zum Beispiel 4 davon:
CBL Q249E
TERT H412Y
SF3B1 R625H
EGFR L747_T751delinsP
Der erste Begriff identifiziert das Gen, der zweite die Variation.
Ich bin Data Scientist ohne Hintergrund in Biologie oder Medizin. Ich suche nach einer Online-Ressource, wo ich Synonyme, beschreibende Daten und andere relevante Informationen für alle Genvarianten herunterladen kann.
Ich habe zwei Seiten gesehen, wo Daten für einige Genvarianten angeboten werden, aber nicht für andere. Beispielsweise ist die EGFR L747_T751delinsP-Variante auf dieser und dieser Seite gut dokumentiert.
Während CBL Q249E auf der ckb.jax-Site dokumentiert ist, aber nicht auf der Reaktom-Site. Andere Varianten sind bei Reactome dokumentiert, aber nicht bei ckb.jax usw.
Außerdem scheint es keine leicht herunterladbare Datei zu geben, die diese Daten enthält. Bevor ich das, was ich brauche, aus einem Sammelsurium von Websites kratze, wollte ich mit Ihnen schlauen Leuten nachsehen, ob es eine benutzerfreundliche Ressource gibt, die diese Daten in einem herunterladbaren Format enthält.
Scheint, dass Ihre Varianten alle möglicherweise schädliche Mutationen für menschliche Gene sind, in diesem Fall kann ClinVar sehr nützlich sein, es gibt Treffer für alle Ihre Varianten außer L747_T751delinsP zurück. Ich habe die ClinVar-API noch nie verwendet, daher kann ich leider nicht dafür bürgen, wie einfach sie zu verwenden ist.
Wenn ClinVar die Variante (oder Informationen darüber) nicht hat, die Sie benötigen, können Sie EBI durchsuchen , um zu sehen, ob andere Websites Informationen für diese Variante haben, wenn EBI mit L747_T751delinsP abgefragt wird, zeigt uns EBI tatsächlich, dass sie zweimal in Reactome eingegeben wurde. (Willkommen im Chaos der Sequenzannotation!).
Dies liegt möglicherweise außerhalb Ihres Bereichs, aber wenn Sie eine interessante Variante haben, zu der Sie keine Informationen finden können, können Sie versuchen, die ähnlichste (bekannte) Variante mit BLAST zu finden .
Sie können den Tabellenbrowser verwenden .
Wählen Sie für die Varianten im Gruppenfeld Variante auswählen , im Track -Feld eine beliebige Datenbank aus, die Sie interessiert, geben Sie schließlich die Genomposition Ihres interessierenden Gens ein und Sie können die relativen Daten herunterladen.
Für die Synonyme, beschreibenden Daten und andere relevante Informationen für alle Genvarianten wählen Sie im Gruppenfeld Phänotyp und Literatur und im Track -Feld eine beliebige Datenbank aus, an der Sie interessiert sind. Möglicherweise müssen Sie Daten aus mehreren Datenbanken herunterladen, um sie zu erhalten alle Informationen, die Sie wollen, aber das ganze Verfahren ist ziemlich schnell und Sie können es direkt vom Browser aus tun.
Ich denke, die korrekte Nomenklatur ist EGFR L747_T751delinsP, basierend auf http://varnomen.hgvs.org/recommendations/protein/variant/delins/
Sie können auch ein Übersetzungstool wie TransVar verwenden
@smock2020 und @JAX_CKB
Gescheiterter Wissenschaftler