Wie kann ich vollständige Gennamen und Entrez-Gen-IDs und andere Anmerkungsinformationen aus der HUGO-Gennamenliste abrufen (in R oder einer anderen Software oder Sprache)?
Ist es umgekehrt möglich: mit vollständigen Gennamen oder IDs HUGO-Namen oder die anderen Annotationsdaten zu erhalten?
Ich würde empfehlen, einfach die Datenbank herunterzuladen, was HUGO Ihnen kostenlos ermöglicht.
Auf der HUGO Website befindet sich oben ein Reiter „Downloads“, der Sie auf die folgende Seite führt
http://www.genenames.org/cgi-bin/statistics
Sie sehen eine Tabelle mit Statistiken darüber, wie viele protein- oder nicht-proteinkodierende Gene katalogisiert sind usw.
Unter den Tabellen befindet sich ein Abschnitt namens Download-Links für vollständige Datensätze – dies ist der Abschnitt, den Sie möchten (es sei denn, Sie möchten nur eine Teilmenge der Daten – aber warum nicht alle!)
Diese reine Textdatei (sobald sie dekomprimiert ist) kann in R (oder jede andere Sprache) geladen werden, um gemäß Ihren Anforderungen geparst und analysiert zu werden.
Es lohnt sich, die heruntergeladene Version regelmäßig zu aktualisieren, da sie die HUGO-Datenbank regelmäßig mit neuen/aktualisierten Informationen aktualisiert.
Installieren Sie Bioconductor und verwenden Sie diese Bibliothek: http://www.bioconductor.org/packages/release/bioc/html/biomaRt.html
Sie können auf BioMart zugreifen, mit dem Sie zwischen verschiedenen ID-Typen übersetzen können
WYSIWYG
anongoodnurse