Gruppierung von OMIM-Krankheitscodes

Ich habe ungefähr 100 Gensätze, und jeder Satz enthält zwischen 2 und 70 Gene. Ich möchte an jedem dieser Sets eine Anreicherungsanalyse durchführen, um zu testen, ob sie für OMIM-Krankheitsetiketten angereichert sind . Ich stoße jedoch auf ein Problem, bei dem die OMIM-Codes zu "spärlich" sind, sodass jeder OMIM-Code nur maximal einmal in allen Gensets vorkommt. Soweit ich das beurteilen kann, macht dies die Codes in diesem Fall für die Anreicherungsanalyse ungeeignet.

Ich glaube, dass das Gruppieren der OMIM-Codes dieses Problem lösen könnte, solange jedes Gruppen-Label mehrfach in meinen Listen vorkommt. Die Gruppierung von OMIM-Codes scheint machbar: Beispielsweise beziehen sich die OMIM-Codes 601495, 613500, 613502 und 613506 alle auf Arten von Agammaglobulinämie. Ich könnte mir vorstellen, Codes auf der Grundlage von Gen-Ontologie-Etiketten zu gruppieren.

Meine Frage: Gibt es eine Standardmethode zum Gruppieren von OMIM-Codes?

Ich sehe einige Zeitungen, die so etwas tun, zB http://www.ncbi.nlm.nih.gov/pmc/articles/PMC4458913/ , aber ich bin neu auf dem Gebiet und weiß nicht, wie "Standard"-Ansätze aussehen diese sind.

Hallo und willkommen bei Biology.SE. Ohne eine klare wissenschaftliche Frage zu beantworten, gibt es hier nicht genügend Informationen, um die Frage zu beantworten.
Danke für die Information. Ich habe meine Frage bearbeitet, um weitere Informationen aufzunehmen. Lassen Sie mich wissen, wenn ich mehr hinzufügen kann.
Es ist immer noch schwer zu sagen, wie Sie sie gruppieren möchten und zu welchem ​​​​Zweck, daher habe ich unten eine allgemeine Antwort gegeben. Ich hoffe, es hilft!

Antworten (2)

Basierend auf OMIM-ID-Codes

Im weiteren Sinne haben die NIH die IDs bereits aufgeteilt. Wenn Sie nur die OMIM-Code-Anreicherung überprüfen, könnte dies eine gute Lösung sein, da sie Ihnen den chromosomalen Locus (autosomal, geschlechtsgebunden oder mitochondrial) mitteilen kann.

Jeder OMIM-Eintrag erhält eine eindeutige sechsstellige Nummer, wie unten zusammengefasst:

1----- (100000- ) 2----- (200000- ) Autosomale Loci oder Phänotypen (Einträge erstellt vor dem 15. Mai 1994)

3----- (300000-) X-verknüpfte Loci oder Phänotypen

4----- (400000-) Y-verknüpfte Loci oder Phänotypen

5----- (500000-) Mitochondriale Loci oder Phänotypen

6----- (600000- ) Autosomale Loci oder Phänotypen (Einträge erstellt nach dem 15. Mai 1994)

Andere Datenbanken als alternative Methode.

Wenn Sie an bestimmten Phänotypen interessiert sind, müssen Sie sich möglicherweise stärker einbringen.

Soweit mir bekannt ist, versucht OMIM nicht wirklich, Krankheiten über ihre ID-Nomenklatur hinaus zu gruppieren. Es gab mehrere Projekte, die dies zum Ziel hatten, wie das, auf das die Frage hinweist, und die folgenden Beispiele. Sie verwenden meist phänotypische Daten in Kombination mit OMIM-Informationen.

Zwei Datenbanken, die darauf abzielen, dies zu lösen, sind:

Dies sind Werkzeuge mit kontrolliertem Vokabular für Phänotypen und Assoziationen aus OMIM-Codes. Sie könnten Ihnen helfen, nach krankheits-/phänotypspezifischer Anreicherung zu suchen. Dies würde sicherlich eine programmatische Gruppierung ermöglichen, obwohl ich noch nie damit gearbeitet habe und ich vermute, dass es sehr aufwendig wäre!

Es liegt an dir!

Wikipedia hat eine Liste von OMIM-Codes in alphabetischer Reihenfolge, wenn Sie versuchen möchten, sie manuell nach gewünschten Kriterien zu gruppieren.


Ohne Ihren Quellcode ist es schwer zu sagen, aber vielleicht könnte das Maximum einer Vorkommensrate eher ein Codeproblem als ein wissenschaftliches Problem sein.

Vielen Dank! Genau danach habe ich gesucht. Ich habe versucht, nach verschiedenen Anordnungen des numerischen OMIM-Codes zu gruppieren (unter Verwendung der ersten Ziffer), aber ich denke nicht, dass dies für meine Anwendung sehr sinnvoll ist. Ich werde mir andere Datenbanken ansehen und/oder eine benutzerdefinierte Lösung ausprobieren.

Es gibt einen Ansatz aus dem Papier " Enrichr: Interactive and Collaborative HTML5 Gene List Enrichment Analysis Tool ":

Die OMIM-Gensatzbibliothek wurde direkt aus der OMIM Morbid Map des NCBI erstellt. Wir haben Krankheiten mit nur wenigen Genen entfernt und Krankheiten mit ähnlichen Namen zusammengeführt, da diese wahrscheinlich aus wenigen Subtypen derselben Krankheit bestehen. Da die meisten Krankheiten nur wenige Gene haben, haben wir außerdem unser Tool Genes2Networks verwendet, um die erweiterte OMIM-Gensatzbibliothek zu erstellen. Wir haben die Krankheitsgene als Startliste eingetragen und die Liste erweitert, indem wir Proteine ​​identifiziert haben, die direkt mit mindestens zwei der Krankheitsgenprodukte interagieren; Mit anderen Worten, wir suchten nach Wegen, die zwei Krankheitsgenprodukte mit einem intermediären Protein verbinden, was zu einem Subnetzwerk führte, das die Krankheitsgene mit zusätzlichen Proteinen/Genen verbindet. Jedes Unternetzwerk für jede Krankheit wurde in einen Gensatz umgewandelt.

Enrichr selbst hat zwei OMIM-Bibliotheken in den Kategorien „Medikamente/Krankheiten“. Darüber hinaus verfügt es über eine Human Phenotype Ontology Library und MGI Mammalian Phenotype Librarys.