Ich habe derzeit zwei Sätze von Genexpressionsdaten. Der erste ist ein Datenrahmen von Genen, die durch Annotations-ID-CG-Nummern (z. B. „CG10005“) in einer Spalte und einer numerischen Variablen von Interesse, die jedem dieser Gene zugeordnet ist, in der anderen Spalte identifiziert werden (der wichtige Teil ist, dass die Gene durch die identifiziert werden CG-Nummer). Der zweite Datensatz ist diese Studie von mehreren Arten, bei denen Gene durch "GLEANR"-IDs wie diese identifiziert werden: "dsim_GLEANR_10060".
Ich möchte alle Werte aus dieser Studie für die D. melanogaster- und D. simulans-Daten extrahieren und diese dann mit den Anmerkungs-IDs im ersten Datensatz verknüpfen (um meine interessierende Variable mit der Geschlechtsverzerrung im Ausdruck für jede Art zu verbinden ). Das Problem, das ich habe, besteht darin, die orthologen Gene innerhalb der zweiten Studie miteinander zu verbinden und sie dann mit den CG-Identifikatoren in der ersten Studie zu verbinden.
Hat jemand Vorschläge zu Ressourcen, die verwendet werden können, um dies alles zu verknüpfen?
Dies ist die FlyBase-Seite für das Beispielgen: Dsim\GD10095 . Dort haben Sie einen Abschnitt "orthologs", der auf OrthoDB verlinkt . Mein Vorschlag ist also: Finden Sie die Liste der Synonyme für D. simulans auf FlyBase ( vielleicht hier? ), laden Sie den Drosophila-Abschnitt von OrthoDB herunter und finden Sie schließlich die 1:1-Orthologe.
Sie können für diese Zwecke auch Biomart verwenden.
Klicken Sie im Bereich „Tools“ (links) auf die Registerkarte „ID Converter“.
rg255
Michael Kühn
rg255