Welche Faktoren sollte ich bei der Auswahl eines Referenzgenoms für die Kartierung berücksichtigen?

Ich habe den Eindruck, dass das neueste Referenzgenom typischerweise der beste Fall ist. Welche anderen Dinge sollte ich bei der Auswahl eines Referenzgenoms beachten? Gibt es zum Beispiel einen besonderen Grund, beim Alignment von Short Reads von RNAseq nicht mit dem neuesten Referenzgenom zu arbeiten?

Es gibt viele, und es hängt von Informationen ab, die Sie nicht präsentiert haben.
Willkommen bei Biology.SE! Wenn Sie von der gegebenen Antwort nicht überzeugt sind, gehen Sie bitte näher auf Ihre Frage ein und geben Sie einige Hintergrundinformationen darüber an, welche Art von Analysen Sie in Betracht ziehen. Erwägen Sie auch, an der Tour teilzunehmen , und sehen Sie sich unsere Richtlinien für gute Fragen an . Genießen! :)
@James Ich bin mir dieses Mangels an Informationen bewusst, aber aufgrund meines Fachwissens in dieser Angelegenheit kann ich leider keine detaillierteren Fragen stellen. Ich hoffe jedoch, dass andere Benutzer auf meinem Wissensstand die gegebenen Antworten verwenden werden (was die Idee hinter Stackexchange ist, nicht wahr?). Eigene Recherche hat für mich einfach kein nachvollziehbares Ergebnis gebracht...
@SebastianLobentanzer SE wurde entwickelt, um spezifische technische Fragen zu beantworten. Es funktioniert nicht so gut bei der Bereitstellung von Antworten auf Fragen zur Einführung in das Thema wie diese. Während einige Benutzer gerne versuchen, diese Fragen zu beantworten, erhalten Sie selten die gewünschte Antwort. Es gibt viele Möglichkeiten, Ihre Frage zu verbessern, damit sie von mehr Personen besser beantwortet werden kann. Sehen Sie sich die von Alex empfohlene Tour an.
@James Spezifische Fragen? Ja. Technisch? Nicht unbedingt.
@DanielStandage Ich glaube, ich wollte ein Wort, das "nicht trivial zu beantworten" umfasst. „Technisch“ ist wahrscheinlich nicht das beste Wort.

Antworten (1)

Es gibt viele Gründe!

Nehmen wir an, Sie verwenden das menschliche Referenzgenom. Die neueste Version ist hg38 oder GrCh38. Dies kam vor ungefähr drei Jahren heraus (Dezember 2013). Obwohl diese Gründe jetzt nicht wirklich auf diese spezielle Versammlung zutreffen, fällt mir keine andere Versammlung ein, bei der diese Gründe nachweisbar sind. Beim Umgang mit RNA-Seq-Daten führen Sie einige allgemeine Aufgaben aus.

  1. Anmerkungen: Wenn eine neue Baugruppe herauskommt, werden alle vorhandenen Anmerkungen auf die vorherige Baugruppe standardisiert. Nehmen Sie zum Beispiel GENCODE , das speziell auf die aktuelle Version von Gencode verweist, die jetzt auf hg38 basiert. Beachten Sie jedoch vor allem, dass sie immer noch dieselbe Version für hg19/GrCh37 beibehalten. Aus meiner Erfahrung dauert es etwa 1-3 Monate, bis Annotationsdatenbanken nach der Veröffentlichung der Assemblierung auf eine neue Genomassemblierung migriert sind.
  2. Erhaltungsspuren: Dies sind die Spuren, die am längsten brauchen, um aktualisiert zu werden. Ich werde hier keinen Link zu den Tracks posten. Aber hier ist der UCSC-Tabellenbrowser , Sie können zu den Tracks der vergleichenden Genomik gehen und die Konservierungstracks (Phylop, Phastcons) anzeigen, die für jede Baugruppe verfügbar sind. Erfahrungsgemäß hat es mehr als ein Jahr gedauert, bis diese Tracks für hg38 generiert wurden. Es ist also besser, an der vorherigen Baugruppe zu arbeiten, wenn Sie diese speziellen Informationen benötigen, da das Erstellen dieser Spuren selbst eine sehr mühsame und rechenintensive Aufgabe ist.
  3. Risiken unvollendeter Genome: Hier geht es nicht so sehr um das menschliche Genom, da der Gewinn mit jedem aufeinanderfolgenden Zusammenbau immer kleiner wird. Aber wenn man eine Baugruppe betrachtet, die zu 70 % aus Gerüsten besteht, sind die Unterschiede zwischen den Baugruppen in der Regel sehr groß. Bei Funktionsstudien im Gegensatz zu Insilico-Studien macht es keinen Sinn, die gesamte Analyse jedes Mal zu wiederholen, wenn eine neue Baugruppe herauskommt, da der Insilico-Teil der Studie die prädiktive Säule ist, auf der funktionale Validierungen basieren. Dies gilt jedoch nicht für Insilico-Studien, bei denen die der Öffentlichkeit präsentierten Ergebnisse ausschließlich prädiktiv sind.
  4. Inkohärenz mit bestehenden Studien: Dies ist ein Haupthindernis für die Verwendung einer neueren Anordnung, insbesondere bei unfertigen Genomen, bei denen die Ergebnisse sehr unterschiedlich sein können und nicht mit bereits vorhandenem Wissen übereinstimmen. Natürlich können Sie derjenige sein, der Recht hat, aber es ist auch möglich, dass die Variabilität Ihrer Ergebnisse auf menschliches Versagen zurückzuführen ist. Daher ist es einfach besser, auf eine „bahnbrechende“ Studie zu warten, um die Versammlung der Öffentlichkeit vorzustellen, wodurch Ihre Studie einer weniger strengen Prüfung unterzogen wird und Sie auch die erwartete Variabilität Ihrer Ergebnisse validieren können.
  5. Fallstricke während der Funktionsanalyse : Für die RNA-Seq-Analyse ist es üblich, RT-PCR für ein bestimmtes Gen zu verwenden, um das erwartete Expressionsniveau für dieses Gen zu ermitteln, was wiederum ein erfolgreiches RNA-Seq-Experiment ohne schattige PCR-Duplikationen validiert und Artefakte. Für diesen speziellen Teil würden Sie zuerst einen Primer erstellen, der das erwartete Expressionsniveau dieses Gens validiert. Aber diese spezielle Grundierung stammt von einer bestimmten Baugruppe. Es ist auch möglich, dass sich der verstärkte Bereich zwischen den Anordnungen verschoben oder verändert hat. Wenn Sie also Ihre Daten an einer anderen Baugruppe ausrichten als der, die zur Erstellung des Primers verwendet wurde, erhalten Sie möglicherweise ein unerwartetes Expressionsniveau für dieses Gen, da der ursprüngliche Primer eine falsche Region amplifiziert hat, die in der neueren Baugruppe behoben wurde.

Ich weiß, es gibt noch viele mehr. Aber das sind die einzigen, die mir im Moment einfallen.

Vielen Dank für die Ausarbeitung. Ich bin neu in der Genomik und komme aus pharmakologischer Sicht. Es spielt keine Rolle, dass Ihre Antwort nicht umfassend ist. Das ist auf jeden Fall ein Ansatzpunkt, ab dem ich mich selbstständig über Aspekte informieren kann. Danke noch einmal!