Es gibt viele Gründe!
Nehmen wir an, Sie verwenden das menschliche Referenzgenom. Die neueste Version ist hg38 oder GrCh38. Dies kam vor ungefähr drei Jahren heraus (Dezember 2013). Obwohl diese Gründe jetzt nicht wirklich auf diese spezielle Versammlung zutreffen, fällt mir keine andere Versammlung ein, bei der diese Gründe nachweisbar sind. Beim Umgang mit RNA-Seq-Daten führen Sie einige allgemeine Aufgaben aus.
- Anmerkungen: Wenn eine neue Baugruppe herauskommt, werden alle vorhandenen Anmerkungen auf die vorherige Baugruppe standardisiert. Nehmen Sie zum Beispiel GENCODE , das speziell auf die aktuelle Version von Gencode verweist, die jetzt auf hg38 basiert. Beachten Sie jedoch vor allem, dass sie immer noch dieselbe Version für hg19/GrCh37 beibehalten. Aus meiner Erfahrung dauert es etwa 1-3 Monate, bis Annotationsdatenbanken nach der Veröffentlichung der Assemblierung auf eine neue Genomassemblierung migriert sind.
- Erhaltungsspuren: Dies sind die Spuren, die am längsten brauchen, um aktualisiert zu werden. Ich werde hier keinen Link zu den Tracks posten. Aber hier ist der UCSC-Tabellenbrowser , Sie können zu den Tracks der vergleichenden Genomik gehen und die Konservierungstracks (Phylop, Phastcons) anzeigen, die für jede Baugruppe verfügbar sind. Erfahrungsgemäß hat es mehr als ein Jahr gedauert, bis diese Tracks für hg38 generiert wurden. Es ist also besser, an der vorherigen Baugruppe zu arbeiten, wenn Sie diese speziellen Informationen benötigen, da das Erstellen dieser Spuren selbst eine sehr mühsame und rechenintensive Aufgabe ist.
- Risiken unvollendeter Genome: Hier geht es nicht so sehr um das menschliche Genom, da der Gewinn mit jedem aufeinanderfolgenden Zusammenbau immer kleiner wird. Aber wenn man eine Baugruppe betrachtet, die zu 70 % aus Gerüsten besteht, sind die Unterschiede zwischen den Baugruppen in der Regel sehr groß. Bei Funktionsstudien im Gegensatz zu Insilico-Studien macht es keinen Sinn, die gesamte Analyse jedes Mal zu wiederholen, wenn eine neue Baugruppe herauskommt, da der Insilico-Teil der Studie die prädiktive Säule ist, auf der funktionale Validierungen basieren. Dies gilt jedoch nicht für Insilico-Studien, bei denen die der Öffentlichkeit präsentierten Ergebnisse ausschließlich prädiktiv sind.
- Inkohärenz mit bestehenden Studien: Dies ist ein Haupthindernis für die Verwendung einer neueren Anordnung, insbesondere bei unfertigen Genomen, bei denen die Ergebnisse sehr unterschiedlich sein können und nicht mit bereits vorhandenem Wissen übereinstimmen. Natürlich können Sie derjenige sein, der Recht hat, aber es ist auch möglich, dass die Variabilität Ihrer Ergebnisse auf menschliches Versagen zurückzuführen ist. Daher ist es einfach besser, auf eine „bahnbrechende“ Studie zu warten, um die Versammlung der Öffentlichkeit vorzustellen, wodurch Ihre Studie einer weniger strengen Prüfung unterzogen wird und Sie auch die erwartete Variabilität Ihrer Ergebnisse validieren können.
- Fallstricke während der Funktionsanalyse : Für die RNA-Seq-Analyse ist es üblich, RT-PCR für ein bestimmtes Gen zu verwenden, um das erwartete Expressionsniveau für dieses Gen zu ermitteln, was wiederum ein erfolgreiches RNA-Seq-Experiment ohne schattige PCR-Duplikationen validiert und Artefakte. Für diesen speziellen Teil würden Sie zuerst einen Primer erstellen, der das erwartete Expressionsniveau dieses Gens validiert. Aber diese spezielle Grundierung stammt von einer bestimmten Baugruppe. Es ist auch möglich, dass sich der verstärkte Bereich zwischen den Anordnungen verschoben oder verändert hat. Wenn Sie also Ihre Daten an einer anderen Baugruppe ausrichten als der, die zur Erstellung des Primers verwendet wurde, erhalten Sie möglicherweise ein unerwartetes Expressionsniveau für dieses Gen, da der ursprüngliche Primer eine falsche Region amplifiziert hat, die in der neueren Baugruppe behoben wurde.
Ich weiß, es gibt noch viele mehr. Aber das sind die einzigen, die mir im Moment einfallen.
James
AlexDeLarge
Sebastian Lobentanzer
James
Daniel Steh
James