Soweit ich weiß, bietet die menschliche Genomprobe namens NA12878 Varianten mit hoher Zuverlässigkeit für eine menschliche Probe. Es wird als Benchmark für viele Genomforschungsprojekte verwendet.
F: Warum genau ist der NA12878 ein so beliebter Benchmark-Datensatz? Nur weil wir eine Reihe von Varianten mit hohem Vertrauen haben? Aber wir können auch einige Varianten mit hohem Vertrauen aus dem 1000-Genom-Projekt erhalten. Hat das etwas mit der Sequenzierungstechnologie zu tun? Irgendetwas mit der Probe selbst zu tun? Warum wollen wir unsere Experimente mit NA12878 vergleichen?
Um es für Leute, die mit NA12878 nicht vertraut sind, klarzustellen, das ist die Probenidentifikation für eine bestimmte Frau aus Utah. Ihre Eltern sind NA12891 und NA12892. In menschlichen Variationsdatensätzen wird uns das gegeben, um Individuen, eine ID, Geschlecht und Population zu identifizieren. Alle anderen Daten werden entfernt, um die Privatsphäre des Patienten zu schützen. Die Frage ist also, warum NA12878 (diese Frau aus Utah) als Referenzpatientin in der Genomanalyse ausgewählt wurde...
Ich kenne die wirklich praktische Antwort nicht, aber soweit ich weiß, ist es Trägheit.
Ich habe keine vollständige Geschichte von ihr, aber ich weiß einiges, was ihr Genom zu einer guten Wahl für einen Benchmark macht. NA12878 ist für Genetiker ziemlich alt und ihre DNA ist in mehreren Legacy-Projekten enthalten, insbesondere HapMap.
Sie hat eine genetische Krankheit ( CYP2D6 -Mutation), die wahrscheinlich ursprünglich ihre genetische Analyse und die ihrer Familie umfasste. Dies ist ein besserer Grund, dieses Genom im Detail zu studieren, anstatt es einfach jemand Berühmtes (dh Venter) zu sein.
Sie ist Mormonin aus Utah (kleine Gründerpopulation mit umfangreichen Stammbauminformationen), hat 11 Kinder (kann Rekombinations-/Vererbungsanalysen durchführen). Das bedeutet, dass ein tiefes Verständnis ihres Genoms Anwendung auf diese Population haben wird.
Ihre lymphoblastoide Zelllinie GM12878 wurde als Tier-1-ENCODE-Zelle der Studie aufgenommen. Das bedeutet, dass es auch für sie Terabytes an epignomischen Daten gibt.
Wenn ich mich für eine Humangenomanalyse entscheide, ist NA12878 die offensichtliche Wahl, da bereits viele Daten verfügbar sind, was auch bedeutet, dass noch mehr Daten verfügbar sein werden. Daher denke ich, dass die Antwort größtenteils Trägheit ist.
Betrachten Sie es auch so: Wenn Sie versuchen zu sagen, dass Ihre Pipeline- oder Sequenzierungstechnologie besser ist als andere, und jeder NA12878 verwendet, um seine Technologie zu bewerten, dann ist es ratsam, auch NA12878 zu verwenden, damit die Ergebnisse vergleichbar sind.
Chris
Kleines Schach
Chris
Kleines Schach
Chris
Kleines Schach
Terdon
Kleines Schach
Terdon
Chris
AliceD
Ram RS
Artem
Chris