Warum sollten wir den NA12878-Datensatz für Benchmarking verwenden?

Soweit ich weiß, bietet die menschliche Genomprobe namens NA12878 Varianten mit hoher Zuverlässigkeit für eine menschliche Probe. Es wird als Benchmark für viele Genomforschungsprojekte verwendet.

F: Warum genau ist der NA12878 ein so beliebter Benchmark-Datensatz? Nur weil wir eine Reihe von Varianten mit hohem Vertrauen haben? Aber wir können auch einige Varianten mit hohem Vertrauen aus dem 1000-Genom-Projekt erhalten. Hat das etwas mit der Sequenzierungstechnologie zu tun? Irgendetwas mit der Probe selbst zu tun? Warum wollen wir unsere Experimente mit NA12878 vergleichen?

Es wäre eine gute Idee, die von Ihnen verwendeten Abkürzungen zu erklären, damit andere sie auch verstehen können.
@Chris NA12878 ist der Name. Es ist keine Abkürzung von irgendetwas.
Dennoch könnte Ihre Antwort als unklar geschlossen werden.
@Chris Ich weiß, dass du ein Mod bist, aber ich bin anderer Meinung. NA12878 ist eine sehr bekannte menschliche Probe, die in vielen hochwertigen Papieren behandelt wird. Meine Frage ist, warum es ein guter Benchmarking-Datensatz ist.
Erstens: Das hat nichts damit zu tun, dass ich ein Mod bin. Dann: Es ist Fachleuten wohlbekannt, aber Fragen/Antworten hier sollten für sich stehen, ohne weitere Literatur zu lesen.
@Chris Ich bin immer noch anderer Meinung. Das ist so, als würde man DNA für alle Fragen im Zusammenhang mit Genetik erklären. Für die meisten Fragen auf dieser Website werden Vorkenntnisse vorausgesetzt und vorausgesetzt. Wie auch immer, ich habe in meinem ersten Satz eine kurze Einführung darüber gegeben, was NA12878 ist. Der Titel und die Frage könnten eine potenziell nützliche Ressource für jeden sein, der NA128278 googelt.
Nein ist es nicht. Ich arbeite täglich mit NA12878, also erkenne ich es zufällig, aber das bedeutet nicht, dass jeder, der Ihre Frage beantworten könnte, den Code auf Anhieb kennen würde. Ich arbeite jetzt seit fast 10 Jahren in der Genomik, wusste aber nicht, was NA12878 war, bis ich letztes Jahr mit dem Varianten-Calling begann. Genauer gesagt, wenn ein anderer Benutzer, geschweige denn ein Mod, vorschlägt, dass Ihre Frage klarer sein könnte, warum klären Sie nicht einfach, anstatt zu argumentieren? Offensichtlich scheint es Ihnen klar zu sein , aber ebenso offensichtlich ist es nicht jedem so klar.
@terdon Chris ist ein Mod, er hätte die Frage einfach schließen können, wenn er es wirklich für unangemessen hielt. Darüber hinaus wird ein Benutzer, der nicht weiß, was NA12878 ist, nicht in der Lage sein, davon zu profitieren. Die Frage wird NA12878-Benutzern zugute kommen, und wir wissen, dass es viele gibt. Ich habe NA12878 im allerersten Satz eingeführt. Ich frage, weil ich NA12878 nicht sehr gut verstehe. Ich kann nichts zusammenfassen, was ich nicht wirklich weiß. Was möchten Sie sonst noch?
Es geht nicht darum, zu schließen, sondern darum, die Frage verständlicher zu machen. Und niemand hat gesagt, dass es unangemessen ist. Das einzige, was hier unangemessen ist, ist Ihre Reaktion auf einen hilfreichen Vorschlag, der Ihnen sagt, wie Sie Ihre Frage verbessern und Ihre Chancen auf eine Antwort erhöhen können. Sie nahmen es als Kritik auf und fingen an zu argumentieren, als Sie nur einen Link bereitstellen mussten, wie ich es gerade getan habe. Auf diese Weise können die Leute darauf klicken und sehen, dass Sie sich auf eine DNA-Sequenzierungsprobe beziehen, und Informationen darüber nachschlagen.
@StudentT Es geht nicht ums Schließen, das hätte ich getan, wenn ich denke, dass ein Mod-Eingriff notwendig ist. Es geht um die Verbesserung der Fragestellung und Verständlichkeit, sonst nichts.
@StudentT springt hier rein - du solltest nicht anfangen zu schimpfen, aber sei froh, dass die Leute versuchen zu helfen. Auch verstehen, eine kleine Einführung ist immer schön. Auf dieser Seite geht es nicht nur um Sie, wissen Sie. Die besten Fragen sind für die gesamte Community relevant und interessant. Ein kurzer einleitender Satz zu NA12878 (was ist das, warum verwenden Sie es) kann für andere nützliche Informationen liefern, damit sie tatsächlich aus der Frage lernen können.
Dies könnte hilfreich sein: NA12878 ist Teil des Illumina Platinum Genomes-Datensatzes. illumina.com/platinumgenomes.html
@Chris, NA12878 ist ein „bekanntes“ Referenzgenom in der Welt der Varianten-/Strukturgenomik. Die Frage ist wirklich, was dieser bestimmte Standard jedem anderen vorgezogen hat und gültig ist. Der Name ist aber der Name.
@Artem Toll. Warum ist es dann so kompliziert, diese Informationen zur Frage hinzuzufügen?

Antworten (1)

Um es für Leute, die mit NA12878 nicht vertraut sind, klarzustellen, das ist die Probenidentifikation für eine bestimmte Frau aus Utah. Ihre Eltern sind NA12891 und NA12892. In menschlichen Variationsdatensätzen wird uns das gegeben, um Individuen, eine ID, Geschlecht und Population zu identifizieren. Alle anderen Daten werden entfernt, um die Privatsphäre des Patienten zu schützen. Die Frage ist also, warum NA12878 (diese Frau aus Utah) als Referenzpatientin in der Genomanalyse ausgewählt wurde...

Ich kenne die wirklich praktische Antwort nicht, aber soweit ich weiß, ist es Trägheit.

Ich habe keine vollständige Geschichte von ihr, aber ich weiß einiges, was ihr Genom zu einer guten Wahl für einen Benchmark macht. NA12878 ist für Genetiker ziemlich alt und ihre DNA ist in mehreren Legacy-Projekten enthalten, insbesondere HapMap.

Sie hat eine genetische Krankheit ( CYP2D6 -Mutation), die wahrscheinlich ursprünglich ihre genetische Analyse und die ihrer Familie umfasste. Dies ist ein besserer Grund, dieses Genom im Detail zu studieren, anstatt es einfach jemand Berühmtes (dh Venter) zu sein.

Sie ist Mormonin aus Utah (kleine Gründerpopulation mit umfangreichen Stammbauminformationen), hat 11 Kinder (kann Rekombinations-/Vererbungsanalysen durchführen). Das bedeutet, dass ein tiefes Verständnis ihres Genoms Anwendung auf diese Population haben wird.

Ihre lymphoblastoide Zelllinie GM12878 wurde als Tier-1-ENCODE-Zelle der Studie aufgenommen. Das bedeutet, dass es auch für sie Terabytes an epignomischen Daten gibt.

Wenn ich mich für eine Humangenomanalyse entscheide, ist NA12878 die offensichtliche Wahl, da bereits viele Daten verfügbar sind, was auch bedeutet, dass noch mehr Daten verfügbar sein werden. Daher denke ich, dass die Antwort größtenteils Trägheit ist.

Betrachten Sie es auch so: Wenn Sie versuchen zu sagen, dass Ihre Pipeline- oder Sequenzierungstechnologie besser ist als andere, und jeder NA12878 verwendet, um seine Technologie zu bewerten, dann ist es ratsam, auch NA12878 zu verwenden, damit die Ergebnisse vergleichbar sind.