Warum ist Referenzgenom eine Referenz?

Ich habe gehört, dass ein Referenzgenom wie beim Menschen durch zufällige Auswahl von Proben aus einer Gruppe von Spendern generiert wird. Aber warum bezeichnen wir die generierte DNA-Sequenz als Referenz? Warum sollten wir glauben, dass diese wenigen Proben alle Menschen repräsentieren können, an denen wir uns ausrichten müssen?

Gute Frage. Es ist eine Eigenart der Geschichte – die anfängliche Genomsequenzierungsarbeit war VIEL zu teuer und VIEL zu mühsam, um auch nur in Erwägung zu ziehen, mehrere Genome zu sequenzieren. Daher wurde ein anfängliches Genom (später erweitert auf ein paar Genome) als "Referenz" verwendet. Technologische Fortschritte bedeuten jedoch, dass wir heute Genome für weniger als 1000 US-Dollar an einem Tag sequenzieren können. Daher das Aufkommen von Dingen wie dem 1000-Genome-Projekt ( en.wikipedia.org/wiki/1000_Genomes_Project ).
Allerdings ist, wie die folgende Antwort zeigt, die Variation zwischen Menschen im Vergleich zu den allgemeinen Ähnlichkeiten winzig. Somit kann eine "Referenz" aus einer Stichprobe von einem oder wenigen erzeugt werden.

Antworten (3)

Der Hauptgrund liegt darin, dass die genetischen Unterschiede zwischen Individuen derselben Spezies winzig sind . Für die überwiegende Mehrheit der Studien können sie einfach ignoriert werden.

Unterschiede zwischen Individuen sind normalerweise (nicht immer, aber meistens) Unterschiede in den SNP-Genotypen. Dies sind einzelne Nukleotidunterschiede, die zwar phänotypische Auswirkungen haben können, die Fähigkeit von Sequenzen zur Ausrichtung jedoch nicht wirklich beeinträchtigen. Sequenzalignment-Software ist so konzipiert, dass sie mit solchen kleinen Unterschieden umgehen kann. Betrachten Sie zum Beispiel diese beiden zufälligen Sequenzen:

>seq1
ACCTTGCATCGGATCGAATTCGCGTTAGCGATCG
>seq2
GCCTAGCATCGGACCGAATTCCCGTTAGCAATCG

Wenn wir sie ausrichten, erhalten wir:

seq1            ACCTTGCATCGGATCGAATTCGCGTTAGCGATCG
seq2            GCCTAGCATCGGACCGAATTCCCGTTAGCAATCG
                 *** ******** ******* ******* ****

Wie Sie sehen können, lassen sich die beiden trotz der kleinen Unterschiede in der Reihenfolge sehr gut aufeinander abstimmen. Dasselbe gilt, wenn Sie sich reale Daten ansehen. Mein Hämoglobin-Gen zum Beispiel wird sowohl mit Ihrem als auch mit dem im Referenzgenom perfekt übereinstimmen. Tatsächlich sind sie mit ziemlicher Sicherheit identisch oder haben bestenfalls ein paar unterschiedliche Reste.

Wenn wir also Arbeiten verrichten, bei denen es nicht um die Untersuchung spezifischer Polymorphismen geht, brauchen wir ein repräsentatives Genom. Jeder wird es tun, es sei denn, er hat eine besonders schwerwiegende Mutation wie eine chromosomale Translokation.

Um eine Zahl zu nennen, die durchschnittliche Homologie zwischen menschlichen Genomen beträgt ca. 99,5 % . Wie @terdon beschrieben hat, ermöglicht diese relativ hohe Homologie (dh ~2.850.000.000 Basenpaare von den insgesamt 3.000.000.000 bp des menschlichen Genoms sind identisch) jede menschliche Sequenz an dieser sogenannten Referenz auszurichten. Dies gilt natürlich in dem Szenario ohne größere Chromosomentranslokation, die normalerweise zu Krankheiten führt.
@ vajra78 wird es wahrscheinlich nie wirklich. Diese Unterschiede sind für die meisten Studien irrelevant. Sie interessieren sich fast nie für einzelne Genotypen, es sei denn, es handelt sich um ein medizinisches Problem, das eine bestimmte Person betrifft. Der Punkt hier ist die Ausrichtung und das wird durch solche kleinen Änderungen nicht beeinflusst. Studien auf Artebene (mit Blick auf Evolution oder genetische Regulation usw.) müssen selten, wenn überhaupt, die Variation innerhalb der Art berücksichtigen.

Referenzgenome stellen den Satz von Genen einer einzelnen Person nicht genau dar. Es wird von Fragmenten verschiedener Spender erstellt, die, wenn sie zusammengesetzt sind, als Vorlage für die Erstellung des echten Genoms verwendet werden. Wir werden jedoch feststellen, dass alle Menschen zu 99,9 Prozent identisch sind und dass bei diesem winzigen Unterschied von 0,1 Prozent das Referenzgenom möglicherweise nicht zu 100 % mit dem echten Genom identisch ist. Jedes Referenzgenom kann erneut sequenziert werden, und die Lücken können jedes Mal verringert werden. Wir können einen Punkt erreichen, an dem wir sagen können, dass die Genauigkeit hoch genug ist, um als Referenzplattform für die Konstruktion des echten Genoms verwendet zu werden

Die gleiche Frage ging mir vor einem Monat durch den Kopf. Auch @terdon hat eine erklärende Antwort gegeben, ich möchte einen kleinen Beitrag leisten.

Als ich eine ähnliche Frage zu seqanswers * stellte, gab einer der Benutzer den Link der Studie Ashley Lab in Stanford. Sie erzeugten die " Synthetischen Hauptallel-Human-Referenzgenome ". (1)

Sie kombinierten die aktuelle Referenzsequenz (damals hg19) mit den 1000Genomes-Daten von Varianten mit hohen Allelfrequenzen. Diese Kombination erzeugt drei verschiedene Referenzgenome von drei menschlichen Populationen (YRI, CEU und CHBJPT).

Diese synthetischen Referenzsequenzen stellen die Varianten dar, die in dieser Population häufig vorkommen. Es ist möglich, diese Genome von ihrer Seite herunterzuladen .

Dewey FE, et. Al. (2011) Phased Whole-Genome Genetic Risk in a Family Quartett using a major allel reference sequence. PLoS-Genetik 7(9): e1002280. http://dx.doi.org/10.1371/journal.pgen.1002280