Ich habe gehört, dass ein Referenzgenom wie beim Menschen durch zufällige Auswahl von Proben aus einer Gruppe von Spendern generiert wird. Aber warum bezeichnen wir die generierte DNA-Sequenz als Referenz? Warum sollten wir glauben, dass diese wenigen Proben alle Menschen repräsentieren können, an denen wir uns ausrichten müssen?
Der Hauptgrund liegt darin, dass die genetischen Unterschiede zwischen Individuen derselben Spezies winzig sind . Für die überwiegende Mehrheit der Studien können sie einfach ignoriert werden.
Unterschiede zwischen Individuen sind normalerweise (nicht immer, aber meistens) Unterschiede in den SNP-Genotypen. Dies sind einzelne Nukleotidunterschiede, die zwar phänotypische Auswirkungen haben können, die Fähigkeit von Sequenzen zur Ausrichtung jedoch nicht wirklich beeinträchtigen. Sequenzalignment-Software ist so konzipiert, dass sie mit solchen kleinen Unterschieden umgehen kann. Betrachten Sie zum Beispiel diese beiden zufälligen Sequenzen:
>seq1
ACCTTGCATCGGATCGAATTCGCGTTAGCGATCG
>seq2
GCCTAGCATCGGACCGAATTCCCGTTAGCAATCG
Wenn wir sie ausrichten, erhalten wir:
seq1 ACCTTGCATCGGATCGAATTCGCGTTAGCGATCG
seq2 GCCTAGCATCGGACCGAATTCCCGTTAGCAATCG
*** ******** ******* ******* ****
Wie Sie sehen können, lassen sich die beiden trotz der kleinen Unterschiede in der Reihenfolge sehr gut aufeinander abstimmen. Dasselbe gilt, wenn Sie sich reale Daten ansehen. Mein Hämoglobin-Gen zum Beispiel wird sowohl mit Ihrem als auch mit dem im Referenzgenom perfekt übereinstimmen. Tatsächlich sind sie mit ziemlicher Sicherheit identisch oder haben bestenfalls ein paar unterschiedliche Reste.
Wenn wir also Arbeiten verrichten, bei denen es nicht um die Untersuchung spezifischer Polymorphismen geht, brauchen wir ein repräsentatives Genom. Jeder wird es tun, es sei denn, er hat eine besonders schwerwiegende Mutation wie eine chromosomale Translokation.
Referenzgenome stellen den Satz von Genen einer einzelnen Person nicht genau dar. Es wird von Fragmenten verschiedener Spender erstellt, die, wenn sie zusammengesetzt sind, als Vorlage für die Erstellung des echten Genoms verwendet werden. Wir werden jedoch feststellen, dass alle Menschen zu 99,9 Prozent identisch sind und dass bei diesem winzigen Unterschied von 0,1 Prozent das Referenzgenom möglicherweise nicht zu 100 % mit dem echten Genom identisch ist. Jedes Referenzgenom kann erneut sequenziert werden, und die Lücken können jedes Mal verringert werden. Wir können einen Punkt erreichen, an dem wir sagen können, dass die Genauigkeit hoch genug ist, um als Referenzplattform für die Konstruktion des echten Genoms verwendet zu werden
Die gleiche Frage ging mir vor einem Monat durch den Kopf. Auch @terdon hat eine erklärende Antwort gegeben, ich möchte einen kleinen Beitrag leisten.
Als ich eine ähnliche Frage zu seqanswers * stellte, gab einer der Benutzer den Link der Studie Ashley Lab in Stanford. Sie erzeugten die " Synthetischen Hauptallel-Human-Referenzgenome ". (1)
Sie kombinierten die aktuelle Referenzsequenz (damals hg19) mit den 1000Genomes-Daten von Varianten mit hohen Allelfrequenzen. Diese Kombination erzeugt drei verschiedene Referenzgenome von drei menschlichen Populationen (YRI, CEU und CHBJPT).
Diese synthetischen Referenzsequenzen stellen die Varianten dar, die in dieser Population häufig vorkommen. Es ist möglich, diese Genome von ihrer Seite herunterzuladen .
Dewey FE, et. Al. (2011) Phased Whole-Genome Genetic Risk in a Family Quartett using a major allel reference sequence. PLoS-Genetik 7(9): e1002280. http://dx.doi.org/10.1371/journal.pgen.1002280
Cantonas Kragen
Cantonas Kragen