Zwei Chromosomensätze und die Sequenzierungsausgabe

Menschen haben zwei Chromosomensätze, die nicht in jeder Zelle verbunden sind. Hab ich recht?

Ich gehe davon aus, dass bei der DNA-Sequenzierung beide Sätze sequenziert und die Ausgabe in einer bestimmten Reihenfolge bereitgestellt werden muss - dh väterlicher Satz gefolgt von mütterlichem oder umgekehrt, obwohl es möglicherweise nicht möglich ist zu wissen, welcher väterlicher und welcher mütterlicher ist .

(Ich weiß, dass es verschiedene Arten von Sequenzierungstechniken gibt und die Ausgabe je nach Technik unterschiedlich sein kann. Hier spreche ich vom allgemeinen Fall). Ich habe versucht, diese Frage selbst zu klären. Aber vielleicht ist dies eine so grundlegende Sache, dass niemand diesen Aspekt zu berühren scheint.

Hinweis für Beobachter: vorherige Frage wie angegeben.
Für viele biologische Forschungsfragen ist es nicht wichtig zu wissen, ob die Sequenz vom väterlichen oder mütterlichen Chromosom stammt. - Allerdings gibt es - wie Sie schon sagten - unterschiedliche Ansätze, um die Sequenzen zu erhalten. Einige von ihnen würden es ermöglichen, verschiedene Chromosomen zu unterscheiden (siehe en.wikipedia.org/wiki/Contig ). In der Praxis: Wenn Sie wissen möchten, ob eine Variante eines Gens vom Vater oder der Mutter stammt, ist es einfacher / billiger, sie zu sequenzieren (oder einen anderen schnelleren / billigeren Test an ihnen durchzuführen).
Wenn eine Antwort auf eine Frage unklar ist, können Sie zwei Dinge tun: Entweder einen Kommentar schreiben oder Ihre Frage anpassen. Wenn Sie die Art von Haltung zeigen, die Sie haben, "Ich verstehe die aktuelle Antwort nicht und möchte dies nicht tun", ist dies tatsächlich eine Beleidigung gegenüber den Leuten, die Zeit investieren, um eine Antwort zu schreiben. Eigentlich nicht die beste Idee.
Ich glaube, die Frage läuft einfach darauf hinaus: Wie werden heterozygote Ergebnisse aus dem Sequenzalignment-Prozess gemeldet?

Antworten (1)

Dies ist Ihren vorherigen Fragen sehr ähnlich, aber anscheinend verstehen Sie die Erklärungen, die wir geben, nicht, also versuche ich es noch einmal, indem ich eine (hoffentlich nicht allzu technische) Erklärung dafür gebe, wie die Genomsequenzierung der nächsten Generation funktioniert. Um Verwirrung zu vermeiden, gehen wir davon aus, dass wir mit menschlichen Proben arbeiten.

Zuerst werden viele einzelne Zellen gesammelt (die Anzahl hängt von der Anwendung ab, sie kann von 1 Zelle bis zu Millionen oder mehr reichen) und ihre DNA wird gesammelt. Dieser Prozess zerstört die Zellen und alle Kopien aller Chromosomen werden miteinander vermischt. Wie in Ihrer anderen Frage erwähnt, gibt es keine Möglichkeit festzustellen, welche Chromosomensequenz mütterlich und welche väterlich ist . Wissenschaftler denken normalerweise nicht einmal darüber nach.

Als nächstes wird die gesammelte DNA-Probe gereinigt und in kleine Stücke zerlegt, dann an bestimmte Adapter ligiert, um sie für die Sequenzierungsreaktion zu markieren. Die Probe wird dann in einer Standard- PCR amplifiziert , um ein Vielfaches an Ausgangsmaterial als zuvor zu erzeugen. Das ist die DNA-Bibliothek.

Schließlich ist die Probe bereit für die Sequenzierung. Was genau als nächstes passiert, hängt davon ab, welchen Sequenzer Sie verwenden – Illumina, Ion Torrent, 454 oder SOLiD sind die am häufigsten verwendeten Instrumentenmarken. Innerhalb jeder Marke, Illumina zum Beispiel, gibt es mehrere verschiedene Arten der Sequenzierung.

Wir werden das alles jedoch beschönigen und gleich zur Ausgabe kommen – das Instrument erzeugt eine Datei, die aus „Reads“ der Reaktion besteht. Diese Reads sind DNA-Sequenzen, die aus As, Ts, Gs und Cs bestehen – den „Buchstaben“ (auch bekannt als „Basen“) der DNA. Die Längen der Reads variieren je nach Technologie und Instrument, im Allgemeinen im Bereich von 100 bis 700 Basen. Ein Gerät jedoch – das PacBio RS II – kann qualitativ hochwertige Reads mit bis zu 14.000 Basen erzeugen, obwohl es meines Wissens nicht weit verbreitet ist.

Hier kommen die Computer ins Spiel. Die einzelnen Reads überlappen sich in unterschiedlichem Maße, abhängig von der Qualität der Informationen, die Sie suchen, und davon, ob Sie nach seltenen Ereignissen suchen oder nicht, wie z. B. einer kleinen Population mutierter Zellen, die entnommen wurden ein heterogener Tumor. Für unsere Zwecke sagen wir, dass unser Sequenzierungslauf zu einer 25-fachen Überlappung führte, was bedeutet, dass jede Base in der ursprünglichen DNA-Sequenz des Probenspenders durchschnittlich 25 Mal sequenziert wurde. Die Computer können dann die Sequenzen „ausrichten“, entweder einfach untereinander, ohne Vorlage, oder, was häufiger vorkommt, an einer bereits bestehenden Sequenzvorlage, wie etwa einem Referenzgenom. Schließlich spuckt der Computer zwei Sequenzen aus - den Vorwärts- und den Rückwärtsstrang (obwohl Sie normalerweise nur einen Strang auswählen und den Rückwärtsstrang zur Fehlerprüfung verwenden würden). Diese Sequenz ist die durchschnittliche Sequenz des Chromosoms oder einer anderen DNA-Region, auf die abgezielt wird.

Aus Wikimedia Commons: Mapping Reads.png

Man kann jedoch ziemlich leicht Mutationen wie Einzelnukleotidpolymorphismen ( SNPs ), Deletionen, Insertionen usw. erkennen. Im Fall eines SNP (ausgesprochen "snip") hat ein Allel eines Gens eine Sequenz auf einem Chromosom (letz B. ATTC G TAAC), während ein anderes Allel eines Gens auf dem anderen Chromosom eine Einzelbasenänderung aufweist (z. B. ATTC T TAAC, bei dem das G in ein T geändert wurde ).

Der Punkt, der sich direkt auf Ihre Frage bezieht, ist folgender: Die endgültige Sequenz, die schließlich nach all dem Computergerangel herauskommt, ist eine einzelne Sequenz mit bestimmten Bereichen, die sich von Chromosom zu Chromosom oder von Zelle zu Zelle in der ursprünglichen Probe unterscheiden können. Es gibt keine Möglichkeit festzustellen, ob sich das G in unserem obigen Beispiel auf dem mütterlichen oder dem väterlichen Chromosom befand. Es gibt auch keine Möglichkeit zu sagen, ob 20.000 Basen weiter unten eine andere Mutation auf demselben Chromosom wie das G, da (derzeit) kein einzelner Lesevorgang diese gesamte Länge überspannen kann. Sie haben möglicherweise eine ziemlich gute Chance, dies festzustellen, wenn die andere Mutation beispielsweise 300 Basen entfernt ist, da viele Technologien länger qualitativ hochwertige Lesevorgänge durchführen können, sodass Sie nur die einzelnen finden müssen, die beide enthalten Positionen.

Ich weiß, das war etwas langatmig, aber ich hoffe, ich konnte deine Frage beantworten.

Matt, wenn der Typ es beim ersten Mal nicht verstanden hat, warum hast du dann beim zweiten Mal so eine lange und technische Antwort gegeben? Es würde genügen zu sagen, was in Ihrem letzten Absatz steht, zu dem er wahrscheinlich nie kommen wird. dh das Ergebnis ist eine Mischung beider Chromosomen, wir wissen also nur, ob die Sequenz an irgendeiner Stelle für beide gleich oder unterschiedlich ist. (Und wegen der Überquerung gibt es so etwas wie mütterlich oder väterlich nicht.)
@David Ich musste es versuchen - die Antworten auf die vorherige Frage waren nicht so toll, und obwohl das OP sagte, dass ihm die Details der Sequenzierung egal seien, dachte ich, dass es hilfreich wäre, tatsächlich zu erklären, wie die Sequenzierung allgemein funktioniert sie verstehen, warum es keine "Reihenfolge" gibt, bei der das Chromosom zuerst kommt. Und ich hatte etwas Freizeit, also war es keine so große Sache.
@David in Bezug auf das Überqueren: Das passiert während der Meiose im Elternteil, wenn Keimzellen gebildet werden. Die Eizelle ist ebenso wie das Sperma haploid, aber nachdem sie sich vereinigt haben, kreuzen sich die Chromosomen nicht erneut.
Hoppla. Zeigt, wie wenig ich von klassischer Biologie weiß.
@MattDMo Könnten Sie bitte den letzten Absatz Ihrer Antwort erläutern? Sie sagten (in Ihrem Beispiel), dass wir nicht feststellen können, dass sich das G in unserer Sequenz auf dem mütterlichen oder väterlichen Chromosom befindet. Werden nicht beide Allele auf den homologen Chromosomen sequenziert? Wenn ja, haben wir Sequenzen beider Chromosomen (sei es unterschieden oder nicht) in der endgültigen Sequenz? Ich kenne die komplizierten Details zu diesem Thema nicht, aber es kam mir in den Sinn, ob wir ein einzelnes Allel eines Gens in der endgültigen Sequenz oder beide Allele (im Falle von Diploid) haben oder nicht, und wie dies für beide geschieht Fälle?
@Ramil Alle DNA-Fragmente in der Probe werden (theoretisch) sequenziert, sodass beide Allele eines bestimmten Gens sequenziert werden, aber wenn wir nicht bereits die väterlichen und mütterlichen Sequenzen als Referenz haben, gibt es keine Möglichkeit zu wissen, ob das G stammt die Mutter oder der Vater. Der springende Punkt meiner Antwort (und des letzten vollständigen Absatzes) ist, dass das Endprodukt eine einzelne Sequenz ist, mit elektronischen "Zeigern", die auf Bereiche mit Heterozygotie hinweisen, wie z. B. den G→T - Unterschied. Wir können jedoch nicht sagen, auf welchem ​​ursprünglichen Chromosom sich das G gegenüber dem T befand .
@MattDMo Wenn beide Allele der Gene sequenziert sind, wie erhalten wir dann eine einzelne Sequenz für jedes Gen? Und die von Ihnen erwähnte Heterozygotie bezieht sich auf das Referenzgenom?
@Ramil Unterschiede zwischen Allelen sind im Allgemeinen sehr gering, wenn es um die DNA-Sequenz geht - vielleicht ein paar oder nur ein einziger Basenunterschied. Ich habe bereits erklärt, wie diese Unterschiede erkannt und in der endgültigen Sequenz gemeldet werden. Abhängig von der Leselänge des Instruments können Sie möglicherweise nicht zeigen, dass mehrere Unterschiede im selben Allel liegen – dafür benötigen Sie eine andere Technologie wie RNA-Seq. Ich habe den Begriff Heterozygotie verwendet, um den Unterschied zwischen den beiden Allelen zu bezeichnen, die möglicherweise in der Probe vorhanden sind.
@MattDMo Du meinst, der von dir erwähnte Vorwärts- und Rückwärtsstrang ergibt den Unterschied und die letzte Sequenz ist der Durchschnitt?
@Ramil Nein, der Vorwärts- und der Rückwärtsstrang haben nichts mit der Bestimmung von Variationen zwischen Allelen zu tun. Sie werden nur verwendet, um den Lesevorgängen mehr Vertrauen zu verleihen, da sie sich perfekt ergänzen. Die letzte Sequenz verwendet diesen Code , sodass in unserem Beispielfall die Basis als K (entweder G oder T ) gemeldet würde. Mit einem ausreichend hohen Vertrauen in diesen Ruf kann man davon ausgehen, dass sowohl G als auch T an diesem Ort vorhanden sind, was zwei Allele bedeutet. Sie können auch zu den ursprünglichen Messwerten zurückkehren und sehen, dass ~ 50 % G und 50 % T sind.
@MattDMo Ohh! Vielen Dank. Macht für mich jetzt Sinn.