Menschen haben zwei Chromosomensätze, die nicht in jeder Zelle verbunden sind. Hab ich recht?
Ich gehe davon aus, dass bei der DNA-Sequenzierung beide Sätze sequenziert und die Ausgabe in einer bestimmten Reihenfolge bereitgestellt werden muss - dh väterlicher Satz gefolgt von mütterlichem oder umgekehrt, obwohl es möglicherweise nicht möglich ist zu wissen, welcher väterlicher und welcher mütterlicher ist .
(Ich weiß, dass es verschiedene Arten von Sequenzierungstechniken gibt und die Ausgabe je nach Technik unterschiedlich sein kann. Hier spreche ich vom allgemeinen Fall). Ich habe versucht, diese Frage selbst zu klären. Aber vielleicht ist dies eine so grundlegende Sache, dass niemand diesen Aspekt zu berühren scheint.
Dies ist Ihren vorherigen Fragen sehr ähnlich, aber anscheinend verstehen Sie die Erklärungen, die wir geben, nicht, also versuche ich es noch einmal, indem ich eine (hoffentlich nicht allzu technische) Erklärung dafür gebe, wie die Genomsequenzierung der nächsten Generation funktioniert. Um Verwirrung zu vermeiden, gehen wir davon aus, dass wir mit menschlichen Proben arbeiten.
Zuerst werden viele einzelne Zellen gesammelt (die Anzahl hängt von der Anwendung ab, sie kann von 1 Zelle bis zu Millionen oder mehr reichen) und ihre DNA wird gesammelt. Dieser Prozess zerstört die Zellen und alle Kopien aller Chromosomen werden miteinander vermischt. Wie in Ihrer anderen Frage erwähnt, gibt es keine Möglichkeit festzustellen, welche Chromosomensequenz mütterlich und welche väterlich ist . Wissenschaftler denken normalerweise nicht einmal darüber nach.
Als nächstes wird die gesammelte DNA-Probe gereinigt und in kleine Stücke zerlegt, dann an bestimmte Adapter ligiert, um sie für die Sequenzierungsreaktion zu markieren. Die Probe wird dann in einer Standard- PCR amplifiziert , um ein Vielfaches an Ausgangsmaterial als zuvor zu erzeugen. Das ist die DNA-Bibliothek.
Schließlich ist die Probe bereit für die Sequenzierung. Was genau als nächstes passiert, hängt davon ab, welchen Sequenzer Sie verwenden – Illumina, Ion Torrent, 454 oder SOLiD sind die am häufigsten verwendeten Instrumentenmarken. Innerhalb jeder Marke, Illumina zum Beispiel, gibt es mehrere verschiedene Arten der Sequenzierung.
Wir werden das alles jedoch beschönigen und gleich zur Ausgabe kommen – das Instrument erzeugt eine Datei, die aus „Reads“ der Reaktion besteht. Diese Reads sind DNA-Sequenzen, die aus As, Ts, Gs und Cs bestehen – den „Buchstaben“ (auch bekannt als „Basen“) der DNA. Die Längen der Reads variieren je nach Technologie und Instrument, im Allgemeinen im Bereich von 100 bis 700 Basen. Ein Gerät jedoch – das PacBio RS II – kann qualitativ hochwertige Reads mit bis zu 14.000 Basen erzeugen, obwohl es meines Wissens nicht weit verbreitet ist.
Hier kommen die Computer ins Spiel. Die einzelnen Reads überlappen sich in unterschiedlichem Maße, abhängig von der Qualität der Informationen, die Sie suchen, und davon, ob Sie nach seltenen Ereignissen suchen oder nicht, wie z. B. einer kleinen Population mutierter Zellen, die entnommen wurden ein heterogener Tumor. Für unsere Zwecke sagen wir, dass unser Sequenzierungslauf zu einer 25-fachen Überlappung führte, was bedeutet, dass jede Base in der ursprünglichen DNA-Sequenz des Probenspenders durchschnittlich 25 Mal sequenziert wurde. Die Computer können dann die Sequenzen „ausrichten“, entweder einfach untereinander, ohne Vorlage, oder, was häufiger vorkommt, an einer bereits bestehenden Sequenzvorlage, wie etwa einem Referenzgenom. Schließlich spuckt der Computer zwei Sequenzen aus - den Vorwärts- und den Rückwärtsstrang (obwohl Sie normalerweise nur einen Strang auswählen und den Rückwärtsstrang zur Fehlerprüfung verwenden würden). Diese Sequenz ist die durchschnittliche Sequenz des Chromosoms oder einer anderen DNA-Region, auf die abgezielt wird.
Aus Wikimedia Commons: Mapping Reads.png
Man kann jedoch ziemlich leicht Mutationen wie Einzelnukleotidpolymorphismen ( SNPs ), Deletionen, Insertionen usw. erkennen. Im Fall eines SNP (ausgesprochen "snip") hat ein Allel eines Gens eine Sequenz auf einem Chromosom (letz B. ATTC G TAAC), während ein anderes Allel eines Gens auf dem anderen Chromosom eine Einzelbasenänderung aufweist (z. B. ATTC T TAAC, bei dem das G in ein T geändert wurde ).
Der Punkt, der sich direkt auf Ihre Frage bezieht, ist folgender: Die endgültige Sequenz, die schließlich nach all dem Computergerangel herauskommt, ist eine einzelne Sequenz mit bestimmten Bereichen, die sich von Chromosom zu Chromosom oder von Zelle zu Zelle in der ursprünglichen Probe unterscheiden können. Es gibt keine Möglichkeit festzustellen, ob sich das G in unserem obigen Beispiel auf dem mütterlichen oder dem väterlichen Chromosom befand. Es gibt auch keine Möglichkeit zu sagen, ob 20.000 Basen weiter unten eine andere Mutation auf demselben Chromosom wie das G, da (derzeit) kein einzelner Lesevorgang diese gesamte Länge überspannen kann. Sie haben möglicherweise eine ziemlich gute Chance, dies festzustellen, wenn die andere Mutation beispielsweise 300 Basen entfernt ist, da viele Technologien länger qualitativ hochwertige Lesevorgänge durchführen können, sodass Sie nur die einzelnen finden müssen, die beide enthalten Positionen.
Ich weiß, das war etwas langatmig, aber ich hoffe, ich konnte deine Frage beantworten.
MattDMo
tsttst
Chris
mgkrebbs