Wofür genau werden Computer bei der DNA-Sequenzierung verwendet?

Ich habe den Wikipedia-Artikel zur DNA-Sequenzierung gründlich gelesen und kann nichts verstehen.

Es gibt einige Hardcore-Chemie, die an dem Prozess beteiligt ist, der die DNA irgendwie spaltet und dann ihre Teile isoliert.

Dennoch gilt die DNA-Sequenzierung als sehr rechenintensiver Prozess . Ich verstehe nicht, was genau dort berechnet wird - welche Daten in Computer eingehen und welche Computer speziell rechnen.

Was genau wird da berechnet? Wo erhalte ich weitere Informationen dazu?

Dieser Artikel geht durch Berechnungsprozesse, die beim Ausrichten von Fragmenten beteiligt sind
@jonsca: Das sieht so aus, als hätten wir bereits "Strings", die die DNA darstellen, aber wie bekommen wir diese Strings?
Dabei ist nicht die Sequenzierung selbst besonders rechenintensiv, sondern das Zusammenfügen der sequenzierten Fragmente zu fortlaufender DNA. Außerdem wird selbst eine rechnerisch triviale Aufgabe Zeit brauchen, wenn sie Milliarden und Abermilliarden Mal wiederholt wird. Um eine qualitativ anständige Sequenz zu erhalten, muss man die DNA mehrmals sequenzieren (20+). Wenn Sie ein Genom haben, das 3 Milliarden Basen lang ist...
Das ist eine sehr gute Frage. Ist die Berechnung einfacher, wenn Sie 300.000.000 Reads mit einer Länge von 100 bp oder 60.000.000 Reads mit einer Länge von 500 bp haben?
@leonardo Das ist einfach, im zweiten Fall hat man nicht nur weniger Reads (gut), sondern auch längere (ebenfalls gut). Auch wenn eine zunehmende Leselänge die Rechenzeit erhöht, erhöht sie auch die Qualität des Ergebnisses. Im „schlimmsten“ Fall könnten Sie diese Reads einfach als bereits erstellte Contigs mehrerer kleinerer überlappender Reads betrachten.
@KonradRudolph - in diesem Fall beschleunigen die weniger, aber längeren Lesevorgänge die Rechenzeit?
@Leonardo Ja. Der Extremfall, ein Read, der das gesamte Genom umfasst. Sehen Sie das Muster? ;-)

Antworten (4)

Computer werden in mehreren Schritten der Sequenzierung verwendet, von den Rohdaten bis zur fertigen Sequenz:

Bildverarbeitung

Moderne Sequenzer verwenden normalerweise die Fluoreszenzmarkierung von DNA-Fragmenten in Lösung. Die Fluoreszenz codiert die verschiedenen Nukleobasen (= „Basen“)-Typen (allgemein als A, C, G und T bezeichnet). Um einen hohen Durchsatz zu erreichen, werden Millionen von Sequenzierungsreaktionen parallel in mikroskopischen Mengen auf einem Glaschip durchgeführt, und für jede Mikroreaktion muss die Markierung bei jedem Reaktionsschritt aufgezeichnet werden.

Das bedeutet: Der Sequenzer nimmt fortlaufend digitale Fotos des Chips auf, der das Sequenzierreagenz enthält. Diese Fotos haben verschiedenfarbige Pixel, die auseinandergehalten und einem bestimmten Farbwert zugeordnet werden müssen.

Digitales Bild eines Sequenzierchips

Wie zu sehen ist, ist dieses (stark vergrößerte; das Bild hat einen Durchmesser von < 100 µm!) Bildfragment unscharf und viele der Punkte überlappen sich. Dadurch ist es schwierig zu bestimmen, welche Farbe welchem ​​Pixel zugeordnet werden soll (obwohl neuere Versionen der Sequenziermaschine verbesserte Fokussierungssysteme haben und das Bild folglich schärfer ist).

Basisruf

Ein solches Bild wird für jeden Schritt des Sequenzierungsprozesses registriert, was ein Bild für jede Base der Fragmente ergibt. Bei einem Fragment der Länge 75 wären das 75 Bilder.

Nachdem Sie die Bilder analysiert haben, erhalten Sie Farbspektren für jedes Pixel in den Bildern. Die Spektren für jedes Pixel entsprechen einem Sequenzfragment (oft als „Read“ bezeichnet) und werden separat betrachtet. Für jedes Fragment erhält man also ein solches Spektrum:

Sequenzspurspektrum

(Dieses Bild wird durch einen alternativen Sequenzierungsprozess namens Sanger-Sequenzierung erzeugt , aber das Prinzip ist dasselbe.)

Jetzt müssen Sie anhand des Signals entscheiden, welche Basis Sie jeder Position zuweisen möchten („Base Calling“). Für die meisten Positionen ist dies ziemlich einfach, aber manchmal überlappt oder klingt das Signal erheblich ab. Dies muss bei der Entscheidung über die Anrufqualität der Basis berücksichtigt werden (dh welches Vertrauen Sie Ihrer Entscheidung für eine bestimmte Basis beimessen).

Wenn Sie dies für jeden Read tun, erhalten Sie bis zu Milliarden von Reads, von denen jeder ein kurzes Fragment der ursprünglichen DNA darstellt, die Sie sequenziert haben.

Die meisten bioinformatischen Analysen beginnen hier; Das heißt, die Maschinen geben Dateien aus, die die kurzen Sequenzfragmente enthalten . Jetzt müssen wir daraus eine Sequenz machen.

Lesen Sie Mapping und Montage

Der Schlüsselpunkt, der es ermöglicht, die ursprüngliche Sequenz aus diesen kleinen Fragmenten abzurufen, ist die Tatsache, dass diese Fragmente (ungleichmäßig) zufällig über das Genom verteilt sind und sich überlappen .

Der nächste Schritt hängt davon ab, ob Sie ein ähnliches, bereits sequenziertes Genom zur Hand haben. Oft ist dies der Fall. Zum Beispiel gibt es eine hochwertige „Referenzsequenz“ des menschlichen Genoms, und da alle Genomsequenzen aller Menschen zu ~99,9 % identisch sind (je nachdem, wie Sie zählen), können Sie einfach nachsehen, wo sich Ihre Reads an der Referenz ausrichten .

Zuordnung lesen

Dies geschieht, um nach einzelnen Veränderungen zwischen der Referenz und Ihrem aktuell untersuchten Genom zu suchen, beispielsweise um Mutationen zu erkennen, die zu Krankheiten führen.

Alles, was Sie tun müssen, ist, die Reads zurück zu ihrem ursprünglichen Ort im Referenzgenom (in blau) zu kartieren und nach Unterschieden zu suchen (z. B. Basenpaarunterschiede, Insertionen, Deletionen, Inversionen …).

Zugeordnete Lesevorgänge

Zwei Punkte erschweren dies:

  1. Sie haben Milliarden (!) von Reads und das Referenzgenom ist oft mehrere Gigabyte groß. Selbst mit der denkbar schnellsten Implementierung der Zeichenfolgensuche würde dies unerschwinglich lange dauern.

  2. Die Saiten passen nicht genau. Zunächst einmal gibt es natürlich Unterschiede zwischen den Genomen – sonst würde man die Daten gar nicht sequenzieren, man hätte sie schon! Die meisten dieser Unterschiede sind einzelne Basenpaarunterschiede – SNPs (= Single Nucleotide Polymorphisms) – aber es gibt auch größere Variationen, die viel schwieriger zu handhaben sind (und sie werden in diesem Schritt oft ignoriert).

    Außerdem sind die Sequenzierungsmaschinen nicht perfekt. Vieles beeinflusst die Qualität, allen voran die Qualität der Probenvorbereitung und kleinste Unterschiede in der Chemie. All dies führt zu Fehlern bei den Lesevorgängen.

Zusammenfassend müssen Sie die Position von Milliarden kleiner Zeichenfolgen in einer größeren Zeichenfolge finden, die mehrere Gigabyte groß ist. All diese Daten passen nicht einmal in den Arbeitsspeicher eines normalen Computers. Und Sie müssen Diskrepanzen zwischen den Reads und dem Genom berücksichtigen.

Leider liefert dies immer noch nicht das vollständige Genom. Der Hauptgrund ist, dass einige Regionen des Genoms sehr repetitiv und schlecht konserviert sind, sodass es unmöglich ist, Lesevorgänge eindeutig solchen Regionen zuzuordnen.

Infolgedessen erhalten Sie stattdessen eindeutige, zusammenhängende Blöcke („Contigs“) von gemappten Reads. Jedes Contig ist ein Sequenzfragment, wie Reads, aber viel größer (und hoffentlich mit weniger Fehlern).

Montage

Manchmal möchten Sie einen neuen Organismus sequenzieren, sodass Sie keine Referenzsequenz zur Zuordnung haben. Stattdessen müssen Sie eine De-novo-Montage durchführen . Eine Assembly kann auch verwendet werden, um Contigs aus gemappten Reads zusammenzufügen (aber es werden andere Algorithmen verwendet).

Auch hier nutzen wir die Eigenschaft der Reads, dass sie sich überlappen. Wenn Sie zwei Fragmente finden, die so aussehen:

ACGTCGATCGCTAGCCGCATCAGCAAACAACACGCTACAGCCT
ATCCCCAAACAACACGCTACAGCCTGGCGGGGCATAGCACTGG

Sie können ziemlich sicher sein, dass sie sich im Genom so überschneiden:

ACGTCGATCGCTAGCCGCATCAGCAAACAACACGCTACAGCCT
                  ATCCCCATTCAACACGCTA-AGCTTGGCGGGGCATACGCACTG

(Beachten Sie erneut, dass dies keine perfekte Übereinstimmung ist.)

Anstatt also nach allen Reads in einer Referenzsequenzierung zu suchen, suchen Sie jetzt nach Kopf-an-Schwanz-Korrespondenzen zwischen Reads in Ihrer Sammlung von Milliarden von Reads.

Wenn Sie die Zuordnung eines Reads mit der Suche nach einer Nadel im Heuhaufen vergleichen (eine häufig verwendete Analogie), dann ist das Zusammenstellen von Reads vergleichbar mit dem Vergleich aller Strohhalme im Heuhaufen und dem Ordnen ihrer Ähnlichkeit.

Denken Sie so darüber nach. Angenommen, Sie besitzen hundert Exemplare von „Der Herr der Ringe“, einem Roman mit 500.000 Wörtern. Leider haben Sie diese hundert Exemplare in Form von mehreren Millionen winziger Papierschnipsel, die jeweils etwa zehn aufeinanderfolgende Wörter aus dem Roman enthalten. Ihre Aufgabe ist es, diese mehreren Millionen Papierfetzen zu nehmen und sie so zu ordnen, dass Sie den Roman von Anfang bis Ende lesen können. Angenommen, Sie finden das Fragment

stab that vile creature, when he had a chance!" "Pity? 

Sie könnten dann die anderen mehreren Millionen Fragmente nach einem Fragment durchsuchen, das dieses in irgendeiner Weise überlappt. Vielleicht finden Sie

chance!" "Pity? It was Pity that stayed his hand. Pity, and Mercy: 

Die Chancen stehen sehr gut, dass diese Fragmente zusammenpassen

stab that vile creature, when he had a chance!" 
"Pity? It was Pity that stayed his hand. Pity, and Mercy: 

Aber vielleicht nicht! Vielleicht gibt es entweder (1) ein anderes Fragment des Romans, chance!" "Pity?das die richtige Überschneidung hat, oder oh, übrigens, habe ich erwähnt, (2) einige dieser Papierschnipsel enthalten Fehler, und Sie müssen sie auch erkennen und beseitigen .

Das ist eine extrem rechenintensive Arbeit. DNA-Assembler haben das gleiche Problem: Millionen und Abermillionen winziger DNA-Schnipsel, die sich überlappen, die möglicherweise Fehler enthalten und die in eine Reihenfolge gebracht werden müssen, indem ihre Überlappungen analysiert und nach und nach kurze Fragmente in immer längere Fragmente aufgebaut werden.

Gute Analogie, aber ich würde sagen, DNA-Assembler haben das gleiche Problem , nicht Sequenzer.
@DanielStandage: Danke – ich bin ein Computertyp, kein Biologietyp. :-)
@DanielStandage: Wäre es richtig, das Wort „Sequenzierung“ in meiner Frage und in den Diagrammen auf der genome.gov-Seite, auf die ich verlinke, durch „Zusammenbau“ zu ersetzen?
@sharptooth Ich bin mir nicht sicher, ob Sie das Wort "Sequenzierung" in der Frage durch das Wort "Montage" ersetzen möchten . Die Antwort auf Ihre Frage lautet, dass Sequenzierung und Assemblierung eng miteinander verbunden sind und die Assemblierung der Teil ist, der eine erhebliche Rechenleistung erfordert.

In einem Genom gibt es normalerweise Milliarden von Basenpaaren. Es ist jedoch unmöglich, sie alle auf einmal zu lesen. Die DNA wird fragmentiert und die Sequenz der Fragmente bestimmt. Sequenzierungstechniken der nächsten Generation sind schneller und billiger, produzieren aber nur kurze Fragmente (z. B. 100 Basenpaare, dies hängt von der Technologie ab). Es ist extrem rechenintensiv, diese Fragmente wieder zusammenzusetzen.

Weitere Informationen: Genomsequenz-Zusammenbau-Primer ; Einführung in Naturmethoden

Wie Sie in der Frage erwähnt haben, spalten aktuelle Sequenzierungsplattformen die genomische DNA in viele kleine Stücke, die die Maschine dann analysiert. Das Ergebnis eines Sequenzierungsexperiments sind Millionen oder sogar Milliarden kurzer „Reads“ – Zeichenfolgen von A, C, G und T, die die Nukleotide eines einzelnen DNA-Fragments darstellen.

Die DNA-Lesungen in dieser Form sind nicht besonders nützlich. Die Idee war zunächst, die Sequenz des gesamten DNA-Moleküls zu bestimmen. Hier kommt die Genomassemblierungssoftware ins Spiel, um die ursprüngliche Sequenz der genomischen DNA zu bestimmen, indem die optimale Anordnung überlappender Reads gefunden wird, um die ursprüngliche DNA-Sequenz zu rekonstruieren.

Computer sind in zwei Phasen dieses Prozesses von entscheidender Bedeutung: Erstens muss die Plattform im Sequenzierungsexperiment selbst Fluoreszenzsignale aufzeichnen und interpretieren, um überhaupt die Sequenz-Reads zu generieren; und zweitens werden sehr leistungsstarke Computer benötigt, um die Reads wieder zu einer zusammenhängenden Sequenz zusammenzusetzen, um die ursprüngliche DNA-Sequenz wiederherzustellen.