Warum ist die Zusammenstellung von Paarendleuchten ohne Eingabeparameter ein wichtiges Problem?

In einem der Kommentare zu dieser Frage zum multiplen Sequenzalignment wurde angegeben

@5heikki: Übrigens, wenn Sie ein gutes Bioinformatikproblem haben möchten, denken Sie sich einen Assembler aus, der jeden Paired-End-Illumina-Lauf optimal de novo ohne Eingabeparameter zusammenstellt.

Was ist eine Paired End Illumina? Wie ist in diesem Zusammenhang optimal definiert? Was sind die üblichen Eingabeparameter?

Antworten (2)

Die Sequenzierer der nächsten Generation können einen sehr langen DNA-Abschnitt nicht mit guter Zuverlässigkeit sequenzieren (~150 für das neuere Modell HiSeq2000; noch weniger für ältere Modelle wie GA (40), GA-II (70), GA-IIx (90 )). Um das Vertrauen in einen bestimmten Treffer zu erhöhen, wurde dieser von beiden Enden sequenziert. Wenn Sie beispielsweise ein 500-bp-DNA-Fragment ausgewählt haben, wird es nach dem Ligieren von Adaptern an beide Enden von beiden Richtungen bis zu 150 bp sequenziert. Dies würde eine nicht sequenzierte "Einfügungs"-Region von 200 bp hinterlassen. (Im Beispielbild unten haben sie bis zu 40 bp sequenziert [Fall des alten GA])


Geben Sie hier die Bildbeschreibung ein


Während des Zusammenbaus nähen Sie die DNA-Fragmente zusammen, um die größere DNA herauszufinden, aus der die Fragmente entstehen. Im Fall von RNAseq entstehen diese aus einem Transkript, und Ihre Assemblierung sollte Ihnen das vollständige Transkript (mRNA oder ncRNA usw.) liefern. Es gibt zwei grundlegende Montagearten: referenzgeführte Montage und De-novo-Montage. Bei ersterem verwenden Sie eine Sequenz wie das Genom als Referenz, um die Transkripte zusammenzusetzen. Wenn eine solche Referenz nicht verfügbar ist, müssen Sie sich für eine De-novo-Montage entscheiden.

Die Assemblierungsalgorithmen verwenden mehrere Parameter, und da es sich um Computeralgorithmen handelt und nicht um irgendeine Art von Magie, hängt ihre Ausgabe in gewissem Maße von den verschiedenen Parametern ab.

Im Fall von Paired-End-Daten gibt es einige Parameter, die wichtig sind. Am wichtigsten ist die Größe des Einsatzes. Im Falle eines 500-bp-Fragments erhalten Sie am Ende eine nicht sequenzierte Region von 200 bp. Dies ist bei der referenzgeführten Montage kein großes Problem, da Sie die Sequenz des Inserts anhand der Ausrichtung der sequenzierten Region an der Referenz ermitteln können. Die durchschnittliche Insertlänge ist wichtig, um diskordante Reads zu entfernen (zu weit voneinander entfernte Ausrichtung in der Referenz). Im Falle einer De-novo-Assemblierung bleibt das Insert unsequenziert, auch wenn Sie wissen, dass das endgültige Transkript ungefähr so ​​​​aussieht:

frag1-frag6-frag3-frag9-frag4

Um also die Sequenz der Assemblierung zu erhalten, müssen Sie die Insert-Regionen sequenzieren. Dies ist kein Problem, wenn Sie zumindest die Reihenfolge der Fragmente in der Baugruppe kennen. Sie sollten jedoch die Einsatzgröße kennen, um die richtige Montagegröße zu erhalten, und wie Skyminge sagte, im Gerüstbau. Es ist nicht so schwierig, diese Einfügungslänge zu erhalten (Sie müssen sie nicht als Parameter angeben. Die meisten Algorithmen können sie automatisch berechnen).

Ein weiterer Parameter bei der De-novo-Assemblierung ist die k-mer-Länge (die Sequenz-Reads werden zur besseren Assemblierung in k-mere zerlegt). Den Algorithmus der Assemblierung kann ich hier nicht im Detail erläutern. Sie können die Handbücher/Papiere gängiger Assembler-Algorithmen wie Velvet, SOAPdenovo, Euler [de novo] überprüfen; Manschettenknöpfe [referenzbasiert]

Ich habe hier die Transkriptomsequenzierung erwähnt, aber die Prinzipien sind auch für die Genomsequenzierung dieselben.

Zurück zu Ihrer Hauptfrage: Warum ist das Zusammenbauen von Paarendleuchten ohne Eingabeparameter ein wichtiges Problem?

Weil es weniger Aufwand ist; aber das Anpassen kann schwierig sein. Ich werde es nicht als ein wichtiges Problem betrachten. Es gibt andere wichtige algorithmische Optimierungen, die bei der De-novo-Assemblierung erforderlich sind.

Ein weiteres wichtiges Problem bei dieser Art von Daten ist, dass sie relativ fehleranfällig sind.
@swbarnes2 .. Es gibt ein gewisses Maß an Fehlern, aber wenn Sie "relativ fehleranfällig" sagen, womit vergleichen Sie es?
@WYSIWYG Sie haben geschrieben: "Wenn Sie ein 500-bp-DNA-Fragment ausgewählt haben". Garantiert dies, dass die Fragmente jeweils 500 bp groß sind? Wenn ja, wie macht der NG-Sequenzer das? (Wenn ich das richtig verstehe, sagt emea.illumina.com/content/dam/illumina-marketing/documents/… , dass die DNA zufällig fragmentiert ist)
@OrenMilman Ich habe nur ein Beispiel gegeben; nicht sagen, dass DNA genau diese Länge haben würde. Die DNA wird zufällig geschert, aber die Bibliothek wird aus DNA-Stücken in einem ausgewählten Größenbereich konstruiert.

Bei der Illumina-Sequenzierung wird die DNA (normalerweise zufällig) in Fragmente zerlegt. Für die Paired-End-Sequenzierung werden Fragmente eines bestimmten Größenbereichs ausgewählt und dann von beiden Seiten sequenziert . Dies führt zu zwei Lesevorgängen für jedes Fragment. Da die Leselänge festgelegt ist, liegt auch der verbleibende „mittlere Teil“ des Fragments in einem bestimmten Größenbereich. In manchen Fällen fehlt der Mittelteil, weil die Fragmente so klein gewählt wurden, dass sich die Reads überschneiden.

Die Information über die Größe des Fragments und/oder des „Mittelteils“ sowie die Leselänge sind einige der wichtigsten Parameter, die Sie für die De-novo-Assemblierung benötigen. Sie könnten davonkommen, die Lesegröße nicht als Parameter zu verwenden. Wenn Sie sie benötigen, können Sie dennoch alle Lesevorgänge durchlaufen und überprüfen. Aber die Fragmentgröße oder Insertgröße ist wichtig, um die Reads zu platzieren, insbesondere beim Scaffolding.

Dieser Blogeintrag enthält auch einige nette Informationen über die oft aufkommende Diskussion, was mit Insertgröße gemeint ist (Fragmentgröße, die Größe des Mittelteils) und was bei überlappenden Lese- und Durchlesevorgängen passieren kann.

Dazu gibt es noch viel zu sagen. Illumina stellt auch einige nette Videos auf YouTube zur Verfügung.