Wie einfach ist die De-novo-Sequenzmontage?

Heute hat ein Kollege von mir folgende Frage gestellt:

" Angenommen, ich muss aus 0 ein Chromosom eines Fisches bauen, mit kurzen Lesevorgängen, aber keinerlei anderer Referenz [de novo assembly] :

  • wie viel Arbeit ist das?
  • Gibt es eine generische Software (wie SAMtools), die die Lesevorgänge in einem Gerüst ausrichtet, das man verwenden kann?
  • Ist es angesichts einer einigermaßen klaren Pipeline in Bezug auf Software im Grunde immer noch Blutschweiß und Tränen oder geht es nur darum, sie auf einen Cluster zu bringen?“

Sehr dankbar für Anregungen, Informationsquellen, Software etc.

tl;dr: Es ist Blut, Schweiß und Tränen. Ich war selbst noch nicht darin involviert, aber ich kenne Leute, die es sind. Abhängig von der Komplexität des Genoms erhalten Sie Tonnen (sie haben in der Größenordnung von 1 Million) nicht überlappende Contigs.
Wäre es wirklich notwendig, 30-bp-Lesevorgänge zu verwenden? das ist sehr kurz.
Prost Leute, eigentlich habe ich ~30 bp gedrückt, um eine Vorstellung zu geben, aber vielleicht ist es flexibler, welche Längen haben Sie im Sinn, @ThomasIngalls? Hmm, ich frage mich, wodurch der Blutschweiß und die Tränen verursacht werden? Ich nahm an, dass es einige Standard-Pipelines geben würde, um den ganzen Kram zu automatisieren?
Die De-novo-Sequenzierung ohne die Verwendung einiger Long-Read-Techniken zur Bereinigung (wie die Sanger-Sequenzierung) erfordert viel Abdeckung, und Sie enden immer noch mit einer erheblichen Unsicherheit in den Ergebnissen, aufgrund der großen Menge sich wiederholender Sequenzen, die in den meisten Fällen länger als 30 bp sind Genome. Die Antwort von @bitwise gibt eine großartige Vorstellung davon, was ich dachte.

Antworten (3)

Sie können versuchen, sich auf biostars.org umzusehen, was wie Stackexchange ist, aber für Bioinformatik.

Velvet ist ein Beispiel für einen De-novo-Assembler.

Aber 30 bp sind wirklich kurz und Tiere haben große Genome (nicht so hart wie viele Pflanzen und Pilze, aber immer noch hart).

Was Sie bekommen würden, sind eine Bazillion Short Contigs. Es wäre nicht schön.

Prost für die Velvet-Empfehlung

Wenn Sie nur Sequenzierungstechniken verwenden möchten, haben Sie ein Problem.

Um ein Gefühl dafür zu bekommen, welche Art von Ergebnissen zu erwarten sind, sollten Sie sich dieses kürzlich in Nature Genetics veröffentlichte Papier ansehen. Sie versuchten, ein Walgenom de novo zusammenzusetzen. Sie hatten 7 (!) Paired-End-Bibliotheken mit unterschiedlichen Insert-Längen von 170 bp bis 20 kb. Die Leselängen betrugen meistens 100 bp und in einigen Fällen 49 bp. Die durchschnittliche Genomabdeckung betrug 91x.

Wenn sie diese umfangreichen Daten zusammenstellen, haben sie am Ende über 100.000 Contigs, wenn die Zusammenstellung abgeschlossen ist.

Sie können also wirklich kein hochqualitatives komplexes (dh großes) Genom erhalten, das nur aus Short-Read-Sequenzierungsdaten unter Verwendung der Standardtechniken zusammengesetzt wird.

Neuere Ansätze wie Bibliotheken mit viel längeren Leselängen ( hier ) oder die Verwendung von Hi-C-Daten ( hier und hier ) bieten jedoch eine Möglichkeit, qualitativ hochwertige komplexe Genomanordnungen nur unter Verwendung von Sequenzierungsdaten zu erhalten.

"Wer nur Sequenzierungstechniken verwenden will, hat ein Problem." -- Meinen Sie Resequenzierungstechniken oder Hochdurchsatz-Sequenzierungstechniken?
@ThomasIngalls Ich meine, ein komplexes Genom de novo mithilfe von Hochdurchsatzsequenzierung zusammenzusetzen. Die Neusequenzierung der Assembly ist keine De-novo-Assembly.

Die geniale Software-Suite gefällt mir sehr gut. Es kann Multithreading betreiben und die Leistung Ihres Computers wirklich nutzen. Selbst komplizierte Dinge wie die De Novo-Montage sind sehr, sehr intuitiv.