Was begrenzt heute die Genauigkeit der Genomsequenzierung?

Was sind die derzeitigen limitierenden Faktoren für die Genauigkeit der Genomsequenzierung? Mit Genauigkeit meine ich eine enge Beziehung zwischen dem sequenzierten Genom und dem endgültig zusammengesetzten (ich bin mir nicht sicher, ob es einen richtigen Namen für diese Metrik gibt). Ich hoffe, dass diese Art der Genauigkeitsmessung nützlich ist, da sie auch Fehler erfasst, die während der Leseausrichtung (wenn die Short-Read-Sequenzierungstechnologie verwendet wird) und der Montage auftreten.

So wie ich es verstehe, gibt es zwei Fehlerquellen, die die Genauigkeit einschränken: Fehler bei der Bestimmung der richtigen Basen und Fehler bei der Datenanalyse (Leseausrichtung, Montage usw.). Welche dieser beiden Quellen ist für die meisten Fehler bei Long- und Short-Read-Sequenzierungstechniken verantwortlich? Stammen viele Fehler aus der Datenanalyse?

Wie @David richtig vermutet hat, bin ich Student (Ingenieurwesen) und frage mich, ob die Genauigkeit durch bessere Algorithmen erheblich verbessert werden kann.

So wie ich es derzeit verstehe, sind Short-Read-Sequenzierungstechniken genau, aber die sich wiederholenden Regionen sind schwer / unmöglich auszurichten, während Long-Read-Sequenzierungstechniken fehleranfälliger sind und Long-Read & Accurate Sequencing (HiFi) sehr teuer sind. Daher legt meine übermäßig vereinfachte Perspektive nahe, dass algorithmische Verbesserungen die billige Long-Read-Genauigkeit durch hybride Ansätze weiter verbessern oder die Ausrichtung und Zusammenstellung von Short-Reads verbessern können. Ist das korrekt?

Die von mir verwendeten Ressourcen waren:

https://www.pacb.com/blog/understanding-accuracy-in-dna-sequencing/ https://spectrum.ieee.org/tech-talk/biomedical/diagnostics/99-9-percent-accurate-genome- Sequenzierung und das von @Maximilian Press empfohlene Papier

Willkommen bei Biology.SE. Die Biology.SE-Community hat zugestimmt, dass Fragen, die wenig oder keinen vorherigen Forschungsaufwand zeigen, auf dieser Website nicht zum Thema gehören. Bitte bearbeiten Sie Ihre Frage und teilen Sie uns mit, wo Sie nach Antworten gesucht haben, was Sie über das Thema wissen und wo genau Sie noch Fragen haben. Darüber hinaus gibt es mehr als eine Methode zur Genomsequenzierung und sie haben unterschiedliche Einschränkungen – dies macht Ihre Frage, wie sie derzeit geschrieben ist, zu weit gefasst. Unterrecherchierte Fragen können Gegenstand von Down-Voting und Schließung sein.
Mir ist aufgefallen, dass Sie die Tour nicht abgeschlossen haben . Dies wird Ihnen helfen zu verstehen, wie diese SE funktioniert. Die Hilfe beim Stellen von Fragen ist eine gute Nachbereitung. Insbesondere ist es hilfreich, Kontext und Unterstützung für alle Annahmen in der San-Frage bereitzustellen. Was lässt Sie glauben, dass Genauigkeit ein großes Problem ist? Und die Vorstellung, dass es mit Algorithmen zu tun hat, legt nahe, dass Sie das Thema nicht recherchiert haben, sondern Data Scientist oder Programmierer sind, der nach einem Problem sucht. Bist du?
Beim Nachdenken frage ich mich, ob Sie "Genauigkeit" oder etwas anderes meinen. Die "Genauigkeit" der Genomsequenzierung bezieht sich auf die korrekte Identifizierung einer Base an einer bestimmten Position: Wie häufig enthält eine Sequenz ein G (sagen wir), wo wirklich ein A ist. Dies ist jedoch kein großes Problem bei der Sequenzierung eukaryotischer Genome, insbesondere dieser von höheren Organismen. Die Hauptprobleme sind das Schließen von Lücken, die Regionen darstellen, die lange Abschnitte zahlreicher, sich wiederholender Genkopien enthalten, und das Kartieren von Abschnitten nahezu identischer DNA, die als segmentale Duplikationen bezeichnet werden. Dies ist nicht korrekt, aber möglicherweise das, was Sie meinten

Antworten (1)

Eines, das nicht auf Ihrer Liste steht: Kosten.

  • In Form von Oxford Nanopore-Daten haben wir extrem lange Lesevorgänge mit geringer Genauigkeit. Diese sind nicht zu teuer, aber für viele Anwendungen allein wahrscheinlich nicht brauchbar.
  • In Form von Illumina-Daten verfügen wir über äußerst reichliche, billige, hochpräzise Kurzablesungen, die für "Zähl"-Ansätze geeignet sind. Dies ist großartig für einige Varianten-Calling-Ansätze und auch für einige Arten von orthogonalen Maßen. Allein sind sie für viele Anwendungen jedoch nicht brauchbar.
  • In Form von PacBio-Daten (insbesondere HiFi) haben wir lange (fast) Lesevorgänge mit hoher Genauigkeit. Dies ist das Gesamtpaket, und Sie können sie im Prinzip so ziemlich alleine für jede Anwendung verwenden, die ich mir vorstellen kann. Das Problem ist, dass sie ziemlich teuer bleiben.

Hier ist eine kürzlich erschienene Rezension als Referenz, die diese behandelt (ich habe sie mir nicht im Detail angesehen, aber sie scheint die Kompromisse genau zu erfassen).

Wir sind algorithmisch sehr gut darin geworden, all diese verschiedenen Arten von Daten zu verwenden und sie auf verschiedene Weise zu hacken, um einander zu ergänzen, aber wir können die grundlegenden Einschränkungen der Kontiguität (Länge) und Genauigkeit nicht umgehen.

Der HiFiAsm-Assembler zum Beispiel ist im Moment auf Hochtouren und kombiniert PacBio-HiFi-Daten mit zB Hi-C-Daten (ein Hack von Illumina), um so ziemlich ganze diploide menschliche Genome zu liefern, was wirklich eine erstaunliche technische Leistung ist. Es wurde auch verwendet, um das Redwood-Genom zusammenzusetzen, das 10-mal so groß ist wie das menschliche Genom.

Es geht darum, diese technischen Möglichkeiten in eine Größenordnung und technologische Verfeinerung zu bringen, wo wir diese extrem hochwertigen Daten nach Belieben und für alle Anwendungen, in denen wir sie nutzen möchten, generieren können.

Akzeptieren Sie wirklich die Annahme des Posters, dass Genauigkeit ein großes Problem ist? Massive Übersequenzierung scheint damit umzugehen.
@ David mache ich in bestimmten engen Kontexten. Bei der Genomassemblierung, einer Anwendung, die das OP angesprochen hat, ist Ungenauigkeit (und damit verbunden Unvollständigkeit) ein Hauptproblem im Endprodukt. Man könnte auf beiden Seiten darüber streiten, ob die Genauigkeit beim Base-Call auf Leseebene besonders ein Problem darstellt. Es ist eines, das jetzt von der Technologie auf die von Ihnen und mir erwähnte Art und Weise angegangen wird, aber "massives Oversequencing" ist mit den Technologien, die die relevanten Probleme tatsächlich angehen, unerschwinglich teuer.
@David Massives Übersequenzieren hilft auch nur bei Sequenzierungsanwendungen, bei denen Sie über ausreichend große und reine Mengen an Quellmaterial verfügen. Es gibt viele Anwendungen, bei denen dies nicht der Fall ist.