Was sind die derzeitigen limitierenden Faktoren für die Genauigkeit der Genomsequenzierung? Mit Genauigkeit meine ich eine enge Beziehung zwischen dem sequenzierten Genom und dem endgültig zusammengesetzten (ich bin mir nicht sicher, ob es einen richtigen Namen für diese Metrik gibt). Ich hoffe, dass diese Art der Genauigkeitsmessung nützlich ist, da sie auch Fehler erfasst, die während der Leseausrichtung (wenn die Short-Read-Sequenzierungstechnologie verwendet wird) und der Montage auftreten.
So wie ich es verstehe, gibt es zwei Fehlerquellen, die die Genauigkeit einschränken: Fehler bei der Bestimmung der richtigen Basen und Fehler bei der Datenanalyse (Leseausrichtung, Montage usw.). Welche dieser beiden Quellen ist für die meisten Fehler bei Long- und Short-Read-Sequenzierungstechniken verantwortlich? Stammen viele Fehler aus der Datenanalyse?
Wie @David richtig vermutet hat, bin ich Student (Ingenieurwesen) und frage mich, ob die Genauigkeit durch bessere Algorithmen erheblich verbessert werden kann.
So wie ich es derzeit verstehe, sind Short-Read-Sequenzierungstechniken genau, aber die sich wiederholenden Regionen sind schwer / unmöglich auszurichten, während Long-Read-Sequenzierungstechniken fehleranfälliger sind und Long-Read & Accurate Sequencing (HiFi) sehr teuer sind. Daher legt meine übermäßig vereinfachte Perspektive nahe, dass algorithmische Verbesserungen die billige Long-Read-Genauigkeit durch hybride Ansätze weiter verbessern oder die Ausrichtung und Zusammenstellung von Short-Reads verbessern können. Ist das korrekt?
Die von mir verwendeten Ressourcen waren:
https://www.pacb.com/blog/understanding-accuracy-in-dna-sequencing/ https://spectrum.ieee.org/tech-talk/biomedical/diagnostics/99-9-percent-accurate-genome- Sequenzierung und das von @Maximilian Press empfohlene Papier
Eines, das nicht auf Ihrer Liste steht: Kosten.
Hier ist eine kürzlich erschienene Rezension als Referenz, die diese behandelt (ich habe sie mir nicht im Detail angesehen, aber sie scheint die Kompromisse genau zu erfassen).
Wir sind algorithmisch sehr gut darin geworden, all diese verschiedenen Arten von Daten zu verwenden und sie auf verschiedene Weise zu hacken, um einander zu ergänzen, aber wir können die grundlegenden Einschränkungen der Kontiguität (Länge) und Genauigkeit nicht umgehen.
Der HiFiAsm-Assembler zum Beispiel ist im Moment auf Hochtouren und kombiniert PacBio-HiFi-Daten mit zB Hi-C-Daten (ein Hack von Illumina), um so ziemlich ganze diploide menschliche Genome zu liefern, was wirklich eine erstaunliche technische Leistung ist. Es wurde auch verwendet, um das Redwood-Genom zusammenzusetzen, das 10-mal so groß ist wie das menschliche Genom.
Es geht darum, diese technischen Möglichkeiten in eine Größenordnung und technologische Verfeinerung zu bringen, wo wir diese extrem hochwertigen Daten nach Belieben und für alle Anwendungen, in denen wir sie nutzen möchten, generieren können.
lästig
David
David