Ist der Sequenzierungsfehler eine Funktion des gelesenen Nukleotids?

Question

Ist der Sequenzierungsfehler eine Funktion des gelesenen Nukleotids?

Biologie
DNA-Sequenzierung
Sequenzanalyse
Molekulargenetik

Remi.b

Wenn ich mir Google Scholar anschaue, kann ich sehen, dass für Illumina (um nur ein Beispiel zu betrachten) die Sequenzierungsfehlerrate in der Größenordnung von 0,001-0,01 pro Nukleotid liegt.

Wenn wir über Sequenzierungsfehler sprechen, betrachten wir nur Fehlpaarungen (Substitution eines Nukleotids durch ein anderes). Wenn Sie das "wahre" Nukleotid an einer bestimmten Position kennen, ist es genauso wahrscheinlich, dass es während einer Fehlpaarung gelesen wird wie jedes andere spezifische Nukleotid, oder gibt es Verzerrungen? Wenn zum Beispiel das wahre Nukleotid ist A, ist es wahrscheinlicher, dass es als a gefunden wird G(da beide Purine sind) als als a Toder a C? Werden einige Nukleotide eher falsch gelesen als andere?

Ich hoffe, die Antwort hängt nicht zu sehr von den Sequenzierungstechniken ab.

WYSIWYG

Eigentlich ist Saiorgyarus Antwort sehr nah dran. Das Base-Calling in Illumina as unterscheidet sich von dem der Sanger-Sequenzierung. In letzterem kann verschiedenen Nukleotiden mit unterschiedlichen Wahrscheinlichkeiten eine verrauschte Position zugeordnet werden. Bei Illumina kann die schlechte Qualität mehrere Gründe haben - unsachgemäßes Waschen, schlechte Signalerfassung usw. Schlechtes Waschen kann überall zu einer insgesamt schlechten Qualität führen. Vielleicht können Sie sich die Mismatch-Häufigkeiten von Nukleotiden in Reads mit insgesamt guter Qualität (mittlerer Phred > 20) ansehen. Ich vermute, dass die Diskrepanz wahrscheinlich zufällig ist.

Antworten (1)

Ist der Sequenzierungsfehler eine Funktion des gelesenen Nukleotids?

Eigentlich ist Saiorgyarus Antwort sehr nah dran. Das Base-Calling in Illumina as unterscheidet sich von dem der Sanger-Sequenzierung. In letzterem kann verschiedenen Nukleotiden mit unterschiedlichen Wahrscheinlichkeiten eine verrauschte Position zugeordnet werden. Bei Illumina kann die schlechte Qualität mehrere Gründe haben - unsachgemäßes Waschen, schlechte Signalerfassung usw. Schlechtes Waschen kann überall zu einer insgesamt schlechten Qualität führen. Vielleicht können Sie sich die Mismatch-Häufigkeiten von Nukleotiden in Reads mit insgesamt guter Qualität (mittlerer Phred > 20) ansehen. Ich vermute, dass die Diskrepanz wahrscheinlich zufällig ist.

syin · Answer 1

Leider hängt es von den Sequenzierungstechniken ab.

Beispielsweise wird bei der Illumina-Sequenzierung jedes Sequenzfragment verstärkt (um ein stärkeres Signal zu erhalten) und bildet einen Cluster auf dem Microarray. Jeder Cluster wird durch Zyklen von sequenziert:

Hinzufügen von fluoreszierenden Terminatornukleotiden. Diese Nukleotide werden so modifiziert, dass sie eine hemmende/terminierende Gruppe enthalten und verhindern, dass weitere Nukleotide hinzugefügt werden. Theoretisch wird bei diesem Schritt in jedes DNA-Fragment nur ein Nukleotid eingebaut.
Abwaschen überschüssiger Nukleotide.
Erfassen des eingebauten Nukleotids unter Verwendung von bildgebenden Verfahren und Bestimmen, welche Base eingebaut wurde (basierend auf der Fluoreszenzfarbe).
Abspaltung des Terminators von den hinzugefügten Nukleotiden, damit die Reaktion fortgesetzt werden kann.

Bild von Metzker, 2010 .

Auf diese Weise wird jedes Fragment Nukleotid für Nukleotid synthetisiert und jedes eingebaute Nukleotid wird erkannt. Der erste Schritt ist jedoch nicht fehlerfrei: Manchmal wird mehr als ein Nukleotid in ein bestimmtes DNA-Fragment eingebaut, oder es werden keine Nukleotide eingebaut. Schließlich werden die DNA-Fragmente in einem Cluster (die alle dieselbe Sequenz enthalten) nicht mehr synchron sein ("Phasing") und das Fluoreszenzsignal wird weniger klar, mit einer Mischung aus verschiedenen Farben. Dies ist die Hauptursache für Sequenzierungsfehler bei Illumina-Maschinen und auch der Grund, warum Illumina-Reads relativ kurz sind (~300 bp).

Um Ihre Frage zu beantworten: In diesem Beispiel können Nukleotide fälschlicherweise als benachbarte Nukleotide in dieser Sequenz gelesen werden. Fehler variieren mit anderen Sequenzierungsmethoden und wie diese Methoden funktionieren.

Der Artikel, den ich zuvor verlinkt habe, erklärt verschiedene Sequenzierungsmethoden ausführlicher. (Leider befindet es sich hinter einer Paywall, sodass einige es möglicherweise nicht sehen können.)

Willkommen bei Biology.SE und vielen Dank für Ihre Antwort. Nur um sicherzugehen, dass die Wahrscheinlichkeit, dass a Aals gegebenes Nukleotid gelesen wird, tatsächlich vom Nukleotid und von der verwendeten Technik abhängt? Du sagst nicht nur, dass die Fehlerquote von der Technik abhängig ist, oder?
Ich kann es nicht mit Sicherheit sagen, aber ich glaube nicht, dass es vom Nukleotid abhängt (zumindest nicht von den chemischen Eigenschaften des Nukleotids). Die meisten Sequenzierungsmethoden verwenden verschiedenfarbige Fluoreszenzmarker, um zu erkennen, welches Nukleotid eingebaut ist und welche Base aufgerufen wird, abhängig von der Intensität des Farbsignals. Vielleicht werden bestimmte Basen im Allgemeinen eher fälschlicherweise in die DNA eingebaut, aber ich habe das nie als einen signifikanten Faktor erwähnt gesehen.
Wir empfehlen zukünftig die Verlinkung auf zitierte Werke über PubMed oder DOI. Publisher-Websites können (und tun) sich ändern. Überprüfen Sie außerdem Ihre Links, bevor Sie sie veröffentlichen. Der Link zum Metzker-Papier war unterbrochen.

Ist der Sequenzierungsfehler eine Funktion des gelesenen Nukleotids?

Remi.b

WYSIWYG

Antworten (1)

syin

Remi.b

syin

MattDMo

syin

Was ist der Unterschied zwischen Shotgun-Sequenzierung und Klon-basierter Sequenzierung?

Methoden zur mikrobiellen Identifizierung im Boden

Ist es möglich, einzelne DNA-Stränge in Lösung zu erhalten? [geschlossen]

Wie sehen Illumina HiSeq/MiSeq-Paired-End-Reads aus?

Gibt es eine biologische Erklärung für einen Unterschied von 0,5 in der Allelgröße mit PCR-Produkt?

Tool zum Nukleotid-Alignment mit allen Nukleotid-Codes (zB R, Y, W, S, etc.)?

Was ist der Unterschied zwischen Sequenzalignment und Sequenzassemblierung?

Was sind kodominante vs. dominante genetische Marker?

Welche Faktoren sollte ich bei der Auswahl eines Referenzgenoms für die Kartierung berücksichtigen?

Wie kann ich eine zufällige DNA-Sequenz generieren?