Wenn ich mir Google Scholar anschaue, kann ich sehen, dass für Illumina (um nur ein Beispiel zu betrachten) die Sequenzierungsfehlerrate in der Größenordnung von 0,001-0,01 pro Nukleotid liegt.
Wenn wir über Sequenzierungsfehler sprechen, betrachten wir nur Fehlpaarungen (Substitution eines Nukleotids durch ein anderes). Wenn Sie das "wahre" Nukleotid an einer bestimmten Position kennen, ist es genauso wahrscheinlich, dass es während einer Fehlpaarung gelesen wird wie jedes andere spezifische Nukleotid, oder gibt es Verzerrungen? Wenn zum Beispiel das wahre Nukleotid ist A
, ist es wahrscheinlicher, dass es als a gefunden wird G
(da beide Purine sind) als als a T
oder a C
? Werden einige Nukleotide eher falsch gelesen als andere?
Ich hoffe, die Antwort hängt nicht zu sehr von den Sequenzierungstechniken ab.
Leider hängt es von den Sequenzierungstechniken ab.
Beispielsweise wird bei der Illumina-Sequenzierung jedes Sequenzfragment verstärkt (um ein stärkeres Signal zu erhalten) und bildet einen Cluster auf dem Microarray. Jeder Cluster wird durch Zyklen von sequenziert:
Bild von Metzker, 2010 .
Auf diese Weise wird jedes Fragment Nukleotid für Nukleotid synthetisiert und jedes eingebaute Nukleotid wird erkannt. Der erste Schritt ist jedoch nicht fehlerfrei: Manchmal wird mehr als ein Nukleotid in ein bestimmtes DNA-Fragment eingebaut, oder es werden keine Nukleotide eingebaut. Schließlich werden die DNA-Fragmente in einem Cluster (die alle dieselbe Sequenz enthalten) nicht mehr synchron sein ("Phasing") und das Fluoreszenzsignal wird weniger klar, mit einer Mischung aus verschiedenen Farben. Dies ist die Hauptursache für Sequenzierungsfehler bei Illumina-Maschinen und auch der Grund, warum Illumina-Reads relativ kurz sind (~300 bp).
Um Ihre Frage zu beantworten: In diesem Beispiel können Nukleotide fälschlicherweise als benachbarte Nukleotide in dieser Sequenz gelesen werden. Fehler variieren mit anderen Sequenzierungsmethoden und wie diese Methoden funktionieren.
Der Artikel, den ich zuvor verlinkt habe, erklärt verschiedene Sequenzierungsmethoden ausführlicher. (Leider befindet es sich hinter einer Paywall, sodass einige es möglicherweise nicht sehen können.)
A
als gegebenes Nukleotid gelesen wird, tatsächlich vom Nukleotid und von der verwendeten Technik abhängt? Du sagst nicht nur, dass die Fehlerquote von der Technik abhängig ist, oder?
WYSIWYG