Ich bin verwirrt darüber, wie Qualitätsbewertungen tatsächlich von DNA-Sequenzierern wie Illumina berechnet werden. Für jeden Base-Call wird ein gewisser Qualitätsvorhersagewert berechnet, basierend auf verschiedenen Eigenschaften der Sequenzierungsmaschine, wie z. B. der Lichtintensität während des Lesens.
Wissen wir genau, wie diese Qualitätskennzahlen berechnet werden? Wie viele Faktoren fließen genau in die Berechnung dieser QUAL-Werte ein?
Ich beschränke diese Antwort auf Illumina. Selbst dann kenne ich die genauen Details der Rohdatenanalyse nicht (es ist eine proprietäre Software).
Grundsätzlich zeichnet Illumina die Sequenz auf der Grundlage von fotografischen Bildern auf. Jedes Nukleotid hat eine eindeutige fluoreszierende Markierung. In einem Zyklus wird ein Nukleotid gepumpt und nicht eingebaute Nukleotide werden abgewaschen (dies wird für alle Nukleotide wiederholt). Ein Laser regt den Fluorophor an und das emittierte Licht wird in Form einer Fotografie festgehalten. Die Matrizen-DNA liegt in Form von Strangclustern (an einer bestimmten Stelle) vor, was eine einfache visuelle Identifizierung der Fluoreszenz ermöglicht.
Base-Calling erfolgt mittels Bildanalyse. Jedes Bild wird auf Intensitäten unterschiedlicher Farben analysiert und daraus der Qualitätswert berechnet. Der Qualitätswert ist im Grunde die Log-Wahrscheinlichkeit eines Nukleotidvorkommens an einer bestimmten Position (basierend auf seiner Farbintensität) im Vergleich zu anderen Nukleotiden.
Dies ist die einfachste Erklärung dafür, wie Illumina Base-Calling durchführt. Es gibt verschiedene Arten von Fehlern und Verzerrungen und es gibt verschiedene statistische Ansätze, um sie zu korrigieren.
Weitere Details finden Sie in den folgenden Referenzen:
Benutzer3234810
ShanZhengYang
WYSIWYG
ShanZhengYang
WYSIWYG
ShanZhengYang
WYSIWYG