Wie berechnen Hochdurchsatz-/NGS-Sequenzer Qualitätskennzahlen?

Ich bin verwirrt darüber, wie Qualitätsbewertungen tatsächlich von DNA-Sequenzierern wie Illumina berechnet werden. Für jeden Base-Call wird ein gewisser Qualitätsvorhersagewert berechnet, basierend auf verschiedenen Eigenschaften der Sequenzierungsmaschine, wie z. B. der Lichtintensität während des Lesens.

Wissen wir genau, wie diese Qualitätskennzahlen berechnet werden? Wie viele Faktoren fließen genau in die Berechnung dieser QUAL-Werte ein?

nur Erfahrung mit Illumina-Plattformen haben Hier ist ein Link zu den Grundlagen Illumina-Qualitätsinformationen Ausführlichere Illumina-Informationen Werfen Sie einen Blick auf die Referenzen in diesem Dokument, um tiefer zu gehen. (Ich gehe davon aus, dass Sie nicht die Qualitätsbewertungen für Variantenanrufe meinen, die in der von mir verwendeten Pipeline alle nach der Sequenzierung behandelt werden.)
@ user3234810 Danke. Aber ich suchte nach mehr Informationen als das. Es besteht eine gewisse Beziehung zwischen "Signal-to-Noise" und Qualitätswerten. Wie genau Illumina diese berechnet, weiß ich nicht.
Die Berechnungen des Qualitätsfaktors sind für verschiedene Maschinentypen unterschiedlich. Speziell an Illumina interessiert?
@WYSIWYG Eigentlich würde jeder Sequenzer ausreichen. Ich habe gerade Illumina als Ausgangspunkt erwähnt.
@ShanZhengYang Ich würde vorschlagen, dass Sie Ihre Frage auf eine Art von Maschine (oder Arten von Maschinen mit derselben Basisaufruftechnik) beschränken. Sie können sich nur an Illumina halten. Darüber hinaus gibt es auch für Illumina verschiedene Base-Calling-Ansätze.
@WYSIWYG Das ist vernünftig. Lassen Sie uns die Diskussion auf das Calling von Stützpunkten mit Illumina konzentrieren.
@ShanZhengYang Sie können sich meine Antwort ansehen

Antworten (1)

Ich beschränke diese Antwort auf Illumina. Selbst dann kenne ich die genauen Details der Rohdatenanalyse nicht (es ist eine proprietäre Software).

Grundsätzlich zeichnet Illumina die Sequenz auf der Grundlage von fotografischen Bildern auf. Jedes Nukleotid hat eine eindeutige fluoreszierende Markierung. In einem Zyklus wird ein Nukleotid gepumpt und nicht eingebaute Nukleotide werden abgewaschen (dies wird für alle Nukleotide wiederholt). Ein Laser regt den Fluorophor an und das emittierte Licht wird in Form einer Fotografie festgehalten. Die Matrizen-DNA liegt in Form von Strangclustern (an einer bestimmten Stelle) vor, was eine einfache visuelle Identifizierung der Fluoreszenz ermöglicht.

Base-Calling erfolgt mittels Bildanalyse. Jedes Bild wird auf Intensitäten unterschiedlicher Farben analysiert und daraus der Qualitätswert berechnet. Der Qualitätswert ist im Grunde die Log-Wahrscheinlichkeit eines Nukleotidvorkommens an einer bestimmten Position (basierend auf seiner Farbintensität) im Vergleich zu anderen Nukleotiden.

Dies ist die einfachste Erklärung dafür, wie Illumina Base-Calling durchführt. Es gibt verschiedene Arten von Fehlern und Verzerrungen und es gibt verschiedene statistische Ansätze, um sie zu korrigieren.

Weitere Details finden Sie in den folgenden Referenzen: