Wie sehen Illumina HiSeq/MiSeq-Paired-End-Reads aus?

Mein Verständnis ist, dass Paired-End-Reads von den Illumina HiSeq/MiSeq-Plattformen in etwa so aussehen:

R1:
    AAAAAACCCCCC
R2:
    GGGGGGTTTTTT

Wobei die in R2 gefundenen Lesevorgänge das umgekehrte Komplement der in R1 gefundenen sind. Dies scheint jedoch für meine Sequenzierungsdaten nicht der Fall zu sein. Wenn es hilft, habe ich unten ein Read-Paar von einem meiner MiSeq-Läufe.

R1:
@M01814:86:000000000-A6MU9:1:1101:15397:1339 1:N:0:2
TACTCGCACCTATCCGGCACAGCAACACCATCTGGGGCTGAATCGCAATAGCATCTCTCACTTCCTCCATATCAGATTGCTCAAGGCAAGCACTACGCTGCAGTGCCCTCCACTCCCAATTCCCTGATGCTGGTCGTAACTTGCCACACCA
+
>>AA?BBBBBFFGGG2EEEGFBGHHHGA2FGHBGHF2EE?GHGHHFFEEHDGHEFGF5FEEFBGHGBCB5FHHH5F553@434FF31G11??233B1/1/?333B?3FB?/B24B2/2B2?44?3?23333B223<>@0CB22@2@F0/?/

R2:
@M01814:86:000000000-A6MU9:1:1101:15397:1339 2:N:0:2
TAAGGGGCCTAGAACAGGCACCATACATTCAATTGGCTGTGGCAAGTAACAACCAGCATCAGGGAATGTGGAGTGGAGGGCACTGCAGCGAATTGCTTGCCTTGAACAATCTTATATGGGGGAAGTAGACGAACCAATGTGGAGTCAGCCC
+
>AA>>>ADDAFFGGGGG4FGGGFHFHFHHHFHHHB3B32EFBGGE25FGHHHHACEGG533BAGFFF355331BG1@1>EF1E23F333/>//134B43?F34B3334B334444?443B?/<C/23333////<0/<11111/?01?G0?

Als Referenz ist dies das umgekehrte Komplement von R2:

GGGCTGACTCCACATTGGTTCGTCTACTTCCCCCATATAAGATTGTTCAAGGCAAGCAATTCGCTGCAGTGCCCTCCACTCCACATTCCCTGATGCTGGTTGTTACTTGCCACAGCCAATTGAATGTATGGTGCCTGTTCTAGGCCCCTTA

Dies ist die Ausrichtung (mit BLAST; Ausrichtung wird nur für das HSP angezeigt):

                                                           60 148
                                                           | |
TACTCGCACCTATCCGGCACAGCAACACCATCTGGGGCTGAATCGCAATAGCATCTCTCACTTCCTCCATATCAGATTGCTCAAGGCAAGCACTACGCTGCAGTGCCCTCCACTCCCAATTCCCTGATGCTGGTCGTAACTTGCCACACCA
                                                           |||||| |||||| |||||| |||||||||||| | ||||||||||||||||||||| |||||||||||||||| || ||||||||||
                                  GGGCTGACTCCACATTGGTTCGTCTACTTCCCCCATATAAGATTGTTCAAGGCAAGCAATTCGCTGCAGTGCCCTCCACTCCACATTCCCTGATGCTGGTTGTTACTTGCCACAGCCAATTGAATGTATGGTGCCTGTCTAGGCCCCTTA
                                                           | |
                                                           126 38
Wie groß war die Bibliothek und wie lang war die Leselänge?
Die MiSeq-Chemie umfasst 150 Zyklen und die Fragmentgröße beträgt genau 150 bp.
Sind Sie sicher, dass die Fragmentgröße genau 150 bp beträgt? Normalerweise haben Sie eine Verteilung der Fragmentgröße.
Wie viele solcher Lesevorgänge gibt es; Hast du die Adaptersequenzen entfernt?
Ich bin mir sicher, dass die Fragmentgröße und die Adaptersequenzen entfernt wurden, aber danke, dass Sie das gesprengt haben, das ist eher eine Überlappung, die ich erzwingen konnte. Vielleicht muss ich einfach viel mehr Diskrepanzen zulassen als bisher angenommen.

Antworten (2)

Wobei die in R2 gefundenen Lesevorgänge das umgekehrte Komplement der in R1 gefundenen sind.

Diese Aussage scheint falsch zu sein.

Paired-End-Reads kommen von entgegengesetzten Enden eines Fragments (Sie können den Grund dafür aus Illuminas Video erfahren ). Wenn die Insertgröße 150 bp beträgt, beträgt die Leselänge normalerweise ~60 bp, da der Qualitätsfaktor nach dem 60. bp unannehmbar niedrig ist. In diesem Fall beträgt die R1-Länge ~60 bp und 5'3', die R2-Länge ~60 bp und 3'5'. Wenn eine Anzahl von Reads ausreicht, um die Lücke zu schließen, bilden sie ein Contig.

Hier ist eine Illustration von der Website von Illumina :Von der Illumina-Website

Es gibt ein kleines Wackeln in der Länge Ihrer Fragmente, deshalb überlappen sich die Lesevorgänge nicht genau. Gibt es einen Grund, warum Sie die Zeit und das Geld für die zweite Lesung aufwenden, wenn die erste Lesung Ihnen fast genau die gleichen Sequenzinformationen liefert?

Bei diesen Fragmentlängen gibt es kein Wackeln (dies ist nicht nur fragmentierte DNA). Und ja, Paired-End-Reads sind wahrscheinlich notwendig.