Ich arbeite mit fastq-Dateien, die NGS-Reads für einige menschliche DNA-Regionen enthalten. Das Referenzgenom ist hg19. Ich hatte zwei fastq-Dateien (paarweise). Ich habe Ausrichtungs-BAM-Dateien generiert. Ich habe "bwa" und Samtools verwendet, um eine mögliche Zielgenregion zu finden (chr7:55,242,376-55,242,574,). Dies entspricht einer Region des EGFR-Gens.
Hier ist ein Screenshot der Genregion
Und hier ist ein Screenshot der Primer-Region
Ich habe auch eine Liste von Primern und Reverse Primern:
FORWARD
1. TTGCCAGTTAACGTCTTCCTTCTCTCTCTG
2. CCCTTGTCTCTGTGTTCTTGTCCCCCCCA
3. TGATCTGTCCCTCACAGCAGGGTCTTCTCT
4. CACACTGACGTGCCTCTCCCTCCCTCCA
REVERSE
1. GAGAAAAGGTGGGCCTGAGGTTCAGAGCCA
2. CCCCACCAGACCATGAGAGGCCCTGCGGCC
3. TGACCTAAAGCCACCTCCTTA
4. CCGTATCTCCCTTCCCTGATTA
Und ich habe einige Adapter
ADAPTORS 1
AAGACTCGGCAGCATCTCCA
ADAPTORS 2
GCGATCGTCACTGTTCTCCA
Folgende Fragen muss ich beantworten:
1) Welchen Aufbau hat jeder Read (Adapter+Primer+amplifizierte Region)? Der Vorwärtsprimer ist offensichtlich und entspricht dem ersten Primer der Liste
TTGCCAGTTAACGTCTTCCTTCTCTCTCTG
Warum haben wir also die drei anderen Vorwärtsprimer? Ich verstehe nicht. Und wie sieht es mit dem richtigen Reverse Primer aus?
Es scheint die komplementäre Sequenz der Endregion zu sein
GAGAAAAGGTGGGCCTGAGGTTCAGAGCCA
Welcher Adapter wird schließlich verwendet?
Ist [ADAPTOR1 - PRIMER1 - AMPLIFIED REGION] die richtige Antwort? Gibt es andere Möglichkeiten?
2) % der Reads, die das menschliche Genom abbilden? Was ist mit den nicht zugeordneten?
Können Sie mir bitte ein paar Hinweise geben, wie ich diese Frage beantworten kann.
Ich brauche nur ein paar Hinweise, ich will es selbst machen.
Vielen Dank für Ihre Hilfe.
Sie haben hier einige Fragen gestellt. Ich werde versuchen, einen Teil davon zu beantworten.
Um Ihre Frage zu beantworten, ging ich zunächst zum UCSC-Genombrowser und wählte BLAT aus dem Dropdown-Menü Tools aus. Wenn wir dann Ihre Primersequenzen als Abfragen weitergeben, können wir deutlich sehen, wo sie dem Referenzgenom zugeordnet sind.
Wenn ich mir die obige Abbildung ansehe, kann ich vermuten, dass Ihre Daten aus einem gezielten Sequenzierungsexperiment stammen (Exom oder Genpanel usw.); wo Sie Primer um jedes Exon von EGFR auf zwei Strängen haben, am 5'-Ende der Exonsequenz auf jedem Strang (denken Sie an DNA-Polymerase, die in der PCR wirkt, um die Anzahl der DNA-Moleküle vor der Sequenzierung zu amplifizieren).
In Bezug auf den Adapter bin ich mir nicht sicher, auf welche Lektüre Sie sich beziehen. Können Sie das bitte klären?
Über den Prozentsatz der zugeordneten vs. nicht zugeordneten Lesevorgänge können Sie Bamtools verwenden.
Beispielnutzung:
/user/me/src/bamtools/bin/bamtools-2.3.0 stats -insert -in my-sequence-file.bam
Beispielausgabe:
Insgesamt gelesen: 103277668
Zugeordnete Lesevorgänge: 90088436 (87,2293 %)
Vorwärtsstrang: 58136735 (56,2917 %)
Gegenstrang: 45140933 (43,7083 %)
Fehlerhafte Qualitätskontrolle: 6529806 (6,32257 %)
Duplikate: 0 (0%)
Paired-End-Reads: 103277668 (100 %)
„Richtige Paare“: 87439672 (84,6646 %)
Beide Paare zugeordnet: 87910438 (85,1205 %)
Lesen Sie 1: 51638834
Lesen Sie 2: 51638834
Einlinge: 2177998 (2,10888 %)
Durchschnittliche Insertgröße (absoluter Wert): 6317,39
Mittlere Insertgröße (absoluter Wert): 301
Neube
Neube
Noushin