Aufbau der Lese- und Genregion (IGV)

Ich arbeite mit fastq-Dateien, die NGS-Reads für einige menschliche DNA-Regionen enthalten. Das Referenzgenom ist hg19. Ich hatte zwei fastq-Dateien (paarweise). Ich habe Ausrichtungs-BAM-Dateien generiert. Ich habe "bwa" und Samtools verwendet, um eine mögliche Zielgenregion zu finden (chr7:55,242,376-55,242,574,). Dies entspricht einer Region des EGFR-Gens.

Hier ist ein Screenshot der Genregion

EGFR

Und hier ist ein Screenshot der Primer-RegionGrundierung

Ich habe auch eine Liste von Primern und Reverse Primern:

FORWARD
1. TTGCCAGTTAACGTCTTCCTTCTCTCTCTG
2. CCCTTGTCTCTGTGTTCTTGTCCCCCCCA
3. TGATCTGTCCCTCACAGCAGGGTCTTCTCT
4. CACACTGACGTGCCTCTCCCTCCCTCCA

REVERSE
1. GAGAAAAGGTGGGCCTGAGGTTCAGAGCCA
2. CCCCACCAGACCATGAGAGGCCCTGCGGCC
3. TGACCTAAAGCCACCTCCTTA
4. CCGTATCTCCCTTCCCTGATTA

Und ich habe einige Adapter

ADAPTORS 1
AAGACTCGGCAGCATCTCCA

ADAPTORS 2
GCGATCGTCACTGTTCTCCA

Folgende Fragen muss ich beantworten:

1) Welchen Aufbau hat jeder Read (Adapter+Primer+amplifizierte Region)? Der Vorwärtsprimer ist offensichtlich und entspricht dem ersten Primer der Liste

TTGCCAGTTAACGTCTTCCTTCTCTCTCTG

Warum haben wir also die drei anderen Vorwärtsprimer? Ich verstehe nicht. Und wie sieht es mit dem richtigen Reverse Primer aus?

Es scheint die komplementäre Sequenz der Endregion zu sein

GAGAAAAGGTGGGCCTGAGGTTCAGAGCCA

Welcher Adapter wird schließlich verwendet?

Ist [ADAPTOR1 - PRIMER1 - AMPLIFIED REGION] die richtige Antwort? Gibt es andere Möglichkeiten?

2) % der Reads, die das menschliche Genom abbilden? Was ist mit den nicht zugeordneten?

Können Sie mir bitte ein paar Hinweise geben, wie ich diese Frage beantworten kann.

Ich brauche nur ein paar Hinweise, ich will es selbst machen.

Vielen Dank für Ihre Hilfe.

Antworten (1)

Sie haben hier einige Fragen gestellt. Ich werde versuchen, einen Teil davon zu beantworten.

Um Ihre Frage zu beantworten, ging ich zunächst zum UCSC-Genombrowser und wählte BLAT aus dem Dropdown-Menü Tools aus. Wenn wir dann Ihre Primersequenzen als Abfragen weitergeben, können wir deutlich sehen, wo sie dem Referenzgenom zugeordnet sind.

Geben Sie hier die Bildbeschreibung ein

Wenn ich mir die obige Abbildung ansehe, kann ich vermuten, dass Ihre Daten aus einem gezielten Sequenzierungsexperiment stammen (Exom oder Genpanel usw.); wo Sie Primer um jedes Exon von EGFR auf zwei Strängen haben, am 5'-Ende der Exonsequenz auf jedem Strang (denken Sie an DNA-Polymerase, die in der PCR wirkt, um die Anzahl der DNA-Moleküle vor der Sequenzierung zu amplifizieren).

In Bezug auf den Adapter bin ich mir nicht sicher, auf welche Lektüre Sie sich beziehen. Können Sie das bitte klären?

Über den Prozentsatz der zugeordneten vs. nicht zugeordneten Lesevorgänge können Sie Bamtools verwenden.

Beispielnutzung:

/user/me/src/bamtools/bin/bamtools-2.3.0 stats -insert -in my-sequence-file.bam

Beispielausgabe:

Insgesamt gelesen: 103277668

Zugeordnete Lesevorgänge: 90088436 (87,2293 %)

Vorwärtsstrang: 58136735 (56,2917 %)

Gegenstrang: 45140933 (43,7083 %)

Fehlerhafte Qualitätskontrolle: 6529806 (6,32257 %)

Duplikate: 0 (0%)

Paired-End-Reads: 103277668 (100 %)

„Richtige Paare“: 87439672 (84,6646 %)

Beide Paare zugeordnet: 87910438 (85,1205 %)

Lesen Sie 1: 51638834

Lesen Sie 2: 51638834

Einlinge: 2177998 (2,10888 %)

Durchschnittliche Insertgröße (absoluter Wert): 6317,39

Mittlere Insertgröße (absoluter Wert): 301

Ich danke Ihnen sehr. Sie verwenden alle die gleichen 2 Adapter. Ist das möglich? Es kommt mir komisch vor.
Nur noch eine letzte Frage. Wie übergeben Sie Ihre Primersequenzen als Abfragen in BLAT? Und so eine schöne Figur bekommen
Schön, dass ich helfen konnte. Ich habe eine Eingabe im Fasta-Format mit Ihren acht Sequenzen generiert. Nachdem Sie BLAT ausgeführt haben, wählen Sie den Browser-Link für eine Ihrer Sequenzen aus und zoomen Sie einige Male um den Faktor 10 heraus, sodass alle Abfragesequenzen im Bereich sind. Standardmäßig erhält man im Genombrowser eine überfüllte Anzeige. Sie können auf die Schaltfläche „Alle ausblenden“ unter der Abbildung der Genomansicht klicken und anschließend die Optionen BLAT und refGene/refSeq auf „Full“ setzen.