Ich habe einige FASTQ-Dateien in zwei Datensätzen, die Sequenzen aus der Region 16Srna sind. Der erste Datensatz sind Amplicons aus der V4-Region und der zweite ist die V3-V4-Region.
Alle Reads sind jedoch 250 Nukleotide lang, wobei eine Region streng in der anderen enthalten ist. Was ist also die biologische Bedeutung der Länge?
Ich erwarte, dass die Lesevorgänge dieselbe Länge wie die sequenzierte/amplifizierte Region haben. Ich kenne die Größe der Regionen nicht, aber eine ist offensichtlich länger als die andere.
Danke (ich dachte, es wäre besser, hier zu fragen als auf bioinformatics.stackexchange.com)
Die Leselänge hat absolut nichts damit zu tun, was Sie sequenzieren. Es ist ein Merkmal der von Ihnen verwendeten Sequenzierungstechnologie. NGS-Sequenzierungstechniken erzeugen normalerweise diese Art von kurzen Lesevorgängen, die Sie sehen. Die Read-Länge ändert sich nicht, da Sie ein längeres Molekül sequenzieren. Sie würden immer noch ~250nt Reads erhalten, selbst wenn Sie ein ganzes Genom sequenzieren würden. Ihre Lesevorgänge sehen in etwa so aus ( Bildquelle ):
Die überwiegende Mehrheit Ihrer 250nt überlappt sich also und deckt leicht unterschiedliche Teile Ihrer Zielsequenz ab. Dies ist einer der Gründe, warum die NGS-Analyse nicht trivial ist. Der erste Schritt bei jeder NGS-Analyse besteht darin, Ihre Reads in einer BAM-Datei zusammenzustellen, die Ihre Zielregion abdeckt. Wenn Sie dabei Hilfe benötigen, besuchen Sie http://bioinformatics.stackexchange.com .
Mein Verständnis ist, dass, wenn die Reads direkt von der Sequenziermaschine kommen, sie alle die gleiche Länge haben werden. Das entspricht der Anzahl der Folgezyklen, auf die die Maschine eingestellt wurde. Dies hat keine biologische Bedeutung.
Ich weiß nicht, was die Maschine lesen wird, wenn sie mehr als die Länge des Fragments liest, das der Sequenzierung unterzogen wird.
Wenn die Fragmente kürzer sind als das, was der Sequenzer liest, müssen einige Bibliotheksvorbereitungsadapter aus den Sequenzen entfernt werden, um die tatsächlichen Fragmente wiederherzustellen. Dann sollten Sie in der Lage sein, die tatsächlichen Fragmentlängen zu sehen.
Wenn die Fragmente länger sind als das, was der Sequencer liest, siehe @terdons Antwort.
Terdon
Terdon
Abich