Biologische Bedeutung der Leselänge

Ich habe einige FASTQ-Dateien in zwei Datensätzen, die Sequenzen aus der Region 16Srna sind. Der erste Datensatz sind Amplicons aus der V4-Region und der zweite ist die V3-V4-Region.

Alle Reads sind jedoch 250 Nukleotide lang, wobei eine Region streng in der anderen enthalten ist. Was ist also die biologische Bedeutung der Länge?

Ich erwarte, dass die Lesevorgänge dieselbe Länge wie die sequenzierte/amplifizierte Region haben. Ich kenne die Größe der Regionen nicht, aber eine ist offensichtlich länger als die andere.

Danke (ich dachte, es wäre besser, hier zu fragen als auf bioinformatics.stackexchange.com)

Dies ist hier absolut ein Thema, ich wollte Sie nur wissen lassen, dass es auch ein Thema zur Bioinformatik sein würde, wie in diesem Meta-Thread beschlossen . Für welche der beiden Seiten Sie sich entscheiden, bleibt ganz Ihnen überlassen.
Könnten Sie Ihre Frage bearbeiten und klären, was Ihnen seltsam erscheint? Welche Länge der Lesevorgänge haben Sie erwartet? Was Sie beschreiben, ist Standard, aber etwas scheint Sie zu verwirren. Was ist das?
Ich habe meine Frage nach dem Kommentar von @terdon bearbeitet.

Antworten (2)

Die Leselänge hat absolut nichts damit zu tun, was Sie sequenzieren. Es ist ein Merkmal der von Ihnen verwendeten Sequenzierungstechnologie. NGS-Sequenzierungstechniken erzeugen normalerweise diese Art von kurzen Lesevorgängen, die Sie sehen. Die Read-Länge ändert sich nicht, da Sie ein längeres Molekül sequenzieren. Sie würden immer noch ~250nt Reads erhalten, selbst wenn Sie ein ganzes Genom sequenzieren würden. Ihre Lesevorgänge sehen in etwa so aus ( Bildquelle ):

Bild, das Reads zeigt, die an einem Genom ausgerichtet sind

Die überwiegende Mehrheit Ihrer 250nt überlappt sich also und deckt leicht unterschiedliche Teile Ihrer Zielsequenz ab. Dies ist einer der Gründe, warum die NGS-Analyse nicht trivial ist. Der erste Schritt bei jeder NGS-Analyse besteht darin, Ihre Reads in einer BAM-Datei zusammenzustellen, die Ihre Zielregion abdeckt. Wenn Sie dabei Hilfe benötigen, besuchen Sie http://bioinformatics.stackexchange.com .

Danke für deine Antwort. Aber etwas verstehe ich nicht: Bei dieser Technik des "Schneidens des Moleküls", das sequenziert werden muss, wo platzieren Sie Ihre Barcodes? (wenn es mehrere Proben aus verschiedenen Quellen gibt)
@MrSnake am Ende des Lesevorgangs, aber das sollte wirklich eine separate Frage sein.

Mein Verständnis ist, dass, wenn die Reads direkt von der Sequenziermaschine kommen, sie alle die gleiche Länge haben werden. Das entspricht der Anzahl der Folgezyklen, auf die die Maschine eingestellt wurde. Dies hat keine biologische Bedeutung.

Ich weiß nicht, was die Maschine lesen wird, wenn sie mehr als die Länge des Fragments liest, das der Sequenzierung unterzogen wird.

Wenn die Fragmente kürzer sind als das, was der Sequenzer liest, müssen einige Bibliotheksvorbereitungsadapter aus den Sequenzen entfernt werden, um die tatsächlichen Fragmente wiederherzustellen. Dann sollten Sie in der Lage sein, die tatsächlichen Fragmentlängen zu sehen.

Wenn die Fragmente länger sind als das, was der Sequencer liest, siehe @terdons Antwort.