Kann jemand die Unterschiede zwischen Sequenz, Reads und Contigs von genetischem Material wie DNA erklären, wenn möglich mit einem Beispiel?
Ich bin neu in der Bioinformatik und habe im Internet keine schlüssigen Antworten auf all diese Konzepte gefunden.
Mein Verständnis dieser drei Wörter ist wie folgt:
Sequenz ist ein generischer Name, der die Reihenfolge biologischer Buchstaben (DNA/RNA oder Aminosäuren) beschreibt. Sowohl Contigs als auch Reads sind DNA/RNA- oder AS-Sequenzen
Reads sind nur eine Abkürzung für sequenzierte Reads. Normalerweise beziehen sich sequenzierte Reads auf etwas digitale Informationen, die von der Sequenzierungsmaschine (z. B. Illumina MySeq) erhalten und in der fastq
Datei mit Qualitätswerten pro Base gespeichert werden. Lesevorgänge sind normalerweise kurz. "Kurz" ändert sich jedoch schnell. Im Moment produziert MySeq überall Lesevorgänge mit einer Länge zwischen 50 und 150 Basenpaaren (bp). Aus einem einzigen Lauf (es hängt wirklich vom Lauf ab) können Sie Millionen von Lesevorgängen erhalten, wobei jeder Lesevorgang auf eine bp-Größe eingestellt wird, z. B. 100 bp lang. Alle Reads werden pro Replikat in einer einzigen fastq
Datei gespeichert, wobei alle Reads in dieser Datei normalerweise eine einheitliche Größe haben, dh alle 5 Millionen Reads sind 100 bp lang.
Als Bioinformatiker besteht Ihre erste Aufgabe darin, herauszufinden, woher diese Reads stammen. Abhängig vom experimentellen Ziel und von der Art der Sequenzierung, die Sie durchgeführt haben, z. B. DNA-seq oder RNA-seq, können Sie auf Contigs stoßen oder auch nicht .
Contigs sind einfach zusammengestellte Reads. Zum Beispiel, wenn Sie De-novo- Transkriptomik durchführen. Dann würden Sie:
Ich werde dasselbe sagen wie @Serine, aber in einem etwas anderen Kontext. Nehmen wir ein Beispiel, bei dem Sie Raucher mit Nichtrauchern vergleichen möchten.
In diesem Zusammenhang möchten Sie eine DNA-Sequenz von Rauchern nehmen. Aufgrund technologischer Einschränkungen erhalten Sie jedoch keine einzige DNA-Sequenz von der Sequenziermaschine. Sie erhalten Millionen von kurzen überlappenden DNA-Sequenzen, die als Reads bekannt sind.
Wir brauchen einen Assembler , der die Reads „kartiert“ und sie mit einem Referenzgenom vergleicht. In diesem Beispiel könnte das Referenzgenom das menschliche HG38 gewesen sein.
Der Assembler müsste die überlappenden Lesevorgänge zu einem Satz nicht überlappender Regionen zusammenführen, die als Contigs bekannt sind.
AliceD
vvilp
Benutzer15814