Was ist der Unterschied zwischen Sequenz, Reads und Contigs von genetischem Material?

Kann jemand die Unterschiede zwischen Sequenz, Reads und Contigs von genetischem Material wie DNA erklären, wenn möglich mit einem Beispiel?

Ich bin neu in der Bioinformatik und habe im Internet keine schlüssigen Antworten auf all diese Konzepte gefunden.

Willkommen in der Biologie! Bezieht sich diese Frage auf ein bestimmtes Forschungsgebiet wie DNA?
Ja, ich denke schon. Bezug auf DNA, DNA-Sequenz
Sind Contigs nicht kurz für zusammenhängende bp-Sequenzen?

Antworten (2)

Mein Verständnis dieser drei Wörter ist wie folgt:

  • Sequenz ist ein generischer Name, der die Reihenfolge biologischer Buchstaben (DNA/RNA oder Aminosäuren) beschreibt. Sowohl Contigs als auch Reads sind DNA/RNA- oder AS-Sequenzen

  • Reads sind nur eine Abkürzung für sequenzierte Reads. Normalerweise beziehen sich sequenzierte Reads auf etwas digitale Informationen, die von der Sequenzierungsmaschine (z. B. Illumina MySeq) erhalten und in der fastqDatei mit Qualitätswerten pro Base gespeichert werden. Lesevorgänge sind normalerweise kurz. "Kurz" ändert sich jedoch schnell. Im Moment produziert MySeq überall Lesevorgänge mit einer Länge zwischen 50 und 150 Basenpaaren (bp). Aus einem einzigen Lauf (es hängt wirklich vom Lauf ab) können Sie Millionen von Lesevorgängen erhalten, wobei jeder Lesevorgang auf eine bp-Größe eingestellt wird, z. B. 100 bp lang. Alle Reads werden pro Replikat in einer einzigen fastqDatei gespeichert, wobei alle Reads in dieser Datei normalerweise eine einheitliche Größe haben, dh alle 5 Millionen Reads sind 100 bp lang.

Als Bioinformatiker besteht Ihre erste Aufgabe darin, herauszufinden, woher diese Reads stammen. Abhängig vom experimentellen Ziel und von der Art der Sequenzierung, die Sie durchgeführt haben, z. B. DNA-seq oder RNA-seq, können Sie auf Contigs stoßen oder auch nicht .

  • Contigs sind einfach zusammengestellte Reads. Zum Beispiel, wenn Sie De-novo- Transkriptomik durchführen. Dann würden Sie:

    1. Reinigen Sie Ihr Transkript aus einem Gewebe und schicken Sie es zur Sequenzierung
    2. Holen Sie sich Ihre Fastq-Dateien mit sequenzierten Lesevorgängen, die alle kurze Lesevorgänge sind (z. B. 100 bp)
    3. Setzen Sie diese 100-bp-Reads zu einem längeren Contig zusammen , das hoffentlich Ihrem individuellen Transkript ähnelt
@vvilp keine probs. nebenbei ist hier ein cooles pdf, das ich irgendwo im Internet gefunden habe helix.biology.mcmaster.ca/3S03.pdf . es könnte Ihnen beim Lernen der Bioinformatik helfen
PDF habe ich mir angesehen. Schöne Anleitung! Vielen Dank
@vvilp Ich bin froh, dass es geholfen hat. Übrigens hier ist der Link biology.stackexchange.com/questions/31546/… wo ich diese PDF-Datei gefunden habe. Möglicherweise gibt es weitere nützliche Informationen für Ihre Bioinfo

Ich werde dasselbe sagen wie @Serine, aber in einem etwas anderen Kontext. Nehmen wir ein Beispiel, bei dem Sie Raucher mit Nichtrauchern vergleichen möchten.

In diesem Zusammenhang möchten Sie eine DNA-Sequenz von Rauchern nehmen. Aufgrund technologischer Einschränkungen erhalten Sie jedoch keine einzige DNA-Sequenz von der Sequenziermaschine. Sie erhalten Millionen von kurzen überlappenden DNA-Sequenzen, die als Reads bekannt sind.

Wir brauchen einen Assembler , der die Reads „kartiert“ und sie mit einem Referenzgenom vergleicht. In diesem Beispiel könnte das Referenzgenom das menschliche HG38 gewesen sein.

Der Assembler müsste die überlappenden Lesevorgänge zu einem Satz nicht überlappender Regionen zusammenführen, die als Contigs bekannt sind.

Herkömmliche Aligner stellen keine Reads zusammen.
Entschuldigung, ich meinte Karten.
Danke, Student T. Jetzt kenne ich hauptsächlich den Unterschied zwischen Reads und Contigs