Sequenzierung des gesamten Genoms vs. Sequenzierung des gesamten Exoms

Ich arbeite an einem Projekt, in dem ich ursächliche Gene für eine bestimmte Krankheit, die ich haben könnte, entdecken möchte. Ich habe mich gefragt, ob ich WGS oder WES dazu bringen soll, dieses Experiment durchzuführen: -

Ich schaue mir die SNPs und CNVs meiner Gene an und möchte meine Daten mit denen normaler und kranker Personen vergleichen. Für ein Gen berechne ich den Dokumentenabstand für jede Gruppe (normal und krank) mit diesem Algorithmus ( https://math.stackexchange.com/questions/1080377/how-close-apart-are-two-message-document-distance- Algorithmus ), da dies es mir ermöglicht, anhand des Algorithmus und der von den beiden Gruppen erhaltenen Daten zu bestimmen, welche Gene ich habe, die abnormal sind oder "fast" als abnormal klassifiziert werden, und welche Gene normal oder "nahezu" als normal bezeichnet werden .

Um dieses Experiment durchzuführen, muss ich mein Genom sequenzieren UND Datenbanken identifizieren, die es mir ermöglichen würden, meine Analyse durchzuführen. Ich wollte wissen, welches für mein Experiment WGS oder WES besser ist, da öffentlich verfügbare Daten die Entscheidung ebenfalls beeinflussen könnten.

Außerdem glaube ich, dass alternatives Spleißen eine Ebene der Komplexität hinzufügt, und wollte wissen, warum WES trotzdem durchgeführt wird.

Vielen Dank im Voraus für Ihre Antworten. Bitte antworten Sie, was immer Sie können. Noch einmal vielen Dank!

Schwer zu beantworten, ohne mehr über die Krankheit zu wissen. Ich denke, in vielen Fällen wäre Exom in Ordnung, da jede Krankheit, die Sie haben, wahrscheinlich durch ein fehlerhaftes Protein verursacht wird, aber die Mutation könnte auch an einer Spleißstelle oder regulatorischen Sequenz liegen. Mit der Sequenzierung des gesamten Genoms würden Sie eine Menge Mist bekommen, da wir alle genetisch unterschiedlich sind.
Möglicherweise mit Ausnahme einiger CNVs ist es unwahrscheinlich, dass ein "Abstands" -Maß von Genomsequenzunterschieden irgendetwas Nützliches ergibt. Ein einziger Basisunterschied kann große Folgen haben oder trotz des gleichen Entfernungsmaßes überhaupt keine Folgen haben.
Danke euch beiden für eure Antworten! Ich habe eine Liste von Kandidatengenen, die durch GWA-Studien identifiziert wurden. Ich dachte daran, nur diese Gene zu profilieren und nach Hinweisen zu suchen. Wie @mgkrebbs zu Recht darauf hingewiesen hat, dass ein einziger Basisunterschied den Unterschied ausmachen kann oder überhaupt keinen Unterschied, lässt mich meine Methode in Frage stellen. Könnt ihr mir Alternativen vorschlagen?
Wenn Sie das Geld und anständige Computer haben, entscheiden Sie sich für WGS. Es ist definitiv informativer als WES. Die Exom-Sequenzierung wird hauptsächlich durchgeführt, um Ressourcen zu sparen.
@WYSIWYG Es ist auch viel, viel einfacher, aussagekräftige Informationen aus WES zu extrahieren.

Antworten (1)

WES, fast sicher. Zunächst einmal findet sich die überwiegende Mehrheit der phänotypverursachenden Varianten in Exons. Für die meisten Analysen, die krankheitsverursachende Mutationen untersuchen, ist WGS sinnlos. Es erschwert nur Ihre Analyse und fügt eigentlich nichts Nützliches hinzu.

Wenn Sie wissen , dass Sie an CNVs interessiert sind, ist das etwas anderes. Die CNV-Erkennung ist im Allgemeinen schwierig, aber besonders schwierig bei WES-Daten. Das Erkennen von CNVs in WGS-Daten ist viel weniger fehleranfällig. Allerdings sollten Sie wirklich bedenken, dass es derzeit keine „guten“ Methoden gibt, um CNVs zu erkennen. Dies ist ein nicht triviales Problem und steckt noch in den Kinderschuhen. Obwohl es verschiedene Methoden gibt, mit denen CNVs erkannt werden können, findet keine davon alle (oder auch nur annähernd alle). Tatsächlich ist dies ein solches Problem auf diesem Gebiet, dass die derzeit akzeptierte Weisheit lautet, dass Sie mehrere Methoden verwenden und die Ergebnisse kombinieren sollten. Tatsächlich tun viele neuere CNV-Detektoren genau das. Und sie immer nochnicht alle finden (insbesondere nicht in WES-Daten). Grundsätzlich ist die CNV-Erkennung nichts für schwache Nerven und sicherlich nichts für Laien.

Die gute Nachricht ist, dass es sehr unwahrscheinlich ist, dass es sich bei einer krankheitsverursachenden Mutation um eine CNV handelt. Es ist viel wahrscheinlicher, dass Sie nur nach SNPs suchen. Womit wir beim nächsten Thema wären. Ich fürchte, der Algorithmus, den Sie verlinkt haben, wird Ihnen, soweit ich das beurteilen kann, überhaupt nicht helfen. Sie versuchen nicht, Ihr Gen mit einer Liste von gesunden und ungesunden zu vergleichen und herauszufinden, welche Gruppe Ihrer eigenen am ähnlichsten ist. Erstens, weil es viele Unterschiede (Mutationen) gibt, die eigentlich gar nichts bewirken. Diese sogenannten synonymen Mutationenwürde immer noch von Ihrem Algorithmus gezählt, sollte aber ignoriert werden. Zweitens, weil kleine Unterschiede enorm wichtig sein können. Es gibt spezielle Tools für das, was Sie tun möchten. Versuchen Sie nicht, breite, allgemeine mathematische Ansätze anzuwenden. Sie brauchen Algorithmen, die speziell auf den Umgang mit biologischen Daten ausgelegt sind und die zugrunde liegende Biologie berücksichtigen.

Was Sie also suchen, sind Programme namens "Variant Callers". Zwei der beliebtesten sind GATK und FreeBayes . Diese lesen ein Eingabegenom und vergleichen es mit einem Referenzgenom und geben Ihnen eine Liste von "Varianten", Stellen, an denen sich die Eingabe von der Referenz unterscheidet. Sie möchten dann Ressourcen wie ClinVar oder MutationTaster verwenden , um zu überprüfen, ob diese Varianten als pathogen gelten. Das ist ein bisschen schamlose Eigenwerbung, da ich für das Unternehmen arbeite, das es entwickelt hat, aber VarSome , "The Human Genomic Variant Search Engine", ist eine neue Suchmaschine, die Informationen aus vielen verschiedenen Quellen zentralisiert und einfach zu durchsuchen kombiniert Repository.

Bevor Sie jedoch Ihre Varianten finden, müssen Sie Ihr Genom an der Referenz ausrichten. Grundsätzlich funktionieren moderne Sequenzierungsmethoden, indem sie das Genom in viele, viele kleine Stücke schneiden, jedes Stück mehrfach kopieren und dann jedes Stück sequenzieren. Die Ausgabe eines Sequenzierungslaufs ist also eine Textdatei, die so aussieht:

@SN956:1934:H55WMBBXX:2:1101:0:15733 1:N:0:NTTACTCG
NCCCCAAGGAGACTTGCTGAGACCTTGAACAAGTGACACAATGTGAGCAGAACTTGTCTTGACAGAAAATGCTTTG
+
#AAAFJJJJJJJJJFFJJJJJJJJJJJJJJJJJJJJJJJJJJFJJJJJJJJJJJJJJJJJAJJJJFAJJJJJFJJ7
@SN956:1934:H55WMBBXX:2:1101:0:15743 1:N:0:NTTACTCG
NCTTCCTCACTAAAGTCCCATTTAGTGCTGATTGTGCTTTGGCTACTTCTCCTCTTGCCATTTTCCTGAACCCACG
+
#AAFFJJJJJJJJJJJJJJJJJJJJJJJJJFJJJJJJJJJJJJJJJJJJJJJJJJJFJJJJJJJJJJJJJJJJJJF

Dies sind normalerweise mehrere Gigabyte (etwas wie ~2-3G für WES und >80G für WGS). Daher erfordert das Alignment dieser Sequenzen eine leistungsstarke Maschine, und Sie möchten nicht einmal versuchen, WGS-Sequenzen auf Ihrem Laptop auszurichten. Es wird Wochen dauern und wahrscheinlich scheitern. Ein weiterer Grund, warum Sie dafür WES gegenüber WGS bevorzugen sollten. In meiner Arbeit richte ich WGS-Daten routinemäßig am Referenzgenom aus, und das kann leicht > 100 GB RAM beanspruchen .

Das Fazit und was diese weitschweifige Antwort zu vermitteln versucht, ist Folgendes:

  • WES ist besser als WGS bei der Suche nach krankheitsverursachenden Mutationen. Es ist viel einfacher, die Daten zu analysieren, und 99 % der gewünschten Fälle befinden sich in Exons. Es ist auch viel, viel billiger.
  • Das ist nicht einfach. Du scheinst zu denken, dass du sozusagen reinspazieren und es selbst machen kannst. Sie können, aber es ist alles andere als trivial. Es ist auch nicht billig.

Also, wenn Sie tatsächlich das Geld haben, um eine WGS-Analyse zu bezahlen (das kostet mehrere tausend Euro/Dollar, falls Sie es nicht wussten), was als Privatperson sehr überraschend ist, anstatt es auszugeben auf WGS, holen Sie sich ein WES und geben Sie Ihr Geld aus, um einen Experten zu gewinnen, der Ihre Daten für Sie analysiert. Im Ernst, das ist, was ich beruflich mache, Sie scheinen wirklich nicht begriffen zu haben, wie kompliziert das ist. Und nein, ich schlage nicht vor, dass Sie mich einstellen :). Es gibt jedoch Firmen, die diese Art von Service anbieten. Nutze sie, erfinde das Rad nicht neu.

Verweise

Nützliche Übersichtsartikel zur CNV-Erkennung:

  1. Zhaoet al. BMC Bioinformatics , 2013, 14 (Suppl 11):S1 (DOI: 10.1186/1471-2105-14-S11-S1, Link )
  2. Tattini L, D'Aurizio R und Magi A Front. Bioeng. Biotechnologie , 2015. 3:92 . (DOI: 10.3389/fbioe.2015.00092, Link )