Ich arbeite an einem Projekt, in dem ich ursächliche Gene für eine bestimmte Krankheit, die ich haben könnte, entdecken möchte. Ich habe mich gefragt, ob ich WGS oder WES dazu bringen soll, dieses Experiment durchzuführen: -
Ich schaue mir die SNPs und CNVs meiner Gene an und möchte meine Daten mit denen normaler und kranker Personen vergleichen. Für ein Gen berechne ich den Dokumentenabstand für jede Gruppe (normal und krank) mit diesem Algorithmus ( https://math.stackexchange.com/questions/1080377/how-close-apart-are-two-message-document-distance- Algorithmus ), da dies es mir ermöglicht, anhand des Algorithmus und der von den beiden Gruppen erhaltenen Daten zu bestimmen, welche Gene ich habe, die abnormal sind oder "fast" als abnormal klassifiziert werden, und welche Gene normal oder "nahezu" als normal bezeichnet werden .
Um dieses Experiment durchzuführen, muss ich mein Genom sequenzieren UND Datenbanken identifizieren, die es mir ermöglichen würden, meine Analyse durchzuführen. Ich wollte wissen, welches für mein Experiment WGS oder WES besser ist, da öffentlich verfügbare Daten die Entscheidung ebenfalls beeinflussen könnten.
Außerdem glaube ich, dass alternatives Spleißen eine Ebene der Komplexität hinzufügt, und wollte wissen, warum WES trotzdem durchgeführt wird.
Vielen Dank im Voraus für Ihre Antworten. Bitte antworten Sie, was immer Sie können. Noch einmal vielen Dank!
WES, fast sicher. Zunächst einmal findet sich die überwiegende Mehrheit der phänotypverursachenden Varianten in Exons. Für die meisten Analysen, die krankheitsverursachende Mutationen untersuchen, ist WGS sinnlos. Es erschwert nur Ihre Analyse und fügt eigentlich nichts Nützliches hinzu.
Wenn Sie wissen , dass Sie an CNVs interessiert sind, ist das etwas anderes. Die CNV-Erkennung ist im Allgemeinen schwierig, aber besonders schwierig bei WES-Daten. Das Erkennen von CNVs in WGS-Daten ist viel weniger fehleranfällig. Allerdings sollten Sie wirklich bedenken, dass es derzeit keine „guten“ Methoden gibt, um CNVs zu erkennen. Dies ist ein nicht triviales Problem und steckt noch in den Kinderschuhen. Obwohl es verschiedene Methoden gibt, mit denen CNVs erkannt werden können, findet keine davon alle (oder auch nur annähernd alle). Tatsächlich ist dies ein solches Problem auf diesem Gebiet, dass die derzeit akzeptierte Weisheit lautet, dass Sie mehrere Methoden verwenden und die Ergebnisse kombinieren sollten. Tatsächlich tun viele neuere CNV-Detektoren genau das. Und sie immer nochnicht alle finden (insbesondere nicht in WES-Daten). Grundsätzlich ist die CNV-Erkennung nichts für schwache Nerven und sicherlich nichts für Laien.
Die gute Nachricht ist, dass es sehr unwahrscheinlich ist, dass es sich bei einer krankheitsverursachenden Mutation um eine CNV handelt. Es ist viel wahrscheinlicher, dass Sie nur nach SNPs suchen. Womit wir beim nächsten Thema wären. Ich fürchte, der Algorithmus, den Sie verlinkt haben, wird Ihnen, soweit ich das beurteilen kann, überhaupt nicht helfen. Sie versuchen nicht, Ihr Gen mit einer Liste von gesunden und ungesunden zu vergleichen und herauszufinden, welche Gruppe Ihrer eigenen am ähnlichsten ist. Erstens, weil es viele Unterschiede (Mutationen) gibt, die eigentlich gar nichts bewirken. Diese sogenannten synonymen Mutationenwürde immer noch von Ihrem Algorithmus gezählt, sollte aber ignoriert werden. Zweitens, weil kleine Unterschiede enorm wichtig sein können. Es gibt spezielle Tools für das, was Sie tun möchten. Versuchen Sie nicht, breite, allgemeine mathematische Ansätze anzuwenden. Sie brauchen Algorithmen, die speziell auf den Umgang mit biologischen Daten ausgelegt sind und die zugrunde liegende Biologie berücksichtigen.
Was Sie also suchen, sind Programme namens "Variant Callers". Zwei der beliebtesten sind GATK und FreeBayes . Diese lesen ein Eingabegenom und vergleichen es mit einem Referenzgenom und geben Ihnen eine Liste von "Varianten", Stellen, an denen sich die Eingabe von der Referenz unterscheidet. Sie möchten dann Ressourcen wie ClinVar oder MutationTaster verwenden , um zu überprüfen, ob diese Varianten als pathogen gelten. Das ist ein bisschen schamlose Eigenwerbung, da ich für das Unternehmen arbeite, das es entwickelt hat, aber VarSome , "The Human Genomic Variant Search Engine", ist eine neue Suchmaschine, die Informationen aus vielen verschiedenen Quellen zentralisiert und einfach zu durchsuchen kombiniert Repository.
Bevor Sie jedoch Ihre Varianten finden, müssen Sie Ihr Genom an der Referenz ausrichten. Grundsätzlich funktionieren moderne Sequenzierungsmethoden, indem sie das Genom in viele, viele kleine Stücke schneiden, jedes Stück mehrfach kopieren und dann jedes Stück sequenzieren. Die Ausgabe eines Sequenzierungslaufs ist also eine Textdatei, die so aussieht:
@SN956:1934:H55WMBBXX:2:1101:0:15733 1:N:0:NTTACTCG
NCCCCAAGGAGACTTGCTGAGACCTTGAACAAGTGACACAATGTGAGCAGAACTTGTCTTGACAGAAAATGCTTTG
+
#AAAFJJJJJJJJJFFJJJJJJJJJJJJJJJJJJJJJJJJJJFJJJJJJJJJJJJJJJJJAJJJJFAJJJJJFJJ7
@SN956:1934:H55WMBBXX:2:1101:0:15743 1:N:0:NTTACTCG
NCTTCCTCACTAAAGTCCCATTTAGTGCTGATTGTGCTTTGGCTACTTCTCCTCTTGCCATTTTCCTGAACCCACG
+
#AAFFJJJJJJJJJJJJJJJJJJJJJJJJJFJJJJJJJJJJJJJJJJJJJJJJJJJFJJJJJJJJJJJJJJJJJJF
Dies sind normalerweise mehrere Gigabyte (etwas wie ~2-3G für WES und >80G für WGS). Daher erfordert das Alignment dieser Sequenzen eine leistungsstarke Maschine, und Sie möchten nicht einmal versuchen, WGS-Sequenzen auf Ihrem Laptop auszurichten. Es wird Wochen dauern und wahrscheinlich scheitern. Ein weiterer Grund, warum Sie dafür WES gegenüber WGS bevorzugen sollten. In meiner Arbeit richte ich WGS-Daten routinemäßig am Referenzgenom aus, und das kann leicht > 100 GB RAM beanspruchen .
Das Fazit und was diese weitschweifige Antwort zu vermitteln versucht, ist Folgendes:
Also, wenn Sie tatsächlich das Geld haben, um eine WGS-Analyse zu bezahlen (das kostet mehrere tausend Euro/Dollar, falls Sie es nicht wussten), was als Privatperson sehr überraschend ist, anstatt es auszugeben auf WGS, holen Sie sich ein WES und geben Sie Ihr Geld aus, um einen Experten zu gewinnen, der Ihre Daten für Sie analysiert. Im Ernst, das ist, was ich beruflich mache, Sie scheinen wirklich nicht begriffen zu haben, wie kompliziert das ist. Und nein, ich schlage nicht vor, dass Sie mich einstellen :). Es gibt jedoch Firmen, die diese Art von Service anbieten. Nutze sie, erfinde das Rad nicht neu.
Nützliche Übersichtsartikel zur CNV-Erkennung:
Inhibitor
mgkrebbs
Physio
WYSIWYG
Terdon