Warum und wie wird beim Varianten-Calling in vcf ein Multi-Allel gemeldet?

Das mag für viele hier eine sehr grundlegende Frage sein. Mit dem grundlegenden Verständnis der Vererbung kann der resultierende Genotyp, obwohl aufgrund mehrerer Allele die Möglichkeit mehrerer Genotypen besteht, nur zwei Allele (väterliches und mütterliches) aufweisen, sodass nach dem Variantenruf ein Allel an einer Position homozygot oder heterozygot sein kann. Es können also maximal zwei Allele vorhanden sein, aber warum sehen wir mehrere Allele an einer bestimmten Position in VCF? Ich versuche, die Wissenschaft dahinter zu verstehen. Bitte helfen sie aus. Danke!

chr5    127640782   .   AG  A,AA    .   .   .   GT:AD:DP    1/2:0,28,409:437
Können Sie bitte klarstellen, was Sie damit meinen multiple alleles at a given position in VCF.? Vielleicht könnten Sie einen Auszug aus einer VCF-Datei zeigen, um uns zu zeigen, was Sie meinen. Sind Sie überrascht, dass es in der Bevölkerung mehr als 2 Allele an einer bestimmten Stelle geben kann?

Antworten (3)

In Ihrem Beispiel enthält die 4. Spalte das Referenzallel an der angegebenen Position. Es wird nicht gesagt, dass Ihre Probe dies hat. Die 5. Spalte enthält alle alternativen Allele, die an der angegebenen Position gefunden wurden.

Welche Allele in Ihrer Probe vorhanden sind, ist in der letzten Spalte mit angegeben 1/2. Das bedeutet, dass Sie ein Allel mit dem ersten Wert in der 5. Spalte und ein Allel mit dem zweiten Wert in der 5. Spalte haben. Sie sehen, dass Ihre Probe genau Allele hat, aber keines davon die Referenz ist. Dies wird durch ein angezeigt 0.

Ein vcf kann mehrere Spalten enthalten, die Alleldaten für mehrere Proben darstellen. Ich sehe auch keinen Grund, warum Sie die Daten einer tetraploiden Probe nicht in einem vcf darstellen könnten. Man könnte auch eine Mischung von Organismen in einer Probe haben, wie eine gemischte Population von Bakterien. Wenn Sie Ihren SNP-Anrufer dazu bringen könnten, einen triallelischen SNP anzurufen, kann das vcf-Format damit umgehen.

Die andere Möglichkeit, die ich mir vorstellen kann, ist, dass das Format so konzipiert ist, dass es die Heterogenität zwischen einzelnen Zellen in einer Probe und unvermeidliche Sequenzierungsfehler berücksichtigt.

Wenn Sie eine Probe aus einem Organismus sequenzieren, der (meistens) zwei Allele an einem Locus (z. B. A und G) hat, kann es immer noch einzelne Zellen geben, die an diesem Locus ein C oder T haben, und es kann auch zu Sequenzierungsfehlern kommen, die ein einführen C oder T in Reads, die eigentlich ein A oder G waren. Das VCF-Format wäre dann immer noch in der Lage, die Aufrufe mit geringer Wahrscheinlichkeit zusätzlich zu den Aufrufen mit höherer Wahrscheinlichkeit darzustellen.