Warum eine Imputation durchführen?

Genetik-Datensätze enthalten Messungen für Millionen von Einzelnukleotid-Polymorphismen (SNPs). Einige (normalerweise kleine) Prozent dieser Werte sind von geringem Vertrauen und werden als fehlende Werte gekennzeichnet. Es ist üblich, diese fehlenden Werte unter Verwendung statistischer Beziehungen innerhalb der Stichproben mit hohem Vertrauen sowie von Beziehungen, die aus öffentlichen Datensätzen gewonnen wurden, zu imputieren. Dies ist sinnvoll, um eine Schätzung zu erhalten, wie hoch dieser kleine Prozentsatz fehlender Daten wahrscheinlich in Wirklichkeit ist.

Manchmal werden Analysen durchgeführt, die bis zu einer viel größeren Anzahl von SNPs imputieren – beispielsweise könnte eine Genotypisierungsplattform 2,5 Millionen SNPs messen, aber eine Imputation wird durchgeführt, um eine größere Stichprobe von 6 Millionen SNPs zu erhalten. Meine Frage ist, welchen Wert haben die zusätzlichen SNPs, die nie gemessen wurden, aus Analysesicht? Bei der Merkmalsauswahl oder Vorhersageanalyse scheint es, dass die imputierten SNPs wirklich nur statistische Beziehungen codieren, die von Anfang an im Datensatz vorhanden sind. Was bedeutet es, einen stark assoziierten oder prädiktiven SNP in der imputierten Menge zu finden?

Antworten (1)

In GWAS sind wir daran interessiert zu verstehen, welcher SNP einen kausalen Einfluss auf einen bestimmten Phänotyp hat. Derzeit werden groß angelegte Studien mit Genotypisierungsarrays durchgeführt. Für jeden SNP, den wir auf das Array legen, messen wir die im Patienten vorhandenen Allele.

Die Kosten für die Genotypisierung hängen natürlich davon ab, wie viele SNPs wir messen möchten. Das Problem beim Entwerfen eines Genotypisierungs-Arrays läuft also darauf hinaus: Welche SNPs legen wir auf ein solches Array, damit wir die meisten Informationen daraus erhalten.

Um diese Frage zu beantworten, ist es wichtig zu erkennen, dass SNP-Allele nicht unabhängig sind. SNPs, die im selben Haploblock liegen, sind stark korreliert. Daher reicht die Messung eines dieser SNPs oft aus, um die Allele anderer SNPs vorherzusagen, die sich im sogenannten Kopplungsungleichgewicht befinden. Beim Entwerfen eines Genotypisierungs-Arrays möchten wir wahrscheinlich nicht alle diese stark korrelierten SNPs messen, da wir nur sehr wenige Informationen erhalten. Stattdessen möchten Sie möglicherweise nur wenige von ihnen messen und dann die Allele der korrelierten aus Bevölkerungsstudiendaten imputieren (vorhersagen).

Also zurück zur GWAS-Analyse. Aus den SNPs auf dem entworfenen Genotypisierungsarray sagen wir nun SNPs voraus, die mit dem Phänotyp assoziiert sind. Angenommen, wir haben nach unserer statistischen Analyse einen zugehörigen SNP gefunden. Aber aus dem Design unseres Arrays wissen wir, dass es möglicherweise stark korrelierte SNPs gibt, die wir nicht gemessen haben. Alle von ihnen werden auch statistisch zugeordnet. Wenn wir das nicht unterstellen, könnten wir zu dem falschen Schluss kommen, dass wir das wahre kausale SNP bereits gefunden haben. Tatsächlich können es viele sein, und es ist oft sehr schwierig, die richtige zu finden.