GWAS: Warum ist die Replikation in einer anderen Kohorte so wichtig?

Fast alle wegweisenden GWAS-Reviews (Genome-Wide Association Studies) stimmen darin überein, dass ein gültiger GWAS-Befund in einer unabhängigen Kohorte repliziert werden muss. Was genau ist die Begründung dahinter? Ist dieses Kriterium auch dann noch gültig, wenn das Ziel die Suche nach Genen für funktionelle Studien ist, anstatt eine klinische Perspektive der Suche nach Suszeptibilitäts-Loci zu haben? In Anbetracht der Schwierigkeit, einige phänotypische Charakterisierungen in einer großen Anzahl von Probanden zu replizieren, erscheint diese ganze Sache für einen Biologen irrelevant.

Stellen Sie sich das folgende Szenario vor: Angenommen, ich habe 5000 phänotypisierte Personen mit einem Budget, um sie alle genomweit zu genotypisieren. Die Phänotypisierung erfordert eine hochmoderne Methodik mit immensen Kosten, und die Kohorte wurde durch ein anderes Stipendium phänotypisiert. Welchen Sinn hätte es, meine Kohorte als Entdeckungs- und Replikationsgruppen in zwei aufzuteilen, außer um Geld im Austausch für Statistikleistung zu sparen. Fügen Sie dazu die anschließenden funktionellen Studien zu den zugehörigen Loci hinzu, was wäre der Sinn, ein paar SNPs bei 500 weiteren Menschen zu genotypisieren? Wenn man diese zusätzliche Kohorte tatsächlich finden kann, wäre es nicht eine bessere Option, alle verfügbaren Kohorten in einer Metaanalyse zu kombinieren, anstatt sie für die Replikation zu verwenden?

Stellen Sie sich das so vor: Wenn die Studie nicht in einer unabhängigen Kohorte repliziert werden kann, was bedeutet das für Ihre Ergebnisse in Bezug auf die Anwendbarkeit?
Tolle Frage. Die Antwort ist die Korrektur nicht zufälliger technischer Verzerrungen. Werde darauf in einer Antwort eingehen, sobald ich etwas Zeit finde. Sie sollten eine genotypisierte Kohorte nicht in zwei Teile teilen, dadurch könnten Sie die Populationsstruktur korrigieren (und nicht wirklich, da Sie sie sowieso mit einer einfachen PCA basierend auf dem Genotyp korrigieren können), aber definitiv nicht für technische Verzerrungen. Bevölkerung kann auch ein Grund sein, aber es ist nicht der Hauptgrund (bevölkerungsspezifische SNPs sind informativ).

Antworten (2)

Als Ergänzung zu meinem Kommentar.

Zusammenfassung: In GWAS-Studien ist eine Replikation erforderlich, um nicht zufällige technische Verzerrungen zu berücksichtigen.

Ein Beispiel für eine solche Voreingenommenheit ist beispielsweise ein Chip, der für die Genotypisierung verwendet wird und durchweg falsche Genotypen für einen Locus liefert. In dieser Situation wird das Hinzufügen weiterer Probanden diesen Effekt nicht korrigieren und daher besteht die einzige Lösung darin, zusätzliche Probanden mit einer anderen Methode (z. B. einem anderen Chip oder Versuchsprotokoll) zu genotypisieren. Eine weitere Quelle für nicht zufällige technische Verzerrungen liegt auf der Ebene der Phänotypmessung. Möglicherweise möchten Sie, wenn möglich, den Phänotyp mit anderen Techniken messen, um sicherzustellen, dass die Verzerrung korrigiert wird.

Eine Replikationskohorte muss nicht riesig sein, und die tatsächlich benötigte Größe hängt weitgehend von der Effektgröße des SNP ab, die in der Entdeckungskohorte beobachtet wird. Eine " Power-to-Detect "-Berechnung würde bei der Vorhersage der benötigten Kohortengröße helfen. Damit ein SNP signifikant ist, muss er die Bonferroni-Korrektur bestehen, aber da Sie einen statistischen Test nur an der Kandidatenstelle durchführen können, ist die Korrektur normalerweise nicht sehr streng (dh Sie können Assoziationstests an "nur" einigen Dutzend oder Hunderten SNPs durchführen ).

In der Vergangenheit war die GWAS-Replikation auch erforderlich, um die Bevölkerungsstruktur zu korrigieren, aber da sich die Tools erheblich weiterentwickelt haben (z. B. die Verwendung der Hauptkomponentenanalyse) und die Kohortengrößen jetzt wesentlich größer sind als in den ersten GWA-Studien, ist dies weniger besorgniserregend. Was erforderlich war, war, andere Probanden aus derselben oder einer anderen Population unabhängig voneinander zu beproben.

Für Ihre Situation könnten Sie Ihre Kohorte in ein Entdeckungs- und ein Replikationspanel aufteilen, Ihr Subjekt im Replikationspanel mit einer unabhängigen Technik genotypisieren, schließlich dasselbe mit der Phänotypisierung tun und Ihre Kandidaten-SNPs replizieren. Das benötigte Replikationspanel muss aus den im vorherigen Absatz genannten Gründen normalerweise kleiner als die Entdeckungskohorte sein.

Zu Ihrer letzten Frage zur Meta-Analyse. Ja, dies könnte auch ein Weg sein, aber seien Sie vorsichtig, dass Sie immer noch eine Replikationskohorte benötigen, um auf diese Weise gefundene SNPs zu validieren, was zu genau demselben Problem führt, das Sie beschrieben haben.

Ich hoffe, das hilft!

Wie bei allen ernsthaften wissenschaftlichen Ergebnissen müssen GWAS-Ergebnisse von anderen validiert werden. In diesem Fall ist es äußerst wichtig, da diese Studien Mutationen mit Krankheiten oder allgemeiner gegebene Genotypen mit Phänotypen verknüpfen und so mögliche Ursachen aufzeigen. Daher ist die Validierung dieser Ergebnisse durch die Verwendung unabhängiger „Stichproben“ in der Tat von entscheidender Bedeutung. Aber wie gesagt, alle ernsthaften (bemerkenswerten) wissenschaftlichen Erkenntnisse sollten reproduzierbar sein.

Bearbeiten: Der Punkt darin ist Zufälligkeit und Unterabtastung. Solch eine große Kohorte sollte nicht aus einer kleinen Subpopulation, sondern aus vielen Regionen der Welt stammen, und indem Sie Ihre Individuen zufällig in zwei oder sogar mehr Gruppen unterteilen, stellen Sie sicher, dass andere Hintergrundeffekte wie lokale Gen-Allel-Variationshäufigkeiten, Unterschiede im Lebensstil usw Durchschnitt aus. Stellen Sie sich ein Szenario vor, in dem Sie 90 Individuen haben, von denen Sie bei 60 den Genotyp mit dem Phänotyp verknüpfen können. das sind 2/3 der Individuen. Aber wenn Sie 3 Teilstichproben von 30 Personen nehmen und 7/23, 17/13 und 6/24 (nicht verknüpft/verknüpft) erhalten, sind das 76,6 % (23/30), 43,3 % (13/30) und 80 %. (24/30). Aus diesen können Sie den gleichen Durchschnitt von 66,6 % erhalten, aber mit einer Standardabweichung (15,5) und einem Konfidenzintervall, das nicht nur eine Zahl ist.

Lassen Sie mich die Frage näher erläutern: Angenommen, ich habe 5000 phänotypisierte Individuen mit einem Budget, um sie alle genomweit zu genotypisieren. Welchen Sinn hätte es, meine Kohorte als Entdeckungs- und Replikationsgruppen in zwei aufzuteilen, außer um Geld im Austausch für Statistikleistung zu sparen. Fügen Sie dazu die anschließenden funktionellen Studien zu den zugehörigen Loci hinzu, was wäre der Sinn, ein paar SNPs bei 500 weiteren Menschen zu genotypisieren?
Wäre es im obigen Szenario, in dem SNP-Chips im Vergleich zur Phänotypisierung von Individuen viel weniger kosten, nicht eine bessere Option, alle verfügbaren Kohorten in einer Metaanalyse zu kombinieren, anstatt sie für die Replikation zu verwenden?
Es liegt nicht wirklich an Population und Stichproben, sondern eher an technischen Vorurteilen. Wie Sie darauf hingewiesen haben, erwarten Sie bei einer so großen Bevölkerungsgröße (> 5000) keine so große Variation aufgrund lokaler Bevölkerungsvariationen oder Stichprobenverzerrungen. Außerdem bitten Sie die Rezensenten nicht, Ihre Ergebnisse in einer anderen Population zu replizieren, sondern in einer anderen Kohorte (könnte derselbe Populations-"Typ" sein). Letzter Punkt, nein, Sie müssen kein GWAS für Menschen aus der ganzen Welt ausführen, Sie können ein GWAS in einem ganz bestimmten Pop ausführen, wenn Sie möchten, und die entdeckten Assoziationen in einem Replikationspanel aus demselben Pop replizieren.
Ich stimme zu, aber ich wollte eine "allgemeine" Antwort auf die Durchführung von Parallelen geben, anstatt mich auf das eigentliche GWAS zu konzentrieren (da es aus dieser Sicht wie jedes andere Experiment ist). Ich stimme Ihrem letzten Punkt voll und ganz zu, aber noch einmal meins Ziel war es, die positiven Auswirkungen der Unterteilung Ihrer Stichprobe in Untergruppen hervorzuheben.