Diffusionsnäherung an genetische Drift

Ich lese aus dem klassischen Lehrbuch Principles of Population Genetics, Hartl und Clark (pdf hier ).

Einführung

Lassen f ( p , x , t ) bezeichnen die Verteilung der Allelhäufigkeit x zum Zeitpunkt t das zu der Zeit wissen t = 0 Die Frequenz war p . Man kann die zeitliche Änderung dieser Verteilung unter Verwendung der Kolmogorov-Vorwärtsgleichung modellieren

f ( p , x , t ) t = [ M ( x ) f ( p , x , t ) ] x + 1 2 2 [ v ( x ) f ( p , x , t ) ] x 2

wo M ( x ) ist der "Driftparameter", der die natürliche Selektion darstellt (also in Abwesenheit der Selektion M ( x ) = 0 ), und v ( x ) ist der "Diffusionsparameter", der die genetische Drift darstellt. Der Diffusionsparameter ist v ( x ) = x ( 1 x ) 2 N , wo N ist die Populationsgröße.

Frage

Warum stimmt das v ( x ) = x ( 1 x ) 2 N ?

Ich begrüße intuitive Erklärungen und mathematische Beweise.

Gedanken

Ich würde denken, dass es vom Wright-Fisher-Modell der genetischen Drift abgeleitet ist, bei dem die Verteilung der Allelhäufigkeit bei der nächsten Generation durch eine Binomialverteilung gegeben ist.

Was ist die Definition von N in V(x)?
N ist die Populationsgröße. Danke fürs bemerken. Frage bearbeitet.

Antworten (1)

Es geht in der Tat vom Wright-Fisher-Modell aus, insbesondere von dessen Diffusionsprozess-Näherung.

Wenn die Population groß ist N , dann bei der Erzeugung t die Anzahl der Allele ist EIN ( t ) , und so ist die Häufigkeit von Allelen x ( t ) = EIN ( t ) / ( 2 N ) , den diploiden Fall annehmend. Dann sagt Wright-Fisher:

EIN ( t + 1 ) EIN ( t ) Behälter ( 2 N , x ( t ) )
Die Verteilung der Zählung der nächsten Generation ist also binomial verteilt (bei zufälliger Paarung). Das kann man für eine binomialverteilte Zufallsvariable finden b Behälter ( m , p ) , der Mittelwert und die Varianz sind gegeben durch :
E [ b ] = m p & v [ b ] = m p ( 1 p )
Somit bekommen wir das
E [ EIN ( t + 1 ) EIN ( t ) ] = 2 N x ( t ) & v [ EIN ( t + 1 ) EIN ( t ) ] = 2 N x ( t ) [ 1 x ( t ) ]
Bewirbt sich x ( t ) = EIN ( t ) / ( 2 N ) , wir sehen das
E [ x ( t + 1 ) x ( t ) ] = 1 2 N E [ EIN ( t + 1 ) EIN ( t ) ] = x ( t ) v [ x ( t + 1 ) x ( t ) ] = 1 ( 2 N ) 2 v [ EIN ( t + 1 ) EIN ( t ) ] = x ( t ) [ 1 x ( t ) ] 2 N
mit der Tatsache, dass v [ c X ] = c 2 v [ X ] .

Wir können dies wie folgt auf Forward Kolmogorov beziehen. Denken Sie daran, dass die Binomialverteilung durch eine Normalverteilung mit Mittelwert angenähert werden kann μ und Varianz σ 2 gegeben durch den Mittelwert und die Varianz des Binoms. Dies sagt uns Folgendes:

x ( t + δ t ) x ( t ) N ( x ( t ) , ( δ t ) x ( t ) [ 1 x ( t ) ] / ( 2 N ) )
Die Eigenschaften der Normalverteilung implizieren dies dann
Δ x t = x ( t + δ t ) x ( t ) N ( 0 , σ 2 ( x t ) δ t )
wo σ 2 ( x t ) = x ( t ) [ 1 x ( t ) ] / ( 2 N ) . Dies impliziert die folgende Gleichheit (in der Verteilung):
Δ x t = σ ( x t ) Δ W t
wo Δ W t N ( 0 , δ t ) . Als δ t 0 , erhalten wir eine stochastische Differentialgleichung ,
d x t = σ ( x t ) d W t
wobei die Lösungen Markov-Zufallsprozesse sind (anders als zB ODEs, wo es nur eine Lösung gibt und es sich um einen deterministischen Pfad handelt; stellen Sie es sich als verrauschte ODE vor), speziell in diesem Fall eine Ito-Diffusion . Beachten Sie, dass die SDE keine hat d t Komponente seit dem Inkrementmittelwert war 0 . Betrachten wir nun die Dichtefunktion für den Zufallsprozess p ( x , t ) , muss es die Fokker-Planck-Gleichung (Forward Kolmogorov) erfüllen:
t p ( x , t ) = x x [ p ( x , t ) σ 2 ( x ) / 2 ]
was zu jedem Zeitpunkt eine Wahrscheinlichkeitsverteilung über den Allelhäufigkeitswert ergibt (bei einem Anfangswert, den ich hier nicht angegeben habe). Beachten Sie, dass v ( x ) = σ 2 ( x ) .


In Bezug auf die Intuition bin ich mir nicht sicher. Im Wesentlichen v ( x ) misst, wie viel Störung in der Allelfrequenz Sie aufgrund rein zufälliger Effekte, dh genetischer Drift, in jeder Generation erwarten können. Beachten Sie, dass es keine Störung gibt, wenn x = 0 oder x = 1 , dh es können keine zufälligen Veränderungen auftreten, wenn niemand oder alle das Allel haben. Beachten Sie auch, dass diese Varianz genau die Varianz einer Bernoulli-Verteilung ist . Es ist, als hätten wir das Modell auf individueller Ebene zu einem Modell auf Bevölkerungsebene destilliert, das einfach die Häufigkeit der binären Wahl der Allelpräsenz betrachtet, denke ich. Die Varianz (Rauschen) ist maximal, wenn die Frequenz ist 1 / 2 . Es drückt das Allel irgendwie von der Mitte weg, indem es das Rauschen erhöht, wenn man dorthin geht; man könnte erwarten, dass (wenn es lange genug läuft) ein solches Modell trifft und stecken bleibt 0 oder 1 (nicht sicher, ob das stimmt). Ich habe ein bisschen geschaut, ob es noch andere interessante Interpretationen des hier betrachteten sde gibt (zB in der Physik), konnte aber keine finden. Im Grunde wäre es gleichbedeutend mit einer Wärmegleichung, die sich unter irgendeiner potentiellen Funktion ausbreitet, die durch gesteuert wird σ .


Ihre Frage hängt eng mit dieser zusammen . Meine Antwort folgt weitgehend Tataru et al., Statistical Inference in the Wright-Fisher Model Using Allele Frequency Data .