Einfache Ableitung von Kimuras Näherung für die Wahrscheinlichkeit der Fixierung einer Mutation

Kimuras Näherung für die Wahrscheinlichkeit der Fixierung einer Mutation unter Selektion findet bis heute immer wieder Verwendung in populationsgenetischen Modellen. Ich versuche, die mathematische Grundlage dieser Gleichung zu verstehen, aber keines der Lehrbücher oder Online-Ressourcen, die ich überprüft habe, bietet eine einfache Ableitung dieser Annäherung, sondern zitiere einfach Kimuras Artikel von 1962 .

P Fix 1 e 4 N s p 1 e 4 N s ( 1 )

Ich habe also das Originalpapier gelesen, aber die bereitgestellte Ableitung erscheint mir nicht klar.


Einzelheiten

Kimura beginnt mit der Definition der Wahrscheinlichkeit einer Änderung der Allelhäufigkeit als:

u ( p , t + δ t ) = f ( p + δ p ; δ t )   u ( p + δ p , t )   d ( δ p ) ( 2 )

wo (genau zitiert)

  • u ( p , t ) ist die Wahrscheinlichkeit, dass ein Allel in einem Zeitintervall fixiert wird t vorausgesetzt, dass seine Anfangsfrequenz ist p .
  • f ( p + δ p ; δ t ) ist die Wahrscheinlichkeitsdichte der Änderung aus p zu p + δ p


Dann verwendet er die Näherung der Taylor-Reihe, um eine Gleichung dieser Form zu erhalten:

u ( p , t ) t = v 2 2 u p 2 + M u p ( 3 )

Er definiert M und v als Mittelwert und Varianz der Änderung von p pro Generation. Diese sind formal definiert als:

M = lim δ t 0 1 δ t ( δ p ) .   f ( p + δ p ; δ t ) .   d ( δ p )

v = lim δ t 0 1 δ t ( δ p ) 2 .   f ( p + δ p ; δ t ) .   d ( δ p )

( v sollte eigentlich nur das zweite Moment gemäß der mathematischen Definition sein und nicht die Varianz)

Dann löst er Gleichung 3 im stationären Zustand mit Randbedingungen u ( 0 , t ) = 0 und u ( 1 , t ) = 1 um dies zu erhalten:

u ( p ) = 0 p G ( x ) d x 0 1 G ( x ) d x ( 4 )

wo:

G ( x ) = exp ( 2 M v d x )

Ich habe die Herleitung bis zu diesem Punkt verstanden.

Dann setzt er einfach:

M = s x ( 1 x )
v = x ( 1 x ) / 2 N

und erhält Gleichung 1.


Zusamenfassend

Gibt es eine einfache Herleitung für Gleichung 1?
Wenn nicht, kann mir jemand erklären, wie M und V wie oben angenähert wurden?

gute Frage! Es könnte sich lohnen, dies auf Math Stackexchange (oder wie auch immer es heißt) zu fragen, da die meisten Biologen wahrscheinlich nicht die Mathematik dahinter verstehen (ich schließe mich hier ein und habe wahrscheinlich mehr mathematischen Hintergrund als der Durchschnitt).
@Nicolai Vielleicht kennen die Mathematiker diese Methoden wirklich gut, aber ich fürchte, ohne Kontext ist es nutzlos, nur die mathematischen Methoden zu kennen. Ich versuche, Kimuras Buch zu lesen, das ausführlicher ist. Ich denke da werde ich eine Antwort finden. Wenn ich es finde, poste ich es.

Antworten (1)

Vermutlich haben Sie dies gelöst, aber falls nicht, liegt es daran, dass die PDE eine Kolmogorov-Rückwärtsgleichung ist , sodass die Koeffizienten erster und zweiter Ordnung der Mittelwert und die Varianz des zugrunde liegenden stochastischen Prozesses sind, der modelliert wird.

Betrachten Sie im Detail eine stochastische Differentialgleichung (deren Lösung durch einen Ito-Diffusionsprozess gegeben ist):

d p t = μ ( p t , t ) d t + σ ( p t , t ) d W t
dann gilt (unter bestimmten Bedingungen):
t u ( p , t ) = μ ( p , t ) p u ( p , t ) + 1 2 σ 2 ( p , t ) 2 p 2 u ( p , t )
wo u ist die Dichte von p bei t .

Beachten Sie, dass die Drift (infinitesimaler Mittelwert) M = μ ( p , t ) und Diffusionskoeffizient (infinitesimale Varianz) v = σ 2 ( p , t ) sind wie in der Zeitung (mit Ausnahme des negativen Vorzeichens, von dem ich annehme, dass es ignoriert werden kann, da er sich meistens nur um den Fall zu kümmern scheint, wenn t u 0 ohnehin). Tatsächlich werden sie äquivalent geschrieben:

μ ( p , t ) = lim δ t 0 1 δ t E [ p t + δ t p t p t = p ] =: M σ 2 ( p , t ) = lim δ t 0 1 δ t E [ ( p t + δ t p t ) 2 p t = p ] =: v
wie Kimura schreibt.

Beachten Sie, dass eine nützliche Näherung der Übergangsdichte gegeben ist durch:

(TD) P [ p t + δ t p t ] N ( p t + δ t p t + μ ( p t , t ) δ t , σ 2 ( p t , t ) δ t )

Ok, alles oben genannte ist also nur die grundlegende Theorie stochastischer Prozesse. Wenn wir also ein stochastisches Modell für die Populationsdynamik haben, können wir Werte für ableiten M und v daraus (durch Berechnung seiner Momente), und diese werden auf die rückständige Kolmogorov-Gleichung übertragen, auf der Kimuras Arbeit beruht.

Hier zeigt sich meine Unkenntnis der Bevölkerungsdynamik. Da Kimura jedoch Fisher und Wright erwähnt, habe ich das Wright-Fisher-Modell nachgeschlagen. Es scheint, als würde Kimura die Näherung des Diffusionsprozesses des Wright-Fisher-Modells verwenden. Dies scheint ein gut untersuchtes und geschichtsträchtiges Modell zu sein, das ich hier nicht vollständig beschreiben kann; Stattdessen fand ich die Arbeit von Tataru et al., Statistical Inference in the Wright-Fisher Model Using Allele Frequency Data , als hervorragende Beschreibung dafür, obwohl ich nicht vorgebe, viel davon zu verstehen.

Wichtig ist jedoch, dass die Veränderung der Gene (Übergangsdichte) durch eine Binomialverteilung beschrieben werden kann. Dies kann durch eine Normalverteilung angenähert werden:

P [ p t + δ t p t ] N ( p t + δ t p t + a ( p t ) δ t , p t ( 1 p t ) δ t )
unter Verwendung der Standardannäherung an das Binomial. Dies gibt uns dann eine Vorwärts -Kolomogorov-Gleichung (nicht rückwärts) geschrieben:
t u = p [ a ( p t ) u ( p t ) ] + 1 2 2 p 2 [ p t ( 1 p t ) u ( p t ) ]
Das impliziert das im Grunde v = p ( 1 p ) .

( Mir ist aufgefallen, dass eine andere Möglichkeit, dies zu beweisen, darin besteht, festzustellen, dass die Wright-Fisher-Annäherungsdiffusion (ohne Auswahl usw.) a 0 ) hat einen infinitesimalen Generator, der gegeben ist durch: G f ( p ) = p ( 1 p ) t t f ( p ) / 2 . Dies impliziert sofort v = p ( 1 p ) . Aber möglicherweise weniger einfach zu verstehen. )

Verwirrenderweise hat das Papier jedoch Zeitskalen (Variablen) geändert, so dass δ t Δ t / ( 2 N ) , und dann einstellen δ t zu 1 (wahrscheinlich damit sie nicht schreiben müssten 2 N überall). Wenn wir diese Transformation rückgängig machen, erhalten wir

P [ p t + δ t p t ] N ( p t + δ t p t + a ( p t ) δ t , p t ( 1 p t ) δ t / ( 2 N ) )
Wenn Sie dies mit unserer obigen ungefähren Übergangsdichte (Gleichung (TD)) vergleichen, werden Sie sehen, dass dies impliziert:
σ 2 = v = p ( 1 p ) / [ 2 N ]
wie gewünscht.

Nun, was ist das infinitesimale Mittel, dh a oder M ? Dies hängt eindeutig vom Auswahlmodell ab, da es steuert, wie die "Umgebung" den Prozess deterministisch beeinflusst. Kimura beschreibt dies als „konstanten Selektionsvorteil“ mit Koeffizient s . Das Tataru-Papier stellt fest, dass die Diffusionsnäherung an Wright-Fisher unter genetischer Drift, Mutation und Selektion gegeben ist durch:

a ( p ) = v p + ξ ( 1 p ) + 2 N τ p ( 1 p ) [ h ( 1 2 h ) p ]
Wenn wir (1) die Mutation durch Setzen ignorieren v = ξ = 0 , (2) Alleldominanzeffekte durch Einstellung entfernen h = 1 / 2 , und (3) definieren s := N τ , wir bekommen:
a ( p ) = s p ( 1 p ) =: M
was wir natürlich sehen, indem wir notieren M = a ( p ) Streichhölzer μ in der obigen Gleichung (TD). (Notiere dass der 2 N Transformation fand auch hier statt, aber sie war im Inneren verborgen s ).

So haben wir abgeleitet, wo Kimura ist M und v kommen, wenn auch wahrscheinlich nicht auf die einfachste Art und Weise.

Es bleibt nur noch die (stationäre) Gleichung für herzuleiten u . Ich denke, ich werde es der Vollständigkeit halber tun.

Wenn wir die stationären Indizes ignorieren, erhalten wir:

G ( x ) = exp ( 2 M v d x ) = exp ( 4 s N d x ) = exp ( 4 s N x ) u ( p ) = 0 p G ( x ) d x 0 1 G ( x ) d x = 1 4 N s [ exp ( 4 s N x ) ] 0 p 1 4 N s [ exp ( 4 s N x ) ] 0 1 = [ exp ( 4 s N p ) 1 ] [ exp ( 4 s N ) 1 ] = 1 exp ( 4 N s p ) 1 exp ( 4 N s )
wie erforderlich.


Entschuldigung für eventuelle Fehler. (Ich bin weder ein Populationsdynamikmodellierer noch ein Mathematiker, also weisen Sie bitte auf etwaige Probleme hin).

Ich danke Ihnen sehr. Ich verstehe KBE nicht wirklich gut. Ich erinnere mich, etwas über die Fokker-Plank-Gleichung gelesen zu haben, bin aber im Zusammenhang mit der Diffusion nicht damit vertraut. Ich habe keinen Hintergrund in SDE, daher kann es eine Weile dauern, bis ich es verstehe.
@WYSIWYG Kein Problem. Die Hauptidee, die ich denke, ist, dass die Allelfrequenz durch einen Differential-Eq mit Rauschen (SDE) modelliert werden kann, der sich Wright-Fisher annähert, dann fällt die KBE daraus heraus. Lassen Sie mich wissen, wenn ich etwas erweitern kann.