Statistische Genetik: Allelhäufigkeiten, die einer Dirichlet-Verteilung folgen

Aus Foll und Gagiotti (2008) (Software BayeScan ). Sie betrachten ein Modell, bei dem mehrere Subpopulationen von einer einzigartigen Ahnenpopulation abgeleitet werden.

Wir betrachten eine Menge von ICH loci und lassen K ich sei die Anzahl der Allele bei der ich T H Ort. Das Ausmaß der Differenzierung am Ort ich zwischen Subpopulationen J und die angestammte Bevölkerung wird gemessen durch F S T ich J und ist das Ergebnis seiner demografischen Geschichte. Lassen P ich = { P ich k } bezeichnen die Allelfrequenzen der angestammten Population am Locus ich , Wo P ich k ist die Häufigkeit des Allels k am Ort ich ( k P ich k = 1 ) . Wir gebrauchen P = { P ich } um den gesamten Satz von Allelfrequenzen der angestammten Population zu bezeichnen und P ~ ich J = { P ~ ich J k } um die aktuellen Allelfrequenzen am Locus zu bezeichnen ich für Teilpopulation J . Unter diesen Annahmen sind die Allelfrequenzen am Locus ich in Teilpopulation J Folgen Sie einer Dirichlet-Verteilung mit Parametern θ ich J P ich ,

P ~ ich J     ~   Dir ( θ ich J P ich 1 , . . . , θ ich J P ich K ich )

, Wo

θ ich J = 1 F S T ich J 1

(Ich habe nicht viel Erfahrung mit Dirichlet-Verteilungen, aber ich verstehe ihre Definition und ihre Nützlichkeit in Bayes-Statistiken).

Können Sie mir bitte helfen zu verstehen, warum P ~ ich J folgt dieser Dirichlet-Verteilung?

Aufruf der J T H Parameter der Dirichlet-Verteilung, a J , ich verstehe normalerweise nicht, warum sie "gewählt" haben a J = ( 1 F S T ich J 1 ) P ich J und nicht, sagen wir einfach a J = F S T ich J P ich J oder irgendetwas anderes.

Es sieht so aus, als wäre es eine Lösung für eine Integralgleichung, wie sie in Sewall Wrights Evolution in Mendelian Populations, Section Nonrecurrent Mutation genetics.org/content/genetics/16/2/97.full.pdf beschrieben ist .

Antworten (1)

Weitgehend eine fundierte Vermutung, die eher auf Eigenschaften von Verteilungen als auf spezifischem Wissen der statistischen Genetik basiert: Eine Beta-Verteilung ist nützlich, um die Häufigkeit von zwei Allelen an einem Ort zu modellieren. Eine Dirichelet-Verteilung , die eine multivariate Verallgemeinerung einer Beta-Verteilung ist, wäre daher für die Modellierung eines Satzes von Loci nützlich.

Die Kehrseite ist, sich Beta nur als einen Sonderfall von Dirichelet vorzustellen: Wenn Sie nur einen Locus haben, funktioniert Beta. Wenn Sie mehrere Loci haben, dann Dirichelet.

Danke für deine Antwort. Ja, das sind Dinge, die ich über Statistiken weiß (+1 trotzdem als Dank). Ich verstehe nicht, warum in der Regel a J = ( 1 F S T ich J 1 ) P ich J und nicht, sagen wir einfach a J = F S T ich J P ich J oder irgendetwas anderes. (Ich werde diese Präzisierung in meiner Frage hinzufügen).