Innerhalb und zwischen allelischer Klassendiversität

Question

Innerhalb und zwischen allelischer Klassendiversität

Biologie
Genetik
Evolution
Populationsbiologie
Populationsgenetik
Theoretische Biologie

Remi.b

Ich lese Charlesworth et al. 1997 . Sie sprechen über Diversität innerhalb und zwischen allelischen Klassen.

Nukleotiddiversitäten ( $π$ ) an jeder neutralen Stelle wurden aus dem Mittelwert geschätzt $2 \sum z_t (1-z_t)$ , über wiederholte Einführungen an der Stelle einzelner Varianten, wobei zt die Häufigkeit der neutralen Variante zum Zeitpunkt t ist und die Summierung über alle Zeiten erfolgt, bis entweder eine Fixierung oder ein Verlust auftritt.

Die gesamte genetische Vielfalt an den neutralen Standorten ( $π_T$ ) wurde auch innerhalb und zwischen allelischen Klassen am polymorphen Locus zerlegt. Diversität innerhalb allelischer Klassen, die hier als geschrieben werden $π_A$ , wurde aus dem Mittelwert geschätzt $2 \sum \left( x_t(1-x_t)+y_t)(1-y_t) \right)$ wo $x_t$ und $y_t$ sind die Häufigkeiten der neutralen Variante innerhalb der ersten bzw. zweiten Allelklasse. Die Diversität zwischen allelischen Klassen in Bezug auf den polymorphen Locus wurde als Differenz zwischen den Werten der Gesamtdiversität und berechnet $π_A$

Beachten Sie, dass die Klammern nicht übereinstimmen, aber das steht in der Zeitung!

Warum verwirrt mich dieser Text?

Ich bin verwirrt über den Begriff Allelklasse. Ich denke zuerst, dass hier etwas Ausgefallenes drin ist, und ich denke, wir können den Begriff "Allelklasse" einfach durch "Allel" ersetzen. aber dann, als ich die Gleichung für sah $\pi_A$ Mir ist klar, dass sich die Häufigkeit der beiden Allelklassen nicht unbedingt zu 1 addiert (obwohl wir nur zwei Allelklassen betrachten).

Ich war auch etwas verwirrt über den Unterschied zwischen $\pi$ und $\pi_T$ aber ich denke, dass sie nur zwei Notationen für denselben Gedanken verwendet haben ( $\pi = \pi_T$ )

Im Jargon der Populationsgenetik bedeutet Diversität nur erwartete Heterozygotie. $\pi_T$ Für mich ergibt das Sinn. Es ist nur die durchschnittliche Heterozygotie $\left(2 z(1-z)\right)$ über alle Zeitschritte berechnet. Vielleicht wäre es intuitiver, es zu integrieren, anstatt über die Zeit zu summieren, anstatt über Zeitschritte.

Frage

Ich kann die Gleichung für lesen $\pi_A$ aber ich bekomme keine Intuition dahinter, was es bedeutet. Zum Beispiel habe ich keine Ahnung, warum es innerhalb-allelischer Klassendiversität genannt werden sollte. Wo tut $2(x(1-x)+y)(1-y)$ komme aus? Mein ganzes Problem könnte auf die Definition der Allelklasse hinauslaufen .

BEARBEITEN

Der Begriff allelic classwird in Innan und Tajima (1997) definiert.

Angenommen, es gibt zwei Nukleotide, sagen wir A und T, an einer bestimmten Stelle. Dann können wir DNA-Sequenzen in zwei Klassen einteilen: Eine Klasse umfasst Sequenzen mit A und die andere umfasst Sequenzen mit T an dieser Stelle. Wir nennen eine solche Klasse eine allelische Klasse

( Slatkin 1996 könnte auch helfen).

Ich bin mir immer noch nicht ganz sicher, was die within allelic class variance. Vielleicht ist es so: Nehmen Sie die häufigste Sequenz in der betrachteten Allelklasse. Berechnen Sie für jede Folge die Anzahl der paarweisen Unterschiede zur häufigsten Folge und quadrieren Sie diesen Wert. Über alle Sequenzen summieren und durch die Anzahl der Sequenzen dividieren. In mathematischer Form wäre es: $\frac{1}{2N}\sum_i^{2N} (D_i)^2$ , wo $N$ ist die Bevölkerungsgröße und $D_i$ ist die Anzahl der paarweisen Differenzen zwischen der Sequenz $i$ und die häufigste Sequenz in der betrachteten Allelklasse. Klingt es für Sie richtig?

Remi.b

@AMR Ich habe meine lange Kommentarliste gelöscht ...

Antworten (2)

Innerhalb und zwischen allelischer Klassendiversität

AMR · Answer 1

So wie ich gelesen habe, was Sie geschrieben haben, wäre z(1-z) in einen Satz übersetzt die Häufigkeit der neutralen Variante (z) mal der Häufigkeit aller anderen möglichen Varianten (1 - z) zum bestimmten Zeitpunkt t.

Die Nukleotiddiversität ist dann der Durchschnitt von 2 Mal der Summe aller Häufigkeiten neutraler Varianten (z) mal der Häufigkeit aller anderen möglichen Varianten (1-z) für alle Zeiträume, bis entweder keine Änderung mehr auftritt in der Sequenz oder das Allel geht verloren (was im Laufe der Evolution passieren kann, insbesondere wenn die Allelklasse eine schädliche Variante ist oder das heterozygote Allel genügend Expression zur Maskierung bietet).

Für mich klingt das so, als würde das Ergebnis die Wahrscheinlichkeit sein, dass die neutrale Variante im Laufe der Zeit existiert, die eine Zahl zwischen 0 und 1 sein sollte . Wenn z 1 wäre, würde das bedeuten, dass die neutrale Variante immer der Fall ist, also ist die Häufigkeit anderer Varianten 0 , was 2* 1(1-1) = 0 ergibt , was für mich Sinn macht, da dies bedeuten würde, dass es keine Nukleotiddiversität gibt . Diese Sequenz ist immer diese Sequenz, und daher gibt es keine Sequenzdiversität.

Da dies so aussieht, als würde es sich um Häufigkeitsverteilungen handeln, denke ich, dass die gesamte genetische Vielfalt die Wahrscheinlichkeit aller verschiedenen Allelklassen impliziert, aus denen ein Allel besteht. Wenn Sie also Klasse eins mit der Häufigkeit x und Klasse zwei mit der Häufigkeit y haben, klingt es so, als wäre die Gesamtdiversität die Wahrscheinlichkeit der neutralen Variante von x und die Wahrscheinlichkeit der neutralen Variante y.

Wenn Sie die Wahrscheinlichkeit mehrerer Ereignisse betrachten, multiplizieren Sie im Allgemeinen die Wahrscheinlichkeit eines Ereignisses mit der Wahrscheinlichkeit des anderen Ereignisses. Als Ergebnis neige ich dazu zu sagen, dass die Nukleotiddiversität innerhalb der Klassen πA das 2-fache des Durchschnitts der Summe der Häufigkeit von x mal der Häufigkeit von y ist, oder 2∑ x(1-x)(1-y) + y(1-y) oder faktorisiertes 2∑ (x(1-x) + y)(1-y) oder in Worten die Within Class Diversity (πA)ist 2-mal der Durchschnitt der Häufigkeit von x als neutrale Variante multipliziert mit der Häufigkeit aller anderen Varianten, wenn x die neutrale Variante ist, multipliziert mit der Häufigkeit aller anderen Varianten, wenn y die neutrale Variante ist, plus die Häufigkeit von y als neutrale Variante mal die Häufigkeit aller anderen Varianten, wenn y die neutrale Variante ist.

Ich denke, dass der Grund dafür darin besteht, dass aus Gründen des selektiven Drucks x bevorzugt werden könnte. Wenn also die Variante y ist, werden einige dieser Varianten (möglicherweise alle) x sein, also durch Multiplikation Die Diversität innerhalb der Klasse von x durch die Häufigkeit aller Varianten, wenn die Klasse y ist, impliziert, dass es weniger Diversität innerhalb der Klasse gibt, als wenn Sie nur die Häufigkeitswahrscheinlichkeiten addieren würden.

Eine Sache, die ich tun würde, ist eine Suche durchzuführen, um zu sehen, ob eine Korrektur zu diesem Artikel veröffentlicht wurde, da die Formel einen Fehler enthielt. Das könnte zur Klärung beitragen. Beachten Sie auch, dass ich mich in meiner Einschätzung irren könnte, da ich keinen Zugriff auf das eigentliche Papier habe, auf das Sie verwiesen haben.

Viel Glück beim Ausarbeiten.

Wenn Sie die Wahrscheinlichkeit mehrerer Ereignisse betrachten, multiplizieren Sie die Wahrscheinlichkeit eines Ereignisses mit der Wahrscheinlichkeit des anderen Ereignisses . Dies gilt, wenn die Ereignisse unabhängig sind, also P(X,Y)=P(X)P(Y). Ansonsten P(X,Y)=P(X|Y)P(Y)=P(Y|X)P(X).
@ddiez Also welche Formel macht Sinn? Statistiken sind nicht meine Stärke, und ich habe versucht, die Gleichung mit Remi.b durchzuarbeiten, da es den Anschein hat, dass im ursprünglichen Artikel ein Tippfehler aufgetreten ist. Ihre Formel hatte keine richtig gepaarten Klammern und es war schwierig zu bestimmen, ob es x(1-x) + y(1-y) oder (x(1-x) + y)(1-y) sein sollte? Vielen Dank.
Mein Kommentar ist nur als Erweiterung Ihrer Aussage gedacht, um anzumerken, dass die allgemeine Formel die spätere ist (sie gilt in allen Situationen), während die erste nur unter der Annahme der Unabhängigkeit gilt. Aber das könnte in diesem Zusammenhang völlig in Ordnung sein (ich habe die Zeitung nicht gelesen). Mal sehen, die OP-Meinung dazu.

Remi.b · Answer 2

Der Begriff allelic classwird in Innan und Tajima (1997) definiert.

Angenommen, an einer bestimmten Stelle befinden sich zwei Nukleotide, sagen wir A und T. Dann können wir DNA-Sequenzen in zwei Klassen einteilen: Eine Klasse enthält Sequenzen mit A und die andere enthält Sequenzen mit T an dieser Stelle. Wir nennen eine solche Klasse eine allelische Klasse

Zwei Elemente, die (zumindest für mich) in dem Artikel irreführend waren

Implizit definieren sie in der interessierenden Veröffentlichung ( Charlesworth et al. 1997 ) allelische Klassen für eine Stelle, von der bekannt ist, dass sie selektiert wird (und die nur bi-allelisch sein kann). Das Konzept der allelischen Klasse bezieht sich nicht auf eine polymorphe neutrale Stelle, die sie betrachten, sondern immer auf die gleiche Stelle (diejenige, die ausgewählt wird).
Die Formel hat eine zusätzliche Klammer. Die eigentliche Formel sollte sein $2 \sum x_t(1-x_t) + y_t(1-y_t)$ .

Was ist $x$ und $y$ ?

Betrachten Sie einen polymorphen (bi-allelischen) Locus (der nicht selektiert wird) und berechnen Sie die Häufigkeit eines Allels in der ersten Allelklasse (definiert für die selektierte Stelle) (dies ist $x$ ) und berechnen Sie die Häufigkeit des gleichen Allels in der anderen Allelklasse $y$ . Mit anderen Worten, nehmen Sie an, dass die ausgewählte Person zwei Allele hat $A$ und $B$ und der neutrale Locus hat zwei Allele $a$ und $b$ . $x$ ist die Häufigkeit von Sequenzen, die enthalten $A$ die auch enthalten $a$ und $y$ ist die Häufigkeit von Sequenzen, die enthalten $B$ das enthält auch $a$ .

Bedeutung der Formel

Die Formel ist nur die Summe der erwarteten Heterozygotie innerhalb jeder Allelklasse.

2 x (1 - x) + 2 j (1 - j) = 2 (x (1 - x) + j (1 - j))

$2x(1-x) + 2y(1-y) = 2 (x(1-x)+y(1-y))$ . Dann müssen wir nur über alle Zeitschritte summieren, in denen der neutrale Ort polymorph ist, und wir erhalten

π_{EIN} = \sum_{ich = 1}^{T} 2 (x_{t} (1 - x_{t}) + j_{t} (1 - j_{t})) = 2 \sum x_{t} (1 - x_{t}) + j_{t} (1 - j_{t})

$\pi_A = \sum_{i=1}^T 2 (x_t(1-x_t) + y_t(1-y_t)) = 2 \sum x_t(1-x_t) + y_t(1-y_t)$ , wo

x

$x$ und

y

$y$ sind nun Funktion des Augenblicks (Zeit) betrachtet und

T

$T$ ist die Gesamtzahl der Zeitschritte.

Welche Werte können $\pi_A$ nehmen?

Dieses Maß nimmt Werte zwischen 0 und an $T$ wie alle $x_t$ und $y_t$ Nehmen Sie Werte zwischen $0$ und $1$ (und deshalb $x(1-x)$ und $y(1-y)$ Werte zwischen 0 und 0,5 annehmen). Teilen Sie das Ganze durch $T$ ergibt ein Maß, das zwischen 0 und 1 gebunden ist.

Ohne die Hilfe von @AMR hätte ich das nicht verstehen können. Vielen Dank

Innerhalb und zwischen allelischer Klassendiversität

Remi.b

Remi.b

Antworten (2)

AMR

ddiez

AMR

ddiez

Remi.b

Warum folgt die Anzahl der Mutationen pro Individuum einer Poisson-Verteilung?

Varianz in Fst im unendlichen Inselmodell

Einfluss des Geschlechterverhältnisses auf die effektive Bevölkerungsgröße

Über den Auswahlkoeffizienten

Hardy-Weinberg-Gleichgewicht verallgemeinert, um Inzucht hinzuzufügen (nicht zufällige Paarung)

F-Statistiken in der Populationsgenetik verstehen

Einfache Ableitung von Kimuras Näherung für die Wahrscheinlichkeit der Fixierung einer Mutation

Diffusionsnäherung an genetische Drift

Wie definiert man "Quasifixation" in kontinuierlicher Annäherung an endliche Population?

Statistische Genetik: Allelhäufigkeiten, die einer Dirichlet-Verteilung folgen