Was ist ein angemessenes Bestimmungsmaß in genetischen Studien?
Das dachte ich früher war so eine Maßnahme, aber ich bin mir nicht mehr so sicher. Konkret scheint es so Untermaß geringe Entschlossenheit und Übermaß hohe Entschlossenheit.
Der Grund für meine Zweifel in stammt aus der folgenden Simulation.
Nehmen wir der Einfachheit halber an, dass ein Merkmal wie Größe (Gewicht, Intelligenzquotient, Autismusquotient usw.) eines Individuums von einer Mutter und einem Vater auf folgende Weise vererbt wird:
(fathersHeight * fathersInfluence + mothersHeight * (1 - fathersInfluence))/2
,
wobei fathersInfluence
eine Konstante zwischen 0 und 1 ist.
Um ein konkretes Beispiel zu nennen: Wenn die Mutter 170 cm groß ist und der Vater 190 cm groß und fathersInfluence
0,5 Jahre alt ist, dann wissen wir, dass ihr Kind genau 180 cm groß sein wird .
Nehmen wir weiter an, dass wir nur die Eigenschaft eines beliebigen Vaters und eines beliebigen Sohnes messen können. Wir können die Eigenschaft einer Mutter nicht messen.
Nehmen wir an, dass wir versuchen, die Größe des Sohnes anhand der Größe des Vaters mithilfe der guten alten linearen Regression vorherzusagen, und berichten, wie viel der Größe des Sohnes anhand der Größe des Vaters bestimmt wird. Dies kann leicht genug in Python durchgeführt werden
_, _, r_value, _, _ = scipy.stats.linregress(fathers, sons)
Die gesamte Simulation kann in die folgende Python-Funktion verpackt werden:
def sonsHeight(sampleSize, fathersInfluence=0.5):
# loc = mean
# scale = standard deviation
fathers = scipy.stats.norm.rvs(loc=170, scale=10, size=sampleSize)
mothers = scipy.stats.norm.rvs(loc=170, scale=10, size=sampleSize)
def weightedAvg(fathersHeight, mothersHeight):
return (fathersHeight * fathersInfluence + mothersHeight * (1 - fathersInfluence))/2
sons = [weightedAvg(father, mother) for father, mother in zip(fathers, mothers)]
_, _, r_value, _, _ = scipy.stats.linregress(fathers, sons)
return r_value ** 2
Wenn wir nehmen, fathersInfluence = 0.5
würde ich erwarten, dass jede erfolgreiche Messung der Bestimmung berichten würde, dass die Größe des Vaters die Größe des Sohnes zu 50% bestimmt.
Besteht diese Prüfung, führt die Simulation mit 1 Million Söhnen und Vätern zu:
>>> size = 1000000
>>> print(sonsHeight(size, fathersInfluence=0.5))
>>> 0.500071151111
was beruhigend wirkt. Allerdings sind die Werte von
für fathersInfluence
etwas anderes als 0,5 scheint in der Wahrscheinlichkeit zu unerwarteten Werten zu konvergieren. Wenn wir das Experiment 101 Mal ausführen, fathersInfluence
erhalten wir für Werte von 0 bis 1 in Schritten von 0,01 die folgende schöne Kurve, die beruhigend nahe an verläuft
Und
, ist aber überraschenderweise keine gerade Linie!
Es wird jedoch störender, wenn bestimmte Werte von
gesucht werden, insbesondere auf fathersInfluence
nahe 0 oder nahe 1 (alle
stammen aus der Entnahme einer Stichprobe von 1 Million).
Insbesondere für kleine Werte von fathersInfluence
sagen wir
, ,
die Werte von nah schauen
, , .
Auch für fathersInfluence
von
der Wert von
ist kaum oben
!
fathersInfluence, R^2
0.01, 7.3243188318051775e-05
0.02, 0.00042435668897930067
0.03, 0.00097257546851807486
..., ...
0.1, 0.012287962714812851
..., ...
0.97, 0.99904501126494283
0.98, 0.9995837493389228
0.99, 0.99989808360606525
fathersInfluence
ich eine schöne gerade Linie durchziehen würde?
,
Und
?Mir ist klar, dass das vorgestellte Modell, wie Genetik funktioniert, wahrscheinlich zu einfach und vielleicht nicht so nützlich ist, wie angegeben. Ich glaube jedoch, dass es in mehreren Aspekten einem guten Modell für die Genetik ähnelt:
Auf den gesamten Code, der zum Ausführen dieser Simulation verwendet wird, kann auf github zugegriffen werden .
väterHöhe * vätereinfluss + mütterhöhe * (1 - vätereinfluss))/2
ist ein schreckliches Modell für die Genetik. Es besagt, dass die genetischen Beiträge der beiden Elternteile genau antikorreliert sind. Tatsächlich sind sie im Wesentlichen unabhängig. Ich denke, wonach Sie suchen, ist der Begriff der Erblichkeit .
Adam Kurkiewicz
fathersInfluence
eine reelle Zahl im Intervall handeltCharles E. Grant
Adam Kurkiewicz
mothersHeight
soll so ziemlich alles sein, was wir nicht messen können (Umweltfaktoren und andere Faktoren außerhalb unserer Studie).fathersHeight
ist das , was wir messen können (Expressionsniveau eines bestimmten Gens).fathersHeight
wird offensichtlich einen sehr geringen Einfluss auf das Gesamtergebnis des Merkmals haben (die meisten Gene tun es am Ende!), im Bereich von 1-2%. Der Punkt, den ich anspreche, ist, dass R ^ 2 diesen Einfluss um einen Faktor von ~ 100 für den Einfluss von 1% unterschätzen wirdAdam Kurkiewicz