Was ist ein angemessenes Bestimmungsmaß in genetischen Studien?

Hauptfrage

Was ist ein angemessenes Bestimmungsmaß in genetischen Studien?

Das dachte ich früher R 2 war so eine Maßnahme, aber ich bin mir nicht mehr so ​​sicher. Konkret scheint es so R 2 Untermaß geringe Entschlossenheit und Übermaß hohe Entschlossenheit.

Der Grund für meine Zweifel in R 2 stammt aus der folgenden Simulation.

Einfaches Modell

Nehmen wir der Einfachheit halber an, dass ein Merkmal wie Größe (Gewicht, Intelligenzquotient, Autismusquotient usw.) eines Individuums von einer Mutter und einem Vater auf folgende Weise vererbt wird:

(fathersHeight * fathersInfluence + mothersHeight * (1 - fathersInfluence))/2,

wobei fathersInfluenceeine Konstante zwischen 0 und 1 ist.

Um ein konkretes Beispiel zu nennen: Wenn die Mutter 170 cm groß ist und der Vater 190 cm groß und fathersInfluence0,5 Jahre alt ist, dann wissen wir, dass ihr Kind genau 180 cm groß sein wird .

Nehmen wir weiter an, dass wir nur die Eigenschaft eines beliebigen Vaters und eines beliebigen Sohnes messen können. Wir können die Eigenschaft einer Mutter nicht messen.

Nehmen wir an, dass wir versuchen, die Größe des Sohnes anhand der Größe des Vaters mithilfe der guten alten linearen Regression vorherzusagen, und berichten, wie viel der Größe des Sohnes anhand der Größe des Vaters bestimmt wird. Dies kann leicht genug in Python durchgeführt werden

_, _, r_value, _, _ = scipy.stats.linregress(fathers, sons)

Die gesamte Simulation kann in die folgende Python-Funktion verpackt werden:

def sonsHeight(sampleSize, fathersInfluence=0.5):
    # loc = mean
    # scale = standard deviation
    fathers = scipy.stats.norm.rvs(loc=170, scale=10, size=sampleSize)
    mothers = scipy.stats.norm.rvs(loc=170, scale=10, size=sampleSize)

    def weightedAvg(fathersHeight, mothersHeight):
        return (fathersHeight * fathersInfluence + mothersHeight * (1 - fathersInfluence))/2

    sons = [weightedAvg(father, mother) for father, mother in zip(fathers, mothers)]

    _, _, r_value, _, _ = scipy.stats.linregress(fathers, sons)
    return r_value ** 2

Wenn wir nehmen, fathersInfluence = 0.5würde ich erwarten, dass jede erfolgreiche Messung der Bestimmung berichten würde, dass die Größe des Vaters die Größe des Sohnes zu 50% bestimmt. R 2 Besteht diese Prüfung, führt die Simulation mit 1 Million Söhnen und Vätern zu:

>>> size = 1000000
>>> print(sonsHeight(size, fathersInfluence=0.5))
>>> 0.500071151111

was beruhigend wirkt. Allerdings sind die Werte von R 2 für fathersInfluenceetwas anderes als 0,5 scheint in der Wahrscheinlichkeit zu unerwarteten Werten zu konvergieren. Wenn wir das Experiment 101 Mal ausführen, fathersInfluenceerhalten wir für Werte von 0 bis 1 in Schritten von 0,01 die folgende schöne Kurve, die beruhigend nahe an verläuft ( 0 , 0 ) Und ( 1 , 1 ) , ist aber überraschenderweise keine gerade Linie!

Eine S-förmige Kurve mit väterlichem Einfluss auf der x-Achse und R^2 auf der y-Achse, die von (0,0) über (1/2) bis (1,1) reicht

Es wird jedoch störender, wenn bestimmte Werte von R 2 gesucht werden, insbesondere auf fathersInfluencenahe 0 oder nahe 1 (alle R 2 stammen aus der Entnahme einer Stichprobe von 1 Million).

Insbesondere für kleine Werte von fathersInfluencesagen wir

0,01 , 0,02 , 0,03

die Werte von R 2 nah schauen

0,01 2 , 0,02 2 , 0,03 2 .

Auch für fathersInfluencevon 0,1 der Wert von R 2 ist kaum oben 1 % !

fathersInfluence, R^2
0.01, 7.3243188318051775e-05
0.02, 0.00042435668897930067
0.03, 0.00097257546851807486
..., ...
0.1, 0.012287962714812851
..., ...
0.97, 0.99904501126494283
0.98, 0.9995837493389228
0.99, 0.99989808360606525

Fragen

  1. Gibt es ein Maß an Entschlossenheit, gegen das fathersInfluenceich eine schöne gerade Linie durchziehen würde? ( 0 , 0 ) , ( 1 / 2 , 1 / 2 ) Und ( 1 , 1 ) ?
  2. Wäre eine solche Maßnahme wünschenswert?
  3. Welche anderen Bestimmungsmaße können verwendet werden, insbesondere wenn die Bestimmung gering ist?

Bemerkungen

Mir ist klar, dass das vorgestellte Modell, wie Genetik funktioniert, wahrscheinlich zu einfach und vielleicht nicht so nützlich ist, wie angegeben. Ich glaube jedoch, dass es in mehreren Aspekten einem guten Modell für die Genetik ähnelt:

  1. Wir haben etwas, das wir messen können (zB Genexpressionsniveau) und beobachten als zufälliges Rauschen wichtige Dinge, die wir nicht messen können (Umweltfaktoren).
  2. Die unabhängige Variable (Genexpressionsniveau) darf die abhängige Variable (Größe, IQ usw.) nur geringfügig beeinflussen.

Auf den gesamten Code, der zum Ausführen dieser Simulation verwendet wird, kann auf github zugegriffen werden .

Antworten (1)

väterHöhe * vätereinfluss + mütterhöhe * (1 - vätereinfluss))/2

ist ein schreckliches Modell für die Genetik. Es besagt, dass die genetischen Beiträge der beiden Elternteile genau antikorreliert sind. Tatsächlich sind sie im Wesentlichen unabhängig. Ich denke, wonach Sie suchen, ist der Begriff der Erblichkeit .

Das Modell ist nicht antikorreliert, da es sich um fathersInfluenceeine reelle Zahl im Intervall handelt [ 0 , 1 ] und die Eigenschaft jedes Elternteils korreliert positiv mit der Eigenschaft der Nachkommen.
Ihr Modell besagt, je größer der Einfluss der Väter ist, desto kleiner ist der Einfluss der Mutter. Genetik funktioniert nur selten so. Sie denken vielleicht an eine Art Dominanzmodell für einen einzelnen Locus, aber die Größe ist ein komplexes Merkmal, an dem viele Gene beteiligt sind. Wenn Papa eine größensteigernde Version von Gen A und Mama eine größensteigernde Version von Gen B beisteuert, sind die Beiträge der beiden Gene typischerweise additiv, aber unabhängig voneinander. Ich fordere Sie dringend auf, den von mir verlinkten Wiki-Artikel zu lesen, um die Grundlagen eines echten genetischen Modells zu sehen.
Danke, ich werde die Vererbung auf jeden Fall ausführlich studieren. Ich habe meinen Standpunkt vielleicht nicht ganz klar ausgedrückt. mothersHeightsoll so ziemlich alles sein, was wir nicht messen können (Umweltfaktoren und andere Faktoren außerhalb unserer Studie). fathersHeightist das , was wir messen können (Expressionsniveau eines bestimmten Gens). fathersHeightwird offensichtlich einen sehr geringen Einfluss auf das Gesamtergebnis des Merkmals haben (die meisten Gene tun es am Ende!), im Bereich von 1-2%. Der Punkt, den ich anspreche, ist, dass R ^ 2 diesen Einfluss um einen Faktor von ~ 100 für den Einfluss von 1% unterschätzen wird
Es ist sehr wahrscheinlich (und erwartet!), und ich werde es auf jeden Fall überprüfen, dass die Vererbung nicht unter diesem Problem leidet.