Was ist ein angemessenes Bestimmungsmaß in genetischen Studien?

Question

Was ist ein angemessenes Bestimmungsmaß in genetischen Studien?

Biologie
Genetik
Statistiken
Bio-Statistiken

Adam Kurkiewicz

Hauptfrage

Was ist ein angemessenes Bestimmungsmaß in genetischen Studien?

Das dachte ich früher $R^2$ war so eine Maßnahme, aber ich bin mir nicht mehr so sicher. Konkret scheint es so $R^2$ Untermaß geringe Entschlossenheit und Übermaß hohe Entschlossenheit.

Der Grund für meine Zweifel in $R^2$ stammt aus der folgenden Simulation.

Einfaches Modell

Nehmen wir der Einfachheit halber an, dass ein Merkmal wie Größe (Gewicht, Intelligenzquotient, Autismusquotient usw.) eines Individuums von einer Mutter und einem Vater auf folgende Weise vererbt wird:

(fathersHeight * fathersInfluence + mothersHeight * (1 - fathersInfluence))/2,

wobei fathersInfluenceeine Konstante zwischen 0 und 1 ist.

Um ein konkretes Beispiel zu nennen: Wenn die Mutter 170 cm groß ist und der Vater 190 cm groß und fathersInfluence0,5 Jahre alt ist, dann wissen wir, dass ihr Kind genau 180 cm groß sein wird .

Nehmen wir weiter an, dass wir nur die Eigenschaft eines beliebigen Vaters und eines beliebigen Sohnes messen können. Wir können die Eigenschaft einer Mutter nicht messen.

Nehmen wir an, dass wir versuchen, die Größe des Sohnes anhand der Größe des Vaters mithilfe der guten alten linearen Regression vorherzusagen, und berichten, wie viel der Größe des Sohnes anhand der Größe des Vaters bestimmt wird. Dies kann leicht genug in Python durchgeführt werden

_, _, r_value, _, _ = scipy.stats.linregress(fathers, sons)

Die gesamte Simulation kann in die folgende Python-Funktion verpackt werden:

def sonsHeight(sampleSize, fathersInfluence=0.5):
    # loc = mean
    # scale = standard deviation
    fathers = scipy.stats.norm.rvs(loc=170, scale=10, size=sampleSize)
    mothers = scipy.stats.norm.rvs(loc=170, scale=10, size=sampleSize)

    def weightedAvg(fathersHeight, mothersHeight):
        return (fathersHeight * fathersInfluence + mothersHeight * (1 - fathersInfluence))/2

    sons = [weightedAvg(father, mother) for father, mother in zip(fathers, mothers)]

    _, _, r_value, _, _ = scipy.stats.linregress(fathers, sons)
    return r_value ** 2

Wenn wir nehmen, fathersInfluence = 0.5würde ich erwarten, dass jede erfolgreiche Messung der Bestimmung berichten würde, dass die Größe des Vaters die Größe des Sohnes zu 50% bestimmt. $R^2$ Besteht diese Prüfung, führt die Simulation mit 1 Million Söhnen und Vätern zu:

>>> size = 1000000
>>> print(sonsHeight(size, fathersInfluence=0.5))
>>> 0.500071151111

was beruhigend wirkt. Allerdings sind die Werte von $R^2$ für fathersInfluenceetwas anderes als 0,5 scheint in der Wahrscheinlichkeit zu unerwarteten Werten zu konvergieren. Wenn wir das Experiment 101 Mal ausführen, fathersInfluenceerhalten wir für Werte von 0 bis 1 in Schritten von 0,01 die folgende schöne Kurve, die beruhigend nahe an verläuft $(0, 0)$ Und $(1, 1)$ , ist aber überraschenderweise keine gerade Linie!

Es wird jedoch störender, wenn bestimmte Werte von $R^2$ gesucht werden, insbesondere auf fathersInfluencenahe 0 oder nahe 1 (alle $R^2$ stammen aus der Entnahme einer Stichprobe von 1 Million).

Insbesondere für kleine Werte von fathersInfluencesagen wir

$0.01$ , $0.02$ , $0.03$

die Werte von $R^2$ nah schauen

$0.01^2$ , $0.02^2$ , $0.03^2$ .

Auch für fathersInfluencevon $0.1$ der Wert von $R^2$ ist kaum oben $1\%$ !

fathersInfluence, R^2
0.01, 7.3243188318051775e-05
0.02, 0.00042435668897930067
0.03, 0.00097257546851807486
..., ...
0.1, 0.012287962714812851
..., ...
0.97, 0.99904501126494283
0.98, 0.9995837493389228
0.99, 0.99989808360606525

Fragen

Gibt es ein Maß an Entschlossenheit, gegen das fathersInfluenceich eine schöne gerade Linie durchziehen würde? $(0, 0)$ , $(1/2, 1/2)$ Und $(1, 1)$ ?
Wäre eine solche Maßnahme wünschenswert?
Welche anderen Bestimmungsmaße können verwendet werden, insbesondere wenn die Bestimmung gering ist?

Bemerkungen

Mir ist klar, dass das vorgestellte Modell, wie Genetik funktioniert, wahrscheinlich zu einfach und vielleicht nicht so nützlich ist, wie angegeben. Ich glaube jedoch, dass es in mehreren Aspekten einem guten Modell für die Genetik ähnelt:

Wir haben etwas, das wir messen können (zB Genexpressionsniveau) und beobachten als zufälliges Rauschen wichtige Dinge, die wir nicht messen können (Umweltfaktoren).
Die unabhängige Variable (Genexpressionsniveau) darf die abhängige Variable (Größe, IQ usw.) nur geringfügig beeinflussen.

Auf den gesamten Code, der zum Ausführen dieser Simulation verwendet wird, kann auf github zugegriffen werden .

Antworten (1)

Was ist ein angemessenes Bestimmungsmaß in genetischen Studien?

Charles E. Grant · Answer 1

Charles E. Grant

väterHöhe * vätereinfluss + mütterhöhe * (1 - vätereinfluss))/2

ist ein schreckliches Modell für die Genetik. Es besagt, dass die genetischen Beiträge der beiden Elternteile genau antikorreliert sind. Tatsächlich sind sie im Wesentlichen unabhängig. Ich denke, wonach Sie suchen, ist der Begriff der Erblichkeit .

Adam Kurkiewicz

Das Modell ist nicht antikorreliert, da es sich um fathersInfluenceeine reelle Zahl im Intervall handelt

[0, 1]

$[0, 1]$ und die Eigenschaft jedes Elternteils korreliert positiv mit der Eigenschaft der Nachkommen.

Charles E. Grant

Ihr Modell besagt, je größer der Einfluss der Väter ist, desto kleiner ist der Einfluss der Mutter. Genetik funktioniert nur selten so. Sie denken vielleicht an eine Art Dominanzmodell für einen einzelnen Locus, aber die Größe ist ein komplexes Merkmal, an dem viele Gene beteiligt sind. Wenn Papa eine größensteigernde Version von Gen A und Mama eine größensteigernde Version von Gen B beisteuert, sind die Beiträge der beiden Gene typischerweise additiv, aber unabhängig voneinander. Ich fordere Sie dringend auf, den von mir verlinkten Wiki-Artikel zu lesen, um die Grundlagen eines echten genetischen Modells zu sehen.

Adam Kurkiewicz

Danke, ich werde die Vererbung auf jeden Fall ausführlich studieren. Ich habe meinen Standpunkt vielleicht nicht ganz klar ausgedrückt. mothersHeightsoll so ziemlich alles sein, was wir nicht messen können (Umweltfaktoren und andere Faktoren außerhalb unserer Studie). fathersHeightist das , was wir messen können (Expressionsniveau eines bestimmten Gens). fathersHeightwird offensichtlich einen sehr geringen Einfluss auf das Gesamtergebnis des Merkmals haben (die meisten Gene tun es am Ende!), im Bereich von 1-2%. Der Punkt, den ich anspreche, ist, dass R ^ 2 diesen Einfluss um einen Faktor von ~ 100 für den Einfluss von 1% unterschätzen wird

Adam Kurkiewicz

Es ist sehr wahrscheinlich (und erwartet!), und ich werde es auf jeden Fall überprüfen, dass die Vererbung nicht unter diesem Problem leidet.

Was ist ein angemessenes Bestimmungsmaß in genetischen Studien?

Adam Kurkiewicz

Hauptfrage

Einfaches Modell

Fragen

Bemerkungen

Antworten (1)

Charles E. Grant

Adam Kurkiewicz

Charles E. Grant

Adam Kurkiewicz

Adam Kurkiewicz

H ist die Menge aller möglichen Diplotypen, die mit Genotypdaten übereinstimmen

Wie hoch ist die Wahrscheinlichkeit, ein Albino-Mensch zu sein und das Down-Syndrom zu haben?

Finden Sie die Länge der DNA-Sequenz? [geschlossen]

Vater von Bruder unterscheiden

Diagramm der genetischen Diversität innerhalb der Art über Arten / Phyla hinweg?

Muss man zwei Chi-Quadrat-Tests durchführen?

Sind Menschen genetisch veranlagt, sich für bestimmte Bereiche/Ideen zu interessieren? Wie kommt es zur Spezialisierung?

Werkzeuge, die eine Verwandtschaftsmatrix für die phylogenetische Dekorrelation verwenden

Valider Vergleich der Genexpression zwischen mehreren Genen in mehreren Zelllinien

So beurteilen Sie, ob biologische Messungen einer Normal- oder Log-Normalverteilung folgen