Ich versuche herauszufinden, ob sich ein bestimmtes Allel im Hardy-Weinberg-Ungleichgewicht befindet, aber die Daten sind schlecht. Was ist die minimale Bevölkerungszahl, die Sie verwenden können, um eine respektable Schlussfolgerung zu ziehen?
Ich habe gehört, dass es für jeden Genotyp mindestens 5 Personen gibt, kann aber keine Quelle dafür finden.
Sie können die Power-Analyse verwenden, um Antworten in Abhängigkeit von den Besonderheiten Ihrer Daten zu erarbeiten. Die Dinge, die Sie beachten müssen, sind:
Für den Chi-Quadrat-Test von Pearson können wir (in R) verwenden
library(pwr)
pwr.chisq.test(w = 0.3, N = 40, df = 4, sig.level = 0.05 )
Eine grobe Richtlinie für die Effektgröße ( w
) ist 0,1, 0,3 und 0,5 für kleine, mittlere und große Effektgrößen. Hier gibt es mehr Details . N
ist die Gesamtzahl der Datenpunkte, df
ist die Anzahl der Allele. Diese Funktion gibt uns einen Wert für 1 minus der Stärke unseres Tests. Ein Wert von 0,9 bedeutet, dass eine Wahrscheinlichkeit von 10 % besteht, dass ein tatsächlich vorhandener Effekt nicht erkannt wird.
Wenn wir eine geeignete Anzahl von zu sammelnden Datenpunkten ausarbeiten wollen, müssen wir entscheiden, welche Leistung wir wollen. Angenommen, wir entscheiden, dass eine Wahrscheinlichkeit von 0,01, den Test durchzuführen, aber ein Ungleichgewicht, falls vorhanden, nicht erkannt wird, akzeptabel ist.
pwr.chisq.test(w = 0.3, df = 4, sig.level = 0.05, power=0.99 )
sagt uns, dass 280 Datenpunkte benötigt werden.
Ohne Schätzungen der Effektgröße oder einer Anzahl von Genotypen ist es schwierig, eine direkte Antwort auf Ihre Frage zu geben, aber 5 pro Genotyp scheinen sehr wenig zu sein.
Wenn Sie nur zwei Genotypen haben, können Sie sich für den Fisher Exact Test entscheiden, in diesem Fall können Sie ihn power.fisher.test()
im statmod
Paket verwenden. Die Definitionen von Effektgröße und Freiheitsgraden sind etwas anders, aber die Idee ist die gleiche.
Niko
Ben
timcdlucas