Auf welche Mindestpopulationsgröße können Hardy-Weinberg-Berechnungen angewendet werden?

Ich versuche herauszufinden, ob sich ein bestimmtes Allel im Hardy-Weinberg-Ungleichgewicht befindet, aber die Daten sind schlecht. Was ist die minimale Bevölkerungszahl, die Sie verwenden können, um eine respektable Schlussfolgerung zu ziehen?

Ich habe gehört, dass es für jeden Genotyp mindestens 5 Personen gibt, kann aber keine Quelle dafür finden.

Antworten (1)

Sie können die Power-Analyse verwenden, um Antworten in Abhängigkeit von den Besonderheiten Ihrer Daten zu erarbeiten. Die Dinge, die Sie beachten müssen, sind:

  1. Die Kraft des Tests . Dies ist die Wahrscheinlichkeit, dass der Test die Nullhypothese nicht zurückweist, selbst wenn sie in Wahrheit falsch ist (Typ-II-Fehler). Wenn die Population nicht im Gleichgewicht ist, wie groß ist die Wahrscheinlichkeit, dass der Test dies nicht erkennt? Dies wird weitgehend von den Kosten eines Typ-II-Fehlers abhängen. Wenn das Experiment in Bezug auf Zeit/Geld/verwendete Tiere usw. teuer ist, sollten Sie sicherstellen, dass es am Ende eine verkaufte Antwort gibt.
  2. Das Signifikanzniveau . 0,05 wird häufig verwendet. Die Wahrscheinlichkeit, dass die Nullhypothese abgelehnt wird, obwohl sie wahr ist (Fehler 1. Art). Wenn sich die Population im Gleichgewicht befindet, wie groß ist die Wahrscheinlichkeit, dass der Test fälschlicherweise sagt, dass sie sich im Ungleichgewicht befindet?
  3. Die Freiheitsgrade . Die Anzahl der Allele.
  4. Die Effektstärke . So weit entfernt vom Gleichgewicht erwarten Sie, dass Ihre Proben sind. Die größte Effektgröße wäre die Auslöschung eines Allels. Wenn jedoch zwei Allele in einem Verhältnis von 100:101 über die gesamte Population vorliegen, ist dies eine kleine Effektgröße.

Für den Chi-Quadrat-Test von Pearson können wir (in R) verwenden

library(pwr)
pwr.chisq.test(w = 0.3, N = 40, df = 4, sig.level = 0.05 ) 

Eine grobe Richtlinie für die Effektgröße ( w) ist 0,1, 0,3 und 0,5 für kleine, mittlere und große Effektgrößen. Hier gibt es mehr Details . Nist die Gesamtzahl der Datenpunkte, dfist die Anzahl der Allele. Diese Funktion gibt uns einen Wert für 1 minus der Stärke unseres Tests. Ein Wert von 0,9 bedeutet, dass eine Wahrscheinlichkeit von 10 % besteht, dass ein tatsächlich vorhandener Effekt nicht erkannt wird.

Wenn wir eine geeignete Anzahl von zu sammelnden Datenpunkten ausarbeiten wollen, müssen wir entscheiden, welche Leistung wir wollen. Angenommen, wir entscheiden, dass eine Wahrscheinlichkeit von 0,01, den Test durchzuführen, aber ein Ungleichgewicht, falls vorhanden, nicht erkannt wird, akzeptabel ist.

pwr.chisq.test(w = 0.3, df = 4, sig.level = 0.05, power=0.99 ) 

sagt uns, dass 280 Datenpunkte benötigt werden.

Ohne Schätzungen der Effektgröße oder einer Anzahl von Genotypen ist es schwierig, eine direkte Antwort auf Ihre Frage zu geben, aber 5 pro Genotyp scheinen sehr wenig zu sein.

Wenn Sie nur zwei Genotypen haben, können Sie sich für den Fisher Exact Test entscheiden, in diesem Fall können Sie ihn power.fisher.test()im statmodPaket verwenden. Die Definitionen von Effektgröße und Freiheitsgraden sind etwas anders, aber die Idee ist die gleiche.

+1: Schön zu sehen, dass die Leistungsanalyse ab und zu erwähnt wird ... zu oft neigen Biologen dazu, diese Dinge zu überspringen.
Danke, obwohl ich dies vor langer Zeit gefragt habe und es für mich jetzt nicht sehr relevant ist, bin ich sicher, dass dies den Menschen in Zukunft helfen wird!
Ja, mir war bewusst, dass es alt ist. Aber wie Sie sagen, hoffentlich nützlich für andere. Nachdem ich millionenfach Informationen von Stackexchange erhalten habe, aber nie eine Frage gestellt habe, weiß ich, dass es möglicherweise wahr ist.