Welcher Bruchteil der Stellen wird voraussichtlich polymorph sein?

Frage

Stellen Sie sich eine sehr lange (möglicherweise unendliche) DNA-Sequenz neutraler Stellen vor. Stellen Sie sich eine panmiktische Population konstanter Größe vor N mit einer Mutationsrate pro Standort von μ wo alle Individuen die exakt gleiche Fitness haben.

Wie hoch ist der Anteil der Stellen, von denen wir erwarten würden, dass sie in der Population polymorph sind (SNPs)?

Motivation hinter dieser Frage

Ich stelle diese Frage, um die Ergebnisse der von mir durchgeführten Simulationen zu überprüfen. Zum Beispiel führe ich eine Simulation mit durch X ( X unten variieren) neutrale Stellen mit einer Mutationsrate pro Stelle μ = 10 9 und einer Einwohnerzahl von N = 100 . Ich führe die Simulationen für 10.000 Generationen durch. Es findet keine Rekombination statt. Wenn die Anzahl der Standorte:

  • X = 10 3 Ich bekomme 0 SNP
  • X = 10 4 Ich bekomme 1 SNP
  • X = 10 5 Ich bekomme 3 SNPs
  • X = 10 6 Ich bekomme 25 SNPs
  • X = 10 7 Ich bekomme 238 SNPs

Gibt es einen Fehler in meinem Modell oder ist es das, was wir angesichts der Parameter erwarten würden?

Im menschlichen Genom ist 1 von 300 Stellen polymorph (SNPs) ( Ref. ). Das ist eine Häufigkeit von SNPs, die 100-mal größer ist als das, was ich in meinen Simulationen beobachte. Beachten Sie jedoch, dass die Annahme der Neutralität und unsere demografischen Annahmen nicht perfekt zutreffen würden und dieses Ergebnis ziemlich weit von der neutralen Erwartung entfernt sein könnte. Mein Ziel ist es nicht, etwas zu reproduzieren, das wie das menschliche Genom aussieht, sondern nur die im Moment neutralen Erwartungen zu reproduzieren.

Siehe https://en.wikipedia.org/wiki/Tajima's_D . Es liefert eine Schätzung für die Anzahl der Segregationsstellen für eine Population unter einem neutralen Mutationsmodell.
@putnampp Klingt in der Tat interessant. Bedeutet dies, dass die erwartete Anzahl von SNPs in einer Stichprobengröße N = N (ich nehme die gesamte Bevölkerung) ist E [ S ] = 4 N μ ich = 1 N 1 1 ich ? Daher in meinem Fall N = 100 , μ = 10 9 , E [ S ] 1 / 481939 . Daher aus 10 7 Websites, die ich erwarten würde 20.75 SNPs. Ist das richtig? Das ist zehnmal weniger als ich beobachte.
Ich würde deinem Kommentar zustimmen. Wenn Sie die gesamte Grundgesamtheit als Stichprobengröße verwenden würden, würden Sie ungefähr die von Ihnen vorgeschlagene Zahl erwarten. Ich habe eine beispielhafte Simulationssoftware geschrieben, die in der Lage ist, solche Evolutionsszenarien durchzuführen ( Clotho ). Du könntest deine Nummern auch mit MS vergleichen .
OK, klingt gut. Ich werde mir Clotho mal anschauen. Wenn Sie möchten, machen Sie eine kurze Antwort aus Ihren Kommentaren, indem Sie die Berechnung wiederholen, die ich gemacht habe. Und dank dieser Antwort werden Sie hoffentlich genug Ansehen erhalten, um in Zukunft Kommentare abzugeben! Ich würde mich freuen, wenn Sie auch das Papier verlinken, in dem Clotho beschrieben wird. Danke! Ich muss verstehen, warum ich jetzt so viel Polymorphismus habe!

Antworten (3)

Wiederholung der obigen Kommentare. Schauen Sie sich Tajimas D an. Es liefert eine Schätzung für die Anzahl der Segregationsstellen für eine Population unter einem neutralen Mutationsmodell.

Die allgemeine Form der Schätzung für eine diploide Population ist E [ S ] = 4 N μ ich = 0 N 1 1 ich . Hier ist die Mutationsrate pro Genom, nicht pro Standort, also μ = L 10 9 Wo L ist die Genomgröße. Abschätzung der Segregationsorte einer ganzen Population von N = N = 100 mit einer Genomgröße von L = 10 7 wobei jeder Standort eine Mutationsrate pro Genom von hat μ = 10 2 das würde man erwarten E [ S ] 20.75 . Ihre Zahlen scheinen also höher als erwartet zu sein.

Ich habe eine beispielhafte Simulationssoftware geschrieben, die in der Lage ist, solche Evolutionsszenarien durchzuführen ( Clotho-Manuskript ). Ebenso können Sie Ihre Zahlen mit einer Population vergleichen, die mit MS generiert wurde .

Der Anteil an polymorphen Stellen, die in einer Population vorhanden sind, hängt von der Biologie des Organismus ab. Zum Beispiel würde man erwarten, unterschiedliche Polymorphismusraten in verwandten Pflanzen zu finden, die unterschiedliche Zuchtsysteme haben, zB in Silene [ 1 ]. Es wird auch erwartet, dass frühere Engpässe die Polymorphismen verringern [ 2 ]. Die Antwort auf Ihre Frage hängt also von der genauen Art und Population ab, die Sie betrachten.

Danke für deine Antwort. Ja, mir ist durchaus bewusst, dass Selektionsmuster (frequenzabhängige, reinigende Selektion, räumlich oder zeitlich heterogenes Umfeld, LD etc.) sowie demografische Muster (Engpass, Populationsstruktur, Reichweitenerweiterung etc.) diese beeinflussen Polymorphismus. Ich interessiere mich für theoretische Vorhersagen, die eine ganze Reihe von Dingen annehmen. Ich habe diese Annahmen in meinem Beitrag etwas deutlicher gemacht.

Wir haben ein Skript hinzugefügt, um dies in zusätzlichem Material zu berechnen

http://onlinelibrary.wiley.com/doi/10.1111/mec.13034/full

....einzelne Trennstelle pro Locus oder bis zu maximal vier SNPs, wie es für Short-Read-Genomdaten erwartet wird (siehe beigefügtes R-Skript zur Schätzung).

Kannst du etwas mehr über die Methode erzählen? Das ist jetzt eher ein Kommentar.