Wie könnte man den Genfluss zwischen zwei Populationen berechnen?

Stellen Sie sich vor, es gibt zwei Populationen X und Y und für jede Population haben Sie die Genotypen jedes Individuums in dieser Population (z. B. Aa, AA, aa usw.), aber für mehrere Loci (z. B. AABb).

Wie könnte man den Genfluss zwischen Population X und Population Y berechnen ?

Eine Antwort würde idealerweise entweder oder empfehlen:

  • Eine R/Python/C++-Bibliothek oder ein anderes Softwaretool
  • die Aufschlüsselung der Mathematik, für die ich sehr dankbar wäre, aber in der Antwort nicht unbedingt notwendig ist

Hintergrund lesen

Verwandte Fragen

@Remi.b hier ist die Frage, falls Sie daran interessiert sind, die Antwort herauszufinden (übrigens auch toll, von Ihnen zu hören)

Antworten (1)

Theoretischer Hintergrund

Aus Slatkin 1991 , im Gleichgewicht

F S T = 1 1 + 4 N m ( d d 1 ) 2

, wo N ist die Bevölkerungsgröße pro Insel, m ist die Migrationsrate und d ist die Anzahl der Inseln ( d steht für "deme"). Wie d , ( d d 1 ) 2 1 und die Slatkin-Gleichung wird zur Standardgleichung von Wright F S T = 1 1 + 4 N m .

Aus dem Obigen lässt sich das leicht zeigen

m = ( d 1 ) 2 ( F S T 1 ) 4 d 2 F S T N

Für 2 Inseln wird es

m = 9 16 ( F S T 1 ) F S T N

Infolgedessen in einem 2-Insel-Modell das erwartete F S T ist fast doppelt so niedrig ( 9 16 = 0,5625 ) als im unendlichen Inselmodell.

Die obige Gleichung ist eine Annäherung, die annimmt ...

  • niedrige Mutationsrate (gilt nicht für Mikrosatellitendaten)
  • relativ geringe Migrationsrate (es gibt eine m 2 Begriff, der wegfällt)
  • symmetrische Migrationsrate (Rückwärts- und Vorwärtsmigrationsraten sind gleich)
  • gleiche Bevölkerungszahl pro Insel
  • Gleichgewicht!

Weiterlesen

Ich empfehle die Lektüre dieses Papiers ( Slatkin 1991 ), es ist meiner Meinung nach eines der besten zum Studium F S T . Ich würde auch Nei 1973 , Slatkin 1985 und Whitlock und McCauley 1998 empfehlen .

Die spezifische zu verwendende Software hängt von der Art der Daten ab, die Sie haben. Jedenfalls im Durchschnitt F S T Stellen Sie bei einer Reihe von Loci sicher, dass Sie die Methode von Weir und Cockerham 1984 verwenden .

Bioinformatik

Der erste Schritt für Sie ist, Ihre zu berechnen F S T . Angenommen, Sie haben eine Reihe von SNPs, sollten Sie die Weir-Cockerham-Schätzung verwenden F S T . Es gibt eine Reihe von Lösungen, um solche Schätzungen zu berechnen. Eine Lösung, um dies zu berechnen, ist vcftools . Das Folgende (Bash) wird die Arbeit erledigen

./vcftools --vcf MyFile.vcf --weir-fst-pop individual_list_1.txt
--weir-fst-pop individual_list_2.txt --fst-window-size 800 --fst-window-step 100

, wo MyFile.vcfsind Ihre Daten im vcf-Format (möglicherweise möchten Sie PGDspider verwenden , um Ihre Daten neu zu formatieren). individual_list_1.txtund individual_list_2.txtsind Dateien, die die Liste der einzelnen Namen (getrennt durch \n) enthalten, die zur ersten bzw. zweiten Population gehören. Mit den Optionen --fst-window-sizeund --fst-window-stepkönnen Sie die Schätzung über ein gleitendes Fenster berechnen. Ich habe oben willkürliche Zahlen gewählt. EggLib ist eine weitere gute Alternative.