Herausfinden, ob Populationen aus zwei Regionen die gleichen Neandertaler-Haplotypen haben

Ich werde diesen Beitrag voranstellen, da ich nicht sicher bin, ob er hierher gehört, aber wenn man bedenkt, dass er überall sonst, wo ich es versucht habe, ignoriert wurde, dachte ich, es ist einen Versuch wert. Ich bin ein Doktorand, der noch relativ neu in der Bioinformatik ist und derzeit völlig verloren ist.

Ich studiere die Vorfahren der Neandertaler in modernen Populationen aus zwei verschiedenen Regionen der Welt. Diese beiden Regionen haben relativ ähnliche Neandertaler-Vorfahren, und sie sind nicht so weit voneinander entfernt. Ich habe SNP-Daten von einem Affymetrix-Genotypisierungs-Array (die Daten sind im Plink-Format) für diese Populationen sowie für die entsprechenden Stellen aus Neandertaler- und Denisovan-Genomen.

Anhand der SNP-Daten muss ich versuchen herauszufinden, ob sie Neandertaler-Haplotypen in den gleichen Teilen ihres Genoms haben. Ich habe eine Karte von mutmaßlichen Neandertaler-Introgressions-Haplotypen aus europäischen und ostasiatischen Genomen des 1000 Genomes Project gefunden ( http://akeylab.gs.washington.edu/Vernot_2014/all_haplotypes_populations.bed.files.tgz ).

Ich versuche herauszufinden, wo die Individuen aus jeder Region Neandertaler-Haplotypen haben und wie sie sich zwischen den Regionen unterscheiden. Hat jemand eine Anleitung wie ich weiter vorgehen könnte?

Antworten (1)

Was ich hier sage, ist die Art und Weise, wie ich das Problem angehen würde. Und als solcher soll dieser Beitrag Ihnen eine Richtung geben. Bitte machen Sie mich nicht verantwortlich, wenn Sie nicht die erwarteten Ergebnisse erzielen.

Zunächst einmal weiß ich nicht, wie das Plink-Format funktioniert, Sie würden gut daran tun, wenn möglich, das irgendwie in eine BED/GFF/GTF-Datei zu konvertieren.

Ich habe das Dateiformat nachgeschlagen, und die meisten Ihrer Spalten sind Signifikanzwerte. Zunächst würde ich den BH-FDR- und p-Wert als vorläufigen Filter verwenden und später den Bonferroni-korrigierten p-Wert verwenden.

Wiki-Link zu FDR

Der Wiki-Link sollte Ihnen auch eine Vorstellung davon geben, warum ich später sage, gehen Sie zu Bonferroni über.

Interessante Fragen, die auf Kreuzvalidierung für FDR gestellt wurden


  1. Bietet eine vage Vorstellung von FDR
  2. Stellt eine Beziehung zwischen p-Wert und FDR bereit : Lesen Sie die Antwort ein paar Mal erneut, und Sie werden sie verstehen.
  3. Schauen Sie sich die Bücher an, wenn Sie etwas über Statistik verstehen möchten

Anhand der SNP-Daten muss ich versuchen herauszufinden, ob sie Neandertaler-Haplotypen in den gleichen Teilen ihres Genoms haben. Ich habe eine Karte von mutmaßlichen Neandertaler-Haplotypen gefunden, die von den europäischen und ostasiatischen Genomen des 1000 Genomes Project stammen

Ich habe die Datei nachgeschlagen, das sind Regionen mit einer durchschnittlichen Spanne von 73,4 kb über das gesamte Genom. Sie möchten also die "statistisch signifikanten" SNPs aus Ihrer plink-Datei diesen Regionen zuordnen.

Wenn Sie nicht wissen, wie, sehen Sie sich den UCSC-Genom-Browser an . Eine detaillierte Schritt-für-Schritt-Antwort wäre eine zu große Antwort, aber die Übersicht geht ungefähr so;

  1. Wählen Sie Ihr Referenzgenom aus der Assemblierung
  2. Erstellen Sie zwei benutzerdefinierte Tracks, hier können Sie Ihre SNP-Daten im Bettformat hochladen, was am einfachsten zu erstellen ist. Link zum Format Und fügen Sie die vorhandene Haplotyp-Population.bed-Datei hinzu.
  3. Gehe zur Kreuzung, um eine Kreuzung zwischen diesen beiden Gleisen zu erstellen.

Dadurch erhalten Sie eine Vorstellung davon, welche Ihrer Haplotypregionen in der Population vorhanden sind.

Das ist natürlich nicht so einfach, denn hier muss man abwägen. Entscheiden Sie sich zu sagen, dass die Bevölkerung diesen Haplotyp trägt, wenn ein einzelner SNP in einer Region vorhanden ist, die 73 kb umfasst? Das ist mehr als die durchschnittliche Größe eines Gens beim Menschen.

Was das Neandertaler- und Denisova-Genom betrifft. Ich möchte Sie noch einmal auf den UCSC-Genom-Browser verweisen, wo sie die Neandertaler- und Denisova-Assemblies und ihre entsprechenden Varianten auf das menschliche Genom abgebildet haben (Assembly hg19). Sie können diese Dateien erneut abrufen und sehen, wo die Neandertaler/Denisovan-Varianten in der Haplotyp-Datei liegen, indem Sie denselben Ansatz verwenden. Schließlich können Sie diese beiden Überschneidungen verwenden, um herauszufinden, wo Ihre Varianten kartiert wurden und ob irgendwelche alten Varianten in derselben Region kartiert wurden. Sie müssen auch Insertionen und Deletionen innerhalb des Genoms berücksichtigen, sodass die Varianten möglicherweise nicht am selben Ort abgebildet werden, aber in der Nähe abgebildet werden.

AKTUALISIEREN


Sie können diesen Link zum Abrufen von Allelfrequenzen aus 1K-Genomen für die überlappenden Varianten überprüfen . Ich habe nie gemeint, dass Sie die Bettakten verwenden würden, um Allelfrequenzen zu finden. Was ich skizziert habe, ist;

  1. Verwenden Sie die Haplotyp-Populationsregionen als Vorlage und überlappen Sie Ihre signifikanten affy SNP-Varianten darauf.
  2. Da die Neandertaler- und Denisova-Varianten auf der hg19- oder hg18-Assembly abgebildet sind, ordnen Sie diese Varianten als Nächstes denselben Regionen zu
  3. Finden Sie die Regionen, in denen sich ein affiger SNP und ein alter SNP genau überschneiden

Was ich aus Ihrem Kommentar verstehe, ist, dass Sie Schritt eins bereits getan haben. Und Sie möchten die Allelfrequenzen für eine bestimmte alte Variante wissen. Sie müssen die Schritte 2 und 3 ausführen, bevor Sie zu den Allelfrequenzen kommen.

Dann können Sie die Allelhäufigkeit der Varianten nachschlagen, die genau an einer Position abgebildet wurden, die eine alte Variante in den vcf-Dateien des 1K-Genoms hatte.

Sie können es mit awk machen ... es gibt viele Stackoverflow-Tutorials zur awk-Verarbeitung ... und Sie können awk auch googeln
Überprüfen Sie die Aktualisierungen