Ich werde diesen Beitrag voranstellen, da ich nicht sicher bin, ob er hierher gehört, aber wenn man bedenkt, dass er überall sonst, wo ich es versucht habe, ignoriert wurde, dachte ich, es ist einen Versuch wert. Ich bin ein Doktorand, der noch relativ neu in der Bioinformatik ist und derzeit völlig verloren ist.
Ich studiere die Vorfahren der Neandertaler in modernen Populationen aus zwei verschiedenen Regionen der Welt. Diese beiden Regionen haben relativ ähnliche Neandertaler-Vorfahren, und sie sind nicht so weit voneinander entfernt. Ich habe SNP-Daten von einem Affymetrix-Genotypisierungs-Array (die Daten sind im Plink-Format) für diese Populationen sowie für die entsprechenden Stellen aus Neandertaler- und Denisovan-Genomen.
Anhand der SNP-Daten muss ich versuchen herauszufinden, ob sie Neandertaler-Haplotypen in den gleichen Teilen ihres Genoms haben. Ich habe eine Karte von mutmaßlichen Neandertaler-Introgressions-Haplotypen aus europäischen und ostasiatischen Genomen des 1000 Genomes Project gefunden ( http://akeylab.gs.washington.edu/Vernot_2014/all_haplotypes_populations.bed.files.tgz ).
Ich versuche herauszufinden, wo die Individuen aus jeder Region Neandertaler-Haplotypen haben und wie sie sich zwischen den Regionen unterscheiden. Hat jemand eine Anleitung wie ich weiter vorgehen könnte?
Was ich hier sage, ist die Art und Weise, wie ich das Problem angehen würde. Und als solcher soll dieser Beitrag Ihnen eine Richtung geben. Bitte machen Sie mich nicht verantwortlich, wenn Sie nicht die erwarteten Ergebnisse erzielen.
Zunächst einmal weiß ich nicht, wie das Plink-Format funktioniert, Sie würden gut daran tun, wenn möglich, das irgendwie in eine BED/GFF/GTF-Datei zu konvertieren.
Ich habe das Dateiformat nachgeschlagen, und die meisten Ihrer Spalten sind Signifikanzwerte. Zunächst würde ich den BH-FDR- und p-Wert als vorläufigen Filter verwenden und später den Bonferroni-korrigierten p-Wert verwenden.
Der Wiki-Link sollte Ihnen auch eine Vorstellung davon geben, warum ich später sage, gehen Sie zu Bonferroni über.
Anhand der SNP-Daten muss ich versuchen herauszufinden, ob sie Neandertaler-Haplotypen in den gleichen Teilen ihres Genoms haben. Ich habe eine Karte von mutmaßlichen Neandertaler-Haplotypen gefunden, die von den europäischen und ostasiatischen Genomen des 1000 Genomes Project stammen
Ich habe die Datei nachgeschlagen, das sind Regionen mit einer durchschnittlichen Spanne von 73,4 kb über das gesamte Genom. Sie möchten also die "statistisch signifikanten" SNPs aus Ihrer plink-Datei diesen Regionen zuordnen.
Wenn Sie nicht wissen, wie, sehen Sie sich den UCSC-Genom-Browser an . Eine detaillierte Schritt-für-Schritt-Antwort wäre eine zu große Antwort, aber die Übersicht geht ungefähr so;
Dadurch erhalten Sie eine Vorstellung davon, welche Ihrer Haplotypregionen in der Population vorhanden sind.
Das ist natürlich nicht so einfach, denn hier muss man abwägen. Entscheiden Sie sich zu sagen, dass die Bevölkerung diesen Haplotyp trägt, wenn ein einzelner SNP in einer Region vorhanden ist, die 73 kb umfasst? Das ist mehr als die durchschnittliche Größe eines Gens beim Menschen.
Was das Neandertaler- und Denisova-Genom betrifft. Ich möchte Sie noch einmal auf den UCSC-Genom-Browser verweisen, wo sie die Neandertaler- und Denisova-Assemblies und ihre entsprechenden Varianten auf das menschliche Genom abgebildet haben (Assembly hg19). Sie können diese Dateien erneut abrufen und sehen, wo die Neandertaler/Denisovan-Varianten in der Haplotyp-Datei liegen, indem Sie denselben Ansatz verwenden. Schließlich können Sie diese beiden Überschneidungen verwenden, um herauszufinden, wo Ihre Varianten kartiert wurden und ob irgendwelche alten Varianten in derselben Region kartiert wurden. Sie müssen auch Insertionen und Deletionen innerhalb des Genoms berücksichtigen, sodass die Varianten möglicherweise nicht am selben Ort abgebildet werden, aber in der Nähe abgebildet werden.
AKTUALISIEREN
Sie können diesen Link zum Abrufen von Allelfrequenzen aus 1K-Genomen für die überlappenden Varianten überprüfen . Ich habe nie gemeint, dass Sie die Bettakten verwenden würden, um Allelfrequenzen zu finden. Was ich skizziert habe, ist;
Was ich aus Ihrem Kommentar verstehe, ist, dass Sie Schritt eins bereits getan haben. Und Sie möchten die Allelfrequenzen für eine bestimmte alte Variante wissen. Sie müssen die Schritte 2 und 3 ausführen, bevor Sie zu den Allelfrequenzen kommen.
Dann können Sie die Allelhäufigkeit der Varianten nachschlagen, die genau an einer Position abgebildet wurden, die eine alte Variante in den vcf-Dateien des 1K-Genoms hatte.
GefaltetChromatin
GefaltetChromatin