Also, für ein Projekt, an dem ich gearbeitet habe (andere Geschichte), habe ich mir das HapMap-Projekt und seine kostenlosen Online-Dateien angesehen. In ihrer README-Datei sprechen sie darüber, dass es für jede Legendendatei für jedes Chromosom/jede Region eine rs-ID, eine mit 0, 1 codierte Allele und eine Basenpaarposition gibt.
Nachdem ich das eine Weile angestarrt habe, ist es ziemlich offensichtlich, dass die Position der Basenpaare bedeutet, wo sich jedes Nukleotid entlang der genetischen Sequenz befindet ... ist das richtig?
Und was bedeuten rs id und die anderen Wörter? Jede Hilfe wäre sehr willkommen!
Hier ist der Link zur README-Datei, in demselben Verzeichnis befinden sich die Dateien über die Teilnehmer, nur einschließlich SNPs (Snips!).
rs id ist die Referenz-SNP-Cluster-ID , siehe hier . Es ist im Grunde eine eindeutige Kennung.
Diese Tabelle stammt aus Ihrem Link:
rs position 0 1
rs11089130 14431347 C G
rs738829 14432618 A G
rs915674 14433624 A G
Die Allelcodes sind die 3. und 4. Spalte. Ein SNP ist eine Stelle, an der eine andere Base in verschiedenen Versionen desselben Gens gefunden wird (verschiedene Versionen von Genen sind Allele). Für einen bestimmten SNP werden die verschiedenen Allele als 0- oder 1 -Allel bezeichnet. In der Tabelle hat also das erste SNP, rs11089130, zwei Allele: Allel 0 hat ein C an der SNP-Position (14431347), während Allel 1 ein G an dieser Position hat. Der Allelcode impliziert keine biologische Bedeutung.
Ich bin mir nicht sicher, was passieren würde, wenn es drei Allele an einem SNP gäbe, aber vermutlich gäbe es dann auch einen als 2 codierten SNP .
Bearbeiten: Allel 0 ist der Rest aus dem Referenzgenom. Allel 1 ist der untersuchte Rest, das SNP.
hallo241
Terdon
0
ist der Rest, der im Referenzgenom gefunden wird, und1
ist der Rest, der in anderen gefunden wird. Bitte beziehen Sie sich nicht auf "mutierte Allele", Variation ist die Norm ...bli
Alan Boyd
bli