Wie unterscheiden sich PLINK-Dateien und HapMap Phased-Dateien?

Question

Wie unterscheiden sich PLINK-Dateien und HapMap Phased-Dateien?

hallo241

Ich weiß, dass PLINK- und HapMap-Dateien die gleichen Informationen enthalten, aber können Sie ausführlich erklären, wie genau sie sich unterscheiden?

tky

Stellen Sie diese Frage besser in biostars :-) biostars.org

Antworten (1)

Wie unterscheiden sich PLINK-Dateien und HapMap Phased-Dateien?

bli · Answer 1

Laut http://pngu.mgh.harvard.edu/~purcell/plink/data.shtml#ped :

Die PED-Datei ist eine durch Leerzeichen (Leerzeichen oder Tabulator) getrennte Datei: Die ersten sechs Spalten sind obligatorisch:
 Family ID
 Individual ID
 Paternal ID
 Maternal ID
 Sex (1=male; 2=female; other=unknown)
 Phenotype
[...]

Genotypen (ab Spalte 7) sollten ebenfalls durch Leerzeichen getrennt sein; sie können jedes Zeichen sein (z. B. 1,2,3,4 oder A,C,G,T oder etwas anderes) außer 0, das standardmäßig das fehlende Genotypzeichen ist. Alle Marker sollten biallelisch sein. Alle SNPs (ob haploid oder nicht) müssen zwei Allele angegeben haben. Entweder sollten beide Allele fehlen (dh 0) oder keines von beiden. Es sollte keine Kopfzeile angegeben werden. Hier sind zum Beispiel zwei Personen, die für 3 SNPs eingegeben wurden (eine Zeile = eine Person):
 FAM001  1  0 0  1  2  A A  G G  A C 
 FAM001  2  0 0  1  2  A A  A G  0 0 
 ...

Und hier ist, was ich am Anfang einer HapMap-.ped-Datei finde, die ich vor ein paar Jahren bekommen habe (hapmap3_r2_b36_fwd.YRI.qc.poly.ped):

 Y001    NA18488 0       0       2       -9      C C     T T     ...
 Y014    NA18519 0       0       1       -9      C C     T T     ...
 ...

Bisher scheint es mir, als wäre dies ein einfaches .ped-Format: Die Anzahl der "Header" -Spalten ist dieselbe und scheint den Spezifikationen auf der oben genannten Webseite zu entsprechen.

Sehen wir uns nun die .map-Dateien an.

Standardmäßig beschreibt jede Zeile der MAP-Datei einen einzelnen Marker und muss genau 4 Spalten enthalten:
 chromosome (1-22, X, Y or 0 if unplaced)
 rs# or snp identifier
 Genetic distance (morgans)
 Base-pair position (bp units)
[...]

Hinweis: Die meisten Analysen erfordern nicht ohnehin die Angabe einer genetischen Karte; Die Spezifizierung einer genetischen (cM) Karte ist am wichtigsten für eine Reihe von Analysen, die nach gemeinsamen Segmenten zwischen Individuen suchen. Für grundlegende Assoziationstests kann die Spalte genetischer Abstand auf 0 gesetzt werden.

[...]

Die Autosomen sollten von 1 bis 22 codiert werden. Die folgenden anderen Codes können verwendet werden, um andere Chromosomentypen anzugeben:
 X    X chromosome                    -> 23
 Y    Y chromosome                    -> 24
 XY   Pseudo-autosomal region of X    -> 25
 MT   Mitochondrial                   -> 26
Die Zahlen auf der rechten Seite stellen die interne numerische Codierung dieser Chromosomen bei PLINK dar: Diese erscheinen in allen Ausgaben anstelle der ursprünglichen Chromosomencodes.

Hier haben wir etwas, das anders sein kann. Das Ende der .map-Datei, die der HapMap-.ped-Datei entspricht, sieht folgendermaßen aus:

 26      rs28357376      0       15825
 26      rs2853510       0       15925
 26      rs2854125       0       16149

Die HapMap-.map-Datei verwendet anstelle des Buchstabencodes (MT) die "interne numerische Kodierung von plink" für das Chromosom.

Ansonsten sieht es wie eine ziemlich standardmäßige .map-Datei aus, ohne Angabe der genetischen Distanz.

Ich hätte angeben sollen, ich meinte die HapMap-Phasen- / Legenden- / Beispieldateien im Vergleich zu Karten- / Ped-Dateien

Wie unterscheiden sich PLINK-Dateien und HapMap Phased-Dateien?

hallo241

tky

Antworten (1)

bli

hallo241

Unterschied in den genetischen Anweisungen zwischen Mann und Frau [Duplikat]

Was bedeuten rs id, Allel codiert 0 und Allel codiert 1?

Daten zur Genposition im menschlichen Genom

Wie kann ich Gene auflisten, die auf einer bestimmten Reihe von Banden vorhanden sind?

Wie viel Variation in der Mutationsrate gibt es im menschlichen Genom?

ExAC Browser: Was bedeutet eine „zweifelhafte Variantenannotation“? [geschlossen]

Welche Informationen können aus Zeitverlauf-RNA-Seq-Daten extrahiert werden?

Biologische Validierung rechnerisch ermittelter Gen-Gen-Interaktionen

Was versteht man unter „Gene am Stamm des Evolutionsbaums“?

Beispiele umweltbeeinflusster Genexpression beim Menschen?