Wie unterscheiden sich PLINK-Dateien und HapMap Phased-Dateien?

Ich weiß, dass PLINK- und HapMap-Dateien die gleichen Informationen enthalten, aber können Sie ausführlich erklären, wie genau sie sich unterscheiden?

Stellen Sie diese Frage besser in biostars :-) biostars.org

Antworten (1)

Laut http://pngu.mgh.harvard.edu/~purcell/plink/data.shtml#ped :

Die PED-Datei ist eine durch Leerzeichen (Leerzeichen oder Tabulator) getrennte Datei: Die ersten sechs Spalten sind obligatorisch:

 Family ID
 Individual ID
 Paternal ID
 Maternal ID
 Sex (1=male; 2=female; other=unknown)
 Phenotype

[...]

Genotypen (ab Spalte 7) sollten ebenfalls durch Leerzeichen getrennt sein; sie können jedes Zeichen sein (z. B. 1,2,3,4 oder A,C,G,T oder etwas anderes) außer 0, das standardmäßig das fehlende Genotypzeichen ist. Alle Marker sollten biallelisch sein. Alle SNPs (ob haploid oder nicht) müssen zwei Allele angegeben haben. Entweder sollten beide Allele fehlen (dh 0) oder keines von beiden. Es sollte keine Kopfzeile angegeben werden. Hier sind zum Beispiel zwei Personen, die für 3 SNPs eingegeben wurden (eine Zeile = eine Person):

 FAM001  1  0 0  1  2  A A  G G  A C 
 FAM001  2  0 0  1  2  A A  A G  0 0 
 ...

Und hier ist, was ich am Anfang einer HapMap-.ped-Datei finde, die ich vor ein paar Jahren bekommen habe (hapmap3_r2_b36_fwd.YRI.qc.poly.ped):

 Y001    NA18488 0       0       2       -9      C C     T T     ...
 Y014    NA18519 0       0       1       -9      C C     T T     ...
 ...

Bisher scheint es mir, als wäre dies ein einfaches .ped-Format: Die Anzahl der "Header" -Spalten ist dieselbe und scheint den Spezifikationen auf der oben genannten Webseite zu entsprechen.

Sehen wir uns nun die .map-Dateien an.

Standardmäßig beschreibt jede Zeile der MAP-Datei einen einzelnen Marker und muss genau 4 Spalten enthalten:

 chromosome (1-22, X, Y or 0 if unplaced)
 rs# or snp identifier
 Genetic distance (morgans)
 Base-pair position (bp units)

[...]

Hinweis: Die meisten Analysen erfordern nicht ohnehin die Angabe einer genetischen Karte; Die Spezifizierung einer genetischen (cM) Karte ist am wichtigsten für eine Reihe von Analysen, die nach gemeinsamen Segmenten zwischen Individuen suchen. Für grundlegende Assoziationstests kann die Spalte genetischer Abstand auf 0 gesetzt werden.

[...]

Die Autosomen sollten von 1 bis 22 codiert werden. Die folgenden anderen Codes können verwendet werden, um andere Chromosomentypen anzugeben:

 X    X chromosome                    -> 23
 Y    Y chromosome                    -> 24
 XY   Pseudo-autosomal region of X    -> 25
 MT   Mitochondrial                   -> 26

Die Zahlen auf der rechten Seite stellen die interne numerische Codierung dieser Chromosomen bei PLINK dar: Diese erscheinen in allen Ausgaben anstelle der ursprünglichen Chromosomencodes.

Hier haben wir etwas, das anders sein kann. Das Ende der .map-Datei, die der HapMap-.ped-Datei entspricht, sieht folgendermaßen aus:

 26      rs28357376      0       15825
 26      rs2853510       0       15925
 26      rs2854125       0       16149

Die HapMap-.map-Datei verwendet anstelle des Buchstabencodes (MT) die "interne numerische Kodierung von plink" für das Chromosom.

Ansonsten sieht es wie eine ziemlich standardmäßige .map-Datei aus, ohne Angabe der genetischen Distanz.

Ich hätte angeben sollen, ich meinte die HapMap-Phasen- / Legenden- / Beispieldateien im Vergleich zu Karten- / Ped-Dateien