Ich weiß, dass PLINK- und HapMap-Dateien die gleichen Informationen enthalten, aber können Sie ausführlich erklären, wie genau sie sich unterscheiden?
Laut http://pngu.mgh.harvard.edu/~purcell/plink/data.shtml#ped :
Die PED-Datei ist eine durch Leerzeichen (Leerzeichen oder Tabulator) getrennte Datei: Die ersten sechs Spalten sind obligatorisch:
Family ID Individual ID Paternal ID Maternal ID Sex (1=male; 2=female; other=unknown) Phenotype
[...]
Genotypen (ab Spalte 7) sollten ebenfalls durch Leerzeichen getrennt sein; sie können jedes Zeichen sein (z. B. 1,2,3,4 oder A,C,G,T oder etwas anderes) außer 0, das standardmäßig das fehlende Genotypzeichen ist. Alle Marker sollten biallelisch sein. Alle SNPs (ob haploid oder nicht) müssen zwei Allele angegeben haben. Entweder sollten beide Allele fehlen (dh 0) oder keines von beiden. Es sollte keine Kopfzeile angegeben werden. Hier sind zum Beispiel zwei Personen, die für 3 SNPs eingegeben wurden (eine Zeile = eine Person):
FAM001 1 0 0 1 2 A A G G A C FAM001 2 0 0 1 2 A A A G 0 0 ...
Und hier ist, was ich am Anfang einer HapMap-.ped-Datei finde, die ich vor ein paar Jahren bekommen habe (hapmap3_r2_b36_fwd.YRI.qc.poly.ped):
Y001 NA18488 0 0 2 -9 C C T T ... Y014 NA18519 0 0 1 -9 C C T T ... ...
Bisher scheint es mir, als wäre dies ein einfaches .ped-Format: Die Anzahl der "Header" -Spalten ist dieselbe und scheint den Spezifikationen auf der oben genannten Webseite zu entsprechen.
Sehen wir uns nun die .map-Dateien an.
Standardmäßig beschreibt jede Zeile der MAP-Datei einen einzelnen Marker und muss genau 4 Spalten enthalten:
chromosome (1-22, X, Y or 0 if unplaced) rs# or snp identifier Genetic distance (morgans) Base-pair position (bp units)
[...]
Hinweis: Die meisten Analysen erfordern nicht ohnehin die Angabe einer genetischen Karte; Die Spezifizierung einer genetischen (cM) Karte ist am wichtigsten für eine Reihe von Analysen, die nach gemeinsamen Segmenten zwischen Individuen suchen. Für grundlegende Assoziationstests kann die Spalte genetischer Abstand auf 0 gesetzt werden.
[...]
Die Autosomen sollten von 1 bis 22 codiert werden. Die folgenden anderen Codes können verwendet werden, um andere Chromosomentypen anzugeben:
X X chromosome -> 23 Y Y chromosome -> 24 XY Pseudo-autosomal region of X -> 25 MT Mitochondrial -> 26
Die Zahlen auf der rechten Seite stellen die interne numerische Codierung dieser Chromosomen bei PLINK dar: Diese erscheinen in allen Ausgaben anstelle der ursprünglichen Chromosomencodes.
Hier haben wir etwas, das anders sein kann. Das Ende der .map-Datei, die der HapMap-.ped-Datei entspricht, sieht folgendermaßen aus:
26 rs28357376 0 15825 26 rs2853510 0 15925 26 rs2854125 0 16149
Die HapMap-.map-Datei verwendet anstelle des Buchstabencodes (MT) die "interne numerische Kodierung von plink" für das Chromosom.
Ansonsten sieht es wie eine ziemlich standardmäßige .map-Datei aus, ohne Angabe der genetischen Distanz.
tky