Ich habe TCGA-Daten zu Eierstockkrebs analysiert. In den somatischen Mutationsdaten gibt es Daten von Mutationen in allen Chromosomen ( 1-22 und X ), aber erstaunlicherweise habe ich auch eine ( nur eine ) Reihe von Y-Chromosom - Mutationen gefunden. Was kann es bedeuten?
Als Referenz habe ich diese Zeile unten eingefügt:
icgc_mutation_id icgc_donor_id project_code chromosome chromosome_start
MU42454 DO28056 OV-US Y 13500742
chromosome_end chromosome_strand mutation_type
13500742 1 single base substitution
reference_genome_allele mutated_from_allele mutated_to_allele
G G A
consequence_type aa_mutation cds_mutation gene_affected transcript_affected
stop_gained R194* 580C>T ENSG00000183704 ENST00000331172
Diese Frage wurde vor mehr als sechs Jahren gestellt. Seitdem wurde der betreffende Datensatz aktualisiert. Ich habe über das ICGC-Datenportal auf den OV-US-Projektdatensatz zugegriffen , insbesondere simple_somatic_mutation.open.OV-US.tsv.gz
. Das 9. Feld dieser Datei ist chromosome
. Wenn wir das Vorkommen jedes Chromosoms zählen, sehen wir, dass Y nicht dargestellt wird:
awk -F$'\t' '{print $9}' simple_somatic_mutation.open.OV-US.tsv | sed '1d' | sort -n | uniq -c
13171 X
39564 1
31363 2
24657 3
11021 4
16849 5
18643 6
19492 7
13067 8
11133 9
12090 10
24980 11
25608 12
3947 13
12728 14
12123 15
17554 16
30315 17
5669 18
29571 19
9054 20
3639 21
7084 22
Beachten Sie, dass icgc_mutation_id
MU42454 nur bei einem einzigen Spender mit akuter myeloischer Leukämie assoziiert ist . Darüber hinaus liefert das Suchschema „ Donor
IS DO28056
UND Mutation Location
IST ChrY
“ im ICGC-Datenbrowser keine Ergebnisse .
Es scheint also, dass die Aufnahme einer Y-Chromosom-Mutation in die TCGA-Daten zu Eierstockkrebs ein Fehler war, der inzwischen korrigiert wurde.
Remi.b
Gescheiterter Wissenschaftler
Remi.b
MattDMo
Remi.b
Gescheiterter Wissenschaftler