Ich bin Informatiker und studiere Mustererkennung, und ich hoffe, etwas überwachtes Lernen zum Thema Dickdarmkrebs durchführen zu können. Leider habe ich eine Menge Zeit, DNA-Daten im folgenden Format zu finden.
Benign DNA (Adenoma?) Malignant DNA (Carcinoma?)
A A
A A
T G
G G
C C
Also brauche ich nur zwei Spalten (egal, ob es für 3 Milliarden Datensätze/Aminosäuren runtergeht): eine mit der guten DNA und eine mit der schlechten.
Kann ich irgendwo Daten in diesem bestimmten Format finden?
Sie können die vom TCGA-Projekt erstellten Daten für "Colon Adenocarcinoma" ausprobieren: http://gdac.broadinstitute.org/runs/analyses__2015_04_02/reports/cancer/COAD/
Die Datei mit Mutationen, die vom Tumor gegen einen übereinstimmenden Normalwert aufgerufen werden, http://gdac.broadinstitute.org/runs/analyses__2015_04_02/reports/cancer/COAD/MutSigNozzleReport2.0/COAD-TP.final_analysis_set.maf
Was Sie brauchen, sind Spalte 11, 12 und 13. Spalte 11 ist das Referenzallel (Ihr sogenanntes good DNA
). Für jede Zeile ist das alternative Allel ( bad DNA
) Spalte 12, wenn Spalte 12 nicht gleich Spalte 11 ist, sonst Spalte 13. -- Es wäre ein Kinderspiel, es durch Codieren zu machen :)
Falls Sie interessiert sind, Spalte 16 und 17 sind die Tumor- und Normalproben-IDs.
.maf
Datei biostars.org/p/69222 , obwohl sie möglicherweise etwas biologisch intensiv ist.
mdperry