Wo finde ich DNA-Sequenzdaten für Dickdarmkrebs?

Ich bin Informatiker und studiere Mustererkennung, und ich hoffe, etwas überwachtes Lernen zum Thema Dickdarmkrebs durchführen zu können. Leider habe ich eine Menge Zeit, DNA-Daten im folgenden Format zu finden.

Benign DNA (Adenoma?)     Malignant DNA (Carcinoma?)
A                         A
A                         A
T                         G
G                         G
C                         C

Also brauche ich nur zwei Spalten (egal, ob es für 3 Milliarden Datensätze/Aminosäuren runtergeht): eine mit der guten DNA und eine mit der schlechten.

Kann ich irgendwo Daten in diesem bestimmten Format finden?

Hast du dcc.icgc.org ausgecheckt? Ich halte es für unwahrscheinlich, dass jemand die Daten genau so formatiert hat, wie Sie es beschrieben haben, aber Sie sollten in der Lage sein, sie neu zu formatieren, um sie an Ihre Analysepipeline anzupassen. Was Sie von dort herunterladen können, ist eine VCF-Datei, die nur die Positionen im Tumor auflistet, an denen sie sich von der normalen unterscheidet. Wenn Sie also wirklich die gesamte Genomdatei haben möchten, müssen Sie mit der menschlichen Referenzsequenz beginnen und die entsprechenden Stellen ändern die Anmerkungen in der VCF-Datei. Beachten Sie, dass es keinen Vergleich zwischen einem gutartigen und einem bösartigen gibt. nur Tumor vs. normal

Antworten (1)

Sie können die vom TCGA-Projekt erstellten Daten für "Colon Adenocarcinoma" ausprobieren: http://gdac.broadinstitute.org/runs/analyses__2015_04_02/reports/cancer/COAD/

Die Datei mit Mutationen, die vom Tumor gegen einen übereinstimmenden Normalwert aufgerufen werden, http://gdac.broadinstitute.org/runs/analyses__2015_04_02/reports/cancer/COAD/MutSigNozzleReport2.0/COAD-TP.final_analysis_set.maf

Was Sie brauchen, sind Spalte 11, 12 und 13. Spalte 11 ist das Referenzallel (Ihr sogenanntes good DNA). Für jede Zeile ist das alternative Allel ( bad DNA) Spalte 12, wenn Spalte 12 nicht gleich Spalte 11 ist, sonst Spalte 13. -- Es wäre ein Kinderspiel, es durch Codieren zu machen :)

Falls Sie interessiert sind, Spalte 16 und 17 sind die Tumor- und Normalproben-IDs.

DANKE SCHÖN!!! Das ist genau das, was ich brauche, und danke, dass Sie die Feldreferenzen einfach gemacht haben. Ich verwende R, um das .maf-Format zu extrahieren, daher schätze ich sehr, wie viel einfacher Ihre Antwort das Datenverständnis erleichtert. Danke auch für den Einblick in die Spalten 16 und 17. Wirklich, sehr hilfreich, danke.
Bitteschön! Hier finden Sie weitere Informationen über die .mafDatei biostars.org/p/69222 , obwohl sie möglicherweise etwas biologisch intensiv ist.
Eine kurze Frage zu diesen Daten: Einige der Allele (Datensätze für die Allele) haben mehr als einen Buchstaben. Weißt du, woran das liegt? Ich möchte nur wissen, ob ich es als A, T, G oder C aufnehmen soll. Nochmals vielen Dank.
Das sind Indels (Insertionen oder Deletionen), die mehrere Nukleotide umfassen. Der Rest sind sogenannte SNVs, Single Nucleotide Variations. Das Aufteilen und Zusammenführen über Indels/SNVs ist eine gängige Praxis in der Datenanalyse.