Ich habe eine sehr große TCGA-Krebs-ssm-Datei (Einzelmutationsdatei) analysiert, um mir die wesentlichen Informationen zu geben.
Die ssm hat folgendes Format:
['Gene name', 'Ensembl Gene ID', 'Chromosome', 'Chromosome start', 'Cancer Type']
['NTRK1', 'ENSG00000198400', '1','156849827', 'Prostate Adenocarcinoma (TCGA, US)']
Von dort aus möchte ich jede Mutation greifen und:
Ich möchte dieses Python (ich denke, BioPython ist dafür geeignet) für Downstream-Anwendungen machen.
In Ordnung:
Für die ersten drei Schritte benötigen Sie BioPython nicht, da es nur jede Zeile analysiert und Werte vergleicht. BioPython ist nützlich für die Arbeit mit FASTA-Dateien (so Teil 4). Alles in allem reduziert sich dies mit all diesen Ressourcen hauptsächlich auf eine Programmierfrage (im Grunde müssen Sie jede Zeichenfolge aufteilen, um die entsprechenden Nummern / IDs zu erhalten und dann zu vergleichen).
blep
Preußen
code
['Gene name', 'Ensembl Gene ID', 'Chromosome', 'Chromosome start', 'Cancer Type'] ['NTRK1', 'ENSG00000198400','1', ' 156849827', 'Prostate Adenocarcinoma (TCGA, US)']code
Die erste Zeile enthält Merkmale, die zweite ein Beispiel für den Inhalt. auch bekannt. Genname, Ensemble-Gen-ID, Chromosomenposition und Krebstyp. Ich möchte diese Informationen (einige oder alle) verwenden, um festzustellen, ob diese SNPs überwiegend in miRNAs oder 3'UTRs vorkommen.raygozag