Zuordnung einer Mutation zu bekanntem SNP, 3' UTR, miR

Ich habe eine sehr große TCGA-Krebs-ssm-Datei (Einzelmutationsdatei) analysiert, um mir die wesentlichen Informationen zu geben.

Die ssm hat folgendes Format:

['Gene name', 'Ensembl Gene ID', 'Chromosome', 'Chromosome start', 'Cancer Type']
['NTRK1', 'ENSG00000198400', '1','156849827', 'Prostate Adenocarcinoma (TCGA, US)']

Von dort aus möchte ich jede Mutation greifen und:

  1. Ordnen Sie die chromosomale Position einem bekannten SNP zu (rs-etwas-Ausgabe).
  2. Sehen Sie, ob dieser snp in einer 3'UTR gefunden wird
  3. Sehen Sie, ob dieses snp in einer miRNA gefunden wird
  4. Missense- oder Sense-Mutation
  5. Jede relevante Genbank etc.. ids

Ich möchte dieses Python (ich denke, BioPython ist dafür geeignet) für Downstream-Anwendungen machen.

Was ist die Frage? Es wäre auch hilfreich, wenn Sie das Format der Datei angeben, die Sie verarbeiten möchten.
Ich habe das Format dafür bereits analysiert: code['Gene name', 'Ensembl Gene ID', 'Chromosome', 'Chromosome start', 'Cancer Type'] ['NTRK1', 'ENSG00000198400','1', ' 156849827', 'Prostate Adenocarcinoma (TCGA, US)'] codeDie erste Zeile enthält Merkmale, die zweite ein Beispiel für den Inhalt. auch bekannt. Genname, Ensemble-Gen-ID, Chromosomenposition und Krebstyp. Ich möchte diese Informationen (einige oder alle) verwenden, um festzustellen, ob diese SNPs überwiegend in miRNAs oder 3'UTRs vorkommen.
Sie können auch auf biostars.org posten, wenn Sie Fragen zur Bioinformatik haben.

Antworten (1)

In Ordnung:

  1. Leider gibt es keine einfache Möglichkeit, eine Stapelabfrage nur mit dem Standort durchzuführen. Hier können Sie SNPs in Genen nachschlagen . (Sie können das Gen finden, in dem sich ein SNP befindet, indem Sie eine annotierte menschliche Genomdatei nach der Position durchsuchen.)
  2. Sie können herausfinden, ob es sich um 3'UTR handelt, indem Sie es mit einer Liste menschlicher 3'UTRs vergleichen. Die UCSC-Genom-Browser-Seite hier hilft : Ändern Sie die Region in „Genom“, das Ausgabeformat in „BED“, klicken Sie auf „Ausgabe abrufen“ und filtern Sie dann nach 3'-UTRs.
  3. Sie können herausfinden, ob es sich um eine miRNA handelt, indem Sie die chr/start-Positionen mit der hier verfügbaren Datenbank vergleichen .
  4. Sie könnten die chromosomalen Positionen verwenden und mit der menschlichen Genomsequenz vergleichen. Es gibt wahrscheinlich einen besseren Weg, dies zu tun, aber die FASTA für jedes Chromosom ist hier verfügbar .
  5. Sie können die SNP-IDs gemäß den Anweisungen hier verwenden, um Genbank-Zugängen zuzuordnen .

Für die ersten drei Schritte benötigen Sie BioPython nicht, da es nur jede Zeile analysiert und Werte vergleicht. BioPython ist nützlich für die Arbeit mit FASTA-Dateien (so Teil 4). Alles in allem reduziert sich dies mit all diesen Ressourcen hauptsächlich auf eine Programmierfrage (im Grunde müssen Sie jede Zeichenfolge aufteilen, um die entsprechenden Nummern / IDs zu erhalten und dann zu vergleichen).

Also habe ich es geschafft, Mutationen und ihre entsprechenden 3'UTRs zu streiten. Ich sehe immer noch keinen Weg, um festzustellen, ob sich diese Mutation in der UTR an einer miRNA-Zielstelle befindet. Gibt es Gedanken dazu?
@prussiap: Ihre ursprüngliche Frage lautete, ob eine Mutation in miR enthalten war - um festzustellen, ob eine Mutation ein Ziel eines miR ist, das Beste, was ich weiß, ist DIANA. Leider geht die Suche in die andere Richtung: Wenn Sie ein miR nachschlagen, können Sie vorhergesagte Zielseiten finden: diana.cslab.ece.ntua.gr