TCGA-Daten und Bioinformatik-Designfragen für die SNP/Mirna-Analyse

Question

TCGA-Daten und Bioinformatik-Designfragen für die SNP/Mirna-Analyse

Preußen

Es ist das erste Mal, dass ich in diesem Forum poste, aber ich suchte nach Hilfe zu den Datenaspekten dieses Projekts.

Meine Werkzeuge der Wahl wären in python/R .

Ziel: Ich möchte ein krankheitsspezifisches Profil nur von SNPs und SNPs in miRNAs und miRNA-Zielstellen erstellen.

TEIL 1: TCGA Mein erster Schritt ist die Verwendung von TCGA-Daten, die eine Menge schädlicher Mutationen in einem LOH .txt-Format auflisten. Ich würde gerne in der Lage sein, diese Mutationen SNPs oder Genen oder miRNAs (zu welchen Entitäten sie auch immer gehören) zuzuordnen. Das TCGA-Datenblatt ist hier . Beispieldaten sind hier. für Brustkrebs. Ich denke, ich kann diese miRNA- und mRNA-Daten auch verwenden.

Fragen hier:

Wie kann man die LOH-Daten entschlüsseln, um herauszufinden, ob sie aussagekräftig sind und wo sie abgebildet werden?
Welche Tools sind für das Mapping zu verwenden und welche Formate für die endgültigen Daten? Fast ?

miRNA/Targets und SNPs Als nächstes stehen krebsspezifische miRNAs und mRNAs und die Zuordnung von SNPs zu ihnen an? Ich gehe davon aus, dass ich dbSNP- oder Sanger-miRNA-Datenbanken verwende, um miRNA/Targets und Seed-Sequenzen zu erhalten.

Ich bin ein bisschen verloren, wie ich all diese Informationen kombinieren soll, welche Formate für die Ausgabe verwendet werden sollen (verknüpft mit einzelnen Teilen) und welche Tools, wenn überhaupt, verwendet werden, um all diese Daten mit Python zu sammeln. Dieses Tool ist ein nützliches Tool mirdsnp.

blöd

Ich denke, Ihnen fehlen möglicherweise ein paar Links - ich sehe Ihr TCGA-Datenblatt nicht und kann nicht sagen, ob der letzte Satz einen Link enthalten soll oder nicht.

Preußen

Hallo, ich habe es bearbeitet. Ich glaube, mir wurde nur ein Link erlaubt, also ist es hoffentlich behoben Zweitens geht es darum, wie die MiR- und MiRsnp-bezogenen Daten integriert werden. Vielen Dank für das Erfassen der fehlenden Links. Wenn ich nicht klar genug war oder nicht genügend Informationen bereitgestellt habe, lassen Sie es mich wissen und ich werde so viel wie möglich klären [1]: tcga-data.nci.nih.gov/tcga/tcgaDataType.jsp

blöd

Ich kann die Wissenschaft nicht kommentieren, aber was die Analyse betrifft, hat Biopython großartige Werkzeuge für die Arbeit mit FASTA-formatierten Daten: siehe SeqRecord

Antworten (1)

TCGA-Daten und Bioinformatik-Designfragen für die SNP/Mirna-Analyse

Ich denke, Ihnen fehlen möglicherweise ein paar Links - ich sehe Ihr TCGA-Datenblatt nicht und kann nicht sagen, ob der letzte Satz einen Link enthalten soll oder nicht.
Hallo, ich habe es bearbeitet. Ich glaube, mir wurde nur ein Link erlaubt, also ist es hoffentlich behoben Zweitens geht es darum, wie die MiR- und MiRsnp-bezogenen Daten integriert werden. Vielen Dank für das Erfassen der fehlenden Links. Wenn ich nicht klar genug war oder nicht genügend Informationen bereitgestellt habe, lassen Sie es mich wissen und ich werde so viel wie möglich klären [1]: tcga-data.nci.nih.gov/tcga/tcgaDataType.jsp
Ich kann die Wissenschaft nicht kommentieren, aber was die Analyse betrifft, hat Biopython großartige Werkzeuge für die Arbeit mit FASTA-formatierten Daten: siehe SeqRecord

Eisreaktion · Answer 1

Eisreaktion

Sie können sich dieses Tutorial ansehen, um TCGA MAF-Dateien zu verstehen. Und Sie finden eine Liste von TCGA-MAF-Dateien mit Mutationen, die Genen und miRNA zugeordnet sind, unter https://www.synapse.org/#!Search:syn1710680

Preußen

Danke für die Antworten. @dd3 Ich hatte vor, SeqRecord zu verwenden. Ich bin mir jedoch nicht sicher, wie ich SNPs Funktionen hinzufügen soll, um sie mit zugehörigen miRNAs oder Zielen usw. zu verknüpfen.

Preußen

das sind tolle links. Wie hast du den MAF hergeleitet? Ich betrachte die SNP- und Expressions-miRNA-Profilerstellung für Level 3 [ tcga-data.nci.nih.gov/tcga/tcgaDataType.jsp data]. wo ich diese Informationen gefunden habe und sie erwähnt LOH und MAGE-TAB. Hier ist ein weiterer [ broadinstitute.org/collaboration/gcc/data/data-types link] .. Also ich denke, für diesen speziellen Teil bin ich verwirrt über das Datenformat und die Bedeutung der Daten :) . Für den Rest geht es darum, miRNAs zu manipulieren und dann mit Python/Biopython eine Stapelsuche durchzuführen. Danke noch einmal.

Preußen

Nachdem ich diesen [ wiki.nci.nih.gov/display/TCGA/Accessing+MAF+files link] gefunden habe, scheint es mir, dass Level-2-Dateien MAF-Dateien sind. Ebene drei sind .txt etwas anderes.

blöd

@prussiap: Ich bin mit den Dateiformaten nicht vertraut, aber könnten Sie Python-Wörterbücher verwenden und SNP-IDs als Schlüssel verwenden?

Preußen

Das ist die Methode, die ich bisher verwende. Dadurch werden Duplikate entfernt, aber ich möchte trotzdem einen Massen-Download von Positionen und Anmerkungen für jeden SNP durchführen.

Dinesh Cyanam

@prussiap: Level 2 sind verarbeitete Daten und Level 3 sind interpretierte/validierte Daten. Weitere Einzelheiten finden Sie auf der Seite TCGA Data Level Classification .

TCGA-Daten und Bioinformatik-Designfragen für die SNP/Mirna-Analyse

Preußen

blöd

Preußen

blöd

Antworten (1)

Eisreaktion

Preußen

Preußen

Preußen

blöd

Preußen

Dinesh Cyanam

Zuordnung einer Mutation zu bekanntem SNP, 3' UTR, miR

Welche Informationen können aus Zeitverlauf-RNA-Seq-Daten extrahiert werden?

Was versteht man unter „Gene am Stamm des Evolutionsbaums“?

Gruppierung von OMIM-Krankheitscodes

Wie finde ich die mRNA-Sequenz für ein bestimmtes prokaryotisches Gen?

Unterschied in den genetischen Anweisungen zwischen Mann und Frau [Duplikat]

Was ist eine genomweite Analyse und eine Locus-spezifische Analyse?

Was bedeuten Sondennummer und Segmentierung in Daten der Kopienzahlvariation (CNV).

Wie unterscheiden sich PLINK-Dateien und HapMap Phased-Dateien?

Konvertieren Sie den Gennamen in die Uniprot-ID