TCGA-Daten und Bioinformatik-Designfragen für die SNP/Mirna-Analyse

Es ist das erste Mal, dass ich in diesem Forum poste, aber ich suchte nach Hilfe zu den Datenaspekten dieses Projekts.

Meine Werkzeuge der Wahl wären in python/R .

Ziel: Ich möchte ein krankheitsspezifisches Profil nur von SNPs und SNPs in miRNAs und miRNA-Zielstellen erstellen.

TEIL 1: TCGA Mein erster Schritt ist die Verwendung von TCGA-Daten, die eine Menge schädlicher Mutationen in einem LOH .txt-Format auflisten. Ich würde gerne in der Lage sein, diese Mutationen SNPs oder Genen oder miRNAs (zu welchen Entitäten sie auch immer gehören) zuzuordnen. Das TCGA-Datenblatt ist hier . Beispieldaten sind hier. für Brustkrebs. Ich denke, ich kann diese miRNA- und mRNA-Daten auch verwenden.

Fragen hier:

  1. Wie kann man die LOH-Daten entschlüsseln, um herauszufinden, ob sie aussagekräftig sind und wo sie abgebildet werden?
  2. Welche Tools sind für das Mapping zu verwenden und welche Formate für die endgültigen Daten? Fast ?

miRNA/Targets und SNPs Als nächstes stehen krebsspezifische miRNAs und mRNAs und die Zuordnung von SNPs zu ihnen an? Ich gehe davon aus, dass ich dbSNP- oder Sanger-miRNA-Datenbanken verwende, um miRNA/Targets und Seed-Sequenzen zu erhalten.

Ich bin ein bisschen verloren, wie ich all diese Informationen kombinieren soll, welche Formate für die Ausgabe verwendet werden sollen (verknüpft mit einzelnen Teilen) und welche Tools, wenn überhaupt, verwendet werden, um all diese Daten mit Python zu sammeln. Dieses Tool ist ein nützliches Tool mirdsnp.

Ich denke, Ihnen fehlen möglicherweise ein paar Links - ich sehe Ihr TCGA-Datenblatt nicht und kann nicht sagen, ob der letzte Satz einen Link enthalten soll oder nicht.
Hallo, ich habe es bearbeitet. Ich glaube, mir wurde nur ein Link erlaubt, also ist es hoffentlich behoben Zweitens geht es darum, wie die MiR- und MiRsnp-bezogenen Daten integriert werden. Vielen Dank für das Erfassen der fehlenden Links. Wenn ich nicht klar genug war oder nicht genügend Informationen bereitgestellt habe, lassen Sie es mich wissen und ich werde so viel wie möglich klären [1]: tcga-data.nci.nih.gov/tcga/tcgaDataType.jsp
Ich kann die Wissenschaft nicht kommentieren, aber was die Analyse betrifft, hat Biopython großartige Werkzeuge für die Arbeit mit FASTA-formatierten Daten: siehe SeqRecord

Antworten (1)

Sie können sich dieses Tutorial ansehen, um TCGA MAF-Dateien zu verstehen. Und Sie finden eine Liste von TCGA-MAF-Dateien mit Mutationen, die Genen und miRNA zugeordnet sind, unter https://www.synapse.org/#!Search:syn1710680

Danke für die Antworten. @dd3 Ich hatte vor, SeqRecord zu verwenden. Ich bin mir jedoch nicht sicher, wie ich SNPs Funktionen hinzufügen soll, um sie mit zugehörigen miRNAs oder Zielen usw. zu verknüpfen.
das sind tolle links. Wie hast du den MAF hergeleitet? Ich betrachte die SNP- und Expressions-miRNA-Profilerstellung für Level 3 [ tcga-data.nci.nih.gov/tcga/tcgaDataType.jsp data]. wo ich diese Informationen gefunden habe und sie erwähnt LOH und MAGE-TAB. Hier ist ein weiterer [ broadinstitute.org/collaboration/gcc/data/data-types link] .. Also ich denke, für diesen speziellen Teil bin ich verwirrt über das Datenformat und die Bedeutung der Daten :) . Für den Rest geht es darum, miRNAs zu manipulieren und dann mit Python/Biopython eine Stapelsuche durchzuführen. Danke noch einmal.
Nachdem ich diesen [ wiki.nci.nih.gov/display/TCGA/Accessing+MAF+files link] gefunden habe, scheint es mir, dass Level-2-Dateien MAF-Dateien sind. Ebene drei sind .txt etwas anderes.
@prussiap: Ich bin mit den Dateiformaten nicht vertraut, aber könnten Sie Python-Wörterbücher verwenden und SNP-IDs als Schlüssel verwenden?
Das ist die Methode, die ich bisher verwende. Dadurch werden Duplikate entfernt, aber ich möchte trotzdem einen Massen-Download von Positionen und Anmerkungen für jeden SNP durchführen.
@prussiap: Level 2 sind verarbeitete Daten und Level 3 sind interpretierte/validierte Daten. Weitere Einzelheiten finden Sie auf der Seite TCGA Data Level Classification .