Verwendung von RNA-seq zum Vergleich der Genexpression zwischen Patienten statt zwischen Kontroll- und experimentellen Bedingungen

Ich arbeite mit RNA-seq-Daten aus dem Cancer Genome Atlas TCGA und habe darüber gelesen, wie Menschen die durch RNA-seq gemessenen Genexpressionsniveaus verglichen haben. Viele der Artikel, die ich gelesen habe, sprechen von "differenzieller Expression", um die Expressionsniveaus jedes Gens unter den experimentellen und Kontrollbedingungen zu vergleichen.

In TCGA-Daten habe ich typischerweise eine Patientenkohorte, bei der die mRNA in ihren Tumoren nur einmal sequenziert wurde, sodass es keine Experimental-vs-Control-Dynamik gibt. Ich interessiere mich dafür, herauszufinden, welche Tumore der Patienten eine Genexpression zeigen, die signifikant höher ist als die des Rests der Kohorte, aber ich hatte kein Glück, Literatur zu finden, die diese Art von Vergleich beschreibt. Ich denke, vielleicht kann ich vorhandene Differenzialexpressionstechniken auf meine Situation anwenden, aber das scheint umständlich und nicht unbedingt angemessen zu sein, also dachte ich, ich würde die Community hier fragen, ob es einen besseren Weg gibt, um herauszufinden, welche Mitglieder einer Kohorte Ausreißer für bestimmte Gene sind .

Außerdem: Alle meine RNA-seq-Daten wurden bereits für mich RPKM-normalisiert. Mir wurde geraten, dass die Verwendung von RSEM stattdessen besser für den Vergleich der Genexpression über mehrere Proben hinweg wäre, aber aus logistischen Gründen stecke ich wahrscheinlich bei meinen RPKM-normalisierten Expressionsniveaus fest.

Grundsätzlich suche ich nach dem besten Weg, die Genexpression zwischen Proben zu vergleichen, um festzustellen, welche Proben eine hohe/niedrige Genexpression aufweisen. Intuitiv denke ich, ich könnte einfach mittlere Z-Scores für die Expressionsniveaus jedes Gens innerhalb meiner Kohorte berechnen und jeden mit einem |z-Score| berücksichtigen größer als 2, um ein "Ausreißer" zu sein, aber ich habe auch keine Literatur gefunden, die diese Art von Ansatz unterstützt.

Alle Vorschläge, Papiere oder Ratschläge werden sehr geschätzt.

Antworten (2)

Wenn Sie RPKM sagen, meinen Sie damit grobes RPKM oder die Schätzungen, die Sie mit Methoden zur Maximierung der Erwartung wie Manschettenknöpfe und eXpress erhalten?

Es ist besser, wenn Sie Ihre RPKM- oder FPKM-Werte aus einem dieser Programme beziehen, da Sie zwischen Transkriptvarianten unterscheiden können.

Ich habe meistens Manschettenknöpfe und eXpress verwendet. Manschettenknöpfe-Paket ist besser für mehrere Datensätze. Sie können cuffquant-Dateien (die SAM/BAM verwenden) verwenden, um FPKM zu berechnen. Cuffquant benötigt außerdem eine Referenzdatei GTF. Cuffquant gibt eine Binärdatei .cxbaus, die Sie nicht direkt lesen können. Nachdem Sie die .cxbDateien für alle Ihre Kohortenproben generiert haben, übergeben Sie alle diese Dateien an cuffnorm. Es normalisiert die Daten und gibt Ihnen FPKM-Werte für jedes Gen in jeder Probe in Form einer riesigen Tabelle.

Der nächste Punkt ist, welche Gene Sie vergleichen möchten. Möchten Sie bekannte Onkogene vergleichen, die bei allen Krebsarten eine konsistente Hochregulation zeigen? Tatsächlich gibt es ein Papier, in dem sie dies getan haben (ich werde Ihnen die Referenz mitteilen, wenn ich sie finde. Kann mich jetzt nicht erinnern).

Sie können dann sehen, wie viele dieser Gene in Ihrer Kohorte konsistent exprimiert werden. Grundsätzlich müssen Sie eine Reihe von Genen identifizieren, bevor Sie untersuchen, welcher Patient eine anomale Expression aufweist.

Ich habe die Art von RPKM-Werten erhalten, die Sie von der Tuxedo-Suite erhalten würden, aber ich habe keinen Einblick in die spezifische verwendete Pipeline. Ich würde gerne ein Papier sehen, das RNA-seq-Daten zwischen Onkogenen verschiedener Krebsarten vergleicht; poste bitte bei Gelegenheit einen Link. Außerdem: Meine Mitarbeiter haben bereits eine Reihe von Genen identifiziert, auf die sie sich konzentrieren können.
Ich weiß nur nicht mehr, welches Journal es war, aber ich bin mir sicher, dass ich eines gelesen habe. Vielleicht geht es um miRNAs und Onkogen-Interaktionen bei verschiedenen Krebsarten.
Wenn Sie jedoch differentiell exprimierte Werte verschiedener Krebsarten vergleichen möchten, können Sie dies durch eine Hauptkomponentenanalyse der RNAseq-Daten für verschiedene Krebsarten aus TCGA erhalten
Ich gehe davon aus, dass ich später PCA verwenden werde, um zu sehen, welche Expressionsmuster den größten Einfluss auf klinische Daten haben. Im Moment konzentriere ich mich jedoch darauf, eine kleine Gruppe von Genen bei Patienten zu vergleichen, die alle denselben Krebs haben (ich denke, ich hätte das in meine ursprüngliche Frage aufnehmen sollen). Machen Sie sich keine Sorgen um die Abhandlung, ich hätte nie daran gedacht, nach Abhandlungen zu suchen, in denen die Expression verschiedener Krebsarten verglichen wird, und ich habe auf diese Weise einige nützliche Literatur gefunden.

Anscheinend möchten Sie einen allgemeinen Ansatz zum Vergleichen von Genexpressionssignaturen haben.

Eine neuere Veröffentlichung, Clark et al ., verfolgt einen eleganten geometrischen Ansatz. Die Idee besteht darin, eine Dimensionsreduktion (Singulärwertzerlegung) der Expressionsdaten durchzuführen und dann den Kosinusabstand zwischen den Genexpressionssignaturen im reduzierten Raum zu berechnen.

Wenn Sie diese Methodik anwenden, können Sie Patienten mit sehr ähnlichen Signaturen (kleine Abstände) zusammenfassen und Ausreißer (größere Abstände) identifizieren. Darüber hinaus können Sie anhand der Ladungen aus der Singulärwertzerlegung erkennen, welche Gene die Unterschiede in den gemessenen Entfernungen antreiben, und somit „relativ differentiell exprimierte Gene“ identifizieren.