So selektieren Sie Gene vor dem log2-Verhältnis auf einer RNASeq-Genexpressionsmatrix, basierend auf dem Signalmedian

Question

So selektieren Sie Gene vor dem log2-Verhältnis auf einer RNASeq-Genexpressionsmatrix, basierend auf dem Signalmedian

gc5

Ich möchte eine TCGA-mRNA-Expressionsmatrix (im linearen Datenformat) in log ₂ -Verhältnisse umwandeln und dann eine Merkmalsauswahl (Genauswahl) durchführen, bei der die 1000 Gene mit den meisten Varianten (Gene mit höherer Standardabweichung über Proben hinweg) ausgewählt werden. Der Arbeitsablauf ist folgender:

Wählen Sie "gute" Gene vor dem Log ₂ -Verhältnis aus (Gene jeweils mit mittlerem Signal von mindestens t in p % der Proben);
Führen Sie bei ausgewählten Genen das log ₂ -Verhältnis aus, indem Sie jedes Gen durch sein mittleres Signal dividieren und dann die Ergebnismatrix log _{2 -transformieren;}
Wählen Sie die 1000 Gene mit den meisten Varianten aus allen Proben aus.

Wie wähle ich t und p aus ?

Devon Ryan

Kreuz gepostet auf Biostars: biostars.org/p/132301

Terdon

@DevonRyan Biostars ist nicht Teil des SE-Netzwerks. Es handelt sich nur um Cross-Posting, wenn es auf verschiedenen Stack Exchange-Sites gepostet wird. Wir können kaum erwarten, dass die Leute nirgendwo anders im Internet posten, wenn sie hier posten wollen! Wir wollen nur vermeiden, dass Informationen über das SE-Netzwerk dupliziert werden.

Antworten (1)

So selektieren Sie Gene vor dem log2-Verhältnis auf einer RNASeq-Genexpressionsmatrix, basierend auf dem Signalmedian

@DevonRyan Biostars ist nicht Teil des SE-Netzwerks. Es handelt sich nur um Cross-Posting, wenn es auf verschiedenen Stack Exchange-Sites gepostet wird. Wir können kaum erwarten, dass die Leute nirgendwo anders im Internet posten, wenn sie hier posten wollen! Wir wollen nur vermeiden, dass Informationen über das SE-Netzwerk dupliziert werden.

WYSIWYG · Answer 1

Es gibt keine Regel zum Festlegen von t und p . Es hängt von der erwarteten Strenge ab. Der Wert von t hängt davon ab, was als aktive Konzentration betrachtet wird; dies muss nicht für alle Gene gleich sein.

Dies sind RNAseq-Daten; Ich verstehe nicht, was das "Median" -Signal ist, von dem Sie sprechen. Für jede Probe hätte ein Gen einen normalisierten Expressionswert, der typischerweise RPKM (Reads Per Kilobase per Million Mapped Reads) ist. Wenn Sie Wiederholungen für jede Probe haben, nehmen Sie den Mittelwert, nicht den Median.

Zur Berechnung von Log-Verhältnissen: Seien Sie immer vorsichtig damit, besonders bei Nullen. Anstelle von Log-Verhältnissen können Sie eine Art Gewinnmetrik verwenden:

Wenn
Verhältnis = x/y
Dann
Verstärkung = (xy)/y

Sie können die Daten auch einer Hauptkomponentenanalyse unterziehen und erste nHauptkomponenten auswählen.

Ok für den "Median", es war ein Fehler. Ich habe nicht verstanden: "Vor allem bei Nullen immer vorsichtig sein" - was meinst du? Danke
Wenn der Ausdruck in einem Beispiel Null ist, erhalten Sie durch die Log-Transformation NaN(undefiniert)

So selektieren Sie Gene vor dem log2-Verhältnis auf einer RNASeq-Genexpressionsmatrix, basierend auf dem Signalmedian

gc5

Devon Ryan

Terdon

Antworten (1)

WYSIWYG

gc5

WYSIWYG

Verwendung von RNA-seq zum Vergleich der Genexpression zwischen Patienten statt zwischen Kontroll- und experimentellen Bedingungen

Welche Informationen können aus Zeitverlauf-RNA-Seq-Daten extrahiert werden?

Vergleich der Genexpressionsniveaus zwischen Kontrolle und Krankheit zu verschiedenen Zeitpunkten

Kombinieren von Genexpressionsdaten von zwei Arten

Wie validiert man die aus Genexpressionsdaten abgeleiteten regulatorischen Wechselwirkungen?

Vergleich von Genexpressionszeitreihen in vitro und in vivo

Werkzeuge, die eine Verwandtschaftsmatrix für die phylogenetische Dekorrelation verwenden

Datenbanken für genregulatorische Netzwerkgraphen?

Mehrere Transkripte, die mit demselben Gen übereinstimmen, haben de novo RNA-seq-Daten zusammengestellt, aber die FPKM-Werte variieren?

Valider Vergleich der Genexpression zwischen mehreren Genen in mehreren Zelllinien