So selektieren Sie Gene vor dem log2-Verhältnis auf einer RNASeq-Genexpressionsmatrix, basierend auf dem Signalmedian

Ich möchte eine TCGA-mRNA-Expressionsmatrix (im linearen Datenformat) in log 2 -Verhältnisse umwandeln und dann eine Merkmalsauswahl (Genauswahl) durchführen, bei der die 1000 Gene mit den meisten Varianten (Gene mit höherer Standardabweichung über Proben hinweg) ausgewählt werden. Der Arbeitsablauf ist folgender:

  1. Wählen Sie "gute" Gene vor dem Log 2 -Verhältnis aus (Gene jeweils mit mittlerem Signal von mindestens t in p % der Proben);
  2. Führen Sie bei ausgewählten Genen das log 2 -Verhältnis aus, indem Sie jedes Gen durch sein mittleres Signal dividieren und dann die Ergebnismatrix log 2 -transformieren;
  3. Wählen Sie die 1000 Gene mit den meisten Varianten aus allen Proben aus.

Wie wähle ich t und p aus ?

Kreuz gepostet auf Biostars: biostars.org/p/132301
@DevonRyan Biostars ist nicht Teil des SE-Netzwerks. Es handelt sich nur um Cross-Posting, wenn es auf verschiedenen Stack Exchange-Sites gepostet wird. Wir können kaum erwarten, dass die Leute nirgendwo anders im Internet posten, wenn sie hier posten wollen! Wir wollen nur vermeiden, dass Informationen über das SE-Netzwerk dupliziert werden.

Antworten (1)

Es gibt keine Regel zum Festlegen von t und p . Es hängt von der erwarteten Strenge ab. Der Wert von t hängt davon ab, was als aktive Konzentration betrachtet wird; dies muss nicht für alle Gene gleich sein.

Dies sind RNAseq-Daten; Ich verstehe nicht, was das "Median" -Signal ist, von dem Sie sprechen. Für jede Probe hätte ein Gen einen normalisierten Expressionswert, der typischerweise RPKM (Reads Per Kilobase per Million Mapped Reads) ist. Wenn Sie Wiederholungen für jede Probe haben, nehmen Sie den Mittelwert, nicht den Median.

Zur Berechnung von Log-Verhältnissen: Seien Sie immer vorsichtig damit, besonders bei Nullen. Anstelle von Log-Verhältnissen können Sie eine Art Gewinnmetrik verwenden:

Wenn
Verhältnis = x/y
Dann
Verstärkung = (xy)/y

Sie können die Daten auch einer Hauptkomponentenanalyse unterziehen und erste nHauptkomponenten auswählen.

Ok für den "Median", es war ein Fehler. Ich habe nicht verstanden: "Vor allem bei Nullen immer vorsichtig sein" - was meinst du? Danke
Wenn der Ausdruck in einem Beispiel Null ist, erhalten Sie durch die Log-Transformation NaN(undefiniert)