Ich möchte eine TCGA-mRNA-Expressionsmatrix (im linearen Datenformat) in log 2 -Verhältnisse umwandeln und dann eine Merkmalsauswahl (Genauswahl) durchführen, bei der die 1000 Gene mit den meisten Varianten (Gene mit höherer Standardabweichung über Proben hinweg) ausgewählt werden. Der Arbeitsablauf ist folgender:
Wie wähle ich t und p aus ?
Es gibt keine Regel zum Festlegen von t und p . Es hängt von der erwarteten Strenge ab. Der Wert von t hängt davon ab, was als aktive Konzentration betrachtet wird; dies muss nicht für alle Gene gleich sein.
Dies sind RNAseq-Daten; Ich verstehe nicht, was das "Median" -Signal ist, von dem Sie sprechen. Für jede Probe hätte ein Gen einen normalisierten Expressionswert, der typischerweise RPKM (Reads Per Kilobase per Million Mapped Reads) ist. Wenn Sie Wiederholungen für jede Probe haben, nehmen Sie den Mittelwert, nicht den Median.
Zur Berechnung von Log-Verhältnissen: Seien Sie immer vorsichtig damit, besonders bei Nullen. Anstelle von Log-Verhältnissen können Sie eine Art Gewinnmetrik verwenden:
Wenn Verhältnis = x/y Dann Verstärkung = (xy)/y
Sie können die Daten auch einer Hauptkomponentenanalyse unterziehen und erste n
Hauptkomponenten auswählen.
NaN
(undefiniert)
Devon Ryan
Terdon