Diese Frage stellt sich, weil beim Lesen eines Artikels über die Normalisierung von Genexpressionsdaten nicht klar ist, ob die Methode zur Normalisierung der Daten nur für RNA-Seq-Daten gilt oder auch für Microarrays angewendet werden könnte.
Für RNA-Seq-Daten gibt es Normalisierungsmethoden, die den Effekt des GC-Gehalts oder andere Effekte auf Genebene anpassen. Ist es sinnvoll, diese Effekte bei der Normalisierung von Microarray-Genexpressionsdaten zu berücksichtigen?
Die Normalisierung von Expressionsdaten ist ein großes Thema, da regelmäßig neue Methoden veröffentlicht werden. Wenn Sie sich so etwas nähern, möchten Sie sich im Allgemeinen Menschen ansehen, die ähnliche Dinge getan haben wie Sie, und wenn Sie dann verstehen, warum sie das getan haben, was sie getan haben, können Sie fragen, was Sie tun müssen, um Ihre Fragen zu beantworten. Denken Sie immer an Ihre biologische Fragestellung. Wenn Sie beispielsweise QTLs messen, müssen Sie viel vorsichtiger sein, als wenn Sie nur nach Genen suchen, die von einer Knockout-Mutation betroffen sind.
Im Allgemeinen möchten Sie ganz unterschiedliche Methoden für RNAseq- und Microarray-Daten verwenden. Die beiden Datentypen folgen völlig unterschiedlichen Verteilungen (RNAseq liefert Ihnen Zähldaten, Microarray-Daten liefern Ihnen kontinuierliche Signale) und haben unterschiedliche Arten von technischem Rauschen, das sie beeinflusst (GC-Inhalt beeinflusst beide, aber auf unterschiedliche Weise). Einige Methoden können für beide verwendet werden, beinhalten aber normalerweise das Erzwingen der Daten in eine andere Form (z. B. das Abbilden von Zählungen auf eine Normalverteilung). Das limma -Paket für R kann beides mit unterschiedlichen Distributionen verarbeiten und ist ein guter Anfang. Es gibt neuere, angeblich bessere Methoden für RNAseq, die ich persönlich nicht verwendet habe.
Im Allgemeinen möchten Sie bei RNA-seq-Daten keine Korrektur des GC-Gehalts oder anderer Effekte auf Genebene (z. B. Länge) vornehmen, da Sie Expressionswerte zwischen Bedingungen INNERHALB eines Gens vergleichen. Aus diesem Grund wird empfohlen, Rohzählungen und keine normalisierten Werte wie FPKM zu verwenden. Siehe Abschnitt 2.7 des edgeR-Benutzerhandbuchs .
Dieser kürzlich erschienene Benchmark zum Vergleich von RNA-seq-Quantifizierungsmethoden könnte einen Blick wert sein.
WYSIWYG