Was ist der geeignetste Weg, um Genexpressionsdaten zu normalisieren?

Diese Frage stellt sich, weil beim Lesen eines Artikels über die Normalisierung von Genexpressionsdaten nicht klar ist, ob die Methode zur Normalisierung der Daten nur für RNA-Seq-Daten gilt oder auch für Microarrays angewendet werden könnte.

Für RNA-Seq-Daten gibt es Normalisierungsmethoden, die den Effekt des GC-Gehalts oder andere Effekte auf Genebene anpassen. Ist es sinnvoll, diese Effekte bei der Normalisierung von Microarray-Genexpressionsdaten zu berücksichtigen?

Diese Methoden korrigieren die Verzerrungen während des Sequenzierungsexperiments. Da Microarray eine andere Technik ist, wären die Verzerrungen, unter denen es leidet, anders. Es gibt auch Bias-Korrekturtechniken für Microarrays, aber sie unterscheiden sich von denen, die für RNAseq verwendet werden. Sie können nicht austauschbar verwendet werden.

Antworten (2)

Die Normalisierung von Expressionsdaten ist ein großes Thema, da regelmäßig neue Methoden veröffentlicht werden. Wenn Sie sich so etwas nähern, möchten Sie sich im Allgemeinen Menschen ansehen, die ähnliche Dinge getan haben wie Sie, und wenn Sie dann verstehen, warum sie das getan haben, was sie getan haben, können Sie fragen, was Sie tun müssen, um Ihre Fragen zu beantworten. Denken Sie immer an Ihre biologische Fragestellung. Wenn Sie beispielsweise QTLs messen, müssen Sie viel vorsichtiger sein, als wenn Sie nur nach Genen suchen, die von einer Knockout-Mutation betroffen sind.

Im Allgemeinen möchten Sie ganz unterschiedliche Methoden für RNAseq- und Microarray-Daten verwenden. Die beiden Datentypen folgen völlig unterschiedlichen Verteilungen (RNAseq liefert Ihnen Zähldaten, Microarray-Daten liefern Ihnen kontinuierliche Signale) und haben unterschiedliche Arten von technischem Rauschen, das sie beeinflusst (GC-Inhalt beeinflusst beide, aber auf unterschiedliche Weise). Einige Methoden können für beide verwendet werden, beinhalten aber normalerweise das Erzwingen der Daten in eine andere Form (z. B. das Abbilden von Zählungen auf eine Normalverteilung). Das limma -Paket für R kann beides mit unterschiedlichen Distributionen verarbeiten und ist ein guter Anfang. Es gibt neuere, angeblich bessere Methoden für RNAseq, die ich persönlich nicht verwendet habe.

Im Allgemeinen möchten Sie bei RNA-seq-Daten keine Korrektur des GC-Gehalts oder anderer Effekte auf Genebene (z. B. Länge) vornehmen, da Sie Expressionswerte zwischen Bedingungen INNERHALB eines Gens vergleichen. Aus diesem Grund wird empfohlen, Rohzählungen und keine normalisierten Werte wie FPKM zu verwenden. Siehe Abschnitt 2.7 des edgeR-Benutzerhandbuchs .

Dieser kürzlich erschienene Benchmark zum Vergleich von RNA-seq-Quantifizierungsmethoden könnte einen Blick wert sein.