Was ist der geeignetste Weg, um Genexpressionsdaten zu normalisieren?

Question

Was ist der geeignetste Weg, um Genexpressionsdaten zu normalisieren?

Biologie
Mikroarray
Bio-Statistiken
Bioinformatik
RNA-Sequenzierung
Genexpression

Fernando

Diese Frage stellt sich, weil beim Lesen eines Artikels über die Normalisierung von Genexpressionsdaten nicht klar ist, ob die Methode zur Normalisierung der Daten nur für RNA-Seq-Daten gilt oder auch für Microarrays angewendet werden könnte.

Für RNA-Seq-Daten gibt es Normalisierungsmethoden, die den Effekt des GC-Gehalts oder andere Effekte auf Genebene anpassen. Ist es sinnvoll, diese Effekte bei der Normalisierung von Microarray-Genexpressionsdaten zu berücksichtigen?

WYSIWYG

Diese Methoden korrigieren die Verzerrungen während des Sequenzierungsexperiments. Da Microarray eine andere Technik ist, wären die Verzerrungen, unter denen es leidet, anders. Es gibt auch Bias-Korrekturtechniken für Microarrays, aber sie unterscheiden sich von denen, die für RNAseq verwendet werden. Sie können nicht austauschbar verwendet werden.

Antworten (2)

Was ist der geeignetste Weg, um Genexpressionsdaten zu normalisieren?

Diese Methoden korrigieren die Verzerrungen während des Sequenzierungsexperiments. Da Microarray eine andere Technik ist, wären die Verzerrungen, unter denen es leidet, anders. Es gibt auch Bias-Korrekturtechniken für Microarrays, aber sie unterscheiden sich von denen, die für RNAseq verwendet werden. Sie können nicht austauschbar verwendet werden.

Dermot Harnett · Answer 1

Die Normalisierung von Expressionsdaten ist ein großes Thema, da regelmäßig neue Methoden veröffentlicht werden. Wenn Sie sich so etwas nähern, möchten Sie sich im Allgemeinen Menschen ansehen, die ähnliche Dinge getan haben wie Sie, und wenn Sie dann verstehen, warum sie das getan haben, was sie getan haben, können Sie fragen, was Sie tun müssen, um Ihre Fragen zu beantworten. Denken Sie immer an Ihre biologische Fragestellung. Wenn Sie beispielsweise QTLs messen, müssen Sie viel vorsichtiger sein, als wenn Sie nur nach Genen suchen, die von einer Knockout-Mutation betroffen sind.

Im Allgemeinen möchten Sie ganz unterschiedliche Methoden für RNAseq- und Microarray-Daten verwenden. Die beiden Datentypen folgen völlig unterschiedlichen Verteilungen (RNAseq liefert Ihnen Zähldaten, Microarray-Daten liefern Ihnen kontinuierliche Signale) und haben unterschiedliche Arten von technischem Rauschen, das sie beeinflusst (GC-Inhalt beeinflusst beide, aber auf unterschiedliche Weise). Einige Methoden können für beide verwendet werden, beinhalten aber normalerweise das Erzwingen der Daten in eine andere Form (z. B. das Abbilden von Zählungen auf eine Normalverteilung). Das limma -Paket für R kann beides mit unterschiedlichen Distributionen verarbeiten und ist ein guter Anfang. Es gibt neuere, angeblich bessere Methoden für RNAseq, die ich persönlich nicht verwendet habe.

fanli · Answer 2

Im Allgemeinen möchten Sie bei RNA-seq-Daten keine Korrektur des GC-Gehalts oder anderer Effekte auf Genebene (z. B. Länge) vornehmen, da Sie Expressionswerte zwischen Bedingungen INNERHALB eines Gens vergleichen. Aus diesem Grund wird empfohlen, Rohzählungen und keine normalisierten Werte wie FPKM zu verwenden. Siehe Abschnitt 2.7 des edgeR-Benutzerhandbuchs .

Dieser kürzlich erschienene Benchmark zum Vergleich von RNA-seq-Quantifizierungsmethoden könnte einen Blick wert sein.

Was ist der geeignetste Weg, um Genexpressionsdaten zu normalisieren?

Fernando

WYSIWYG

Antworten (2)

Dermot Harnett

fanli

Welche Informationen können aus Zeitverlauf-RNA-Seq-Daten extrahiert werden?

Vergleich von Genexpressionszeitreihen in vitro und in vivo

Mehrere Transkripte, die mit demselben Gen übereinstimmen, haben de novo RNA-seq-Daten zusammengestellt, aber die FPKM-Werte variieren?

Genstörung, wofür wird sie verwendet, Computerwissenschaftlern erklären? [geschlossen]

Wo finde ich E.coli-Genexpressionsdaten?

Verwendung von RNA-seq zum Vergleich der Genexpression zwischen Patienten statt zwischen Kontroll- und experimentellen Bedingungen

Wie viele koexprimierte Gene wären in einem Gewebe zu erwarten?

Differentielle Genexpressionsanalyse zwischen Arten

Warum Transkriptom statt Proteom analysieren?

Welche Muster lassen sich aus den Daten der RNA-Seqcounts und der HiC-Matrix ableiten? [geschlossen]