Ich verwende einen Datensatz, der von erstellt wurde Proben u Merkmale (Gene). Jeder Datenpunkt ist eine reelle Zahl.
Ich möchte verstehen, wie Daten vor der Analyse vorverarbeitet werden, insbesondere: Folgen Datenpunkte einer Normal- oder einer logarithmischen Normalverteilung?
Ich habe darüber nachgedacht, qqplots zu verwenden und nach verschiedenen Tests zu suchen, um die Form der Verteilung zu beurteilen, aber ich habe Zweifel:
Muss ich die Form beurteilen von:
?
Aus persönlicher Erfahrung erfordern fast alle Zähldaten, ob von Mikroarrays oder Lesevorgängen von irgendeiner Art von RNAseq, eine Log-Transformation der Zählungen. Normalerweise wird allen Werten ein kleiner Bruchteil hinzugefügt, bevor dies zum Nullschutz führt. Log2(counts + 0.5) oder so ähnlich. Dies ist unabhängig von den Behandlungen. Wenn Sie die Transformation einer Probe protokollieren, tun Sie dasselbe für alle Proben. Um auf Normalität zu prüfen, besteht eine einfache Möglichkeit darin, das Histogramm der Zählungen (von allen Proben oder von jeder Probe) vor und nach der Transformation zu betrachten. Grob glockenförmig -> weiter.
Bilder unten von meinen Daten. Obwohl die Daten von RNAseq stammen, sollten Microarray-Daten ähnlich sein.
R-Code hier:
hist(t$counts,breaks=100,main="Histogram of Raw Counts from RNAseq")
hist(log(t$counts + 0.5,2),breaks=100,main="Histogram of Log2
transformed Counts from RNAseq")
C_Z_
gc5
WYSIWYG