So beurteilen Sie, ob biologische Messungen einer Normal- oder Log-Normalverteilung folgen

Ich verwende einen Datensatz, der von erstellt wurde M Proben u N Merkmale (Gene). Jeder Datenpunkt ist eine reelle Zahl.

Ich möchte verstehen, wie Daten vor der Analyse vorverarbeitet werden, insbesondere: Folgen Datenpunkte einer Normal- oder einer logarithmischen Normalverteilung?

Ich habe darüber nachgedacht, qqplots zu verwenden und nach verschiedenen Tests zu suchen, um die Form der Verteilung zu beurteilen, aber ich habe Zweifel:

Muss ich die Form beurteilen von:

  • jede Stichprobenverteilung
  • jedes Merkmal (Gen) Verteilung
  • der ganze Datensatz ( M Proben x N Merkmale (Gene))

?

Dies ist möglicherweise besser für Cross Validated geeignet
@C_Z_ du hast Recht, aber ich dachte, es könnte eine Aufgabe sein, die für Bioinformatiker bekannt ist, zB bei der Verwendung von Mikroarrays. Wenn nicht, wie kann ich es in den Lebenslauf übertragen? Danke

Antworten (2)

Aus persönlicher Erfahrung erfordern fast alle Zähldaten, ob von Mikroarrays oder Lesevorgängen von irgendeiner Art von RNAseq, eine Log-Transformation der Zählungen. Normalerweise wird allen Werten ein kleiner Bruchteil hinzugefügt, bevor dies zum Nullschutz führt. Log2(counts + 0.5) oder so ähnlich. Dies ist unabhängig von den Behandlungen. Wenn Sie die Transformation einer Probe protokollieren, tun Sie dasselbe für alle Proben. Um auf Normalität zu prüfen, besteht eine einfache Möglichkeit darin, das Histogramm der Zählungen (von allen Proben oder von jeder Probe) vor und nach der Transformation zu betrachten. Grob glockenförmig -> weiter.

Bilder unten von meinen Daten. Obwohl die Daten von RNAseq stammen, sollten Microarray-Daten ähnlich sein.

R-Code hier:

hist(t$counts,breaks=100,main="Histogram of Raw Counts from RNAseq")
hist(log(t$counts + 0.5,2),breaks=100,main="Histogram of Log2
transformed Counts from RNAseq")

Geben Sie hier die Bildbeschreibung ein

Es gibt Möglichkeiten, die Normalität statistisch zu überprüfen, und ich finde, die visuelle Untersuchung der Daten, wie ich sie oben aufgeführt habe, ist ein guter erster Schritt.
  • Die Vorverarbeitung wird und sollte immer von der Biologie abhängen, die Sie zu beantworten oder zu entdecken versuchen (z. B.: Es könnte eine experimentelle Begründung dafür geben, dass sich einige Gene in einzelnen Proben unterschiedlich verhalten – und dass verschiedene Proben möglicherweise unterschiedliche Verteilungen aufweisen.)
  • Die Log-Transformation Ihrer Daten an sich ist normalerweise kein Problem und erleichtert die gleichzeitige Untersuchung verschiedener Größenordnungen erheblich (obwohl das Hinzufügen eines kleinen Werts vor dem Log Ihre Analyse schnell irreführend machen kann, wenn Sie die Varianz über Stichproben hinweg quantitativ untersuchen wollten).
  • Zum Testen der Normalität möchten Sie vielleicht den Lilliefors-Test auf Rohdaten und log-transformierte Daten anwenden
  • Wenn Sie eine Auslesung der Genexpression verwenden, dürfen Sie nicht mit einer unimodalen Verteilung rechnen, z unimodale Verteilung - wie lognormal - sollten Sie sehr misstrauisch werden und die Qualität der experimentellen Daten überprüfen.)