Ich habe RNA-Seq-Daten von Maus- und menschlicher Haut (jeweils 2 Replikate) und möchte die Expression der orthologen Gene vergleichen, um differenziell exprimierte Gene zu finden. Ich habe die Genexpressionsmatrix über alle 4 Proben (2 Maus + 2 Mensch) quantilnormalisiert. Ich möchte schließlich die Log-Fold-Änderung der Expression aller orthologen Gene zwischen den beiden Arten berechnen. Aber bevor ich das tue, sollte ich die Genlänge kontrollieren, richtig? Wird dies ausreichen, um mir eine Vorstellung von den unterschiedlich exprimierten Genen zu geben, oder sollte ich ausgefeiltere Methoden anwenden? Alle Kommentare wären hilfreich. Vielen Dank.
Es hängt wirklich davon ab, welche Art von Daten Sie haben. Es gibt Methoden, die ausschließlich zur Quantifizierung des relativen Ausdrucks auf der Grundlage von Zähldaten entwickelt wurden, z. B. die Verwendung von edgeR oder limma-voom.
Sie müssen die Genlänge nicht korrigieren, um die Faltungsänderungen der relativen Expression abzuschätzen. Sie müssen zuerst nach der Bibliotheksgröße normalisieren (und dabei log2 ((Zählungen + 0,5) / 1e + 06 erhalten) und dann , nach der Quantil-Normalisierung können Sie einfach Maus – Mensch oder Mensch – Maus berechnen, um eine Schätzung des Fold Change zu erhalten.
Ich würde dennoch empfehlen, für diese Aufgabe etwas Anspruchsvolleres wie limma-voom zu verwenden, da Sie dadurch auch Dinge wie Falscherkennungsraten für Ihre Fold-Änderungen erhalten können.
MattDMo