Differentielle Genexpressionsanalyse zwischen Arten

Ich habe RNA-Seq-Daten von Maus- und menschlicher Haut (jeweils 2 Replikate) und möchte die Expression der orthologen Gene vergleichen, um differenziell exprimierte Gene zu finden. Ich habe die Genexpressionsmatrix über alle 4 Proben (2 Maus + 2 Mensch) quantilnormalisiert. Ich möchte schließlich die Log-Fold-Änderung der Expression aller orthologen Gene zwischen den beiden Arten berechnen. Aber bevor ich das tue, sollte ich die Genlänge kontrollieren, richtig? Wird dies ausreichen, um mir eine Vorstellung von den unterschiedlich exprimierten Genen zu geben, oder sollte ich ausgefeiltere Methoden anwenden? Alle Kommentare wären hilfreich. Vielen Dank.

Dies könnte bei Cross Validated besser geeignet sein .

Antworten (1)

Es hängt wirklich davon ab, welche Art von Daten Sie haben. Es gibt Methoden, die ausschließlich zur Quantifizierung des relativen Ausdrucks auf der Grundlage von Zähldaten entwickelt wurden, z. B. die Verwendung von edgeR oder limma-voom.

Sie müssen die Genlänge nicht korrigieren, um die Faltungsänderungen der relativen Expression abzuschätzen. Sie müssen zuerst nach der Bibliotheksgröße normalisieren (und dabei log2 ((Zählungen + 0,5) / 1e + 06 erhalten) und dann , nach der Quantil-Normalisierung können Sie einfach Maus – Mensch oder Mensch – Maus berechnen, um eine Schätzung des Fold Change zu erhalten.

Ich würde dennoch empfehlen, für diese Aufgabe etwas Anspruchsvolleres wie limma-voom zu verwenden, da Sie dadurch auch Dinge wie Falscherkennungsraten für Ihre Fold-Änderungen erhalten können.

Ich habe Zähldaten. Der Grund, warum ich bei der Verwendung von Paketen wie edgeR oder DESeq2 zögere, ist jedoch, dass sie dazu gedacht sind, die Expression desselben Gens zwischen zwei Bedingungen zu vergleichen. Andererseits möchte ich die Expression orthologer Gene (diff-Gene mit unterschiedlichen Längen) zwischen 2 Arten vergleichen. Auch wenn ich eine Quantil-Normalisierung durchführe (dh allen Stichproben dieselbe Verteilung auferlege), muss ich dann immer noch die Bibliotheksgröße kontrollieren?
Ja, es ist die Norm, die Bibliotheksgröße zu kontrollieren und dann die Quantile zu normalisieren – Sie müssen immer die Anzahl der Zählungen dafür kontrollieren, wie viele Reads pro Probe sequenziert wurden. Orthologe mit unterschiedlichen Längen sollten in Ordnung sein - ich meine, in jedem Fall schätzt Limma-Vom zum Beispiel die unterschiedliche Expression auf Genebene ohne Berücksichtigung von Isoformen (die unterschiedliche Längen haben). Orthologe können technisch gesehen als Varianten derselben Gene betrachtet werden, also versuchen Sie es vielleicht einmal.
Danke für deine Antwort. Aber die Tatsache, dass Limma (und andere auf Zählung basierende Methoden) diff-Transkripte nicht berücksichtigt, ist eine Einschränkung (z. B.: Wenn Gen A-Transkript 1 20 Reads in Bedingung A hat und Gen A-Transkript 2 20 Reads in Bedingung B hat, wird dies nicht der Fall sein Transkript 1 & 2 als differentiell exprimiert finden ... während dies je nach Gen biologisch relevant sein kann.) Deshalb zögere ich, diese Methoden für meine Analyse zu verwenden.
Sie werden sowieso auf ähnliche Probleme stoßen, wenn Sie Orthologe allein durch Faltungsänderungen vergleichen - die einzige Möglichkeit, dies zu umgehen, besteht darin, exonspezifische Zählungen abzuleiten. In diesem Fall verfügt Limma über eine diffsplice-Funktion, um auf differentielles Spleißen zu prüfen. oder Sie könnten RSEM verwenden, um Zählungen für vergleichbare Isoformen in Ihren Organismen zu schätzen, und dann anstelle von Genzählungen Isoformzählungen verwenden.