Mehrere Transkripte, die mit demselben Gen übereinstimmen, haben de novo RNA-seq-Daten zusammengestellt, aber die FPKM-Werte variieren?

Ich habe einen Datensatz von de novo zusammengestellten RNA-seq-Datensätzen für verschiedene Probentypen.

Beim BLASTing stimmen viele der Übereinstimmungen der einzelnen Transkripte mit demselben Gen auf dem Referenzgenom überein. Jedes einzelne Transkript hat jedoch seinen eigenen eindeutigen FPKM-Wert.

Ich bin zunächst verwirrt, wie man mehrere Sequenzen desselben Gens mit unterschiedlichen FPKM-Werten haben kann – und natürlich frage ich mich auch, was ein geeigneter Ansatz für die anschließende Analyse wäre. Soll ich einfach die FPKM-Werte für die Sequenzen mit denselben Übereinstimmungen addieren?

Antworten (1)

Wenn die Quantifizierung auf Transkriptebene erfolgt, wird jedem identifizierten Transkript eines bestimmten Gens eine unterschiedliche Anzahl von Lesevorgängen zugeordnet, daher ein unterschiedlicher RPKM-Wert.

Für die anschließende Analyse können Sie auf Transkriptebene fortfahren.

Ich denke, Sie können die FPKM-Werte nicht direkt summieren, da sie umgekehrt proportional zu den Transkriptlängen sind ("K" steht für "by kilobase"). Wenn Sie die anschließende Analyse auf Genebene durchführen und FPKM-Werte verwenden möchten, müssten Sie die FPKM-Werte der Transkripte vor der Summierung mit den entsprechenden Transkriptlängen multiplizieren. Dann müssen Sie diese Summe durch die Genlänge dividieren oder so ähnlich.

In der Tat können Sie FPKMs nicht summieren, und heutzutage sollten Sie wahrscheinlich versuchen, sie überhaupt nicht mehr zu verwenden (sie haben eine gewisse Voreingenommenheit, sind aber immer noch weit verbreitet). Aber selbst wenn Sie die rohen Zählungen pro Transkript erhalten, sollten Sie sie nicht direkt summieren, um Zählungen pro Gen zu erhalten. Wenn Sie Ihre Zählungen mit Kallisto oder Salmon erhalten haben, ist es am einfachsten, entweder sleuth zu verwenden, um direkt an Transkripten zu arbeiten, oder tximport, um Zählungen zu summieren und sie in DESeq, edgeR oder ein anderes Programm einzugeben.