Ich habe einen Datensatz von de novo zusammengestellten RNA-seq-Datensätzen für verschiedene Probentypen.
Beim BLASTing stimmen viele der Übereinstimmungen der einzelnen Transkripte mit demselben Gen auf dem Referenzgenom überein. Jedes einzelne Transkript hat jedoch seinen eigenen eindeutigen FPKM-Wert.
Ich bin zunächst verwirrt, wie man mehrere Sequenzen desselben Gens mit unterschiedlichen FPKM-Werten haben kann – und natürlich frage ich mich auch, was ein geeigneter Ansatz für die anschließende Analyse wäre. Soll ich einfach die FPKM-Werte für die Sequenzen mit denselben Übereinstimmungen addieren?
Wenn die Quantifizierung auf Transkriptebene erfolgt, wird jedem identifizierten Transkript eines bestimmten Gens eine unterschiedliche Anzahl von Lesevorgängen zugeordnet, daher ein unterschiedlicher RPKM-Wert.
Für die anschließende Analyse können Sie auf Transkriptebene fortfahren.
Ich denke, Sie können die FPKM-Werte nicht direkt summieren, da sie umgekehrt proportional zu den Transkriptlängen sind ("K" steht für "by kilobase"). Wenn Sie die anschließende Analyse auf Genebene durchführen und FPKM-Werte verwenden möchten, müssten Sie die FPKM-Werte der Transkripte vor der Summierung mit den entsprechenden Transkriptlängen multiplizieren. Dann müssen Sie diese Summe durch die Genlänge dividieren oder so ähnlich.
Alexlok