Empfohlener Sequenz-Clustering-Algorithmus für Transkriptomdaten

Ich arbeite an einem Projekt, bei dem ich eine große Menge an Transkriptomdaten analysieren werde. Nachdem wir unsere RNA-Seq-Reads mit Trinity in Contigs zusammengestellt haben, sieht es so aus, als würde ich ungefähr 10 GB an Sequenzen im Fasta-Format haben. Da diese Sequenzen aus mehreren hundert Gewebebibliotheken stammen, aber von einer einzigen Art (Huhn), erwarte ich eine Menge Redundanz, daher möchte ich diese Sequenzen gruppieren und nur eine repräsentative Sequenz aus jedem Cluster als I verwenden Fahren Sie fort mit meiner Analyse. Ich sehe, dass es einige Tools gibt, die solche Dinge tun, und ich frage mich, welche Sie alle empfehlen würden. Ich werde dies auf einem Linux-Computer mit 64 CPU-Kernen und ~ 500 GB RAM ausführen.

Ich habe angefangen, mir USEARCH anzusehen, aber es scheint, dass ich mit der kostenlosen 32-Bit-Version auf einige Speicherprobleme stoßen werde, und so sehr ich auf ihrer Website herumgeklickt habe, konnte ich nicht herausfinden, wie viel die 64-Bit-Version kostet oder wie man es kauft.

Ich denke, clustalw sollte dazu in der Lage sein ... aber ich bin mir nicht sicher, wie ich die Cluster bekomme ... Kann in einer der Ausgabedateien sein ... Überprüfen Sie es einfach ... Wenn Sie Multicores verwenden möchten, benötigen Sie eine parallelisierbare Werkzeug .. ich werde nachschlagen

Antworten (2)

Es klingt, als hätten Sie viele Daten.

Ich würde zuerst Robert Edgars anderes neueres Tool UPARSE ausprobieren, das schneller ist und mit der kostenlosen 32-Bit-Version mehr Daten verarbeiten kann. Ich denke, Sie werden jedoch hauptsächlich durch den Maschinenspeicher begrenzt sein, oder?

Hast du CD-Hit probiert?

Ja, das Gedächtnis wird der limitierende Faktor sein. Ich habe gerade CD-Hit auf meinem Computer eingerichtet, also werde ich das versuchen.
cd-hit-est ist wahrscheinlich eine gute Option

Colin ist der einzige Weg zu gehen ist Edgars Software. Schreiben Sie ihm robert@drive5.com, es kostet tausend für eine Kopie (2012) und ist jeden Cent wert.

Geben Sie hier die Bildbeschreibung ein