Beim Analysieren kleiner RNAseq-Daten hatte ich immer ein Problem beim Adaptertrimmen.
Die Länge der Lesevorgänge hängt von der Maschine ab, und neuere wie HiSeq können ~200 bp liefern.
Das Problem besteht jedoch bei Lesevorgängen, die kleiner als die maximale Leselänge der Maschine sind, und dies ist bei kleinen RNAs wie miRNAs üblich (insbesondere, wenn das Concatemer von smallRNA und dem vollständigen 3'-Adapter größer als die maximale Leselänge ist).
Der erste Analyseschritt ist das Trimmen des 3'-Adapters (Illumina Truseq: TCGTATGCCGTCTTCTGCTTGT).
Für diese Aufgabe stehen mehrere Algorithmen zur Verfügung, die genau auf Überlappungen zwischen der Adaptersequenz und dem 3'-Ende der Reads prüfen und dann die ausgerichtete Region ausschneiden.
Bei sehr kleinen Ausrichtungen können Sie sich nicht wirklich sicher sein, da sie möglicherweise nicht wirklich von den Adaptern stammen, was bedeutet, dass Sie eine untere Ausrichtungsgrenze für das Clipping angeben sollten. Normalerweise setze ich es auf 5 (intuitiv).
Aber wenn wirklich ein kleines Stück Sequenz vom Adapter kommt, dann bleibt es und es gibt keine Möglichkeit, es zweifelsfrei zu schneiden.
Das eigentliche Problem entsteht beim Ausrichten der Reads auf die Referenzsequenz. Aligner wie Fliege (die ich am liebsten verwende) haben im Allgemeinen ein benutzerdefiniertes Argument für die Anzahl der zulässigen Nichtübereinstimmungen. Bowtie funktioniert im Allgemeinen nicht sehr gut, wenn Sie viele Fehlanpassungen zulassen.
Anschließend könnten Sie einen wirklich wertvollen Lesestoff verlieren.
Um dieses Problem zu vermeiden, kürze ich die Reads manchmal auf etwa 25nt (für miRNA-Profiling). Dadurch entsteht ein neues Problem:
Sie können nicht wirklich unterscheiden, ob der Lesevorgang von einer pre-miRNA (einer längeren RNA) oder von einer reifen miRNA (kleinere RNA, die durch die Verarbeitung von pre-miRNA entsteht) stammt.
Hat jemand eine Erfahrung oder eine Idee, wie man dieses Problem lösen kann?
Ich würde Ihnen empfehlen, diese Frage zuerst an biostar zu stellen, da das Thema, zu dem Sie nachfragen, dort viel relevanter ist.
Abgesehen davon haben Sie eine weitere Option, nämlich die Verwendung eines Aligners, der die 3'-Enden von Lesevorgängen weich abschneidet, um speziell die Kontamination des Adapters (oder PolyA oder was auch immer) zu berücksichtigen, die möglicherweise unter Ihrem Radar geflogen ist.
STAR ist ein solcher Aligner. Wenn Sie ihre Mailinglisten - Archive nach „clip“ durchsuchen, sollten Sie mehrere Posts finden, die sich auf Ihre Frage beziehen.
WYSIWYG
Steve Lianoglou