Probleme bei der Analyse kleiner RNAseq-Daten – Adaptertrimmung

Beim Analysieren kleiner RNAseq-Daten hatte ich immer ein Problem beim Adaptertrimmen.

Überblick über kleine RNAseq (Illumina)

  1. RNA wird unter Verwendung von Säulen oder PAGE größenfraktioniert
  2. 3'- und 5'-Adapterligatur
  3. cDNA-Synthese
  4. PCR-Amplifikation
  5. Sequenzierung

Die Länge der Lesevorgänge hängt von der Maschine ab, und neuere wie HiSeq können ~200 bp liefern.

Das Problem besteht jedoch bei Lesevorgängen, die kleiner als die maximale Leselänge der Maschine sind, und dies ist bei kleinen RNAs wie miRNAs üblich (insbesondere, wenn das Concatemer von smallRNA und dem vollständigen 3'-Adapter größer als die maximale Leselänge ist).

Der erste Analyseschritt ist das Trimmen des 3'-Adapters (Illumina Truseq: TCGTATGCCGTCTTCTGCTTGT).

Für diese Aufgabe stehen mehrere Algorithmen zur Verfügung, die genau auf Überlappungen zwischen der Adaptersequenz und dem 3'-Ende der Reads prüfen und dann die ausgerichtete Region ausschneiden.

Jetzt ist das Problem folgendes

Bei sehr kleinen Ausrichtungen können Sie sich nicht wirklich sicher sein, da sie möglicherweise nicht wirklich von den Adaptern stammen, was bedeutet, dass Sie eine untere Ausrichtungsgrenze für das Clipping angeben sollten. Normalerweise setze ich es auf 5 (intuitiv).

Aber wenn wirklich ein kleines Stück Sequenz vom Adapter kommt, dann bleibt es und es gibt keine Möglichkeit, es zweifelsfrei zu schneiden.

Das eigentliche Problem entsteht beim Ausrichten der Reads auf die Referenzsequenz. Aligner wie Fliege (die ich am liebsten verwende) haben im Allgemeinen ein benutzerdefiniertes Argument für die Anzahl der zulässigen Nichtübereinstimmungen. Bowtie funktioniert im Allgemeinen nicht sehr gut, wenn Sie viele Fehlanpassungen zulassen.

Anschließend könnten Sie einen wirklich wertvollen Lesestoff verlieren.

Alternative

Um dieses Problem zu vermeiden, kürze ich die Reads manchmal auf etwa 25nt (für miRNA-Profiling). Dadurch entsteht ein neues Problem:

Sie können nicht wirklich unterscheiden, ob der Lesevorgang von einer pre-miRNA (einer längeren RNA) oder von einer reifen miRNA (kleinere RNA, die durch die Verarbeitung von pre-miRNA entsteht) stammt.

Hat jemand eine Erfahrung oder eine Idee, wie man dieses Problem lösen kann?

Antworten (1)

Ich würde Ihnen empfehlen, diese Frage zuerst an biostar zu stellen, da das Thema, zu dem Sie nachfragen, dort viel relevanter ist.

Abgesehen davon haben Sie eine weitere Option, nämlich die Verwendung eines Aligners, der die 3'-Enden von Lesevorgängen weich abschneidet, um speziell die Kontamination des Adapters (oder PolyA oder was auch immer) zu berücksichtigen, die möglicherweise unter Ihrem Radar geflogen ist.

STAR ist ein solcher Aligner. Wenn Sie ihre Mailinglisten - Archive nach „clip“ durchsuchen, sollten Sie mehrere Posts finden, die sich auf Ihre Frage beziehen.

Danke Steve.. Aber ich frage mich, warum dieses Forum weniger geeignet ist.. mein Zweck, hier beizutreten, war, die gesamte Biologie in einem einzigen Forum zu haben, ohne mehrere Konten haben zu müssen.. ich habe ein Konto bei seqanswers und ich werde diese Frage dort stellen . aber ich bin etwas enttäuscht von diesem konzept separater nischen (besonders wenn alles unter denselben studienbereich fällt).
@WYSIWYG: Ich habe biostar vorgeschlagen , nicht seqanswers ;-) Trotzdem ist dieses Forum weniger geeignet, einfach weil Ihre Frage eher bioinformatischer als rein biologischer Natur ist - und Sie finden auf biostar mehr Fachwissen zur Bioinformatik als hier. Ich könnte mir vorstellen, dass es wahrscheinlich viele Leute auf Biostar gibt, die starke Bioinformatiker sind, die keine Konten auf dieser Seite haben, und Sie würden davon profitieren, wenn Sie ihren Input bekommen. Überlegen Sie zum Beispiel, warum es verschiedene SE-Sites für Mathematik und Statistiken gibt :-)