Was ist in der Genomforschung das Problem beim Mapping, das durch zu kurze Reads verursacht werden kann?

Im folgenden Szenario: Sie erhielten kurze Sequenz-Reads von Pflanzen-RNA, die von einer Sequenziermaschine der nächsten Generation erhalten wurden (Fragmente mit einer Länge von 20–30 Nukleotiden). Sie versuchen, sie wieder dem Genom zuzuordnen, aber ein erheblicher Teil von ihnen stimmt nicht überein.

Die Frage ist: Geben Sie einige offensichtliche Erklärungen, warum das Alignment kurzer Sequenzen fehlschlagen kann, abgesehen von möglichen Kontaminationen oder technischen Schwierigkeiten während der Präparation der RNA.

Ich würde es so beantworten, weil die Lesevorgänge kurz sind und wegen Introns (da es sich um RNA handelt).

Ein anderes Szenario: Es gibt Hinweise darauf, dass die problematischen Sequenzen von einem nicht charakterisierten Pflanzen-RNA-Virus stammen. Was würden Sie als nächstes tun? Was sind die spezifischen Vorbehalte bei Short Sequence Reads?

Ich habe die oben genannten Fragen, ich bin Informatikstudent und studiere Bioinformatik, jeder Biologe könnte dies beantworten, wird sehr geschätzt

Willkommen bei StackBiology! Deine Frage sieht sehr nach einer Hausaufgabenfrage aus. Sie sollten sich die Fragenrichtlinie für Hausaufgaben ansehen . Da Sie nicht wirklich versucht haben, die Frage zu beantworten, ist es wahrscheinlich, dass niemand sie beantworten wird. Außerdem sollten Sie immer versuchen, Ihre Beiträge auf nur eine Frage zu beschränken.
@Remi.b Es ist keine Hausaufgabenfrage, es sind vergangene Prüfungsfragen. Ich habe mehrere Antworten versucht. Danke
Es gibt keine Korrelation der Fragmentgröße mit ihrer Wahrscheinlichkeit, aus einer Exon-Exon-Verbindung zu entstehen. Einige Lesevorgänge können von den Adaptern stammen. Sie werden in der Regel herausgefiltert.
Vielleicht interessieren Sie sich auch für die RNA-Bearbeitung in Pflanzen. Auch dies hat nichts mit dem Problem der kleinen Lesevorgänge zu tun.

Antworten (2)

Da ich auch Bioinformatiker bin, bin ich nicht wirklich das, wonach Sie gefragt haben, aber ich arbeite mit Pflanzengenetik, also werde ich versuchen, trotzdem zu antworten.

Was Sie kartieren, ist RNA. Wie Sie bereits herausgefunden haben, werden Spleißereignisse ein Problem für die End-to-End-Zuordnung der Lesevorgänge darstellen. Es gibt jedoch Tools, die dies verwalten. Nehmen wir also an, Sie haben eines davon verwendet und viele Ihrer Lesevorgänge werden immer noch nicht zugeordnet. Um den guten Punkt von WYSIWIG zu sagen: Ein weiteres Ereignis, das Ihre Alignments durcheinander bringen kann, ist die RNA-Bearbeitung , obwohl dies nicht allzu wahrscheinlich dazu führt, dass ein hoher Anteil von Reads überhaupt nicht ausgerichtet wird.

Einige Aligner filtern möglicherweise "zu kurze" Abfragen heraus, stellen Sie also sicher, dass Sie keinen von ihnen verwenden.

Haben Sie dann Ihre Lesevorgänge vorverarbeitet ? Ist dies nicht der Fall, sind möglicherweise noch Adaptersequenzen vorhanden. Oder Reads haben eine sehr schlechte Qualität, sind also auch mit schlechter Qualität ausgerichtet und können daher als nicht ausgerichtet gezählt werden.

Und dann prüfen Sie, worauf Sie sich ausrichten. Viele veröffentlichte Pflanzengenome sind auch von geringer Qualität , einschließlich vieler nicht zugeordneter Basen. Es könnte also große Anteile Ihres Referenzgenoms geben, die in die Genomlänge einfließen, aber nur Ns sind und nichts dort ausgerichtet wird.

Zu guter Letzt könnte auch Ihr Gedanke an einen Virus richtig sein. Je nach Experiment kann Ihre Probe pathogene RNA enthalten, also vergleichen Sie sie mit einer geeigneten Datenbank.

Wenn das Problem nur darin besteht, dass die Lesevorgänge aus irgendeinem Grund "zu kurz" sind, versuchen Sie, die Transkriptom-Assemblierung durchzuführen, bevor Sie sie mit Ihrer Referenz vergleichen.

Lieber @skymninge, die Frage ist in der Tat eine Prüfungsfrage, ich mache das Experiment nicht wirklich, sondern versuche, sie zu beantworten.
Nun, all das sind Möglichkeiten und die Prüfungsfrage als solche ist ziemlich weit gefasst. Um eine Beispielantwort zu erhalten, müssen Sie die Person fragen, die die Vorlesung gehalten und die Prüfung benotet hat.

Ich glaube nicht, dass es möglich ist, Teil 1 ohne weitere Informationen zu beantworten. Verwenden Sie insbesondere einen splice-fähigen Mapper wie Tophat? Verwenden Sie eine vorgegebene gtf mit mutmaßlichen Exon-Koordinaten? Wenn ja, handelt es sich um eine extrem gut untersuchte Pflanze wie Arabidopsis oder um etwas ganz Neues? Ihre Antwort ist nicht richtig, Introns würden sich gut am Genom ausrichten. Der Aligner weiß nicht oder kümmert sich nicht darum, dass diese Sequenz nicht in der Probe enthalten sein sollte, was sich nicht auf die Zuordnung auswirkt. Ich persönlich glaube nicht, dass es eine sehr gute Antwort auf die Frage gibt. Kurze Lesevorgänge schlagen nicht häufiger fehl als längere Lesevorgänge. Es ist wahrscheinlicher, dass sie an der falschen Stelle abgebildet werden, aber das ist kein Fehler bei der Abbildung.