Im folgenden Szenario: Sie erhielten kurze Sequenz-Reads von Pflanzen-RNA, die von einer Sequenziermaschine der nächsten Generation erhalten wurden (Fragmente mit einer Länge von 20–30 Nukleotiden). Sie versuchen, sie wieder dem Genom zuzuordnen, aber ein erheblicher Teil von ihnen stimmt nicht überein.
Die Frage ist: Geben Sie einige offensichtliche Erklärungen, warum das Alignment kurzer Sequenzen fehlschlagen kann, abgesehen von möglichen Kontaminationen oder technischen Schwierigkeiten während der Präparation der RNA.
Ich würde es so beantworten, weil die Lesevorgänge kurz sind und wegen Introns (da es sich um RNA handelt).
Ein anderes Szenario: Es gibt Hinweise darauf, dass die problematischen Sequenzen von einem nicht charakterisierten Pflanzen-RNA-Virus stammen. Was würden Sie als nächstes tun? Was sind die spezifischen Vorbehalte bei Short Sequence Reads?
Ich habe die oben genannten Fragen, ich bin Informatikstudent und studiere Bioinformatik, jeder Biologe könnte dies beantworten, wird sehr geschätzt
Da ich auch Bioinformatiker bin, bin ich nicht wirklich das, wonach Sie gefragt haben, aber ich arbeite mit Pflanzengenetik, also werde ich versuchen, trotzdem zu antworten.
Was Sie kartieren, ist RNA. Wie Sie bereits herausgefunden haben, werden Spleißereignisse ein Problem für die End-to-End-Zuordnung der Lesevorgänge darstellen. Es gibt jedoch Tools, die dies verwalten. Nehmen wir also an, Sie haben eines davon verwendet und viele Ihrer Lesevorgänge werden immer noch nicht zugeordnet. Um den guten Punkt von WYSIWIG zu sagen: Ein weiteres Ereignis, das Ihre Alignments durcheinander bringen kann, ist die RNA-Bearbeitung , obwohl dies nicht allzu wahrscheinlich dazu führt, dass ein hoher Anteil von Reads überhaupt nicht ausgerichtet wird.
Einige Aligner filtern möglicherweise "zu kurze" Abfragen heraus, stellen Sie also sicher, dass Sie keinen von ihnen verwenden.
Haben Sie dann Ihre Lesevorgänge vorverarbeitet ? Ist dies nicht der Fall, sind möglicherweise noch Adaptersequenzen vorhanden. Oder Reads haben eine sehr schlechte Qualität, sind also auch mit schlechter Qualität ausgerichtet und können daher als nicht ausgerichtet gezählt werden.
Und dann prüfen Sie, worauf Sie sich ausrichten. Viele veröffentlichte Pflanzengenome sind auch von geringer Qualität , einschließlich vieler nicht zugeordneter Basen. Es könnte also große Anteile Ihres Referenzgenoms geben, die in die Genomlänge einfließen, aber nur Ns sind und nichts dort ausgerichtet wird.
Zu guter Letzt könnte auch Ihr Gedanke an einen Virus richtig sein. Je nach Experiment kann Ihre Probe pathogene RNA enthalten, also vergleichen Sie sie mit einer geeigneten Datenbank.
Wenn das Problem nur darin besteht, dass die Lesevorgänge aus irgendeinem Grund "zu kurz" sind, versuchen Sie, die Transkriptom-Assemblierung durchzuführen, bevor Sie sie mit Ihrer Referenz vergleichen.
Ich glaube nicht, dass es möglich ist, Teil 1 ohne weitere Informationen zu beantworten. Verwenden Sie insbesondere einen splice-fähigen Mapper wie Tophat? Verwenden Sie eine vorgegebene gtf mit mutmaßlichen Exon-Koordinaten? Wenn ja, handelt es sich um eine extrem gut untersuchte Pflanze wie Arabidopsis oder um etwas ganz Neues? Ihre Antwort ist nicht richtig, Introns würden sich gut am Genom ausrichten. Der Aligner weiß nicht oder kümmert sich nicht darum, dass diese Sequenz nicht in der Probe enthalten sein sollte, was sich nicht auf die Zuordnung auswirkt. Ich persönlich glaube nicht, dass es eine sehr gute Antwort auf die Frage gibt. Kurze Lesevorgänge schlagen nicht häufiger fehl als längere Lesevorgänge. Es ist wahrscheinlicher, dass sie an der falschen Stelle abgebildet werden, aber das ist kein Fehler bei der Abbildung.
Remi.b
GeekCat
WYSIWYG
WYSIWYG