Ich arbeite mit einigen neuartigen Abschriften von Genen – bevor ich ihre Existenz experimentell bestätige, würde ich gerne eine bioinformatische Analyse durchführen. Ich habe bereits Codierungspotential, Proteindomänenvorhersage, Transkriptionsfaktor-Bindungsstellen, Sequenzhomologie und RNA-Sekundärstruktur berücksichtigt (immer noch etwas unsicher, wie ich diese verwenden soll). Diese Transkripte wurden unter Verwendung von RNA-Seq entdeckt. Gibt es andere Elemente von Genen/bestätigten Transkripten, nach denen ich in der Sequenz meiner Transkripte und der entsprechenden Software suchen sollte? (Ich kann die Software bei Bedarf selbst finden, aber ich habe keine Merkmale mehr, nach denen ich suchen kann). Diese Transkripte möchte ich möglichst vollständig strukturell und funktionell charakterisieren, einschließlich potentieller Proteinfunktion, mRNA-Abbau,
Es hört sich so an, als hätten Sie die meisten offensichtlichen Alternativen in Betracht gezogen (und danke für die Klärung der Frage). Ich nehme an, die erste Frage in einem alternativ gespleißten Transkript mit einem zurückbehaltenen Intron ist, ob der offene Leserahmen des Proteins beibehalten wird. Wenn es ein Terminationscodon gibt, das nun aufgrund des Introns in den Leserahmen gerät, dann würde das Protein normalerweise verkürzt werden. Die mRNA könnte auch aufgrund des Nonsense-vermittelten Zerfallswegs (dh durch Einführen eines frühen Stop-Codons) zum Ziel für den Abbau werden.
Wenn dem alternativ gespleißten Transkript keine signifikanten ORFs fehlen oder wenn es einen ORF, aber kein geeignetes Translationsinitiationscodon gibt, dann haben Sie den Bereich der nicht kodierenden RNAs betreten, von denen es zwei lose Kategorien gibt, microRNAs (es gibt mehrere Klassen) oder lange nichtkodierende RNAs. Die meisten miRNAs haben erkennbare Sequenzmotive, können in mir-Base enthalten sein und können (teilweise) komplementär zu einem regulatorischen Ziel an anderer Stelle im Genom sein. lncRNAs sind weniger gut definiert. Die vielleicht besten Kriterien sind Transkripte, die stabil genug sind, um nachgewiesen zu werden, denen jedoch erkennbare Proteinkodierungsmerkmale fehlen. Ich glaube nicht einmal, dass es einen Konsens über die Mindestlänge eines Transkripts gibt, um als lncRNA betrachtet zu werden.
In welchen Datenbanken haben Sie gesucht? Zum Beispiel enthält das alte dbEST alle Arten von kurzen cDNA-Lesungen aus der ganzen Welt, die bis ins Jahr 1992 (oder so) zurückreichen. Die evolutionäre Konservierung von Exons und Spleißstellen oder Leserahmen kann alle verwendet werden, um die Hypothese zu stützen, dass eine transkribierte Region eine biologische Funktion hat.
Für eine wirklich tiefe Angelexpedition können Sie tblastn usw. verwenden, um einen potenziell übersetzten ORF zu nehmen und alle 6 konzeptionell übersetzten Leserahmen aller Sequenzen in einer Datenbank zu durchsuchen - es dauert länger und es kann viele falsche Übereinstimmungen geben, die Sie haben zu durchsuchen, aber wenn Sie etwas studieren, das noch nie kommentiert wurde, könnte es eine Überlegung wert sein.
RE: Faltungs-RNA (Sekundärstruktur) Jede Sequenz kann in irgendeine Art von Struktur gefaltet werden (versuchen Sie es und sehen Sie), aber strukturell konservierte kompakte Schleifen fallen typischerweise in eine kleine Klasse ausgewählter Familien (wie GNRY). Stiele sind leicht zu finden, aber wenn die einsträngige Schleife riesig ist, wie wahrscheinlich ist es, dass sich diese Struktur in Echtzeit zusammenfaltet?
RE: TFBS ist mir überhaupt nicht klar, was Sie damit meinen. Transkriptionsfaktoren binden dsDNA, nicht ssRNA. Es gibt Familien von Proteindomänen, die RNA binden, aber typischerweise nicht mit einer solchen Sequenzspezifität. Wenn dieses alternativ gespleißte Transkript also nicht von einem alternativen Promotor transkribiert wird, bin ich mir nicht sicher, wo Sie überhaupt nach TFBS suchen würden. Es ist wahr, dass einige große Introns tatsächlich regulatorische Regionen für das Gen als Ganzes enthalten können (vgl. Immunglobulin-Schwerketten-Enhancer wird bequemerweise in einem Intron gespeichert), aber es ist mir nicht klar, ob dies einen Einfluss haben würde, wenn es in RNA transkribiert wird.
Ich mag Ihre Idee, dass ein zurückbehaltenes Intron jetzt eine Bindungsstelle für eine regulatorische miRNA enthalten könnte, aber wenn ich die Theorie verstehe, würde dies dazu führen, dass das Transkript abgebaut wird - also wäre es schwieriger zu erkennen.
Einige Vorschläge.
Führen Sie zur Identifizierung der Funktion eine Homologiesuche durch. Es gibt wenig funktionelle Annotation von lncRNAs. Daher können auf Homologie basierende Informationen nur für Proteinsequenzen erhalten werden. Sie können also Folgendes versuchen:
mdperry
pMarkov
pMarkov
pMarkov
243
WYSIWYG
pMarkov