Welche (bioinformatischen) Methoden gibt es, um potenziell neuartige Gentranskripte zu charakterisieren?

Ich arbeite mit einigen neuartigen Abschriften von Genen – bevor ich ihre Existenz experimentell bestätige, würde ich gerne eine bioinformatische Analyse durchführen. Ich habe bereits Codierungspotential, Proteindomänenvorhersage, Transkriptionsfaktor-Bindungsstellen, Sequenzhomologie und RNA-Sekundärstruktur berücksichtigt (immer noch etwas unsicher, wie ich diese verwenden soll). Diese Transkripte wurden unter Verwendung von RNA-Seq entdeckt. Gibt es andere Elemente von Genen/bestätigten Transkripten, nach denen ich in der Sequenz meiner Transkripte und der entsprechenden Software suchen sollte? (Ich kann die Software bei Bedarf selbst finden, aber ich habe keine Merkmale mehr, nach denen ich suchen kann). Diese Transkripte möchte ich möglichst vollständig strukturell und funktionell charakterisieren, einschließlich potentieller Proteinfunktion, mRNA-Abbau,

Die aktuelle Version Ihrer Frage ist unklar. Die RNA-Seq-Lesungen, die Sie analysieren, existieren eindeutig (sonst gäbe es nichts zu analysieren), aber Ihre Frage klingt so, als ob das Transkript nicht existiert. Wenn das Transkript nicht existiert, was ist dann Ihre Alternativhypothese? Woher könnten die Lesezeichen kommen?
Vielen Dank für Ihre Antwort! Lassen Sie mich klarstellen: Diese Transkripte werden durch alternatives Spleißen erstellt und sind insofern einzigartig, als sie zurückbehaltene Introns enthalten. Ihre Expressionsniveaus sind ziemlich niedrig, und mir wurde gesagt, dass es eine erhebliche Wahrscheinlichkeit gibt, dass sie lediglich Artefakte sind (ich bin mit rna-seq nicht allzu vertraut, um zu verstehen, wo dies auftreten kann) – „neuartige“ Transkripte mit Intronretention offenbar nicht halten oft einer experimentellen Validierung stand. Ich möchte Beweise dafür gewinnen, dass sie in silico existieren, bevor ich zu qpcr übergehe.
Darüber hinaus möchte ich diese Transkripte so weit wie möglich charakterisieren – einen Einblick gewinnen, ob es sich nur um nicht kodierende Transkripte handelt oder ob sie von Interesse sind – ich habe versucht zu untersuchen, welche Arten von Proteindomänen auftreten können, ob die im Transkript erhaltenen Introns kodierend sind Potenzial und neue tfbs. Im Wesentlichen möchte ich so viel Einblick wie möglich in die Struktur und mögliche Funktion dieses Transkripts gewinnen, indem ich nur die Sequenz verwende. Ich bin nur Student, also bitten Sie um weitere Klärung! * Ich habe die Frage so bearbeitet, dass sie meinen Antworten hier entspricht.
@mdperry- Als Beispiel untersuche ich derzeit eine potenzielle miRNA-Bindungsstelle, die durch Intronretention in das Transkript eingeführt wird - ich bin offen für die Untersuchung aller interessanten Merkmale, die diese Transkripte mit sich bringen könnten!
Möglicherweise möchten Sie die genomischen Sequenzen überprüfen und wie das Transkript gespleißt wird, damit die RNA-seq-Daten bestätigt werden können. Möglicherweise finden Sie auch alternative Splicing-Isoformen. Sie könnten Poly-A-Signale in der genomischen Sequenz überprüfen.
Wie wurde die Bibliothek vorbereitet? Poly-A oder Ribo-Minus? Zunächst sollten Sie die neuartigen Transkripte validieren. Manchmal können Sie mit falschen positiven Ergebnissen enden.
@WYSIWYG Die Bibliothek wurde Poly-A hergestellt. Ich warte derzeit auf die notwendigen Primer für die Validierung (etwa eine Woche), und in der Zwischenzeit wollte ich die Transkripte so vollständig wie möglich charakterisieren (Funktion, Struktur usw. vorhersagen) und suchte nach weiteren Ideen, wie dies zu tun ist. Ich habe eine Reihe von Artikeln gelesen, die in der Silico-Analyse durchgeführt werden, und habe viele ihrer Methoden angewendet und suchte nach ein paar mehr.

Antworten (2)

Es hört sich so an, als hätten Sie die meisten offensichtlichen Alternativen in Betracht gezogen (und danke für die Klärung der Frage). Ich nehme an, die erste Frage in einem alternativ gespleißten Transkript mit einem zurückbehaltenen Intron ist, ob der offene Leserahmen des Proteins beibehalten wird. Wenn es ein Terminationscodon gibt, das nun aufgrund des Introns in den Leserahmen gerät, dann würde das Protein normalerweise verkürzt werden. Die mRNA könnte auch aufgrund des Nonsense-vermittelten Zerfallswegs (dh durch Einführen eines frühen Stop-Codons) zum Ziel für den Abbau werden.

Wenn dem alternativ gespleißten Transkript keine signifikanten ORFs fehlen oder wenn es einen ORF, aber kein geeignetes Translationsinitiationscodon gibt, dann haben Sie den Bereich der nicht kodierenden RNAs betreten, von denen es zwei lose Kategorien gibt, microRNAs (es gibt mehrere Klassen) oder lange nichtkodierende RNAs. Die meisten miRNAs haben erkennbare Sequenzmotive, können in mir-Base enthalten sein und können (teilweise) komplementär zu einem regulatorischen Ziel an anderer Stelle im Genom sein. lncRNAs sind weniger gut definiert. Die vielleicht besten Kriterien sind Transkripte, die stabil genug sind, um nachgewiesen zu werden, denen jedoch erkennbare Proteinkodierungsmerkmale fehlen. Ich glaube nicht einmal, dass es einen Konsens über die Mindestlänge eines Transkripts gibt, um als lncRNA betrachtet zu werden.

In welchen Datenbanken haben Sie gesucht? Zum Beispiel enthält das alte dbEST alle Arten von kurzen cDNA-Lesungen aus der ganzen Welt, die bis ins Jahr 1992 (oder so) zurückreichen. Die evolutionäre Konservierung von Exons und Spleißstellen oder Leserahmen kann alle verwendet werden, um die Hypothese zu stützen, dass eine transkribierte Region eine biologische Funktion hat.

Für eine wirklich tiefe Angelexpedition können Sie tblastn usw. verwenden, um einen potenziell übersetzten ORF zu nehmen und alle 6 konzeptionell übersetzten Leserahmen aller Sequenzen in einer Datenbank zu durchsuchen - es dauert länger und es kann viele falsche Übereinstimmungen geben, die Sie haben zu durchsuchen, aber wenn Sie etwas studieren, das noch nie kommentiert wurde, könnte es eine Überlegung wert sein.

RE: Faltungs-RNA (Sekundärstruktur) Jede Sequenz kann in irgendeine Art von Struktur gefaltet werden (versuchen Sie es und sehen Sie), aber strukturell konservierte kompakte Schleifen fallen typischerweise in eine kleine Klasse ausgewählter Familien (wie GNRY). Stiele sind leicht zu finden, aber wenn die einsträngige Schleife riesig ist, wie wahrscheinlich ist es, dass sich diese Struktur in Echtzeit zusammenfaltet?

RE: TFBS ist mir überhaupt nicht klar, was Sie damit meinen. Transkriptionsfaktoren binden dsDNA, nicht ssRNA. Es gibt Familien von Proteindomänen, die RNA binden, aber typischerweise nicht mit einer solchen Sequenzspezifität. Wenn dieses alternativ gespleißte Transkript also nicht von einem alternativen Promotor transkribiert wird, bin ich mir nicht sicher, wo Sie überhaupt nach TFBS suchen würden. Es ist wahr, dass einige große Introns tatsächlich regulatorische Regionen für das Gen als Ganzes enthalten können (vgl. Immunglobulin-Schwerketten-Enhancer wird bequemerweise in einem Intron gespeichert), aber es ist mir nicht klar, ob dies einen Einfluss haben würde, wenn es in RNA transkribiert wird.

Ich mag Ihre Idee, dass ein zurückbehaltenes Intron jetzt eine Bindungsstelle für eine regulatorische miRNA enthalten könnte, aber wenn ich die Theorie verstehe, würde dies dazu führen, dass das Transkript abgebaut wird - also wäre es schwieriger zu erkennen.

Vielen Dank! Auch hier glaube ich, dass ich nicht alle notwendigen Informationen weitergegeben habe; In einigen der Transkripte erzeugt das alternative Gewürz eine alternative 5'-UTR, in der ich nach TFBS suche (diese alternativen 5'-UTRs scheinen zurückbehaltene Introns zu sein). Die miRNA-Idee kommt daher, dass diese Transkripte in dem Krankheitsphänotyp, den ich analysiere, tatsächlich unterschiedlich exprimiert werden, also habe ich nach eingeführten miRNA-Bindungsstellen als möglichem Grund gesucht. Die ORF-Analyse ist interessant – ich hatte die Bedeutung hinter einem Fehlen von orfs innerhalb des zurückbehaltenen Introns nicht in Betracht gezogen. Vielen Dank für Ihre Zeit!

Einige Vorschläge.

Führen Sie zur Identifizierung der Funktion eine Homologiesuche durch. Es gibt wenig funktionelle Annotation von lncRNAs. Daher können auf Homologie basierende Informationen nur für Proteinsequenzen erhalten werden. Sie können also Folgendes versuchen:

  • Prüfen Sie das Codierpotential. Finden Sie ORFs (setzen Sie vielleicht eine Mindestlänge fest). Um streng zu sein, können Sie in diesen neuen Transkripten auch nach Kozak-Konsensussequenzen (für Eukaryoten) suchen. Dieses Programm schließt offensichtlich die Kozak-Regel in die Startcodonvorhersage ein.
  • Übersetzen Sie die RNA und führen Sie psi-BLAST aus . Psi-BLAST ist besser als normales BLASTp bei der Identifizierung entfernter Homologer.
  • Sie können die GO-Daten (funktionelle Annotation) für diese Homologe erhalten und sie mit Ihrem neuartigen Transkript in Beziehung setzen.
  • Bei lncRNAs können Sie feststellen, ob sie sich mit anderen bekannten Transkripten überschneiden. Viele lncRNAs scheinen überlappende Loci mit ihren Zielgenen (sowohl Sense/Antisense) zu haben.
  • Suche nach RNA-Motiven. Dieser Artikel berichtet über eine umfangreiche Studie zur Identifizierung verschiedener RNA-Motive (RBP-Bindungsstellen) bei Menschen und Drosophila. Andere interessante Motive schließen Quadruplex bildende Motive und ARE ein .
  • Wenn Sie die Genomsequenz haben, können Sie Ihre Transkripte dem Genom zuordnen und die Introns identifizieren. Tatsächlich würde Ihre RNAseq-Assemblierung, wenn sie referenziert wird, eine GTF-Datei erzeugen. Sie können Introns mit dem GTF extrahieren. Sie können in diesen Introns auf der Grundlage von Stammschleifenvorhersagen nach potenziellen miRNAs suchen. Es ist jedoch besser, kleine RNAseq-Daten zu haben, um miRNAs zuverlässig vorherzusagen.
  • Wie Sie bereits überlegt haben, können Sie nach miRNA-Bindungsstellen suchen. Für diesen Zweck ist miRanda das Beste für neuartige Transkripte (TargetScan ist ein Schmerz). Sie können auch RNAhybrid verwenden und die Ergebnisse von miRanda und RNAhybrid konsensieren.
  • Sie können andere Arten von Analysen nur auf der Grundlage der Abfolge der Transkripte durchführen. Dazu gehören die Überprüfung der Codon-Nutzung (für potenzielle proteinkodierende RNAs), der GC-Reichheit (Vergleich mit den bekannten Transkripten) usw.