Gibt es einen PSI-BLAST für Nukleotidsequenzen?

Ich verstehe, dass man eine Nukleotidsequenz übersetzen und PSI-BLAST auf dem Protein ausführen kann (Proteine, wenn Sie die 6 Leserahmen nehmen), aber ich suche nach entfernter Homologie für bakterielle kleine RNAs (normalerweise 50-200 Nukleotide lang und nicht kodierend). .

Wenn es keine solche Ressource gibt, was sind die Haupthindernisse für diese Umsetzung?

warum nicht blastn?
Haben Sie das HMMER-Programm schon ausprobiert? Theoretisch ist es PSI-BLAST sehr ähnlich, da es sich um eine Profilmethode handelt, die jedoch mit einem strengeren probabilistischen Rahmen verschraubt ist und zur Suche nach entfernten Homologen verwendet wird
Wenn eine meiner Antworten Ihre Frage tatsächlich "beantwortet" hat, klicken Sie bitte auf "Akzeptieren" (Häkchen) - dies verbessert sowohl die Website als auch eine gute Etikette
Ich brauche noch etwas Bastelzeit

Antworten (3)

Wenn Sie eine nicht codierende Gensequenz (z. B. regulatorische Sequenz) haben, sollte diese Antwort Ihre Lösung enthalten:

Hintergrundtheorie

  • Zunächst müssen Sie sich darüber im Klaren sein, dass PSI-BLAST für die Erkennung von „Romote-Homologen“ (dh solchen, die eine sehr „entfernte evolutionäre Beziehung“ zu Ihrer Anfrage haben) aus einer Datenbank von Sequenzen entwickelt wurde. Es ist daher bekannt, dass es sich um eine "empfindliche" Analyse handelt, die entfernt verwandte Übereinstimmungen rekrutieren kann, aber eine geringe Chance hat, einige falsche Übereinstimmungen zu rekrutieren - "Schurken-Homologe".

  • Zweitens ist PSI-BLAST als „Profilmethode“ bekannt, d. h. es verwendet mehrere Sequenzen, die bei jeder „psi-blast-Iteration“ kumulativ rekrutiert werden, um ein empirisches Profil von Aminosäureresten entlang der Positionen Ihrer Anfrage zu erstellen. Dies ist in der gleichen Familie von Analysen wie "Hidden Markov Models" (HMMs), da HMMs mehrere Sequenzen verwenden, um ein empirisches Profil zu erstellen, das in der Lage ist, entfernte Homologe zu rekrutieren, mit der Ausnahme, dass das "Profil" probabilistische Pfade zu allen rekrutierten Sequenzen enthält.

Meine Antwort

Ich schlage vor, dass Sie ein Softwarepaket namens HMMER verwenden . In der Tat teilt diese Methode eine entscheidende theoretische Ähnlichkeit mit PSI-BLAST sowie die Funktionalität in Ihrem Fall (Suche nach entfernten Nukleotidsequenzübereinstimmungen in einer Datenbank im Vergleich zu einer Nukleotidabfrage). Sie geht auch nicht davon aus, dass Ihre Sequenz proteinkodierend ist - hier ist die Wiki- Beschreibung:

HMMER ist ein kostenloses und häufig verwendetes Softwarepaket für die Sequenzanalyse, das von Sean Eddy geschrieben wurde. 1 Seine allgemeine Verwendung besteht darin, homologe Protein- oder Nukleotidsequenzen zu identifizieren. Dazu vergleicht es ein Profil-HMM entweder mit einer einzelnen Sequenz oder einer Datenbank von Sequenzen.

Andere mögliche Antworten

Wenn Sie Angst vor der Verwendung von HMMER haben, finden Sie hier eine Liste aller Alignment-Softwaretools, die in einer Tabelle dargestellt sind, sodass Sie sich nur auf diejenigen konzentrieren können, die Nukleotidsequenzen als Eingabe verwenden:

http://en.wikipedia.org/wiki/List_of_sequence_alignment_software

Überprüfen Sie zunächst, ob Ihre RNA-Sequenzen durch vorhandene Kovarianzmodelle (CMs) beschrieben werden, die in Rfam verfügbar sind . Sie können dies tun, indem Sie das Infernal-Paket verwenden , um die Rfam-Datenbank von CMs zu durchsuchen. Für die RNA-Sequenzen, die mit einem Rfam-CM übereinstimmen, können Sie dieses CM verwenden, um die Sequenzdatenbanken nach weiteren Übereinstimmungen zu durchsuchen.

Für diejenigen, die nicht zu einem Rfam CM passen, sollten Sie Ihre eigenen Modelle bauen. Dazu müssen Sie für jede Sequenz Homologe identifizieren, die Sie verwenden können, um ein Alignment zu erstellen, aus dem ein Modell erstellt werden kann. Um dies zu tun, sollten Sie eine Methode verwenden, die RNA-bewusst ist und eine strenge Suchmethode verwendet. Zum Beispiel aus der FASTA-Suite , die einen RNA-Modus hat, der das Scoring entsprechend anpasst:

  • Smith und Waterman für lokale/lokale Ausrichtung (z. B. SSEARCH)
  • Needleman–Wunsch für globales/globales Alignment (z. B. GGSEARCH)
  • Hybrides Alignment für globales/lokales Alignment (z. B. GLSEARCH)

Ihre Abdeckungsanforderungen und die Art der zu durchsuchenden Datenbank bestimmen die am besten geeignete Methode zur Verwendung für die Sequenzähnlichkeitssuche. Die Kombination der besten Suchmethode mit der geeigneten Auswahl der zu durchsuchenden Datenbank, beispielsweise das European Nucleotide Archive (ENA), stellt eine Reihe von Nicht-Protein-kodierenden Sequenzen bereit ( ftp://ftp.ebi.ac.uk/pub/databases/ena /non-coding/ ) abgeleitet aus den Anmerkungen in der EMBL-Bank, die ein guter Ausgangspunkt für Ihre Suche sein könnten. Verbessert die Empfindlichkeit Ihrer Suche.

Angesichts des Satzes homologer Sequenzen müssen Sie ein multiples Sequenz-Alignment (MSA) erstellen, um daraus ein Modell zu generieren. Dazu sollten Sie ein RNA-fähiges MSA-Tool verwenden, z. B. R-COFFEE oder Clustal Omega, um ein Alignment zu erzeugen, das versucht, die Faltung der RNA-Moleküle zu berücksichtigen.

Angesichts der Ausrichtung können Sie ein CM mit Infernal oder ein HMM mit HMMER erstellen und damit die Sequenzdatenbank (cmsearch oder hmmsearch) durchsuchen, um zusätzliche Homologe in der Datenbank zu finden.

Angenommen, Sie verwenden PSI-BLAST, um kodierende homologe Nukleotidsequenzen zu Ihrer gesuchten Nukleotidsequenz zu rekrutieren.

Hier ist eine Problemumgehung mit PSI-BLAST selbst:

  1. Übersetzen Sie Ihre Nukleotidsequenz in eine Aminosäuresequenz
  2. Führen Sie psi-blast aus, um passende homologe Proteinsequenzen zu rekrutieren
  3. Speichern Sie die Namen oder Datenbank-IDs (z. B. Genbank-Zugangsnummern) der am besten passenden Proteine
  4. Erfassen Sie Nukleotidsequenzen Ihrer Übereinstimmungen, indem Sie die IDs anhand einer Nukleotiddatenbank durchsuchen

Zusätzliche Details:

  • Diese Art der Ausrichtung wird als "Codon-Ausrichtung" bezeichnet (im Gegensatz zur DNA-Ausrichtung oder Protein-Ausrichtung).
  • Dies setzt voraus, dass Ihr DNA-Protein für ein Protein kodiert, dessen Funktionalität durch die Evolution eingeschränkt ist
  • Sie müssen vor dem Alignment alle Introns aus Ihrer Sequenz entfernen
  • Ihr erstes Codon muss ein Startcodon (ATG) sein
  • Ihr letztes Codon muss ein Stoppcodon sein.
Ok, aber das Problem dabei ist, dass die Konservierung auf der Grundlage der kodierten Proteinsequenz angenommen wird, nicht der Nukleotidsequenz. Ich nehme an, es wird einige der entfernten Homologe bekommen, aber: a) es wäre nicht optimal b) es könnte seltsam voreingenommen sein (wenn das wichtig ist)
Zunächst einmal zu Ihrer Beruhigung: Diese Strategie – genannt „Codon Alingment“ – ist ein Standard für Ihre Art von Situation, solange die Sequenz proteinkodierend ist: bit.ly/18odX27 . Die einzige Situation, in der dies "schief gehen" kann, ist, wenn Sie nicht codierende DNA (z. B. regulatorische Sequenz) verwenden. In der Tat müssen Sie alle Introns entfernen, bevor Sie die oben erwähnte "Codon-Ausrichtung" durchführen. Das Startcodon muss 'ATG' (dh Startcodon) sein und das letzte Codon muss für ein "Stoppcodon" kodieren.
Bezüglich der Annahme der Konservierung auf Proteinebene: Tatsächlich mache ich diese Annahme, und dies ist eine gültige Annahme, da die DNA-Sequenz, die Sie verwenden, für ein Protein kodiert und deren Funktionalität auf die Proteinebene beschränkt ist (dh das Protein hat eine Funktion das kommt dem Gastgeber zugute)
Genau vor dieser Situation stehe ich. Meine interessanten bakteriellen kleinen RNA-Gene sind in der Tat nicht kodierend.
oh je, ich habe befürchtet, dass das der Fall sein könnte ...! Ich werde sehen, was ich mir für Sie einfallen lassen kann
Ich habe eine neue Antwort veröffentlicht, die sich mit Ihrem Fall einer "nicht codierenden" Sequenzabfrage befasst