Ich verstehe, dass man eine Nukleotidsequenz übersetzen und PSI-BLAST auf dem Protein ausführen kann (Proteine, wenn Sie die 6 Leserahmen nehmen), aber ich suche nach entfernter Homologie für bakterielle kleine RNAs (normalerweise 50-200 Nukleotide lang und nicht kodierend). .
Wenn es keine solche Ressource gibt, was sind die Haupthindernisse für diese Umsetzung?
Wenn Sie eine nicht codierende Gensequenz (z. B. regulatorische Sequenz) haben, sollte diese Antwort Ihre Lösung enthalten:
Hintergrundtheorie
Zunächst müssen Sie sich darüber im Klaren sein, dass PSI-BLAST für die Erkennung von „Romote-Homologen“ (dh solchen, die eine sehr „entfernte evolutionäre Beziehung“ zu Ihrer Anfrage haben) aus einer Datenbank von Sequenzen entwickelt wurde. Es ist daher bekannt, dass es sich um eine "empfindliche" Analyse handelt, die entfernt verwandte Übereinstimmungen rekrutieren kann, aber eine geringe Chance hat, einige falsche Übereinstimmungen zu rekrutieren - "Schurken-Homologe".
Zweitens ist PSI-BLAST als „Profilmethode“ bekannt, d. h. es verwendet mehrere Sequenzen, die bei jeder „psi-blast-Iteration“ kumulativ rekrutiert werden, um ein empirisches Profil von Aminosäureresten entlang der Positionen Ihrer Anfrage zu erstellen. Dies ist in der gleichen Familie von Analysen wie "Hidden Markov Models" (HMMs), da HMMs mehrere Sequenzen verwenden, um ein empirisches Profil zu erstellen, das in der Lage ist, entfernte Homologe zu rekrutieren, mit der Ausnahme, dass das "Profil" probabilistische Pfade zu allen rekrutierten Sequenzen enthält.
Meine Antwort
Ich schlage vor, dass Sie ein Softwarepaket namens HMMER verwenden . In der Tat teilt diese Methode eine entscheidende theoretische Ähnlichkeit mit PSI-BLAST sowie die Funktionalität in Ihrem Fall (Suche nach entfernten Nukleotidsequenzübereinstimmungen in einer Datenbank im Vergleich zu einer Nukleotidabfrage). Sie geht auch nicht davon aus, dass Ihre Sequenz proteinkodierend ist - hier ist die Wiki- Beschreibung:
HMMER ist ein kostenloses und häufig verwendetes Softwarepaket für die Sequenzanalyse, das von Sean Eddy geschrieben wurde. 1 Seine allgemeine Verwendung besteht darin, homologe Protein- oder Nukleotidsequenzen zu identifizieren. Dazu vergleicht es ein Profil-HMM entweder mit einer einzelnen Sequenz oder einer Datenbank von Sequenzen.
Andere mögliche Antworten
Wenn Sie Angst vor der Verwendung von HMMER haben, finden Sie hier eine Liste aller Alignment-Softwaretools, die in einer Tabelle dargestellt sind, sodass Sie sich nur auf diejenigen konzentrieren können, die Nukleotidsequenzen als Eingabe verwenden:
http://en.wikipedia.org/wiki/List_of_sequence_alignment_software
Überprüfen Sie zunächst, ob Ihre RNA-Sequenzen durch vorhandene Kovarianzmodelle (CMs) beschrieben werden, die in Rfam verfügbar sind . Sie können dies tun, indem Sie das Infernal-Paket verwenden , um die Rfam-Datenbank von CMs zu durchsuchen. Für die RNA-Sequenzen, die mit einem Rfam-CM übereinstimmen, können Sie dieses CM verwenden, um die Sequenzdatenbanken nach weiteren Übereinstimmungen zu durchsuchen.
Für diejenigen, die nicht zu einem Rfam CM passen, sollten Sie Ihre eigenen Modelle bauen. Dazu müssen Sie für jede Sequenz Homologe identifizieren, die Sie verwenden können, um ein Alignment zu erstellen, aus dem ein Modell erstellt werden kann. Um dies zu tun, sollten Sie eine Methode verwenden, die RNA-bewusst ist und eine strenge Suchmethode verwendet. Zum Beispiel aus der FASTA-Suite , die einen RNA-Modus hat, der das Scoring entsprechend anpasst:
Ihre Abdeckungsanforderungen und die Art der zu durchsuchenden Datenbank bestimmen die am besten geeignete Methode zur Verwendung für die Sequenzähnlichkeitssuche. Die Kombination der besten Suchmethode mit der geeigneten Auswahl der zu durchsuchenden Datenbank, beispielsweise das European Nucleotide Archive (ENA), stellt eine Reihe von Nicht-Protein-kodierenden Sequenzen bereit ( ftp://ftp.ebi.ac.uk/pub/databases/ena /non-coding/ ) abgeleitet aus den Anmerkungen in der EMBL-Bank, die ein guter Ausgangspunkt für Ihre Suche sein könnten. Verbessert die Empfindlichkeit Ihrer Suche.
Angesichts des Satzes homologer Sequenzen müssen Sie ein multiples Sequenz-Alignment (MSA) erstellen, um daraus ein Modell zu generieren. Dazu sollten Sie ein RNA-fähiges MSA-Tool verwenden, z. B. R-COFFEE oder Clustal Omega, um ein Alignment zu erzeugen, das versucht, die Faltung der RNA-Moleküle zu berücksichtigen.
Angesichts der Ausrichtung können Sie ein CM mit Infernal oder ein HMM mit HMMER erstellen und damit die Sequenzdatenbank (cmsearch oder hmmsearch) durchsuchen, um zusätzliche Homologe in der Datenbank zu finden.
Angenommen, Sie verwenden PSI-BLAST, um kodierende homologe Nukleotidsequenzen zu Ihrer gesuchten Nukleotidsequenz zu rekrutieren.
Hier ist eine Problemumgehung mit PSI-BLAST selbst:
Zusätzliche Details:
bobthejoe
hallo_da_andy
hallo_da_andy
Neil Petermann