Gibt es einen PSI-BLAST für Nukleotidsequenzen?

Question

Gibt es einen PSI-BLAST für Nukleotidsequenzen?

DNA
sprengen
Biologie
Homologie
Bioinformatik
Sequenzanalyse

Neil Petermann

Ich verstehe, dass man eine Nukleotidsequenz übersetzen und PSI-BLAST auf dem Protein ausführen kann (Proteine, wenn Sie die 6 Leserahmen nehmen), aber ich suche nach entfernter Homologie für bakterielle kleine RNAs (normalerweise 50-200 Nukleotide lang und nicht kodierend). .

Wenn es keine solche Ressource gibt, was sind die Haupthindernisse für diese Umsetzung?

bobthejoe

warum nicht blastn?

hallo_da_andy

Haben Sie das HMMER-Programm schon ausprobiert? Theoretisch ist es PSI-BLAST sehr ähnlich, da es sich um eine Profilmethode handelt, die jedoch mit einem strengeren probabilistischen Rahmen verschraubt ist und zur Suche nach entfernten Homologen verwendet wird

hallo_da_andy

Wenn eine meiner Antworten Ihre Frage tatsächlich "beantwortet" hat, klicken Sie bitte auf "Akzeptieren" (Häkchen) - dies verbessert sowohl die Website als auch eine gute Etikette

Neil Petermann

Ich brauche noch etwas Bastelzeit

Antworten (3)

Gibt es einen PSI-BLAST für Nukleotidsequenzen?

Haben Sie das HMMER-Programm schon ausprobiert? Theoretisch ist es PSI-BLAST sehr ähnlich, da es sich um eine Profilmethode handelt, die jedoch mit einem strengeren probabilistischen Rahmen verschraubt ist und zur Suche nach entfernten Homologen verwendet wird
Wenn eine meiner Antworten Ihre Frage tatsächlich "beantwortet" hat, klicken Sie bitte auf "Akzeptieren" (Häkchen) - dies verbessert sowohl die Website als auch eine gute Etikette

hallo_da_andy · Answer 1

Wenn Sie eine nicht codierende Gensequenz (z. B. regulatorische Sequenz) haben, sollte diese Antwort Ihre Lösung enthalten:

Hintergrundtheorie

Zunächst müssen Sie sich darüber im Klaren sein, dass PSI-BLAST für die Erkennung von „Romote-Homologen“ (dh solchen, die eine sehr „entfernte evolutionäre Beziehung“ zu Ihrer Anfrage haben) aus einer Datenbank von Sequenzen entwickelt wurde. Es ist daher bekannt, dass es sich um eine "empfindliche" Analyse handelt, die entfernt verwandte Übereinstimmungen rekrutieren kann, aber eine geringe Chance hat, einige falsche Übereinstimmungen zu rekrutieren - "Schurken-Homologe".
Zweitens ist PSI-BLAST als „Profilmethode“ bekannt, d. h. es verwendet mehrere Sequenzen, die bei jeder „psi-blast-Iteration“ kumulativ rekrutiert werden, um ein empirisches Profil von Aminosäureresten entlang der Positionen Ihrer Anfrage zu erstellen. Dies ist in der gleichen Familie von Analysen wie "Hidden Markov Models" (HMMs), da HMMs mehrere Sequenzen verwenden, um ein empirisches Profil zu erstellen, das in der Lage ist, entfernte Homologe zu rekrutieren, mit der Ausnahme, dass das "Profil" probabilistische Pfade zu allen rekrutierten Sequenzen enthält.

Meine Antwort

Ich schlage vor, dass Sie ein Softwarepaket namens HMMER verwenden . In der Tat teilt diese Methode eine entscheidende theoretische Ähnlichkeit mit PSI-BLAST sowie die Funktionalität in Ihrem Fall (Suche nach entfernten Nukleotidsequenzübereinstimmungen in einer Datenbank im Vergleich zu einer Nukleotidabfrage). Sie geht auch nicht davon aus, dass Ihre Sequenz proteinkodierend ist - hier ist die Wiki- Beschreibung:

HMMER ist ein kostenloses und häufig verwendetes Softwarepaket für die Sequenzanalyse, das von Sean Eddy geschrieben wurde. 1 Seine allgemeine Verwendung besteht darin, homologe Protein- oder Nukleotidsequenzen zu identifizieren. Dazu vergleicht es ein Profil-HMM entweder mit einer einzelnen Sequenz oder einer Datenbank von Sequenzen.

Andere mögliche Antworten

Wenn Sie Angst vor der Verwendung von HMMER haben, finden Sie hier eine Liste aller Alignment-Softwaretools, die in einer Tabelle dargestellt sind, sodass Sie sich nur auf diejenigen konzentrieren können, die Nukleotidsequenzen als Eingabe verwenden:

http://en.wikipedia.org/wiki/List_of_sequence_alignment_software

Hamish McWilliam · Answer 2

Überprüfen Sie zunächst, ob Ihre RNA-Sequenzen durch vorhandene Kovarianzmodelle (CMs) beschrieben werden, die in Rfam verfügbar sind . Sie können dies tun, indem Sie das Infernal-Paket verwenden , um die Rfam-Datenbank von CMs zu durchsuchen. Für die RNA-Sequenzen, die mit einem Rfam-CM übereinstimmen, können Sie dieses CM verwenden, um die Sequenzdatenbanken nach weiteren Übereinstimmungen zu durchsuchen.

Für diejenigen, die nicht zu einem Rfam CM passen, sollten Sie Ihre eigenen Modelle bauen. Dazu müssen Sie für jede Sequenz Homologe identifizieren, die Sie verwenden können, um ein Alignment zu erstellen, aus dem ein Modell erstellt werden kann. Um dies zu tun, sollten Sie eine Methode verwenden, die RNA-bewusst ist und eine strenge Suchmethode verwendet. Zum Beispiel aus der FASTA-Suite , die einen RNA-Modus hat, der das Scoring entsprechend anpasst:

Smith und Waterman für lokale/lokale Ausrichtung (z. B. SSEARCH)
Needleman–Wunsch für globales/globales Alignment (z. B. GGSEARCH)
Hybrides Alignment für globales/lokales Alignment (z. B. GLSEARCH)

Ihre Abdeckungsanforderungen und die Art der zu durchsuchenden Datenbank bestimmen die am besten geeignete Methode zur Verwendung für die Sequenzähnlichkeitssuche. Die Kombination der besten Suchmethode mit der geeigneten Auswahl der zu durchsuchenden Datenbank, beispielsweise das European Nucleotide Archive (ENA), stellt eine Reihe von Nicht-Protein-kodierenden Sequenzen bereit ( ftp://ftp.ebi.ac.uk/pub/databases/ena /non-coding/ ) abgeleitet aus den Anmerkungen in der EMBL-Bank, die ein guter Ausgangspunkt für Ihre Suche sein könnten. Verbessert die Empfindlichkeit Ihrer Suche.

Angesichts des Satzes homologer Sequenzen müssen Sie ein multiples Sequenz-Alignment (MSA) erstellen, um daraus ein Modell zu generieren. Dazu sollten Sie ein RNA-fähiges MSA-Tool verwenden, z. B. R-COFFEE oder Clustal Omega, um ein Alignment zu erzeugen, das versucht, die Faltung der RNA-Moleküle zu berücksichtigen.

Angesichts der Ausrichtung können Sie ein CM mit Infernal oder ein HMM mit HMMER erstellen und damit die Sequenzdatenbank (cmsearch oder hmmsearch) durchsuchen, um zusätzliche Homologe in der Datenbank zu finden.

hallo_da_andy · Answer 3

Angenommen, Sie verwenden PSI-BLAST, um kodierende homologe Nukleotidsequenzen zu Ihrer gesuchten Nukleotidsequenz zu rekrutieren.

Hier ist eine Problemumgehung mit PSI-BLAST selbst:

Übersetzen Sie Ihre Nukleotidsequenz in eine Aminosäuresequenz
Führen Sie psi-blast aus, um passende homologe Proteinsequenzen zu rekrutieren
Speichern Sie die Namen oder Datenbank-IDs (z. B. Genbank-Zugangsnummern) der am besten passenden Proteine
Erfassen Sie Nukleotidsequenzen Ihrer Übereinstimmungen, indem Sie die IDs anhand einer Nukleotiddatenbank durchsuchen

Zusätzliche Details:

Diese Art der Ausrichtung wird als "Codon-Ausrichtung" bezeichnet (im Gegensatz zur DNA-Ausrichtung oder Protein-Ausrichtung).
Dies setzt voraus, dass Ihr DNA-Protein für ein Protein kodiert, dessen Funktionalität durch die Evolution eingeschränkt ist
Sie müssen vor dem Alignment alle Introns aus Ihrer Sequenz entfernen
Ihr erstes Codon muss ein Startcodon (ATG) sein
Ihr letztes Codon muss ein Stoppcodon sein.

Ok, aber das Problem dabei ist, dass die Konservierung auf der Grundlage der kodierten Proteinsequenz angenommen wird, nicht der Nukleotidsequenz. Ich nehme an, es wird einige der entfernten Homologe bekommen, aber: a) es wäre nicht optimal b) es könnte seltsam voreingenommen sein (wenn das wichtig ist)
Zunächst einmal zu Ihrer Beruhigung: Diese Strategie – genannt „Codon Alingment“ – ist ein Standard für Ihre Art von Situation, solange die Sequenz proteinkodierend ist: bit.ly/18odX27 . Die einzige Situation, in der dies "schief gehen" kann, ist, wenn Sie nicht codierende DNA (z. B. regulatorische Sequenz) verwenden. In der Tat müssen Sie alle Introns entfernen, bevor Sie die oben erwähnte "Codon-Ausrichtung" durchführen. Das Startcodon muss 'ATG' (dh Startcodon) sein und das letzte Codon muss für ein "Stoppcodon" kodieren.
Bezüglich der Annahme der Konservierung auf Proteinebene: Tatsächlich mache ich diese Annahme, und dies ist eine gültige Annahme, da die DNA-Sequenz, die Sie verwenden, für ein Protein kodiert und deren Funktionalität auf die Proteinebene beschränkt ist (dh das Protein hat eine Funktion das kommt dem Gastgeber zugute)
Genau vor dieser Situation stehe ich. Meine interessanten bakteriellen kleinen RNA-Gene sind in der Tat nicht kodierend.
oh je, ich habe befürchtet, dass das der Fall sein könnte ...! Ich werde sehen, was ich mir für Sie einfallen lassen kann
Ich habe eine neue Antwort veröffentlicht, die sich mit Ihrem Fall einer "nicht codierenden" Sequenzabfrage befasst

Gibt es einen PSI-BLAST für Nukleotidsequenzen?

Neil Petermann

bobthejoe

hallo_da_andy

hallo_da_andy

Neil Petermann

Antworten (3)

hallo_da_andy

Hamish McWilliam

hallo_da_andy

Neil Petermann

hallo_da_andy

hallo_da_andy

Neil Petermann

hallo_da_andy

hallo_da_andy

Tool zum Nukleotid-Alignment mit allen Nukleotid-Codes (zB R, Y, W, S, etc.)?

Welche DNA-Sequenz hat eine höhere Schmelztemperatur: CCCCCC ... oder GCGCGC ...?

blastn: Welche Substitutionsmatrix wird verwendet?

Codon-Alignment über Python? [geschlossen]

Referenzsequenz zur Definition von Einzelnukleotid-Polymorphismen

Marker-Validierung unter Verwendung von Transkriptom- und genomischen Sequenzen, die von einer einzelnen Zelle stammen

Empfohlener Sequenz-Clustering-Algorithmus für Transkriptomdaten

So führen Sie ein DNA-Strukturalignment in Pymol durch

Wie interpretiert man die von Clustal Omega erstellte prozentuale Identitätsmatrix?

Lokale BLAST-Kopienzahl pro Treffer