Was ist der neueste Algorithmus für multiples Sequenzalignment?

Question

Was ist der neueste Algorithmus für multiples Sequenzalignment?

Biologie
Bioinformatik
Sequenzanalyse
Sequenz-Ausrichtung

msa

Welcher Algorithmus oder welche Algorithmen gelten als Standard oder Stand der Technik für multiples Sequenzalignment ?

Wie groß ist der Bedarf an besseren Algorithmen? Wie viele Sequenzen müssen in einem typischen Test ausgerichtet werden? Ich versuche zu verstehen, wie wichtig dieses Problem in der Bioinformatik ist.

skymningen

Dies wäre besser auf biostars.org , dem Bioinformatik-Stack-Austausch, gefragt. Für die typische Anzahl von ausgerichteten Sequenzen: Das kann man nicht sagen. Es gibt so viele verschiedene Verwendungen von MSAs und zu viele verschiedene Datensätze, um ein typisches Beispiel geben zu können.

Verrückter Wissenschaftler

@skymninge Bioinformatik ist hier ein Thema, und Biostars ist jetzt in keiner Weise mit SE verbunden (es war eine SE 1.0-Site, was bedeutet, dass sie die SE-Software verwendet haben, aber SE nicht anderweitig am Betrieb der Site beteiligt war).

skymningen

@Mad Scientist Trotzdem sind die Chancen, dass diese Art von theoretischer Frage auf Biostars beantwortet wird, höher. Die beantworteten Fragen zur Bioinformatik auf dieser Website sind normalerweise eher praktische Ansätze / Anwendungsfälle / ... Ich habe nicht impliziert, dass die Frage nicht zum Thema gehört, sonst hätte ich sie als solche gekennzeichnet. Ich wollte nur hilfreich sein.

WYSIWYG

Alle Fragen zur Bioinformatik sind themenbezogen. Nur dass, wenn jemand technische Hilfe benötigt, Biostars mehr Leute hat, die helfen können.

WYSIWYG

Trotzdem scheint mir diese Frage ziemlich weit gefasst zu sein. Weitere Einzelheiten müssen angegeben werden.

5Heikki

Übrigens, wenn Sie ein gutes Bioinformatik-Problem wollen, lassen Sie sich einen Assembler einfallen, der jeden Paired-End-Illumina-Lauf optimal de novo ohne Eingabeparameter zusammenstellt.

Antworten (3)

Was ist der neueste Algorithmus für multiples Sequenzalignment?

Dies wäre besser auf biostars.org , dem Bioinformatik-Stack-Austausch, gefragt. Für die typische Anzahl von ausgerichteten Sequenzen: Das kann man nicht sagen. Es gibt so viele verschiedene Verwendungen von MSAs und zu viele verschiedene Datensätze, um ein typisches Beispiel geben zu können.
@skymninge Bioinformatik ist hier ein Thema, und Biostars ist jetzt in keiner Weise mit SE verbunden (es war eine SE 1.0-Site, was bedeutet, dass sie die SE-Software verwendet haben, aber SE nicht anderweitig am Betrieb der Site beteiligt war).
@Mad Scientist Trotzdem sind die Chancen, dass diese Art von theoretischer Frage auf Biostars beantwortet wird, höher. Die beantworteten Fragen zur Bioinformatik auf dieser Website sind normalerweise eher praktische Ansätze / Anwendungsfälle / ... Ich habe nicht impliziert, dass die Frage nicht zum Thema gehört, sonst hätte ich sie als solche gekennzeichnet. Ich wollte nur hilfreich sein.
Alle Fragen zur Bioinformatik sind themenbezogen. Nur dass, wenn jemand technische Hilfe benötigt, Biostars mehr Leute hat, die helfen können.
Trotzdem scheint mir diese Frage ziemlich weit gefasst zu sein. Weitere Einzelheiten müssen angegeben werden.
Übrigens, wenn Sie ein gutes Bioinformatik-Problem wollen, lassen Sie sich einen Assembler einfallen, der jeden Paired-End-Illumina-Lauf optimal de novo ohne Eingabeparameter zusammenstellt.

Devashish Das · Answer 1

Meine Stimme geht an Mafft (insi), da es eine Genauigkeit von ~86% hat und in ~1,2 Stunden resultiert. Obwohl am schnellsten wird kalign dauert nur ~3 Minuten mit einer Genauigkeit von 74,3 %.

Zum Prüfen:

Für jedes der 218 Referenz-Alignments im Benchmark haben wir acht Alignment-Programme angewendet, was zu insgesamt 1744 automatisch konstruierten MSAs führte. Die Gesamtqualität dieser automatischen Ausrichtungen wurde mit dem unter Methoden beschriebenen Column Score (CS) gemessen.

Geben Sie hier die Bildbeschreibung ein ABBILDUNG 1: Gesamtausrichtungsleistung für jedes der getesteten MSA-Programme.

(A) Gesamtgenauigkeit

(B) Gesamtlaufzeit zum Erstellen aller Ausrichtungen (eine log10-Skala wird zu Anzeigezwecken verwendet).

doi:10.1371/journal.pone.0018093.g003

Verglichene Tools

http://www.plosone.org/article/fetchObject.action?uri=info:doi/10.1371/journal.pone.0018093.t001&representation=PNG_L

Quelle und Bildnachweis:

Eine umfassende Benchmark-Studie zu Multiple Sequence Alignment-Methoden: Aktuelle Herausforderungen und Zukunftsperspektiven

PS: Dies ist aus einem alten Papier von 2011. Wenn Sie die neuen Statistiken haben möchten, können Sie sie jederzeit selbst testen, indem Sie den im Quellpapier beschriebenen Prozess verwenden.

Ich persönlich verwende für Proteine immer Muskel + gblocks. Macht den Job gut genug, IMO.
Ich glaube nicht, dass einer von ihnen eine Parallelisierungsoption hat. Ich denke, dass eine Parallelisierung zumindest für den Schritt der paarweisen Entfernungsberechnung möglich ist.
Bedenken Sie, dass die Ergebnisse dieses Benchmarks bereits sehr veraltet sind.

Steve Bond · Answer 2

Die PRANK- und PAGAN-Algorithmen stammen beide aus dem Loytynoja-Labor in Finnland und mischen den Topf ein wenig auf. Sie verwenden abgeleitete phylogenetische Beziehungen als Parameter und neigen dazu, eine viel "lückenhaftere" Ausrichtung zu ergeben, angeblich aufgrund einer genaueren Handhabung von Indels. Für einfache Alignments spielt die Methode keine so große Rolle, aber wenn die Sequenzen sehr unterschiedlich sind, könnte es sich lohnen, PAGAN und PRANK zu prüfen .

David · Answer 3

Clustal hat sich mithilfe von Hidden-Markov-Modellen als Clustal Omega neu erfunden und eignet sich besonders für das Alignment sehr vieler Sequenzen.

Was ist der neueste Algorithmus für multiples Sequenzalignment?

msa

skymningen

Verrückter Wissenschaftler

skymningen

WYSIWYG

WYSIWYG

5Heikki

Antworten (3)

Devashish Das

Verglichene Tools

5Heikki

Devashish Das

Benutzer1357

WYSIWYG

James

Steve Bond

David

Wie interpretiert man die von Clustal Omega erstellte prozentuale Identitätsmatrix?

Was ist der Unterschied zwischen lokalen und globalen Sequenzalignments?

Anwenden der Constraint-Programmierung auf die Sequenzausrichtung/-analyse

Codon-Alignment über Python? [geschlossen]

Welches Tool kann ich verwenden, um mehrere Proteinsequenzen an einer Referenzsequenz auszurichten?

Wie führt man ein multiples Sequenz-Alignment durch?

Datensätze ausgerichteter Nukleotidsequenzen [geschlossen]

Was bedeutet Überlappung von Sequenzen?

Marker-Validierung unter Verwendung von Transkriptom- und genomischen Sequenzen, die von einer einzelnen Zelle stammen

Empfohlener Sequenz-Clustering-Algorithmus für Transkriptomdaten