Was ist der neueste Algorithmus für multiples Sequenzalignment?

Welcher Algorithmus oder welche Algorithmen gelten als Standard oder Stand der Technik für multiples Sequenzalignment ?

Wie groß ist der Bedarf an besseren Algorithmen? Wie viele Sequenzen müssen in einem typischen Test ausgerichtet werden? Ich versuche zu verstehen, wie wichtig dieses Problem in der Bioinformatik ist.

Dies wäre besser auf biostars.org , dem Bioinformatik-Stack-Austausch, gefragt. Für die typische Anzahl von ausgerichteten Sequenzen: Das kann man nicht sagen. Es gibt so viele verschiedene Verwendungen von MSAs und zu viele verschiedene Datensätze, um ein typisches Beispiel geben zu können.
@skymninge Bioinformatik ist hier ein Thema, und Biostars ist jetzt in keiner Weise mit SE verbunden (es war eine SE 1.0-Site, was bedeutet, dass sie die SE-Software verwendet haben, aber SE nicht anderweitig am Betrieb der Site beteiligt war).
@Mad Scientist Trotzdem sind die Chancen, dass diese Art von theoretischer Frage auf Biostars beantwortet wird, höher. Die beantworteten Fragen zur Bioinformatik auf dieser Website sind normalerweise eher praktische Ansätze / Anwendungsfälle / ... Ich habe nicht impliziert, dass die Frage nicht zum Thema gehört, sonst hätte ich sie als solche gekennzeichnet. Ich wollte nur hilfreich sein.
Alle Fragen zur Bioinformatik sind themenbezogen. Nur dass, wenn jemand technische Hilfe benötigt, Biostars mehr Leute hat, die helfen können.
Trotzdem scheint mir diese Frage ziemlich weit gefasst zu sein. Weitere Einzelheiten müssen angegeben werden.
Übrigens, wenn Sie ein gutes Bioinformatik-Problem wollen, lassen Sie sich einen Assembler einfallen, der jeden Paired-End-Illumina-Lauf optimal de novo ohne Eingabeparameter zusammenstellt.

Antworten (3)

Meine Stimme geht an Mafft (insi), da es eine Genauigkeit von ~86% hat und in ~1,2 Stunden resultiert. Obwohl am schnellsten wird kalign dauert nur ~3 Minuten mit einer Genauigkeit von 74,3 %.

Zum Prüfen:

Für jedes der 218 Referenz-Alignments im Benchmark haben wir acht Alignment-Programme angewendet, was zu insgesamt 1744 automatisch konstruierten MSAs führte. Die Gesamtqualität dieser automatischen Ausrichtungen wurde mit dem unter Methoden beschriebenen Column Score (CS) gemessen.

Geben Sie hier die Bildbeschreibung einABBILDUNG 1: Gesamtausrichtungsleistung für jedes der getesteten MSA-Programme.

(A) Gesamtgenauigkeit

(B) Gesamtlaufzeit zum Erstellen aller Ausrichtungen (eine log10-Skala wird zu Anzeigezwecken verwendet).

doi:10.1371/journal.pone.0018093.g003

Verglichene Tools

http://www.plosone.org/article/fetchObject.action?uri=info:doi/10.1371/journal.pone.0018093.t001&representation=PNG_L

Quelle und Bildnachweis:

Eine umfassende Benchmark-Studie zu Multiple Sequence Alignment-Methoden: Aktuelle Herausforderungen und Zukunftsperspektiven

PS: Dies ist aus einem alten Papier von 2011. Wenn Sie die neuen Statistiken haben möchten, können Sie sie jederzeit selbst testen, indem Sie den im Quellpapier beschriebenen Prozess verwenden.

Ich persönlich verwende für Proteine ​​immer Muskel + gblocks. Macht den Job gut genug, IMO.
@5heikki: Ich stimme zu. Muskeln sind eigentlich gut.
Immer Clustalx FTW!
Ich glaube nicht, dass einer von ihnen eine Parallelisierungsoption hat. Ich denke, dass eine Parallelisierung zumindest für den Schritt der paarweisen Entfernungsberechnung möglich ist.
Bedenken Sie, dass die Ergebnisse dieses Benchmarks bereits sehr veraltet sind.

Die PRANK- und PAGAN-Algorithmen stammen beide aus dem Loytynoja-Labor in Finnland und mischen den Topf ein wenig auf. Sie verwenden abgeleitete phylogenetische Beziehungen als Parameter und neigen dazu, eine viel "lückenhaftere" Ausrichtung zu ergeben, angeblich aufgrund einer genaueren Handhabung von Indels. Für einfache Alignments spielt die Methode keine so große Rolle, aber wenn die Sequenzen sehr unterschiedlich sind, könnte es sich lohnen, PAGAN und PRANK zu prüfen .

Clustal hat sich mithilfe von Hidden-Markov-Modellen als Clustal Omega neu erfunden und eignet sich besonders für das Alignment sehr vieler Sequenzen.