Welcher Algorithmus oder welche Algorithmen gelten als Standard oder Stand der Technik für multiples Sequenzalignment ?
Wie groß ist der Bedarf an besseren Algorithmen? Wie viele Sequenzen müssen in einem typischen Test ausgerichtet werden? Ich versuche zu verstehen, wie wichtig dieses Problem in der Bioinformatik ist.
Meine Stimme geht an Mafft (insi), da es eine Genauigkeit von ~86% hat und in ~1,2 Stunden resultiert. Obwohl am schnellsten wird kalign dauert nur ~3 Minuten mit einer Genauigkeit von 74,3 %.
Zum Prüfen:
Für jedes der 218 Referenz-Alignments im Benchmark haben wir acht Alignment-Programme angewendet, was zu insgesamt 1744 automatisch konstruierten MSAs führte. Die Gesamtqualität dieser automatischen Ausrichtungen wurde mit dem unter Methoden beschriebenen Column Score (CS) gemessen.
ABBILDUNG 1: Gesamtausrichtungsleistung für jedes der getesteten MSA-Programme.
(A) Gesamtgenauigkeit
(B) Gesamtlaufzeit zum Erstellen aller Ausrichtungen (eine log10-Skala wird zu Anzeigezwecken verwendet).
doi:10.1371/journal.pone.0018093.g003
Quelle und Bildnachweis:
PS: Dies ist aus einem alten Papier von 2011. Wenn Sie die neuen Statistiken haben möchten, können Sie sie jederzeit selbst testen, indem Sie den im Quellpapier beschriebenen Prozess verwenden.
Die PRANK- und PAGAN-Algorithmen stammen beide aus dem Loytynoja-Labor in Finnland und mischen den Topf ein wenig auf. Sie verwenden abgeleitete phylogenetische Beziehungen als Parameter und neigen dazu, eine viel "lückenhaftere" Ausrichtung zu ergeben, angeblich aufgrund einer genaueren Handhabung von Indels. Für einfache Alignments spielt die Methode keine so große Rolle, aber wenn die Sequenzen sehr unterschiedlich sind, könnte es sich lohnen, PAGAN und PRANK zu prüfen .
Clustal hat sich mithilfe von Hidden-Markov-Modellen als Clustal Omega neu erfunden und eignet sich besonders für das Alignment sehr vieler Sequenzen.
skymningen
Verrückter Wissenschaftler
skymningen
WYSIWYG
WYSIWYG
5Heikki