Phylogenetische Algorithmen: Wie interpretiert man mehrere ML-Bäume aus demselben Datensatz?

Es gibt immer noch etwas, das mich darüber verwirrt, wie viele dieser Algorithmen funktionieren und wie die Ergebnisse in der Literatur präsentiert werden.

Betrachten wir einen Maximum-Likelihood-basierten Algorithmus wie MrBayes oder RAxML: Benutzer setzen eine Zufallszahl, die den Startbaum generiert. Für viele unserer Datensätze ergeben sich unterschiedliche Ausgangswerte, die zu unterschiedlichen ML-Ergebnissen führen, da die Algorithmen mit unterschiedlichen Bäumen initialisiert werden.

Ich bin mir nicht ganz sicher, wie man das interpretieren soll, zumal meine Erfahrung mit ML-Methoden darin besteht, dass der erste Schritt für das globale/lokale Min/Max im Parameterraum irrelevant ist – die Ketten brauchen nur länger, um zu konvergieren .

Wie sind diese Ergebnisse zu interpretieren? Sollen Benutzer Tausende von Bäumen mit unterschiedlichen Parameterwerten ausführen und dann den optimalsten Wahrscheinlichkeitswert auswählen? Das scheint eher ad hoc zu sein, ebenso wie Bootstrapping usw.

Ist der Datensatz grundlegend fehlerhaft?

MrBayes macht definitiv keine maximale Wahrscheinlichkeit, wie der Name schon sagt.
@kmm Ich habe versucht, diese Frage für mehrere Algorithmen relevant zu machen, und bin gescheitert. Danke für die Hilfe! Ich werde versuchen zu bearbeiten

Antworten (1)

Kurz gesagt, Sie haben zwei Beispiele ausgewählt, die nicht die maximale Wahrscheinlichkeit verwenden, wie Sie sie aus anderen Kontexten kennen. In den meisten statistischen Kontexten ist die ML eine einzelne Zahl, die analytisch berechnet werden kann, sodass sie für einen bestimmten Datensatz immer gleich ist. Dies ist weder bei MrBayes noch bei RAxML der Fall, aber aus anderen Gründen.

Herr Bayes

Das Likelihood-Kriterium in MrBayes ist die marginale Likelihood des Posteriors, wenn tatsächlich die Daten auf den Priors beruhen. Diese Wahrscheinlichkeit stammt von einer stochastischen MCMC-Abtastung des Parameterraums. Wenn sich alles gut verhält, laufen die Ketten und/oder Läufe an der gleichen allgemeinen Stelle zusammen. Aber dann müssen die verschiedenen möglichen Topologien irgendwie zusammengefasst werden.

RAxML

RAxML erzeugt im Wesentlichen zufällige Startbäume durch zufällige Sequenzadditionen zum Aufbau von Bäumen. Die Teilbäume werden dann neu angeordnet, um einen "besten" Baum zu finden. Wiederum können unterschiedliche Ausgangspunkte zu unterschiedlichen besten Bäumen führen. Aber wenn alles gut geht, enden die Analysen mit demselben Baum. Dieser Vorgang wird in diesem Kapitel beschrieben .

In beiden Fällen, wenn Sie an einem anderen Ort beginnen, können Sie an einem anderen Ort enden. Es kann viele Bäume geben, die innerhalb gewisser Kriterien gleich wahrscheinlich sind. Wenn Sie mit sparsamen Methoden vertraut sind, ist die Analogie die von mehreren gleichermaßen sparsamen Bäumen.

Ich bin mir nicht sicher, ob ich dem folge: "Wenn sich alles gut verhält, laufen die Ketten und / oder Läufe an derselben allgemeinen Stelle zusammen. Aber dann müssen die verschiedenen möglichen Topologien auf irgendeine Weise zusammengefasst werden." (1) Wenn die Ketten an der gleichen allgemeinen Stelle zusammenlaufen, wären die Topologien dann nicht äquivalent? (2) Wie würde man die verschiedenen Topologien zusammenfassen – Konsensbäume?
Außerdem: "Es kann viele Bäume geben, die innerhalb eines bestimmten Kriteriums gleich wahrscheinlich sind. Wenn Sie mit Sparsamkeitsmethoden vertraut sind, ist die Analogie die von mehreren gleichermaßen sparsamen Bäumen." Wie geht man dann in der Literatur vor? Melden Sie alle gleichwahrscheinlichen Bäume? Verwenden Sie (erneut) Konsensbaummethoden?
Anstatt einen einzelnen Baum mit der höchsten (maximalen) Wahrscheinlichkeit zu geben, gibt es eine Familie von Bäumen, die alle möglich sind, nur einige wahrscheinlicher als andere. Die Topologien müssen nicht äquivalent sein. Ein Konsensbaum ist die Zusammenfassung der Bäume, die als am wahrscheinlichsten oder glaubwürdig (im Sinne von Bayes) angesehen werden. Ja, Sie würden den Konsensbaum melden (oder so viele, wie Sie möchten).