Ich möchte den AIC für eine Phylogenie berechnen, die ich über die maximale Wahrscheinlichkeit abgeleitet habe. Um den AIC zu berechnen, muss ich die Anzahl der Parameter im Modell kennen. Aber wie stelle ich das fest?
Die Anzahl der Parameter hängt sowohl von der Anzahl der Taxa als auch vom Modell der Sequenzentwicklung ab. Die Topologie wird normalerweise nicht als Parameter im üblichen Sinne statistischer Inferenz betrachtet (da es sich um die a priori festgelegte Topologie handelt, auf der die Wahrscheinlichkeit berechnet wurde).
Wenn Sie also beispielsweise einen Baum aus Nukleotiddaten für 25 Sequenzen unter dem GTR-Modell (General Time Reversible) mit Gamma-verteilter Heterogenität der Rate zwischen den Standorten und empirischen stationären Frequenzen ableiten (dies wird allgemein als GTR + F + G bezeichnet), dann Sie hätten 56 Parameter mit der folgenden Aufschlüsselung: 2n - 3 = 47 Zweiglängen (wobei n = 25, die Anzahl der Spitzen), 3 Frequenzen (da sich diese zu 1 summieren, sind die anderen automatisch bekannt, sobald drei bekannt sind, also wir zählen nur 3 geschätzte Parameter), 5 Substitutionsraten (es gibt tatsächlich 6 Substitutionsparameter in GTR, aber es ist typisch, einen, normalerweise G > C, auf 1 zu setzen und die anderen relativ dazu zu schätzen, daher nur 5 geschätzt) und 1 Alpha-Parameter für die Form der Gamma-Verteilung von Raten (Gamma-Verteilungen haben tatsächlich zwei Parameter, Alpha und Beta,aber für die Phylogenetik beschränken wir sie normalerweise auf Gleichheit).
Insgesamt ergibt dies 47 Astlängen und 3 + 5 + 1 = 9 Modellparameter und 47 + 9 = 56
LebenindenBäumen