登录注册写文章

模型选择准则:利用IQtree结果计算AIC&BIC

土雕艺术家

模型选择准则:利用IQtree结果计算AIC&BIC

赤池信息准则（Akaike Information Criterion，AIC）
贝叶斯信息准则（Bayesian Information Criterion，BIC）

原理参考：

https://blog.csdn.net/baidu_38172402/article/details/89075582
https://blog.csdn.net/xianlingmao/article/details/7891277
https://blog.csdn.net/lfdanding/article/details/50732762

AIC是衡量统计模型拟合优良性的一种标准，由日本统计学家赤池弘次在1974年提出，它建立在熵的概念上，提供了权衡估计模型复杂度和拟合数据优良性的标准。训练模型时，增加参数数量，也就是增加模型复杂度，会增大似然函数，但是也会导致过拟合现象，针对该问题，AIC和BIC均引入了与模型参数个数相关的惩罚项，BIC的惩罚项比AIC的大，考虑了样本数量，样本数量过多时，可有效防止模型精度过高造成的模型复杂度过高。

原理不是多说，直接利用IQtree计算。

公式

AIC=2k−2ln(L)

BIC=kln(n)−2ln(L)

k为模型参数个数，n为位点数量，L为似然函数。

IQtree结果

IQtree运行以后产生的文件：

图片.png

.dat与.phy是我对齐序列文件以及分区文件。
.best_scheme与.best_scheme.nex里面是每个分区所匹配的模型。如果是iqtree不分区的情况不会有这个文件产生。
会有两个树文件一个是.contree一个是.treefile。

.treefile对应的是ML树。
.contree是一个由1000bootstrap trees为引导树生成的共有树。

计算AIC&BIC的数据在.iqtree里面。
打开以后向下滑动找到SEQUENCE ALIGNMENT
分区会有显示是9个partitions

图片.png

这个是37个分区

不分区的结果里面不会显示分区情况，也就是整一个序列是一个区。

图片.png

咱们记录分区与位点数量

图片.png

接着往下找到MAXIMUM LIKELIHOOD TREE
这个是ML树的一些信息，IQtree是计算好了AIC与BIC的。
可以自己验证一下计算是否正确。

图片.png

补充一下K值来源

图片.png

图片.png

计算下面跟着的CONSENSUS TREE的结果，这个IQtree没有给算AIC与BIC。
取Log-likelihood的值，这个值其实已经是ln(L)。所以后面计算中不用再ln。

图片.png

计算AIC&BIC

直接在excel计算即可：
AIC就是AIC=2k−2（Log-likelihood）

BIC是BIC=k*ln(n)−2（Log-likelihood）

图片.png

计算2 lg(BF)与RBF

这里面需要选择AIC最小的值作为最优模型。
2lg（BF）与RBF是检查最优模型与次优模型之间的差距。

图片.png

2 lg(BF)就是=2*LOG([最大的Log-likelihood]-[当前模型的Log-likelihood])

RBF是=2*LOG([最大的Log-likelihood]-[当前模型的Log-likelihood])/(([最大的Log-likelihood的模型参数]-[当前模型的模型参数])

图片.png

最后编辑于：2021.05.04 12:52:51

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

相关阅读更多精彩内容

模型选择方法：AIC和BIC
推荐看一下参考文献【4】引入【3】经常地，对一堆数据进行建模的时候，特别是分类和回归模型，我们有很多的变量可供...
龙鹰图腾223阅读 47,154评论 0赞 11
模型选择之AIC与BIC
此处模型选择我们只考虑模型参数数量，不涉及模型结构的选择。很多参数估计问题均采用似然函数作为目标函数，当训练数据...
井底蛙蛙呱呱呱阅读 5,054评论 0赞 2

深度学习与神经网络:AIC,BIC,L1,L2
在学习深度学习时,我们经常会听到AIC, BIC 还有l1, lasso 等regularization 的知识。...
云时之间阅读 2,489评论 0赞 5
ARIMA时间序列模型
1 概念 ARIMA模型，全称为自回归积分滑动平均模型（Autoregressive Integrated ...
风逝流沙阅读 45,529评论 1赞 48
扯下窗帘，阳光倾泻而下。
渐变的面目拼图要我怎么拼？我是疲乏了还是投降了？不是不允许自己坠落，我没有滴水不进的保护膜。就是害怕变得面...
闷热当乘凉阅读 4,518评论 0赞 13

友情链接更多精彩内容

6赞7赞

赞赏

手机看全文