boosting技术通过集中关注被已有的分类器错分的那些数据来获得新的分类器,基于所有分类器的加权求和得到结果。AdaBoost是adaptive boosting(自适应boosting)的缩写,是最为流行的boosting版本。
算法流程如下:
训练数据中的每个样本,并赋予其一个权重,这些权重构成了向量D。一开始这些权重都初始化成相等的值。首先在训练器上训练一个弱分类器并计算该分类器的错误率,然后在同一数据集上再次训练弱分类器。在分类器的第二次训练当中,将会重新调整每个样本的权重,其中第一次分对的样本权重会降低,而第一次分错的样本的权重将会提高。为了从所有弱分类器中得到最终的分类结果,AdaBoost为每个分类器都分配了一个权重值alpha,这些alpha值是基于每个弱分类器的错误率进行计算的。错误率定义为未正确分类的样本数目 / 所有样本数目。
而alpha的计算公式为:
更新权重向量D的方法为:
-
某个样本被正确分类
-
某个样本被错误分类
在计算出D之后,AdaBoost又开始进入下一轮迭代,直到训练错误率为0或者弱分类器的数目达到用户的指定值为止。
原文:https://blog.csdn.net/u010665216/article/details/76855242
参考书目:《机器学习实战》人民邮电出版社