Adaboost,GBDT,Xgboost

集成学习就是构建多个弱分类器对数据集进行预测,然后利用某种策略将多个分类器的结果集成起来,作为最终的预测结果。
集成学习根据各个弱分类器之间有无依赖关系又分为bagging和boosting两大流派,如果各个弱分类器之间没有依赖关系,可以各自并行,就属于Bagging流派,典型代表为随机深林;如果各个分类器之间有依赖关系,而且必须串行,就属于Boosting流派,典型代表为Adaboost,GBDT,Xgboost。下面详细介绍这些集成器的用法。
Adaboost,自适应增强,前一个被分错的样本的权重会在下一轮的新的弱分类器中权重得到加强而被正确分类的样本的权重则会被削弱,直到达到某个预定的足够小的错误率或者说达到了指定的迭代次数。
ADA迭代算法大致可以分为三步:
1)初始化训练权值的分布,如果有N个样本,则每一个样本的初始权值为1/N;
2)训练弱分类器;如果样本被分错,则在构造下一个训练集中,它的权值就会被增加;如果样本被正确分类,则在下一轮的训练集中,该样本的权值就会被下降。然后权值更新后的样本集就会被用于下一个分类器。
3)将各个弱分类器组合成一个强分类器;加大分类准确率较高的弱分类器的权重,减小准确率较低的弱分类器的权重。
GBDT,GBDT与Adaboost不同,其每一次的训练都是为了减少上一轮训练的残差,进而在残差减少的方向上建立新的模型。
残差指的是实际观察值与估计值(拟合值)之间的差。
XGBoost

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容