集成方法:随机森林 vs AdaBoost

01 随机森林

Bagging核心思想:采用有放回的采样规则,从m个样本点中抽取n个数据构建一个新的训练数据集,用这个数据集来训练模型,重复上述过程B次,得到B个模型。采用投票或取平均值方式进行预测。

随机森林算法思想:在Bagging的基础上,对特征也进行抽样构建每次的训练数据集。RF的基学习器主要为CART树。

关键参数:决策树的个数、构建单棵决策树特征的个数。

优点:

适合处理多分类问题及类别不平衡的分类问题,对缺失值异常值不敏感

能够有效地处理大的数据集和高维数据集,无须进行特征选择

有袋外数据OOB,不用再单独划分交叉验证集

能够给出特征重要性程度

不容易过拟合

容易并行化,训练和预测速度快

缺点:对有不同取值的属性数据,取值划分较多的属性会对随机森林产生更大的影响(使用了信息增益)



02 Adaboost

提升方法:通过改变训练样本的权重,学习多个分类器,并将这些分类器进行线性组合,提高分类的精度。

两个基本问题:

每一轮如何改变训练样本的权重

如何将弱分类器组合成一个强分类器

Adaboost的做法:

提高那些被前一轮弱分类错误分类样本的权值,而降低那些被正确分类样本的权值

加权多数表决,加大分类误差小的弱分类器权重,减小分类误差大的弱分类器权重


Boosting


AdaBoost
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容