Ensemble method集成方法

集成方法分为两类:

averaging方法(减少方差,因为在不同的子集上训练,学到不同的数据集的结果进行平均从而减少了方差)

boosting方法(减少偏差,不同的模型学习到不同的内容。)

方差和偏差的理解:方差为给定模型数据集,其输出结果的稳定性描述,方差大代表给模型一个数据扰动,它会对数据扰动反应强烈,输出一个偏离期望值的数;偏差描述的是模型能力行不行。

1.Bagging

随机子集的获取方法:pasting是无放回取样;bagging是有放回取样;Random subspace是特征的随机子集;Random Pathches是同时使用样本和特征的子集。bootstrap和bootstrap控制样本和特征是否有放回抽样。

2.随机森林

2.1Random Forests

随机森林中每一棵树是建立在随机样本上,在结点的分裂的时候考虑的不再是所有特征中的最优而是特征随机子集中的最优,这种随机性稍微增加了偏差(没那么准确),但是方差通过averaging方式减少了,就很棒啦。

2.2Extremely Randomized Trees

进一步增加随机性,在Random Forests的基础上划分节点的时候不再是寻找最优的判别阈值,阈值通过随机的方式获得,选择最优的。

2.3Parameters

对于回归问题,经验默认max_features=n_features,对于分类问题,max_features=sqrt(n_features),n_features是数据特征数目。通常max_depth=None,min_samples_spilt=1。这些值通常不是最佳的,并且可能导致消耗大量RAM,最好的参数值应该是始终交叉验证的,另外注意,在随机森林中,默认使用抽样样本bootstrap=True,而极端随机森林中默认是使用整个数据集bootstrap=False。当使用抽样样本时,可以在包外样本上估计泛化精度,设置oob_score=True。

https://www.jianshu.com/p/5d7ebe35f50f

2.4并行化

通过设置n_jobs来在k个核上运行程序。

3.Adaboost+GBDT+XGBoost

默认使用decision stump决策树桩,单层决策树,只根据一个属性进行决策。



最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • 集成学习 原理 《机器学习》周志华 8.1 个体与集成 集成学习(ensemble learning) 通过构建并...
    hxiaom阅读 4,717评论 0 2
  • 本文是sklearn官网文档中集成模型一文的翻译,加入了自己的理解,翻译中难免有误,仅作参考。 集成学习的目标是结...
    迅速傅里叶变换阅读 12,470评论 0 7
  • 机器学习是做NLP和计算机视觉这类应用算法的基础,虽然现在深度学习模型大行其道,但是懂一些传统算法的原理和它们之间...
    在河之简阅读 20,754评论 4 65
  • 假设你去随机问很多人一个很复杂的问题,然后把它们的答案合并起来。通常情况下你会发现这个合并的答案比一个专家的答案要...
    城市中迷途小书童阅读 7,982评论 0 1
  • 7月16日。你告诉我了,我在你心里的地位,那算不了表白的表白,表明了你的心意。自从我知道了你心意以后,我突然觉...
    渡瑾灏阅读 1,414评论 0 0

友情链接更多精彩内容