随机森林

随机森林是一种分类算法,实战中往往比较有用。

简介:如其名,算法里面有一些随机性,另外,主要的思想是很多的决策树(形成森林)的分类结果加权,得到最后的分类结果。

步骤:
1.对每个决策树来说,求一个熵最大化的问题,即信息最大化,尽可能消除随机不确定性。
2.集成学习:就是多个分类器的加权(python里面的scikit)

具体来说,这里面有两个随机:
1.对每个决策树的训练样本有放回的随机采样(bootstrap sample),即每个树的样本都不同,但有重合部分;
2.每次树分裂时,只考虑样本M个特征维度中的很小的一部分,m(m<<M)个,选择这m个中的最优的

以上可以看出,这里只有一个参数m需要调:m减小,树的相关性和分类能力都减弱,相关性越大,最后的错误率越大;分类能力越高,错误率越小。所以m是一个权衡。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容