你知道随机森林吗?

分类是管理学、金融学、统计学等常用的实证分析方法之一,目前,分类的方法有逻辑回归、支持向量机、贝叶斯分类、决策树、支持向量机、卷积神经网络、线性判别分类器等等。方法有很多,不同的方法适用于不同的环境,其难易度也不同。


随机森林

在开始建模前,首先说一下,随机森林名称的由来。

Leo Breiman和 Adele Cutler发展出、推论出随机森林的算法。这个术语是1995年由贝尔实验室的Tin Kam Ho所提出的随机决策森林(random decision forests)而来的。这个方法则是结合 Breimans 的 "Bootstrap aggregating" 想法和 Ho 的"random subspace method"以建造决策树的集合。

随机森林在以决策树、构建Bagging集成(从数据里抽取出自举样本,即有放回的随机样本,根据每一个样本,可以建立一个决策树模型,最终的模型是所有单个决策树结果的平均。bagging决策树算法通过降低方差得到稳定的最终模型,这种方法提高了精度,也不太可能过拟合)的基础上,进一步在基决策树的训练过程中引入了随机属性选择。所以随机指的是训练过程中引入了随机属性选择,森林是指的“众木成林”,也就是许多决策树的集合。所以,学术界的大佬起名字总是有深意的。

01

随机森林的优缺点

优点

训练可以高度并行化,对于大数据时代的大样本训练速度有优势。个人觉得这是的最主要的优点。

由于可以随机选择决策树节点划分特征,这样在样本特征维度很高的时候,仍然能高效的训练模型。

在训练后,可以给出各个特征对于输出的重要性

由于采用了随机采样,训练出的模型的方差小,泛化能力强。

相对于Boosting系列的Adaboost和GBDT, RF实现比较简单。

对部分特征缺失不敏感。

缺点

在某些噪音比较大的样本集上,RF模型容易陷入过拟合。

取值划分比较多的特征容易对RF的决策产生更大的影响,从而影响拟合的模型的效果。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容