随机森林:是一种集成学习,由多个弱监督模型组成,每个弱监督模型在某个方向表现比较好。
随机森林是通过集成学习的思想,将多棵决策树进行集成的算法。对于分类问题,其输出的类别是由个别树输出的众数所决定的。在回归问题中,把每一棵决策树的输出进行平均得到最终的回归结果。
森林:指整个模型包含了很多决策树。
随机:随机从数据中采样,用来训练森林中的每个决策树。保证每个决策树训练的角度不一样,保证每个决策树的输出相似,但不一样。
(1)采样随机:有放回的随机抽取数据。
(2)特征随机:每个样本有K个特征,随机从所有特征中选出k个特征作为决策节点构建决策树。
训练过程:
1、设置预训练模型的超参数
如森林中有几棵树,每棵树最多几层深度
2、随机采样,训练每个决策树,从而保证每棵树看问题的角度不一样。
3、输入待测样本到每棵决策树中,再将每个决策树的结果整合。
如果是回归问题:求均值
分类问题:众数 MODE
优点:
1.模型随机性强,不容易过拟合
2、抗噪音强
3、随机采样,使得对高维数据处理更快
4、 树状结构,模型可解释度高,可以告诉数据集中的那些特征比较重要
缺点:过于general,对过于困难的样本难以处理
模型起点高,天花板低