运用R语言实现随机森林
安装所需要的包randomForest.在Rstudio中输入所需安装的包的名称进行安装。
安装完成后运用library("randomForest")进行检测
随机森林与决策树
先简单介绍一下有关随机森林的内容
对比与决策树,随机森林更好地防止过拟合的问题。我们在构建决策树的时候可以让树完全的生长,也可以通过参数控制树的深度。完全生长的树会带来过拟合的问题。过拟合一般由于数据中的噪声和离群点导致,一般的解决方法是对树进行剪枝。决策树的剪枝是一个比较基础的问题。这样就过于麻烦,所以我们可以用随机森林来代替决策树。
随即森林属于机器学习中的一种组合算法。组合算法分为两类:Bagging,Boosting。
随即森林属于Bagging。
使用多棵树进行单独的预测,最后的结论有这些树的预测共同组成。
处处随机
随机森林中的每一棵树不一样,每一棵树都随机地在原有的数据的基础上进行有放回的抽样。为了保证树之间的独立性我们一般进行两到三层的独立性。
随机森林的随机性来自于三个方面:
- 随即又放回的抽取数据。
- 随机选取N个特征
- 在N个最好的分裂中随机选取一个进行分裂。
随即森林基本上继承了决策树的全部优点,只需很少的数据准备。随即森林有天生的并行性,可以处理大规模的数据,容易在分布式的环境中运用。
R语言中的随即森林
randomForest(formula, data)基本语法
formula是描述预测变量和响应变量的公式。
data是所使用的数据集的名称