随机森林(random forest)
-
Random Forest
流程:- bagging(bootstrap aggregation)
- 生成决策树
- 对每一个输入进行所有决策树的过滤
- 使用
mean-信息增益
或Gini生成评分
-
bagging
:bootstrap aggregation,bootstrap表示有放回的取出样本(jack knife,每次移除一个样本).而bagging是指使用bootstrap取样,从m个中取n个样本,并取出k组,对每一组进行训练模型,形成f1...fn个模型,对于新的测试数据,通过这k个模型,最后回归使用求平均,而分类问题使用类别最多的结果. - 决策树群:根据决策树的算法,建立多个决策树,如bagging那样的原理
- 评分:
- 根据决策树的信息信息增益评分:通过每一棵决策树的信息增益结果,取得每棵树的平均得分作为得分
-
Gini
评分:在Cart
算法中,Gini
评分会对每一个非叶节点形成评分,最后形成每个特征的评分 - 流程:
- 输入数据集
- bagging选取k组n个样本集
- 随机选择m个特征
- 建立k个决策树,并得到m个特征的评分(如sk-learn中就是
Gini
评分) - 过滤测试样本,通过选取数量最多的为结果
-
genelization error
:泛化误差,RF
的泛化误差比较小