决策树应该有的样子
从根节点开始,以信息增益最大的特征作为节点进行数据集分割,重复这个过程直到子节点都是一个类别的。过多的子节点会导致过拟合现象,我们通过剪枝(prune)来限定树的最大深度
用信息量最大的特征去分割数据
I()函数计算信息熵,就是信息的杂质( impurity ),即混乱度,不确定性。分割前和分割后杂质减少的最多的就是信息增益最大的特征。
尼基系数(Gini index):数据分配的平均性,分配越平均的数据,基尼指数越小
信息熵(entropy):信息量的度量
分类错误(classification error):
随机森林可以看做一个决策树的集合,是一种集成学习方法( ensemble learning ),通过组合一些弱学习算法,得到一个强鲁棒性的强学习算法
- 选取随机bootstrap sample作为训练集
- 根据bootstrap sample生成决策树
2.1 随机选择d个特征
2.2 通过选择的特征对节点进行分割,通过信息增益等方法获得最佳分割 - 重复1,2歩
- 聚合左右生成的决策树,利用投票法对分类标签进行标注,以此来进行预测分类