登录注册写文章

9.决策树

9.决策树

决策树应该有的样子

Paste_Image.png

从根节点开始，以信息增益最大的特征作为节点进行数据集分割，重复这个过程直到子节点都是一个类别的。过多的子节点会导致过拟合现象，我们通过剪枝(prune)来限定树的最大深度

用信息量最大的特征去分割数据
I()函数计算信息熵，就是信息的杂质（ impurity ），即混乱度，不确定性。分割前和分割后杂质减少的最多的就是信息增益最大的特征。

Paste_Image.png

尼基系数（Gini index）：数据分配的平均性，分配越平均的数据，基尼指数越小
信息熵（entropy）：信息量的度量
分类错误（classification error）：

信息熵

信息熵方法

尼基系数

尼基系数实例

分类错误classification error

对比三种方法的效果

基于信息熵的决策树实验结果

基于信息熵

随机森林可以看做一个决策树的集合，是一种集成学习方法（ ensemble learning ），通过组合一些弱学习算法，得到一个强鲁棒性的强学习算法

选取随机bootstrap sample作为训练集
根据bootstrap sample生成决策树
2.1 随机选择d个特征
2.2 通过选择的特征对节点进行分割，通过信息增益等方法获得最佳分割
重复1,2歩
聚合左右生成的决策树，利用投票法对分类标签进行标注，以此来进行预测分类

随机森林运行结果

最后编辑于：2017.12.03 02:43:26

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

机器学习 Day 9 | 决策树基础
机器学习第九天决策树概念决策树概述决策树（Decision Tree）算法是一种基本的分类与回归方法，是最经...
raphah阅读 355评论 0赞 4
《统计学习方法》第 5 章“决策树”学习笔记
我们首先看一看决策树长什么样子？如果你学习过“数据结构”，那你就会知道，计算机中的“树”是倒着放的，树根在上面，...
李威威阅读 1,990评论 0赞 0
机器学习算法之决策树(Decision tree)
转自算法杂货铺--决策树决策树和随机森林学习笔记-欢迎补充 http://www.cnblogs.com/fion...
尧字节阅读 10,801评论 1赞 6
机器学习--决策树
一. 决策树（decision tree）：是一种基本的分类与回归方法，此处主要讨论分类的决策树。在分类问题中，表...
YCzhao阅读 2,204评论 0赞 2
萌新入坑，不喜勿喷
第一次写网文，水平或许较低。大纲列了好几种结局，尽量不烂尾。所有坑都列在了小本本上，不会不填坑的。由于现实原...
小幽灵Ghost阅读 111评论 0赞 1

49赞50赞

1赞赏

手机看全文