9.决策树

决策树应该有的样子

Paste_Image.png

从根节点开始,以信息增益最大的特征作为节点进行数据集分割,重复这个过程直到子节点都是一个类别的。过多的子节点会导致过拟合现象,我们通过剪枝(prune)来限定树的最大深度

用信息量最大的特征去分割数据
I()函数计算信息熵,就是信息的杂质( impurity ),即混乱度,不确定性。分割前和分割后杂质减少的最多的就是信息增益最大的特征。

Paste_Image.png

尼基系数(Gini index):数据分配的平均性,分配越平均的数据,基尼指数越小
信息熵(entropy):信息量的度量
分类错误(classification error):

信息熵
信息熵方法
尼基系数
尼基系数实例
分类错误classification error
对比三种方法的效果
基于信息熵的决策树实验结果
基于信息熵

随机森林可以看做一个决策树的集合,是一种集成学习方法( ensemble learning ),通过组合一些弱学习算法,得到一个强鲁棒性的强学习算法

  1. 选取随机bootstrap sample作为训练集
  2. 根据bootstrap sample生成决策树
    2.1 随机选择d个特征
    2.2 通过选择的特征对节点进行分割,通过信息增益等方法获得最佳分割
  3. 重复1,2歩
  4. 聚合左右生成的决策树,利用投票法对分类标签进行标注,以此来进行预测分类
随机森林运行结果
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容