决策树2019-03-11

1. 两个关键流程:

    1. 1怎么选择一个特征,做分裂,其依据是什么?

    1.2 怎么停止,停止分裂的依据是什么?


关于1.1, ID3, C4.5, CART有不同的依据(损失函数)

ID3 用 信息增益

C4,5 用信息增益率

CART 用Gini


关于1.2, 停止分裂依据

      (1)最小节点数

  当节点的数据量小于一个指定的数量时,不继续分裂。两个原因:一是数据量较少时,再做分裂容易强化噪声数据的作用;二是降低树生长的复杂性。提前结束分裂一定程度上有利于降低过拟合的影响。

    (2)熵或者基尼值小于阀值。

     由上述可知,熵和基尼值的大小表示数据的复杂程度,当熵或者基尼值过小时,表示数据的纯度比较大,如果熵或者基尼值小于一定程度数,节点停止分裂。

  (3)决策树的深度达到指定的条件

   节点的深度可以理解为节点与决策树跟节点的距离,如根节点的子节点的深度为1,因为这些节点与跟节点的距离为1,子节点的深度要比父节点的深度大1。决策树的深度是所有叶子节点的最大深度,当深度到达指定的上限大小时,停止分裂。

  (4)所有特征已经使用完毕,不能继续进行分裂。

额外注意:

CART 是二叉树,无论连续特征离散化的方式,还是多类离散特征,均是切一刀。

CART 也可以做回归树,此时用方差做分裂依据。


https://www.cnblogs.com/yonghao/p/5135386.html

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 决策树理论在决策树理论中,有这样一句话,“用较少的东西,照样可以做很好的事情。越是小的决策树,越优于大的决策树”。...
    制杖灶灶阅读 5,918评论 0 25
  •   决策树(Decision Tree)是一种基本的分类与回归方法,其模型呈树状结构,在分类问题中,表示基于特征对...
    殉道者之花火阅读 4,565评论 2 2
  • 一. 决策树(decision tree):是一种基本的分类与回归方法,此处主要讨论分类的决策树。在分类问题中,表...
    YCzhao阅读 2,181评论 0 2
  • 决策树 1.概述 决策树由节点和有向边组成,节点有两种类型,内部节点和叶节点,内部节点表示一个特征或属性,叶节点表...
    Evermemo阅读 2,319评论 0 1
  • 悦悦是在大学的时候喜欢上陈乐的。 作为同个部门的师兄师妹,悦悦与陈乐的接触难免会多一点。 而且,陈乐是公认的好人缘...
    消瘦的哈团长阅读 955评论 0 1