决策树知识总结

  1. 简述决策树的原理
    决策树的实质就是一系列的if-else,根据决策条件,从根节点走到叶子节点。对于分类问题,根据叶子结点的标签进行投票决定;对于回归问题是根据叶子节点的均值作为预测值

  2. 信息量

  • 发生概率越低的事件信息量越大
  • 信息量必须大于0
  • 信息量的累加性
    基于上述三个特性,一个事件的信息量公式定义为h(x)= -log p(x)
  1. 信息熵
    信息熵是度量信息“纯度”的指标。信息熵越大,越不纯。例如一张二维表,学号字段相比性别字段,信息熵要大得多


    信息熵.png
  2. 决策树结点划分

    • ID3
      ID3是基于信息增益作为节点划分的标准,选择信息增益最大进行划分。

      image.png

    • C4.5
      由于ID3只考虑了信息增益,没有考虑分裂字段本身的“信息熵”。假如有一个字段“学号”,每个学号对应唯一的label,那么根据信息增益公式,这个字段的信息增益一定是最大的,但是这个字段真的适合分裂吗?肯定不是的。C4.5相比ID3,优化了分裂倾向选择类别多的字段,选择信息增益率最大进行划分

      image.png

    • CART
      cart是基于基尼系数进行划分,分别计算各字段的基尼系数,选择最小的字段进行分裂,公式如下


      image.png
  3. ID3,C4.5,CART对比


    image.png
  4. 树的剪枝
    通过剪枝可以防止树节点过拟合,提高模型的泛化能力。剪枝方式分两种,预剪枝后剪枝。根据周志华老师在西瓜书中的剪枝内容,思想是类似于XGBoost中的early stopping,如果在验证集效果不再提升,那么就不再进行分裂

  • 预剪枝
    在节点进行分裂时,计算验证集分裂前后精度是否降低。如果提高,继续分裂;否则停止分裂
  • 后剪枝
    先构建完整的决策树,自下向上进行查找,如果合并叶子节点后的精度相比合并前有提升,那么进行剪枝,将叶子节点的样本进行合并,并删除叶子节点


    image.png
  1. 连续值处理
    对于连续型特征,假设有n个样本的特征x取值为{x1,x2,...xn},那么将x1,x2,...xn从小到大排序,取两两值的中点作为分割点,依次遍历每个分割点并计算信息增益(率)或基尼系数,选择对应的分割点作为最终的分割条件
    注:对于连续型特征,特征选择后是可以继续作为后续的节点的分裂条件

  2. 缺失值处理
    根据是否缺失给样本赋予不同的权重,无缺失是1,缺失是0。当计算信息增益时,只考虑非缺失的样本,将最终结果乘以(1-缺失率)作为修正后的增益率


    image.png
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 决策树理论在决策树理论中,有这样一句话,“用较少的东西,照样可以做很好的事情。越是小的决策树,越优于大的决策树”。...
    制杖灶灶阅读 5,932评论 0 25
  • 决策树基础概念 决策树分为分类树和回归树两种,分类树对离散变量做决策树,回归树对连续变量做决策树。每个内部节点(非...
    我只要喝点果粒橙阅读 2,672评论 0 0
  • 一、决策树初步认识 叶子节点:存放决策结果 非叶子节点:特征属性,及其对应输出,按照输出选择分支 决策过程:从根节...
    一杭oneline阅读 1,064评论 0 2
  • 一、决策树应用体验 分类   从上面可以看出,决策树对分类具有线性回归无可比拟的优势, 如果对未参与训练的数据集是...
    杨强AT南京阅读 1,271评论 1 3
  • 一、介绍 决策树(Decision Tree)是一个树结构(可以是二叉树或非二叉树),其中每个非叶节点表示一个属性...
    黑羊的皇冠阅读 2,532评论 0 4