决策树 学习笔记

基本概念

算法杂货铺的这篇介绍说的比较生动详细

决策树算法原理(上) 对ID3、C4.5 的算法思想做了总结。介绍了两种算法的过程,以及优缺点。
ID3 构造决策树是基于信息增益最大的情况进行。主要存在如下问题:

  • ID3没有考虑连续特征,比如长度,密度都是连续值,无法在ID3运用。这大大限制了ID3的用途。
  • ID3采用信息增益大的特征优先建立决策树的节点。很快就被人发现,在相同条件下,取值比较多的特征比取值少的特征信息增益大。比如一个变量有2个值,各为1/2,另一个变量为3个值,各为1/3,其实他们都是完全不确定的变量,但是取3个值的比取2个值的信息增益大。如果校正这个问题呢?
  • ID3算法对于缺失值的情况没有做考虑
  • 没有考虑过拟合的问题
    C4.5 在ID3 的基础上进行了改进,解决以上问题
  • 连续的特征离散化
  • 引入信息增益比
  • 通过同类的数据加权计算缺失值,或 将缺失特征的样本按比例分给各个类。
  • 引入正则化系数

决策树算法原理(下) 在提出C4.5 的基础上,主要介绍了CART 算法,也是在sklearn 中使用的方法。介绍了CART 算法的过程以及剪枝过程。

三种方法对比

scikit-learn决策树算法类库使用小结 从实践角度来介绍决策树算法,介绍了重要参数的含义,调参注意点,以及结果可视化的一些内容。

决策树剪枝算法 介绍决策树的剪枝理论,避免guo
决策树 (Decision Tree) 进阶应用 CART剪枝方法及Python实现方式

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 决策树理论在决策树理论中,有这样一句话,“用较少的东西,照样可以做很好的事情。越是小的决策树,越优于大的决策树”。...
    制杖灶灶阅读 5,939评论 0 25
  • 博客园:http://www.cnblogs.com/wxquare/p/5379970.html ID3(多叉树...
    闫阿佳阅读 2,073评论 0 0
  • 转自算法杂货铺--决策树决策树和随机森林学习笔记-欢迎补充 http://www.cnblogs.com/fion...
    尧字节阅读 10,792评论 1 6
  • 提到生活你首先会想到什么呢? 是柴米油盐酱醋茶,还是一地的鸡毛蒜皮? 今天在《剽悍晨读》中听到了一个新的观点——极...
    摆渡精灵阅读 467评论 0 1
  • 奶奶在离开时什么也没对我说,可是好像也来不及说,戴上了奶奶戴了好几十年的手镯,虽然尺寸大小不太合适,可是却好似被奶...
    Ophelia月阅读 191评论 0 0