决策树算法

1. 决策树算法简介

  1. 总结:分类的一种,根据算信息增益确定树根和树干。

决策树分类的主要仸务是要确定各个类别的决策区域,或者说,确定不同
类别之间的边界。在决策树分类模型中,不同类别之间的边界通过一个树
状结构来表示

tree1
  1. 需要思考的问题:
  • 最大高度 = 决策属性的个数
  • 树越矮越好
  • 要把重要的好的属性放在树根

2. 决策树过程:

1 开始时,所有的训练集样本都在树根

2 属性都是可分类的属性(如果是连续值的话,先要对其进行离散化)

3 决策树分类第一步:选择属性,作为树根
3.1. 比较流行的属性选择算法:信息增益
3.2. 信息增益最大的属性被认为是最好的树根

  1. 停止划分的条件:
    1 某个节点上的所有样本都属于相同的类别
    2 所有属性都用到了– 采用多数有效法对叶子节点分类
    3 没有样本了

3. 如何计算信息增益

  1. 公式
gain.png
  1. 一个例子
sample.png
sample1.png

参考资料: 数据库系统概论(新技术篇) 第六讲 分类技术

2018.4.27

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容