day10-决策树

今天学了决策树的基本知识。

基于信息论的决策树算法有:ID3, CART, C4.5等算法。


image.png
  • ID3 算法是根据信息论的信息增益来进行评估和特征的选择,每次选择信息增益最大的特征作为判断模块。ID3算法可以用于划分标称型数据集,没有剪枝的过程,为了去除过度数据匹配的问题,可通过裁剪合并相邻的无法产生大量信息增益的叶子节点。ID3不能处理连续分布的数据特征,于是就有了C4.5算法。CART算法也支持连续分布的数据特征。
  • C4.5是ID3的一个改进算法,继承了ID3算法的优点。C4.5算法用信息增益率来选择划分属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足在树构造过程中进行剪枝;能够完成对连续属性的离散化处理;能够对不完整数据进行处理。C4.5算法产生的分类规则易于理解、准确率较高;但效率低,因树构造过程中,需要对数据集进行多次的顺序扫描和排序。也是因为必须多次数据集扫描,C4.5只适合于能够驻留于内存的数据集。
  • CART算法采用的是Gini指数(选Gini指数最小的特征s)作为分裂标准,同时它也是包含后剪枝操作。ID3算法和C4.5算法虽然在对训练样本集的学习中可以尽可能多地挖掘信息,但其生成的决策树分支较大,规模较大。为了简化决策树的规模,提高生成决策树的效率,就出现了根据GINI系数来选择测试属性的决策树算法CART。

决策树算法的具体内容:

决策树算法思想

sklearn决策树算法库的介绍,参数介绍:

scikit-learn决策树算法类库介绍

用sklearn决策树算法库处理多分类问题的代码链接如下:

决策树处理多分类问题

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 决策树理论在决策树理论中,有这样一句话,“用较少的东西,照样可以做很好的事情。越是小的决策树,越优于大的决策树”。...
    制杖灶灶阅读 5,996评论 0 25
  • 博客园:http://www.cnblogs.com/wxquare/p/5379970.html ID3(多叉树...
    闫阿佳阅读 2,107评论 0 0
  • 前言: 通过第前面的学习介绍了机器学习回归模型创建的流程,并且知道了机器学习要做的事情是找到目标函数,优化它,通过...
    飘涯阅读 6,494评论 4 83
  • 我喜欢你呀! 早读时,纪瑾萱去办公室送作业本,我正好去教室。她在走廊上看到说,“嘻嘻!你怎么也在这?”我笑...
    呵妈阅读 388评论 0 1
  • 2017年3月29日上午10:25。阳光从外面洒进来,窗明几净,淡淡的温暖。我们像花一样簇拥在导员-胡雪峰身旁,教...
    Z刘巧燕P阅读 274评论 0 1