机器学习(三)决策树

概述

决策树是一个有监督学习的一种算法,可以实现分类和回归任务。
决策树算法的本质是树形结构,可以看作是遵循if-then规则的集合。

决策树构建

1.特征选择
2.数据集最佳切分函数
3.切分数据集

1.特征选择

特征选择就是根据哪个特征来划分特征空间,其目的是选择对训练数据有分类能力的特征。那么如何选择最优的特征来划分呢?一般来说,随着划分过程的进行,最后决策树中的分支节点所包含的样本应该同属于一个类别。
衡量类别中样本的度量方式有:香农熵,增益率,基尼系数
ID3:信息增益
C4.5:信息增益率
CART: Gini系数
香农熵:
假设当前有n类样本,第i类样本为Xi,那么Xi的信息定义为:


image.png

熵:


image.png

信息增益:
信息增益指的是父节点的熵和其下所有子节点总信息熵的差。
计算公式:
image.png

2.最佳切分函数

根据最大信息增益,选择特征对训练数据进行切分。最大信息增益指的是信息下降最快的方向。

3.切分数据集

根据第二步,开始对数据集进行切分,直到最后没有可选择的特征切分,或者类别相同,即信息熵为0的时候。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 决策树是最经典的机器学习模型之一。它的预测效果容易理解,易于向业务部门解释,可以做分类问题和回归问题。本篇文章主要...
    晓迦阅读 570评论 0 1
  • 一. 决策树(decision tree):是一种基本的分类与回归方法,此处主要讨论分类的决策树。在分类问题中,表...
    YCzhao阅读 2,193评论 0 2
  • 决策树理论在决策树理论中,有这样一句话,“用较少的东西,照样可以做很好的事情。越是小的决策树,越优于大的决策树”。...
    制杖灶灶阅读 5,933评论 0 25
  • 一.朴素贝叶斯 1.分类理论 朴素贝叶斯是一种基于贝叶斯定理和特征条件独立性假设的多分类的机器学习方法,所...
    wlj1107阅读 3,160评论 0 5
  • Decision Trees (DTs) 是一种用来classification和regression的无参监督学...
    婉妃阅读 6,234评论 0 8