决策树学习

决策树学习的适用问题

通常决策树学习最适合具有以下特征的问题:

  • 实例是由“属性-值”对(pair)表示的。实例是用一系列固定的属性(例如,Temperature)和它们的值(例如,Hot)来描述的。最简单的决策树学习中,每一个属性取少数的分离的值(例如,Hot、Mild、Cold)。然而,扩展的算法也运行处理值域为实数的属性(利润,数字表示的温度)。
  • 目标函数具有离散的输出值。决策树给每个实例赋予一个布尔型的分类(例如,yes或no)。决策树方法很容易扩展到学习有两个以上输出值的函数。一种更强有力的扩展算法运行学习具有实数值输出的函数,尽管决策树在这种情况下的应用不太常见。
  • 可能需要析取的描述,决策树很自然代表了析取表达式。
  • 训练数据可以包含错误。决策树学习对错误有很好的鲁棒性,无论是训练样例所属的分类错误还是描述这些样例的属性值错误。
  • 训练数据可以包含缺少属性值的实例。决策树学习甚至可以在未知属性值的训练样例中使用(仅有一部分训练样例知道当天的湿度)。

基本的决策树学习算法

ID3算法,通过自顶向下构造决策树来进行学习。构造过程是从“哪一个属性将在树的根节点被测试?”这个问题开始的。为了回答这个问题,使用统计测试来确定每一个实例属性单独分类训练样例的能力。分类能力最好的属性被选作为树的根节点的测试。然后为根节点属性的每个可能值产生一个分支,并把训练样例排列到适当的分支之下。然后重复整个过程,用每个分支节点关联的训练样例来选取在该点呗测试的最佳 属性。这形成了对合格决策树的贪婪搜索,也就是算法从不回溯重新考虑以前的选择。

ID3算法的核心问题是选取在树的每个节点要测试的属性。我们希望选择的是最有助于分类实例的属性。那么衡量属性价值的一个好的定量标准是什么呢?这里将定义一个统计属性,称为“信息增益”,用来衡量给定的属性区分训练样例的能力。ID3算法在增长树的每一步使用这个信息增益标准从候选属性中选择属性。

用** “熵” **度量样例的均一性,它刻画了任意样例的纯度(purity),熵介于0~1之间。在信息论中,熵被用来衡量一个随机变量出现的期望值。

与其它的归纳学习算法一样,ID3算法可以被描述为从一个假设空间搜索一个拟合训练样例的假设。被ID3算法搜索的假设空间就是可能的决策树的集合。ID3算法以一种简单到复杂的爬山算法遍历这个假设空间,从空的树开始,然后逐步考虑更加复杂的假设,目的是搜索到一个正确分类训练数据的决策树。引导这种爬山搜索的评估函数是信息增益度

决策树学习的常见问题
决策树学习的实际问题包括确定决策树增长的深度;处理连续值的属性;选择一个适当的属性筛选度量标准;处理属性值不完整的训练数据;处理不同代价的属性;以及提高计算效率。

过度拟合:给定一个假设空间 H,一个假设h∈H,如果存在其他的假设h´∈H,使得在训练样例上h 的错误率比h´小,但在整个实例分布上h´的错误率比h 小,那么就说假设h 过度拟合(overfit)训练数据。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • 决策树 1.概述 决策树由节点和有向边组成,节点有两种类型,内部节点和叶节点,内部节点表示一个特征或属性,叶节点表...
    Evermemo阅读 2,396评论 0 1
  • 决策树学习 决策树学习是应用最广的归纳推理算法之一,它是一种逼近离散值函数的方法,对噪声数据又很好地健壮性且能够学...
    贰拾贰画生阅读 3,150评论 0 7
  • 我们首先看一看决策树长什么样子? 如果你学习过“数据结构”,那你就会知道,计算机中的“树”是倒着放的,树根在上面,...
    李威威阅读 2,048评论 0 0
  • 下文介绍学习决策树的过程,我们通过例子来更好地理解决策树。 决策树是什么,是一种基本的分类与回归的方法。分类决策树...
    小灰灰besty阅读 4,384评论 4 10
  • 有家长吐槽“孩子背<<江南>>,晚上九点背到十点,都不会。为不影响第二天上课,直接让孩子上床睡觉了。”群里家长都有...
    李宇_7792阅读 1,367评论 0 2

友情链接更多精彩内容