决策树算法

决策树实际上是特征选择,决策树的生成和剪枝过程

5.1决策树模型与学习

5.1.1 决策树模型

决策树模型定义分类鞠策书模型是一种描述对实例进行分类的树形结构,决策树由节点和有向边组成,节点有两种类型:内部节点和叶节点。内部节点标识一个特征或属性,叶节点标识一个类。

5.2特征选择

选取对训练数据有分类能力的特征,从而提高决策树的学习效率。
如果利用一个特征进行分类的结果和随机分类结果没有很大差别,则这个特征没有分类能力。
特征选择的准则是信息增益或信息增益比

1.1信息增益

熵(entropy)是标识随机变量不确定性的度量。设X是一个取有限个值的随机离散变量,概率分布为:

              P(X = xi) = pi i=1,2,...n

随机变量X的熵为:

              H(X) = -∑pi*logpi
  • 当对数以2为底或者e为底,这是熵的单位分别称作比特(bit)和纳特(nat)

由定义可知,熵和X的分布有关,和X的取值无关,所以也可以将X的熵记作H(p),即

              H(p) = -∑pi*logpi

熵越大,随机变量的不确定性就越大,从定义可验证

              0 <= H(p) <= logn

条件熵H(Y|X)表示在已知随机变量X的条件下随机变量Y的不确定性,随机变量X给定的条件下随机变量Y的条件熵(conditional entropy) H(Y|X),定义为X给定条件下Y的条件概率分布的熵对X的数学期望

              H (Y|X) = ∑pi*H(Y|X = xi)
              这里,pi = P(X = xi), i = 1, 2, ...n

当条件熵中的概率有数据估计(特别是最大似然估计)得到时,所对应的熵与条件熵分别称为经验熵(empirical entropy) 和经验条件熵(empirical conditional entropy).此时,如果有0概率,令0log0=0.

信息增益(information gain)表示得知特征X的信息而使得类Y的信息的不确定性减少的程度。

信息增益定义 特征A对训练数据集D的信息增益g(D,A),定义为集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A),定义为集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A)之差,即

          g(D,A) = H(D) - H(D|A)

一般的,熵H(Y)与条件熵H(Y|X)之差称为互信息(mutual information),决策树学习中的信息增益等价于训练数据集中类与特征的互信息。

信息增益的算法
输入:训练数据集D和特征
输出:特征A对训练数据集D的信息增益g(D,A)

  • (1)计算数据集D的经验熵H(D)

            H(D) = ∑pi*logpi
            H(D) = ∑|Ck|/|D|*log|Ck|/|D|
    
  • (2)计算特征A对数据集D的经验条件熵H(D,A)

            H(D|A) = ∑|Di|/|D|*H(D)
    
  • (3)计算信息增益

            g(D,A) = H(D) - H(D|A)
    

根据信息增益选择最优的特征

  • (1)首先计算经验熵H(D)

                H(D) = -∑pi*logpi
    
  • (2)计算各特征对数据集D的信息增益

            g(D,A) = H(D) - H(D|A)
    

信息增益比

信息增益值的大小是相对于训练数据集而言的,并没有绝对意义,在分类问题困难时,也就是说在训练数据集的经验熵大的时候,信息增益值会偏大,反之信息增益值会偏小,使用信息增益比(information gain ratio)可以对这一问题进行校正,这是特征选择的另一个准则。

信息增益比定义特征A对训练数据集D的信息增益比gr(D,A)定义为其信息增益g(D,A)与训练数据集D的经验熵H(D)之比:
gr(D,A) = g(D,A) / H(D)

5.3决策树的生成

5.3.1 ID3算法

ID3算法的核心是在鞠策书各个节点上应用信息增益准则选择特征,递归的构建决策树,具体方法是:从根节点开始,对节点计算所有可能得特征的信息增益,选择信息增益最大的特征作为节点的特征,由该特征的不同取值建立子节点;再对自己点递归的调用以上方法,构建决策树;直到所有的特征的信息增益均很小或没有特征可以选择位置。最后得到一个决策树。ID3相当于用极大似然法进行概率模型的选择

ID3算法
输入:训练数据集D,特征集A,阈值e;
输出:决策树T

  • (1)若D中所有实例属于同一类Ck,则T为单节点数,并将Ck作为该节点的类标记,返回T
  • (2)若A=∅,则T为单节点树,并将D中实例数最大的类Ck作为该节点的类标记,返回T
  • (3)否则,按算法5.1计算A中各特征对D的信息增益,选择信息增益最大得到特征Ag;
  • (4)如果Ag的信息增益小于阈值e,则置T为单节点树,并将D中实力书最大的类Ck作为该节点的类标记,返回T;
  • (5)否则,对Ag的每一可能值a1,依Ag = ai 将D分割为若干非空子集Di,将Di中实例数最大的类作为标记,构建子节点,由节点及其子节点构成树T,返回T;
  • (6)对第i个子节点,以Di为训练集,以A-{Ag}为特征集,递归的调用步骤(1)-(5),得到子树Ti,返回Ti

C4.5的生成算法

C4.5与ID3算法相似,C4.5在生成过程中,用信息增益比来选择特征。可以平衡经验熵偏大或者偏小导致信息增益偏大偏小的问题。

5.4 决策树的剪枝

决策树生成算法递归的产生决策树,直到不能继续下去为止,这样产生的树往往对训练数据的分类很准确,但对于未知的测试数据的分类确没有那么准确,即出现过拟合现象。过拟合的原因在于学习时过多的考虑如何提高对训练数据的正确分类,从而构建出过于复杂的决策树。解决这个问题的办法是考虑决策树的复杂度,对已生成的决策树进行简化。

在决策树学习中将已生成的树进行简化的过程称为剪枝(pruning)。

降低模型复杂度,从而提升模型在未知数据上的预测准确率

5.4.1决策树的剪枝算法

决策树的剪枝往往通过极小化决策树整体的损失函数(loss function)或代价函数(cost function)来实现,设树T的叶节点个数为|T|,t是树T的叶节点,该叶节点有Ni个样本点,其中k类的样本点有Ntk个,k=1,2....,K,H(T)为叶节点t上的经验熵,a>=0为参数,决策树的损失函数为

          Ca(T) = ∑NtHt(T) + a|T|

其中经验熵为

          Ht(T) = -∑Ntk/Nt * logNtk/Nt

损失函数

          Ca(T) = C(T) + a|T|

C(T)表示模型对训练数据的预测误差,即模型与训练数据的拟合程度,|T|表示模型的复杂度,参数a>=0控制两者之间的影响,较大的a促使选择较简单的模型(树),较小的a促使选择较复杂的模型,a=0意味着只考虑模型与训练数据的拟合程度,不考虑模型复杂度。损失函数正好表示了对两者的平衡。

决策树生成只考虑了通过提高信息增益对训练数据进行更好的拟合,而决策树剪枝通过优化损失函数还考虑了减小模型复杂度,决策树生成学习局部的模型,而决策树剪枝学习整体的模型。

5.5 CART算法

CART算法有两个组成:

  • 决策树生成:基于训练数据集生成决策树,生成的决策树要尽量大;
  • 决策树剪枝:用验证数据集对已生成的树进行剪枝并选择最优子树,这时用损失函数最小作为剪枝的标准。
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,372评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,368评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,415评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,157评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,171评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,125评论 1 297
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,028评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,887评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,310评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,533评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,690评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,411评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,004评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,659评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,812评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,693评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,577评论 2 353

推荐阅读更多精彩内容