吃瓜学习笔记3-第四章决策树(ID3决策树、C4.5决策树、CART决策树)

决策树就是一个判别的过程,比如说我想知道这是一个好瓜还是坏瓜,怎么做呢?你可以从瓜的属性进行划分,可能纹理模糊的是坏瓜,纹理清晰的是好瓜。决策树就是通过一系列的属性不断去划分,最终得到这个是好瓜还是坏瓜。


西瓜数据集2.0上基于信息增益生成的决策树


决策树学习基本算法

ID3决策树

我们划分的目的是希望分支结点所包含的样本尽可能属于同一类别,也就是结点的纯度越来越高。一说到纯度,我们都可以用信息熵来计算。

"信息熵" (information entropy)是度量样本集合纯度最常用的一种指标.假定当前样本集合D 中第k 类样本所占的比例为Pk (k = 1, 2,. . . , IγI) ,则D的信息熵定义为

公式4.1

Ent(D) 的值越小,则D 的纯度越高.

举个例子,如果好瓜是1/2,坏瓜1/2,则Ent(D)值是最大的,但如果好瓜是1,坏瓜是0,Ent(D)值是最小的,为0.因为都是好瓜,纯度肯定是最高的,没有其他杂质。

解释了纯度,接下来是如何找到最优的属性划分。像上图,它是认为纹理是最优属性,就划分。

ID3决策树是用信息增益为准则来选择划分属性的。

        假定离散属性a有V 个可能的取值{a^1,a^2,...a^V },若使用a来对样本集D 进行划分,则会产生V 个分支结点,其中第v个分支结点包含了D 中所有在属性a 上取值为a^v的样本, 记为D^v. 我们可根据式(4.1) 计算出D^v 的信息熵,再考虑到不同的分支结点所包含的样本数不同,给分支结点赋予权重D^v/|D|,即样本数越多的分支结点的影响越大,于是可计算出用属性a 对样本集D 进行划分所获得的"信息增益" (information gain)


信息增益

一般而言,信息增益越大,则意味着使周属性a 来进行划分所获得的"纯度提升"越大.最优属性就是信息增益最大的那个属性。

西瓜书上P75-P77有个完整的例子说明。

C4.5决策树

实际上,信息增益准则对可取值数目较多的属性有所偏好(比如“编号”这个属性可取值很多,且样本数太少,容易过拟合),为减少这种偏好可能带来的不利影响,我们采用"增益率" (gain ratio) 来选择最优划分属性.

增益率定义为:


4.3

其中


4.4

IV(a)称为属性a 的"固有值".增益率的公式可以了解到,IV(a)越大,则增益率越小。IV(a)的公式实际上就是信息熵的公式,如果属性a*的取值太多,不确定性就很高。

C4.5算法并不是直接选择增益率最大的候选划分属性,而是使用了一个启发式:先从候选划分属性中找出信息增益高于信息增益平均水平的属性,再从中选择增益率最高的。

CART决策树

CART 决策树使用"基尼指数" 来选择划分属性,数据集D 的纯度可用基尼值来度量:


Gini(D) 越小,则数据集D 的纯度越高.因为Gini(D)主要反映在数据集D中随机抽取的两个样本是异类的概率。

属性a的基尼指数定义为

我们在候选属性集合A 中,选择那个使得划分后基尼指数最小的属性作为最优划分属性.

但是,一般CART决策树是二叉树,这个公式并不适合,为此这个属性a的基尼指数应该写成:


就是a=V和a≠V这两种情况来算。把全部情况都算出来,然后把最小的基尼指数属性作为划分点。南瓜书有最详细的例子。


总结

决策树最主要的步骤就是找到最优属性。

ID3决策树是取信息增益最大的属性作为最优属性。

C4.5决策树最优属性:先从候选划分属性中找出信息增益高于信息增益平均水平的属性,再从中选择增益率最高的。

CART决策树是最小的基尼指数属性作为最优属性。

感谢datawhale提供的学习交流平台和资源,学习视频可以参照:Datawhale吃瓜教程

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,509评论 6 504
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,806评论 3 394
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 163,875评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,441评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,488评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,365评论 1 302
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,190评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,062评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,500评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,706评论 3 335
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,834评论 1 347
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,559评论 5 345
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,167评论 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,779评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,912评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,958评论 2 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,779评论 2 354

推荐阅读更多精彩内容