西瓜书第4章-决策树详解

西瓜书统计学习方法中学习了决策树的相关知识,同时在网上查找了树的知识点,最重要的是二叉树和树3种的遍历方式

  • 树的知识
  • 决策树
  • 剪枝问题
image

树一种抽象类型数据,用来模拟具有树状结构性质的数据集合。它是由多个有限节点组成一个层次关系的集合。特点:

  • 每个节点有0个或者多个子节点

  • 没有父节点的节点称之为根节点

  • 每个非根节点有且只有一个根节点

术语

  • 节点的度:一个节点含有的子树的个数称为该节点的度

  • 树的度:最大的节点的度称之为数的度

  • 叶节点或终端节点:度为零的节点

  • 父节点:含有子节点的节点上级

  • 子节点:一个节点还有的子树的根节点称为该节点的子节点

  • 兄弟节点:具有相同父节点的节点

  • 节点的层次:根节点为第一层,其子节点为第二层,类推

  • 树的高度或者深度:节点最大层次

  • 堂兄弟节点:父节点在同一层次的节点

  • 森林:由多个树互不相交的树的集合称为森林

二叉树

每个节点最多只有两个子节点:左子树和右子树,性质:

  • i层上最多2^{(i-1)}个节点

  • 深度为k的二叉数最多有2^k-1个节点

  • 具有n个节点的完全二叉树的深度必为log2(n+1)

  • 叶结点数为N_0,深度为2的节点总数为N_2,则N_0=N_2+1

树的遍历

深度遍历的三种遍历顺序:

在子节点中,必须先左后右

  • 前序遍历:根--->左--->右

  • 中序遍历:左--->根--->右

  • 后序遍历:左--->右--->根

树的种类

  • 无序树:任意节点的子节点之间没有任何的顺序关系,称之为无序树,也叫自由树

  • 有序树:子节点之间由顺序关系

  • 二叉树:每个节点最多含有两个子树的树

  • 完全二叉树:若一棵树的深度为d,除去第d层外,其他各层的节点数目达到了最大值,且第d层所有节点从左向右连续紧密的排列的二叉树

  • 满二叉树:所有层的节点数达到了最大数

  • 平衡二叉树:当且仅当任何节点之间的两颗子树的高度差不大于1的二叉树

  • 排序二叉树:二叉搜索树,二叉查找树,性质:任何节点左边的数比节点上的数小,右边比节点上的数大

  • 霍夫曼树:用于信息编码

  • B树/B^+树:在MySQL的索引中使用

决策树

决策树介绍

决策树是基于树结构进行决策的,其目的是产生一颗泛化能力强,即处理未见示例能力强的决策树,它是一种有监督分类模型

QPGmDO.png

一颗决策树包含:

  1. 一个根节点
  2. 若干个内部节点
  3. 若干个叶节点;叶节点对应于决策结果

决策树学习

决策树学习的本质上是从训练数据集上归纳出一组分类规则,通过训练数据集估计条件概率模型。

决策树学习的损失函数通常是正则化的极大似然函数

决策树基本算法

  • 决策树的生成是一个递归过程
  • 重点是第8行:最优属性的选择;分支节点所包含的样本尽可能的是属于一个类别,节点的“纯度”要高
image

ID.3

信息增益

ID.3算法是基于信息增益来选择最优划分属性。信息增益的计算基于信息熵 information entropy(样本集合纯度的指标)

假设数据集D中第k类样本占的比例是p_k(k=1,2,…,K),则D信息熵定义为:
Ent(D)=-\sum^K_{k=1} p_klog_2{p_k}
比如:某个事件发生的结果有3种情形,出现的概率分别是:

结果1 结果2 结果3
\frac{1}{3} \frac{1}{2} \frac{1}{6}

信息熵的计算如下:

Ent=-(\frac{1}{3}log_2\frac{1}{3}+\frac{1}{2}log_2\frac{1}{2}+\frac{1}{6}log_2\frac{1}{6})


信息熵越小,数据集X纯度越大

假设数据集中离散属性a共有V个可能的取值\{a^1,…,a^V\}。使用属性a对整个数据集进行划分,会产生V个分支节点;

v个节点包含数据集合D在属性a上取值为a^v的样本,记为D^v;节点的权重为\frac{|D^v|}{|D|},样本数越多的分支节点,其影响越大

基于属性a对数据集的信息增益表示为
Gain(D,a)=Ent(D)-\sum^V_{v=1}\frac{|D^v|}{|D|}Ent(D^v)
上面的式子:表示的是以属性a划分前划分后的信息熵差值,信息增益越大越好

具体过程
  1. 从根节点开始,对所有节点计算所有可能的特征的信息增益
  2. 选择信息增益最大的特征作为节点的特征,由特征的不同取值建立子结点
  3. 再对子结点调用上述方法,递归地创建决策树(步骤2中使用的属性特征不再重复使用)
缺点

ID3算法的缺点是:偏向于取值较多的属性进行分割


C4.5

介绍

为了解决ID3算法的缺点,引入了C4.5

C4.5使用的是信息增益率作为划分属性的准则,定义为:
GainRatio(D,a)=\frac{Gain(D,a)}{IV(a)}
其中
IV(a)=-\sum^V_{v=1}\frac{|D^v|}{|D|}log_2\frac{|D^v|}{|D|}
上式中的IV(a)称之为属性a的“固有值”。属性a的可能取值越多,“固有值”越大。

C4.5选择属性的依据
  1. 不是选择增益率最大的,可能对数目较少的属性有所偏好
  2. 从候选属性中找出信息增益率高于平均水平的属性
  3. 步骤2的基础上,选择增益率最高的
  4. 使用过后的属性在下次进行划分的时候,不再考虑
  5. 如果在某次划分的过程中,有多个属性的信息增益是相同的,任取其中一个。
  6. 对于连续值属性,可取值数目不再有限,采用离散化技术(如二分法)进行处理。
    1. 将属性值从小到大排序,然后选择中间值作为分割点
    2. 数值比它小的点被划分到左子树,数值不小于它的点被分到右子树,计算分割的信息增益率,选择信息增益率最大的属性值进行分割。

CART

基尼系数Gini

CART决策树采用的Gini基尼系数来划分属性。采用的是二元切分法,每次将数据分成两份,分别进入左右两边的子树中。在整个树中

  • 每个非叶子节点都有两个孩子
  • CART中叶子节点比非叶子节点多1
  • 选取基尼系数作为划分标准,每次迭代都会降低基尼系数。

对于全部数据集D的纯度使用基尼系数来度量:
\begin{align} Gini(D) & =\sum^{|Y|}_{k=1}\sum_{k^` \neq k}p_kp_{k^`} \\ & = 1-\sum^{|Y|}_{k=1}p_k^2 \end{align}
基于某个属性a的基尼系数可表示为
Gini(D|a)=\sum ^V_{v=1}\frac{D^v}{D}Gini(D^v)

Gini系数特点
  1. 反应从数据集中随机抽取两个样本,类别标志不一样的概率
  2. 基尼系数越小越好,数据的纯度越高
  3. 选择使得划分后基尼系数最小的属性作为最优划分属性

实例demo

demo中主要是讲解如何计算信息熵,信息增益,信息增益率,基尼系数。数据样本取自西瓜书

QPvbjS.png
信息熵
  1. 在整个样本中的正反例为8:9,信息熵为:

Ent(D)=-(\frac{8}{17}log_2 \frac{8}{17}+\frac{9}{17}log_2 \frac{9}{17})=0.998

  1. 选择以属性“色泽seze”为例,有青绿、乌黑、浅白3种取值方案D_1,D_2,D_3,分别占比为6:6:5,每个子集数据中占比为(3:3):(4:2):(1:4),那么3个子节点的信息熵分别为:

Ent(D_1)=-(\frac{3}{6}log_2\frac{3}{6}+\frac{3}{6}log_2\frac{3}{6})=1.000

Ent(D_2)=-(\frac{4}{6}log_2\frac{4}{6}+\frac{2}{6}log_2\frac{2}{6})=0.918

Ent(D_1)=-(\frac{1}{5}log_2\frac{1}{5}+\frac{4}{5}log_2\frac{4}{5})=0.722

信息增益

根据上面的计算,得到基于色泽属性的信息增益为
\begin{align} Gain(D,seze) & =Ent(D)-Ent(D)-\sum^3_{v=1}\frac{|D^v|}{|D|}Ent(D^v) \\ & = 0.998-\frac{6}{17}*1.00+\frac{6}{17}*0.918+\frac{5}{17}*0.722 \\ & = 0.109 \end{align}
同理,可以得到基于其他属性的信息增益,不再累述。

信息增益率

还是以上面的色泽属性为例,基于色泽属性的信息增益已经计算出来:
Gain(D,seze)=0.109

属性色泽中有3种结果,对应比例为6:6:5,固有值IV(a)
\begin{align} IV(a) & =-\sum^V_{v=1}\frac{|D^v|}{|D|}log_2\frac{|D^v|}{|D|} \\ & = -(\frac{6}{17}log_2 \frac{6}{17}+\frac{6}{17}log_2 \frac{6}{17}+\frac{5}{17}log_2 \frac{5}{17}) \\ & = 1.580 \end{align}

那么,基于属性色泽的基尼系数

Gain\_ratio=\frac{0.109}{1.580}

几种常见算法比较
决策树算法 算法描述
ID3 在各级节点上,使用信息增益作为属性的选择标准<br />只适用于离散的描述属性<br />依赖于选择特征数目较多的属性特征<br />单变量决策树,特征之间的关系不会考虑
C4.5 使用的是信息增益率作为属性的选择标准<br />可以同时处理离散和连续的属性描述
CART 使用的是基尼系数作为属性的选择标准<br />非参数的分类和回归算法<br />构建的一定是二叉树<br />终节点是连续变量,属于回归树<br />终节点是离散变量,属于分类树

剪枝处理

剪枝由来

剪枝pruning主要是为了处理决策树中的过拟合问题。在决策树中

  • 为了尽可能正确分类训练样本,结点划分过程不断重复,造成树的分支过多
  • 每个属性都被详细地加以考虑,决策树的树叶节点所覆盖的训练样本都是“纯”的
  • 从而使得训练样本学的太好了,把训练集的某些特点当做所有数据的一般性质,但是对于测试集中的数据表现并没有那么好,从而造成了过拟合overfitting

剪枝算法

CART剪枝算法分为两步:

  1. 从算法生成的决策树T_0底端开始不断地进行剪枝,直到根节点,形成一个子树序列\{T_0,T_1,…,T_n\}
  2. 通过交叉验证法在独立地验证数据集上对上面的子树序列进行测试,选出最优子树

剪枝分类

预剪枝-preprunning

预剪枝就是及早地停止树的增长,在决策树生长的过程就进行剪枝操作。

常见的做法是设定一个阈值,熵减小的数量小于这个阈值,即使还可以继续降低熵,也停止继续创建分支,终止树的增长。实际效果并不好。

  1. 特点
  • 在决策树生成的过程中,对每个节点划分前先进行预估
  • 如果当前节点的划分不能提高泛化能力,停止划分
  • 直接将当前节点划分叶子节点
  1. 通过西瓜书的例子来讲解

采用留出法,将数据分成训练集和验证集(通过双横线区分)

image
  • 这是没有经过任何剪枝得到的决策树(采用的是信息增益准则)
image

由于是预剪枝,需要判断这个划分是否进行,即:是否提高泛化能力。

划分前:把该节点标记为叶节点,其类别标记为训练样例数最多的类型(例子中有两个:是和否都是5个),假设我们标记为好瓜,选择“是”。

用表中的验证集进行评估,{4,5,8}被正确分类,那么不进行划分的正确率是\frac{3}{7}=42.9\%

划分后:针对上面的训练集数据,计算出所有特征的信息增益,具体过程如下:

image

从计算结果中,可以看出来色泽脐部的信息增益值是最大的,从中任意选择一个脐部当做根节点,会产生3个分支(因为脐部有3个不同的属性:凹陷,稍凹,平坦):

当使用脐部 属性划分之后,下面的234号节点中包含的编号分别为{1,2,3,14},{6,7,15,17},{10,16},分别被标记成“好瓜”,“好瓜”,“坏瓜”,验证集中{4,5,8,11,12}被正确分类,正确率是\frac{5}{7}=71.4\%

于是采用脐部属性进行划分。

image
image
后剪枝-postprunning
  1. 剪枝过程
  • 先生成一颗完整的决策树
  • 从下往上对非叶节点进行考察:如果将该节点对应的子树替换为叶节点能够提高泛化性能,则替换为叶节点
  • 叶节点所标识的类别用这棵子树中大多数训练样本所属的类别来标识

上面的栗子中,不进行划分的验证集精度为42.9\%

  1. 后剪枝首先考虑的是节点6,将节点6替换为叶子节点,替换后的节点包含{7,15}的训练样本,因为在属性纹理的区分之下,他们俩个被正确分类。于是将该节点的类别标记为“好瓜”(正负样本数量相同,随便标记)。验证集的精提高至57.1\%,实施剪枝策略。
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,417评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,921评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,850评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,945评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,069评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,188评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,239评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,994评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,409评论 1 304
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,735评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,898评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,578评论 4 336
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,205评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,916评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,156评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,722评论 2 363
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,781评论 2 351