【机器学习基础】决策树算法

引言

在之前的两节博文《混合和装袋》《自适应提升》中,我们已经有现成的一堆假设g在手中,我们还如何将这些g混合起来,得到更好的分类器。
混合方式可以分为三种情况:

  1. 把g看做是同等地位,通过投票或者平均的方式将它们合起来,称为Bagging
  1. g是不平等的,有好有坏,一个可行的做法是把g当成是特征的转换,然后丢进线性模型训练就可以了,这称为AdaBoost
  2. 如果是不同的条件下,使用不同的g,那么我们仍然可以将g当做是特征转换,接下来使用一个非线性模型来得到最终的模型参数,这就是该文要介绍的决策树算法

1. 决策树的表达式

决策树的表示方式可以有两种形式。
第一种是从路径的角度(Path View),将每个从根到叶子的路径作为一个假设g,通过不同的条件组合得到最后的G(X)。


第二种是从递归的角度(Recursive View),父树是由子树递归定义的tree=(root,sub-trees)

2. CART决策树算法

这里我们讨论的决策树算法以CART算法为例。

2.1 基本流程

  1. 从数据中看看如何做分支(branching criteria)
  1. 根据分支将数据分成几块
  2. 根据不同的数据学习子树
  3. 得到最终的决策树

所以,上面进行决策树学习的过程中需要考虑4个方面,分别是:分支的数量(number of branches)、分支的判断条件(branching criteria)、终止的条件(termination criteria)、基本的假设(base hypothesis)。

2.2 CART算法

分类回归树(CART,Classification And Regression Tree)算法采用一种二分递归分割的技术,将当前的样本集分为两个子样本集,使得生成的的每个非叶子节点都有两个分支。
CART根据不同的条件,对数据进行切分,到达叶子节点时,根据剩下的数据进行预测,输出一个常数。


2.3 纯度

CART算法中每个节点(看做是一个决策桩decision stump)对数据进行切分,如果分出来的数据的y都很接近(回归问题)或者都一样(分类问题),那么我们说这样的数据是“纯的”,这样用标量对数据进行预测可以得到比较小的误差。


我们通过上面的公式,来计算对于每一个节点的决策桩来说,分出来的两份数据的纯度是怎样的。该公式通过计算数据集Di(i=1 or 2)的纯度并根据数据集的数量对其进行加权,其加权的意义是如果数据集的数量比较大的话,那个纯度对其比较重要,反之,就不那么重要。
CART通过分出的两部分数据综合起来的纯度对决策桩进行选择,选择“最纯”的分割方式作为当前的分支。

2.4 计算纯度的函数

我们可以将分割出来的数据和回传的常数的误差作为评价纯度的方法,利用数据的y和回传的y_ba的均方误差来评价回归问题的纯度;利用0/1误差函数来评价分类问题的纯度。


如果是分类问题,我们还可以使用一个别的方法。通过基尼不纯度来度量分类问题的纯度问题。


2.5 终止条件

CART中有两种被迫终止的情况,分别是:当yn都一样,这时不纯度为0,于是可以得到gt(x)=yn;另一种情况是xn都一样,就没有继续分割的可能了。
CART树长到被迫停下来的情况,称为完全长成的树(fully-grown tree)。

下面是CART算法完整流程:


CART剪枝算法

一棵完全长成的树的训练误差为0Ein(G)=0,这会有过拟合的危险,在每一个节点上的数据越来越少,导致拟合到这些节点的数据可能是过拟合的。
所以,我们需要一个正则化的机制,来控制模型复杂度,让模型不那么容易出现过拟合现象。
CART剪枝算法从完全生长的决策树的底端剪去一些子树,使决策树变简单,从而能够对未知数据有更准确的预测。


上图告诉我们使用叶子的数目作为正则项(regularizer),最终得到一个正则化的决策树。
关于剪枝的具体做法时:

  • 首先得到完全长成的树作为G(0);
  • 然后试图摘掉一片叶子,将所有摘掉一片叶子后的树计算Ein,将最小的那棵摘掉一片叶子的数作为G(1);
  • 如此这般,得到摘掉两片叶子的最优树G(2),这样不断剪枝,直到根结点,形成一个子树序列;
  • 最终对这个子树序列使用argmin Ein(G)+λΩ(G)来得到最后的输出。

参考资料

机器学习技法课程,林轩田,台湾大学
CART: 分类与回归树

转载请注明作者Jason Ding及其出处
GitCafe博客主页(http://jasonding1354.gitcafe.io/)
Github博客主页(http://jasonding1354.github.io/)
CSDN博客(http://blog.csdn.net/jasonding1354)
简书主页(http://www.jianshu.com/users/2bd9b48f6ea8/latest_articles)
Google搜索jasonding1354进入我的博客主页

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,293评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,604评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,958评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,729评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,719评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,630评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,000评论 3 397
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,665评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,909评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,646评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,726评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,400评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,986评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,959评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,197评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,996评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,481评论 2 342

推荐阅读更多精彩内容