机器学习之决策树

前提概要

决策树是一个预测模型,它表示对象属性对象类别之间的一种映射。决策树中的非叶子节点表示对象属性的判断条件,其分支表示符合节点条件的所有对象,树的叶子节点表示对象所属的类别。

来个例子

比如我们用贷款业务中的一个例子来讲,如下:

  • 对象属性 - 比如贷款用户的年龄、是否工作、是否有房产、信用评分等
  • 对象类别 - 是否批准其贷款申请。

构建的决策树如下:


贷款情况表训练出来的决策树

决策树可以转化为一系列的规则(Rule),从而构成一个规则集(Rule Set),这样的规则很容易理解和运用。

比如上述决策树,最左边的分支对应的规则是:如果客户年龄属于青年,而且有工作,那么就可以批准其贷款申请。

决策树的构造过程

  • 确定一个属性,根据不同记录在该属性上的取值,对所有记录进行划分。
  • 对每个分支重复这个过程,即对每个分支选择另外一个未参与树的创建的属性,继续对样本进行划分;

属性的选择(特征选择)的目的是使分类后的数据集比较纯,即数据集里主要是某个类别的样本,因为决策树的目标就是把数据庥按对应的类别标签进行分类。

最理解的情况下:通过特征的选择,能把不同类别的数据集贴上对应的类别标签。

引入几个概念

我们一般会引入数据纯度函数(即信息增益函数)来衡量一个数据集的纯度。

信息熵: 表示的是不确定性,非均匀分布时,不确定性最大,此时熵就最大。
信息增益: 当选择某个特征,对数据集进行分类时,分类后的数据集的信息熵会比分类前的小,其差值表示为信息增益。信息增益可以衡量某个特征对分类结果的影响大小。
对于一个数据集,特征A作用之前的信息熵计算公式为:
Info(D) = -\sum_{i=1}^cP_ilog_2(P_i)

  • D - 为训练数据集;
  • c - 为类别数量;
  • Pi - 为类别i样本数量点所有样本的比例;

对应数据集D,选择特征A作为决策树判断节点时,在特征A作用后的信息熵为:
Info_A(D)=-\sum_{j=1}^k\frac{D_j}{D}*Info(D_j)

  • k - 为样本D被分数k个子集;

信息增益表示数据集D在特征A的作用后,其信息熵减少的值(信息熵差值),其计算公式如下:
Gain(A)=Info(D) - Info_A(D)

决策树的剪枝

在决策树建立的过程中,很容易出现过拟合(Overfitting)的现象。过拟合是指模型非常逼近训练样本,模型是在训练样本上训练出来的,在训练样本上预测的准确率很高,但是对测试样本的预测准确率不高,效果并不好,也就是模型的eneralization泛化能力(Generalization)差.
当把模型应用到新数据上时,其预测效果不好,过拟合不利于模型的实际应用。

决策树同样会出现过拟合现象,我们可以通过剪枝进行一定的修复,剪枝可分为预先剪枝后剪枝两种;

  • 预先剪枝 - 指在决策树构建过程中,使用一定条件加以限制,在产生完全拟合的决策树之前就停止生长。方法如信息增益小于一定阈值时,通过剪枝使决策树停止生长
  • 后剪枝 - 是在决策树构建完成之后,也就是所有的训练样本都可以用决策树划分到不同子类后,按照自底向上的方向,修剪决策树。其方式有二种:一种是用新的叶子节点替换子树,该节点的预测类由子树数据集中的多数类决定;另一种是用子树中最常使用的分支替子树。

提升

决策树算法有一些变种,包括ID3,C4.5,CART等,一般需要经过两个阶段来进行构造,即树的生长阶段(Growing)和剪枝阶段(Pruning);
决策树的应用场合,除了上面所说的是否批准贷款申请外,还有对客户进行细分、对垃圾邮件进行识别等场合。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,258评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,335评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,225评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,126评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,140评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,098评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,018评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,857评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,298评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,518评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,678评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,400评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,993评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,638评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,801评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,661评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,558评论 2 352

推荐阅读更多精彩内容

  • 机器学习中,决策树是一个预测模型;代表对象属性和对象值之间的一种映射关系。树中每个节点表示某个对象,而每个分叉表示...
    swensun阅读 10,736评论 0 4
  • 先睹为快 决策树的众多特性之一就是, 它不需要太多的数据预处理, 尤其是不需要进行特征的缩放或者归一化。 节点的 ...
    音符纸飞机阅读 880评论 0 0
  • 前言:决策树模型是一类算法的集合,在数据挖掘十大算法中,具体的决策树算法占有两席位置,即C4.5和CART算法 下...
    阿基米敬阅读 1,286评论 0 3
  • 环境: 家里一楼,装修已经完工,厨房,卫生间也有很多改动,更舒适了。 多了1只小黑狗。 人物: 父母还是有点啰嗦,...
    Alian__阅读 285评论 0 0
  • 随园食单之基础认识: 枚随园食单序曰:一世长而知居处,三世长始知服食。 意思是,一代人富起来,可以懂得何为好住房,...
    马唐阅读 1,086评论 0 1