决策树

决策树

1.决策树原理

  • 树模型
    • 决策树:从根结点开始一步一步走到叶子节点(做出了决策)
    • 所有的数据最终都会落到叶子节点,即可以做分类也可以做回归
  • 举个例子:
    • 五个样本数据,就是家里的5个人,进行分类,是否愿意玩电脑游戏。
    • 首先判断年龄,年龄大于15岁的就认为不会玩,走到了叶子节点上,对于小于15岁的再判断时候是男生,男生就玩,女生不玩。


      例子
  • 树的组成:
    • 根结点:第一个选择点
    • 非叶子节点与分支:中间过程
    • 叶子节点:最终的决策结果
  • 节点
    • 增加节点相当于在数据中切一刀,越多的特征,切的越多。
    • 希望数据切得细一点,那么节点越多越好吗?
  • 决策树的训练与测试
    • 训练阶段:从给定的训练集构造出来一棵树(从根节点开始选择特征,如何进行特征切分)
    • 测试阶段:根据构造出来的树模型从上到下去走一遍就好了。
    • 一旦构造好了决策树,那么分类或者预测任务就很简单了,只需要走一遍就可以了,那么难点在于如何构造出来一棵树,这就没那么容易了,要考虑的问题还有很多。需要从根结点开始每一步选择什么样的特征进行分类。
  • 如何切分特征(选择节点)
    • 问题:根结点的选择该用哪个特征?如何进行切分?
    • 我们的目标应该是根结点就像一个老大似的能更好的切分数据(分类的效果更好),根结点下面的节点自然就是二当家了。
    • 目标:通过一种衡量标准,来计算通过不同特征进行分支选择后的分类情况,找出来最好的那个当成根结点,以此类推。随着划分过程不断进行,我们希望决策树的分支节点所包含的样本尽可能属于统一类别。

2. 衡量标准

  • 熵:
    • 定义:表示了随机变量的不确定性的度量
    • 解释:说白了就是物体内部的混乱程度。
    • 公式:
      信息熵公式
      • 越大的概率,得到的熵值越少,越小的概率,熵值越大。
    • 一个例子:
      • A集合[1,1,1,1,1,1,1,1,2,2];B集合[1,2,3,4,5,6,7,8,9,1]
      • 显然A集合的熵值要低,因为A中得到类别的概率比较大。我们的目标就是通过分类,得到纯度较高的分类。
    • 熵值:不确定性越大,得到的熵值也就越大
      • 当概率值为0或1是,得到的熵值为0,随机变量完全没有不确定性
      • 当概率值为0.5时,熵值为1,此时随机变量的不确定性最大。
      • 熵值图像

如何决策一个节点的选择呢?

3. 信息增益

  • 定义:表示特征X使得类Y的不确定性减少的程度。(分类后的专一性,希望分类后的结果是同类在一起。)
  • 公式:a表示样本D中的属性,v代表属性a的不同取值,D^v表示不同取值组成的集合。


    信息增益公式
  • 信息增益越大,则意味着使用属性a来进行划分所获得的“纯度提升”最大。

4. 决策树算法

  1. ID3:信息增益(有什么问题呢?)
    • 在算信息增益是,有意的忽略了编号那一列,若编号也作为一个候选划分属性,每一个编号都是一个各自的叶子节点,算出熵值等于0,信息增益是最大的,选特征的时候就会选到“编号”这个特征,对于划分类别没有用。
  2. C4.5:信息增益率(解决ID3问题,考虑自身熵)
    • 公式:
      信息增益率公式

      其中


      image.png

      属性a的可能取值数目越多,IV(a)的值通常会越大

  3. CART:使用GINI系数来当做衡量标准
  • GINI系数:
    GINI系数
  • Gini(D)反映了从数据D中随机抽取两个样本,其中类别标记不一致的概率,值越小,数据集D的纯度越高。

5. 连续值处理

  1. 连续属性离散化技术处理
    • 最简单的策略是“二分法”
    • 对属性a中不同的取值进行排序,基于划分点t将数据集划分为两个子集,一个子集中的数据均小于t,另一个子集中的数据均大于t。从而来达到分类的效果。

6. 决策树剪枝策略

  • 为什么要剪枝?
    • 决策树的过拟合风险很大(在训练集上表现很好,在测试集上表现很差),理论上可以完全分得开数据。(如果树足够庞大,每个叶子节点都是一个数据了)
  • 剪枝策略:预剪枝,后剪枝
  1. 预剪枝
  • 边建立决策树边进行剪枝的操作(更实用)
  • 限制深度,叶子节点个数,叶子节点样本数,信息增益量等
  1. 后剪枝
  • 当建立完决策树后来进行剪枝操作
  • 通过一定的衡量标准


    image.png

    (叶子节点越多,损失越大)

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 219,539评论 6 508
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,594评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 165,871评论 0 356
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,963评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,984评论 6 393
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,763评论 1 307
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,468评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,357评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,850评论 1 317
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,002评论 3 338
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,144评论 1 351
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,823评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,483评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,026评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,150评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,415评论 3 373
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,092评论 2 355

推荐阅读更多精彩内容

  • 决策树理论在决策树理论中,有这样一句话,“用较少的东西,照样可以做很好的事情。越是小的决策树,越优于大的决策树”。...
    制杖灶灶阅读 5,857评论 0 25
  • 1、模型原理 (一)原理 1、原理:引入信息熵(不确定程度)的概念,通过计算各属性下的信息增益程度(信息增益越大,...
    Python_Franklin阅读 12,362评论 0 17
  • 决策树 1.概述 决策树由节点和有向边组成,节点有两种类型,内部节点和叶节点,内部节点表示一个特征或属性,叶节点表...
    Evermemo阅读 2,293评论 0 1
  • 一. 决策树(decision tree):是一种基本的分类与回归方法,此处主要讨论分类的决策树。在分类问题中,表...
    YCzhao阅读 2,136评论 0 2
  • Decision Trees (DTs) 是一种用来classification和regression的无参监督学...
    婉妃阅读 6,119评论 0 8