决策树与随机森林——原理篇(一)

第一篇我们深入浅出的谈谈决策树,严格来说,是决策树的基本原理。
参考

GitHub - datawhalechina/pumpkin-book: 《机器学习》(西瓜书)公式推导解析,在线阅读地址:https://datawhalechina.github.io/pumpkin-book
周志华《Machine Learning》 学习笔记系列--目录 - 简书 (jianshu.com)
《机器学习》 周志华

问题一、什么是决策树?

决策树是一个有监督分类与回归算法
换种说法呢
一个年轻人去公司面试,面试官选人的过程可以看作一次种树
面试官:是不是研究生毕业?
年轻人:是
面试官:是不是毕业于双一流大学?
年轻人:是
面试官:本科也是双一流?
年轻人:不是
面试官:实习单位是不是世界五百强?
年轻人:是
最后,面试官决定初试通过。

问题二、在我们做选择时,哪些是主要矛盾?哪些是次要矛盾?(即如何选择根节点和内部节点?)

理论上,你可以组合不同的条件来问,进而筛选合格的实习生,如此一来,就存在众多的问题组合,那种组合最优呢?这就是决策树算法的第一个关键,得到全局最优解。
另一方面,有关实习生的所有条件你都可以问,是不是研究生,毕业学校是不是985, 211,实习单位是不是世界500强,平常是否热爱运动等等,但问题琐碎,很容易造成一个现象,“过拟合”。当你使用这200个问题去问另一个人时(比如你问了第一位实习生200个问题,得到了一个优秀的员工,此时你为了检验第二个实习生的能力),你可能根本得不到关于这个人的有用信息。如此我们遇到了决策树的第二个关键问题,何时让决策树停止,防止过拟合?

一、如何选择根节点和内部节点

构建决策树采用贪婪算法,只考虑当前纯度差最大的情况作为分割点

因此,这里我们要理解这三个概念:
1)熵:混乱程度。系统越有序,熵值越低
定义:H=- ∑1-i(p(i) * log2(P(i) )
注:其中Pi是发生某结局事件的概率,熵值范围0-1,越大代表混乱程度越大

当 分组中有两个变量,其概率分别为50%,50%时,其熵 = - (0.5*log_2( 0.5)+0.5*log_2( 0.5))= 1
当 结局事件只有一个,其熵 = -1*log_2( 1 ) - 0*log_2( 0 ) =0
所以当Entropy最大为1的时候,是分类效果最差的状态,当它最小为0的时候,是完全分类的状态。因为熵等于零是理想状态,一般实际情况下,熵介于0和1之间。熵的不断最小化,实际上就是提高分类正确率的过程

2)信息增益及信息增益率
信息增益:某特征划分数据集,前后熵的差值;信息增益越大,不确定性越小
定义:Gain (D, A) = H(D) - H(D|A)
注:H(D)是分组前的熵值,H(D|A)是根据特征A分组后的熵之和

信息增益率:增益比率度量是用前面的增益度量Gain(D,A)和所分离信息度量SplitInformation的比值来共同定义的
定义:GainRatial (A) = Gain (D, A) / H(D)
注:Gain (D, A)是以A作为内部结点的信息增益,A的取值越多,H(D)分类前的熵值就越大

3)基尼值及基尼指数
基尼值Gini(D):从数据集D中随机抽取两个样本,起类别标记不一致的概率,故 Gini(D) 值越小,数据集D的纯度越高
定义:Gini(D)= p(1-p)
注:在数据集D中,HCC4例,ICC2例,则 Gini(D) = 4/6(1 - 4/6) = 2/9

基尼指数Gini_index(D):一般,选择使划分后基尼系数最小的属性作为最优化分属性

基尼指数

注:数据集D被划分后,计算每一组的Gini值,求算数平方和后最小,提示我们数据越纯正
南瓜书

南瓜书

总结

因此,作为一个企业精英,每一次的决策背后都有着大量考虑
目前,比较常用的决策树有ID3,C4.5和CART(Classification And Regression Tree),他们选择节点的原理稍有不同
ID3: 信息增益
C4.5:信息增益率
CART:基尼指数,既可以用于分类也可以用于回归

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,911评论 5 460
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 82,014评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 142,129评论 0 320
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,283评论 1 264
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,159评论 4 357
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,161评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,565评论 3 382
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,251评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,531评论 1 292
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,619评论 2 310
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,383评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,255评论 3 313
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,624评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,916评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,199评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,553评论 2 342
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,756评论 2 335

推荐阅读更多精彩内容