决策树(DecisionTree)和随机森林(Random Forests)

Random Forest(随机森林)算法是通过训练多个决策树,生成模型,然后综合利用多个决策树进行分类。


1. 单棵决策树的构建:

(1)训练样例的选择

    令N为训练样例的个数,则单棵决策树的输入样例的个数为N个从训练集中有放回的随机抽取N个训练样例。

(2)构建决策树

    令训练样例的输入特征的个数为M,我们在每颗决策树的每个节点上进行分裂时,从M个输入特征里随机选择m个输入特征,且m远远小于M。然后从这m个输入特征里选择一个最好的进行分裂。m在构建决策树的过程中不会改变

构建决策树的算法主要有以下三种,且根据决策树的输出结果,决策树可以分为分类树回归树,分类树输出的结果为具体的类别,而回归树输出的结果为一个确定的数值。其中 ID3 和 C4.5 是分类树, CART 是分类回归树,且 在ID3 和 C4.5 中,特征(属性)只能选一次,而 CART 没有这样的要求

    a. ID3    在决策树生成过程中,以信息增益为特征选择的准则。

    b. C4.5    在决策树生成过程中,以信息增益比为特征选择的准则。

    c. CART    对回归树用平方误差最小化准则,对分类树用基尼指数(Gini index)最小化准则,进行特征选择,生成二叉树。



例:


图1


熵(Entropy)的计算公式为: H = -\sum_{i=1}^n p(x_{i} )\log_2   p(x_{i} )

熵越大,越复杂(混乱程度越高,数据纯度越低越不好分)


图1左中的信息增益InfoGain1 及信息增益比 InfoRatio1为:

H1 = -(\frac{28}{28+16} \log_2  (\frac{28}{28+16} ) + \frac{16}{28+16} \log_2  (\frac{16}{28+16} )) = 0.9457 


Hzuo2 = -(\frac{14}{14+4} \log_2  (\frac{14}{14+4} ) + \frac{4}{14+4} \log_2  (\frac{4}{14+4} )) = 0.7642

Hzuo3 = -(\frac{14}{14+12} \log_2  (\frac{14}{14+12} ) + \frac{12}{14+12} \log_2  (\frac{12}{14+12} )) = 0.9957


InfoGain1 = H1 - \frac{14+4}{28+26}Hzuo2 -  \frac{14+12}{28+16} Hzuo3 = 0.0447


信息增益比为: InfoRatio = \frac{InfoGain}{InstrinsicInfo}

信息增益比越大,说明根据这些特征(属性)使得分类更简单(即是我们想要的效果,信息增益比越大说明H2,H3越小,越小说明分类更简单)


IntrinsicInfo1 = -\frac{14+4}{28+16}\log_2   \frac{14+4}{28+16} - \frac{14+12}{28+16}\log_2   \frac{14+12}{28+16} = 0.9760


InfoRatio 1 = \frac{InfoGain1}{IntrinsicInfo1} = \frac{0.0447}{0.9760}  = 0.0458


同理,图1右的信息增益 InfoGain2 及 InfoRatio2 分别为:

InfoGain2 =0.0282

IntrinsicInfo2 = -\frac{8+2}{28+16}\log_2   \frac{8+2}{28+16} - \frac{20+14}{28+16}\log_2   \frac{20+14}{28+16} = 0.7732

InfoRatio 2 = \frac{InfoGain2}{IntrinsicInfo2} = \frac{0.0282}{0.7732}  = 0.0365

由于 InfoGain1 > InfoGain2, 所以由ID3算法选择第一种方法;

由于InfoRatio1 > InfoRatio2 ,所以根据C4.5算法选择第一种方法



基尼指数: Gini = 1 - \sum_{i=1}^n p_{i}

基尼值越大,数据越不纯(不好分)


(3)停止分裂的条件

    a. 最小节点数

    当节点的数据量小于一个指定的数量时,不继续分裂。两个原因:一是数据量较少时,再做分裂容易强化噪声数据的作用;二是降低树生长的复杂性。提前结束分裂一定程度上有利于降低过拟合的影响。

    b. 熵或者基尼值小于阀值

    由上述可知,熵和基尼值的大小表示数据的复杂程度,当熵或者基尼值过小时,表示数据的纯度比较大,如果熵或者基尼值小于一定程度数,节点停止分裂。

    c. 决策树的深度达到指定的条件

    节点的深度可以理解为节点与决策树跟节点的距离,如根节点的子节点的深度为1,因为这些节点与跟节点的距离为1,子节点的深度要比父节点的深度大1。决策树的深度是所有叶子节点的最大深度,当深度到达指定的上限大小时,停止分裂。

    d. 所有特征已经使用完毕,不能继续进行分裂


2. 随机森林的分类结果

    按照1生成t个决策树之后,对于每个新的测试样例,综合多个决策树的分类结果来作为随机森林的分类结果。

    (1)目标特征为数字类型:取t个决策树的平均值作为分类结果。

    (2)目标特征为类别类型少数服从多数,取单棵树分类结果最多的那个类别作为整个随机森林的分类结果。


3. 分类效果的评价

在随机森林中,无需交叉验证来评价其分类的准确性,随机森林自带OOB(out-of-bag)错误估计

OOB:在构造单棵决策树时我们只是随机有放回的抽取了N个样例,所以可以用没有抽取到的样例来测试这棵决策树的分类准确性,这些样例大概占总样例数目的三分之一。

所以对于每个样例j,都有大约三分之一的决策树(记为SetT(j))在构造时没用到该样例,我们就用这些决策树来对这个样例进行分类。我们对于所有的训练样例 j,用SetT(j)中的树组成的森林对其分类,然后看其分类结果和实际的类别是否相等,不相等的样例所占的比例就是OOB错误估计。OOB错误估计被证明是无偏的。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,242评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,769评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,484评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,133评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,007评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,080评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,496评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,190评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,464评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,549评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,330评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,205评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,567评论 3 298
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,889评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,160评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,475评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,650评论 2 335