什么是集成学习?Bagging模型+决策树=随机森林

1 集成学习——投票

在学习了KNN、逻辑回归、决策树和随机森林等算法之后,如何综合利用这几种算法,从而放大每个算法的优势,我们采取投票的方式,即就是少数服从多数的方法对算法进行集成学习。

2 Hard voting和Soft voting

以一个二分类问题(A/B两类)为例,对两种投票方式进行说明:

模型1: A-95%; B-5%
模型2: A-40%; B-60%
模型3: A-90%; B-10%
模型4: A-45%; B-55%
模型5: A-49%; B-51%

  • 1 根据投票的结果,我们认为类别A可以获得2票,类别B可以获得3票,因此依照票数,最终分类为B,这就是Hard Voting
  • 当然投票还有另外一种方式,我们分别对两种类型的概率求平均:
    A:(0.95 + 0.4 + 0.9 + 0.45 + 0.49)/5 = 0.638
    B:(0.05 + 0.6 + 0.1 + 0.55+0.51)/5 = 0.362
    因此从中得到最终结果为A,此时的投票方式为Soft Voting
    可以看出,两种投票方式得到的结果截然不同,因此在之后的调参过程中需要格外注意。

3 集成学习的要求

从上面的计算过程中,我们不难看出,获得最终投票结果的前提是集合的每一个模型都能估计出每个类别的概率值
KNN近邻:可以预测属于某一个类别的概率
逻辑回归:是基于概率模型的
决策树:预测属于某一个类别的概率

4 集成学习之Bagging模型

4.1 Bagging模型为什么要抽样?

虽然有很多的机器学习算法,但是从投票的角度来看,模型的数量依然有限,因此需要创建更多的子模型,来集成更多子模型的意见

  • 假如每个子模型的准确率为51%,三个子模型的集成模型,精度为:

    image.png

    (即三个子模型中,有至少两个子模型预测准确)

  • 假如有500个子模型:


    image.png
  • 假如每个子模型的准确率为60%,假如有500个子模型:

    image.png

通过这种集成学习方法,每一个子模型不需要太高的准确率,而整体就可以得到非常高的准确率,即用多个弱学习器实现强学习器的效果,Bagging模型子模型之间不能一致,要有差异性,为了让子模型具有差异性,我们采取抽样的方式,让每个子模型只学习样本数据的一部分。例如:一共有1000个样本;每个子模型只学习100个样本数据。

4.2 有放回抽样和无放回抽样的区别是什么?

(1)有放回抽样

在一轮抽样期间,每次抽完一个数据,就立马把该数据放回。如果一轮要抽样n个数据,那么就会有n次数据的放回动作。

(2)无放回抽样

它是在逐个抽取个体时,每次被抽到的个体,不放回总体中参加下一次抽取的方法。采用不重复抽样方法时,总体单位数在抽样过程中逐渐减小,总体中各单位被抽中的概率先后不同。不放回抽样也指整个样本一次同时抽取的抽样方法。

(3)主要区别

有放回抽样,每次的结果互不影响,无放回抽样,之前的抽样结果会影响之后的结果。

4.3 什么是包外数据?它有什么用处?

放回取样导致一部分样本很可能没有被取到,平均大约有37%的样本没有被取到,这些数据叫包外数据,Out-Of-Bag(OOB),因此可以在不用使用测试集的情况下,使用这些包外数据进行模型测试。

4.4 Bagging模型为什么可以做并行化运行?

因为个体学习器之间不存在强依赖关系,各个预测函数可以并行生成,可同时生成的并行化算法。

5 理解Random Forest和ExtraTress的性质

5.1 Random Forest 的随机性体现在哪些方面?

  • 普通决策树:会在结点上所有的n个样本特征中选择一个最优的特征进行划分。
  • 扩展之处:从结点的特征集合中随机选择一个包含 k个属性的子集,再从这个子集中选择一个最优划分,进一步扩大了基学习器的差异性,提升模型泛化性能。这里的参数k控制了随机性的引入程度:若k=d,则基决策树的构建和传统决策树的构建相同;若令k=1,则是随机选择一个属性用于划分,一般情况下,推荐值:k = log_2d

5.2 训练同样的数据集,Random Forest为什么比Bagging的效率要高?

随机森林对Bagging只做了小改动,但是与Bagging中基学习器的“多样性”仅通过样本扰动(通过对初始训练集采样)而来不同,随机森林中基学习器的多样性不仅来自样本扰动,还来自属性扰动,这就使得最终集成的泛化性能可通过个体学习器之间差异度的增加而进一步提升。
随机森林的训练效率常优于Bagging,因为在个体决策树的构建过程中,Bagging使用的是“确定型”决策树,在选择划分属性时要对结点的所有属性进行考察,而随机森林使用的“随机型”决策树则只考察一个属性子集

5.3 ExtraTress和Random Forest 的不同之处在哪儿?

  • 随机森林:从结点的特征集合中随机选择一个包含 k个属性的子集,再从这个子集中选择一个最优划分。
  • ExtraTrees:从k个属性的子集中,每个属性上随机选择一个阈值,再选一个最优划分,提供额外的随机性,进一步增强模型的泛化能力,更快的训练速度。
    Extra tree是RF的一个变种, 仅有区别有:
    1) 对于每个决策树的训练集,RF采用的是随机采样bootstrap来选择采样集作为每个决策树的训练集,而extra tree一般不采用随机采样,即每个决策树采用原始训练集。RandomForest应用的是Bagging模型,ExtraTree使用的是所有的样本,只是特征是随机选取的,因为分裂是随机的,所以在某种程度上比随机森林得到的结果更加好。
    2) 在选定了划分特征后,RF的决策树会基于信息增益,基尼系数,均方差之类的原则,选择一个最优的特征值划分点,这和传统的决策树相同。但是Extra tree比较激进,会随机的选择一个特征值来划分决策树。
    从第二点可以看出,由于随机选择了特征值的划分点位,而不是最优点位,这样会导致生成的决策树的规模一般会大于RF所生成的决策树。也就是说,模型的方差相对于RF进一步减少,但是bias相对于RF进一步增大。在某些时候,Extra tree的泛化能力比RF更好。(参考链接:https://www.jianshu.com/p/757ce349594c
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,864评论 6 494
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,175评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,401评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,170评论 1 286
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,276评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,364评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,401评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,179评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,604评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,902评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,070评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,751评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,380评论 3 319
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,077评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,312评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,924评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,957评论 2 351