集成学习

本文目录

1.综述

2.基础分类器组合策略

    2.1 平均法

    2.2 投票法

    2.3 学习法

3.集成学习方法

    3.1 Boosting

    3.2 Bagging 与 Random Forest

4. 集成学习的魅力

    4.1 单学习器与集成学习比较


1.综述

集成学习(ensemble learning),它本身不是一个单独的机器学习算法,而是通过构建并结合多个机器学习器来完成学习任务,也就是我们所说的“博采众长”。


如图,对于训练数据,我们可以训练T个个体学习器,通过某种结合策略,最终形成一个强学习器。有两个关键的问题就是:

1.如何得到若干个学习器

2.如何决定组合策略形成最终学习器

第一个问题

对于学习器的选择,可以是同质的,也可以是异质的,同质是指若干个学习器都是同一种模型,比如全都是svm模型,异质则是指这若干个学习器由两种及以上的模型组成,比如可以是DT,LDA等等。

对于同质与异质中,一般选择同质的学习器,因为异质的学习器在每个模型中训练的时间参差不齐,这对并行运行不利,对数据的输入要求也不一,使用复杂。

对于集成个体的选择有着“好而不同”的原则


如何理解“好而不同”,比如说有一个专家开会,轮流发表意见的时候,如果每一个专家的提的意见都是一致的,那么多个专家的作用和一个专家的作用是一样的,多个专家发表不同的意见,那么才可以有新的提升,正如图2所反映一样。”好而不同“的好(准确性)指模型的精度要高,至少也要略优于随机猜测的学习器,如二分类问题上精度要高于50%,不然会出现图三的情况。不同(多样性)指模型之间要有所差异,可以分为:

1.模型上的不同

   用同质的学习器举例,每个模型之间要有所差异,那么模型本身要具备随机性,比如决策树(DT)在进行分裂的时候每次选取的特征都是随机的,可能这棵树70%的准确率,另一颗90%的准确率,还有神经网络(NN),在初始化权重的时候也是一个随机的过程。而比如像SVM,线性模型中,它们有着严格的数学推导,每一步都是确定的,即前一次训练和后一次训练得到的精度都是不变的,所以在集成学习中,一般使用DT和NN来做个体学习器。

2.样本的不同

    后面将介绍的boosting和bagging

好而不同本身也是一组trade-off,即准确率很高后,增加多样性就需要牺牲准确率



《机器学习实战》

2.基础分类器组合策略

如何对多个弱分类器进行组合?

(1)平均法

    用于回归任务,有简单平均法


    加权平均法


(2)投票法

    针对分类任务有简单投票法,即少数服从多数,如果在多分类中多个类别票数相同则随机选取其中一个

    同样也有加权投票法:

(3)学习法

    代表方法:stacking

    思想:不是对弱学习器进行简单的逻辑处理,而是再加上一层学习层,第一层用不同算法形成T个弱学习器,同时产生原数据集大小一致的新数据集,在第二层中使用新数据集和新算法构建分类器。



3.集成学习方法

Boosting

Boosting 是一族可将弱学习器提升为强学习器的算法。

它是一种串型的模型,每一个弱的学习机都会对其上一个学习机进行有针对性的强化,上一学习机中对预测错误的样本,在下一个学习机中对错误样本的权重会更高,即更关注预测错误的样本,最终组成的时候保留所有的弱学习机,虽然说每一个弱学习机对上一个都进行了强化,但是我们不是站在上帝视角审视问题,所以事务的真实规律也不知道,所以也要保留前面的所有弱学习器,最后进行一个加权投票或平均得到强学习机模型。

具体流程

1.原始数据集输入

2.给出训练样本的权重(初始时为均匀分布)

3.将改变后的训练集输入弱学习机,弱学习机对每个样本预测

4.对此次的弱学习机给出权重

5.回到2步骤不断迭代,直到某个度量标准为止

6.将弱学习机按照其响应的权重加权组合成强学习机

在上面流程中,第2步和第4步是很模糊的,如何给出训练样本的权重如何对此次的弱学习机给出权重,针对这两问题AdaBoost就是Boosting的其中一个具体化

如何对此次的弱学习机给出权重(第4步)

    以分类任务为例子,Adaboosting中采用的方法就是对于预测错误的样本,给与更大的权重,而对于正确的样本,则

    1.首先计算每个弱分类器的分类错误率

     \epsilon_{t}  =  P_{x-D_{t}}(h_{t}\neq f(x))(即精度)

    2. 计算弱分类器的权重

     \alpha _{t} = \frac{1}{2} ln(\frac{1- \epsilon_{t}}{\epsilon_{t}})

   如何给出训练样本的权重 (第2步)

    D_{t+1}(x) = D_{t}(x) * exp(-\alpha _{t}f(x)h_{t}(x))

       h_{t}(x)为弱学习机预测值,取值{-1,+1}

        f(x)为样本真实值,取值{-1,+1}


    D_{t+1}(x)  = \frac{D_{t+1}(x) }{\sum\nolimits_{i = 1}^N D_{t+1} (i) }  (归一化)


最后按照加权投票得到强学习机模型


Bagging 与 Random Forest

Bagging 与 Boosting 不同于对样本的处理,boosting是不断更新样本权重使得弱学习机不断一步步强化,而Bagging对样本的处理则是使用自助采样法,即有放回抽样,通过这种抽样方法得到若干个样本集如何用在每个基模型上训练,最终输出的结果是每个基模型的简单投票或者简单平均,由于每个基模型之间相互独立,所以也支持并行计算,提高模型训练的时间。

采用这种有放回抽样选取数据,最终通过理论计算会得到有36.8%的数据没有在训练集中出现,这一部分数据也叫袋外数据,最终用于模型的泛化检验。

RF就是Bagging中的一种,每个基模型使用的是CART分类回归树,即:

    RF = Bagging + CART 

普通的决策树一般会选择最好的特征来进行每个节点的分类,而CART则是选择随机的特征来进行分裂,RF模型则可以更好地审视每个特征的重要程度,这一点也可以用作特征筛选。


集成学习的魅力

使用个简单的代码来分别对比单学习器与集成学习之间的精度。

使用DT模型和RF模型来对手写数字图片数据集实现多分类任务,主要是对比两种模型的精度,不做其他性能的比较及模型的优化。

编译器 : jupyter notebook

代码解读:

导入所需要的库

其中第6行代码可以高效且方便读取数据集,第7行代码是魔术命令,相当于省略了plt.show()

读取数据集,并展示其中的一张图片

划分训练数据集和测试数据集

先构建决策树模型,限定最大深度为10,基于信息增益熵的树。

再构建随机森林模型,50个基学习器,每个基学习器限定深度10,用4个线程提高运算效率。

最终结果可以看到随机森林的准确率显著高于决策树。

代码

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,245评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,749评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,960评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,575评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,668评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,670评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,664评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,422评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,864评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,178评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,340评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,015评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,646评论 3 323
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,265评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,494评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,261评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,206评论 2 352