集成学习

本文目录

1.综述

2.基础分类器组合策略

    2.1 平均法

    2.2 投票法

    2.3 学习法

3.集成学习方法

    3.1 Boosting

    3.2 Bagging 与 Random Forest

4. 集成学习的魅力

    4.1 单学习器与集成学习比较


1.综述

集成学习(ensemble learning),它本身不是一个单独的机器学习算法,而是通过构建并结合多个机器学习器来完成学习任务,也就是我们所说的“博采众长”。


如图,对于训练数据,我们可以训练T个个体学习器,通过某种结合策略,最终形成一个强学习器。有两个关键的问题就是:

1.如何得到若干个学习器

2.如何决定组合策略形成最终学习器

第一个问题

对于学习器的选择,可以是同质的,也可以是异质的,同质是指若干个学习器都是同一种模型,比如全都是svm模型,异质则是指这若干个学习器由两种及以上的模型组成,比如可以是DT,LDA等等。

对于同质与异质中,一般选择同质的学习器,因为异质的学习器在每个模型中训练的时间参差不齐,这对并行运行不利,对数据的输入要求也不一,使用复杂。

对于集成个体的选择有着“好而不同”的原则


如何理解“好而不同”,比如说有一个专家开会,轮流发表意见的时候,如果每一个专家的提的意见都是一致的,那么多个专家的作用和一个专家的作用是一样的,多个专家发表不同的意见,那么才可以有新的提升,正如图2所反映一样。”好而不同“的好(准确性)指模型的精度要高,至少也要略优于随机猜测的学习器,如二分类问题上精度要高于50%,不然会出现图三的情况。不同(多样性)指模型之间要有所差异,可以分为:

1.模型上的不同

   用同质的学习器举例,每个模型之间要有所差异,那么模型本身要具备随机性,比如决策树(DT)在进行分裂的时候每次选取的特征都是随机的,可能这棵树70%的准确率,另一颗90%的准确率,还有神经网络(NN),在初始化权重的时候也是一个随机的过程。而比如像SVM,线性模型中,它们有着严格的数学推导,每一步都是确定的,即前一次训练和后一次训练得到的精度都是不变的,所以在集成学习中,一般使用DT和NN来做个体学习器。

2.样本的不同

    后面将介绍的boosting和bagging

好而不同本身也是一组trade-off,即准确率很高后,增加多样性就需要牺牲准确率



《机器学习实战》

2.基础分类器组合策略

如何对多个弱分类器进行组合?

(1)平均法

    用于回归任务,有简单平均法


    加权平均法


(2)投票法

    针对分类任务有简单投票法,即少数服从多数,如果在多分类中多个类别票数相同则随机选取其中一个

    同样也有加权投票法:

(3)学习法

    代表方法:stacking

    思想:不是对弱学习器进行简单的逻辑处理,而是再加上一层学习层,第一层用不同算法形成T个弱学习器,同时产生原数据集大小一致的新数据集,在第二层中使用新数据集和新算法构建分类器。



3.集成学习方法

Boosting

Boosting 是一族可将弱学习器提升为强学习器的算法。

它是一种串型的模型,每一个弱的学习机都会对其上一个学习机进行有针对性的强化,上一学习机中对预测错误的样本,在下一个学习机中对错误样本的权重会更高,即更关注预测错误的样本,最终组成的时候保留所有的弱学习机,虽然说每一个弱学习机对上一个都进行了强化,但是我们不是站在上帝视角审视问题,所以事务的真实规律也不知道,所以也要保留前面的所有弱学习器,最后进行一个加权投票或平均得到强学习机模型。

具体流程

1.原始数据集输入

2.给出训练样本的权重(初始时为均匀分布)

3.将改变后的训练集输入弱学习机,弱学习机对每个样本预测

4.对此次的弱学习机给出权重

5.回到2步骤不断迭代,直到某个度量标准为止

6.将弱学习机按照其响应的权重加权组合成强学习机

在上面流程中,第2步和第4步是很模糊的,如何给出训练样本的权重如何对此次的弱学习机给出权重,针对这两问题AdaBoost就是Boosting的其中一个具体化

如何对此次的弱学习机给出权重(第4步)

    以分类任务为例子,Adaboosting中采用的方法就是对于预测错误的样本,给与更大的权重,而对于正确的样本,则

    1.首先计算每个弱分类器的分类错误率

     \epsilon_{t}  =  P_{x-D_{t}}(h_{t}\neq f(x))(即精度)

    2. 计算弱分类器的权重

     \alpha _{t} = \frac{1}{2} ln(\frac{1- \epsilon_{t}}{\epsilon_{t}})

   如何给出训练样本的权重 (第2步)

    D_{t+1}(x) = D_{t}(x) * exp(-\alpha _{t}f(x)h_{t}(x))

       h_{t}(x)为弱学习机预测值,取值{-1,+1}

        f(x)为样本真实值,取值{-1,+1}


    D_{t+1}(x)  = \frac{D_{t+1}(x) }{\sum\nolimits_{i = 1}^N D_{t+1} (i) }  (归一化)


最后按照加权投票得到强学习机模型


Bagging 与 Random Forest

Bagging 与 Boosting 不同于对样本的处理,boosting是不断更新样本权重使得弱学习机不断一步步强化,而Bagging对样本的处理则是使用自助采样法,即有放回抽样,通过这种抽样方法得到若干个样本集如何用在每个基模型上训练,最终输出的结果是每个基模型的简单投票或者简单平均,由于每个基模型之间相互独立,所以也支持并行计算,提高模型训练的时间。

采用这种有放回抽样选取数据,最终通过理论计算会得到有36.8%的数据没有在训练集中出现,这一部分数据也叫袋外数据,最终用于模型的泛化检验。

RF就是Bagging中的一种,每个基模型使用的是CART分类回归树,即:

    RF = Bagging + CART 

普通的决策树一般会选择最好的特征来进行每个节点的分类,而CART则是选择随机的特征来进行分裂,RF模型则可以更好地审视每个特征的重要程度,这一点也可以用作特征筛选。


集成学习的魅力

使用个简单的代码来分别对比单学习器与集成学习之间的精度。

使用DT模型和RF模型来对手写数字图片数据集实现多分类任务,主要是对比两种模型的精度,不做其他性能的比较及模型的优化。

编译器 : jupyter notebook

代码解读:

导入所需要的库

其中第6行代码可以高效且方便读取数据集,第7行代码是魔术命令,相当于省略了plt.show()

读取数据集,并展示其中的一张图片

划分训练数据集和测试数据集

先构建决策树模型,限定最大深度为10,基于信息增益熵的树。

再构建随机森林模型,50个基学习器,每个基学习器限定深度10,用4个线程提高运算效率。

最终结果可以看到随机森林的准确率显著高于决策树。

代码

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。