本文目录
1.综述
2.基础分类器组合策略
2.1 平均法
2.2 投票法
2.3 学习法
3.集成学习方法
3.1 Boosting
3.2 Bagging 与 Random Forest
4. 集成学习的魅力
4.1 单学习器与集成学习比较
1.综述
集成学习(ensemble learning),它本身不是一个单独的机器学习算法,而是通过构建并结合多个机器学习器来完成学习任务,也就是我们所说的“博采众长”。
如图,对于训练数据,我们可以训练T个个体学习器,通过某种结合策略,最终形成一个强学习器。有两个关键的问题就是:
1.如何得到若干个学习器
2.如何决定组合策略形成最终学习器
第一个问题
对于学习器的选择,可以是同质的,也可以是异质的,同质是指若干个学习器都是同一种模型,比如全都是svm模型,异质则是指这若干个学习器由两种及以上的模型组成,比如可以是DT,LDA等等。
对于同质与异质中,一般选择同质的学习器,因为异质的学习器在每个模型中训练的时间参差不齐,这对并行运行不利,对数据的输入要求也不一,使用复杂。
对于集成个体的选择有着“好而不同”的原则
如何理解“好而不同”,比如说有一个专家开会,轮流发表意见的时候,如果每一个专家的提的意见都是一致的,那么多个专家的作用和一个专家的作用是一样的,多个专家发表不同的意见,那么才可以有新的提升,正如图2所反映一样。”好而不同“的好(准确性)指模型的精度要高,至少也要略优于随机猜测的学习器,如二分类问题上精度要高于50%,不然会出现图三的情况。不同(多样性)指模型之间要有所差异,可以分为:
1.模型上的不同
用同质的学习器举例,每个模型之间要有所差异,那么模型本身要具备随机性,比如决策树(DT)在进行分裂的时候每次选取的特征都是随机的,可能这棵树70%的准确率,另一颗90%的准确率,还有神经网络(NN),在初始化权重的时候也是一个随机的过程。而比如像SVM,线性模型中,它们有着严格的数学推导,每一步都是确定的,即前一次训练和后一次训练得到的精度都是不变的,所以在集成学习中,一般使用DT和NN来做个体学习器。
2.样本的不同
后面将介绍的boosting和bagging
好而不同本身也是一组trade-off,即准确率很高后,增加多样性就需要牺牲准确率
2.基础分类器组合策略
如何对多个弱分类器进行组合?
(1)平均法
用于回归任务,有简单平均法
加权平均法
(2)投票法
针对分类任务有简单投票法,即少数服从多数,如果在多分类中多个类别票数相同则随机选取其中一个
同样也有加权投票法:
(3)学习法
代表方法:stacking
思想:不是对弱学习器进行简单的逻辑处理,而是再加上一层学习层,第一层用不同算法形成T个弱学习器,同时产生原数据集大小一致的新数据集,在第二层中使用新数据集和新算法构建分类器。
3.集成学习方法
Boosting
Boosting 是一族可将弱学习器提升为强学习器的算法。
它是一种串型的模型,每一个弱的学习机都会对其上一个学习机进行有针对性的强化,上一学习机中对预测错误的样本,在下一个学习机中对错误样本的权重会更高,即更关注预测错误的样本,最终组成的时候保留所有的弱学习机,虽然说每一个弱学习机对上一个都进行了强化,但是我们不是站在上帝视角审视问题,所以事务的真实规律也不知道,所以也要保留前面的所有弱学习器,最后进行一个加权投票或平均得到强学习机模型。
具体流程
1.原始数据集输入
2.给出训练样本的权重(初始时为均匀分布)
3.将改变后的训练集输入弱学习机,弱学习机对每个样本预测
4.对此次的弱学习机给出权重
5.回到2步骤不断迭代,直到某个度量标准为止
6.将弱学习机按照其响应的权重加权组合成强学习机
在上面流程中,第2步和第4步是很模糊的,如何给出训练样本的权重和如何对此次的弱学习机给出权重,针对这两问题AdaBoost就是Boosting的其中一个具体化
如何对此次的弱学习机给出权重(第4步)
以分类任务为例子,Adaboosting中采用的方法就是对于预测错误的样本,给与更大的权重,而对于正确的样本,则
1.首先计算每个弱分类器的分类错误率
(即精度)
2. 计算弱分类器的权重
如何给出训练样本的权重 (第2步)
为弱学习机预测值,取值{-1,+1}
为样本真实值,取值{-1,+1}
(归一化)
最后按照加权投票得到强学习机模型
Bagging 与 Random Forest
Bagging 与 Boosting 不同于对样本的处理,boosting是不断更新样本权重使得弱学习机不断一步步强化,而Bagging对样本的处理则是使用自助采样法,即有放回抽样,通过这种抽样方法得到若干个样本集如何用在每个基模型上训练,最终输出的结果是每个基模型的简单投票或者简单平均,由于每个基模型之间相互独立,所以也支持并行计算,提高模型训练的时间。
采用这种有放回抽样选取数据,最终通过理论计算会得到有36.8%的数据没有在训练集中出现,这一部分数据也叫袋外数据,最终用于模型的泛化检验。
而 RF就是Bagging中的一种,每个基模型使用的是CART分类回归树,即:
RF = Bagging + CART
普通的决策树一般会选择最好的特征来进行每个节点的分类,而CART则是选择随机的特征来进行分裂,RF模型则可以更好地审视每个特征的重要程度,这一点也可以用作特征筛选。
集成学习的魅力
使用个简单的代码来分别对比单学习器与集成学习之间的精度。
使用DT模型和RF模型来对手写数字图片数据集实现多分类任务,主要是对比两种模型的精度,不做其他性能的比较及模型的优化。
编译器 : jupyter notebook
代码解读:
导入所需要的库
其中第6行代码可以高效且方便读取数据集,第7行代码是魔术命令,相当于省略了plt.show()
读取数据集,并展示其中的一张图片
划分训练数据集和测试数据集
先构建决策树模型,限定最大深度为10,基于信息增益熵的树。
再构建随机森林模型,50个基学习器,每个基学习器限定深度10,用4个线程提高运算效率。
最终结果可以看到随机森林的准确率显著高于决策树。