本文目录

1.综述

2.基础分类器组合策略

2.1 平均法

2.2 投票法

2.3 学习法

3.集成学习方法

3.1 Boosting

3.2 Bagging 与 Random Forest

4. 集成学习的魅力

4.1 单学习器与集成学习比较

1.综述

集成学习（ensemble learning），它本身不是一个单独的机器学习算法，而是通过构建并结合多个机器学习器来完成学习任务，也就是我们所说的“博采众长”。

如图，对于训练数据，我们可以训练T个个体学习器，通过某种结合策略，最终形成一个强学习器。有两个关键的问题就是：

1.如何得到若干个学习器

2.如何决定组合策略形成最终学习器

第一个问题

对于学习器的选择，可以是同质的，也可以是异质的，同质是指若干个学习器都是同一种模型，比如全都是svm模型，异质则是指这若干个学习器由两种及以上的模型组成，比如可以是DT，LDA等等。

对于同质与异质中，一般选择同质的学习器，因为异质的学习器在每个模型中训练的时间参差不齐，这对并行运行不利，对数据的输入要求也不一，使用复杂。

对于集成个体的选择有着“好而不同”的原则

如何理解“好而不同”，比如说有一个专家开会，轮流发表意见的时候，如果每一个专家的提的意见都是一致的，那么多个专家的作用和一个专家的作用是一样的，多个专家发表不同的意见，那么才可以有新的提升，正如图2所反映一样。”好而不同“的好（准确性）指模型的精度要高，至少也要略优于随机猜测的学习器，如二分类问题上精度要高于50%，不然会出现图三的情况。不同（多样性）指模型之间要有所差异，可以分为：

1.模型上的不同

用同质的学习器举例，每个模型之间要有所差异，那么模型本身要具备随机性，比如决策树（DT）在进行分裂的时候每次选取的特征都是随机的，可能这棵树70%的准确率，另一颗90%的准确率，还有神经网络（NN），在初始化权重的时候也是一个随机的过程。而比如像SVM，线性模型中，它们有着严格的数学推导，每一步都是确定的，即前一次训练和后一次训练得到的精度都是不变的，所以在集成学习中，一般使用DT和NN来做个体学习器。

2.样本的不同

后面将介绍的boosting和bagging

好而不同本身也是一组trade-off，即准确率很高后，增加多样性就需要牺牲准确率

《机器学习实战》

2.基础分类器组合策略

如何对多个弱分类器进行组合？

（1）平均法

用于回归任务，有简单平均法

加权平均法

（2）投票法

针对分类任务有简单投票法，即少数服从多数，如果在多分类中多个类别票数相同则随机选取其中一个

同样也有加权投票法：

（3）学习法

代表方法：stacking

思想：不是对弱学习器进行简单的逻辑处理，而是再加上一层学习层，第一层用不同算法形成T个弱学习器，同时产生原数据集大小一致的新数据集，在第二层中使用新数据集和新算法构建分类器。

3.集成学习方法

Boosting

Boosting 是一族可将弱学习器提升为强学习器的算法。

它是一种串型的模型，每一个弱的学习机都会对其上一个学习机进行有针对性的强化，上一学习机中对预测错误的样本，在下一个学习机中对错误样本的权重会更高，即更关注预测错误的样本，最终组成的时候保留所有的弱学习机，虽然说每一个弱学习机对上一个都进行了强化，但是我们不是站在上帝视角审视问题，所以事务的真实规律也不知道，所以也要保留前面的所有弱学习器，最后进行一个加权投票或平均得到强学习机模型。

具体流程

1.原始数据集输入

2.给出训练样本的权重（初始时为均匀分布）

3.将改变后的训练集输入弱学习机，弱学习机对每个样本预测

4.对此次的弱学习机给出权重

5.回到2步骤不断迭代，直到某个度量标准为止

6.将弱学习机按照其响应的权重加权组合成强学习机

在上面流程中，第2步和第4步是很模糊的，如何给出训练样本的权重和如何对此次的弱学习机给出权重，针对这两问题AdaBoost就是Boosting的其中一个具体化

如何对此次的弱学习机给出权重（第4步）

以分类任务为例子，Adaboosting中采用的方法就是对于预测错误的样本，给与更大的权重，而对于正确的样本，则

1.首先计算每个弱分类器的分类错误率

$\epsilon_{t} = P_{x-D_{t}}(h_{t}\neq f(x))$ （即精度）

2. 计算弱分类器的权重

$\alpha _{t} = \frac{1}{2} ln(\frac{1- \epsilon_{t}}{\epsilon_{t}})$

如何给出训练样本的权重 （第2步）

$D_{t+1}(x) = D_{t}(x) * exp(-\alpha _{t}f(x)h_{t}(x))$

$h_{t}(x)$ 为弱学习机预测值，取值{-1，+1}

$f(x)$ 为样本真实值，取值{-1，+1}

$D_{t+1}(x) = \frac{D_{t+1}(x) }{\sum\nolimits_{i = 1}^N D_{t+1} (i) }$ （归一化）

最后按照加权投票得到强学习机模型

Bagging 与 Random Forest

Bagging 与 Boosting 不同于对样本的处理，boosting是不断更新样本权重使得弱学习机不断一步步强化，而Bagging对样本的处理则是使用自助采样法，即有放回抽样，通过这种抽样方法得到若干个样本集如何用在每个基模型上训练，最终输出的结果是每个基模型的简单投票或者简单平均，由于每个基模型之间相互独立，所以也支持并行计算，提高模型训练的时间。

采用这种有放回抽样选取数据，最终通过理论计算会得到有36.8%的数据没有在训练集中出现，这一部分数据也叫袋外数据，最终用于模型的泛化检验。

而 RF就是Bagging中的一种，每个基模型使用的是CART分类回归树，即：

RF = Bagging + CART

普通的决策树一般会选择最好的特征来进行每个节点的分类，而CART则是选择随机的特征来进行分裂，RF模型则可以更好地审视每个特征的重要程度，这一点也可以用作特征筛选。