"Boosting"的基本思想是通过某种方式使得每一轮基学习器在训练过程中更加关注上一轮学习错误的样本
- 关于AdaBoosting:集成学习之Boosting —— AdaBoost原理
AdaBoost(Adaptive Boost)
AdaBoost的算法过程也就是上述Boosting的过程,AdaBoost采用的是增加上一轮学习错误样本的权重的策略,他是最具代表性的Boosting算法.
关于AdaBoost有两个关键问题:
- 每轮训练过后如何调整样本权重 ω
- 如何确定最后各学习器的权重 α
- 这两个问题可由加法模型和指数损失函数推导出来
为基学习器,为系数,为训练数据集
第m步,我们的目标是最小化一个指定的损失函数,如上图。这是个复杂的全局优化问题,通常我们使用其简化版,即假设在第m次迭代中,前m-1次的系数a和基学习器G(x)都是固定的。
由于ω不依赖于和,可以看做其是第m步训练之前赋予每个样本的权重,每一轮的权重依赖于,每一轮迭代会改变。于是式 (1.3) 变为:
即本样本预测正确,反之预测错误
1. 确定下一轮样本权值 (??这块没看懂怎么推的,晕希望评论里大佬教教我)
可以看到对于,若,则,表明前一轮被正确分类样本的权值会减小;若则表明前一轮误分类样本的权值会增大。2. 确定各基学习器的系数
- 关于AdaBoost更详细的内容参见:集成学习之Boosting —— AdaBoost原理
GB(Gradient Boost)
之前说的AdaBoost中每一轮基学习器训练过后都会更新样本权重,再训练下一个学习器,最后将所有的基学习器加权组合。AdaBoost使用的是指数损失,这个损失函数的缺点是对于异常点非常敏感,因而通常在噪音比较多的数据集上表现不佳。
Gradient Boosting在这方面进行了改进,使得可以使用任何损失函数 (只要损失函数是连续可导的)这样一些比较robust(健壮)的损失函数就能得以应用,使模型抗噪音能力更强。
- 不同于AdaBoost采用的是增加上一轮学习错误样本的权重的策略,在Gradient Boosting中则将负梯度作为上一轮基学习器犯错的衡量指标,在下一轮学习中通过拟合负梯度来纠正上一轮犯的错误。
为什么通过拟合负梯度就能纠正上一轮的错误了?Gradient Boosting的发明者给出的答案是:函数空间的梯度下降。
Gradient Boosting 采用和AdaBoost同样的加法模型,在第m次迭代中,前m-1个基学习器都是固定的,即
因而在第m步我们的目标是最小化损失函数,进而求得相应的基学习器。若将当成参数,则同样可以使用梯度下降法对比式 (1.2)和 (1.3),可以发现若将即用基学习器拟合前一轮模型损失函数的负梯度,就是通过梯度下降法最小化。由于实际为函数,所以该方法被认为是函数空间的梯度下降。
- 负梯度也被称为“响应 (response)”或“伪残差 (pseudo residual)”,从名字可以看出是一个与残差接近的概念。直觉上来看,残差 越大,表明前一轮学习器的结果与真实值相差较大,那么下一轮学习器通过拟合残差或负梯度,就能纠正之前的学习器犯错较大的地方。
GBDT
- GB + 回归树(多用CART) = GBDT
在Gradient Boosting框架中,最常用的基学习器是决策树 (一般是CART),二者结合就成了著名的梯度提升树 (Gradient Boosting Decision Tree, GBDT)算法。注意GBDT不论是用于回归还是分类,其基学习器 (即单颗决策树) 都是回归树,即使是分类问题也是将最后的预测值映射为概率,因为回归树的预测值累加才是有意义的,而GBDT是把所有树的结论累加起来做最终结论的。
- GBDT的核心就在于,每一棵树学的是之前所有树结论和的残差,这个残差就是一个加预测值后能得真实值的累加量。
- 举一个简单的例子,同样使用年龄进行分枝,假设我们A的真实年龄是18岁,但第一棵树的预测年龄是12岁,即残差为6岁。那么在第二棵树里我们把A的年龄设为6岁去学习,如果第二棵树真的能把A分到6岁的叶子节点,那累加两棵树的结论就是A的真实年龄;如果第二棵树的结论是5岁,则A仍然存在1岁的残差,第三棵树里A的年龄就变成1岁……以此类推学习下去,这就是梯度提升Gradient Boosting在GBDT中的直观意义。