AdaBoost & GradientBoost(&GBDT)

"Boosting"的基本思想是通过某种方式使得每一轮基学习器在训练过程中更加关注上一轮学习错误的样本

AdaBoost(Adaptive Boost)

AdaBoost的算法过程也就是上述Boosting的过程,AdaBoost采用的是增加上一轮学习错误样本的权重的策略,他是最具代表性的Boosting算法.

关于AdaBoost有两个关键问题:

  1. 每轮训练过后如何调整样本权重 ω
  2. 如何确定最后各学习器的权重 α
  • 这两个问题可由加法模型和指数损失函数推导出来

G_m(x)为基学习器,a_m为系数,\left\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\right\}为训练数据集

AdaBoost最后得到的强学习器是由一系列的弱学习器的线性组合,此即加法模型
AdaBoosting使用的的指数损失函数

第m步,我们的目标是最小化一个指定的损失函数,如上图。这是个复杂的全局优化问题,通常我们使用其简化版,即假设在第m次迭代中,前m-1次的系数a和基学习器G(x)都是固定的。

这样在第m步我们只需就当前的a_m和Gm(x)最小化损失函数
目标是在指数函数最小的情况下求得a_m和Gm(x)

由于ω不依赖于\alphaG(x),可以看做其是第m步训练之前赋予每个样本的权重,每一轮的权重\omega_i^{(m)}依赖于f_{m-1}(x),每一轮迭代会改变。于是式 (1.3) 变为:


“Ⅱ”表示当括号内条件成立时取值为1,否则为0

y_i=G(x_i)即本样本预测正确,反之预测错误

1. 确定下一轮样本权值\omega_i (??这块没看懂怎么推的,晕希望评论里大佬教教我)

可以看到对于a_m>0,若y_i = G_m(x_i),则\omega_i^{(m+1)}= \omega_i^{(m)}e^{-a_m},表明前一轮被正确分类样本的权值会减小;若y_i \neq G_m(x_i)\omega_i^{(m+1)}= \omega_i^{(m)}e^{a_m}表明前一轮误分类样本的权值会增大。

2. 确定各基学习器的系数\alpha_m

GB(Gradient Boost)

  • 参考:集成学习之Boosting —— Gradient Boosting原理

  • 之前说的AdaBoost中每一轮基学习器训练过后都会更新样本权重,再训练下一个学习器,最后将所有的基学习器加权组合。AdaBoost使用的是指数损失,这个损失函数的缺点是对于异常点非常敏感,因而通常在噪音比较多的数据集上表现不佳。

  • Gradient Boosting在这方面进行了改进,使得可以使用任何损失函数 (只要损失函数是连续可导的)这样一些比较robust(健壮)的损失函数就能得以应用,使模型抗噪音能力更强。

  • 不同于AdaBoost采用的是增加上一轮学习错误样本的权重的策略,在Gradient Boosting中则将负梯度作为上一轮基学习器犯错的衡量指标,在下一轮学习中通过拟合负梯度来纠正上一轮犯的错误
    为什么通过拟合负梯度就能纠正上一轮的错误了?Gradient Boosting的发明者给出的答案是:函数空间的梯度下降。
    梯度下降法参数更新公式

Gradient Boosting 采用和AdaBoost同样的加法模型,在第m次迭代中,前m-1个基学习器都是固定的,即


因而在第m步我们的目标是最小化损失函数,进而求得相应的基学习器。若将f(x)当成参数,则同样可以使用梯度下降法
对比式 (1.2)和 (1.3),可以发现若将
即用基学习器h_m(x)拟合前一轮模型损失函数的负梯度,就是通过梯度下降法最小化L(f)。由于f(x)实际为函数,所以该方法被认为是函数空间的梯度下降。


  • 负梯度也被称为“响应 (response)”或“伪残差 (pseudo residual)”,从名字可以看出是一个与残差接近的概念。直觉上来看,残差r=y-f(x) 越大,表明前一轮学习器f_{m-1}(x)的结果与真实值y相差较大,那么下一轮学习器通过拟合残差或负梯度,就能纠正之前的学习器犯错较大的地方。

GBDT

  • GB + 回归树(多用CART) = GBDT

在Gradient Boosting框架中,最常用的基学习器是决策树 (一般是CART),二者结合就成了著名的梯度提升树 (Gradient Boosting Decision Tree, GBDT)算法。注意GBDT不论是用于回归还是分类,其基学习器 (即单颗决策树) 都是回归树即使是分类问题也是将最后的预测值映射为概率,因为回归树的预测值累加才是有意义的,而GBDT是把所有树的结论累加起来做最终结论的

  • GBDT的核心就在于,每一棵树学的是之前所有树结论和的残差,这个残差就是一个加预测值后能得真实值的累加量。
  • 举一个简单的例子,同样使用年龄进行分枝,假设我们A的真实年龄是18岁,但第一棵树的预测年龄是12岁,即残差为6岁。那么在第二棵树里我们把A的年龄设为6岁去学习,如果第二棵树真的能把A分到6岁的叶子节点,那累加两棵树的结论就是A的真实年龄;如果第二棵树的结论是5岁,则A仍然存在1岁的残差,第三棵树里A的年龄就变成1岁……以此类推学习下去,这就是梯度提升Gradient Boosting在GBDT中的直观意义。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,332评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,508评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,812评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,607评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,728评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,919评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,071评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,802评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,256评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,576评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,712评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,389评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,032评论 3 316
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,798评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,026评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,473评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,606评论 2 350