提升方法之提升树模型

1 什么是提升树(Boosting Decision Tree-BDT)?

提升树模型是以分类树或回归树为基本分类器的提升方法,采用加法模型(即基函数的线性组合)和前向分步算法,对于分类问题的决策树是二叉分类树,对于回归问题的决策树是二叉回归树。

2 什么是加法模型?

提升树可以表示为决策树的加法模型:


image.png

其中,T表示决策树,M为树的个数。

3 什么是前向分步算法?

提升树算法采用前向分步算法。首先确定初始提升树f_0(x)=0,第m步的模型是:


image.png

其中,f_m-1(x)为当前模型,通过经验风险极小化确定下一棵决策树的参数:


image.png

针对不同问题的提升树学习算法,主要区别在于使用的损失函数不同:
  • 回归问题:使用平方误差损失函数
  • 分类问题:指数损失函数
  • 一般决策问题:一般损失函数

4 梯度提升(Gradient Boosting Decision Tree-GBDT)

利用最速下降法的近似方法,关键是利用损失函数的负梯度在当前模型的值:


image.png

作为回归问题提升树算法中的残差的近似值,拟合一个回归树。同时,使用梯度法可以使模型尽快收敛。

5 GBDT的算法过程中,为什么要把对残差的拟合,改进成对负梯度的拟合?

参考:http://aandds.com/blog/ensemble-gbdt.html

提升树(BDT)利用加法模型与前向分步算法实现学习的优化过程,当损失函数是平方损失和指数损失时,每一步的优化都很简单。但对一般损失函数而言,往往每一步优化都不那么容易。针对该问题,提出了梯度提升算法(GBDT),利用最速下降法的近似方法,关键是利用损失函数的负梯度在当前模型的值,作为回归问题提升树算法中的残差的近似值,拟合一个回归树。


image.png

从上表中可以看出平方差损失函数虽然容易计算,但是对异常值太敏感,模型过度拟合异常值,降低了模型整体的泛化能力。
采用Square loss为损失函数时,负梯度和残差相等。不过,当我们采用Absolute loss/Huber loss等其它损失函数时,负梯度只是残差的近似。
为什么不直接使用“残差”,而使用“负梯度”呢(注:也有一些实现直接使用“残差”)?因为使用“负梯度”有时能够减小异常点的影响。

5.1 GBDT的求解过程就是梯度下降在函数空间中的优化过程

1.我们能通过一阶泰勒展开证明负梯度方向是下降最快的方向。对于函数f:

image.png

则优化函数f时:
image.png

2 在GB中,对损失函数展开
image.png


image.png

则在优化L的时候:
image.png

即就是:
image.png

所以需要当前的弱学习器来学习负梯度,这里和GBDT中差了一个μ
3 在1和2中都是随机梯度下降,但不同的是:
1在参数空间中优化,每次迭代得到参数的增量,这个增量就是负梯度乘上学习率
2 在函数空间中优化,每次得到增量函数,这个函数会去拟合负梯度,在GBDT中就是一个个决策树。要得到最终的结果,只需要把初始值或者初始的函数加上每次的增量,所以1的优化过程就是(假设迭代了M次)
4 无论损失函数是什么形式,每个决策树拟合都是负梯度。准确地说,不是用负梯度代替残差,而是当损失函数是平方差损失时,负梯度刚好是残差,残差只是特例

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,907评论 6 506
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,987评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,298评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,586评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,633评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,488评论 1 302
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,275评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,176评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,619评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,819评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,932评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,655评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,265评论 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,871评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,994评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,095评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,884评论 2 354