XgBoost算法

一、XgBoost算法简介

        在数据建模中,经常采用Boosting方法通过将成百上千个分类准确率较低的树模型组合起来,成为一个准确率很高的预测模型。这个模型会不断地迭代,每次迭代就生成一颗新的树。但在数据集较复杂的时候,可能需要几千次迭代运算,这将造成巨大的计算瓶颈。

        针对这个问题。华盛顿大学的陈天奇博士开发的XGBoost(eXtreme Gradient Boosting)基于C++通过多线程实现了回归树的并行构建,并在原有梯度提升树(Gradient Boosting)算法基础上加以改进,从而极大地提升了模型训练速度和预测精度。

        xgboost是大规模并行boosted tree的工具,它是目前最快最好的开源boosted tree工具包,比常见的工具包快10倍以上,效率很高。在数据科学方面,有大量kaggle选手选用它进行数据挖掘比赛,其中包括两个以上kaggle比赛的夺冠方案。在工业界规模方面,xgboost的分布式版本有广泛的可移植性,支持在YARN, MPI, Sungrid Engine等各个平台上面运行,并且保留了单机并行版本的各种优化,使得它可以很好地解决于工业界规模的问题。

二、监督学习三要素

        因为Boosting Tree本身是一种有监督学习算法,要讲Boosting Tree,先从监督学习讲起。在监督学习中有几个逻辑上的重要组成部件,粗略地可以分为:模型、参数、目标函数和优化算法。

1、模型   

2、参数

3、目标函数:误差函数+正则化项

4、优化算法

三、回归树与树集成

1、回归树模型(regression tree)

        Boosting Tree最基本的组成部分叫做回归树(regression tree),下图就是一个CART的例子。CART会把输入根据输入的属性分配到各个叶子节点,而每个叶子节点上面都会对应一个实数分数。下图预测一个人是否会喜欢电脑游戏的 CART,你可以把叶子的分数理解为有多可能这个人喜欢电脑游戏(分值越大可能性越大)。

2、树集成

         上图中的回归树往往过于简单无法有效地预测,因此一个更加强力的模型叫做tree ensemble。

        在下图中使用两个回归树对用户是否喜欢电脑游戏进行了预测,并将两个回归树的预测结果加和得到单个用户的预测结果。在实际的预测模型建立过程中,我们通过不断地增加新的回归树,并给每个回归树赋予合适的权重,在此基础上综合不同的回归树得分获得更为准确的预测结果,这也就是树集成的基本思路。在预测算法中,随机森林和提升树都采用了树集成的方法,但是在具体地模型构造和参数调整的方法有所差别。

        在这个树集成模型中,我们可以认为参数对应了树的结构,以及每个叶子节点上面的预测分数。

        那么我们如何来学习这些参数。在这一部分,答案可能千奇百怪,但是最标准的答案始终是一个:定义合理的目标函数,然后去尝试优化这个目标函数。决策树学习往往充满了启发式算法,如先优化基尼系数,然后再剪枝,限制最大深度等等。其实这些启发式算法背后往往隐含了一个目标函数,而理解目标函数本身也有利于我们设计学习算法。

四、XGBoost的推导过程

         对于tree ensemble,我们可以比较严格的把我们的模型写成下图的表示, 其中每个 f 是一个在函数空间(F)里面的函数,而F对应了所有regression tree的集合。

1、XGBoost的目标函数与泰勒展开

        XGBoost的目标函数为:

        第一部分是训练损失,如上面所述的平方损失或者Logistic Loss等,第二部分是每棵树的复杂度的和。因为现在我们的参数可以认为是在一个函数空间里面,我们不能采用传统的如SGD之类的算法来学习我们的模型,因此我们会采用一种叫做additive training的方式。即每次迭代生成一棵新的回归树,从而使预测值不断逼近真实值(即进一步最小化目标函数)。每一次保留原来的模型不变,加入一个新的函数 f 到模型里面:

        这里自然就涉及一个问题:如何选择在每一轮中加入的 f(xi) 呢?答案很直接,选取的 f(xi) 必须使得我们的目标函数尽量最大地降低(这里应用到了Boosting的基本思想,即当前的基学习器重点关注以前所有学习器犯错误的那些数据样本,以此来达到提升的效果)。先对目标函数进行改写,表示如下:

        如果我们考虑平方误差作为损失函数,公式可改写为:

        更加一般的,对于不是平方误差的情况,我们可以采用如下的泰勒展开近似来定义一个近似的目标函数,方便我们进行下一步的计算。

        如果移除掉常数项,我们会发现这个目标函数有一个非常明显的特点,它只依赖于每个数据点的在误差函数上的一阶导数和二阶导数。可能有人会问,这个方式似乎比我们之前学过的决策树学习难懂。为什么要花这么多力气来做推导呢?

        这是因为,这样做首先有理论上的好处,它会使我们可以很清楚地理解整个目标是什么,并且一步一步推导出如何进行树的学习。然后这一个抽象的形式对于工程商实现机器学习工具也是非常有帮助的。因为它包含所有可以求到的目标函数,也就是说有了这个形式,我们写出来的代码可以用来求解包括回归、分类和排序的各种问题,正式的推导可以使得机器学习的工具更加一般化。

2、决策树的复杂度

        我们先对于 f 的定义做一下细化,把树拆分成结构部分 q 和叶子权重部分 w 。其中结构部分 q 把输入映射到叶子的索引号上面去,而 w 给定了每个索引号对应的叶子分数是什么。

3、目标函数的最小化

该函数对变量 Wj 求导并令其等于0,即得到Wj*的表达式

4、寻找最优结构树的分割点

(1)贪心法

        在前面分析的基础上,当寻找最优的树结构时,我们可以不断地枚举不同树的结构,利用这个打分函数来寻找一个最优结构的树,加入到我们的模型中,然后再重复这样的操作。不过枚举所有树结构这个操作不太可行,在这里XGBoost采用了常用的贪心法,即每一次尝试去对已有的叶子加入一个分割。为了提高效率,算法必须先对特征的值进行一个排序,然后进行贪心遍历。对于一个具体的分割方案,我们可以获得的增益可以由如下公式计算得到:

(2)近似分割法

        树节点在进行分裂时,我们需要计算每个特征的每个分割点对应的增益,即用贪心法枚举所有可能的分割点。当数据无法一次载入内存或者在分布式情况下,贪心算法效率就会变得很低,所以xgboost还提出了一种可并行的近似算法,用于高效地生成候选的分割点。大致的思想是根据百分位法列举几个可能成为分割点的候选者,然后从候选者中根据上面求分割点的公式计算找出最佳的分割点。(对于每个特征,只考察分位点,减少计算复杂度)

近似算法举例:三分位数

        实际上XGBoost不是简单地按照样本个数进行分位,而是以二阶导数值 hi 作为权重(Weighted Quantile Sketch),比如:

为什么用hi加权?

        我们要均分的是loss,而不是样本的数量,而每个样本对loss的贡献可能是不一样的,按样本均分会导致loss分布不均匀,取到的分位点会有偏差

把目标函数整理成这种形式,可以看出 hi 有对loss加权的作用

补充:分位点和权重分位点差别

分位点:基于特征大小排序,然后根据特征值划分(均分)

权重分位点:基于特征大小排序,然后根据二阶导划分(均分)

五、Xgboost调参

        1、GridSearch

        2、Hyperopt

        3、XGBoost中参数调整的完整指南(包含Python中的代码)

六、Xgboost与传统gbdt有何不同

xgboost代价函数里加入正则项,是否优于cart的剪枝”?

参考文章:介绍xgboost原理的好文(慕课手记)

                  xgboost相比传统gbdt有何不同  (知乎:wepon)        

                    XGBoost原理简介(看完上面的推导再看这个,一定要看,梳理一遍)

                    机器学习算法系列(8):XgBoost

                    xgboost入门与实战(原理篇)

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,928评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,192评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,468评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,186评论 1 286
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,295评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,374评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,403评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,186评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,610评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,906评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,075评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,755评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,393评论 3 320
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,079评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,313评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,934评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,963评论 2 351

推荐阅读更多精彩内容