xgboost模型一些问题的论文解读

xgboost是目前效果最优的一款集成模型。那么,xgboost是个啥东西,xgboost的boost思路又是怎么产生的呢。

阅读了paper 《greedy function approximation: A gradient boosting machine》之后,有些模糊的东西有了解答。

question 1. xgboost是啥?

boosting,顾名思义,增长的意思。也就是说,F的计算方法,是每个基分类器的总和,训练的过程,是一步一步建立每个基分类器的过程,这种过程,就可以成为boost。

原文中,Y值的计算方法是这样的:

xgboost定义

从公式可以看出,最终的Y值是由N个基分类器的加权平均。

question2. boost的思想是怎么来的?

boost是一种贪心求最佳参数的方法,也就是说,在第m步,前面一步(m-1)生成的分类器不用优化参数,第m步优化的目标就是最大化gm,也就是最小化负梯度,被定义为最陡下降的目标,是一种直线搜索的方法。这种思路将目标函数简化为每个step中求最小化的负梯度,需要调整的参数量变少了很多。

question3. 总之,最后的loss计算和优化方法是啥?


在公式中,可以看到,h(x,a)是每个基分类器的打分,乘以一个beta权值,最终的predict值是各个基分类器的加权分数。对于boost的优化思想,就是公式(9)中,Fm-1(x) + h(x,a)* beta, 代表第m个基分类器加入后,predict的值。调优的过程,就是找到最优化的beta,和基分类器的a参数值。

question4. 基分类器的数是怎么分裂的?


根据陈天奇的xgboost的论文,loss的表达式还可以展开式泰勒级数的形式,分裂的增益可以写成如上形式,其中,gi是第i个样本在前m次迭代的损失函数一阶导,hi是第i个样本在前m次迭代的损失函数二阶导。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • sklearn、XGBoost、LightGBM的文档阅读小记 文章导航 目录 1.sklearn集成方法 1.1...
    nightwish夜愿阅读 14,383评论 1 49
  • 1.引子 XGBoost在机器学习领域可谓风光无限,作为从学术界来的模范生,帮助工业界解决了许多实际问题,真可...
    散落一地的蓝阅读 9,054评论 1 28
  • 首先需要说一下决策树: 三个主要步骤:特征选择——决策树生成——决策树修剪 ID3和C4.5分类树,CART树即可...
    一百分的微笑瑾宣阅读 10,233评论 0 3
  • 穿上了军装,就背负了使命 哪里有险情,哪里就有你的身影 以血肉之躯,逆火而行 与和平年代的每一场战争狭路相逢 这一...
    洅水伊淓阅读 3,655评论 0 4
  • 给*掌声 有些人一生都没给过别人掌声。 每个人都需要来自他人的掌声; 为他人喝彩是每个人的责任; 不懂鼓掌的人生太...
    迷途中的自我救赎阅读 2,784评论 1 10

友情链接更多精彩内容