xgboost模型一些问题的论文解读

xgboost是目前效果最优的一款集成模型。那么,xgboost是个啥东西,xgboost的boost思路又是怎么产生的呢。

阅读了paper 《greedy function approximation: A gradient boosting machine》之后,有些模糊的东西有了解答。

question 1. xgboost是啥?

boosting,顾名思义,增长的意思。也就是说,F的计算方法,是每个基分类器的总和,训练的过程,是一步一步建立每个基分类器的过程,这种过程,就可以成为boost。

原文中,Y值的计算方法是这样的:

xgboost定义

从公式可以看出,最终的Y值是由N个基分类器的加权平均。

question2. boost的思想是怎么来的?

boost是一种贪心求最佳参数的方法,也就是说,在第m步,前面一步(m-1)生成的分类器不用优化参数,第m步优化的目标就是最大化gm,也就是最小化负梯度,被定义为最陡下降的目标,是一种直线搜索的方法。这种思路将目标函数简化为每个step中求最小化的负梯度,需要调整的参数量变少了很多。

question3. 总之,最后的loss计算和优化方法是啥?


在公式中,可以看到,h(x,a)是每个基分类器的打分,乘以一个beta权值,最终的predict值是各个基分类器的加权分数。对于boost的优化思想,就是公式(9)中,Fm-1(x) + h(x,a)* beta, 代表第m个基分类器加入后,predict的值。调优的过程,就是找到最优化的beta,和基分类器的a参数值。

question4. 基分类器的数是怎么分裂的?


根据陈天奇的xgboost的论文,loss的表达式还可以展开式泰勒级数的形式,分裂的增益可以写成如上形式,其中,gi是第i个样本在前m次迭代的损失函数一阶导,hi是第i个样本在前m次迭代的损失函数二阶导。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,816评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,729评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,300评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,780评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,890评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,084评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,151评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,912评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,355评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,666评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,809评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,504评论 4 334
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,150评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,882评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,121评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,628评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,724评论 2 351

推荐阅读更多精彩内容

  • sklearn、XGBoost、LightGBM的文档阅读小记 文章导航 目录 1.sklearn集成方法 1.1...
    nightwish夜愿阅读 12,616评论 1 49
  • 1.引子 XGBoost在机器学习领域可谓风光无限,作为从学术界来的模范生,帮助工业界解决了许多实际问题,真可...
    散落一地的蓝阅读 3,510评论 1 28
  • 首先需要说一下决策树: 三个主要步骤:特征选择——决策树生成——决策树修剪 ID3和C4.5分类树,CART树即可...
    一百分的微笑瑾宣阅读 4,606评论 0 3
  • 穿上了军装,就背负了使命 哪里有险情,哪里就有你的身影 以血肉之躯,逆火而行 与和平年代的每一场战争狭路相逢 这一...
    洅水伊淓阅读 577评论 0 4
  • 给*掌声 有些人一生都没给过别人掌声。 每个人都需要来自他人的掌声; 为他人喝彩是每个人的责任; 不懂鼓掌的人生太...
    迷途中的自我救赎阅读 348评论 1 10