登录注册写文章

XGBOOST技术解读

XGBOOST技术解读

前言：本文主要介绍以XGBOOST为代表的gradient tree boosting这类机器学习技术的思想。XGBOOST这篇论文的方法也是在gradient tree boosting的技术上改进而来的，主要在许多工程细节上进行了改进，使得XGBOOST在实际应用中有很好的效果。但本文不对这些细节问题进行介绍。

论文背景

Introduction最后一段描述到：

While there are some existing works on parallel tree boosting, the directions such as out-of-core computation, cache-aware learning have not been explored.

论文所作贡献

本篇论文在gradient tree boosting方法的基础上做出了以下几点改进：

image.png

加入正则后的gradient boosting方法

关于gradient boosting的核心思想，维基百科里解释的意思很清楚：

image.png

image.png

image.png

结合实际情况去考虑，boosting的思想是想使用许多较弱的预测模型去集成一个较强的预测模型，与bagging通过投票决定结果不同的是，boosting是通过逐步添加较弱模型拟合残差来得到最终结果：假如已有六棵树相加的结果给出了预测结果，那么这六棵树得出的结果与真实值的结果的差就是要添加的第七棵树的拟合目标。因此cost function是不断变化的。公式（2）就转变为下一个公式：

image.png

image.png

如何将树表示及树的预测结果表示出来呢？通过一些具体地定义：

image.png

现在，确定了cost function，就可以通过计算的极值最终将cost function化简为：

image.png

以上，通过在每一个阶段选择最能拟合残差的树的思想和贪心算法内核一致，还有一个地方也使用了贪心算法的思想。那就是在每一棵树的构建过程中，见下方公式：

image.png

这里的思想和决策树中使用的熵的思想一致，只不过这里不是熵，而是cost function。

本文遗留问题：

1、Abstract 里说：

we describe a scalable end-to-end tree boosting system called XGBoost.
这里的scalable和end-to-end的含义还是不太了解。

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

XGBoost: 你不能不知的机器学习算法
XGBoost作为一个非常常用的算法，我觉得很有必要了解一下它的来龙去脉，于是抽空找了一些资料，主要包括陈天奇大佬...
SamLam阅读 4,712评论 0赞 0
机器学习时代三大神器GBDT、XGBoost、LightGBM
本文主要简要的比较了常用的boosting算法的一些区别，从AdaBoost到LightGBM,包括AdaBoos...
南宫萧言阅读 5,307评论 0赞 5
从决策树到XGBoost
1.引子 XGBoost在机器学习领域可谓风光无限，作为从学术界来的模范生，帮助工业界解决了许多实际问题，真可...
散落一地的蓝阅读 8,944评论 1赞 28
GBDT入门教程之原理、所解决的问题、应用场景讲解
来源:GBDT入门教程之原理、所解决的问题、应用场景讲解2017-04-23 机器学习算法与Python学习GBD...
SUNFC阅读 8,649评论 0赞 36
碎屑——寻找我的火星同伴
工作遇到不开心，跟蟹宝宝抱怨。他开导说做事认真点没有错。然后就聊到了一些不太美好的风气，我于是有了更多抱怨，这个社...
HXH阅读 1,014评论 0赞 0

赞1赞

赞赏

手机看全文