前言
Boosted Tree是数据挖掘和机器学习中国最常用的算法那之一。
- 对于输入数据不敏感 -->是统计学家到数据科学家必备工具之一
- 计算复杂度不高 --> 也在工业界中有大量应用
Boost额度 Tree起源
GBDT,GBRT(gradient boosted regression tree),MART,LambdaMART也是一种boosted tree的变种。
其中最早的一篇文章是:Friedman写于1999年的文章:Greedy Function Approximation:A Gradient Boosting Machine
有监督学习算法的逻辑组成
回归树介绍
回归树,也叫做分类与回归树,认为就是一个叶子节点具有权重的二叉决策树,它具有以下两个特点:
- 决策规则与决策树一样
- 每个叶子节点上都包含了一个权重,也有人叫做分数
回归树有以下四个有点:
- 使用范围广,像GBM、随机森林等。(竞赛优胜者一半都有用)
- 对于输入范围不敏感,所以不需要对输入归一化
- 能学习特征之间更高级别的相互关系
- 很容易对其扩展
GBDT算法原理
泰勒公式
泰勒公式是一个用函数在某点信息描述其附近值的公式。(局部有效性)
梯度下降法(Gradient Descend Method)
求最小化损失函数L,解决一阶泰勒展开式问题
牛顿法(Newton's Method)
解决二阶泰勒公式展开项问题
目标函数
square loss:方差
logloss:逻辑回归(对数几率回归)
正则项
正则项对每课回归树的复杂度进行惩罚
相比原始的GBDT,XGBoost的目标函数多了正则项,使得学习出来的模型更加不容易过拟合。
杂记
bias由训练误差控制
variance由正则项控制
方法=模型+策略+算法