xgboost tree

前言

Boosted Tree是数据挖掘和机器学习中国最常用的算法那之一。

对于输入数据不敏感 -->是统计学家到数据科学家必备工具之一
计算复杂度不高 --> 也在工业界中有大量应用

Boost额度 Tree起源

GBDT，GBRT（gradient boosted regression tree），MART，LambdaMART也是一种boosted tree的变种。
其中最早的一篇文章是：Friedman写于1999年的文章：Greedy Function Approximation:A Gradient Boosting Machine

有监督学习算法的逻辑组成

回归树介绍

回归树，也叫做分类与回归树，认为就是一个叶子节点具有权重的二叉决策树，它具有以下两个特点：

决策规则与决策树一样
每个叶子节点上都包含了一个权重，也有人叫做分数
回归树有以下四个有点：

使用范围广，像GBM、随机森林等。（竞赛优胜者一半都有用）
对于输入范围不敏感，所以不需要对输入归一化
能学习特征之间更高级别的相互关系
很容易对其扩展

GBDT算法原理

GBDT算法原理与系统设计简介_pdf链接

泰勒公式

泰勒公式是一个用函数在某点信息描述其附近值的公式。（局部有效性）

image.png

梯度下降法（Gradient Descend Method）

求最小化损失函数L，解决一阶泰勒展开式问题

牛顿法（Newton's Method）

解决二阶泰勒公式展开项问题

image.png

目标函数

image.png

square loss：方差
logloss：逻辑回归（对数几率回归）

正则项

image.png

正则项对每课回归树的复杂度进行惩罚

相比原始的GBDT，XGBoost的目标函数多了正则项，使得学习出来的模型更加不容易过拟合。

杂记

bias由训练误差控制
variance由正则项控制

方法=模型+策略+算法

xgboost tree

前言

Boost额度 Tree起源

有监督学习算法的逻辑组成

回归树介绍

GBDT算法原理

泰勒公式

梯度下降法（Gradient Descend Method）

牛顿法（Newton's Method）

目标函数

正则项

杂记

推荐阅读更多精彩内容