xgboost tree

前言

Boosted Tree是数据挖掘和机器学习中国最常用的算法那之一。

  • 对于输入数据不敏感 -->是统计学家到数据科学家必备工具之一
  • 计算复杂度不高 --> 也在工业界中有大量应用

Boost额度 Tree起源

GBDT,GBRT(gradient boosted regression tree),MART,LambdaMART也是一种boosted tree的变种。
其中最早的一篇文章是:Friedman写于1999年的文章:Greedy Function Approximation:A Gradient Boosting Machine

有监督学习算法的逻辑组成

回归树介绍

回归树,也叫做分类与回归树,认为就是一个叶子节点具有权重的二叉决策树,它具有以下两个特点:

  • 决策规则与决策树一样
  • 每个叶子节点上都包含了一个权重,也有人叫做分数
    回归树有以下四个有点:
  1. 使用范围广,像GBM、随机森林等。(竞赛优胜者一半都有用)
  2. 对于输入范围不敏感,所以不需要对输入归一化
  3. 能学习特征之间更高级别的相互关系
  4. 很容易对其扩展

GBDT算法原理

GBDT算法原理与系统设计简介_pdf链接

泰勒公式

泰勒公式是一个用函数在某点信息描述其附近值的公式。(局部有效性)

image.png
梯度下降法(Gradient Descend Method)

求最小化损失函数L,解决一阶泰勒展开式问题

牛顿法(Newton's Method)

解决二阶泰勒公式展开项问题


image.png
image.png
目标函数
image.png

square loss:方差
logloss:逻辑回归(对数几率回归)

正则项
image.png

正则项对每课回归树的复杂度进行惩罚

相比原始的GBDT,XGBoost的目标函数多了正则项,使得学习出来的模型更加不容易过拟合。

杂记

bias由训练误差控制
variance由正则项控制

方法=模型+策略+算法

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容