(2021.04.18 Sun)
Gradient Boosting Decision Tree, GBT/GBDT梯度下降树
通过加法模型(基函数的线性组合),以及不断减小训练过程的残差来达到将数据分类或回归的算法。
GBT通过多轮迭代,每轮迭代产生一个分类器,每个分类器在上轮分类器的残差基础上进行训练。最终得到的分类器是每轮得到的分类器做加权求和得到的。
对每轮分类器的要求是足够简单,低方差高偏差。
训练的过程是通过降低偏差,不断降低最终分类器的精度。
特点
- 基于树
- ensemble method
- 可用于分类,也可用于回归
GBT对比Random Forest (RF)
- RF对每棵树的分类结果做结合(取平均或major rules)是在结束阶段;GBT对分类结果边训练边结合。
- RF建立树可以并行操作,每棵树相对独立;GBT每次只建立一棵树,依次执行。
- 有大量噪声信号时,GBT会导致overfitting,且比RF更难于调参(parameter tuning)。在参数调节良好的情况下,GBT的性能比RF更好。
- 适用场景:RF适用于多分类目标检测(multi-class object detection)等有大量统计噪声信号的场景;GBT适用于有非均衡数据的场景(unbalanced data),比如实时风险估计(real time risk assessment)