1 决策树分类:
屏幕快照 2018-06-03 10.37.15.png
2 GBDT(Gradient Boosting Decision Tree | 梯度提升决策树) 概念:
2.1 残差:
在数理统计中是指实际观察值与估计值
2.2 泛化关系:
是类元的一般描述和具体描述之间的关系,
具体描述建立在一般描述的基础之上,并对其进行了扩展。
2.3 Boosting:
1 思想:
对于一个复杂任务来说,将多个专家的判断进行适当的综合所得出的判断,要比其中任何一个专家单独的判断要好。
通俗地说,就是"三个臭皮匠顶个诸葛亮"的道理。
2 概念:
是一族可将弱学习器提升为强学习器的算法,属于集成学习(ensemble learning)的范畴。
基于梯度提升算法的学习器叫做 GBM(Gradient Boosting Machine),GBDT属于GBM的一种情况。
3 GB和DT结合原因:
决策树算法相比于其他的算法需要更少的特征工程,比如可以不用做特征标准化,可以很好的处理字段缺失的数据,也可以不用关心特征间是否相互依赖等。
决策树能够自动组合多个特征。
单独使用决策树会出现过拟合的缺点,而使用梯度提升的方法集成多个决策树,能够很好解决过拟合的问题。
2.4 监督学习基础知识
监督学习关键概念:
模型(model)、参数(parameters)、目标函数(objective function)。
模型:
模型就是所要学习的条件概率分布或者决策函数,它决定了在给定特征向量时如何预测出目标。
参数:
参数就是我们要从数据中学习得到的内容。
目标函数:
Obj(--) = L(--)+Ω(--)
L 是损失函数,用来衡量模型拟合训练数据的好坏程度;
Ω 称之为正则项,用来衡量学习到的模型的复杂度。
参考: