监督学习基本元素
- 模型
- 参数
-
目标函数 = 损失函数+正则化项:优化损失函数为了拟合预测模型,而正则项负责简化模型,提高模型的泛化能力
Snipaste_2018-08-10_18-38-25.png
Snipaste_2018-08-10_18-37-53.png
将模型、参数和目标函数等概念分开可以带来工程化的优势。主要是为了说明提升树可以使用这种方式实现。
集合树的目标和模型如下:
Snipaste_2018-08-10_18-45-38.png
启发式vs目标函数
启发式的方式并没有合适的固定的方式,而是通过定义一系列的限制而实现,对比如下:Snipaste_2018-08-10_18-47-43.png
通过定义不同的优化目标而决定是用于分类、回归、排序等,可以使用最小均方差做回归,logistic函数用于分类。
提升树学习方式
因为是树的方式,而不仅仅是数字矩阵,所以不能使用随机梯度下降的方法求解目标函数,但是可以使用加法模型进行训练
Snipaste_2018-08-10_18-55-48.png
Snipaste_2018-08-10_18-58-18.png
使用Taylor公式展开可以近似损失函数,从而得到更加方便求解的模型,其中g和h是对前一个树损失函数的一阶导数和二阶导数,所以在计算本次迭代的树之前就需要计算出来
Snipaste_2018-08-10_19-07-14.png
通过去除常量简化之后可以得到更加直观的形式:
Snipaste_2018-08-10_19-11-06.png
通过重新定义树可以使用公式化的形式,方便后续的计算。
Snipaste_2018-08-10_19-16-37.png
Snipaste_2018-08-10_19-16-55.png
Snipaste_2018-08-10_19-19-18.png
Snipaste_2018-08-10_19-22-03.png
Snipaste_2018-08-10_19-25-01.png
Snipaste_2018-08-10_19-28-54.png
Snipaste_2018-08-10_19-32-04.png
Snipaste_2018-08-10_19-33-45.png
Snipaste_2018-08-10_19-38-15.png
Snipaste_2018-08-10_19-40-05.png
Snipaste_2018-08-10_19-41-16.png
Snipaste_2018-08-10_19-43-13.png