最速下降法推导过程
1. 一阶泰勒展开近似
在 处做一阶泰勒展开近似:
其中:
-
是
在
处的 梯度向量
问题转化为:
除去无关项:
2. 求下降方向
是两个向量的内积,根据 柯西不等式,当两个向量方向相反时,其内积最小。因此得:
最速下降法优点
- 相比牛顿法时间复杂度低,只计算梯度向量,不用计算海森矩阵
最速下降法缺点
- 有时下降路径会呈Z字形,收敛速度比牛顿法慢
牛顿法推导过程
1. 二阶泰勒展开近似
在 处二阶泰勒展开:
得近似表达:
其中:
-
为函数
在
处的 梯度向量
-
为函数
在
处的 海森矩阵
2. 求极值
令:
问题转换为求一个 使
最小:
将问题转化为导数=0:
得:
牛顿法优点
- 收敛速度比最速下降法快
牛顿法缺点
- 需要目标函数
具备一阶、二阶导数。
- 需要
的海森矩阵为正定矩阵,当海森矩阵为正定矩阵时,最小值才存在。牛顿法经常会因为海森矩阵不正定而发散。
- 求海森矩阵的计算难度大
- 求海森矩阵的逆的计算难度大