1. 凸优化
优化方法目标:训练集损失函数值
深度学习目标:测试集损失函数值(泛化性)
1.1 优化在深度学习中的挑战
- 局部最小值
- 鞍点(Hessen阵判断)
- 梯度消失(梯度太小以至于消失)
1.2 凸函数(最优化课讲过)
性质
- 无局部极小值()
- 与凸集的关系(对于凸函数,定义集合,则集合为凸集)
- 二阶条件(是凸函数)
具有限制条件的最优化(详见最优化课本)
2. 梯度下降
沿梯度反方向移动自变量可以减小函数值
其中就是学习率
2.1 多维梯度下降
与一维梯度一样,只不过所有标量变成矢量。
2.2 经典方法
2.2.1 牛顿法
类似的还有共轭梯度法
2.2.2 随机梯度下降
2.2.3 小批量随机梯度下降
3. 优化算法进阶
3.1 Momentum
针对病态问题(~20)会在某些参数方向上学习率过大而另一些参数方向上学习率过小的问题,引入动量算法
使用了动量算法的的:AdaGrad,RMSProp,AdaDelta,Adam