尽管优化方法可以最小化深度学习中的损失函数值,但本质上优化方法达到的目标与深度学习的目标并不相同
优化方法目标:训练集损失函数值
深度学习目标:测试集损失函数值(泛化性)
优化在深度学习中的挑战
局部最小值
鞍假设一个函数的输入为kk维向量,输出为标量,那么它的海森矩阵(Hessian matrix)有k个特征值,该函数在梯度为0的位置上可能是局部最小值、局部最大值或者鞍点
当函数的海森矩阵在梯度为零的位置上的特征值全为正时,该函数得到局部最小值
当函数的海森矩阵在梯度为零的位置上的特征值全为负时,该函数得到局部最大值
当函数的海森矩阵在梯度为零的位置上的特征值有正有负时,该函数得到鞍点
梯度消失
凸性
无局部极小值
与凸集的关系
二阶条件