矛盾 纯粹的优化方法是最小化训练集的损失函数 而我们的目标是测试集损失函数的最小化,也就是可以泛化而不是过拟合 需要避免的几种情况: 局部最小值 鞍点 梯度消失 优化的目标: 凸函数,凸函数没有局部最小值,这样训练得到的就是全局最小值