参考1
参考2
代价函数(损失函数)(cost function or lost function)
代价函数
其中dj是期望输出,oj是实际输出,
Paste_Image.png
梯度可以理解为导数,在图中左边,导数为负,所以点会朝向E减小的方向移动
梯度下降法有两个缺点
- 学习率过大会导致震荡,学习率过小会收敛缓慢
- 容易陷入局部最优解
参考1
参考2
代价函数(损失函数)(cost function or lost function)
其中dj是期望输出,oj是实际输出,
梯度可以理解为导数,在图中左边,导数为负,所以点会朝向E减小的方向移动
梯度下降法有两个缺点