使用适当的学习率,沿着梯度反方向更新自变量可能降低目标函数值,梯度下降重复这一更新过程直到得到满足要求的解
学习率过大或过小都有问题,一个合适的学习率通常是需要通过多次实验找到的
当训练数据集的样本较多时,梯度下降每次迭代的计算开销较大,因而随机梯度下降通常更受青睐。
一维梯度下降
学习率
梯度下降算法中的正数η通常叫作学习率。这是一个超参数,需要人工设定,如果使用过小的学习率,会导致xx更新缓慢从而需要更多的迭代才能得到较好的解
多维梯度下降
随机梯度下降
使用适当的学习率,沿着梯度反方向更新自变量可能降低目标函数值,梯度下降重复这一更新过程直到得到满足要求的解
学习率过大或过小都有问题,一个合适的学习率通常是需要通过多次实验找到的
当训练数据集的样本较多时,梯度下降每次迭代的计算开销较大,因而随机梯度下降通常更受青睐。
一维梯度下降
学习率
梯度下降算法中的正数η通常叫作学习率。这是一个超参数,需要人工设定,如果使用过小的学习率,会导致xx更新缓慢从而需要更多的迭代才能得到较好的解
多维梯度下降
随机梯度下降