一、总体概况分为以下五种
(1)批次梯度下降Batch Gradient Descent:
在批量梯度下降中,相对于整个训练数据集的权重计算损失函数的梯度,并且在每次迭代之后更新权重。这提供了对渐变的更准确的估计,但对于大数据集,它的计算代价可能很高。
(2)随机梯度下降Stochastic Gradient Descent:
在SGD中,相对于单个训练样本计算损失函数的梯度,并且在每个样本之后更新权重。与批处理梯度下降算法相比,SGD算法每次迭代的计算量较小,但稳定性较差,可能不会收敛到最优解。
随机”一词指的是与随机概率相联系的系统或过程。因此,在随机梯度下降中,每次迭代都随机选择几个样本,而不是整个数据集。在梯度下降中,有一个术语称为“批次”,它表示用于计算每次迭代的梯度的数据集的样本总数。在典型的梯度下降优化中,像批次梯度下降一样,将批次视为整个数据集。虽然使用整个数据集对于以较少的噪音和较少的随机方式到达最小值非常有用,但当我们的数据集变大时,问题就会出现。假设您的数据集中有一百万个样本,所以如果您使用典型的渐变下降优化技术,在执行梯度下降时,您将不得不使用所有一百万个样本来完成一次迭代,并且必须在每次迭代中都这样做,直到达到最小值。因此,它在计算上变得非常昂贵。这个问题通过随机梯度下降来解决。在SGD中,它只使用单个样本,即批大小为1的样本来执行每次迭代。样本被随机洗牌并被选择用于执行迭代。
(3)小批量梯度下降Mini-Batch Gradient Descent:
小批量梯度下降法是一种介于批量梯度下降和SGD之间的折衷算法。相对于随机选择的训练样本子集(称为小批次)计算损失函数的梯度,并且在每个小批次之后更新权重。小批量梯度下降算法在批量梯度下降的稳定性和SGD算法的计算效率之间取得了平衡。
(4)动量下降Momentum Gradient Descent:
动量是梯度下降的一种变体,它结合了来自先前权重更新的信息,以帮助算法更快地收敛到最优解。动量向权重更新添加一个项,该项与过去梯度的运行平均值成比例,从而允许算法更快地朝着最优解的方向移动。
(5)自适应梯度下降算法Adaptive Gradient Descent:
自适应梯度下降算法是一种基于梯度信息的自适应优化算法,它通过调整学习率来适应不同的梯度情况,从而加速收敛。自适应梯度下降算法的优点是可以自动调节学习率,适应不同的梯度情况,但缺点是可能会导致过度调整,使模型参数跳过最优点。