偏导、方向导数和梯度
(1)偏导:函数在坐标轴方向上的变化率(一维方向)
设函数在点的邻域内有定义,当时,可以看作是关于的一元函数,若该一元函数在处可导,即有
函数的极限存在,那么称为函数在点处关于自变量的偏导数
(2)方向导数: 函数在某点沿某个特定方向的变化率
(3)梯度:函数在该点沿所有方向变化率最大的那个方向(最大的方向导数)
几种梯度下降方法
(1)梯度下降(BGD):梯度下降使用整个训练数据集来计算梯度,因此有时被称为批量梯度下降(batch gradient descent)
(2)随机梯度下降(SBGD):在每次迭代中只随机采样一个样本来计算梯度(Stochastic Gradient Descent)
(3)小批量随机梯度下降(MSGD):在每次迭代中随机均匀采样多个样本来组成一个小批量,使用当前小批量来计算梯度
梯度下降和随机梯度下降
指数加权平均(几个优化算法的基础)
- 指数加权平均的关键等式
对应图中红色的线(近十天的平均气温),对应图中绿色的线(近50天的平均气温),的值越大,得到的曲线会更平滑(因为对更多天数的温度做了平均处理)
- 指数滑动平均的具体使用
- 偏差修正(更精确的计算平均值)
针对上一部分中的公式,滑动平均曲线的初始起点很低(;使得等式右边第一项为),因此在估计运算初期我们需要一种更好的方法去进行估计:
用代替