梯度下降原理
直观解释:比如我们在一座大山上的某处位置,由于我们不知道怎么下山,于是决定走一步算一步,也就是在每走到一个位置的时候,求解当前位置的梯度,沿着梯度的负方向,也就是当前最陡峭的位置向下走一步,然后继续求解当前位置梯度,向这一步所在位置沿着最陡峭最易下山的位置走一步。这样一步步的走下去,一直走到觉得我们已经到了山脚。当然这样走下去,有可能我们不能走到山脚,而是到了某一个局部的山峰低处。
从上面的解释可以看出,梯度下降不一定能够找到全局的最优解,有可能是一个局部最优解。当然,如果损失函数是凸函数,梯度下降法得到的解就一定是全局最优解。
梯度法思想的三要素:出发点、下降方向、下降步长。
引入:当我们得到一个目标函数后,如何进行求解?
直接求解?(并不一定可解,线性回归可以当做是一个特例)
常规套路:机器学习的套路就是我交给机器一堆数据,然后告诉它什么样的学习方式是正确的(目标函数),然后让它朝着这个方向去做
如何优化:一口吃不成个胖子,我们要静悄悄的一步一步完成迭代
举个栗子:
目标函数:
目的:寻找山谷的最低点,也就是我们的目标函数终点(什么样的参数能使得目标函数达到极值点)
下山分几步走呢?(更新参数)
(1)找到当前最合适的方向
(2)走那么一小步,求解当前位置梯度
(3)按照方向与步伐去更新我们的参数
梯度下降方法对比
梯度下降,目标函数:
批量梯度下降:
参数θ的每次更新,需要 计算全部数据集的样本的负梯度方向,取均值作为下一次梯度下降的方向。
特点:
计算量大,参数更新慢,对内存的要求很高,不能以在线的形式训练模型,也就是运行时不能加入新样本
理论上讲,可以得到全局最优解,参数更新比较稳定,收敛方向稳定
随机梯度下降:
每次只选择一个样本来求得偏导,进行参数θ的更新。
特点:
运算速度很快,同时能够在线学习
随机梯度下降参数更新的过程震荡很大,目标函数波动剧烈,参数更新方向有很大的波动
其较大的波动可能收敛到比批量梯度下降更小的局部极小值,因为会从一个极小值跳出来
小批量梯度下降法:
该方法集合了批量梯度下降和随机梯度下降两者的优势,每次的参数更新利用一小批数据来完成。
特点:
降低了更新参数的方差,使得收敛过程更加的稳定
能够利用高度优化的矩阵运算,很高效的求得每小批数据的梯度
学习率对结果的影响
学习率(步长):对结果产生巨大的影响,一般要小一些。学习速率的选择,可以尝试0.001、0.01、0.1、1。选择一个最大的学习速率,然后选择一个比它小一点点的学习率,通常能够找到最合适的学习速率来解决我们的问题。
批处理数量:32,64,128都可以,一般还要考虑内存和效率。