mini-batch size = m则为批梯度下降 进行梯度下降时处理全部的训练样本,如果训练样本的数据量很大,则,进行一次梯度下降要耗费很长时间
size=1 即为随机梯度下降 随机梯度下降每次只处理训练样本中的一个训练数据 往往只是朝着局部最优的方向下降,噪声比较大,随机梯度下降不会收敛到全局的最小值只会朝着最小值方向不断下降,失去了所有由向量化而带来的优势
使用指数加权平均办法 类似于递归公示形式,通过赋予权重系数 实现求得前50天平均值的效果 比真正把前50天数据load到内存加以平均的算法好在可以节约存储数据的内存。
普通的梯度下降不能使用太大的学习率,因为普通梯度下降算法在垂直方向有波动,如果学习率太大会造成该方向波动较大,不利于收敛到最小值。动量梯度下降解决的问题是 针对碗形函数执行梯度下降算法时,需要在直接下降到最小值方向的有较大下降而其垂直方向有较小波动。使用的方法是,进行加权平均,因为对于垂直方向加权平均的结果是接近于0正好抵消掉,对于直接下降到最小值的方向,正好累加使得下降加快。