Gradient descent
gradient就是,对每一个变量求偏微分,然后组成变量
是learning rate,learning rate太大或太小都不行,太大容易跨过去
如何调整learning rate?
adagrad方法:
SGD--随机梯度下降--随机取一个example
SGD是选一个样本点来进行求偏导数
而mini-atch是在所有样本点选取一组一组的点来求偏导数
SGD下降很快,但是并不稳定,但BGD(传统的GD)下降太慢,所以要用mini-batch
如下图所示不断的波动
batch就代表神经网络一次性处理几个样本
神经网络每学习一遍就叫一个epoch
feature scaling--特征缩放
对特征进行标准化处理,避免某一特征对结果的影响太大。要尽量圆圆的