重温了下论文《Adam: A Method for Stochastic Optimization》,结合李沐的系列课程,有了新的一些理解
几种常见的optimization method
RMSProp 处理在线和非平稳数据
AdaGrad 处理稀疏梯度
adam原理简介
论文推荐的参数设定:
alpha=0.001、beta1=0.9、beta2=0.999 和 epsilon=10E−8
adam(adam moment estimation) 通过计算梯度的一阶矩和二阶矩来计算不同参数各自的自适应learning rate。
收敛性证明
暂未深入研究
实验部分
论文在lr,全连接网络,深度卷积网络上进行了实验
1)lr model。学习率衰减同样适用于adam算法。论文中采用了。AdaGrad擅长学习稀疏feature和稀疏梯度。学习率衰减的adam算法在imdb数据集(Bow feature)上,可以取得和AdaGrad一样的效果。
2)全连接网络。和SFO优化算法相比,在收敛性和时间上,adam算法都更好。和其他随机一阶算法比较,adam算法同样更好
3)卷积神经网络。CNN时,通常更小的学习率被设定。梯度的二阶估计很快衰减成0,可以看到二阶估计在cnn的cost function上表现较差,因此AdaGrad算法表现较差。
- VAE网络。当 逼近于1时,如果不适用bias correlection,在训练过程中不稳定。最好的训练结果,由 ,同时使用bias correlection时取得