优化问题可选解:
深度学习最全优化方法总结比较(SGD,Adagrad,Adadelta,Adam,Adamax,Nadam)
Adam那么棒,为什么还对SGD念念不忘 (1) —— 一个框架看懂优化算法
An overview of gradient descent optimization algorithms
这其中有部分重复,实际上1,2,3三篇文章都可以看作最后一篇的改写加工。
其中关于Adadelta和其后与之相关的算法公式有误,正确结果参见https://arxiv.org/pdf/1212.5701.pdf原文。
Adam算法解释不清,原始文献https://arxiv.org/pdf/1412.6980v8.pdf