https://blog.csdn.net/lipengcn/article/details/52698895
https://www.zhihu.com/question/27157047
梯度下降:一阶导数
牛顿法:二阶导数,在选择方向时,不仅考虑当前坡度是否够大,还会考虑走了一步之后,坡度是否会变得更大。
共轭梯度法:利用一阶导数,但是具有二次终止性
共轭方向法(不一定是共轭梯度)的思想就是在N维优化问题中,每次沿一个方向优化得到极小值,后面再沿其他方向求极小值的时候,不会影响前面已经得到的沿那些方向上的极小值,所以理论上对N个方向都求出极小值就得到了N维问题的极小值。这组方向由于两两共轭,所以就叫他共轭方向法。
梯度下降法每次都直接选取当前点的梯度方向,所以就有可能按下葫芦浮起瓢:这次求出的极小值点在之前搜索过的方向上又不是极小值了,这样就导致收敛速度比较慢甚至不收敛。