登录注册写文章

牛顿法、拟牛顿法

牛顿法、拟牛顿法

牛顿法：

根据二阶泰勒展开，用一阶和二阶倒数确定参数迭代步长和方向

设初始向量 $\vec{x}$ ，它在 $\vec{x_k}$ 处的泰勒展开如下：

$f(\vec{x})=f(\vec{x_k})+\nabla f(\vec{x}_k)^T(\vec{x}-\vec{x}_k) +\frac{1}{2} (\vec{x}-\vec{x}_k)^T \nabla^2 f(\vec{x}_k)(\vec{x}-\vec{x}_k)+o(x)$ ，当 $\vec{x}_k\rightarrow \vec{x}$ 时

注：矩阵求导公式：

$X^TAX=2AX$ $a^TX=a$

对上式相对于 $\vec{x}$ 求导：

$\frac{\partial f(\vec{x})}{\partial \vec{x}} = \nabla f(\vec{x}) = \nabla f(\vec{x}_k)+\nabla^2 f(\vec{x}_k)(\vec{x}-\vec{x}_k)$ ①

因此可以得到 $\vec{x}_k$ 处的迭代方程：

$\vec {x}_{k+1} = \vec {x}_k - \frac{\nabla f(\vec{x}_k)}{\nabla^2 f(\vec{x})}$

对应 $\vec {x}_{k+1} = \vec {x}_k + \lambda_kd_k$ 这种形式，步长 $\lambda_k=\nabla f(\vec{x_k})$ ，方向 $d_k=-\frac{1}{\nabla^2 f(\vec{x})}$

拟牛顿法：

从上述公式可以知道，牛顿法的每一次迭代都需要计算二阶海塞矩阵，当特征和数据非常多时，时间和空间开销都会比较大。

拟牛顿法只是一种方法的统称，即用一个近似矩阵B去替代逆海塞矩阵 $H^{-1}$ ，然后在每一轮迭代中更新B

怎样找到逆海塞矩阵的替代矩阵？

对上一节中的①式做一下变换：

$\nabla f(\vec{x}_{k+1}) - \nabla f(\vec{x}_k)=\nabla^2 f(\vec{x}_k)(\vec{x}_{k+1}-\vec{x}_k)$

令 $g_k=\nabla f(\vec{x_k})$ , $H_k= \nabla^2 f(\vec{x_k})$ ，上式变成：

$g_{k+1}-g_k=H_k(\vec{x}_{k+1}-\vec{x}_k)$

再令 $g_{k+1}-g_k=y_k$ ， $S_k=\vec{x}_{k+1}-\vec{x}_k$ ，得到：

$H_k=\frac{y_k}{S_k}$ ①

也就是说，第k步迭代的海塞矩阵可以通过第k步的迭代步长和一阶导数差值拟合。

BFGS(Broyden–Fletcher–Goldfarb–Shanno):
https://blog.csdn.net/itplus/article/details/21897443

BFGS算法

用 $B_k$ 表示 $H_k$ 的近似， $D_k$ 表示 $H^{-1}_k$ 的近似：

那么 $B_{k+1}$ 的迭代公式为 $B_{k+1}=B_k+\Delta B_k$

设 $\Delta B_k= \alpha uu^T+\beta vv^T$ ②，再根据①式得到的 $y_k=B_kS_k$ :

$y_k=B_k\cdot S_k +\alpha \boldsymbol{u u^T} S_k +\beta \boldsymbol{v v^T} S_k$

交换 $u^TS_k$ 和 $u$ 的位置： $y_k=B_k\cdot S_k +\alpha \boldsymbol{ u^T} S_k \boldsymbol{u} +\beta \boldsymbol{v^T} S_k \boldsymbol{v}$

令： $\alpha u^T S_k=1, \beta v^T S_k=1$ ，以及 $u=y_k,v=S_k$

解出： $\alpha=\frac{1}{y_k^TS_k},\beta=\frac{-1}{v^T S_k}=\frac{-1}{S_k^TB_k^TS_k}$

再带入到②中：

$\Delta B_k = \frac{y_k y_k^T}{y_k^T S_k} -\frac{B_k S_k S_k^T B_K^T}{S_K^T B_K^T S_k}$

L-BFGS:

BFGS中B矩阵的每次更新都需要nXn的空间开销，L-BFGS不会直接存储B，而是①只存取需要用到的n个向量，并且②只保存了最近的m次迭代的结果，所以L-BFGS算法又做了近似。

最后编辑于：2019.01.21 16:56:59

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

机器学习入门之 — 梯度下降，牛顿法，拟牛顿法
梯度下降法梯度下降法用来求解目标函数的极值。这个极值是给定模型给定数据之后在参数空间中搜索找到的。迭代过程为： ...
DayDayUpppppp阅读 13,335评论 0赞 8
Optimization of Machine Learning
机器学习就是需要找到模型的鞍点，也就是最优点。因为模型很多时候并不是完全的凸函数，所以如果没有好的优化方法可能会跑...
冒绿光的盒子阅读 4,829评论 0赞 3

Newton's method and Quasi Newton method牛顿法与拟牛顿法
Welcome To My Blog 牛顿法和拟牛顿法是求解无约束最优化问题的常用方法,优点是收敛速度快.牛顿法...
LittleSasuke阅读 6,809评论 0赞 3
Logistic回归(Logistic Regression)算法笔记(二)-scikit l...
本节不仅介绍了Logistic回归在sklearn中模型应用，还介绍了liblinear、牛顿法、拟牛顿法(DFP...
keepStriving阅读 23,106评论 4赞 19
7 looks in breton stripes（条纹衫）
条纹月的最后一周，用一件标准21道蓝白条纹衫，尝试了一下“条纹的一周”的7个形象look book。从妈妈衣柜里...
林好奇阅读 2,994评论 7赞 1

19赞20赞

2赞赏

手机看全文