Newton法的优缺点都很突出。优点:高收敛速度(二阶收敛);缺点:对初始点、目标函数要求高,计算量、存储量大(需要计算、存储Hesse矩阵及其逆)。拟Newton法是模拟Newton法给出的一个保优去劣的算法。
拟Newton法是效果很好的一大类方法。它当中的DFP算法和BFGS算法是直到目前为止在不用Hesse矩阵的方法中的最好方法。
基本思想
考虑Newton迭代公式
这里搜索方向为,步长因子为1。
我们从以下两点考虑对Newton迭代公式的改进:
(1) 为避免求逆矩阵,设想用某种近似矩阵替换,上式则变为
这时搜索方向为,步长因子仍为1。
(2) 为了取得更大的灵活性,考虑更一般的公式
这时搜索方向仍为,但步长因子取为最优步长因子。上式是代表面很广的一类迭代公式。例如,当时,它是最速下降法公式。当时,它是阻尼Newton法公式。
这样的存在吗?又如何来求呢?假如存在,那么为使确实近似并易于计算,我们要对人为地附加某些条件。主要是三点:
第一,为保证搜索方向是下降方向,如果,则方向是函数在点处的下降方向得到:
要求每一个都是对称正定矩阵,可以保证该式成立。
第二,为易于计算,要求到之间具有简单的迭代形式。最简单的迭代关系为
称为校正矩阵,上式称为校正公式。
第三,为使确实近似要求每一个必须满足拟Newton条件。那所谓的拟Newton条件是啥呢?
我们假设目标函数具有连续的二阶偏导数,将在点处作Taylor级数展开:
对上式两端求梯度有:
令,则有:
所以,当正定时,有
对于正定二次函数,上式近似将变为等式。
因此,如果迫使满足类似于上式的等式
那么就有可能很好地近似于上式称为拟Newton条件或拟Newton方程。
记:
那么拟Newton条件可简记为:
带入迭代关系式有:
算法中的校正矩阵可由确定的公式来计算,不同的公式对应不同的拟Newton算法。满足条件的有无穷多个,因此上述的拟Newton算法是一簇算法。
DFP算法
DFP法是首先由Davidon(1959年)提出,后由Fletcher和Powell(1963年)改进的算法。它是无约束优化方法中最有效的方法之一。DFP法虽说比共轭梯度法有效,但它对直线搜索有很高的精度要求。
考虑如下校正公式
其中,是待定列向量,,是待定常数。校正矩阵
根据拟Newton条件,有
上式和有很多种取法
如果取,那么有
DFP算法的性质
定理1:在DFP算法中,若初始矩阵对称正定,则中每一个都对称正定。
定理2:设将DFP算法施用于具有对称正定矩阵的二次函数,如果:
(i) 初始矩阵对称正定;
(ii) 迭代点互异,产生的搜索方向向量依次为,则有
定理3:若定理2的条件都满足,并且经过次迭代才求到极小点,则。
我的微信公众号名称:深度学习与先进智能决策
微信公众号ID:MultiAgent1024
公众号介绍:主要研究分享深度学习、机器博弈、强化学习等相关内容!期待您的关注,欢迎一起学习交流进步!