连续时域上的DP(Dynamic Programming)
首先考虑如下形式的优化问题:
其中是终止时间,是起始时间,是终止条件(可能不唯一,因为的值域是一个向量),表示对于的约束。
这个问题的解决的最终形式是一个非线性偏微分方程(Nonlinear Partial Differential Equation),被称作Hamilton-Jacobi-Bellman方程(HJB),下面进行推导。
现在我们设区间内的任意一个时间点,我们考虑这个区间内的代价函数,其中,那么有如下关系:
显然我们把区间分成两个区间来考虑:和。如下:
我们定义范围内的最优代价函数:
于是有:
我们假设很小,那么可以对上式进行泰勒展开,有:
下面定义其中两个偏微分的别名:
代入(7)中可以得到:
将公式(10)和公式(9)代入到公式(6),得到:
上式中提取出和无关的项目,得到最终的结果。这是一个的偏微分方程,根据最终状态反向推导前边的状态,其中有:
HJB(Hamiltonian-Jacobi-Bellman)等式
下面定义哈密顿量(Hamiltonian):
根据公式(11),代入公式(13),并且约掉,得到:
这即是HJB等式。
连续时域LQR(Continuous LQR)
下面考虑如下线性系统模型(Linear System Model)和它的二次代价函数(Quadratic Cost Function):
假设是固定的,没有约束;假设(半正定),(正定),根据公式(16)和公式(13)的定义,可以得到哈密顿量:
根据公式(14),需要找到一个最优的,即 ,使得最小,那么在没有约束的情况下,需要满足以下必要条件:
于是,根据上式可以得到一个最优控制率(Optimal Control Law):
如果需要使上述最优条件充分且必要,还需要满足:
显然是成立的,因此该最优值是全局最小值。
下面把(19)的最优控制率代入到(17)中的哈密顿量中,得到:
于是根据(14)式,我们可以得到如下关系:
这是一个关于的偏微分方程,根据(16)可以很容易的知道的边界条件:
根据上述公式,我们可以大胆假设在所有时间上均是的二次型(Quadratic Form),因此我们假设:
根据假设很容易得到:
将其代入到(22)中可以得到如下关系:
综合(23)和(26)中的结果,满足如下关系:
上式被称为黎卡提微分方程(Differential Riccati Equation)。通过求解这个方程,可以得到,进而可以根据(25)得到,最后根据(19)得到最优控制输入,如下:
综上,可以得到最优反馈控制增益:
线性时不变(LTI)系统
如果系统是线性时不变系统,则(27)中的系统参数矩阵均不再是时间的函数,因此有:
如果考虑当时,我们期望趋近一个定值,因此有:
其中,上式被称为连续时间代数黎卡提方程(Continuous time Algebraic Riccati Equation - CARE)。对于线性时不变系统的LQR控制器,最优反馈控制增益是:
推导完毕。
未经授权,禁止转载