LQR控制基本原理（包括Riccati方程具体推导过程）

2023-05-16

全状态反馈控制系统

$\left\{\begin{matrix} \dot{x}=Ax+Bu\\ y=Cx+Du \end{matrix}\right.$

状态反馈控制器

$u=-kx=-[k_{1},k_{2},\cdots]\begin{bmatrix} x_{1}\\ x_{2}\\ \vdots \end{bmatrix}$

$\dot{x}=Ax-Bkx=(A-Bk)x=A_{cl}x$

通过选择K，可以改变 $A_{cl}$ 的特征值，进而控制系统表现。

LQR控制器

最优控制，其本质就是让系统以某种最小的代价来让系统运行，当这个代价被定义为二次泛函，且系统是线性的话，那么这个问题就称为线性二次问题，设计的控制器（即问题的解）可以称为LQR（Linear Quadratic Regulator）线性二次调节器。

1、连续时间

代价函数

$J=\int_{0}^{\infty }(x^{T}Qx+u^{T}Ru)dt,Q=Q^T,R=R^T,Q\geqslant 0,R\geqslant 0$

一般来说，Q阵和R阵为单位对角阵，对角阵上的元素对应着不同状态量和控制量的权重大小，越大说明我们设计时对于该量的重视程度越大，即希望这个量在变化过程中保持较小的值，换种说法就是对于该量的“惩罚”越大。积分号说明从开始控制起到最终无限时间代价函数值的累积，因为是二次的，所以代价始终大于0，最终趋于0，我们的设计目标就是得到一系列的控制序列使代价累积的最小。

具体推导过程

将 $u=-kx$ 代入代价函数J，有

$J=\int_{0}^{\infty }x^{T}(Q+K^{T}RK)xdt$

假设存在一个常量矩阵P使得

$\frac{\mathrm{d} }{\mathrm{d} t}(x^TPx)=-x^{T}(Q+K^{T}RK)x$

将上式左侧微分展开

$\frac{\mathrm{d} }{\mathrm{d} t}(x^TPx)=\dot{x}^TPx+x^TP\dot{x}=-x^{T}(Q+K^{T}RK)x$

代入控制量 $\dot{x}=(A-BK)x$ 可以整理得到

$A^TP+PA+Q-K^TB^TP-PBK+K^TRK=0$

观察上面的等式，A，B，Q，R，P都是常值矩阵，唯一可变的是K阵，所以问题转换为找到一个K使得代价函数最小，一种思路是如果我们可以把含有K的部分转换成类似 $(M+N)^T(M+N)$ 的结构，那么要使代价最小，只需使 $M+N=0$ ，那么K便可以求出。

令 $R=T^TT$ 代入上式中，可以得到

$A^TP+PA+Q-K^TB^TP-PBK+K^TT^TTK=0$

将 $-K^TB^TP-PBK+K^TT^TTK$ 用待定系数法化成目标形式 $M^TM+M^TN+N^TM+N^TN$ ，可得

$M=-(T^{-1})^TB^TP,N=TK$

且 $-K^TB^TP-PBK+K^TT^TTK=(M+N)^T(M+N)-PBR^{-1}B^TP$

令 $TK-(T^{-1})^TB^TP=0$ 解出

$K=R^{-1}B^TP$

代入Riccati方程中化简后得

$A^TP+PA-PBR^{-1}B^TP+Q=0$

设计步骤

选择Q、R参数矩阵
求解Riccati方程 $A^TP+PA-PBR^{-1}B^TP+Q=0$ 得到矩阵P
计算增益 $K=R^{-1}B^TP$ 得到反馈控制量 $u=-kx$

2、离散时间

离散系统

$x(K+1)=Ax(k)+Bu(k)$

代价函数

$J=\sum_{k=1}^{N}(x^TQx+u^TRu)$

设计步骤

确定迭代范围N
设置迭代初始值 $P_{N}=Q$
$t=N,\cdots ,1$ 从后向前循环迭代求解离散时间的代数RIccati方程

$P_{t-1}=Q+A^TP_{t}A-A^TP_{t}B(R+B^TP_{t+1}B)^{-1}B^TP_{t}A$

$t=0,\cdots ,N$ 循环计算反馈系数 $K_{t}=(R+B^TP_{t+1}B)^{-1}B^TP_{t+1}A$ 并得到控制量

$u_{t}=-K_{t}x_{t}$

参考资料：LQR最优控制方法小结 - 知乎

【控制理论】离散及连续的LQR控制算法原理推导_CHH3213的博客-CSDN博客_lqr控制

【Advanced控制理论】8_LQR 控制器_状态空间系统Matlab/Simulink建模分析_哔哩哔哩_bilibili

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)