最优控制方法

更新时间：2024-03-29 04:06:01 阅读量：综合文库文档下载

说明：文章内容仅供预览，部分内容可能不全。下载后的文档，内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的，是否完整无缺。

第一章变分法

1.1 变分法的定义和定理

1.2 泛函与变分 1.3 欧拉方程 1.4 横截条件

1.5泛函的局部极值

1.6变分法求解最有控制问题

第二章极值原理

2.1 极值原理

2.1.1积分型最优控制问题的最小值原理 2.1.2积分型最优控制问题的最大值原理

2.1.3有关最大值原理（或最小值原理）的几点说明 2.2 最小值原理的几种具体形式

第三章动态规划及其在时间最短控制问题

3.1 多级决策问题

3.2 离散动态规则 3.3 连续动态规则

3.4 变分法、最大值原理与动态规划

第四章线性二次型最优控制问题

4.1 线性二次型问题

4.2 有限时间的状态调节器问题 4.3 无限时间的状态调节器问题 4.4 输出调节器问题 4.5 跟踪问题

4.6线性二次型实验及仿真结果 4.7倒立摆最优控制

摘要：本文主要阐述了关于最优控制问题的基本概念及其应用问题。最优控制理论是在满

足一定约束条件下，寻求最优控制策略，使得性能指标取极大值或极小值的一门学科，解决最优控制问题的主要方法有变分法、极值原理和动态规划。为了具体形象的解释这些问题，本文还将线性二次型实验及仿真结果用来研究探讨，并且把倒立摆最优控制作为最优控制的应用举例，希望能加深读者对本文的理解。

关键词：最优控制变分法极值原理动态规划最优解

正文：

第一章变分法

1.1 变分法的定义和定理

变分法名称定义：变分法是处理函数的函数的数学领域，和处理数的函数的普通微积分相对。譬如，这样的泛函可以通过未知函数的积分和它的导数来构造。变分法最终寻求的是极值函数：它们使得泛函取得极大或极小值。

变分法定理：变分法的关键定理是欧拉-拉格朗日方程。它对应于泛函的临界点。在寻找函数的极大和极小值时，在一个解附近的微小变化的分析给出一阶的一个近似。它不能分辨是找到了最大值或者最小者（或者两者都不是）。变分法在理论物理中非常重要：在拉格朗日力学中，以及在最小作用原理在量子力学的应用中。变分法提供了有限元方法的数学基础，它是求解边界值问题的强有力工具。它们也在材料学中研究材料平衡中大量使用。而在纯数学中的例子有，黎曼在调和函数使用狄利克雷原理。

同样的材料可以出现在不同的标题中，例如希尔伯特空间技术，莫尔斯理论，或者辛几何。变分一词用于所有极值泛函问题。微分几何中的测地线的研究是很显然的变分性质的领域。极小曲面（肥皂泡）上也有很多研究工，称为Plateau问题。

最优控制的理论是变分法的一个推广。 1.2泛函与变分

泛函与变分有如下的基本概念。

设对于自变量t，存在一类函数{x（t）}。如果对于每个函数x（t），有一个J值与之对应，则变量J成为依赖于函数X（t）的泛函数，记作J[x（t）]。

由上述定义可见，泛函为标量，可以理解为“函数的函数”，其值由函数的选取而定。

研究泛函的极值问题，需要采用变分法。变分在泛函研究中的作用，如同微分在函数研究中的作用一样。泛函的变分与函数的微分，其定义几乎完全相当。

（1）泛函的变分

定义：如果连续泛函J[x(t)]的增量可以表示为：

（1.1）

其中，L[x(t)，dx(t)]是关于dx(t)的线性连续泛函，而r[x(t)，dx(t)]是关于dx(t)的高阶无穷小。 L[x(t)，dx(t)] 称为泛函的变分，记为

（1.2）

也就是说，泛函的变分是泛函增量的线性主部。当一个泛函具有变分时，即泛函的增量可以用式（1.1）来表示时，称该泛函是可微的。

（2）泛函的极值

定义：如果泛函J[x(t)]在函数空间中点x=x0(t)的邻域内，其增量为：

J [ x(t ? J ? ( t )] ? J [ x )] ? 0 （1.3） 0

就称泛函J[x(t)]在点x0(t)处达到极小值；

如果泛函J[x(t)]在函数空间中点x=x0(t)的邻域内，其增量为：

J[ ? J ? J [ x (t )] ? x 0 (t )] ? 0 (1.4)

就称泛函J[x(t)]在点x0(t)处达到极大值；

x0(t)的邻域包含满足条件： x ( t), ( t)] ? ? 的所有点x(t)的球（即以x0(t) 为圆d[x0心，以d为半径的球）。

1.3欧拉方程

欧拉方程又称欧拉-拉格朗日方程，我无约束泛函极值及有约束泛函极值的必要

)] ?条件。再推导欧拉方程的过程中，应用了 ? J [ x 0 (t ), ? x ( t 0 所示的泛函极值的必要

条件。

定理1：若给定曲线x(t)的始端x(t0)= x0和终端x(tf)= xf，则泛函

t ?(t),t]dtJ[x(t)]??L[x(t),xt （1.5）达到极值的必要条件是，曲线x(t)满足欧拉方程

Lx?Lx??0dt （1.6）

f0? (tL [ x (t ),x其中x（t）应有连续的二阶导数， ), t ] 则至少应是二次连续可微的。

定理2：

在n维函数空间中，若极值曲线X(t)=[x1(t),x2(t),?,xn(t)]T的始端

X(t0)=[x1(t0),x2(t0),?,xn(t0)]T和终端X(tf)=[x1(tf),x2(tf),?,xn(tf)]T是给定的，则泛函 t?(t),t]dtJ[X(t)]?[X(t ), ? t L X （1.7）

达到极值的必要条件是曲线X(t)满足向量欧拉方程

LX?LX??0dt （1.8）

? (其中X（t）应有连续的二阶导数，而 L [ X X t ), t ] 则至少应是二次连续可微的。 (t ),

1.4横截条件 tf?(t]当极值曲线x*(t)的端点变化时，要使泛函 J [ x ( t )] ? L [ x ( t ), x t ), 达到

t0极小值， x*(t)首先应当满足欧拉方程：

Lx?Lx??0dt （1.9）

若端点固定,可以利用端点条件:

?x(t0)?x0 ?x(t)?xff? （1.10）

确定欧拉方程中的两个待定的积分常数。

1.5泛函的局部极值

f0?定理：若泛函

tf ?(t),t]dtJ[x(t)]?L[x(t),xt0 （1.11）

的一阶变分 ? J ? 0 （1.12）则J[x(t)]达到极小值的充分条件是二阶型矩阵

??2L[x(t),x?(t),t]?2L[x(t),x?(t),t]???2 ??x(t)?x(t)?x(t)?2?2 ???L[x(t),x(t),t]?L[x(t),x(t),t]?? ??x??(t)?x(t)?2(t)?x?? （1.13）是正定的或半正定的；而J[x(t)]达到极大值的充分条件是式（1.13）是负定的或半负定的。

此定理可以推广到含有n个未知函数的泛函的情形。 1.6变分法求解最有控制问题

在控制向量不受约束，且是时间的连续函数情况下，可用变分法导出最优控制解的必要条件。在变分法问题中，以复合型指标泛函，末端受约束的情况最有代表性。

对于最优控制问题来说，当状态变量和控制变量均不受约束，即X(t)?Rn，U(t)?Rm 时，是在等式约束条件下求泛函极值的变分问题，因此，可以利用拉格朗日乘子法来求解。

对于混合边界问题，即两点边界值问题，有以下求解步骤：

（1）U=U[X(t)，?(t)，t] （1.14）（2）并代入

?H?) ? ? ? ( t （1.15） ?X

?(t)??H?f[X(t),U(t),t] X?? （1.16）

? (（3） X t X ( U [ X ( t ), ? ( t ), t ], t ] （1.17） ) ? f[t),

?), U（4）? ? (t ) ? ? H [ X ( t [ X (t ), ? (t ), t ], t ] （1.18）

（5）求解方程（1.17）和（1.18）可得唯一确定的解X（t）和?(t)。将所求得的X(t)和?(t)代入式（1.14）中，可求得相应的U(t)。

说明：

（1）对于两点边界值问题，一般难以求得其解析解，通常需要采用数值计算方法求其数值解。（2）利用引入哈密顿函数的方法求解拉格朗日型最优控制问题，是将求泛函、

tf ?(t)?f[X(t),U(t),t]XJ?L[X(t),U(t),t]dtt0在等式

约束条件下对控制函数U(t)的条件极值问题转化为求哈密顿函数H对控制变量U(t)的无条件极值问题。这种方法称为哈密顿方法。

第二章极值原理

应用经典变分法求解最优控制问题，要求控制向量不受任何约束，而且要求哈尼顿函数对控制向量连续可微。但是，在实际工程问题中，控制变量往往受到一定的限制。例如，高性能飞机的舵偏角一般不超过正负五度；又如，采用空气舵的地-空战术导弹，容许的最大偏角舵角一般不超过正负二十度。这就使得飞机和导弹的控制力矩受到一定的限制，容许控制集合形成一个有界闭集，在容许控制集合边界上，控制

H变分不能任意，最优控制的必要条件 ? ? 0 亦不满足。 U为了解决控制有约束的变分问题，?庞特里亚金提出并证明了极小值原理，其结论

与经典变分法的结论有许多相似之处，能够应用于控制变量受边界限制的情况，并且不要求哈密顿函数对控制向量连续可微，因此获得了广泛应用。

2.1 极值原理

2.1.1积分型最优控制问题的最小值原理：给定系统的状态方程

和初态X(t0)=X0，而终端时刻tf固定，终端状态X(tf)自由以及控制变量U(t)所受约束条件是

U(t)??,t?[t t f ] 0, （2.1）

则为将系统从给定的初态X(t0)转移到某个终态X(tf) ，并使性能泛函

（2.2）

达到极小值的最优控制应满足的必要条件是：

(1)设U*(t)是最优控制, X*(t)是对应于U*(t)的最优轨线，则必存在一与U*(t)和X*(t)相对应的n维协态变量?(t)，使得X*(t)和?(t)满足规范方程。

?(t)??H?f[X(t),U(t),t] （2.3） X??

?H? （2.4） ?(t)???X

其中，

H?H[X(t),?(t),U(t),t]

（2.5） ??L[X(t),U(t),t]??T(t)f[X(t),U(t),t]

（2）边界条件为

（2.6） X(t0)?X0

?(tf)?0 （2.7）

（3）在最优控制U*(t)和最优轨线X*(t)上哈密顿函数达到最大值,即 ***H[X(t),?(t),U(t),t]?maxH[X(t),?(t),U(t),（t]2.8） U(t)??说明：由于以上的中心内容是，使性能泛函达到极小值的最优控制的必要条件是哈密顿函数H达到最大值，所以，该定理称为最（极）大值原理。

2.1.2 积分型最优控制问题的最大值原理：

给定系统的状态方程

?(t)?f[X(t),U(t),t] (2.9) X和初态X(t0)=X0，而终端时刻tf固定，终端状态X(tf)自由以及控制变量U(t)所受约束条件是

U(t)??,t?[t0,tf] （2.10）

则为将系统从给定的初态X(t0)转移到某个终态X(tf) ，并使性能泛函

J??L[X(t),U(t),t]dtt0tf （2.11）

达到极小值的最优控制应满足的必要条件是：

（1）设U*(t)是最优控制, X*(t)是对应于U*(t)的最优轨线，则必存在一与U*(t和X*(t)相对应的n维协态变量l(t)，使得X*(t)和l(t)满足规范方程

?(t)??H?f[X(t),U(t),t] （2.12） X??

?H??(t)?? （2.13）

其中， H?H[X(t),?(t),U(t),t] T??L[X(t),U(t),t]??(t)f[X(t),U(t),t] （2.14）（2）边界条件为

X(t0)?X0 （2.15）（2.16） ?(tf)?0

(3) 在最优控制U*(t)和最优轨线X*(t)上哈密顿函数达到最大值,即 ***H[X(t),?(t),U(t),t]?maxH[X(t),?(t),U(t),t] （2.17） U(t)??说明：由于以上的中心内容是，使性能泛函达到极小值的最优控制的必要条件是哈密顿函数H达到最大值，所以，该定理称为最（极）大值原理。

应用最大值原理和最小值原理求解同一个最优控制问题，所得到的最优控制和最优轨线是一致的，但是，协态变量却是互为反号的。

2.1.3有关最大值原理（或最小值原理）的几点说明：

（1）最大值原理（当然包括最小值原理，以下同）是对古典变分法的发展。它不仅可以用来求解函数U(t)不受约束或只受开集性约束的最优控制问题，而且也可以用来求解控制函数U(t)受到闭集性约束条件的最优控制问题。这就意味着最大值原理放宽了对控制函数U(t)的要求。

（2）最大值原理没有提出哈密顿函数H对控制函数U(t)的可微性的要求，因此，其应用条件进一步放宽了。并且，由最大值原理所求得的最优控制U(t)使哈密顿函数H达到全局、绝对最大值，而由古典变分法的极值条件?H/ ?U=0所得到的解是H的局部、相对最大值或驻值。因此，最大值原理将古典变分法求解最优控制问题的极值条件作为一个特例概括在自己之中。

（3）最大值原理是最优控制问题的必要条件，并非充分条件。也就是说，由最大值原

理所求得的解能否使性能泛函J达到极小值，还需要进一步分析与判定。但是，如果根据物理意义已经能够断定所讨论的最优控制问题的解是存在的，而由最大值原理所得到的解只有一个，那么，该解就是最优解。实际上，我们遇到的问题往往属于这种情况。

（4）利用最大值原理和古典变分法求解最优控制问题时，除了控制方程的形式不同外，其余条件是相同的。一般来说，根据最大值原理确定最优控制U*(t)和最优轨线X*(t)仍然需要求解两点边界值问题。这是一件复杂的工作。

2.2最小值原理的几种具体形式

定理2.2.1(时不变情况) 给定系统的状态方程：

? （2.18） x(t)?f[x(t),u(t)]的初态X(t0)=X0和终端时刻tf固定，终端状态x(tf)自由，控制函数的约束条件

（2.19） U(t)??,t?[t0,tf]要求从满足约束条件（2.19）的容许控制中，确定一最优控制U*(t)，使性能泛函取得最小

tf值

J[u(t)]??[x(tf)]?L[x(t),u(t)]dtt0 （2.20）

定义Hamilton函数为：

? （2.21）

式中 n维拉格朗日乘子向量。 ?(t)?[?1(t),?2(t),...,?n(t为待定的)]T欲使性能指标达最小值，以实现最优控制的必要条件为：（1）正则方程组

??H状态方程

x(t)??f[x(t),u(t)] （2.22） ??

?(t)???H?协态方程（2.23）

?X（2）极值条件 H[x*(t),u*(t),?(t)]?minH[x*(t),u(t),?(t)]u(t)?? （2.24）（3）约束条件

（2.25）

??[x(tf)]（4）横截条件

?(tf)? （2.26） ?x(tf) 定理2.2.2(时变情况) 给定系统的状态方程： ?x(t)?f[x(t),u(t),t] （2.27）

的初态X(t0)=X0和终端时刻tf固定，终端状态x(tf)自由，控制函数的约束条件

U(t)??,t?[t0,tf] （2.28）要求从满足约束条件（2.28）的容许控制中，确定一最优控制U*(t)，使性能泛函取得最小值

J[u(t)]??[x(tf),tf]?L[x(t),u(t),t]dtt0 （2.29）

?定义Hamilton函数为：

H[x(t),u(t),?(t),t]?L[x(t),u(t),t]?

?T(t)f[x(t),u(t),t] （2.30）其中 ?(t)?[?1(t),?2(t),...,?n(t)]T为待定的n维拉格朗日乘子向量。欲使性能指标达最小值，以实现最优控制的必要条件为：（1）正则方程组状态方程

?(t)??H?f[X(t),U(t),t]X （2.31） ???H?(t)??协态方程（2.32） ??X

（2）极值条件 H[x*(t),u*(t),?(t),t]?minH[x*(t),u(t),?(t),t] （2.33） u(t)??

(3)端点约束（2.34） x*(t0)?x0

??[x(tf),tf]（4）横截条件

?(tf)??x(tf) （2.35）

定理2.2.3(时不变末值型性能指标末端时刻自由的情况) 给定系统的状态方程： ?x(t)?f[x(t),u(t)] （2.36）

的初态X(t0)=X0固定和终端时刻tf未知，终端状态x(tf)自由，控制函数的约束条件

U(t)??,t?[t0,tf] （2.37）

要求从满足约束条件（2.37）的容许控制中，确定一最优控制U*(t)，使性能泛函取得最小值

J[u(t)]??[x(tf),tf] （2.38）

定义Hamilton函数为： H[x(t),u(t),?(t),t]??T(t)f[x(t),u(t),t] （2.39）式中为待定的n维拉格朗日乘子向量。 ?(t)?[?1(t),?2(t),...,?n(t)]T欲使性能指标达最小值，以实现最优控制的必要条件为：（1）正则方程组

??H状态方程

x(t)??f[x(t),u(t)] （2.40） ??协态方程

?(t)???H? （2.41）

?X（2）极值条件 H[x*(t),u*(t),?(t)]?minH[x*(t),u(t),?(t)]u(t)?? （2.42）（3）端点约束

x*(t0)?x0 （2.43）（4）横截条件

?(tf)???[x(tf),tf]?x(tf) （2.44） *******H[x(t),u(t),?(t)]?H[x(t),u(t),?(tfff)]?0(tf自由时）（2.45） H[x*(t),u*(t),?(t)]?H[x*(tf),u*(tf),?(tf)]?const(tf固定时）（2.46）

说明：积分型性能指标改变了Hamilton函数的形式，它与末值型性能指标的Hamilton函数是不同的，但与复合型性能指标的Hamilton函数是相同的。由此可见，末值型性能指标并不反映在Hamilton函数中，但末值型性能指标会影响终端边界条件（横截条件）。同样，若末端状态受约束，也会影响终端边界条件（横截条件），具体结论与第二章的结论相同。

求解最优控制问题的基本步骤：

1、假设协态变量，构造Hamilton函数；

2、写出正则方程组，根据初始条件及终端条件（横截条件）找出解最优控制的边界条件； 3、按极值必要条件求出使Hamilton函数为最小的u*；

4、将所得的u*与正则方程组联立，并利用边界条件求解有关常数项，可得u*与x*。

第三章动态规划及其在时间最短控制问题

动态规划法是美国学者贝尔曼于1957年提出来的，它与极小值原理一样，是处理控制变量有有界闭集约束时，确定最优控制解的有效数学方法。

从本质上讲，动态规划是一种非线性规划，其核心是贝尔曼的最优性原理。这个最优性原理可归结为一个基本递推关系式，从而使决策过程连续地转移，可将一个多级决策过程化为多个单级决策过程，使其求解简化。利用动态对话求解控制有约束的最优控制问题特别方便，但也受到维数问题的限制，其应用有一定的局限性。

3.1 多级决策问题

与穷举法相比，动态规划法的计算工作量大为减少。对于多阶段、多决策（每段不是两个决策而是多个决策）问题，动态规划的优越性就更加突出。因此，它对于处理路程或过程分为多段，每段都要做出决策才能确定过程继续演化的所谓多级决策问题，是一个很有前途的方法。

动态规划法求解最优问题的思路是，从后往前倒着计算，确定每点到终点的最优路线。动态规划法可将一个复杂的、难以求解的多级决策问题，转化为一系列简单的、易于求解的多个单级决策问题来处理。这在数学上称为不变嵌入原理。

对于多级决策问题来说，最优路线和最优决策序列具有一个重要的性质：最优性原理，它是动态规划的理论基础

3.2 离散动态规划最优性原理：

在一个多级决策问题中的最优策略具有这样的性质，不论初始状态和初始决策如何，当将其中的任何一个状态再作为初始状态时，则余下的策略，对此必定也是一个最优策略。

具体地说，如果有一个初始状态为X(0)的N级决策问题，其最优决策为

U(0),U(1),?,U(N－1),那么，对于以X(j)(j=1,2,?, N－1)为初始状态的N－j级决策问题来说，策略U(j), U(j+1),?,U(N－1)必定也是最优策略。

如果U*(0),U*(1),?,U*(N－1)是离散系统最优控制问题(5.2.1)－(5.2.3)在初始为X(0)时的N级控制的最优控制序列，那么U*(j),U*(j+1),?,U*(N－1) 也是该最优控制问题在初态为X(j)=f[X(j－1)，U(j－1)]的后N－j级控制的最优控制序列（其中j=1,2,?,N－1）。

（1）最优性原理也适用于求解使性能指标达到极大值的最优控制问题；

（2）最优性原理只肯定N级最优控制序列中的后N－j级控制也是最优控制序列，以

前的j个控制没有明确肯定。这句话的含义是，就前j个控制U(0),U(1),?,U(j－1)的选定来说，他们并不能使分段性能指标

Jj?JjX(0),U(0),U(1),?,U(j?1) （3.1）

达到最优值。也就是说，使JN[X(0),U(0),U(1),?,U(j－1),U(j), U(j＋1), ?,U(N－1)]达到最优值的U(0),U(1),?,U(j－1) ，和使Jj[X(0),U(0),U(1),?,U(j－1)]达到最优值的U(0),U(1),?,U(j－1) ，一般来说是不相同的

（3）最优性原理得以成立的一个前提条件是所谓过程的无后效性。

具体地说，设过程现在的状态为X(i)，它是由前一个状态X(i－1)变换而来，

X(i)=f[X(i－1),U(i－1)]。显然，前一个状态X(i－1)和前一个决策U(i－1)对后续过程的影响，仅仅表现在他们将状态转移到了X(i)，并随之确定了可供选择的决策集合。至于后续过程将如何进行，他们就不再直接起作用了。

也就是说，系统的过去只能决定现在，而不能直接影响未来。实际上，在现实世界中的许多过程，都具有无后效性。

应用动态规划的基本方程求解离散最优控制问题：利用动态规划法求解离散系统最优控制序列的过程是将一个N级最优控制问题转化为N个一级最优控制问题来处理，并且从最后一级开始，依次向前递推。解N个函数方程，每次可求出一个最优解U*(N－j)，j=1,2，?,N。如下图所示，

??X(0)U(0)1第N步X(1)2U(1)X(2)X(j)U(j)j+1第N－j步X(j+1)X(N－1)NU(N－1)X(N)

第N－1步第1步3.3 连续动态规划图5－3连续动态规划的最优性原理：假定最优控制U*(t)和最优状态轨线X*(t)都已经找到了，最优性能指标J*仅与初始时刻t0和初始状态X(t0)有关，也就是说，它是初始时刻t0和初始状态X(t0)的函数，记为

J*[X(t0),t0]??J[X*(t),U*(t)]??tft0L[X*(t),U*(t),t]dt?minU(t0,tf)?tft0L[X(t),U(t),t]dt （3.2）

连续最优控制问题的最优性原理：初始状态为X(t0)的最优控制策略U*[t0，tf]后面的一部分U*[t1，tf](t1>t0)仍然是最优控制策略，其初始状态是在区间[t0,t1]上应用控制

策略U*[t0,t1]由系统状态方程

?(t)?f[X(t),U(t),t] （3.3） X和初始状态X(t0)=X0所得到的X(t1)。

推广到一般情形：确定在区间[t0，tf]上任意时刻t及其对应的状态X(t)的最优解。也就是说，要确定最优性能指标函数J*[X(t)，t]及其对应的最优控制U*(t)和最优轨线X*(t)。根据不变嵌入原理，如果确定了最优性能指标函数J*[X(t)，t] ，用t0代换t，用X(t0)代换X(t)，就可以求出J*[X(t0)，t0]。

用动态规划法求解连续系统的最优控制问题时，得到一个偏微分方程，而利用最大值原理求解连续系统的最优控制问题时，得到一组常微分方程（即规范方程）。一般来说，解偏微分方程要比解常微分方程困难得多，往往难以求得解析解，需要借助于数字计算机求其数值解。

利用动态规划法求得的在时刻t的最优控制U*(t)是通过在该时刻的状态X(t)表示的，即

虽然U*(t)依赖于状态X(t)的关系可能是非定常的，也就是说U*(t)可能是状态X(t)的时变函数，但是，不管在理论上还是在工程实践上，都可以利用系统的状态反馈来实现，构成状态反馈的闭环控制。而变分法或最大值原理往往将最优控制表示成时间t的函数，难以甚至不能将最优控制表示成状态的函数，是一种开环控制方式。

3.4 变分法、最大值原理与动态规划

古典变分法难以处理最优控制问题中带有闭集型约束条件的问题。最大值原理是在力学中哈密顿原理的基础上发展了古典变分法，得到一组关于动态变量X(t)和协态变量 l(t)的常微分方程，将求解最优控制问题转化为求解状态变量方程、协态变量以及控制方程的两点边界值问题。

贝尔曼的动态规划法是在哈密顿－雅可比理论的基础上发展了古典变分法，得到一个关于最优性能指标函数J*[X(t),t]的偏微分方程，将求解最优控制问题归结为求解该偏微分方程和状态方程问题。

动态规划比最大值原理应用的范围要广泛得多，并且所得到的结论是关于最优控制问题的充分条件。

第四章线性二次型最优控制问题

如果所研究的系统是线性的，且性能指标为状态变量和控制变量的二次型函数，最优控制问题称为线性二次型问题。由于线性二次型问题的最优解具有统一的解析表达式，且可导致一个简单的线性状态反馈控制律，易于构成闭环最优反馈控制，便于工程实现，因而在实际工程问题中得到了广泛应用。

4.1 线性二次型问题

（1）二次型性能指标是一种综合型性能指标。它可以兼顾终端状态的准确性、系统响应的快速性、系统运行的安全性及节能性各方面因素。线性二次型最优控制问题的实质是：用不大的控制能量，来保持较小的输出误差，以达到控制能量和误差综合最优的目的。

（2）在这些不同目标之间，往往存在着一定矛盾。例如，为能尽快消除误差并提高终端准确性，就需较强的控制作用及较大的能量消耗；而抑制控制作用的幅值和降低能耗，必然会影响系统的快速性和终端准确性。如何对这些相互冲突的因素进行合理折衷，是系统设计

者必须认真对待的课题。

（3）性能指标由三项组成，若各项出现不同符号，将发生相互抵消的现象。这样，尽管各项单独的数值较大，但J的数值可能很小，性能指标就无法反映各项指标的优劣。为防止出现这种情况，应保证在各种实际运行情况下，无论容许控制如何选择，性能指标中各项的数值始终具有相同的符号。又因是以极小值作为最优标准，结合问题的物理性质，各项符号均取正值。

（4）控制时间的起点t0及终点tf，可能是由实际问题决定的客观参数，也可能是由设计者决定的主观参数。对后者而言，设计者必须把希望达到的目标和t0 、 tf的选择联系起来。

4.2 有限时间的状态调节器问题 P(t)的3个重要性质：

（1）由微分方程理论的存在与唯一性定理，可以证明P(t)存在而且唯一。（2）对于任意的t?[t0，tf]， P(t)均为对称阵，即 P(t)＝PT(t)

（3）若R是正定矩阵，Q是半正定矩阵，则P(t)（t0￡t￡tf）是半正定矩阵；若是正定矩阵， Q是正定矩阵，则P(t)（t0￡t￡tf）是正定矩阵。

对上图的说明：

由图（a）可见，当r很小时，意即控制作用的价值并不重要，控制轨线x(t)将迅速回到零；当r很大时，意即控制作用的价值十分重要，状态轨线x(t)将衰减得很慢。

如图（b）可见，随着r的减小，在控制区间［0，1］起始部分的控制变量的幅值变得很大；当r趋于零时，控制变量逐渐演变成为t=0时的脉冲。

由图（c）可见，随着r的减小，p(t)在控制区间［0，1］的起始部分几乎是一常数，当r减小时，p(t)仅仅在控制区间的最后部分才表现出时变的性质；随着r的增大，p(t)就成为真正的时变了。

4.3 无限时间的状态调节器问题

当线性定常系统是完全可控的，并且终端时刻tf趋于无限时，就可得到非时变的状态调节器，即这时的反馈增益矩阵是一个定常矩阵。

正定对称矩阵P(t)的每个元素pij(t)( i，j=1,2,3?,n)随时间变化的情况如图4－4

pij所示。由图可见，当tf很大时，随着t的减小pij(t)将达到稳定值，并且随着tf的

增加，此稳态值的时间区间将加宽。当tf?￥时，此稳态值的时间区间也将趋于无穷大。

pij

4－4

对于无限时间状态调节器，终端状态必须为零，即X(￥)=0。不然，性能指标值将为无穷大，问题将无解。由于X(￥)=0，所以在性能指标中设置终端代价是多余的。

4.4 输出调节器问题一个工程实际系统，当工作于调节器状态时，总是希望系统一旦受扰便宜原输出平衡状态时，系统的实际输出能最优地恢复到原输出平衡状态或其附近，则这样的问题，称为输出调节问题。由于输出调节器问题可以转化为等效的状态调节器问题，因此可以把状态调节器的主要结果方便地转化为输出调节器的最优解。

如果系统是线性时变的，末端时刻tf是有限的，则这样的输出调节器称为有限时间时变输出调节器。如果末时刻tf→∞，系统及性能指标中的各矩阵均为常矩阵，则可以得到定常的状态反馈控制律。这样的最优输出调节器，称为无限时间定常输出调节器。

4.5 跟踪问题

跟踪问题的最优控制，实际上包括两项，一项是状态X(t)的线性函数，这与调节器问题的解相同，代表着负反馈的状态调节作用；另一项是x(t)的线性函数， x(t)受控于Yr(t)，所以它代表着由被跟踪变量Yr(t)所引起的驱动作用。

若系统（A，B，C）是完全可控和可观测的，即

RANK[B?AB?A2B???An?1B]?n

?C? ?????

?CA? ??? ??2 RANK?CA??n??? ?????

??? ??n?1??CA??

则最优控制为 U*(t)??R?1BTPX(t)?R?1BT?4.5 线性二次型实验及仿真结果

实验一有限时间状态调节器问题的最优控制（1）

(t)?1?u(t)?x?x1(0)?0 ???x?x(t)x(0)?02?2 ?2解：

输入程序如下：

syms x1 x2;x=[x1;x2];A=[0 0;0 1];B=[1;0]; R=1/2;Q=[0 0;0 2];N=0;[K,S,E]=lqr(A,B,Q,R,N) u=-inv(R)*B'*P*x

x0=[0;1];J=1/2*x0'*P*x0 d=eig(A-B*inv(R)*B'*P)

显示结果：R=1/2;q=[0 0;0 2];N=0;[K,P,E]=lqr(A,B,Q,R,N) ??? Error using ==> lti.lqr。The plant model cannot be stabilized by feedback or the optimal design problem is ill posed.

这是因为这个系统是不可控的，只有可控的系统才能求解最优控制律，故此题无法求解。（2）

?0???0x????1y??10`0??0??0?u01?x???? ??4?6???1??0?x1解：具体分析在前面已经叙述过，故此处不再重复。在此实验中，用了六组不同权值得出来不同的阶跃响应曲线。程序如下： syms x1 x2 x3; x=[x1;x2;x3];

A=[0 1 0;0 0 1;-1 -4 -6];B=[0 0 1]';C=[1 0 0];D=0; Q1=[1 0 0;0 1 0;0 0 1];R1=1; K1=lqr(A,B,Q1,R1) k1=K1(1); AC1=A-B*K1; BC1=B*k1; CC=C;DC=D;

Q2=[100 0 0;0 1 0;0 0 1];R2=1/2; K2=lqr(A,B,Q2,R2) k2=K2(1); AC2=A-B*K2;

BC2=B*k2; CC=C;DC=D;

Q3=[200 0 0;0 1 0;0 0 1];R3=2; K3=lqr(A,B,Q3,R3) k3=K3(1); AC3=A-B*K3; BC3=B*k3;

t=0:0.01:30;

sys1=ss(AC1,BC1,CC,DC); sys2=ss(AC2,BC2,CC,DC); sys3=ss(AC3,BC3,CC,DC);

step(sys1,'y',sys2,'r',sys3,'g',t)

下面列出六种不同权值下的阶跃响应曲线：

1）Q=[1 0 0;0 1 0;0 0 1]; R=1; K =[0.4142 0.7486 0.2046] 2）Q=0,R=1,K=0 0 0

3）Q=[100 0 0;0 1 0;0 0 1];R=1;K = [9.0499 8.3395 1.3266] 4) Q=[200 0 0;0 1 0;0 0 1];R=1;K =[13.1774 10.9160 1.6702] 5) Q=[200 0 0;0 1 0;0 0 1];R=1/2; K =19.0250 14.2353 2.1529 6) Q=[200 0 0;0 1 0;0 0 1];R=2; K =9.0499 8.2852 1.2849

R=1 Q=200 Step ResponseStep Response1 1 0.90.9 0.80.8

0.70.7

0.60.6

0.5 0.5 0.40.4 0.30.3 0.20.2

0.10.1

000510152025 051015202530Time (sec)Time (sec)从上面六张图可以看出，

当R不变时，Q在一定范围内越大，输出越能更好的跟踪输入；当Q不变时，R值在一定范围内越小，调节时间会越短；

从图中可知，第五组权值5)Q=[200 0 0;0 1 0;0 0 1];R=1/2;得到的响应曲线是相当理想的，此时反馈矩阵K =[19.0250 14.2353 2.1529] 实验二无限时间跟踪问题的最优控制

AmplitudeAmplitude30

系统如下：

?1?x2(t)?x1(0)?x10?x ????x2?u(t) ?x2(0)?x20y(t)?x1(t)

性能指标为：

1?22??Y(t)?Y(t)?U(t)dt r?02解：具体分析已经在前面讲述跟踪问题时说过，故此处略掉。经过多组不同权值的取定，现列出三种比较具有代表性的权值下的阶跃响应曲线，程序如下： A=[0 1;0 0];B=[0;1];C=[1 0];D=[0]; Q=1;

R=1/2;yr=1;

P=are(A,B*(inv(R))*B',C'*Q*C)

g=(inv(P*B*(inv(R))*B'-A'))*C'*Q*yr k1=-((inv(R))*B'*P) k2=(inv(R))*B'*g ac=A+B*k1;bc=B*k2; Q1=2;R1=1/2;yr=1;

P1=are(A,B*(inv(R1))*B',C'*Q1*C)

g1=(inv(P*B*(inv(R1))*B'-A'))*C'*Q1*yr k3=-((inv(R1))*B'*P1) k4=(inv(R1))*B'*g1 ac1=A+B*k3;bc1=B*k4; Q2=1;

R2=1;yr=1;

P2=are(A,B*(inv(R2))*B',C'*Q2*C)

g2=(inv(P*B*(inv(R2))*B'-A'))*C'*Q2*yr k5=-((inv(R1))*B'*P2) k6=(inv(R1))*B'*g2 ac2=A+B*k5; bc2=B*k6; t=0:0.01:30;

sys0=ss(ac,bc,C,D); sys1=ss(ac1,bc1,C,D); sys2=ss(ac2,bc2,C,D);

step(sys0,'g',sys1,'y',sys2,'r',t) 得到曲线图如下：

??Step Response1.5System: sys1Time (sec): 1.92Amplitude: 1.291Amplitude0.50051015Time (sec)202530

从图中可以看出，第一组权值得到的响应曲线最理想，当R不变时，Q增大得幅值增大；Q不变时，R增大幅值也增大。

第一组权值下：P = [1.1892 0.7071 ；0.7071 0.8409] U=K1X(t)+K2

所以最优U（t）=-1.4142*x1-1.6818*x2+1.4142

4.7倒立摆最优控制

倒立摆系统是非线性，强耦合，多变量和自然不稳定的系统。在控制过程中，它能有效的反映控制理论中诸如系统稳定性，可控性，鲁棒性，系统收敛速度，随动性以及跟踪等问题，是检验各种控制理论的理想模型，线性二次型最优控制问题在现代控制理论中占有非常重要的位置。由于线性二次型性能指标易于分析，处理和计算，而且通过线性二次型最优设计方法得到的控制系统具有较好的鲁棒性与动态特性等优点，线性二次型在控制界得到普遍重视。通过倒立摆LQR最优控制系统设计与研究，并从实时控制效果出发，找出系统的动态响应与加权阵Q和R之间的变化规律，并用于指导实践。

倒立摆是一个单输入多输出的四阶控制系统，结构组成如图所示：

图2

图3

图1为倒立摆系统组成，图2和图3分别是倒立摆小车与摆杆相互作用力的水平和垂直分量的分析。

对倒立摆系统进行受力分析可以得到系统的状态空间表达式为：

???0?x?????0x???????0???????????010??x??0??x???1?000???????u001?????0???????029.40?????3?0?x?????x??1000??x?y??????????0010??????????

分析得知，倒立摆系统是不稳定的，但却是可控的，因此可以进行控制器的设计。

LQR控制器设计及系统仿真

由matlab语句k=lqr（A,B,Q,R）,取Q=diag（1000，0，70，0），求得K=[-31，623，-20，151，72，718，13，155]，即为LQR控制器控制参数。

在Silulink环境搭建如图所示仿真模型：

运行结果如图所示：

从图中可以看出，系统能较好地跟踪阶跃信号，摆杆的超调量足够小，稳态误差，上升时间与调整时间也符合设计指标要求，在保证Q足够小并兼顾到其他响应指标时，系统响应已经能够满足要求了。

在单级倒立摆数学模型的基础上，设计了LQR控制器，仿真和时控证明设计控制器的有效性，系统具有良好的稳定性和鲁棒性。同时分析了加权矩阵Q和R对系统性能指标的影响。

结束语

最优控制存在一个问题，就是一个最优控制问题是否存在唯一的最优解？常见的实际物理系统，性能指标的提法合理则一般存在最优解，而且在一定的范围内有唯一解。但是，对于一个比较复杂的问题，最优控制问题解的存在性和唯一性的判定是比较复杂的，有时甚至是不可能的。现在的研究一般都假定是有唯一解的最优控制问题，即可以求出一个最优的解来。

我们还应该了解，我们希望找到的是“整体”的最优控制，也就是在允许的范围内，寻找的控制作用使动态系统的性能指标达到最小或者最大。但是，在实际情况中除二次型性能指标的最优控制问题外，一般是很难用定量方法求得整体最优控制的，因此常常是求出许多局部最优控制，再挑选整体最优控制。

21世纪是科技迅猛发展的时代，各门学术都将有令人耳目一新的成就出现。最优控制作为一门代表性的学科，我相信也会成就一番非凡的功绩。而最有控制技术也会给我们带来不可限量的影响和进步，让我们一起共同进步，创出新世纪的一片天！

参考文献：

（1）胡寿松.自动控制原理.（第四版），科学出版社，2008 （2）胡寿松，最优控制理论与系统.（第二版），科学出版社，2005.

（3）孙文瑜，徐成贤，朱德通，最优化方法，高等教育出版社，2004 （4）王孝武，现代控制理论基础，（第二版），机械工业出版社，2006 （5）葛宝明.，先进控制理论及其应用，机械工业出版社，2007. （6）秦寿康，张正方，最优控制，国防工业出版社，1979

本文来源：https://www.bwwdw.com/article/n0nr.html

相关文章：

正在阅读：

最优控制方法03-29

电磁场电磁波复习01-06

2016年山东省德州市中考化学试卷(word解析卷)05-13

2010.7.21杭州市私人购买和使用新能源汽车方案07-17

微电子器件期末试题09-17

北京市2016年夏季普通高中毕业会考英语试题09-11

护理部2018年上半年护理工作总结07-01

本科生毕业论文开题报告海尔公司应收账款分析06-05

角平分线的性质说课稿06-07

第五章西欧中世纪的教育11-25

上一篇：工程质量通病治理专项方案2014.11.24doc - 图文下一篇：传染病疫情及相关突发公共卫生事件的应急预案