动控制输入，直到下一个事件发生. 基于事件的误差信号是上述结构

正在加载图片...

王鼎：一类离散动态系统基于事件的迭代神经控制 413 动控制输入，直到下一个事件发生.基于事件的误一个事件满足此触发条件时，控制输入才会被更差信号是上述结构的基本组成部分，定义为新.基于事件控制的主要问题就是如何确定一个 ek)=x(s）-x(,k∈[sj,siti,jeN (2) 合适的触发阈值，这也将在下一节介绍式中，x(s)是采样状态，x(是当前的状态向量.利 2基于事件的迭代自适应评判控制用表达式x(s)=x()+e(),反馈控制律可以改写为 u()=μ(x(s》=μ(x()+e(k).于是，可得本节重点介绍基于事件的迭代自适应评判控 x(k+1)=fx(k)+g(x(k)μ(ax(k)+e(k),k∈N(3) 制框架，包括算法收敛性分析，神经网络实现和触这可以认为是非线性系统()的闭环形式发条件设计本文考虑最优控制问题，需要得到一个反馈 2.1基于事件的迭代算法及其收敛性控制律μ∈平(2)来最小化应该指出的是，在基于事件的迭代自适应评 JIxW)=元UO,4Krs》判控制方法中，需要考虑带有触发信息的值函数 (4) 学习过程.选择一个小的正数，并构造两个迭代序 l=k 列(x()和μO(x(s》,由此开始执行算法，其式中，μ(x(s》=μ(x(k)+e(k),jeN,U(x,)≥0，x,u 中，表示迭代指标且i∈N.令初始迭代指标i=0并是效用函数，且有U0,0)=0成立.在本文中，效用且令初始代价函数J0(=0 函数选取为二次型形式然后，迭代控制函数通过 U(x(k).u(x(si)))=x(k)Qx(k)+ O(x(s》=arg min{U(x(k),μ(x(s》+ μ(x(s)Pμ(x(s》 (5) u(x(s;)) 式中涉及到的Q∈Rx和P∈Rmxm都是正定矩阵. Jo(x(k+1)》= 回顾著名的最优性原理，最优代价函数定义为 -》 ox(k+1) (10) ra》=min ox,As》 (6) 进行求解.在上述参数最小化运算中，状态向量 ()l x(k+1)=f(x(k))+g(x(k))(x(si)) 且满足以下的离散时间HB方程：接下来，迭代代价函数通过 J'(x(k)=min{U(ax(k),μ(ax(s》+ xtsi)) i+D)(x(k))=min (U(x(k).u(x(sj))+ (s》 J厂(x(k+1)》 (7) J0(x(k+1)》 (11) 基于事件触发机制的最优控制策略(x(s)》可进行更新，也可以写为由下式计算： Ji+D(x(k))=U(x(k).H(D(x(sj)+ μ`(r(sj)=arg min{U(r(k),μ(r(sj》+ u(x(s;)) J(f(x(k))+g(x(k))(x(sj)) (12) J(x(k+1)》 (8) 需要注意的是，当Ji+D(x()-J@(x()训≤e时，考虑到仿射型动态系统和二次型效用函数，停止准则生效，从而获得近似最优控制律.此外，则有通过令i=i+1来增加迭代指标，从而继续求解式 rs》=-P产gWrk+I》 1 (9) a0x(k+1) (10)中的迭代控制函数和更新(11)中的迭代代价函数需要注意的是，式(7)是动态规划过程中应该下面，根据有界性和单调性给出上面迭代算处理的关键式子，法的收敛性证明在本文中，为了解决基于事件的最优控制设定理1迭代代价函数序列(J⊙是有上界的，即计，应该关注两个方面的问题.一方面，需要下一个时间步的值J广(x(k+1)来获得最优代价函数 0≤0(x()≤了，i∈N,其中，了是一个正常数 J(x(k)和最优控制u(x(s).为了克服获取证明.令(x(s》为触发时刻s的任意容许控制 J(x(k+1)和求解离散时间HUB方程的困难，下一输人，4⊙是如下定义的一个序列：节将介绍一种基于自适应评判设计的迭代结构. A+(xk)=Ux(k),(x(s》+AO(r(k+1)(13) 另一方面，在基于事件的结构中，需要设计一个形式中，迭代指标取零时的初始值Ao(=0.易知，如Ile(k)训≤e的事件触发条件，其中，e是正阈值.当 A(x(k)=U(x(k),(x(s).随着迭代指标展开动控制输入，直到下一个事件发生. 基于事件的误差信号是上述结构的基本组成部分，定义为 e(k) = x(sj)− x(k), k ∈ [sj ,sj+1), j ∈ N （2） x(sj) x(k) x(sj) = x(k)+e(k) u(k) = µ(x(sj)) = µ(x(k)+e(k)) 式中, 是采样状态, 是当前的状态向量. 利用表达式 , 反馈控制律可以改写为 . 于是，可得 x(k+1) = f(x(k))+g(x(k))µ(x(k)+e(k)), k ∈ N （3）这可以认为是非线性系统 (1) 的闭环形式. µ ∈ Ψ(Ω) 本文考虑最优控制问题, 需要得到一个反馈控制律来最小化 J(x(k)) = ∑∞ ℓ=k U(x(ℓ),µ(x(sj))) （4） µ(x(sj)) = µ(x(k)+e(k)) j ∈ N U(x,u) ⩾ 0,∀x,u U(0,0) = 0 式中, ， , 是效用函数，且有成立. 在本文中，效用函数选取为二次型形式 U(x(k),µ(x(sj))) = x T (k)Qx(k)+ µ T (x(sj))Pµ(x(sj)) （5） Q ∈ Rn×n P ∈ R 式中涉及到的和 m×m都是正定矩阵. 回顾著名的最优性原理, 最优代价函数定义为 J ∗ (x(k)) = min {µ(·)} ∑∞ ℓ=k U(x(ℓ),µ(x(sj))) （6）且满足以下的离散时间 HJB 方程： J ∗ (x(k)) = min µ(x(sj )) {U(x(k),µ(x(sj)))+ J ∗ (x(k+1))} （7） µ ∗ 基于事件触发机制的最优控制策略 (x(sj)) 可由下式计算: µ ∗ (x(sj)) = arg min µ(x(sj )) {U(x(k),µ(x(sj)))+ J ∗ (x(k+1))} （8）考虑到仿射型动态系统和二次型效用函数，则有 µ ∗ (x(sj)) = − 1 2 P −1 g T (x(k)) ∂J ∗ (x(k+1)) ∂x(k+1) （9）需要注意的是，式 (7) 是动态规划过程中应该处理的关键式子. J ∗ (x(k+1)) J ∗ (x(k)) µ ∗ (x(sj)) J ∗ (x(k+1)) ||e(k)|| ⩽ e¯ e¯ 在本文中, 为了解决基于事件的最优控制设计, 应该关注两个方面的问题. 一方面, 需要下一个时间步的值来获得最优代价函数和最优控制 . 为了克服获取和求解离散时间 HJB 方程的困难, 下一节将介绍一种基于自适应评判设计的迭代结构. 另一方面, 在基于事件的结构中, 需要设计一个形如的事件触发条件, 其中, 是正阈值. 当一个事件满足此触发条件时, 控制输入才会被更新. 基于事件控制的主要问题就是如何确定一个合适的触发阈值, 这也将在下一节介绍. 2 基于事件的迭代自适应评判控制本节重点介绍基于事件的迭代自适应评判控制框架, 包括算法收敛性分析, 神经网络实现和触发条件设计. 2.1 基于事件的迭代算法及其收敛性 {J (i) (x(k))} {µ (i) (x(sj))} i i ∈ N i = 0 J (0)(·) = 0 应该指出的是, 在基于事件的迭代自适应评判控制方法中, 需要考虑带有触发信息的值函数学习过程. 选择一个小的正数, 并构造两个迭代序列和 , 由此开始执行算法, 其中, 表示迭代指标且 . 令初始迭代指标并且令初始代价函数 . 然后, 迭代控制函数通过 µ (i) (x(sj)) = arg min µ(x(sj )) {U(x(k),µ(x(sj)))+ J (i) (x(k+1))} = − 1 2 P −1 g T (x(k)) ∂J (i) (x(k+1)) ∂x(k+1) （10） x(k+1) = f(x(k))+g(x(k))µ(x(sj)) 进行求解. 在上述参数最小化运算中, 状态向量 . 接下来, 迭代代价函数通过 J (i+1)(x(k)) = min µ(x(sj )) {U(x(k),µ(x(sj))+ J (i) (x(k+1))} （11）进行更新, 也可以写为 J (i+1)(x(k)) = U ( x(k),µ (i) (x(sj))) + J (i) ( f(x(k))+g(x(k))µ (i) (x(sj))) （12） |J (i+1)(x(k))− J (i) (x(k))| ⩽ ϵ i = i+1 需要注意的是, 当时, 停止准则生效, 从而获得近似最优控制律. 此外，通过令来增加迭代指标, 从而继续求解式 (10) 中的迭代控制函数和更新 (11) 中的迭代代价函数. 下面, 根据有界性和单调性给出上面迭代算法的收敛性证明. {J (i) } 0 ⩽ J (i) (x(k)) ⩽ J i ∈ N J 定理 1 迭代代价函数序列是有上界的，即 , , 其中, 是一个正常数. ζ(x(sj)) sj {A (i) } 证明. 令为触发时刻的任意容许控制输入, 是如下定义的一个序列: A (i+1)(x(k)) = U(x(k), ζ(x(sj)))+ A (i) (x(k+1)) （13） A (0)(·) = 0 A (1)(x(k)) = U(x(k), ζ(x(sj))) i 式中, 迭代指标取零时的初始值 . 易知, . 随着迭代指标展开王鼎：一类离散动态系统基于事件的迭代神经控制 · 413 ·

<<向上翻页向下翻页>>

点击下载：《工程科学学报》：一类离散动态系统基于事件的迭代神经控制