正在加载图片...
王鼎:一类离散动态系统基于事件的迭代神经控制 413 动控制输入,直到下一个事件发生.基于事件的误 一个事件满足此触发条件时,控制输入才会被更 差信号是上述结构的基本组成部分,定义为 新.基于事件控制的主要问题就是如何确定一个 ek)=x(s)-x(,k∈[sj,siti,jeN (2) 合适的触发阈值,这也将在下一节介绍 式中,x(s)是采样状态,x(是当前的状态向量.利 2基于事件的迭代自适应评判控制 用表达式x(s)=x()+e(),反馈控制律可以改写为 u()=μ(x(s》=μ(x()+e(k).于是,可得 本节重点介绍基于事件的迭代自适应评判控 x(k+1)=fx(k)+g(x(k)μ(ax(k)+e(k),k∈N(3) 制框架,包括算法收敛性分析,神经网络实现和触 这可以认为是非线性系统()的闭环形式 发条件设计 本文考虑最优控制问题,需要得到一个反馈 2.1基于事件的迭代算法及其收敛性 控制律μ∈平(2)来最小化 应该指出的是,在基于事件的迭代自适应评 JIxW)=元UO,4Krs》 判控制方法中,需要考虑带有触发信息的值函数 (4) 学习过程.选择一个小的正数,并构造两个迭代序 l=k 列(x()和μO(x(s》,由此开始执行算法,其 式中,μ(x(s》=μ(x(k)+e(k),jeN,U(x,)≥0,x,u 中,表示迭代指标且i∈N.令初始迭代指标i=0并 是效用函数,且有U0,0)=0成立.在本文中,效用 且令初始代价函数J0(=0 函数选取为二次型形式 然后,迭代控制函数通过 U(x(k).u(x(si)))=x(k)Qx(k)+ O(x(s》=arg min{U(x(k),μ(x(s》+ μ(x(s)Pμ(x(s》 (5) u(x(s;)) 式中涉及到的Q∈Rx和P∈Rmxm都是正定矩阵. Jo(x(k+1)》= 回顾著名的最优性原理,最优代价函数定义为 -》 ox(k+1) (10) ra》=min ox,As》 (6) 进行求解.在上述参数最小化运算中,状态向量 ()l x(k+1)=f(x(k))+g(x(k))(x(si)) 且满足以下的离散时间HB方程: 接下来,迭代代价函数通过 J'(x(k)=min{U(ax(k),μ(ax(s》+ xtsi)) i+D)(x(k))=min (U(x(k).u(x(sj))+ (s》 J厂(x(k+1)》 (7) J0(x(k+1)》 (11) 基于事件触发机制的最优控制策略(x(s)》可 进行更新,也可以写为 由下式计算: Ji+D(x(k))=U(x(k).H(D(x(sj)+ μ`(r(sj)=arg min{U(r(k),μ(r(sj》+ u(x(s;)) J(f(x(k))+g(x(k))(x(sj)) (12) J(x(k+1)》 (8) 需要注意的是,当Ji+D(x()-J@(x()训≤e时, 考虑到仿射型动态系统和二次型效用函数, 停止准则生效,从而获得近似最优控制律.此外, 则有 通过令i=i+1来增加迭代指标,从而继续求解式 rs》=-P产gWrk+I》 1 (9) a0x(k+1) (10)中的迭代控制函数和更新(11)中的迭代代价 函数 需要注意的是,式(7)是动态规划过程中应该 下面,根据有界性和单调性给出上面迭代算 处理的关键式子, 法的收敛性证明 在本文中,为了解决基于事件的最优控制设 定理1迭代代价函数序列(J⊙是有上界的,即 计,应该关注两个方面的问题.一方面,需要下一 个时间步的值J广(x(k+1)来获得最优代价函数 0≤0(x()≤了,i∈N,其中,了是一个正常数 J(x(k)和最优控制u(x(s).为了克服获取 证明.令(x(s》为触发时刻s的任意容许控制 J(x(k+1)和求解离散时间HUB方程的困难,下一 输人,4⊙是如下定义的一个序列: 节将介绍一种基于自适应评判设计的迭代结构. A+(xk)=Ux(k),(x(s》+AO(r(k+1)(13) 另一方面,在基于事件的结构中,需要设计一个形 式中,迭代指标取零时的初始值Ao(=0.易知, 如Ile(k)训≤e的事件触发条件,其中,e是正阈值.当 A(x(k)=U(x(k),(x(s).随着迭代指标展开动控制输入,直到下一个事件发生. 基于事件的误 差信号是上述结构的基本组成部分,定义为 e(k) = x(sj)− x(k), k ∈ [sj ,sj+1), j ∈ N (2) x(sj) x(k) x(sj) = x(k)+e(k) u(k) = µ(x(sj)) = µ(x(k)+e(k)) 式中, 是采样状态, 是当前的状态向量. 利 用表达式 , 反馈控制律可以改写为 . 于是,可得 x(k+1) = f(x(k))+g(x(k))µ(x(k)+e(k)), k ∈ N (3) 这可以认为是非线性系统 (1) 的闭环形式. µ ∈ Ψ(Ω) 本文考虑最优控制问题, 需要得到一个反馈 控制律 来最小化 J(x(k)) = ∑∞ ℓ=k U(x(ℓ),µ(x(sj))) (4) µ(x(sj)) = µ(x(k)+e(k)) j ∈ N U(x,u) ⩾ 0,∀x,u U(0,0) = 0 式中, , , 是效用函数,且有 成立. 在本文中,效用 函数选取为二次型形式 U(x(k),µ(x(sj))) = x T (k)Qx(k)+ µ T (x(sj))Pµ(x(sj)) (5) Q ∈ Rn×n P ∈ R 式中涉及到的 和 m×m都是正定矩阵. 回顾著名的最优性原理, 最优代价函数定义为 J ∗ (x(k)) = min {µ(·)} ∑∞ ℓ=k U(x(ℓ),µ(x(sj))) (6) 且满足以下的离散时间 HJB 方程: J ∗ (x(k)) = min µ(x(sj )) {U(x(k),µ(x(sj)))+ J ∗ (x(k+1))} (7) µ ∗ 基于事件触发机制的最优控制策略 (x(sj)) 可 由下式计算: µ ∗ (x(sj)) = arg min µ(x(sj )) {U(x(k),µ(x(sj)))+ J ∗ (x(k+1))} (8) 考虑到仿射型动态系统和二次型效用函数, 则有 µ ∗ (x(sj)) = − 1 2 P −1 g T (x(k)) ∂J ∗ (x(k+1)) ∂x(k+1) (9) 需要注意的是,式 (7) 是动态规划过程中应该 处理的关键式子. J ∗ (x(k+1)) J ∗ (x(k)) µ ∗ (x(sj)) J ∗ (x(k+1)) ||e(k)|| ⩽ e¯ e¯ 在本文中, 为了解决基于事件的最优控制设 计, 应该关注两个方面的问题. 一方面, 需要下一 个时间步的值 来获得最优代价函数 和 最 优 控 制 .  为 了 克 服 获 取 和求解离散时间 HJB 方程的困难, 下一 节将介绍一种基于自适应评判设计的迭代结构. 另一方面, 在基于事件的结构中, 需要设计一个形 如 的事件触发条件, 其中, 是正阈值. 当 一个事件满足此触发条件时, 控制输入才会被更 新. 基于事件控制的主要问题就是如何确定一个 合适的触发阈值, 这也将在下一节介绍. 2    基于事件的迭代自适应评判控制 本节重点介绍基于事件的迭代自适应评判控 制框架, 包括算法收敛性分析, 神经网络实现和触 发条件设计. 2.1    基于事件的迭代算法及其收敛性 {J (i) (x(k))} {µ (i) (x(sj))} i i ∈ N i = 0 J (0)(·) = 0 应该指出的是, 在基于事件的迭代自适应评 判控制方法中, 需要考虑带有触发信息的值函数 学习过程. 选择一个小的正数, 并构造两个迭代序 列 和 , 由此开始执行算法, 其 中, 表示迭代指标且 . 令初始迭代指标 并 且令初始代价函数 . 然后, 迭代控制函数通过 µ (i) (x(sj)) = arg min µ(x(sj )) {U(x(k),µ(x(sj)))+ J (i) (x(k+1))} = − 1 2 P −1 g T (x(k)) ∂J (i) (x(k+1)) ∂x(k+1) (10) x(k+1) = f(x(k))+g(x(k))µ(x(sj)) 进行求解. 在上述参数最小化运算中, 状态向量 . 接下来, 迭代代价函数通过 J (i+1)(x(k)) = min µ(x(sj )) {U(x(k),µ(x(sj))+ J (i) (x(k+1))} (11) 进行更新, 也可以写为 J (i+1)(x(k)) = U ( x(k),µ (i) (x(sj))) + J (i) ( f(x(k))+g(x(k))µ (i) (x(sj))) (12) |J (i+1)(x(k))− J (i) (x(k))| ⩽ ϵ i = i+1 需要注意的是, 当 时, 停止准则生效, 从而获得近似最优控制律. 此外, 通过令 来增加迭代指标, 从而继续求解式 (10) 中的迭代控制函数和更新 (11) 中的迭代代价 函数. 下面, 根据有界性和单调性给出上面迭代算 法的收敛性证明. {J (i) } 0 ⩽ J (i) (x(k)) ⩽ J i ∈ N J 定理 1 迭代代价函数序列 是有上界的,即 , , 其中, 是一个正常数. ζ(x(sj)) sj {A (i) } 证明. 令 为触发时刻 的任意容许控制 输入, 是如下定义的一个序列: A (i+1)(x(k)) = U(x(k), ζ(x(sj)))+ A (i) (x(k+1)) (13) A (0)(·) = 0 A (1)(x(k)) = U(x(k), ζ(x(sj))) i 式中, 迭代指标取零时的初始值 . 易知, .  随 着 迭 代 指 标 展 开 王    鼎: 一类离散动态系统基于事件的迭代神经控制 · 413 ·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有