正在加载图片...
王鼎:一类离散动态系统基于事件的迭代神经控制 415 值得注意的是,执行网络的输人是基于事件 +1)-2(0=-a (aE(s) (30h) 的状态x(s),这与传统评判网络的输入(基于时间 av(D 的状态)不同.学习过程的误差准则为 式中,a>0是需要设计的学习率参数 E(s》=0x(s》-uxs》)x 为清楚起见,图1给出离散时间非线性系统 基于事件的迭代HDP控制的结构简图.其中,实 (aO(x(s》-O(x(s) (29) 线代表信号流向,虚线是两个神经网络的反向 其中,根据式(10)可以直接计算⊙(x(s).相似地, 传播路径.值得注意的是,状态信息被传递到基 于事件的模块用于转换信号状态,传递到被控 执行网络的权重更新算法为 对象用于更新系统状态,传递到评判网络用于 w90+1)-wQ(0=-a (aE(s) (30a) 计算代价函数.因此,系统状态组件包含三个重要 ow(D 角色 Acton Zero-order Controlled Critic network hold plant network xs ax(s》 n(x(k)) rk+1) j(x(k+1)) Neural weight transmission Event-based x() System state Critic +D(K) module information 图1离散动态系统基于事件的迭代HDP框架简图 Fig.I Simple diagram of the event-based iterative heuristic dynamic programming (HDP)framework with discrete dynamic plants 2.3事件触发条件设计 终可以得到 为了确定非线性离散动态系统的具体事件触发条 (35) 件,这里给出文献23-25]中使用的如下假设.值得 Ilek≤px(s∑(2p' 10 注意的是,根据式(3),x(k+1)是关于x()和e(k)的函数. 式中,1=k-5j-1.基于不等式(35),则有触发条件 假设1范数不等式∥e(k)≤x(k)和x(k+I)川≤ Ile(k)训≤e,其中的阈值可以写成 x(k)川+le()成立,其中,x(k+1)由式(3)给出,这 里的正常数B∈(0,0.5). 1-(2β- 1-2Bx(s训.B∈(0,0.5) (36) 定理3如果假设1成立,则触发条件 证毕 Iek训se=1-(2Bk 1-2B(s训,B∈(0,0.5) (31) 定理3提出的触发条件与假设1中的采样状 态和预先指定的常数密切相关,因此并不是唯一 能够保证基于事件的控制器设计的可用性, 的.这个条件是本文提出的事件驱动迭代自适应 证明.考虑到式(3)给出的动态系统和假设1, 评判控制框架的设计基础.为了表明触发条件的 可以得到 作用,图2给出了执行迭代HDP算法之后的事件 Ile(k)≤lIr(k)≤ 驱动控制实现,其中,(x()是已获得的近似最优 x(k-1川+ek-1)川≤ BIle(k-1川+lr(sD+le(k-1川l= 控制器,也就是用于事件驱动设计的实际控制律 2le(k-1)川+lr(sl (32) 图2的蓝色虚线代表下一步迭代的状态,要与当 前的状态区分.当触发条件得以满足时(转向 使用同样的方法,易知 “Y”),控制信号仍然保持之前的值(x(s-).然 Ile(k-1)川≤2e(k-2ll+r(sl (33) 而,当触发条件不被满足时(转向“N”),控制信号 然后,结合式(32)和式(33),则有 将通过执行网络更新成为(x(s).经过零阶保持 Ile(kl≤2β2le(k-2)+r(slD+r(sl(34) 器的作用之后,事件驱动控制信号(x(s-)》或 利用e(s)=0,并如同式(34)一样扩展le(k)儿,最 (x(s》中的一个将被转换成(x(k),最终就可以x(sj) 值得注意的是, 执行网络的输入是基于事件 的状态 , 这与传统评判网络的输入 (基于时间 的状态) 不同. 学习过程的误差准则为 E (i) a (sj) = 1 2 ( µˆ (i) (x(sj))−µ (i) (x(sj)))T × ( µˆ (i) (x(sj))−µ (i) (x(sj))) (29) µ (i) 其中, 根据式 (10) 可以直接计算 (x(sj)). 相似地, 执行网络的权重更新算法为 ω (i) a (l+1)−ω (i) a (l) = −ηa   ∂E (i) a (sj) ∂ω (i) a (l)   (30a) ν (i) a (l+1)−ν (i) a (l) = −ηa   ∂E (i) a (sj) ∂ν (i) a (l)   (30b) 式中, ηa > 0 是需要设计的学习率参数. 为清楚起见, 图 1 给出离散时间非线性系统 基于事件的迭代 HDP 控制的结构简图. 其中, 实 线代表信号流向, 虚线是两个神经网络的反向 传播路径. 值得注意的是, 状态信息被传递到基 于事件的模块用于转换信号状态, 传递到被控 对象用于更新系统状态, 传递到评判网络用于 计算代价函数. 因此, 系统状态组件包含三个重要 角色. Critic network + - U System state information Action network Event-based module Zero-order hold Controlled plant Critic network Neural weight transmission x(sj ) μ (i) (x(sj )) ^ μ (i) (x(k)) ^ J (i) (x(k+1)) ^ J (i+1) (x(k)) ^ x(k+1) x(k) 图 1    离散动态系统基于事件的迭代 HDP 框架简图 Fig.1    Simple diagram of the event-based iterative heuristic dynamic programming (HDP) framework with discrete dynamic plants 2.3    事件触发条件设计 x(k+1) x(k) e(k) 为了确定非线性离散动态系统的具体事件触发条 件, 这里给出文献 [23–25] 中使用的如下假设. 值得 注意的是, 根据式 (3), 是关于 和 的函数. ||e(k)|| ⩽ ||x(k)|| ||x(k+1)|| ⩽ β||x(k)||+β||e(k)|| x(k+1) β ∈ (0,0.5) 假设 1 范数不等式 和 成立, 其中, 由式 (3) 给出, 这 里的正常数 . 定理 3 如果假设 1 成立, 则触发条件 ||e(k)|| ⩽ e¯ = 1−(2β) k−sj 1−2β β||x(sj)||, β ∈ (0,0.5) (31) 能够保证基于事件的控制器设计的可用性. 证明. 考虑到式 (3) 给出的动态系统和假设 1, 可以得到 ||e(k)|| ⩽ ||x(k)|| ⩽ β||x(k−1)||+β||e(k−1)|| ⩽ β(||e(k−1)||+||x(sj)||)+β||e(k−1)|| = 2β||e(k−1)||+β||x(sj)|| (32) 使用同样的方法, 易知 ||e(k−1)|| ⩽ 2β||e(k−2)||+β||x(sj)|| (33) 然后, 结合式 (32) 和式 (33), 则有 ||e(k)|| ⩽ 2β(2β||e(k−2)||+β||x(sj)||)+β||x(sj)|| (34) 利用 e(sj) = 0, 并如同式 (34) 一样扩展 ||e(k)||, 最 终可以得到 ||e(k)|| ⩽ β||x(sj)|| ¯ ∑ l l=0 (2β) l (35) ¯l = k− sj −1 ||e(k)|| ⩽ e¯ 式中, . 基于不等式 (35), 则有触发条件 , 其中的阈值可以写成 e¯ = 1−(2β) k−sj 1−2β β||x(sj)||, β ∈ (0,0.5) (36) 证毕. µˆ ∗ (x(k)) µˆ ∗ (x(sj−1)) µˆ ∗ (x(sj)) µˆ ∗ (x(sj−1)) µˆ ∗ (x(sj)) µˆ ∗ (x(k)) 定理 3 提出的触发条件与假设 1 中的采样状 态和预先指定的常数密切相关, 因此并不是唯一 的. 这个条件是本文提出的事件驱动迭代自适应 评判控制框架的设计基础. 为了表明触发条件的 作用, 图 2 给出了执行迭代 HDP 算法之后的事件 驱动控制实现, 其中, 是已获得的近似最优 控制器, 也就是用于事件驱动设计的实际控制律. 图 2 的蓝色虚线代表下一步迭代的状态, 要与当 前的状态区分 . 当触发条件得以满足 时 (转 向 “Y”), 控制信号仍然保持之前的值 . 然 而, 当触发条件不被满足时 (转向“N”), 控制信号 将通过执行网络更新成为 . 经过零阶保持 器的作用之后 , 事件驱动控制信号 或 中的一个将被转换成 , 最终就可以 王    鼎: 一类离散动态系统基于事件的迭代神经控制 · 415 ·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有