正在加载图片...
416 工程科学学报,第44卷,第3期 x5*(xS-》 x(s) Action *rs》 x(+I) Zero-order *(x(k) Controlled Triggering condition> ell≤e network hold plant x(s) Event-based x() Next state Current state module 图2执行迭代HDP算法之后的事件驱动控制实现过程 Fig.2 Event-based control implementation process after conducting the iterative HDP algorithm 应用于原始被控系统 0.40 3仿真研究 0.35 0.30 本节给出将基于事件迭代自适应评判方法应 用到一些特定动态系统的仿真研究,以验证近似 a 最优控制性能 30.15 例1考虑质量弹簧阻尼器系统的离散化形式4] 0.10 x(k+1)= 0.9996r1(k)+0.0099x2(k) -0.0887x1(k)+0.97x2(k) 0.05 0 0 10.0099 u(k) 0 50 100150200250300 (37) Iteration index 式中,状态向量为x(=[x1(,x2(]I,控制变量是 图3迭代代价函数的收敛性(例1) ().为了解决基于事件的最优调节问题,代价函 Fig.3 Convergence of the iterative cost function(Example 1) 数中的效用参数分别选为Q=0.0112和P=1. 0.5 通过将网络结构预先分别设定为2-8-1(输入 层,隐藏层,输出层神经元的个数)和2-8-1,然后 根据式(27和式(30)在迭代框架中训练评判网络 和执行网络.在训练过程中,选择初始状态x(O)= 0.5 [1,0.5]并且取学习率为e=a=0.1.评判网络和执 行网络的初始权重分别在[-0.1,0.1]和[-0.5,0.5]中 -1.0 随机选取.特别地,需要将基于事件的机制应用于 执行网络.采用迭代HDP算法进行290轮迭代,每 -1.5 ---Case 2 轮迭代设定2000次训练.如果达到预先指定的精 Case 1 度∈=106,就结束评判网络和执行网络的训练,即 2%2 00.2 0.40.60.8 1.0 12 获得满意的学习效果.图3给出了迭代代价函数 图4两种情况下的状态轨迹(例1) 的收敛趋势,也验证了定理1和定理2中的陈述 Fig.4 State trajectory of the two cases (Example 1) 在基于事件的控制设计中,令B=0.1并且指定 触发阈值表达式(36)具体如下: 清楚地看到,正如传统的迭代HDP算法一样,基于 e=1-0.2- 事件情况下的系统状态也能够最终收敛到零向量 lx(s川 (38) 8 顺便指出,触发阈值的变化曲线如图5所示,它随 为了与传统时间驱动方法进行比较,执行两 着系统状态的变化也趋于零.此外,与传统的迭代 种情况,即事件驱动模式和时间驱动模式下的迭 HDP算法相比,基于事件方法的控制曲线呈阶梯 代HDP算法,其中情况I(Casel)是本文提出的事 状,如图6所示.在仿真中,基于时间情形下的控制 件驱动模式,情况2(Case2)是文献[12]中提出的 输入更新了500个时间步,然而在基于事件情况 传统时间驱动模式.图4给出了应用事件驱动迭 下,仅仅需要222个时间步,对应的驱动时刻间隔 代自适应评判方法时的状态响应,其中也给出了 如图7所示.因此,这就验证了基于事件的迭代自 应用传统迭代HDP算法时的状态轨迹.这里,可以 适应评判方法的优越之处,即通信资源的利用效应用于原始被控系统. 3    仿真研究 本节给出将基于事件迭代自适应评判方法应 用到一些特定动态系统的仿真研究, 以验证近似 最优控制性能. 例 1 考虑质量弹簧阻尼器系统的离散化形式[24] x(k+1) = [ 0.9996x1(k)+0.0099x2(k) −0.0887x1(k)+0.97x2(k) ] + [ 0 0.0099 ] u(k) (37) x(k) = [x1(k), x2(k)]T u(k) Q = 0.01I2 P = I 式中, 状态向量为 , 控制变量是 . 为了解决基于事件的最优调节问题, 代价函 数中的效用参数分别选为 和 . x(0) = [1,0.5]T ηc = ηa = 0.1 [−0.1,0.1] [−0.5,0.5] ϵ = 10−6 通过将网络结构预先分别设定为 2–8–1(输入 层, 隐藏层, 输出层神经元的个数) 和 2–8–1, 然后 根据式 (27) 和式 (30) 在迭代框架中训练评判网络 和执行网络. 在训练过程中, 选择初始状态 并且取学习率为 . 评判网络和执 行网络的初始权重分别在 和 中 随机选取. 特别地, 需要将基于事件的机制应用于 执行网络. 采用迭代 HDP 算法进行 290 轮迭代, 每 轮迭代设定 2000 次训练. 如果达到预先指定的精 度 , 就结束评判网络和执行网络的训练, 即 获得满意的学习效果. 图 3 给出了迭代代价函数 的收敛趋势, 也验证了定理 1 和定理 2 中的陈述. 在基于事件的控制设计中, 令 β = 0.1 并且指定 触发阈值表达式 (36) 具体如下: e¯ = 1−0.2 k−sj 8 ||x(sj)|| (38) 为了与传统时间驱动方法进行比较, 执行两 种情况, 即事件驱动模式和时间驱动模式下的迭 代 HDP 算法, 其中情况 1(Case1) 是本文提出的事 件驱动模式, 情况 2(Case2) 是文献 [12] 中提出的 传统时间驱动模式. 图 4 给出了应用事件驱动迭 代自适应评判方法时的状态响应, 其中也给出了 应用传统迭代 HDP 算法时的状态轨迹. 这里, 可以 清楚地看到, 正如传统的迭代 HDP 算法一样, 基于 事件情况下的系统状态也能够最终收敛到零向量. 顺便指出, 触发阈值的变化曲线如图 5 所示, 它随 着系统状态的变化也趋于零. 此外, 与传统的迭代 HDP 算法相比, 基于事件方法的控制曲线呈阶梯 状, 如图 6 所示. 在仿真中, 基于时间情形下的控制 输入更新了 500 个时间步, 然而在基于事件情况 下, 仅仅需要 222 个时间步, 对应的驱动时刻间隔 如图 7 所示. 因此, 这就验证了基于事件的迭代自 适应评判方法的优越之处, 即通信资源的利用效 Action network Next state Triggering condition Current state N Y Controlled plant x(sj−1), μ*(x(sj−1)) x(sj ) ||e||≤e − Zero-order hold Event-based module ^ μ*(x(sj )) ^ μ*(x(k)) ^ x(k+1) x(sj ) x(k) 图 2    执行迭代 HDP 算法之后的事件驱动控制实现过程 Fig.2    Event-based control implementation process after conducting the iterative HDP algorithm 0.40 0.35 0.30 0.25 0.20 0.15 0.10 0.05 0 0 50 100 150 Iteration index Cost function 200 250 300 图 3    迭代代价函数的收敛性 (例 1) Fig.3    Convergence of the iterative cost function (Example 1) 0.5 0 −0.5 −1.0 −1.5 −2.0 −0.2 0 0.2 0.4 x1 x2 0.6 Case 2 Case 1 0.8 1.0 1.2 图 4    两种情况下的状态轨迹 (例 1) Fig.4    State trajectory of the two cases (Example 1) · 416 · 工程科学学报,第 44 卷,第 3 期
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有