应用于原始被控系统. 3 仿_中国高校课件下载中心

正在加载图片...

416 工程科学学报，第44卷，第3期 x5*(xS-》 x(s) Action *rs》 x(+I) Zero-order *(x(k) Controlled Triggering condition> ell≤e network hold plant x(s) Event-based x() Next state Current state module 图2执行迭代HDP算法之后的事件驱动控制实现过程 Fig.2 Event-based control implementation process after conducting the iterative HDP algorithm 应用于原始被控系统 0.40 3仿真研究 0.35 0.30 本节给出将基于事件迭代自适应评判方法应用到一些特定动态系统的仿真研究，以验证近似 a 最优控制性能 30.15 例1考虑质量弹簧阻尼器系统的离散化形式4] 0.10 x(k+1)= 0.9996r1(k)+0.0099x2(k) -0.0887x1(k)+0.97x2(k) 0.05 0 0 10.0099 u(k) 0 50 100150200250300 (37) Iteration index 式中，状态向量为x(=[x1(,x2(]I,控制变量是图3迭代代价函数的收敛性（例1） ().为了解决基于事件的最优调节问题，代价函 Fig.3 Convergence of the iterative cost function(Example 1) 数中的效用参数分别选为Q=0.0112和P=1. 0.5 通过将网络结构预先分别设定为2-8-1（输入层，隐藏层，输出层神经元的个数)和2-8-1，然后根据式(27和式(30)在迭代框架中训练评判网络和执行网络.在训练过程中，选择初始状态x(O)= 0.5 [1,0.5]并且取学习率为e=a=0.1.评判网络和执行网络的初始权重分别在[-0.1,0.1]和[-0.5,0.5]中 -1.0 随机选取.特别地，需要将基于事件的机制应用于执行网络.采用迭代HDP算法进行290轮迭代，每 -1.5 ---Case 2 轮迭代设定2000次训练.如果达到预先指定的精 Case 1 度∈=106，就结束评判网络和执行网络的训练，即 2%2 00.2 0.40.60.8 1.0 12 获得满意的学习效果.图3给出了迭代代价函数图4两种情况下的状态轨迹（例1）的收敛趋势，也验证了定理1和定理2中的陈述 Fig.4 State trajectory of the two cases (Example 1) 在基于事件的控制设计中，令B=0.1并且指定触发阈值表达式(36)具体如下：清楚地看到，正如传统的迭代HDP算法一样，基于 e=1-0.2- 事件情况下的系统状态也能够最终收敛到零向量 lx(s川 (38) 8 顺便指出，触发阈值的变化曲线如图5所示，它随为了与传统时间驱动方法进行比较，执行两着系统状态的变化也趋于零.此外，与传统的迭代种情况，即事件驱动模式和时间驱动模式下的迭 HDP算法相比，基于事件方法的控制曲线呈阶梯代HDP算法，其中情况I(Casel)是本文提出的事状，如图6所示.在仿真中，基于时间情形下的控制件驱动模式，情况2(Case2)是文献[12]中提出的输入更新了500个时间步，然而在基于事件情况传统时间驱动模式.图4给出了应用事件驱动迭下，仅仅需要222个时间步，对应的驱动时刻间隔代自适应评判方法时的状态响应，其中也给出了如图7所示.因此，这就验证了基于事件的迭代自应用传统迭代HDP算法时的状态轨迹.这里，可以适应评判方法的优越之处，即通信资源的利用效应用于原始被控系统. 3 仿真研究本节给出将基于事件迭代自适应评判方法应用到一些特定动态系统的仿真研究, 以验证近似最优控制性能. 例 1 考虑质量弹簧阻尼器系统的离散化形式[24] x(k+1) = [ 0.9996x1(k)+0.0099x2(k) −0.0887x1(k)+0.97x2(k) ] + [ 0 0.0099 ] u(k) （37） x(k) = [x1(k), x2(k)]T u(k) Q = 0.01I2 P = I 式中, 状态向量为 , 控制变量是 . 为了解决基于事件的最优调节问题, 代价函数中的效用参数分别选为和 . x(0) = [1,0.5]T ηc = ηa = 0.1 [−0.1,0.1] [−0.5,0.5] ϵ = 10−6 通过将网络结构预先分别设定为 2–8–1(输入层, 隐藏层, 输出层神经元的个数) 和 2–8–1, 然后根据式 (27) 和式 (30) 在迭代框架中训练评判网络和执行网络. 在训练过程中, 选择初始状态并且取学习率为 . 评判网络和执行网络的初始权重分别在和中随机选取. 特别地, 需要将基于事件的机制应用于执行网络. 采用迭代 HDP 算法进行 290 轮迭代, 每轮迭代设定 2000 次训练. 如果达到预先指定的精度 , 就结束评判网络和执行网络的训练, 即获得满意的学习效果. 图 3 给出了迭代代价函数的收敛趋势, 也验证了定理 1 和定理 2 中的陈述. 在基于事件的控制设计中, 令 β = 0.1 并且指定触发阈值表达式 (36) 具体如下: e¯ = 1−0.2 k−sj 8 ||x(sj)|| （38）为了与传统时间驱动方法进行比较, 执行两种情况, 即事件驱动模式和时间驱动模式下的迭代 HDP 算法, 其中情况 1(Case1) 是本文提出的事件驱动模式, 情况 2(Case2) 是文献 [12] 中提出的传统时间驱动模式. 图 4 给出了应用事件驱动迭代自适应评判方法时的状态响应, 其中也给出了应用传统迭代 HDP 算法时的状态轨迹. 这里, 可以清楚地看到, 正如传统的迭代 HDP 算法一样, 基于事件情况下的系统状态也能够最终收敛到零向量. 顺便指出, 触发阈值的变化曲线如图 5 所示, 它随着系统状态的变化也趋于零. 此外, 与传统的迭代 HDP 算法相比, 基于事件方法的控制曲线呈阶梯状, 如图 6 所示. 在仿真中, 基于时间情形下的控制输入更新了 500 个时间步, 然而在基于事件情况下, 仅仅需要 222 个时间步, 对应的驱动时刻间隔如图 7 所示. 因此, 这就验证了基于事件的迭代自适应评判方法的优越之处, 即通信资源的利用效 Action network Next state Triggering condition Current state N Y Controlled plant x(sj−1), μ*(x(sj−1)) x(sj ) ||e||≤e − Zero-order hold Event-based module ^ μ*(x(sj )) ^ μ*(x(k)) ^ x(k+1) x(sj ) x(k) 图 2 执行迭代 HDP 算法之后的事件驱动控制实现过程 Fig.2 Event-based control implementation process after conducting the iterative HDP algorithm 0.40 0.35 0.30 0.25 0.20 0.15 0.10 0.05 0 0 50 100 150 Iteration index Cost function 200 250 300 图 3 迭代代价函数的收敛性 (例 1) Fig.3 Convergence of the iterative cost function (Example 1) 0.5 0 −0.5 −1.0 −1.5 −2.0 −0.2 0 0.2 0.4 x1 x2 0.6 Case 2 Case 1 0.8 1.0 1.2 图 4 两种情况下的状态轨迹 (例 1) Fig.4 State trajectory of the two cases (Example 1) · 416 · 工程科学学报，第 44 卷，第 3 期

<<向上翻页向下翻页>>

点击下载：《工程科学学报》：一类离散动态系统基于事件的迭代神经控制