《工程科学学报》：一类离散动态系统基于事件的迭代神经控制

团购合买资源类别：文库，文档格式：PDF，文档页数：10，文件大小：1.32MB

工程科学学报 Chinese Journal of Engineering 一类离散动态系统基于事件的送代神经控制王鼎 Event-based iterative neural control for a type of discrete dynamic plant WANG Ding 引用本文：王鼎.一类离散动态系统基于事件的迭代神经控制[.工程科学学报，2022,44(3)：411-419.doi:10.13374/j.issn2095- 9389.2020.10.28.002 WANG Ding.Event-based iterative neural control for a type of discrete dynamic plant[J].Chinese Journal of Engineering.2022. 443:411-419.doi:10.13374.issn2095-9389.2020.10.28.002 在线阅读View online::htps:/ldoi.org/10.13374.issn2095-9389.2020.10.28.002 您可能感兴趣的其他文章 Articles you may be interested in 基于有限时间滤波控制的电机驱动系统结构控制一体化设计 Plant/controller co-design of motor driving systems based on finite-time filtering control 工程科学学报.2019.41(9y:1194 https::/1doi.org10.13374.issn2095-9389.2019.09.011 基于嵌套饱和的输入约束浮空器非线性控制 Nonlinear control of aerostat with input constraints based on nested saturation 工程科学学报.2018.40(12：1557htps:ldoi.org10.13374.issn2095-9389.2018.12.015 多模型自适应控制理论及应用 Survey of multi-model adaptive control theory and its applications 工程科学学报.2020,42(2：135 https::/1doi.0rg/10.13374.issn2095-9389.2019.02.25.006 基于非线性模型预测控制的自动泊车路径跟踪 Path tracking of automatic parking based on nonlinear model predictive control 工程科学学报.2019,41(7：947 https:oi.org10.13374j.issn2095-9389.2019.07.014 基于自适应滑模的多螺旋桨浮空器容错控制 Fault-tolerant control for a multi-propeller airship based on adaptive sliding mode method 工程科学学报.2020,423：372 https::/1doi.org/10.13374.issn2095-9389.2019.04.25.002 无人直升机自抗扰自适应轨迹跟踪混合控制 Trajectory-tracking hybrid controller based on ADRC and adaptive control for unmanned helicopters 工程科学学报.2017,3911：1743htps:/doi.org/10.13374.issn2095-9389.2017.11.018

一类离散动态系统基于事件的迭代神经控制王鼎 Event-based iterative neural control for a type of discrete dynamic plant WANG Ding 引用本文: 王鼎. 一类离散动态系统基于事件的迭代神经控制[J]. 工程科学学报, 2022, 44(3): 411-419. doi: 10.13374/j.issn2095- 9389.2020.10.28.002 WANG Ding. Event-based iterative neural control for a type of discrete dynamic plant[J]. Chinese Journal of Engineering, 2022, 44(3): 411-419. doi: 10.13374/j.issn2095-9389.2020.10.28.002 在线阅读 View online: https://doi.org/10.13374/j.issn2095-9389.2020.10.28.002 您可能感兴趣的其他文章 Articles you may be interested in 基于有限时间滤波控制的电机驱动系统结构/控制一体化设计 Plant/controller co-design of motor driving systems based on finite-time filtering control 工程科学学报. 2019, 41(9): 1194 https://doi.org/10.13374/j.issn2095-9389.2019.09.011 基于嵌套饱和的输入约束浮空器非线性控制 Nonlinear control of aerostat with input constraints based on nested saturation 工程科学学报. 2018, 40(12): 1557 https://doi.org/10.13374/j.issn2095-9389.2018.12.015 多模型自适应控制理论及应用 Survey of multi-model adaptive control theory and its applications 工程科学学报. 2020, 42(2): 135 https://doi.org/10.13374/j.issn2095-9389.2019.02.25.006 基于非线性模型预测控制的自动泊车路径跟踪 Path tracking of automatic parking based on nonlinear model predictive control 工程科学学报. 2019, 41(7): 947 https://doi.org/10.13374/j.issn2095-9389.2019.07.014 基于自适应滑模的多螺旋桨浮空器容错控制 Fault-tolerant control for a multi-propeller airship based on adaptive sliding mode method 工程科学学报. 2020, 42(3): 372 https://doi.org/10.13374/j.issn2095-9389.2019.04.25.002 无人直升机自抗扰自适应轨迹跟踪混合控制 Trajectory-tracking hybrid controller based on ADRC and adaptive control for unmanned helicopters 工程科学学报. 2017, 39(11): 1743 https://doi.org/10.13374/j.issn2095-9389.2017.11.018

工程科学学报.第44卷，第3期：411-419.2022年3月 Chinese Journal of Engineering,Vol.44,No.3:411-419,March 2022 https://doi.org/10.13374/j.issn2095-9389.2020.10.28.002;http://cje.ustb.edu.cn 一类离散动态系统基于事件的迭代神经控制王鼎1,23,4✉ 1)北京工业大学信息学部.北京1001242)计算智能与智能系统北京市重点实验室，北京1001243)智慧环保北京实验室，北京100124 4)北京人工智能研究院，北京100124 ☒通信作者，E-mail:dingwang@bjut.edu.cn 摘要面向离散时间非线性动态系统，提出一种基于事件的迭代神经控制框架.主要目标是将迭代自适应评判方法与事件驱动机制结合起来，以解决离散时间非线性系统的近似最优调节问题.首先，构造两个迭代序列并建立一种事件触发的值学习策略.其次，详细给出迭代算法的收敛性分析和新型框架的神经网络实现.这里是在基于事件的迭代环境下实施启发式动态规划技术.此外，通过设计适当的阈值以确定事件驱动方法的触发条件，最后，借助两个仿真实例验证本文控制方案的优越性能，尤其是在通信资源的利用方面.本文的工作有助于构建一类事件驱动机制下的智能控制系统关键词迭代自适应评判：神经控制：事件驱动设计：智能控制：非线性动态：优化控制分类号TP13 Event-based iterative neural control for a type of discrete dynamic plant WANG Ding 23A 1)Faculty of Information Technology,Beijing University of Technology,Beijing 100124,China 2)Beijing Key Laboratory of Computational Intelligence and Intelligent System,Beijing 100124,China 3)Beijing Laboratory of Smart Environmental Protection,Beijing 100124,China 4)Beijing Institute of Artificial Intelligence,Beijing 100124,China Corresponding author,E-mail:dingwang @bjut.edu.cn ABSTRACT With the widespread popularity of network-based techniques and extension of computer control scales,more dynamical systems,particularly complex nonlinear dynamics,including increasing communication burdens,increasing difficulties in building accurate mathematical models,and different uncertain factors are encountered.Consequently,in contrast to the linear case,the optimization of the design of these uncertain complex systems is difficult to achieve.By combining reinforcement learning,neural networks,and dynamic programming,the adaptive critic method is regarded as an advanced approach to address intelligent control problems.The adaptive critic method has been currently used to solve the optimal regulation,trajectory tracking,robust control, disturbance attenuation,and zero-sum game problems.It has been considered a promising direction within the artificial intelligence field. However,many traditional design processes of the adaptive critic method are conducted based on the time-based mechanism,where the control signals are updated at each time step.Thus,the related control efficiencies are often low,which results in poor performance when considering practical updating times.Hence,more improvements are needed to enhance the control efficiency of adaptive-critic-based nonlinear control design.In this study,we developed an event-based iterative neural control framework for discrete-time nonlinear dynamics.The iterative adaptive critic method was combined with the event-driven mechanism to address the approximate optimal regulation problem in discrete-time nonlinear plants.An event-triggered value learning strategy was established with two iterative 收稿日期：2020-10-28 基金项目：北京市自然科学基金资助项目(JQ19013):国家自然科学基金资助项目(61773373,61890930-5,62021003)：科技创新 2030一一“新一代人工智能”重大项目(2021ZD0112300-2);国家重点研发计划资助项目(2018YFC1900800-5)

一类离散动态系统基于事件的迭代神经控制王鼎1,2,3,4) 苣 1) 北京工业大学信息学部，北京 100124 2) 计算智能与智能系统北京市重点实验室，北京 100124 3) 智慧环保北京实验室，北京 100124 4) 北京人工智能研究院，北京 100124 苣通信作者， E-mail: dingwang@bjut.edu.cn 摘要面向离散时间非线性动态系统，提出一种基于事件的迭代神经控制框架. 主要目标是将迭代自适应评判方法与事件驱动机制结合起来，以解决离散时间非线性系统的近似最优调节问题. 首先，构造两个迭代序列并建立一种事件触发的值学习策略. 其次，详细给出迭代算法的收敛性分析和新型框架的神经网络实现. 这里是在基于事件的迭代环境下实施启发式动态规划技术. 此外，通过设计适当的阈值以确定事件驱动方法的触发条件. 最后，借助两个仿真实例验证本文控制方案的优越性能，尤其是在通信资源的利用方面. 本文的工作有助于构建一类事件驱动机制下的智能控制系统. 关键词迭代自适应评判；神经控制；事件驱动设计；智能控制；非线性动态；优化控制分类号 TP13 Event-based iterative neural control for a type of discrete dynamic plant WANG Ding1,2,3,4) 苣 1) Faculty of Information Technology, Beijing University of Technology, Beijing 100124, China 2) Beijing Key Laboratory of Computational Intelligence and Intelligent System, Beijing 100124, China 3) Beijing Laboratory of Smart Environmental Protection, Beijing 100124, China 4) Beijing Institute of Artificial Intelligence, Beijing 100124, China 苣 Corresponding author, E-mail: dingwang@bjut.edu.cn ABSTRACT With the widespread popularity of network-based techniques and extension of computer control scales, more dynamical systems, particularly complex nonlinear dynamics, including increasing communication burdens, increasing difficulties in building accurate mathematical models, and different uncertain factors are encountered. Consequently, in contrast to the linear case, the optimization of the design of these uncertain complex systems is difficult to achieve. By combining reinforcement learning, neural networks, and dynamic programming, the adaptive critic method is regarded as an advanced approach to address intelligent control problems. The adaptive critic method has been currently used to solve the optimal regulation, trajectory tracking, robust control, disturbance attenuation, and zero-sum game problems. It has been considered a promising direction within the artificial intelligence field. However, many traditional design processes of the adaptive critic method are conducted based on the time-based mechanism, where the control signals are updated at each time step. Thus, the related control efficiencies are often low, which results in poor performance when considering practical updating times. Hence, more improvements are needed to enhance the control efficiency of adaptive-critic-based nonlinear control design. In this study, we developed an event-based iterative neural control framework for discrete-time nonlinear dynamics. The iterative adaptive critic method was combined with the event-driven mechanism to address the approximate optimal regulation problem in discrete-time nonlinear plants. An event-triggered value learning strategy was established with two iterative 收稿日期: 2020−10−28 基金项目: 北京市自然科学基金资助项目（ JQ19013）；国家自然科学基金资助项目（ 61773373, 61890930-5, 62021003）；科技创新 2030——“新一代人工智能”重大项目（2021ZD0112300-2）；国家重点研发计划资助项目（2018YFC1900800-5）工程科学学报，第 44 卷，第 3 期：411−419，2022 年 3 月 Chinese Journal of Engineering, Vol. 44, No. 3: 411−419, March 2022 https://doi.org/10.13374/j.issn2095-9389.2020.10.28.002; http://cje.ustb.edu.cn

412 工程科学学报，第44卷.第3期 sequences.The convergence analysis of the iterative algorithm and the neural network implementation of the new framework were presented in detail.Therein,the heuristic dynamic programming technique was employed under the event-based iterative environment Moreover,the triggering condition of the event-driven approach was determined with the appropriate threshold.Finally,simulation examples were provided to illustrate the excellent control performance,particularly in utilizing the communication resource.Thus, constructing a class of intelligent control systems based on the event-based mechanism will be helpful. KEY WORDS iterative adaptive critic;neural control;event-based design;intelligent control;nonlinear dynamics;optimal control 在许多数值计算过程中，神经网络都被视为系统，目前基于事件的迭代自适应评判控制的研一种能够用于参数学习和函数逼近的重要方法，究成果还比较少解决非线性最优反馈控制问题的关键在于如何求基于以上背景，本文提出一种适用于离散时解复杂的Hamilton-Jacobi-Bellman(HJB)方程.由间最优调节问题的事件驱动迭代神经网络策略于缺乏解析策略，文献[]构造了基于神经网络的通过收敛性分析和HDP实现，得到基于事件环境自适应评判算法来获取满意的数值结果.近年来，下的迭代自适应评判算法.然后为基于事件的离基于自适应评判结构的控制系统设计受到很多关散时间动态系统设计一个实用的触发条件.众所注，在解决优化调节，跟踪控制，鲁棒镇定，干扰抑周知，迭代自适应评判方法在学习近似最优控制制，零和博弈等方面取得不少成果2-川当考虑实方面具有重要意义，而事件驱动机制在通信资源现过程时，自适应评判有三种基本类型的技术，包利用方面优势明显.因此，将这两种机制结合起来，括启发式动态规划(Heuristic dynamic programming, 可以得到一种有效的离散时间非线性系统的事件 HDP),二次启发式规划(Dual HDP,DHP)和全局二驱动迭代神经控制方法.也就是说，通过本文的研次启发式规划(Globalized DHP,GDHP)I.近年来，究，迭代自适应评判控制和事件驱动控制的应用离散时间情形下的迭代自适应评判结构已被分别范围都将得到扩大用以处理包含HDP2,DHPI1和GDHP1结构的在本文中，R是所有实数的集合.R"是所有n维近似最优调节问题.进而，目标导向型迭代HDP设实向量组成的欧氏空间.设2是的一个紧集并且计的理论分析也在文献[15]中给出.文献[16]提平(2)是上容许控制律的集合.Rmxm是所有n×m维出一种用于离散时间未知非仿射非线性系统的在实矩阵组成的空间.是中向量的向量范数或线学习最优控制方法，并着重强调基于数据的自 Rxm中矩阵的矩阵范数.In是n×n维的单位矩阵适应评判设计过程，需要注意的是，上述这些自适 N代表所有非负整数的集合，即0,1,2，….上标应评判算法是利用基于时间的更新方法来实现的， “T”代表转置操作所设计的控制器在每个时刻都进行更新，存在着定的资源浪费现象 1问题描述与经典的时间驱动机制相比，基于事件的方本文考虑由下式描述的一类离散时间非线性法已经成为提高资源利用效率的先进工具.它不动态系统：仅能够用于传统的反馈镇定7和容错控制8，而 (1) 且已经在忆阻系统的脉冲控制中得到应用.针 x(k+1)=f(x(k))+g(x(k))u(k),kEN 对传统时间驱动模式存在通信资源浪费的问题0，式中，x()∈R是状态变量，u()∈R"是控制输入，文献21]讨论了事件驱动环境下的神经控制实现 f)和g(是可微的并且有f0)=0.通常令x(O)作为方法.值得注意的是，在基于事件的控制框架中，初始状态.假设f+gu在包含原点的集合ΩcR”上般根据指定的触发条件来更新控制信号.文献[22] 一是Lipschitz连续的.此外，假设系统(I)可以在集合给出一种基于广义模糊双曲模型的非零和博弈事 2上借助一个状态反馈控制律u()=μ(x(k)来镇定件触发设计.另一方面，基于文献[23]的工作，Dong 为了描述基于事件的设计框架，定义单调递等针对非线性离散时间系统提出一种基于事件增序列sc其中，jeN.这里，基于事件的控制的HDP算法.文献[25]则针对约束非线性系统基信号仅在采样时刻s0,51,52,更新.于是，反馈控制于事件的最优控制设计进行了扩展研究.文献[26] 律可以表示为u(k)=μ(x(s),其中，x(s)是关于时刻设计一种实时事件驱动自适应评判控制器，并将 k=s的状态，k∈[s,S*1),j∈N.在这种结构下，需其应用于实际的电力系统中，然而，关于离散动态要一个零阶保持器来保持在时刻k=s时的事件驱

sequences. The convergence analysis of the iterative algorithm and the neural network implementation of the new framework were presented in detail. Therein, the heuristic dynamic programming technique was employed under the event-based iterative environment. Moreover, the triggering condition of the event-driven approach was determined with the appropriate threshold. Finally, simulation examples were provided to illustrate the excellent control performance, particularly in utilizing the communication resource. Thus, constructing a class of intelligent control systems based on the event-based mechanism will be helpful. KEY WORDS iterative adaptive critic；neural control；event-based design；intelligent control；nonlinear dynamics；optimal control 在许多数值计算过程中, 神经网络都被视为一种能够用于参数学习和函数逼近的重要方法. 解决非线性最优反馈控制问题的关键在于如何求解复杂的 Hamilton-Jacobi-Bellman (HJB) 方程 . 由于缺乏解析策略, 文献 [1] 构造了基于神经网络的自适应评判算法来获取满意的数值结果. 近年来, 基于自适应评判结构的控制系统设计受到很多关注, 在解决优化调节, 跟踪控制, 鲁棒镇定, 干扰抑制, 零和博弈等方面取得不少成果[2–11] . 当考虑实现过程时, 自适应评判有三种基本类型的技术, 包括启发式动态规划 (Heuristic dynamic programming, HDP), 二次启发式规划 (Dual HDP, DHP) 和全局二次启发式规划 (Globalized DHP, GDHP)[1] . 近年来, 离散时间情形下的迭代自适应评判结构已被分别用以处理包含 HDP[12] , DHP[13] 和 GDHP[14] 结构的近似最优调节问题. 进而, 目标导向型迭代 HDP 设计的理论分析也在文献 [15] 中给出. 文献 [16] 提出一种用于离散时间未知非仿射非线性系统的在线学习最优控制方法, 并着重强调基于数据的自适应评判设计过程. 需要注意的是, 上述这些自适应评判算法是利用基于时间的更新方法来实现的, 所设计的控制器在每个时刻都进行更新, 存在着一定的资源浪费现象. 与经典的时间驱动机制相比, 基于事件的方法已经成为提高资源利用效率的先进工具. 它不仅能够用于传统的反馈镇定[17] 和容错控制[18] , 而且已经在忆阻系统的脉冲控制中得到应用[19] . 针对传统时间驱动模式存在通信资源浪费的问题[20] , 文献 [21] 讨论了事件驱动环境下的神经控制实现方法. 值得注意的是, 在基于事件的控制框架中, 一般根据指定的触发条件来更新控制信号. 文献 [22] 给出一种基于广义模糊双曲模型的非零和博弈事件触发设计. 另一方面, 基于文献 [23] 的工作, Dong 等[24] 针对非线性离散时间系统提出一种基于事件的 HDP 算法. 文献 [25] 则针对约束非线性系统基于事件的最优控制设计进行了扩展研究. 文献 [26] 设计一种实时事件驱动自适应评判控制器, 并将其应用于实际的电力系统中. 然而, 关于离散动态系统, 目前基于事件的迭代自适应评判控制的研究成果还比较少. 基于以上背景, 本文提出一种适用于离散时间最优调节问题的事件驱动迭代神经网络策略. 通过收敛性分析和 HDP 实现, 得到基于事件环境下的迭代自适应评判算法. 然后为基于事件的离散时间动态系统设计一个实用的触发条件. 众所周知, 迭代自适应评判方法在学习近似最优控制方面具有重要意义, 而事件驱动机制在通信资源利用方面优势明显. 因此, 将这两种机制结合起来, 可以得到一种有效的离散时间非线性系统的事件驱动迭代神经控制方法. 也就是说, 通过本文的研究, 迭代自适应评判控制和事件驱动控制的应用范围都将得到扩大. R R n n Ω R n Ψ(Ω) R n×m n×m ∥ · ∥ R n R n×m In n×n N {0,1,2,...} 在本文中，是所有实数的集合. 是所有维实向量组成的欧氏空间. 设是的一个紧集并且是上容许控制律的集合. 是所有维实矩阵组成的空间. 是中向量的向量范数或中矩阵的矩阵范数. 是维的单位矩阵. 代表所有非负整数的集合, 即 . 上标 “T”代表转置操作. 1 问题描述本文考虑由下式描述的一类离散时间非线性动态系统: x(k+1) = f(x(k))+g(x(k))u(k), k ∈ N （1） x(k) ∈ Rn u(k) ∈ Rm f(·) g(·) f(0) = 0 x(0) f +gu Ω ⊂ Rn Ω u(k) = µ(x(k)) 式中，是状态变量, 是控制输入, 和是可微的并且有 . 通常令作为初始状态. 假设在包含原点的集合上是 Lipschitz 连续的. 此外，假设系统 (1) 可以在集合上借助一个状态反馈控制律来镇定. {sj} ∞ j=0 j ∈ N s0 s1 s2 ... u(k) = µ(x(sj)) x(sj) k = sj k ∈ [sj ,sj+1) j ∈ N k = sj 为了描述基于事件的设计框架，定义单调递增序列 , 其中, . 这里, 基于事件的控制信号仅在采样时刻 , , , 更新. 于是, 反馈控制律可以表示为 , 其中, 是关于时刻的状态， , . 在这种结构下, 需要一个零阶保持器来保持在时刻时的事件驱 · 412 · 工程科学学报，第 44 卷，第 3 期

王鼎：一类离散动态系统基于事件的迭代神经控制 413 动控制输入，直到下一个事件发生.基于事件的误一个事件满足此触发条件时，控制输入才会被更差信号是上述结构的基本组成部分，定义为新.基于事件控制的主要问题就是如何确定一个 ek)=x(s）-x(,k∈[sj,siti,jeN (2) 合适的触发阈值，这也将在下一节介绍式中，x(s)是采样状态，x(是当前的状态向量.利 2基于事件的迭代自适应评判控制用表达式x(s)=x()+e(),反馈控制律可以改写为 u()=μ(x(s》=μ(x()+e(k).于是，可得本节重点介绍基于事件的迭代自适应评判控 x(k+1)=fx(k)+g(x(k)μ(ax(k)+e(k),k∈N(3) 制框架，包括算法收敛性分析，神经网络实现和触这可以认为是非线性系统()的闭环形式发条件设计本文考虑最优控制问题，需要得到一个反馈 2.1基于事件的迭代算法及其收敛性控制律μ∈平(2)来最小化应该指出的是，在基于事件的迭代自适应评 JIxW)=元UO,4Krs》判控制方法中，需要考虑带有触发信息的值函数 (4) 学习过程.选择一个小的正数，并构造两个迭代序 l=k 列(x()和μO(x(s》,由此开始执行算法，其式中，μ(x(s》=μ(x(k)+e(k),jeN,U(x,)≥0，x,u 中，表示迭代指标且i∈N.令初始迭代指标i=0并是效用函数，且有U0,0)=0成立.在本文中，效用且令初始代价函数J0(=0 函数选取为二次型形式然后，迭代控制函数通过 U(x(k).u(x(si)))=x(k)Qx(k)+ O(x(s》=arg min{U(x(k),μ(x(s》+ μ(x(s)Pμ(x(s》 (5) u(x(s;)) 式中涉及到的Q∈Rx和P∈Rmxm都是正定矩阵. Jo(x(k+1)》= 回顾著名的最优性原理，最优代价函数定义为 -》 ox(k+1) (10) ra》=min ox,As》 (6) 进行求解.在上述参数最小化运算中，状态向量 ()l x(k+1)=f(x(k))+g(x(k))(x(si)) 且满足以下的离散时间HB方程：接下来，迭代代价函数通过 J'(x(k)=min{U(ax(k),μ(ax(s》+ xtsi)) i+D)(x(k))=min (U(x(k).u(x(sj))+ (s》 J厂(x(k+1)》 (7) J0(x(k+1)》 (11) 基于事件触发机制的最优控制策略(x(s)》可进行更新，也可以写为由下式计算： Ji+D(x(k))=U(x(k).H(D(x(sj)+ μ`(r(sj)=arg min{U(r(k),μ(r(sj》+ u(x(s;)) J(f(x(k))+g(x(k))(x(sj)) (12) J(x(k+1)》 (8) 需要注意的是，当Ji+D(x()-J@(x()训≤e时，考虑到仿射型动态系统和二次型效用函数，停止准则生效，从而获得近似最优控制律.此外，则有通过令i=i+1来增加迭代指标，从而继续求解式 rs》=-P产gWrk+I》 1 (9) a0x(k+1) (10)中的迭代控制函数和更新(11)中的迭代代价函数需要注意的是，式(7)是动态规划过程中应该下面，根据有界性和单调性给出上面迭代算处理的关键式子，法的收敛性证明在本文中，为了解决基于事件的最优控制设定理1迭代代价函数序列(J⊙是有上界的，即计，应该关注两个方面的问题.一方面，需要下一个时间步的值J广(x(k+1)来获得最优代价函数 0≤0(x()≤了，i∈N,其中，了是一个正常数 J(x(k)和最优控制u(x(s).为了克服获取证明.令(x(s》为触发时刻s的任意容许控制 J(x(k+1)和求解离散时间HUB方程的困难，下一输人，4⊙是如下定义的一个序列：节将介绍一种基于自适应评判设计的迭代结构. A+(xk)=Ux(k),(x(s》+AO(r(k+1)(13) 另一方面，在基于事件的结构中，需要设计一个形式中，迭代指标取零时的初始值Ao(=0.易知，如Ile(k)训≤e的事件触发条件，其中，e是正阈值.当 A(x(k)=U(x(k),(x(s).随着迭代指标展开

动控制输入，直到下一个事件发生. 基于事件的误差信号是上述结构的基本组成部分，定义为 e(k) = x(sj)− x(k), k ∈ [sj ,sj+1), j ∈ N （2） x(sj) x(k) x(sj) = x(k)+e(k) u(k) = µ(x(sj)) = µ(x(k)+e(k)) 式中, 是采样状态, 是当前的状态向量. 利用表达式 , 反馈控制律可以改写为 . 于是，可得 x(k+1) = f(x(k))+g(x(k))µ(x(k)+e(k)), k ∈ N （3）这可以认为是非线性系统 (1) 的闭环形式. µ ∈ Ψ(Ω) 本文考虑最优控制问题, 需要得到一个反馈控制律来最小化 J(x(k)) = ∑∞ ℓ=k U(x(ℓ),µ(x(sj))) （4） µ(x(sj)) = µ(x(k)+e(k)) j ∈ N U(x,u) ⩾ 0,∀x,u U(0,0) = 0 式中, ， , 是效用函数，且有成立. 在本文中，效用函数选取为二次型形式 U(x(k),µ(x(sj))) = x T (k)Qx(k)+ µ T (x(sj))Pµ(x(sj)) （5） Q ∈ Rn×n P ∈ R 式中涉及到的和 m×m都是正定矩阵. 回顾著名的最优性原理, 最优代价函数定义为 J ∗ (x(k)) = min {µ(·)} ∑∞ ℓ=k U(x(ℓ),µ(x(sj))) （6）且满足以下的离散时间 HJB 方程： J ∗ (x(k)) = min µ(x(sj )) {U(x(k),µ(x(sj)))+ J ∗ (x(k+1))} （7） µ ∗ 基于事件触发机制的最优控制策略 (x(sj)) 可由下式计算: µ ∗ (x(sj)) = arg min µ(x(sj )) {U(x(k),µ(x(sj)))+ J ∗ (x(k+1))} （8）考虑到仿射型动态系统和二次型效用函数，则有 µ ∗ (x(sj)) = − 1 2 P −1 g T (x(k)) ∂J ∗ (x(k+1)) ∂x(k+1) （9）需要注意的是，式 (7) 是动态规划过程中应该处理的关键式子. J ∗ (x(k+1)) J ∗ (x(k)) µ ∗ (x(sj)) J ∗ (x(k+1)) ||e(k)|| ⩽ e¯ e¯ 在本文中, 为了解决基于事件的最优控制设计, 应该关注两个方面的问题. 一方面, 需要下一个时间步的值来获得最优代价函数和最优控制 . 为了克服获取和求解离散时间 HJB 方程的困难, 下一节将介绍一种基于自适应评判设计的迭代结构. 另一方面, 在基于事件的结构中, 需要设计一个形如的事件触发条件, 其中, 是正阈值. 当一个事件满足此触发条件时, 控制输入才会被更新. 基于事件控制的主要问题就是如何确定一个合适的触发阈值, 这也将在下一节介绍. 2 基于事件的迭代自适应评判控制本节重点介绍基于事件的迭代自适应评判控制框架, 包括算法收敛性分析, 神经网络实现和触发条件设计. 2.1 基于事件的迭代算法及其收敛性 {J (i) (x(k))} {µ (i) (x(sj))} i i ∈ N i = 0 J (0)(·) = 0 应该指出的是, 在基于事件的迭代自适应评判控制方法中, 需要考虑带有触发信息的值函数学习过程. 选择一个小的正数, 并构造两个迭代序列和 , 由此开始执行算法, 其中, 表示迭代指标且 . 令初始迭代指标并且令初始代价函数 . 然后, 迭代控制函数通过 µ (i) (x(sj)) = arg min µ(x(sj )) {U(x(k),µ(x(sj)))+ J (i) (x(k+1))} = − 1 2 P −1 g T (x(k)) ∂J (i) (x(k+1)) ∂x(k+1) （10） x(k+1) = f(x(k))+g(x(k))µ(x(sj)) 进行求解. 在上述参数最小化运算中, 状态向量 . 接下来, 迭代代价函数通过 J (i+1)(x(k)) = min µ(x(sj )) {U(x(k),µ(x(sj))+ J (i) (x(k+1))} （11）进行更新, 也可以写为 J (i+1)(x(k)) = U ( x(k),µ (i) (x(sj))) + J (i) ( f(x(k))+g(x(k))µ (i) (x(sj))) （12） |J (i+1)(x(k))− J (i) (x(k))| ⩽ ϵ i = i+1 需要注意的是, 当时, 停止准则生效, 从而获得近似最优控制律. 此外，通过令来增加迭代指标, 从而继续求解式 (10) 中的迭代控制函数和更新 (11) 中的迭代代价函数. 下面, 根据有界性和单调性给出上面迭代算法的收敛性证明. {J (i) } 0 ⩽ J (i) (x(k)) ⩽ J i ∈ N J 定理 1 迭代代价函数序列是有上界的，即 , , 其中, 是一个正常数. ζ(x(sj)) sj {A (i) } 证明. 令为触发时刻的任意容许控制输入, 是如下定义的一个序列: A (i+1)(x(k)) = U(x(k), ζ(x(sj)))+ A (i) (x(k+1)) （13） A (0)(·) = 0 A (1)(x(k)) = U(x(k), ζ(x(sj))) i 式中, 迭代指标取零时的初始值 . 易知, . 随着迭代指标展开王鼎：一类离散动态系统基于事件的迭代神经控制 · 413 ·

414 工程科学学报，第44卷，第3期 A+D(x(k)-AO(x(k),最终可以得到. Jo(x()≥min{U(r(k),(ax(s》+ (x(sj)) A(i+D(x(k))-A(i(x(k))=A(x(k+i)) (14) Jo(x(k+1)》 (20) 即有反之，根据式(11)和定理2，有下式成立 A+(x(K)=∑AD(xk+》 (15) Ji+(x(k)≤U(x(k),μ(x(s)+ =0 @(x(k+1)》≤ 考虑到(x(s》的容许性.可知对于任意的迭代 U(x(k),μ(x(s)+ 指标i,都有A+(x()≤了成立.由于式(11)中的迭 Jo(x(k+1),i∈N (21) 代代价函数+(x()包含了最小化运算，可以进当i→o时，可得对于任意的μ((s》,都有一步得到Ji(x(k)≤A+(x(k)≤.于是，考虑到 Jo(x(k)≤U(x(k),μ(r(s)+ 代价函数的非负性，可以得到0≤J@(x()≤了，i∈N. o(x(k+1) (22) 证毕于是，可得定理2迭代代价函数序列（⑨是非减的，即 Jo(x(k)≤min{U(x(k),μ(ar(s》+ μ(r(s) Jo(x(k)≤Ji+1(x(),i∈N. J(x(k+1)》} (23) 证明.为了方便起见，定义一个新的序列综合式(20)和(23)，最终得到 {B且初始值BO()=0.该序列中的元素更新方式 J(x(k))=min (U(x(k).I(x(sj)))+ 如下： (x(sj)) B(i+D(x(k))=U(x(k).u+D(x(sj)+ Jo(x(k+1)》 (24) B(i(x(k+1)) 比较式(7)和(24)，可以得到迭代序列{J⊙的 (16) 极限，即J),正是代价函数的最优值.因此，有利用数学归纳法，首先因为J(x(k)-BO(x()= J0(x(k)→Jo(x(k)=J产(x(k)成立.同理，当i→o U(ax(k,o(x(s》≥0，可以得到不等式Bo(x(》≤ 时，也有(x(s》→(x(s》成立，这可以看做一个 J(x(k).然后，假设Bi-D(x)≤(x()对于任意推论状态向量都成立且i=2,3,,注意到式(12)和由 2.2基于神经网络的HDP技术实现 (16)推得的表达式在实现迭代自适应评判算法时，需要建立两 B(x(k))=U(x(k).u(x(sj))+ 个神经网络，即评判网络和执行网络，分别用于输 Bi-I(x(k+1)》 (17) 出近似代价函数和近似控制律则有评判网络输出迭代代价函数的近似值，即 B(D(x(k))-Ji+D(x(k))= ji+D(x(k))=+DT(v+DTx(k)) (25) Bi-(x(k+1)-J0(x(k+1)≤0 (18) 结合式(12)，训练误差准则为因此，可以得到对于任意i∈N,都有BO(x(k)≤ =+x-+cxk)2 E+(k)= (26) J+(x()成立，这样就完成了数学归纳证明考虑到式(I1)中代价函数(x()的导出方这里涉及的权重矩阵更新方式为式，则有JO(x(k)≤B(x(k).因此，最终得到不等式 wl+1)-w+(0=-nc (aED(k aogd (27a) J(x(k)》≤BO(x()≤Ji+I)(x().证毕根据定理1和定理2，迭代代价函数序列 y+0+1)-y*(0=-n (ED(k) (27b) (J0是收敛的.令当i→o时的迭代代价函数为J) m+0 考虑式(11)且根据定理2的结论，则有式中，>0是评判网络的学习率，1是内循环的迭 J(x()≥Ji+I(x(k)= 代指标.其中，w+(0和v+(0是权重矩阵的第次 min{U(x(k),μ(x(si)》+ 迭代值. 4(xrsj》 J(x(k+1)),iEN 执行网络输出迭代控制函数的近似值，即 (19) 当i→o时，进一步有 0xs》=wTσ(9Tx(s) (28)

A (i+1)(x(k))− A (i) (x(k)), 最终可以得到. A (i+1)(x(k))− A (i) (x(k)) = A (1)(x(k+i)) （14）即有 A (i+1)(x(k)) = ∑ i h¯=0 A (1)(x(k+h¯)) （15） ζ(x(sj)) i A (i+1)(x(k)) ⩽ J J (i+1)(x(k)) J (i+1)(x(k)) ⩽ A (i+1)(x(k)) ⩽ J 0 ⩽ J (i) (x(k)) ⩽ J i ∈ N 考虑到的容许性. 可知对于任意的迭代指标 , 都有成立. 由于式 (11) 中的迭代代价函数包含了最小化运算, 可以进一步得到 . 于是, 考虑到代价函数的非负性, 可以得到 , . 证毕. {J (i) } J (i) (x(k)) ⩽ J (i+1)(x(k)) i ∈ N 定理 2 迭代代价函数序列是非减的, 即 , . {B (i) } B (0)(·) = 0 证明 . 为了方便起见 , 定义一个新的序列且初始值 . 该序列中的元素更新方式如下: B (i+1)(x(k)) = U ( x(k),µ (i+1)(x(sj))) + B (i) (x(k+1)) （16） J (1)(x(k))− B (0)(x(k)) = U(x(k),µ (0)(x(sj)) ⩾ 0 B (0)(x(k)) ⩽ J (1)(x(k)) B (i−1)(x(k)) ⩽ J (i) (x(k)) i = 2,3,··· 利用数学归纳法，首先因为 , 可以得到不等式 . 然后, 假设对于任意状态向量都成立且，注意到式 (12) 和由 (16) 推得的表达式 B (i) (x(k)) = U(x(k),µ (i) (x(sj)))+ B (i−1)(x(k+1)) （17）则有 B (i) (x(k))− J (i+1)(x(k)) = B (i−1)(x(k+1))− J (i) (x(k+1)) ⩽ 0 （18） i ∈ N B (i) (x(k)) ⩽ J (i+1)(x(k)) 因此, 可以得到对于任意 , 都有成立, 这样就完成了数学归纳证明. J (i) (x(k)) J (i) (x(k)) ⩽ B (i) (x(k)) J (i) (x(k)) ⩽ B (i) (x(k)) ⩽ J (i+1)(x(k)) 考虑到式 (11) 中代价函数的导出方式, 则有 . 因此, 最终得到不等式 . 证毕. {J (i) } i → ∞ J (∞) 根据定理 1 和定理 2, 迭代代价函数序列是收敛的. 令当时的迭代代价函数为 . 考虑式 (11) 且根据定理 2 的结论, 则有 J (∞) (x(k)) ⩾ J (i+1)(x(k)) = min µ(x(sj )) {U(x(k),µ(x(sj)))+ J (i) (x(k+1))}, i ∈ N （19）当 i → ∞时, 进一步有 J (∞) (x(k)) ⩾ min µ(x(sj )) {U(x(k),µ(x(sj)))+ J (∞) (x(k+1))} （20）反之, 根据式 (11) 和定理 2, 有下式成立: J (i+1)(x(k)) ⩽ U(x(k),µ(x(sj)))+ J (i) (x(k+1)) ⩽ U(x(k),µ(x(sj)))+ J (∞) (x(k+1)), i ∈ N （21）当 i → ∞时, 可得对于任意的 µ(x(sj)), 都有 J (∞) (x(k)) ⩽ U(x(k),µ(x(sj)))+ J (∞) (x(k+1)) （22）于是, 可得 J (∞) (x(k)) ⩽ min µ(x(sj )) {U(x(k),µ(x(sj)))+ J (∞) (x(k+1))} （23）综合式 (20) 和 (23)，最终得到 J (∞) (x(k)) = min µ(x(sj )) {U(x(k),µ(x(sj)))+ J (∞) (x(k+1))} （24） {J (i) } J (∞) J (i) (x(k)) → J (∞) (x(k)) = J ∗ (x(k)) i → ∞ µ (i) (x(sj)) → µ ∗ (x(sj)) 比较式 (7) 和 (24), 可以得到迭代序列的极限, 即 , 正是代价函数的最优值. 因此, 有成立. 同理, 当时, 也有成立, 这可以看做一个推论. 2.2 基于神经网络的 HDP 技术实现在实现迭代自适应评判算法时, 需要建立两个神经网络, 即评判网络和执行网络, 分别用于输出近似代价函数和近似控制律. 评判网络输出迭代代价函数的近似值, 即 Jˆ (i+1)(x(k)) = ω (i+1)T c σ ( ν (i+1)T c x(k) ) （25）结合式 (12), 训练误差准则为 E (i+1) c (k) = 1 2 [ Jˆ (i+1)(x(k))− J (i+1)(x(k))]2 （26）这里涉及的权重矩阵更新方式为 ω (i+1) c (l+1)−ω (i+1) c (l) = −ηc   ∂E (i+1) c (k) ∂ω (i+1) c (l)   （27a） ν (i+1) c (l+1)−ν (i+1) c (l) = −ηc   ∂E (i+1) c (k) ∂ν (i+1) c (l)   （27b） ηc > 0 l ω (i+1) c (l) ν (i+1) c (l) l 式中, 是评判网络的学习率, 是内循环的迭代指标. 其中, 和是权重矩阵的第次迭代值. 执行网络输出迭代控制函数的近似值, 即 µˆ (i) (x(sj)) = ω (i)T a σ ( ν (i)T a x(sj) ) （28） · 414 · 工程科学学报，第 44 卷，第 3 期

王鼎：一类离散动态系统基于事件的迭代神经控制 415 值得注意的是，执行网络的输人是基于事件 +1)-2(0=-a (aE(s) (30h) 的状态x(s),这与传统评判网络的输入（基于时间 av(D 的状态)不同.学习过程的误差准则为式中，a>0是需要设计的学习率参数 E(s》=0x(s》-uxs》)x 为清楚起见，图1给出离散时间非线性系统基于事件的迭代HDP控制的结构简图.其中，实 (aO(x(s》-O(x(s) (29) 线代表信号流向，虚线是两个神经网络的反向其中，根据式(10)可以直接计算⊙(x(s).相似地，传播路径.值得注意的是，状态信息被传递到基于事件的模块用于转换信号状态，传递到被控执行网络的权重更新算法为对象用于更新系统状态，传递到评判网络用于 w90+1)-wQ(0=-a (aE(s) (30a) 计算代价函数.因此，系统状态组件包含三个重要 ow(D 角色 Acton Zero-order Controlled Critic network hold plant network xs ax(s》 n(x(k)) rk+1) j(x(k+1)) Neural weight transmission Event-based x() System state Critic +D(K) module information 图1离散动态系统基于事件的迭代HDP框架简图 Fig.I Simple diagram of the event-based iterative heuristic dynamic programming (HDP)framework with discrete dynamic plants 2.3事件触发条件设计终可以得到为了确定非线性离散动态系统的具体事件触发条 (35) 件，这里给出文献23-25]中使用的如下假设.值得 Ilek≤px(s∑(2p' 10 注意的是，根据式(3)，x(k+1)是关于x()和e(k)的函数. 式中，1=k-5j-1.基于不等式(35)，则有触发条件假设1范数不等式∥e(k)≤x(k)和x(k+I)川≤ Ile(k)训≤e,其中的阈值可以写成 x(k)川+le()成立，其中，x(k+1)由式(3)给出，这里的正常数B∈(0,0.5). 1-(2β- 1-2Bx(s训.B∈(0,0.5) (36) 定理3如果假设1成立，则触发条件证毕 Iek训se=1-(2Bk 1-2B(s训，B∈(0,0.5) (31) 定理3提出的触发条件与假设1中的采样状态和预先指定的常数密切相关，因此并不是唯一能够保证基于事件的控制器设计的可用性，的.这个条件是本文提出的事件驱动迭代自适应证明.考虑到式(3)给出的动态系统和假设1，评判控制框架的设计基础.为了表明触发条件的可以得到作用，图2给出了执行迭代HDP算法之后的事件 Ile(k)≤lIr(k)≤ 驱动控制实现，其中，(x()是已获得的近似最优 x(k-1川+ek-1)川≤ BIle(k-1川+lr(sD+le(k-1川l= 控制器，也就是用于事件驱动设计的实际控制律 2le(k-1)川+lr(sl (32) 图2的蓝色虚线代表下一步迭代的状态，要与当前的状态区分.当触发条件得以满足时（转向使用同样的方法，易知 “Y”),控制信号仍然保持之前的值(x(s-).然 Ile(k-1)川≤2e(k-2ll+r(sl (33) 而，当触发条件不被满足时（转向“N”),控制信号然后，结合式(32)和式(33)，则有将通过执行网络更新成为(x(s).经过零阶保持 Ile(kl≤2β2le(k-2)+r(slD+r(sl(34) 器的作用之后，事件驱动控制信号(x(s-)》或利用e(s)=0,并如同式(34)一样扩展le(k)儿，最 (x(s》中的一个将被转换成(x(k),最终就可以

x(sj) 值得注意的是, 执行网络的输入是基于事件的状态 , 这与传统评判网络的输入 (基于时间的状态) 不同. 学习过程的误差准则为 E (i) a (sj) = 1 2 ( µˆ (i) (x(sj))−µ (i) (x(sj)))T × ( µˆ (i) (x(sj))−µ (i) (x(sj))) （29） µ (i) 其中, 根据式 (10) 可以直接计算 (x(sj)). 相似地, 执行网络的权重更新算法为 ω (i) a (l+1)−ω (i) a (l) = −ηa   ∂E (i) a (sj) ∂ω (i) a (l)   （30a） ν (i) a (l+1)−ν (i) a (l) = −ηa   ∂E (i) a (sj) ∂ν (i) a (l)   （30b）式中, ηa > 0 是需要设计的学习率参数. 为清楚起见, 图 1 给出离散时间非线性系统基于事件的迭代 HDP 控制的结构简图. 其中, 实线代表信号流向, 虚线是两个神经网络的反向传播路径. 值得注意的是, 状态信息被传递到基于事件的模块用于转换信号状态, 传递到被控对象用于更新系统状态, 传递到评判网络用于计算代价函数. 因此, 系统状态组件包含三个重要角色. Critic network + - U System state information Action network Event-based module Zero-order hold Controlled plant Critic network Neural weight transmission x(sj ) μ (i) (x(sj )) ^ μ (i) (x(k)) ^ J (i) (x(k+1)) ^ J (i+1) (x(k)) ^ x(k+1) x(k) 图 1 离散动态系统基于事件的迭代 HDP 框架简图 Fig.1 Simple diagram of the event-based iterative heuristic dynamic programming (HDP) framework with discrete dynamic plants 2.3 事件触发条件设计 x(k+1) x(k) e(k) 为了确定非线性离散动态系统的具体事件触发条件, 这里给出文献 [23–25] 中使用的如下假设. 值得注意的是, 根据式 (3), 是关于和的函数. ||e(k)|| ⩽ ||x(k)|| ||x(k+1)|| ⩽ β||x(k)||+β||e(k)|| x(k+1) β ∈ (0,0.5) 假设 1 范数不等式和成立, 其中, 由式 (3) 给出, 这里的正常数 . 定理 3 如果假设 1 成立, 则触发条件 ||e(k)|| ⩽ e¯ = 1−(2β) k−sj 1−2β β||x(sj)||, β ∈ (0,0.5) （31）能够保证基于事件的控制器设计的可用性. 证明. 考虑到式 (3) 给出的动态系统和假设 1, 可以得到 ||e(k)|| ⩽ ||x(k)|| ⩽ β||x(k−1)||+β||e(k−1)|| ⩽ β(||e(k−1)||+||x(sj)||)+β||e(k−1)|| = 2β||e(k−1)||+β||x(sj)|| （32）使用同样的方法, 易知 ||e(k−1)|| ⩽ 2β||e(k−2)||+β||x(sj)|| （33）然后, 结合式 (32) 和式 (33), 则有 ||e(k)|| ⩽ 2β(2β||e(k−2)||+β||x(sj)||)+β||x(sj)|| （34）利用 e(sj) = 0, 并如同式 (34) 一样扩展 ||e(k)||, 最终可以得到 ||e(k)|| ⩽ β||x(sj)|| ¯ ∑ l l=0 (2β) l （35） ¯l = k− sj −1 ||e(k)|| ⩽ e¯ 式中, . 基于不等式 (35), 则有触发条件 , 其中的阈值可以写成 e¯ = 1−(2β) k−sj 1−2β β||x(sj)||, β ∈ (0,0.5) （36）证毕. µˆ ∗ (x(k)) µˆ ∗ (x(sj−1)) µˆ ∗ (x(sj)) µˆ ∗ (x(sj−1)) µˆ ∗ (x(sj)) µˆ ∗ (x(k)) 定理 3 提出的触发条件与假设 1 中的采样状态和预先指定的常数密切相关, 因此并不是唯一的. 这个条件是本文提出的事件驱动迭代自适应评判控制框架的设计基础. 为了表明触发条件的作用, 图 2 给出了执行迭代 HDP 算法之后的事件驱动控制实现, 其中, 是已获得的近似最优控制器, 也就是用于事件驱动设计的实际控制律. 图 2 的蓝色虚线代表下一步迭代的状态, 要与当前的状态区分 . 当触发条件得以满足时 (转向 “Y”), 控制信号仍然保持之前的值 . 然而, 当触发条件不被满足时 (转向“N”), 控制信号将通过执行网络更新成为 . 经过零阶保持器的作用之后 , 事件驱动控制信号或中的一个将被转换成 , 最终就可以王鼎：一类离散动态系统基于事件的迭代神经控制 · 415 ·

416 工程科学学报，第44卷，第3期 x5*(xS-》 x(s) Action *rs》 x(+I) Zero-order *(x(k) Controlled Triggering condition> ell≤e network hold plant x(s) Event-based x() Next state Current state module 图2执行迭代HDP算法之后的事件驱动控制实现过程 Fig.2 Event-based control implementation process after conducting the iterative HDP algorithm 应用于原始被控系统 0.40 3仿真研究 0.35 0.30 本节给出将基于事件迭代自适应评判方法应用到一些特定动态系统的仿真研究，以验证近似 a 最优控制性能 30.15 例1考虑质量弹簧阻尼器系统的离散化形式4] 0.10 x(k+1)= 0.9996r1(k)+0.0099x2(k) -0.0887x1(k)+0.97x2(k) 0.05 0 0 10.0099 u(k) 0 50 100150200250300 (37) Iteration index 式中，状态向量为x(=[x1(,x2(]I,控制变量是图3迭代代价函数的收敛性（例1） ().为了解决基于事件的最优调节问题，代价函 Fig.3 Convergence of the iterative cost function(Example 1) 数中的效用参数分别选为Q=0.0112和P=1. 0.5 通过将网络结构预先分别设定为2-8-1（输入层，隐藏层，输出层神经元的个数)和2-8-1，然后根据式(27和式(30)在迭代框架中训练评判网络和执行网络.在训练过程中，选择初始状态x(O)= 0.5 [1,0.5]并且取学习率为e=a=0.1.评判网络和执行网络的初始权重分别在[-0.1,0.1]和[-0.5,0.5]中 -1.0 随机选取.特别地，需要将基于事件的机制应用于执行网络.采用迭代HDP算法进行290轮迭代，每 -1.5 ---Case 2 轮迭代设定2000次训练.如果达到预先指定的精 Case 1 度∈=106，就结束评判网络和执行网络的训练，即 2%2 00.2 0.40.60.8 1.0 12 获得满意的学习效果.图3给出了迭代代价函数图4两种情况下的状态轨迹（例1）的收敛趋势，也验证了定理1和定理2中的陈述 Fig.4 State trajectory of the two cases (Example 1) 在基于事件的控制设计中，令B=0.1并且指定触发阈值表达式(36)具体如下：清楚地看到，正如传统的迭代HDP算法一样，基于 e=1-0.2- 事件情况下的系统状态也能够最终收敛到零向量 lx(s川 (38) 8 顺便指出，触发阈值的变化曲线如图5所示，它随为了与传统时间驱动方法进行比较，执行两着系统状态的变化也趋于零.此外，与传统的迭代种情况，即事件驱动模式和时间驱动模式下的迭 HDP算法相比，基于事件方法的控制曲线呈阶梯代HDP算法，其中情况I(Casel)是本文提出的事状，如图6所示.在仿真中，基于时间情形下的控制件驱动模式，情况2(Case2)是文献[12]中提出的输入更新了500个时间步，然而在基于事件情况传统时间驱动模式.图4给出了应用事件驱动迭下，仅仅需要222个时间步，对应的驱动时刻间隔代自适应评判方法时的状态响应，其中也给出了如图7所示.因此，这就验证了基于事件的迭代自应用传统迭代HDP算法时的状态轨迹.这里，可以适应评判方法的优越之处，即通信资源的利用效

应用于原始被控系统. 3 仿真研究本节给出将基于事件迭代自适应评判方法应用到一些特定动态系统的仿真研究, 以验证近似最优控制性能. 例 1 考虑质量弹簧阻尼器系统的离散化形式[24] x(k+1) = [ 0.9996x1(k)+0.0099x2(k) −0.0887x1(k)+0.97x2(k) ] + [ 0 0.0099 ] u(k) （37） x(k) = [x1(k), x2(k)]T u(k) Q = 0.01I2 P = I 式中, 状态向量为 , 控制变量是 . 为了解决基于事件的最优调节问题, 代价函数中的效用参数分别选为和 . x(0) = [1,0.5]T ηc = ηa = 0.1 [−0.1,0.1] [−0.5,0.5] ϵ = 10−6 通过将网络结构预先分别设定为 2–8–1(输入层, 隐藏层, 输出层神经元的个数) 和 2–8–1, 然后根据式 (27) 和式 (30) 在迭代框架中训练评判网络和执行网络. 在训练过程中, 选择初始状态并且取学习率为 . 评判网络和执行网络的初始权重分别在和中随机选取. 特别地, 需要将基于事件的机制应用于执行网络. 采用迭代 HDP 算法进行 290 轮迭代, 每轮迭代设定 2000 次训练. 如果达到预先指定的精度 , 就结束评判网络和执行网络的训练, 即获得满意的学习效果. 图 3 给出了迭代代价函数的收敛趋势, 也验证了定理 1 和定理 2 中的陈述. 在基于事件的控制设计中, 令 β = 0.1 并且指定触发阈值表达式 (36) 具体如下: e¯ = 1−0.2 k−sj 8 ||x(sj)|| （38）为了与传统时间驱动方法进行比较, 执行两种情况, 即事件驱动模式和时间驱动模式下的迭代 HDP 算法, 其中情况 1(Case1) 是本文提出的事件驱动模式, 情况 2(Case2) 是文献 [12] 中提出的传统时间驱动模式. 图 4 给出了应用事件驱动迭代自适应评判方法时的状态响应, 其中也给出了应用传统迭代 HDP 算法时的状态轨迹. 这里, 可以清楚地看到, 正如传统的迭代 HDP 算法一样, 基于事件情况下的系统状态也能够最终收敛到零向量. 顺便指出, 触发阈值的变化曲线如图 5 所示, 它随着系统状态的变化也趋于零. 此外, 与传统的迭代 HDP 算法相比, 基于事件方法的控制曲线呈阶梯状, 如图 6 所示. 在仿真中, 基于时间情形下的控制输入更新了 500 个时间步, 然而在基于事件情况下, 仅仅需要 222 个时间步, 对应的驱动时刻间隔如图 7 所示. 因此, 这就验证了基于事件的迭代自适应评判方法的优越之处, 即通信资源的利用效 Action network Next state Triggering condition Current state N Y Controlled plant x(sj−1), μ*(x(sj−1)) x(sj ) ||e||≤e − Zero-order hold Event-based module ^ μ*(x(sj )) ^ μ*(x(k)) ^ x(k+1) x(sj ) x(k) 图 2 执行迭代 HDP 算法之后的事件驱动控制实现过程 Fig.2 Event-based control implementation process after conducting the iterative HDP algorithm 0.40 0.35 0.30 0.25 0.20 0.15 0.10 0.05 0 0 50 100 150 Iteration index Cost function 200 250 300 图 3 迭代代价函数的收敛性 (例 1) Fig.3 Convergence of the iterative cost function (Example 1) 0.5 0 −0.5 −1.0 −1.5 −2.0 −0.2 0 0.2 0.4 x1 x2 0.6 Case 2 Case 1 0.8 1.0 1.2 图 4 两种情况下的状态轨迹 (例 1) Fig.4 State trajectory of the two cases (Example 1) · 416 · 工程科学学报，第 44 卷，第 3 期

王鼎：一类离散动态系统基于事件的迭代神经控制 417. 0.6 式中，状态向量为x()=[x1(),x2(k)],控制变量是 0.5 ().为了解决事件驱动最优控制问题，这里除了 P=2L,x(0)=[1,-1T,以及在[-1,1]中随机选择执 0.4 行网络的初始权值之外，其他主要参数的设置都与例1一样.在进行300轮迭代运算之后，代价函数的收敛性如图8所示.与文献24不同的是，本 e, 文的方法可以很好地观察迭代代价函数的收敛性 0.1 当关注值函数学习过程时，对收敛性能的观测就很有意义.实际上，这也是事件驱动环境下离散动 50100 150200250300350400450500 态系统迭代自适应评判算法的优点之一. Time index 0.8 图5触发阈值（例1） 0.7 Fig.5 Triggering threshold(Example 1) 0.6 ---Case2 0.6 ●ase 0.5 0.4 02 0.1 03 0 50 100150200250300 0.1 Iteration index 图8迭代代价函数的收敛性（例2） 0.1 Fig.8 Convergence of the iterative cost function(Example 2) 0 50100150200250300350400450500 Time index 分别考虑基于事件和基于时间的控制模式，图9 图6两种情况下的控制输人（例1）给出两种情况下的状态轨迹.可以看到，图9中的 Fig.6 Control input of the two cases (Example 1) 两条轨迹非常接近，都具有很好的稳定效果.此外，触发阈值和控制输入分别如图10和图11所示.与状态曲线不同，两种情况下的控制轨迹具有明显 10 区别.在这个例子中，基于时间和基于事件框架的控制输入分别更新了300次和85次，这里的驱动时刻间隔如图12所示.也就是说，事件驱动结构使 6 得控制信号更新次数下降了71.67%.上述仿真结果表明，基于事件的设计策略在保持较好稳定性能的前提下，可以有效地减少控制信号的更新次数 ---·Case2 -0.1 -Case I 050100150200250300350400450500 -0.2 Time index -0.3 图7驱动时刻间隔（例1） -0.4 Fig.7 Triggering interval (Example 1) -0.5 率确实得以提高 -0.6 例2这里引入非线性因素，考虑如下离散时间 0.7 -0.8 非线性系统 -0.9 -0.5cos(1.4x2(k)sin(0.4x1(k) x(k+1)= 102 0.2 0.40.6 0.8 1.0 0.1x3(k) x1(k)+0.03x2() 0 u(k) 图9：两种情况下的状态轨迹（例2） -0.1x1(k)+x2(k) 0.008 (39) Fig.9 State trajectory of the two cases(Example 2)

率确实得以提高. 例 2 这里引入非线性因素, 考虑如下离散时间非线性系统 x(k+1) = [ −0.5 cos(1.4x2(k)) sin(0.4x1(k)) 0.1x 2 2 (k) ] + [ x1(k)+0.03x2(k) −0.1x1(k)+ x2(k) ] + [ 0 0.008 ] u(k) （39） x(k) = [x1(k), x2(k)]T u(k) P = 2I x(0) = [1,−1]T [−1,1] 式中, 状态向量为 , 控制变量是 . 为了解决事件驱动最优控制问题, 这里除了 , , 以及在中随机选择执行网络的初始权值之外, 其他主要参数的设置都与例 1 一样. 在进行 300 轮迭代运算之后, 代价函数的收敛性如图 8 所示. 与文献 [24] 不同的是, 本文的方法可以很好地观察迭代代价函数的收敛性. 当关注值函数学习过程时, 对收敛性能的观测就很有意义. 实际上, 这也是事件驱动环境下离散动态系统迭代自适应评判算法的优点之一. 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0 50 100 Iteration index Cost function 150 200 250 300 图 8 迭代代价函数的收敛性 (例 2) Fig.8 Convergence of the iterative cost function (Example 2) 分别考虑基于事件和基于时间的控制模式, 图 9 给出两种情况下的状态轨迹. 可以看到, 图 9 中的两条轨迹非常接近, 都具有很好的稳定效果. 此外, 触发阈值和控制输入分别如图 10 和图 11 所示. 与状态曲线不同, 两种情况下的控制轨迹具有明显区别. 在这个例子中, 基于时间和基于事件框架的控制输入分别更新了 300 次和 85 次, 这里的驱动时刻间隔如图 12 所示. 也就是说, 事件驱动结构使得控制信号更新次数下降了 71.67%. 上述仿真结果表明, 基于事件的设计策略在保持较好稳定性能的前提下, 可以有效地减少控制信号的更新次数. 0 −0.1 −0.2 −0.3 −0.4 −0.5 −0.6 −0.7 −0.8 −0.9 −1.0−0.2 0 0.2 0.4 x1 x2 0.6 Case 2 Case 1 0.8 1.0 图 9 两种情况下的状态轨迹 (例 2) Fig.9 State trajectory of the two cases (Example 2) 0.6 0.5 0.4 0.3 0.2 0.1 0 0 50 100 150 200 250 Time index Threshold 300 350 400 450 500 图 5 触发阈值 (例 1) Fig.5 Triggering threshold (Example 1) 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0 50 100 150 200 250 Time index Case 2 Case 1 Control input 300 350 400 450 500 −0.1 图 6 两种情况下的控制输入 (例 1) Fig.6 Control input of the two cases (Example 1) 12 10 8 6 4 2 0 0 50 100 150 Time index Triggering interval 200 250 300 350 400 450 500 图 7 驱动时刻间隔 (例 1) Fig.7 Triggering interval (Example 1) 王鼎：一类离散动态系统基于事件的迭代神经控制 · 417 ·

418 工程科学学报，第44卷，第3期 0.45 越性能 0.40 39 参考文献 [1]Werbos P J.Approximate dynamic programming for real-time control and neural modeling.In White D A and Sofge D A(Eds. Handbook of Intelligent Control:Neural,Fuzy,and Adaptive 0.15 Approaches.New York,NY:Van Nostrand Reinhold,1992 0.10 [2]Li J N,Chai T Y,Lewis F L,et al.Off-policy interleaved Q- 0.05 leaming:Optimal control for affine nonlinear discrete-time 00 systems.IEEE Trans Neural Nenw Learn Syst,2019,30(5):1308 50 100150200250300 Time index [3] Zhang HG,Liu Y,Xiao GY,et al.Data-based adaptive dynamic 图10触发阈值（例2） programming for a class of discrete-time systems with multiple Fig.10 Triggering threshold (Example 2) delays.IEEE Trans Syst Man Cybern:Syst,2020,50(2):432 [4]Zhang H G,Jiang H,Luo Y H,et al.Data-driven optimal 0.40 ---Case 2 consensus control for discrete-time multi-agent systems with 0.35 -Case I unknown dynamics using reinforcement learning method./EEE 0.30 Trans on Ind Electron,2017,64(5):4091 0.25 [5]Ha MM,Wang D,Liu D R.Generalized value iteration for discounted optimal control with stability analysis.Syst Control Letn,2021,147:104847 [6]Wang D,Ha MM.Qiao J F.Data-driven iterative adaptive critic 0.10 control towards an urban wastewater treatment plant.IEEE Trans 0.05 Ind Electron,2021,68(8:7362 [7]Wang D,Ha MM,Qiao J F,et al.Data-based composite control 00 50 100150200250 300 Time index design with critic intelligence for a wastewater treatment platform. 4 rtif Intell Rev,2020,53(5):3773 图11两种情况下的控制输人（例2） [8]Liang MM.Wang D.Liu D R.Improved value iteration for Fig.11 Control input of the two cases(Example 2) neural-network-based stochastic optimal control design.Neural Nehm,2020,124:280 [9]Liang MM,Wang D,Liu D R.Neuro-optimal control for discrete stochastic processes via a novel policy iteration algorithm.IEEE 色 Trans Syst Man Cybern:-Syst,2020,50(11):3972 [10]Hou J X,Wang D,Liu D R,et al.Model-free H optimal tracking 3 control of constrained nonlinear systems via an iterative adaptive learning algorithm.IEEE Trans Syst Man Cybern:Syst,2020, 2 50(11):4097 [11]Luo B,Liu D R,Huang T W,et al.Model-free optimal tracking control via critic-only Q-leaming.IEEE Trans Neural Netw Learn 50 100150200250300 Ss1,2016,27(10):2134 Time index [12]Al-Tamimi A,Lewis F L,Abu-Khalaf M.Discrete-time nonlinear 图12票动时刻间隔（例2） HJB solution using approximate dynamic programming: Fig.12 Triggering interval(Example 2) Convergence proof.IEEE Trans Syst Man Cybern B:Cybern,2008, 4结论 38(4):943 [13]Zhang H G,Luo Y H,Liu D R.Neural-network-based near- 本文提出一种基于事件的迭代神经控制方法， optimal control for a class of discrete-time affine nonlinear 用以解决离散动态系统的最优调节问题通过收 systems with control constraints.IEEE Trans Neural Net,2009, 20(9):1490 敛性分析，神经网络实现和触发阈值设计，构造基 [14]Wang D,Liu D R,Wei Q L,et al.Optimal control of unknown 于事件迭代自适应评判算法的完整框架.通过仿 nonaffine nonlinear discrete-time systems based on adaptive 真研究，验证了事件驱动迭代神经控制方法的优 dynamic programming.Automatica,2012,48(8):1825

4 结论本文提出一种基于事件的迭代神经控制方法, 用以解决离散动态系统的最优调节问题. 通过收敛性分析, 神经网络实现和触发阈值设计, 构造基于事件迭代自适应评判算法的完整框架. 通过仿真研究, 验证了事件驱动迭代神经控制方法的优越性能. 参考文献 Werbos P J. Approximate dynamic programming for real-time control and neural modeling. In White D A and Sofge D A (Eds. ) Handbook of Intelligent Control: Neural, Fuzzy, and Adaptive Approaches. New York, NY: Van Nostrand Reinhold, 1992 [1] Li J N, Chai T Y, Lewis F L, et al. Off-policy interleaved Qlearning: Optimal control for affine nonlinear discrete-time systems. IEEE Trans Neural Netw Learn Syst, 2019, 30（5）: 1308 [2] Zhang H G, Liu Y, Xiao G Y, et al. Data-based adaptive dynamic programming for a class of discrete-time systems with multiple delays. IEEE Trans Syst Man Cybern:Syst, 2020, 50（2）: 432 [3] Zhang H G, Jiang H, Luo Y H, et al. Data-driven optimal consensus control for discrete-time multi-agent systems with unknown dynamics using reinforcement learning method. IEEE Trans on Ind Electron, 2017, 64（5）: 4091 [4] Ha M M, Wang D, Liu D R. Generalized value iteration for discounted optimal control with stability analysis. Syst Control Lett, 2021, 147: 104847 [5] Wang D, Ha M M, Qiao J F. Data-driven iterative adaptive critic control towards an urban wastewater treatment plant. IEEE Trans Ind Electron, 2021, 68（8）: 7362 [6] Wang D, Ha M M, Qiao J F, et al. Data-based composite control design with critic intelligence for a wastewater treatment platform. Artif Intell Rev, 2020, 53（5）: 3773 [7] Liang M M, Wang D, Liu D R. Improved value iteration for neural-network-based stochastic optimal control design. Neural Netw, 2020, 124: 280 [8] Liang M M, Wang D, Liu D R. Neuro-optimal control for discrete stochastic processes via a novel policy iteration algorithm. IEEE Trans Syst Man Cybern:Syst, 2020, 50（11）: 3972 [9] Hou J X, Wang D, Liu D R, et al. Model-free H∞ optimal tracking control of constrained nonlinear systems via an iterative adaptive learning algorithm. IEEE Trans Syst Man Cybern:Syst, 2020, 50（11）: 4097 [10] Luo B, Liu D R, Huang T W, et al. Model-free optimal tracking control via critic-only Q-learning. IEEE Trans Neural Netw Learn Syst, 2016, 27（10）: 2134 [11] Al-Tamimi A, Lewis F L, Abu-Khalaf M. Discrete-time nonlinear HJB solution using approximate dynamic programming: Convergence proof. IEEE Trans Syst Man Cybern B:Cybern, 2008, 38（4）: 943 [12] Zhang H G, Luo Y H, Liu D R. Neural-network-based nearoptimal control for a class of discrete-time affine nonlinear systems with control constraints. IEEE Trans Neural Netw, 2009, 20（9）: 1490 [13] Wang D, Liu D R, Wei Q L, et al. Optimal control of unknown nonaffine nonlinear discrete-time systems based on adaptive dynamic programming. Automatica, 2012, 48（8）: 1825 [14] 0.45 0.40 0.35 0.30 0.25 0.20 0.15 0.10 0.05 0 0 50 100 150 Time index Threshold 200 250 300 图 10 触发阈值 (例 2) Fig.10 Triggering threshold (Example 2) 0.40 0.35 0.30 0.25 0.20 0.15 0.10 0.05 0 0 50 100 150 Time index Case 2 Case 1 Control input 200 250 300 图 11 两种情况下的控制输入 (例 2) Fig.11 Control input of the two cases (Example 2) 6 5 4 3 2 1 0 0 50 100 150 Time index Triggering interval 200 250 300 图 12 驱动时刻间隔 (例 2) Fig.12 Triggering interval (Example 2) · 418 · 工程科学学报，第 44 卷，第 3 期

王鼎：一类离散动态系统基于事件的迭代神经控制 419… [15]Zhong X,Ni Z,He H.A theoretical foundation of goal 2019,45(6):1031) representation heuristic dynamic programming.IEEE Trans [22]Zhang H G,Su H G,Zhang K,et al.Event-triggered adaptive Neural Nenv Learn Syst,2016,27(12):2513 dynamic programming for non-zero-sum games of unknown [16]Yang X,Liu D R,Wang D,et al.Discrete-time online learning nonlinear systems via generalized fuzzy hyperbolic models.IEEE control for a class of unknown nonaffine nonlinear systems using Trans Fuey Syst,2019,27(11):2202 reinforcement learning.Neural Netw,2014,55:30 [23]Egtami A,Dimarogonas D V,Kyriakopoulos K J.Event-triggered [17]Tabuada P.Event-triggered real-time scheduling of stabilizing control for discrete-time systems /Proceedings of the 2010 control tasks.IEEE Trans Autom Control,2007,52(9):1680 American Control Conference,Baltimore,2010:4719 [18]Fan Q Y,Yang G H.Event-based fuzzy adaptive fault-tolerant [24]Dong L,Zhong X N.Sun C Y,et al.Adaptive event-triggered control for a class of nonlinear systems.IEEE Trans Fuzzy Syst, control based on heuristic dynamic programming for nonlinear 2018,26(5):2686 [19]Zhou Y.Zeng Z.Event-triggered impulsive control on quasi- discrete-time systems.IEEE Trans Neural Netw Learn Syst,2017, 28(7):1594 synchronization of memristive neural networks with time-varying delays.Neural Netw,2019,110:55 [25]Ha MM,Wang D,Liu D R.Event-triggered adaptive critic control [20]Wang D,Zhong X N.Advanced policy learning near-optimal design for discrete-time constrained nonlinear systems.IEEE regulation.IEEE/CAA J Autom Sin,2019,6(3):743 Trans Syst Man Cybern:Syst,2020,50(9):3158 [21]Wang D.Research progress on learning-based robust adaptive [26]Dhar N K,Verma N K,Behera L.Adaptive critic-based event- critic control.Acta Autom Sin,2019,45(6):1031 triggered control for HVAC system.IEEE Trans Ind Inform,2018, (王鼎.基于学习的鲁棒自适应评判控制研究进展.自动化学报， 14(1):178

Zhong X, Ni Z, He H. A theoretical foundation of goal representation heuristic dynamic programming. IEEE Trans Neural Netw Learn Syst, 2016, 27（12）: 2513 [15] Yang X, Liu D R, Wang D, et al. Discrete-time online learning control for a class of unknown nonaffine nonlinear systems using reinforcement learning. Neural Netw, 2014, 55: 30 [16] Tabuada P. Event-triggered real-time scheduling of stabilizing control tasks. IEEE Trans Autom Control, 2007, 52（9）: 1680 [17] Fan Q Y, Yang G H. Event-based fuzzy adaptive fault-tolerant control for a class of nonlinear systems. IEEE Trans Fuzzy Syst, 2018, 26（5）: 2686 [18] Zhou Y, Zeng Z. Event-triggered impulsive control on quasisynchronization of memristive neural networks with time-varying delays. Neural Netw, 2019, 110: 55 [19] Wang D, Zhong X N. Advanced policy learning near-optimal regulation. IEEE/CAA J Autom Sin, 2019, 6（3）: 743 [20] Wang D. Research progress on learning-based robust adaptive critic control. Acta Autom Sin, 2019, 45（6）: 1031 （王鼎. 基于学习的鲁棒自适应评判控制研究进展. 自动化学报, [21] 2019, 45（6）：1031） Zhang H G, Su H G, Zhang K, et al. Event-triggered adaptive dynamic programming for non-zero-sum games of unknown nonlinear systems via generalized fuzzy hyperbolic models. IEEE Trans Fuzzy Syst, 2019, 27（11）: 2202 [22] Eqtami A, Dimarogonas D V, Kyriakopoulos K J. Event-triggered control for discrete-time systems // Proceedings of the 2010 American Control Conference, Baltimore, 2010: 4719 [23] Dong L, Zhong X N, Sun C Y, et al. Adaptive event-triggered control based on heuristic dynamic programming for nonlinear discrete-time systems. IEEE Trans Neural Netw Learn Syst, 2017, 28（7）: 1594 [24] Ha M M, Wang D, Liu D R. Event-triggered adaptive critic control design for discrete-time constrained nonlinear systems. IEEE Trans Syst Man Cybern: Syst, 2020, 50（9）: 3158 [25] Dhar N K, Verma N K, Behera L. Adaptive critic-based eventtriggered control for HVAC system. IEEE Trans Ind Inform, 2018, 14（1）: 178 [26] 王鼎：一类离散动态系统基于事件的迭代神经控制 · 419 ·

点击进入文档下载页（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录