工程科学学报 Chinese Journal of Engineering 一类离散动态系统基于事件的送代神经控制 王鼎 Event-based iterative neural control for a type of discrete dynamic plant WANG Ding 引用本文: 王鼎.一类离散动态系统基于事件的迭代神经控制[.工程科学学报,2022,44(3):411-419.doi:10.13374/j.issn2095- 9389.2020.10.28.002 WANG Ding.Event-based iterative neural control for a type of discrete dynamic plant[J].Chinese Journal of Engineering.2022. 443:411-419.doi:10.13374.issn2095-9389.2020.10.28.002 在线阅读View online::htps:/ldoi.org/10.13374.issn2095-9389.2020.10.28.002 您可能感兴趣的其他文章 Articles you may be interested in 基于有限时间滤波控制的电机驱动系统结构控制一体化设计 Plant/controller co-design of motor driving systems based on finite-time filtering control 工程科学学报.2019.41(9y:1194 https::/1doi.org10.13374.issn2095-9389.2019.09.011 基于嵌套饱和的输入约束浮空器非线性控制 Nonlinear control of aerostat with input constraints based on nested saturation 工程科学学报.2018.40(12:1557htps:ldoi.org10.13374.issn2095-9389.2018.12.015 多模型自适应控制理论及应用 Survey of multi-model adaptive control theory and its applications 工程科学学报.2020,42(2:135 https::/1doi.0rg/10.13374.issn2095-9389.2019.02.25.006 基于非线性模型预测控制的自动泊车路径跟踪 Path tracking of automatic parking based on nonlinear model predictive control 工程科学学报.2019,41(7:947 https:oi.org10.13374j.issn2095-9389.2019.07.014 基于自适应滑模的多螺旋桨浮空器容错控制 Fault-tolerant control for a multi-propeller airship based on adaptive sliding mode method 工程科学学报.2020,423:372 https::/1doi.org/10.13374.issn2095-9389.2019.04.25.002 无人直升机自抗扰自适应轨迹跟踪混合控制 Trajectory-tracking hybrid controller based on ADRC and adaptive control for unmanned helicopters 工程科学学报.2017,3911:1743htps:/doi.org/10.13374.issn2095-9389.2017.11.018
一类离散动态系统基于事件的迭代神经控制 王鼎 Event-based iterative neural control for a type of discrete dynamic plant WANG Ding 引用本文: 王鼎. 一类离散动态系统基于事件的迭代神经控制[J]. 工程科学学报, 2022, 44(3): 411-419. doi: 10.13374/j.issn2095- 9389.2020.10.28.002 WANG Ding. Event-based iterative neural control for a type of discrete dynamic plant[J]. Chinese Journal of Engineering, 2022, 44(3): 411-419. doi: 10.13374/j.issn2095-9389.2020.10.28.002 在线阅读 View online: https://doi.org/10.13374/j.issn2095-9389.2020.10.28.002 您可能感兴趣的其他文章 Articles you may be interested in 基于有限时间滤波控制的电机驱动系统结构/控制一体化设计 Plant/controller co-design of motor driving systems based on finite-time filtering control 工程科学学报. 2019, 41(9): 1194 https://doi.org/10.13374/j.issn2095-9389.2019.09.011 基于嵌套饱和的输入约束浮空器非线性控制 Nonlinear control of aerostat with input constraints based on nested saturation 工程科学学报. 2018, 40(12): 1557 https://doi.org/10.13374/j.issn2095-9389.2018.12.015 多模型自适应控制理论及应用 Survey of multi-model adaptive control theory and its applications 工程科学学报. 2020, 42(2): 135 https://doi.org/10.13374/j.issn2095-9389.2019.02.25.006 基于非线性模型预测控制的自动泊车路径跟踪 Path tracking of automatic parking based on nonlinear model predictive control 工程科学学报. 2019, 41(7): 947 https://doi.org/10.13374/j.issn2095-9389.2019.07.014 基于自适应滑模的多螺旋桨浮空器容错控制 Fault-tolerant control for a multi-propeller airship based on adaptive sliding mode method 工程科学学报. 2020, 42(3): 372 https://doi.org/10.13374/j.issn2095-9389.2019.04.25.002 无人直升机自抗扰自适应轨迹跟踪混合控制 Trajectory-tracking hybrid controller based on ADRC and adaptive control for unmanned helicopters 工程科学学报. 2017, 39(11): 1743 https://doi.org/10.13374/j.issn2095-9389.2017.11.018
工程科学学报.第44卷,第3期:411-419.2022年3月 Chinese Journal of Engineering,Vol.44,No.3:411-419,March 2022 https://doi.org/10.13374/j.issn2095-9389.2020.10.28.002;http://cje.ustb.edu.cn 一类离散动态系统基于事件的迭代神经控制 王 鼎1,23,4✉ 1)北京工业大学信息学部.北京1001242)计算智能与智能系统北京市重点实验室,北京1001243)智慧环保北京实验室,北京100124 4)北京人工智能研究院,北京100124 ☒通信作者,E-mail:dingwang@bjut.edu.cn 摘要面向离散时间非线性动态系统,提出一种基于事件的迭代神经控制框架.主要目标是将迭代自适应评判方法与事件 驱动机制结合起来,以解决离散时间非线性系统的近似最优调节问题.首先,构造两个迭代序列并建立一种事件触发的值学 习策略.其次,详细给出迭代算法的收敛性分析和新型框架的神经网络实现.这里是在基于事件的迭代环境下实施启发式动 态规划技术.此外,通过设计适当的阈值以确定事件驱动方法的触发条件,最后,借助两个仿真实例验证本文控制方案的优 越性能,尤其是在通信资源的利用方面.本文的工作有助于构建一类事件驱动机制下的智能控制系统 关键词迭代自适应评判:神经控制:事件驱动设计:智能控制:非线性动态:优化控制 分类号TP13 Event-based iterative neural control for a type of discrete dynamic plant WANG Ding 23A 1)Faculty of Information Technology,Beijing University of Technology,Beijing 100124,China 2)Beijing Key Laboratory of Computational Intelligence and Intelligent System,Beijing 100124,China 3)Beijing Laboratory of Smart Environmental Protection,Beijing 100124,China 4)Beijing Institute of Artificial Intelligence,Beijing 100124,China Corresponding author,E-mail:dingwang @bjut.edu.cn ABSTRACT With the widespread popularity of network-based techniques and extension of computer control scales,more dynamical systems,particularly complex nonlinear dynamics,including increasing communication burdens,increasing difficulties in building accurate mathematical models,and different uncertain factors are encountered.Consequently,in contrast to the linear case,the optimization of the design of these uncertain complex systems is difficult to achieve.By combining reinforcement learning,neural networks,and dynamic programming,the adaptive critic method is regarded as an advanced approach to address intelligent control problems.The adaptive critic method has been currently used to solve the optimal regulation,trajectory tracking,robust control, disturbance attenuation,and zero-sum game problems.It has been considered a promising direction within the artificial intelligence field. However,many traditional design processes of the adaptive critic method are conducted based on the time-based mechanism,where the control signals are updated at each time step.Thus,the related control efficiencies are often low,which results in poor performance when considering practical updating times.Hence,more improvements are needed to enhance the control efficiency of adaptive-critic-based nonlinear control design.In this study,we developed an event-based iterative neural control framework for discrete-time nonlinear dynamics.The iterative adaptive critic method was combined with the event-driven mechanism to address the approximate optimal regulation problem in discrete-time nonlinear plants.An event-triggered value learning strategy was established with two iterative 收稿日期:2020-10-28 基金项目:北京市自然科学基金资助项目(JQ19013):国家自然科学基金资助项目(61773373,61890930-5,62021003):科技创新 2030一一“新一代人工智能”重大项目(2021ZD0112300-2);国家重点研发计划资助项目(2018YFC1900800-5)
一类离散动态系统基于事件的迭代神经控制 王 鼎1,2,3,4) 苣 1) 北京工业大学信息学部,北京 100124 2) 计算智能与智能系统北京市重点实验室,北京 100124 3) 智慧环保北京实验室,北京 100124 4) 北京人工智能研究院,北京 100124 苣通信作者, E-mail: dingwang@bjut.edu.cn 摘 要 面向离散时间非线性动态系统,提出一种基于事件的迭代神经控制框架. 主要目标是将迭代自适应评判方法与事件 驱动机制结合起来,以解决离散时间非线性系统的近似最优调节问题. 首先,构造两个迭代序列并建立一种事件触发的值学 习策略. 其次,详细给出迭代算法的收敛性分析和新型框架的神经网络实现. 这里是在基于事件的迭代环境下实施启发式动 态规划技术. 此外,通过设计适当的阈值以确定事件驱动方法的触发条件. 最后,借助两个仿真实例验证本文控制方案的优 越性能,尤其是在通信资源的利用方面. 本文的工作有助于构建一类事件驱动机制下的智能控制系统. 关键词 迭代自适应评判;神经控制;事件驱动设计;智能控制;非线性动态;优化控制 分类号 TP13 Event-based iterative neural control for a type of discrete dynamic plant WANG Ding1,2,3,4) 苣 1) Faculty of Information Technology, Beijing University of Technology, Beijing 100124, China 2) Beijing Key Laboratory of Computational Intelligence and Intelligent System, Beijing 100124, China 3) Beijing Laboratory of Smart Environmental Protection, Beijing 100124, China 4) Beijing Institute of Artificial Intelligence, Beijing 100124, China 苣 Corresponding author, E-mail: dingwang@bjut.edu.cn ABSTRACT With the widespread popularity of network-based techniques and extension of computer control scales, more dynamical systems, particularly complex nonlinear dynamics, including increasing communication burdens, increasing difficulties in building accurate mathematical models, and different uncertain factors are encountered. Consequently, in contrast to the linear case, the optimization of the design of these uncertain complex systems is difficult to achieve. By combining reinforcement learning, neural networks, and dynamic programming, the adaptive critic method is regarded as an advanced approach to address intelligent control problems. The adaptive critic method has been currently used to solve the optimal regulation, trajectory tracking, robust control, disturbance attenuation, and zero-sum game problems. It has been considered a promising direction within the artificial intelligence field. However, many traditional design processes of the adaptive critic method are conducted based on the time-based mechanism, where the control signals are updated at each time step. Thus, the related control efficiencies are often low, which results in poor performance when considering practical updating times. Hence, more improvements are needed to enhance the control efficiency of adaptive-critic-based nonlinear control design. In this study, we developed an event-based iterative neural control framework for discrete-time nonlinear dynamics. The iterative adaptive critic method was combined with the event-driven mechanism to address the approximate optimal regulation problem in discrete-time nonlinear plants. An event-triggered value learning strategy was established with two iterative 收稿日期: 2020−10−28 基金项目: 北京市自然科学基金资助项目 ( JQ19013) ; 国家自然科学基金资助项目 ( 61773373, 61890930-5, 62021003) ;科技创 新 2030——“新一代人工智能”重大项目(2021ZD0112300-2);国家重点研发计划资助项目(2018YFC1900800-5) 工程科学学报,第 44 卷,第 3 期:411−419,2022 年 3 月 Chinese Journal of Engineering, Vol. 44, No. 3: 411−419, March 2022 https://doi.org/10.13374/j.issn2095-9389.2020.10.28.002; http://cje.ustb.edu.cn
412 工程科学学报,第44卷.第3期 sequences.The convergence analysis of the iterative algorithm and the neural network implementation of the new framework were presented in detail.Therein,the heuristic dynamic programming technique was employed under the event-based iterative environment Moreover,the triggering condition of the event-driven approach was determined with the appropriate threshold.Finally,simulation examples were provided to illustrate the excellent control performance,particularly in utilizing the communication resource.Thus, constructing a class of intelligent control systems based on the event-based mechanism will be helpful. KEY WORDS iterative adaptive critic;neural control;event-based design;intelligent control;nonlinear dynamics;optimal control 在许多数值计算过程中,神经网络都被视为 系统,目前基于事件的迭代自适应评判控制的研 一种能够用于参数学习和函数逼近的重要方法, 究成果还比较少 解决非线性最优反馈控制问题的关键在于如何求 基于以上背景,本文提出一种适用于离散时 解复杂的Hamilton-Jacobi-Bellman(HJB)方程.由 间最优调节问题的事件驱动迭代神经网络策略 于缺乏解析策略,文献[]构造了基于神经网络的 通过收敛性分析和HDP实现,得到基于事件环境 自适应评判算法来获取满意的数值结果.近年来, 下的迭代自适应评判算法.然后为基于事件的离 基于自适应评判结构的控制系统设计受到很多关 散时间动态系统设计一个实用的触发条件.众所 注,在解决优化调节,跟踪控制,鲁棒镇定,干扰抑 周知,迭代自适应评判方法在学习近似最优控制 制,零和博弈等方面取得不少成果2-川当考虑实 方面具有重要意义,而事件驱动机制在通信资源 现过程时,自适应评判有三种基本类型的技术,包 利用方面优势明显.因此,将这两种机制结合起来, 括启发式动态规划(Heuristic dynamic programming, 可以得到一种有效的离散时间非线性系统的事件 HDP),二次启发式规划(Dual HDP,DHP)和全局二 驱动迭代神经控制方法.也就是说,通过本文的研 次启发式规划(Globalized DHP,GDHP)I.近年来, 究,迭代自适应评判控制和事件驱动控制的应用 离散时间情形下的迭代自适应评判结构已被分别 范围都将得到扩大 用以处理包含HDP2,DHPI1和GDHP1结构的 在本文中,R是所有实数的集合.R"是所有n维 近似最优调节问题.进而,目标导向型迭代HDP设 实向量组成的欧氏空间.设2是的一个紧集并且 计的理论分析也在文献[15]中给出.文献[16]提 平(2)是上容许控制律的集合.Rmxm是所有n×m维 出一种用于离散时间未知非仿射非线性系统的在 实矩阵组成的空间.是中向量的向量范数或 线学习最优控制方法,并着重强调基于数据的自 Rxm中矩阵的矩阵范数.In是n×n维的单位矩阵 适应评判设计过程,需要注意的是,上述这些自适 N代表所有非负整数的集合,即0,1,2,….上标 应评判算法是利用基于时间的更新方法来实现的, “T”代表转置操作 所设计的控制器在每个时刻都进行更新,存在着 定的资源浪费现象 1问题描述 与经典的时间驱动机制相比,基于事件的方 本文考虑由下式描述的一类离散时间非线性 法已经成为提高资源利用效率的先进工具.它不 动态系统: 仅能够用于传统的反馈镇定7和容错控制8,而 (1) 且已经在忆阻系统的脉冲控制中得到应用.针 x(k+1)=f(x(k))+g(x(k))u(k),kEN 对传统时间驱动模式存在通信资源浪费的问题0, 式中,x()∈R是状态变量,u()∈R"是控制输入, 文献21]讨论了事件驱动环境下的神经控制实现 f)和g(是可微的并且有f0)=0.通常令x(O)作为 方法.值得注意的是,在基于事件的控制框架中, 初始状态.假设f+gu在包含原点的集合ΩcR”上 般根据指定的触发条件来更新控制信号.文献[22] 一 是Lipschitz连续的.此外,假设系统(I)可以在集合 给出一种基于广义模糊双曲模型的非零和博弈事 2上借助一个状态反馈控制律u()=μ(x(k)来镇定 件触发设计.另一方面,基于文献[23]的工作,Dong 为了描述基于事件的设计框架,定义单调递 等针对非线性离散时间系统提出一种基于事件 增序列sc其中,jeN.这里,基于事件的控制 的HDP算法.文献[25]则针对约束非线性系统基 信号仅在采样时刻s0,51,52,更新.于是,反馈控制 于事件的最优控制设计进行了扩展研究.文献[26] 律可以表示为u(k)=μ(x(s),其中,x(s)是关于时刻 设计一种实时事件驱动自适应评判控制器,并将 k=s的状态,k∈[s,S*1),j∈N.在这种结构下,需 其应用于实际的电力系统中,然而,关于离散动态 要一个零阶保持器来保持在时刻k=s时的事件驱
sequences. The convergence analysis of the iterative algorithm and the neural network implementation of the new framework were presented in detail. Therein, the heuristic dynamic programming technique was employed under the event-based iterative environment. Moreover, the triggering condition of the event-driven approach was determined with the appropriate threshold. Finally, simulation examples were provided to illustrate the excellent control performance, particularly in utilizing the communication resource. Thus, constructing a class of intelligent control systems based on the event-based mechanism will be helpful. KEY WORDS iterative adaptive critic;neural control;event-based design;intelligent control;nonlinear dynamics;optimal control 在许多数值计算过程中, 神经网络都被视为 一种能够用于参数学习和函数逼近的重要方法. 解决非线性最优反馈控制问题的关键在于如何求 解复杂 的 Hamilton-Jacobi-Bellman (HJB) 方 程 . 由 于缺乏解析策略, 文献 [1] 构造了基于神经网络的 自适应评判算法来获取满意的数值结果. 近年来, 基于自适应评判结构的控制系统设计受到很多关 注, 在解决优化调节, 跟踪控制, 鲁棒镇定, 干扰抑 制, 零和博弈等方面取得不少成果[2–11] . 当考虑实 现过程时, 自适应评判有三种基本类型的技术, 包 括启发式动态规划 (Heuristic dynamic programming, HDP), 二次启发式规划 (Dual HDP, DHP) 和全局二 次启发式规划 (Globalized DHP, GDHP)[1] . 近年来, 离散时间情形下的迭代自适应评判结构已被分别 用以处理包含 HDP[12] , DHP[13] 和 GDHP[14] 结构的 近似最优调节问题. 进而, 目标导向型迭代 HDP 设 计的理论分析也在文献 [15] 中给出. 文献 [16] 提 出一种用于离散时间未知非仿射非线性系统的在 线学习最优控制方法, 并着重强调基于数据的自 适应评判设计过程. 需要注意的是, 上述这些自适 应评判算法是利用基于时间的更新方法来实现的, 所设计的控制器在每个时刻都进行更新, 存在着 一定的资源浪费现象. 与经典的时间驱动机制相比, 基于事件的方 法已经成为提高资源利用效率的先进工具. 它不 仅能够用于传统的反馈镇定[17] 和容错控制[18] , 而 且已经在忆阻系统的脉冲控制中得到应用[19] . 针 对传统时间驱动模式存在通信资源浪费的问题[20] , 文献 [21] 讨论了事件驱动环境下的神经控制实现 方法. 值得注意的是, 在基于事件的控制框架中, 一般根据指定的触发条件来更新控制信号. 文献 [22] 给出一种基于广义模糊双曲模型的非零和博弈事 件触发设计. 另一方面, 基于文献 [23] 的工作, Dong 等[24] 针对非线性离散时间系统提出一种基于事件 的 HDP 算法. 文献 [25] 则针对约束非线性系统基 于事件的最优控制设计进行了扩展研究. 文献 [26] 设计一种实时事件驱动自适应评判控制器, 并将 其应用于实际的电力系统中. 然而, 关于离散动态 系统, 目前基于事件的迭代自适应评判控制的研 究成果还比较少. 基于以上背景, 本文提出一种适用于离散时 间最优调节问题的事件驱动迭代神经网络策略. 通过收敛性分析和 HDP 实现, 得到基于事件环境 下的迭代自适应评判算法. 然后为基于事件的离 散时间动态系统设计一个实用的触发条件. 众所 周知, 迭代自适应评判方法在学习近似最优控制 方面具有重要意义, 而事件驱动机制在通信资源 利用方面优势明显. 因此, 将这两种机制结合起来, 可以得到一种有效的离散时间非线性系统的事件 驱动迭代神经控制方法. 也就是说, 通过本文的研 究, 迭代自适应评判控制和事件驱动控制的应用 范围都将得到扩大. R R n n Ω R n Ψ(Ω) R n×m n×m ∥ · ∥ R n R n×m In n×n N {0,1,2,...} 在本文中, 是所有实数的集合. 是所有 维 实向量组成的欧氏空间. 设 是 的一个紧集并且 是上容许控制律的集合. 是所有 维 实矩阵组成的空间. 是 中向量的向量范数或 中矩阵的矩阵范数. 是 维的单位矩阵. 代表所有非负整数的集合, 即 . 上标 “T”代表转置操作. 1 问题描述 本文考虑由下式描述的一类离散时间非线性 动态系统: x(k+1) = f(x(k))+g(x(k))u(k), k ∈ N (1) x(k) ∈ Rn u(k) ∈ Rm f(·) g(·) f(0) = 0 x(0) f +gu Ω ⊂ Rn Ω u(k) = µ(x(k)) 式中, 是状态变量, 是控制输入, 和 是可微的并且有 . 通常令 作为 初始状态. 假设 在包含原点的集合 上 是 Lipschitz 连续的. 此外,假设系统 (1) 可以在集合 上借助一个状态反馈控制律 来镇定. {sj} ∞ j=0 j ∈ N s0 s1 s2 ... u(k) = µ(x(sj)) x(sj) k = sj k ∈ [sj ,sj+1) j ∈ N k = sj 为了描述基于事件的设计框架,定义单调递 增序列 , 其中, . 这里, 基于事件的控制 信号仅在采样时刻 , , , 更新. 于是, 反馈控制 律可以表示为 , 其中, 是关于时刻 的状态, , . 在这种结构下, 需 要一个零阶保持器来保持在时刻 时的事件驱 · 412 · 工程科学学报,第 44 卷,第 3 期
王鼎:一类离散动态系统基于事件的迭代神经控制 413 动控制输入,直到下一个事件发生.基于事件的误 一个事件满足此触发条件时,控制输入才会被更 差信号是上述结构的基本组成部分,定义为 新.基于事件控制的主要问题就是如何确定一个 ek)=x(s)-x(,k∈[sj,siti,jeN (2) 合适的触发阈值,这也将在下一节介绍 式中,x(s)是采样状态,x(是当前的状态向量.利 2基于事件的迭代自适应评判控制 用表达式x(s)=x()+e(),反馈控制律可以改写为 u()=μ(x(s》=μ(x()+e(k).于是,可得 本节重点介绍基于事件的迭代自适应评判控 x(k+1)=fx(k)+g(x(k)μ(ax(k)+e(k),k∈N(3) 制框架,包括算法收敛性分析,神经网络实现和触 这可以认为是非线性系统()的闭环形式 发条件设计 本文考虑最优控制问题,需要得到一个反馈 2.1基于事件的迭代算法及其收敛性 控制律μ∈平(2)来最小化 应该指出的是,在基于事件的迭代自适应评 JIxW)=元UO,4Krs》 判控制方法中,需要考虑带有触发信息的值函数 (4) 学习过程.选择一个小的正数,并构造两个迭代序 l=k 列(x()和μO(x(s》,由此开始执行算法,其 式中,μ(x(s》=μ(x(k)+e(k),jeN,U(x,)≥0,x,u 中,表示迭代指标且i∈N.令初始迭代指标i=0并 是效用函数,且有U0,0)=0成立.在本文中,效用 且令初始代价函数J0(=0 函数选取为二次型形式 然后,迭代控制函数通过 U(x(k).u(x(si)))=x(k)Qx(k)+ O(x(s》=arg min{U(x(k),μ(x(s》+ μ(x(s)Pμ(x(s》 (5) u(x(s;)) 式中涉及到的Q∈Rx和P∈Rmxm都是正定矩阵. Jo(x(k+1)》= 回顾著名的最优性原理,最优代价函数定义为 -》 ox(k+1) (10) ra》=min ox,As》 (6) 进行求解.在上述参数最小化运算中,状态向量 ()l x(k+1)=f(x(k))+g(x(k))(x(si)) 且满足以下的离散时间HB方程: 接下来,迭代代价函数通过 J'(x(k)=min{U(ax(k),μ(ax(s》+ xtsi)) i+D)(x(k))=min (U(x(k).u(x(sj))+ (s》 J厂(x(k+1)》 (7) J0(x(k+1)》 (11) 基于事件触发机制的最优控制策略(x(s)》可 进行更新,也可以写为 由下式计算: Ji+D(x(k))=U(x(k).H(D(x(sj)+ μ`(r(sj)=arg min{U(r(k),μ(r(sj》+ u(x(s;)) J(f(x(k))+g(x(k))(x(sj)) (12) J(x(k+1)》 (8) 需要注意的是,当Ji+D(x()-J@(x()训≤e时, 考虑到仿射型动态系统和二次型效用函数, 停止准则生效,从而获得近似最优控制律.此外, 则有 通过令i=i+1来增加迭代指标,从而继续求解式 rs》=-P产gWrk+I》 1 (9) a0x(k+1) (10)中的迭代控制函数和更新(11)中的迭代代价 函数 需要注意的是,式(7)是动态规划过程中应该 下面,根据有界性和单调性给出上面迭代算 处理的关键式子, 法的收敛性证明 在本文中,为了解决基于事件的最优控制设 定理1迭代代价函数序列(J⊙是有上界的,即 计,应该关注两个方面的问题.一方面,需要下一 个时间步的值J广(x(k+1)来获得最优代价函数 0≤0(x()≤了,i∈N,其中,了是一个正常数 J(x(k)和最优控制u(x(s).为了克服获取 证明.令(x(s》为触发时刻s的任意容许控制 J(x(k+1)和求解离散时间HUB方程的困难,下一 输人,4⊙是如下定义的一个序列: 节将介绍一种基于自适应评判设计的迭代结构. A+(xk)=Ux(k),(x(s》+AO(r(k+1)(13) 另一方面,在基于事件的结构中,需要设计一个形 式中,迭代指标取零时的初始值Ao(=0.易知, 如Ile(k)训≤e的事件触发条件,其中,e是正阈值.当 A(x(k)=U(x(k),(x(s).随着迭代指标展开
动控制输入,直到下一个事件发生. 基于事件的误 差信号是上述结构的基本组成部分,定义为 e(k) = x(sj)− x(k), k ∈ [sj ,sj+1), j ∈ N (2) x(sj) x(k) x(sj) = x(k)+e(k) u(k) = µ(x(sj)) = µ(x(k)+e(k)) 式中, 是采样状态, 是当前的状态向量. 利 用表达式 , 反馈控制律可以改写为 . 于是,可得 x(k+1) = f(x(k))+g(x(k))µ(x(k)+e(k)), k ∈ N (3) 这可以认为是非线性系统 (1) 的闭环形式. µ ∈ Ψ(Ω) 本文考虑最优控制问题, 需要得到一个反馈 控制律 来最小化 J(x(k)) = ∑∞ ℓ=k U(x(ℓ),µ(x(sj))) (4) µ(x(sj)) = µ(x(k)+e(k)) j ∈ N U(x,u) ⩾ 0,∀x,u U(0,0) = 0 式中, , , 是效用函数,且有 成立. 在本文中,效用 函数选取为二次型形式 U(x(k),µ(x(sj))) = x T (k)Qx(k)+ µ T (x(sj))Pµ(x(sj)) (5) Q ∈ Rn×n P ∈ R 式中涉及到的 和 m×m都是正定矩阵. 回顾著名的最优性原理, 最优代价函数定义为 J ∗ (x(k)) = min {µ(·)} ∑∞ ℓ=k U(x(ℓ),µ(x(sj))) (6) 且满足以下的离散时间 HJB 方程: J ∗ (x(k)) = min µ(x(sj )) {U(x(k),µ(x(sj)))+ J ∗ (x(k+1))} (7) µ ∗ 基于事件触发机制的最优控制策略 (x(sj)) 可 由下式计算: µ ∗ (x(sj)) = arg min µ(x(sj )) {U(x(k),µ(x(sj)))+ J ∗ (x(k+1))} (8) 考虑到仿射型动态系统和二次型效用函数, 则有 µ ∗ (x(sj)) = − 1 2 P −1 g T (x(k)) ∂J ∗ (x(k+1)) ∂x(k+1) (9) 需要注意的是,式 (7) 是动态规划过程中应该 处理的关键式子. J ∗ (x(k+1)) J ∗ (x(k)) µ ∗ (x(sj)) J ∗ (x(k+1)) ||e(k)|| ⩽ e¯ e¯ 在本文中, 为了解决基于事件的最优控制设 计, 应该关注两个方面的问题. 一方面, 需要下一 个时间步的值 来获得最优代价函数 和 最 优 控 制 . 为 了 克 服 获 取 和求解离散时间 HJB 方程的困难, 下一 节将介绍一种基于自适应评判设计的迭代结构. 另一方面, 在基于事件的结构中, 需要设计一个形 如 的事件触发条件, 其中, 是正阈值. 当 一个事件满足此触发条件时, 控制输入才会被更 新. 基于事件控制的主要问题就是如何确定一个 合适的触发阈值, 这也将在下一节介绍. 2 基于事件的迭代自适应评判控制 本节重点介绍基于事件的迭代自适应评判控 制框架, 包括算法收敛性分析, 神经网络实现和触 发条件设计. 2.1 基于事件的迭代算法及其收敛性 {J (i) (x(k))} {µ (i) (x(sj))} i i ∈ N i = 0 J (0)(·) = 0 应该指出的是, 在基于事件的迭代自适应评 判控制方法中, 需要考虑带有触发信息的值函数 学习过程. 选择一个小的正数, 并构造两个迭代序 列 和 , 由此开始执行算法, 其 中, 表示迭代指标且 . 令初始迭代指标 并 且令初始代价函数 . 然后, 迭代控制函数通过 µ (i) (x(sj)) = arg min µ(x(sj )) {U(x(k),µ(x(sj)))+ J (i) (x(k+1))} = − 1 2 P −1 g T (x(k)) ∂J (i) (x(k+1)) ∂x(k+1) (10) x(k+1) = f(x(k))+g(x(k))µ(x(sj)) 进行求解. 在上述参数最小化运算中, 状态向量 . 接下来, 迭代代价函数通过 J (i+1)(x(k)) = min µ(x(sj )) {U(x(k),µ(x(sj))+ J (i) (x(k+1))} (11) 进行更新, 也可以写为 J (i+1)(x(k)) = U ( x(k),µ (i) (x(sj))) + J (i) ( f(x(k))+g(x(k))µ (i) (x(sj))) (12) |J (i+1)(x(k))− J (i) (x(k))| ⩽ ϵ i = i+1 需要注意的是, 当 时, 停止准则生效, 从而获得近似最优控制律. 此外, 通过令 来增加迭代指标, 从而继续求解式 (10) 中的迭代控制函数和更新 (11) 中的迭代代价 函数. 下面, 根据有界性和单调性给出上面迭代算 法的收敛性证明. {J (i) } 0 ⩽ J (i) (x(k)) ⩽ J i ∈ N J 定理 1 迭代代价函数序列 是有上界的,即 , , 其中, 是一个正常数. ζ(x(sj)) sj {A (i) } 证明. 令 为触发时刻 的任意容许控制 输入, 是如下定义的一个序列: A (i+1)(x(k)) = U(x(k), ζ(x(sj)))+ A (i) (x(k+1)) (13) A (0)(·) = 0 A (1)(x(k)) = U(x(k), ζ(x(sj))) i 式中, 迭代指标取零时的初始值 . 易知, . 随 着 迭 代 指 标 展 开 王 鼎: 一类离散动态系统基于事件的迭代神经控制 · 413 ·
414 工程科学学报,第44卷,第3期 A+D(x(k)-AO(x(k),最终可以得到. Jo(x()≥min{U(r(k),(ax(s》+ (x(sj)) A(i+D(x(k))-A(i(x(k))=A(x(k+i)) (14) Jo(x(k+1)》 (20) 即有 反之,根据式(11)和定理2,有下式成立 A+(x(K)=∑AD(xk+》 (15) Ji+(x(k)≤U(x(k),μ(x(s)+ =0 @(x(k+1)》≤ 考虑到(x(s》的容许性.可知对于任意的迭代 U(x(k),μ(x(s)+ 指标i,都有A+(x()≤了成立.由于式(11)中的迭 Jo(x(k+1),i∈N (21) 代代价函数+(x()包含了最小化运算,可以进 当i→o时,可得对于任意的μ((s》,都有 一步得到Ji(x(k)≤A+(x(k)≤.于是,考虑到 Jo(x(k)≤U(x(k),μ(r(s)+ 代价函数的非负性,可以得到0≤J@(x()≤了,i∈N. o(x(k+1) (22) 证毕 于是,可得 定理2迭代代价函数序列(⑨是非减的,即 Jo(x(k)≤min{U(x(k),μ(ar(s》+ μ(r(s) Jo(x(k)≤Ji+1(x(),i∈N. J(x(k+1)》} (23) 证明.为了方便起见,定义一个新的序列 综合式(20)和(23),最终得到 {B且初始值BO()=0.该序列中的元素更新方式 J(x(k))=min (U(x(k).I(x(sj)))+ 如下: (x(sj)) B(i+D(x(k))=U(x(k).u+D(x(sj)+ Jo(x(k+1)》 (24) B(i(x(k+1)) 比较式(7)和(24),可以得到迭代序列{J⊙的 (16) 极限,即J),正是代价函数的最优值.因此,有 利用数学归纳法,首先因为J(x(k)-BO(x()= J0(x(k)→Jo(x(k)=J产(x(k)成立.同理,当i→o U(ax(k,o(x(s》≥0,可以得到不等式Bo(x(》≤ 时,也有(x(s》→(x(s》成立,这可以看做一个 J(x(k).然后,假设Bi-D(x)≤(x()对于任意 推论 状态向量都成立且i=2,3,,注意到式(12)和由 2.2基于神经网络的HDP技术实现 (16)推得的表达式 在实现迭代自适应评判算法时,需要建立两 B(x(k))=U(x(k).u(x(sj))+ 个神经网络,即评判网络和执行网络,分别用于输 Bi-I(x(k+1)》 (17) 出近似代价函数和近似控制律 则有 评判网络输出迭代代价函数的近似值,即 B(D(x(k))-Ji+D(x(k))= ji+D(x(k))=+DT(v+DTx(k)) (25) Bi-(x(k+1)-J0(x(k+1)≤0 (18) 结合式(12),训练误差准则为 因此,可以得到对于任意i∈N,都有BO(x(k)≤ =+x-+cxk)2 E+(k)= (26) J+(x()成立,这样就完成了数学归纳证明 考虑到式(I1)中代价函数(x()的导出方 这里涉及的权重矩阵更新方式为 式,则有JO(x(k)≤B(x(k).因此,最终得到不等式 wl+1)-w+(0=-nc (aED(k aogd (27a) J(x(k)》≤BO(x()≤Ji+I)(x().证毕 根据定理1和定理2,迭代代价函数序列 y+0+1)-y*(0=-n (ED(k) (27b) (J0是收敛的.令当i→o时的迭代代价函数为J) m+0 考虑式(11)且根据定理2的结论,则有 式中,>0是评判网络的学习率,1是内循环的迭 J(x()≥Ji+I(x(k)= 代指标.其中,w+(0和v+(0是权重矩阵的第次 min{U(x(k),μ(x(si)》+ 迭代值. 4(xrsj》 J(x(k+1)),iEN 执行网络输出迭代控制函数的近似值,即 (19) 当i→o时,进一步有 0xs》=wTσ(9Tx(s) (28)
A (i+1)(x(k))− A (i) (x(k)), 最终可以得到. A (i+1)(x(k))− A (i) (x(k)) = A (1)(x(k+i)) (14) 即有 A (i+1)(x(k)) = ∑ i h¯=0 A (1)(x(k+h¯)) (15) ζ(x(sj)) i A (i+1)(x(k)) ⩽ J J (i+1)(x(k)) J (i+1)(x(k)) ⩽ A (i+1)(x(k)) ⩽ J 0 ⩽ J (i) (x(k)) ⩽ J i ∈ N 考虑到 的容许性. 可知对于任意的迭代 指标 , 都有 成立. 由于式 (11) 中的迭 代代价函数 包含了最小化运算, 可以进 一步得到 . 于是, 考虑到 代价函数的非负性, 可以得到 , . 证毕. {J (i) } J (i) (x(k)) ⩽ J (i+1)(x(k)) i ∈ N 定理 2 迭代代价函数序列 是非减的, 即 , . {B (i) } B (0)(·) = 0 证 明 . 为了方便起见 , 定义一个新的序列 且初始值 . 该序列中的元素更新方式 如下: B (i+1)(x(k)) = U ( x(k),µ (i+1)(x(sj))) + B (i) (x(k+1)) (16) J (1)(x(k))− B (0)(x(k)) = U(x(k),µ (0)(x(sj)) ⩾ 0 B (0)(x(k)) ⩽ J (1)(x(k)) B (i−1)(x(k)) ⩽ J (i) (x(k)) i = 2,3,··· 利用数学归纳法,首先因为 , 可 以 得 到 不 等 式 . 然后, 假设 对于任意 状态向量都成立且 ,注意到式 (12) 和由 (16) 推得的表达式 B (i) (x(k)) = U(x(k),µ (i) (x(sj)))+ B (i−1)(x(k+1)) (17) 则有 B (i) (x(k))− J (i+1)(x(k)) = B (i−1)(x(k+1))− J (i) (x(k+1)) ⩽ 0 (18) i ∈ N B (i) (x(k)) ⩽ J (i+1)(x(k)) 因此, 可以得到对于任意 , 都有 成立, 这样就完成了数学归纳证明. J (i) (x(k)) J (i) (x(k)) ⩽ B (i) (x(k)) J (i) (x(k)) ⩽ B (i) (x(k)) ⩽ J (i+1)(x(k)) 考虑到式 (11) 中代价函数 的导出方 式, 则有 . 因此, 最终得到不等式 . 证毕. {J (i) } i → ∞ J (∞) 根据定 理 1 和 定 理 2, 迭代代价函数序列 是收敛的. 令当 时的迭代代价函数为 . 考虑式 (11) 且根据定理 2 的结论, 则有 J (∞) (x(k)) ⩾ J (i+1)(x(k)) = min µ(x(sj )) {U(x(k),µ(x(sj)))+ J (i) (x(k+1))}, i ∈ N (19) 当 i → ∞时, 进一步有 J (∞) (x(k)) ⩾ min µ(x(sj )) {U(x(k),µ(x(sj)))+ J (∞) (x(k+1))} (20) 反之, 根据式 (11) 和定理 2, 有下式成立: J (i+1)(x(k)) ⩽ U(x(k),µ(x(sj)))+ J (i) (x(k+1)) ⩽ U(x(k),µ(x(sj)))+ J (∞) (x(k+1)), i ∈ N (21) 当 i → ∞时, 可得对于任意的 µ(x(sj)), 都有 J (∞) (x(k)) ⩽ U(x(k),µ(x(sj)))+ J (∞) (x(k+1)) (22) 于是, 可得 J (∞) (x(k)) ⩽ min µ(x(sj )) {U(x(k),µ(x(sj)))+ J (∞) (x(k+1))} (23) 综合式 (20) 和 (23),最终得到 J (∞) (x(k)) = min µ(x(sj )) {U(x(k),µ(x(sj)))+ J (∞) (x(k+1))} (24) {J (i) } J (∞) J (i) (x(k)) → J (∞) (x(k)) = J ∗ (x(k)) i → ∞ µ (i) (x(sj)) → µ ∗ (x(sj)) 比较式 (7) 和 (24), 可以得到迭代序列 的 极限, 即 , 正是代价函数的最优值. 因此, 有 成立. 同理, 当 时, 也有 成立, 这可以看做一个 推论. 2.2 基于神经网络的 HDP 技术实现 在实现迭代自适应评判算法时, 需要建立两 个神经网络, 即评判网络和执行网络, 分别用于输 出近似代价函数和近似控制律. 评判网络输出迭代代价函数的近似值, 即 Jˆ (i+1)(x(k)) = ω (i+1)T c σ ( ν (i+1)T c x(k) ) (25) 结合式 (12), 训练误差准则为 E (i+1) c (k) = 1 2 [ Jˆ (i+1)(x(k))− J (i+1)(x(k))]2 (26) 这里涉及的权重矩阵更新方式为 ω (i+1) c (l+1)−ω (i+1) c (l) = −ηc ∂E (i+1) c (k) ∂ω (i+1) c (l) (27a) ν (i+1) c (l+1)−ν (i+1) c (l) = −ηc ∂E (i+1) c (k) ∂ν (i+1) c (l) (27b) ηc > 0 l ω (i+1) c (l) ν (i+1) c (l) l 式中, 是评判网络的学习率, 是内循环的迭 代指标. 其中, 和 是权重矩阵的第 次 迭代值. 执行网络输出迭代控制函数的近似值, 即 µˆ (i) (x(sj)) = ω (i)T a σ ( ν (i)T a x(sj) ) (28) · 414 · 工程科学学报,第 44 卷,第 3 期
王鼎:一类离散动态系统基于事件的迭代神经控制 415 值得注意的是,执行网络的输人是基于事件 +1)-2(0=-a (aE(s) (30h) 的状态x(s),这与传统评判网络的输入(基于时间 av(D 的状态)不同.学习过程的误差准则为 式中,a>0是需要设计的学习率参数 E(s》=0x(s》-uxs》)x 为清楚起见,图1给出离散时间非线性系统 基于事件的迭代HDP控制的结构简图.其中,实 (aO(x(s》-O(x(s) (29) 线代表信号流向,虚线是两个神经网络的反向 其中,根据式(10)可以直接计算⊙(x(s).相似地, 传播路径.值得注意的是,状态信息被传递到基 于事件的模块用于转换信号状态,传递到被控 执行网络的权重更新算法为 对象用于更新系统状态,传递到评判网络用于 w90+1)-wQ(0=-a (aE(s) (30a) 计算代价函数.因此,系统状态组件包含三个重要 ow(D 角色 Acton Zero-order Controlled Critic network hold plant network xs ax(s》 n(x(k)) rk+1) j(x(k+1)) Neural weight transmission Event-based x() System state Critic +D(K) module information 图1离散动态系统基于事件的迭代HDP框架简图 Fig.I Simple diagram of the event-based iterative heuristic dynamic programming (HDP)framework with discrete dynamic plants 2.3事件触发条件设计 终可以得到 为了确定非线性离散动态系统的具体事件触发条 (35) 件,这里给出文献23-25]中使用的如下假设.值得 Ilek≤px(s∑(2p' 10 注意的是,根据式(3),x(k+1)是关于x()和e(k)的函数. 式中,1=k-5j-1.基于不等式(35),则有触发条件 假设1范数不等式∥e(k)≤x(k)和x(k+I)川≤ Ile(k)训≤e,其中的阈值可以写成 x(k)川+le()成立,其中,x(k+1)由式(3)给出,这 里的正常数B∈(0,0.5). 1-(2β- 1-2Bx(s训.B∈(0,0.5) (36) 定理3如果假设1成立,则触发条件 证毕 Iek训se=1-(2Bk 1-2B(s训,B∈(0,0.5) (31) 定理3提出的触发条件与假设1中的采样状 态和预先指定的常数密切相关,因此并不是唯一 能够保证基于事件的控制器设计的可用性, 的.这个条件是本文提出的事件驱动迭代自适应 证明.考虑到式(3)给出的动态系统和假设1, 评判控制框架的设计基础.为了表明触发条件的 可以得到 作用,图2给出了执行迭代HDP算法之后的事件 Ile(k)≤lIr(k)≤ 驱动控制实现,其中,(x()是已获得的近似最优 x(k-1川+ek-1)川≤ BIle(k-1川+lr(sD+le(k-1川l= 控制器,也就是用于事件驱动设计的实际控制律 2le(k-1)川+lr(sl (32) 图2的蓝色虚线代表下一步迭代的状态,要与当 前的状态区分.当触发条件得以满足时(转向 使用同样的方法,易知 “Y”),控制信号仍然保持之前的值(x(s-).然 Ile(k-1)川≤2e(k-2ll+r(sl (33) 而,当触发条件不被满足时(转向“N”),控制信号 然后,结合式(32)和式(33),则有 将通过执行网络更新成为(x(s).经过零阶保持 Ile(kl≤2β2le(k-2)+r(slD+r(sl(34) 器的作用之后,事件驱动控制信号(x(s-)》或 利用e(s)=0,并如同式(34)一样扩展le(k)儿,最 (x(s》中的一个将被转换成(x(k),最终就可以
x(sj) 值得注意的是, 执行网络的输入是基于事件 的状态 , 这与传统评判网络的输入 (基于时间 的状态) 不同. 学习过程的误差准则为 E (i) a (sj) = 1 2 ( µˆ (i) (x(sj))−µ (i) (x(sj)))T × ( µˆ (i) (x(sj))−µ (i) (x(sj))) (29) µ (i) 其中, 根据式 (10) 可以直接计算 (x(sj)). 相似地, 执行网络的权重更新算法为 ω (i) a (l+1)−ω (i) a (l) = −ηa ∂E (i) a (sj) ∂ω (i) a (l) (30a) ν (i) a (l+1)−ν (i) a (l) = −ηa ∂E (i) a (sj) ∂ν (i) a (l) (30b) 式中, ηa > 0 是需要设计的学习率参数. 为清楚起见, 图 1 给出离散时间非线性系统 基于事件的迭代 HDP 控制的结构简图. 其中, 实 线代表信号流向, 虚线是两个神经网络的反向 传播路径. 值得注意的是, 状态信息被传递到基 于事件的模块用于转换信号状态, 传递到被控 对象用于更新系统状态, 传递到评判网络用于 计算代价函数. 因此, 系统状态组件包含三个重要 角色. Critic network + - U System state information Action network Event-based module Zero-order hold Controlled plant Critic network Neural weight transmission x(sj ) μ (i) (x(sj )) ^ μ (i) (x(k)) ^ J (i) (x(k+1)) ^ J (i+1) (x(k)) ^ x(k+1) x(k) 图 1 离散动态系统基于事件的迭代 HDP 框架简图 Fig.1 Simple diagram of the event-based iterative heuristic dynamic programming (HDP) framework with discrete dynamic plants 2.3 事件触发条件设计 x(k+1) x(k) e(k) 为了确定非线性离散动态系统的具体事件触发条 件, 这里给出文献 [23–25] 中使用的如下假设. 值得 注意的是, 根据式 (3), 是关于 和 的函数. ||e(k)|| ⩽ ||x(k)|| ||x(k+1)|| ⩽ β||x(k)||+β||e(k)|| x(k+1) β ∈ (0,0.5) 假设 1 范数不等式 和 成立, 其中, 由式 (3) 给出, 这 里的正常数 . 定理 3 如果假设 1 成立, 则触发条件 ||e(k)|| ⩽ e¯ = 1−(2β) k−sj 1−2β β||x(sj)||, β ∈ (0,0.5) (31) 能够保证基于事件的控制器设计的可用性. 证明. 考虑到式 (3) 给出的动态系统和假设 1, 可以得到 ||e(k)|| ⩽ ||x(k)|| ⩽ β||x(k−1)||+β||e(k−1)|| ⩽ β(||e(k−1)||+||x(sj)||)+β||e(k−1)|| = 2β||e(k−1)||+β||x(sj)|| (32) 使用同样的方法, 易知 ||e(k−1)|| ⩽ 2β||e(k−2)||+β||x(sj)|| (33) 然后, 结合式 (32) 和式 (33), 则有 ||e(k)|| ⩽ 2β(2β||e(k−2)||+β||x(sj)||)+β||x(sj)|| (34) 利用 e(sj) = 0, 并如同式 (34) 一样扩展 ||e(k)||, 最 终可以得到 ||e(k)|| ⩽ β||x(sj)|| ¯ ∑ l l=0 (2β) l (35) ¯l = k− sj −1 ||e(k)|| ⩽ e¯ 式中, . 基于不等式 (35), 则有触发条件 , 其中的阈值可以写成 e¯ = 1−(2β) k−sj 1−2β β||x(sj)||, β ∈ (0,0.5) (36) 证毕. µˆ ∗ (x(k)) µˆ ∗ (x(sj−1)) µˆ ∗ (x(sj)) µˆ ∗ (x(sj−1)) µˆ ∗ (x(sj)) µˆ ∗ (x(k)) 定理 3 提出的触发条件与假设 1 中的采样状 态和预先指定的常数密切相关, 因此并不是唯一 的. 这个条件是本文提出的事件驱动迭代自适应 评判控制框架的设计基础. 为了表明触发条件的 作用, 图 2 给出了执行迭代 HDP 算法之后的事件 驱动控制实现, 其中, 是已获得的近似最优 控制器, 也就是用于事件驱动设计的实际控制律. 图 2 的蓝色虚线代表下一步迭代的状态, 要与当 前的状态区分 . 当触发条件得以满足 时 (转 向 “Y”), 控制信号仍然保持之前的值 . 然 而, 当触发条件不被满足时 (转向“N”), 控制信号 将通过执行网络更新成为 . 经过零阶保持 器的作用之后 , 事件驱动控制信号 或 中的一个将被转换成 , 最终就可以 王 鼎: 一类离散动态系统基于事件的迭代神经控制 · 415 ·
416 工程科学学报,第44卷,第3期 x5*(xS-》 x(s) Action *rs》 x(+I) Zero-order *(x(k) Controlled Triggering condition> ell≤e network hold plant x(s) Event-based x() Next state Current state module 图2执行迭代HDP算法之后的事件驱动控制实现过程 Fig.2 Event-based control implementation process after conducting the iterative HDP algorithm 应用于原始被控系统 0.40 3仿真研究 0.35 0.30 本节给出将基于事件迭代自适应评判方法应 用到一些特定动态系统的仿真研究,以验证近似 a 最优控制性能 30.15 例1考虑质量弹簧阻尼器系统的离散化形式4] 0.10 x(k+1)= 0.9996r1(k)+0.0099x2(k) -0.0887x1(k)+0.97x2(k) 0.05 0 0 10.0099 u(k) 0 50 100150200250300 (37) Iteration index 式中,状态向量为x(=[x1(,x2(]I,控制变量是 图3迭代代价函数的收敛性(例1) ().为了解决基于事件的最优调节问题,代价函 Fig.3 Convergence of the iterative cost function(Example 1) 数中的效用参数分别选为Q=0.0112和P=1. 0.5 通过将网络结构预先分别设定为2-8-1(输入 层,隐藏层,输出层神经元的个数)和2-8-1,然后 根据式(27和式(30)在迭代框架中训练评判网络 和执行网络.在训练过程中,选择初始状态x(O)= 0.5 [1,0.5]并且取学习率为e=a=0.1.评判网络和执 行网络的初始权重分别在[-0.1,0.1]和[-0.5,0.5]中 -1.0 随机选取.特别地,需要将基于事件的机制应用于 执行网络.采用迭代HDP算法进行290轮迭代,每 -1.5 ---Case 2 轮迭代设定2000次训练.如果达到预先指定的精 Case 1 度∈=106,就结束评判网络和执行网络的训练,即 2%2 00.2 0.40.60.8 1.0 12 获得满意的学习效果.图3给出了迭代代价函数 图4两种情况下的状态轨迹(例1) 的收敛趋势,也验证了定理1和定理2中的陈述 Fig.4 State trajectory of the two cases (Example 1) 在基于事件的控制设计中,令B=0.1并且指定 触发阈值表达式(36)具体如下: 清楚地看到,正如传统的迭代HDP算法一样,基于 e=1-0.2- 事件情况下的系统状态也能够最终收敛到零向量 lx(s川 (38) 8 顺便指出,触发阈值的变化曲线如图5所示,它随 为了与传统时间驱动方法进行比较,执行两 着系统状态的变化也趋于零.此外,与传统的迭代 种情况,即事件驱动模式和时间驱动模式下的迭 HDP算法相比,基于事件方法的控制曲线呈阶梯 代HDP算法,其中情况I(Casel)是本文提出的事 状,如图6所示.在仿真中,基于时间情形下的控制 件驱动模式,情况2(Case2)是文献[12]中提出的 输入更新了500个时间步,然而在基于事件情况 传统时间驱动模式.图4给出了应用事件驱动迭 下,仅仅需要222个时间步,对应的驱动时刻间隔 代自适应评判方法时的状态响应,其中也给出了 如图7所示.因此,这就验证了基于事件的迭代自 应用传统迭代HDP算法时的状态轨迹.这里,可以 适应评判方法的优越之处,即通信资源的利用效
应用于原始被控系统. 3 仿真研究 本节给出将基于事件迭代自适应评判方法应 用到一些特定动态系统的仿真研究, 以验证近似 最优控制性能. 例 1 考虑质量弹簧阻尼器系统的离散化形式[24] x(k+1) = [ 0.9996x1(k)+0.0099x2(k) −0.0887x1(k)+0.97x2(k) ] + [ 0 0.0099 ] u(k) (37) x(k) = [x1(k), x2(k)]T u(k) Q = 0.01I2 P = I 式中, 状态向量为 , 控制变量是 . 为了解决基于事件的最优调节问题, 代价函 数中的效用参数分别选为 和 . x(0) = [1,0.5]T ηc = ηa = 0.1 [−0.1,0.1] [−0.5,0.5] ϵ = 10−6 通过将网络结构预先分别设定为 2–8–1(输入 层, 隐藏层, 输出层神经元的个数) 和 2–8–1, 然后 根据式 (27) 和式 (30) 在迭代框架中训练评判网络 和执行网络. 在训练过程中, 选择初始状态 并且取学习率为 . 评判网络和执 行网络的初始权重分别在 和 中 随机选取. 特别地, 需要将基于事件的机制应用于 执行网络. 采用迭代 HDP 算法进行 290 轮迭代, 每 轮迭代设定 2000 次训练. 如果达到预先指定的精 度 , 就结束评判网络和执行网络的训练, 即 获得满意的学习效果. 图 3 给出了迭代代价函数 的收敛趋势, 也验证了定理 1 和定理 2 中的陈述. 在基于事件的控制设计中, 令 β = 0.1 并且指定 触发阈值表达式 (36) 具体如下: e¯ = 1−0.2 k−sj 8 ||x(sj)|| (38) 为了与传统时间驱动方法进行比较, 执行两 种情况, 即事件驱动模式和时间驱动模式下的迭 代 HDP 算法, 其中情况 1(Case1) 是本文提出的事 件驱动模式, 情况 2(Case2) 是文献 [12] 中提出的 传统时间驱动模式. 图 4 给出了应用事件驱动迭 代自适应评判方法时的状态响应, 其中也给出了 应用传统迭代 HDP 算法时的状态轨迹. 这里, 可以 清楚地看到, 正如传统的迭代 HDP 算法一样, 基于 事件情况下的系统状态也能够最终收敛到零向量. 顺便指出, 触发阈值的变化曲线如图 5 所示, 它随 着系统状态的变化也趋于零. 此外, 与传统的迭代 HDP 算法相比, 基于事件方法的控制曲线呈阶梯 状, 如图 6 所示. 在仿真中, 基于时间情形下的控制 输入更新了 500 个时间步, 然而在基于事件情况 下, 仅仅需要 222 个时间步, 对应的驱动时刻间隔 如图 7 所示. 因此, 这就验证了基于事件的迭代自 适应评判方法的优越之处, 即通信资源的利用效 Action network Next state Triggering condition Current state N Y Controlled plant x(sj−1), μ*(x(sj−1)) x(sj ) ||e||≤e − Zero-order hold Event-based module ^ μ*(x(sj )) ^ μ*(x(k)) ^ x(k+1) x(sj ) x(k) 图 2 执行迭代 HDP 算法之后的事件驱动控制实现过程 Fig.2 Event-based control implementation process after conducting the iterative HDP algorithm 0.40 0.35 0.30 0.25 0.20 0.15 0.10 0.05 0 0 50 100 150 Iteration index Cost function 200 250 300 图 3 迭代代价函数的收敛性 (例 1) Fig.3 Convergence of the iterative cost function (Example 1) 0.5 0 −0.5 −1.0 −1.5 −2.0 −0.2 0 0.2 0.4 x1 x2 0.6 Case 2 Case 1 0.8 1.0 1.2 图 4 两种情况下的状态轨迹 (例 1) Fig.4 State trajectory of the two cases (Example 1) · 416 · 工程科学学报,第 44 卷,第 3 期
王鼎:一类离散动态系统基于事件的迭代神经控制 417. 0.6 式中,状态向量为x()=[x1(),x2(k)],控制变量是 0.5 ().为了解决事件驱动最优控制问题,这里除了 P=2L,x(0)=[1,-1T,以及在[-1,1]中随机选择执 0.4 行网络的初始权值之外,其他主要参数的设置都 与例1一样.在进行300轮迭代运算之后,代价函 数的收敛性如图8所示.与文献24不同的是,本 e, 文的方法可以很好地观察迭代代价函数的收敛性 0.1 当关注值函数学习过程时,对收敛性能的观测就 很有意义.实际上,这也是事件驱动环境下离散动 50100 150200250300350400450500 态系统迭代自适应评判算法的优点之一. Time index 0.8 图5触发阈值(例1) 0.7 Fig.5 Triggering threshold(Example 1) 0.6 ---Case2 0.6 ●ase 0.5 0.4 02 0.1 03 0 50 100150200250300 0.1 Iteration index 图8迭代代价函数的收敛性(例2) 0.1 Fig.8 Convergence of the iterative cost function(Example 2) 0 50100150200250300350400450500 Time index 分别考虑基于事件和基于时间的控制模式,图9 图6两种情况下的控制输人(例1) 给出两种情况下的状态轨迹.可以看到,图9中的 Fig.6 Control input of the two cases (Example 1) 两条轨迹非常接近,都具有很好的稳定效果.此外, 触发阈值和控制输入分别如图10和图11所示.与 状态曲线不同,两种情况下的控制轨迹具有明显 10 区别.在这个例子中,基于时间和基于事件框架的 控制输入分别更新了300次和85次,这里的驱动 时刻间隔如图12所示.也就是说,事件驱动结构使 6 得控制信号更新次数下降了71.67%.上述仿真结 果表明,基于事件的设计策略在保持较好稳定性能 的前提下,可以有效地减少控制信号的更新次数 ---·Case2 -0.1 -Case I 050100150200250300350400450500 -0.2 Time index -0.3 图7驱动时刻间隔(例1) -0.4 Fig.7 Triggering interval (Example 1) -0.5 率确实得以提高 -0.6 例2这里引入非线性因素,考虑如下离散时间 0.7 -0.8 非线性系统 -0.9 -0.5cos(1.4x2(k)sin(0.4x1(k) x(k+1)= 102 0.2 0.40.6 0.8 1.0 0.1x3(k) x1(k)+0.03x2() 0 u(k) 图9:两种情况下的状态轨迹(例2) -0.1x1(k)+x2(k) 0.008 (39) Fig.9 State trajectory of the two cases(Example 2)
率确实得以提高. 例 2 这里引入非线性因素, 考虑如下离散时间 非线性系统 x(k+1) = [ −0.5 cos(1.4x2(k)) sin(0.4x1(k)) 0.1x 2 2 (k) ] + [ x1(k)+0.03x2(k) −0.1x1(k)+ x2(k) ] + [ 0 0.008 ] u(k) (39) x(k) = [x1(k), x2(k)]T u(k) P = 2I x(0) = [1,−1]T [−1,1] 式中, 状态向量为 , 控制变量是 . 为了解决事件驱动最优控制问题, 这里除了 , , 以及在 中随机选择执 行网络的初始权值之外, 其他主要参数的设置都 与例 1 一样. 在进行 300 轮迭代运算之后, 代价函 数的收敛性如图 8 所示. 与文献 [24] 不同的是, 本 文的方法可以很好地观察迭代代价函数的收敛性. 当关注值函数学习过程时, 对收敛性能的观测就 很有意义. 实际上, 这也是事件驱动环境下离散动 态系统迭代自适应评判算法的优点之一. 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0 50 100 Iteration index Cost function 150 200 250 300 图 8 迭代代价函数的收敛性 (例 2) Fig.8 Convergence of the iterative cost function (Example 2) 分别考虑基于事件和基于时间的控制模式, 图 9 给出两种情况下的状态轨迹. 可以看到, 图 9 中的 两条轨迹非常接近, 都具有很好的稳定效果. 此外, 触发阈值和控制输入分别如图 10 和图 11 所示. 与 状态曲线不同, 两种情况下的控制轨迹具有明显 区别. 在这个例子中, 基于时间和基于事件框架的 控制输入分别更新了 300 次和 85 次, 这里的驱动 时刻间隔如图 12 所示. 也就是说, 事件驱动结构使 得控制信号更新次数下降了 71.67%. 上述仿真结 果表明, 基于事件的设计策略在保持较好稳定性能 的前提下, 可以有效地减少控制信号的更新次数. 0 −0.1 −0.2 −0.3 −0.4 −0.5 −0.6 −0.7 −0.8 −0.9 −1.0−0.2 0 0.2 0.4 x1 x2 0.6 Case 2 Case 1 0.8 1.0 图 9 两种情况下的状态轨迹 (例 2) Fig.9 State trajectory of the two cases (Example 2) 0.6 0.5 0.4 0.3 0.2 0.1 0 0 50 100 150 200 250 Time index Threshold 300 350 400 450 500 图 5 触发阈值 (例 1) Fig.5 Triggering threshold (Example 1) 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0 50 100 150 200 250 Time index Case 2 Case 1 Control input 300 350 400 450 500 −0.1 图 6 两种情况下的控制输入 (例 1) Fig.6 Control input of the two cases (Example 1) 12 10 8 6 4 2 0 0 50 100 150 Time index Triggering interval 200 250 300 350 400 450 500 图 7 驱动时刻间隔 (例 1) Fig.7 Triggering interval (Example 1) 王 鼎: 一类离散动态系统基于事件的迭代神经控制 · 417 ·
418 工程科学学报,第44卷,第3期 0.45 越性能 0.40 39 参考文献 [1]Werbos P J.Approximate dynamic programming for real-time control and neural modeling.In White D A and Sofge D A(Eds. Handbook of Intelligent Control:Neural,Fuzy,and Adaptive 0.15 Approaches.New York,NY:Van Nostrand Reinhold,1992 0.10 [2]Li J N,Chai T Y,Lewis F L,et al.Off-policy interleaved Q- 0.05 leaming:Optimal control for affine nonlinear discrete-time 00 systems.IEEE Trans Neural Nenw Learn Syst,2019,30(5):1308 50 100150200250300 Time index [3] Zhang HG,Liu Y,Xiao GY,et al.Data-based adaptive dynamic 图10触发阈值(例2) programming for a class of discrete-time systems with multiple Fig.10 Triggering threshold (Example 2) delays.IEEE Trans Syst Man Cybern:Syst,2020,50(2):432 [4]Zhang H G,Jiang H,Luo Y H,et al.Data-driven optimal 0.40 ---Case 2 consensus control for discrete-time multi-agent systems with 0.35 -Case I unknown dynamics using reinforcement learning method./EEE 0.30 Trans on Ind Electron,2017,64(5):4091 0.25 [5]Ha MM,Wang D,Liu D R.Generalized value iteration for discounted optimal control with stability analysis.Syst Control Letn,2021,147:104847 [6]Wang D,Ha MM.Qiao J F.Data-driven iterative adaptive critic 0.10 control towards an urban wastewater treatment plant.IEEE Trans 0.05 Ind Electron,2021,68(8:7362 [7]Wang D,Ha MM,Qiao J F,et al.Data-based composite control 00 50 100150200250 300 Time index design with critic intelligence for a wastewater treatment platform. 4 rtif Intell Rev,2020,53(5):3773 图11两种情况下的控制输人(例2) [8]Liang MM.Wang D.Liu D R.Improved value iteration for Fig.11 Control input of the two cases(Example 2) neural-network-based stochastic optimal control design.Neural Nehm,2020,124:280 [9]Liang MM,Wang D,Liu D R.Neuro-optimal control for discrete stochastic processes via a novel policy iteration algorithm.IEEE 色 Trans Syst Man Cybern:-Syst,2020,50(11):3972 [10]Hou J X,Wang D,Liu D R,et al.Model-free H optimal tracking 3 control of constrained nonlinear systems via an iterative adaptive learning algorithm.IEEE Trans Syst Man Cybern:Syst,2020, 2 50(11):4097 [11]Luo B,Liu D R,Huang T W,et al.Model-free optimal tracking control via critic-only Q-leaming.IEEE Trans Neural Netw Learn 50 100150200250300 Ss1,2016,27(10):2134 Time index [12]Al-Tamimi A,Lewis F L,Abu-Khalaf M.Discrete-time nonlinear 图12票动时刻间隔(例2) HJB solution using approximate dynamic programming: Fig.12 Triggering interval(Example 2) Convergence proof.IEEE Trans Syst Man Cybern B:Cybern,2008, 4结论 38(4):943 [13]Zhang H G,Luo Y H,Liu D R.Neural-network-based near- 本文提出一种基于事件的迭代神经控制方法, optimal control for a class of discrete-time affine nonlinear 用以解决离散动态系统的最优调节问题通过收 systems with control constraints.IEEE Trans Neural Net,2009, 20(9):1490 敛性分析,神经网络实现和触发阈值设计,构造基 [14]Wang D,Liu D R,Wei Q L,et al.Optimal control of unknown 于事件迭代自适应评判算法的完整框架.通过仿 nonaffine nonlinear discrete-time systems based on adaptive 真研究,验证了事件驱动迭代神经控制方法的优 dynamic programming.Automatica,2012,48(8):1825
4 结论 本文提出一种基于事件的迭代神经控制方法, 用以解决离散动态系统的最优调节问题. 通过收 敛性分析, 神经网络实现和触发阈值设计, 构造基 于事件迭代自适应评判算法的完整框架. 通过仿 真研究, 验证了事件驱动迭代神经控制方法的优 越性能. 参 考 文 献 Werbos P J. Approximate dynamic programming for real-time control and neural modeling. In White D A and Sofge D A (Eds. ) Handbook of Intelligent Control: Neural, Fuzzy, and Adaptive Approaches. New York, NY: Van Nostrand Reinhold, 1992 [1] Li J N, Chai T Y, Lewis F L, et al. Off-policy interleaved Qlearning: Optimal control for affine nonlinear discrete-time systems. IEEE Trans Neural Netw Learn Syst, 2019, 30(5): 1308 [2] Zhang H G, Liu Y, Xiao G Y, et al. Data-based adaptive dynamic programming for a class of discrete-time systems with multiple delays. IEEE Trans Syst Man Cybern:Syst, 2020, 50(2): 432 [3] Zhang H G, Jiang H, Luo Y H, et al. Data-driven optimal consensus control for discrete-time multi-agent systems with unknown dynamics using reinforcement learning method. IEEE Trans on Ind Electron, 2017, 64(5): 4091 [4] Ha M M, Wang D, Liu D R. Generalized value iteration for discounted optimal control with stability analysis. Syst Control Lett, 2021, 147: 104847 [5] Wang D, Ha M M, Qiao J F. Data-driven iterative adaptive critic control towards an urban wastewater treatment plant. IEEE Trans Ind Electron, 2021, 68(8): 7362 [6] Wang D, Ha M M, Qiao J F, et al. Data-based composite control design with critic intelligence for a wastewater treatment platform. Artif Intell Rev, 2020, 53(5): 3773 [7] Liang M M, Wang D, Liu D R. Improved value iteration for neural-network-based stochastic optimal control design. Neural Netw, 2020, 124: 280 [8] Liang M M, Wang D, Liu D R. Neuro-optimal control for discrete stochastic processes via a novel policy iteration algorithm. IEEE Trans Syst Man Cybern:Syst, 2020, 50(11): 3972 [9] Hou J X, Wang D, Liu D R, et al. Model-free H∞ optimal tracking control of constrained nonlinear systems via an iterative adaptive learning algorithm. IEEE Trans Syst Man Cybern:Syst, 2020, 50(11): 4097 [10] Luo B, Liu D R, Huang T W, et al. Model-free optimal tracking control via critic-only Q-learning. IEEE Trans Neural Netw Learn Syst, 2016, 27(10): 2134 [11] Al-Tamimi A, Lewis F L, Abu-Khalaf M. Discrete-time nonlinear HJB solution using approximate dynamic programming: Convergence proof. IEEE Trans Syst Man Cybern B:Cybern, 2008, 38(4): 943 [12] Zhang H G, Luo Y H, Liu D R. Neural-network-based nearoptimal control for a class of discrete-time affine nonlinear systems with control constraints. IEEE Trans Neural Netw, 2009, 20(9): 1490 [13] Wang D, Liu D R, Wei Q L, et al. Optimal control of unknown nonaffine nonlinear discrete-time systems based on adaptive dynamic programming. Automatica, 2012, 48(8): 1825 [14] 0.45 0.40 0.35 0.30 0.25 0.20 0.15 0.10 0.05 0 0 50 100 150 Time index Threshold 200 250 300 图 10 触发阈值 (例 2) Fig.10 Triggering threshold (Example 2) 0.40 0.35 0.30 0.25 0.20 0.15 0.10 0.05 0 0 50 100 150 Time index Case 2 Case 1 Control input 200 250 300 图 11 两种情况下的控制输入 (例 2) Fig.11 Control input of the two cases (Example 2) 6 5 4 3 2 1 0 0 50 100 150 Time index Triggering interval 200 250 300 图 12 驱动时刻间隔 (例 2) Fig.12 Triggering interval (Example 2) · 418 · 工程科学学报,第 44 卷,第 3 期
王鼎:一类离散动态系统基于事件的迭代神经控制 419… [15]Zhong X,Ni Z,He H.A theoretical foundation of goal 2019,45(6):1031) representation heuristic dynamic programming.IEEE Trans [22]Zhang H G,Su H G,Zhang K,et al.Event-triggered adaptive Neural Nenv Learn Syst,2016,27(12):2513 dynamic programming for non-zero-sum games of unknown [16]Yang X,Liu D R,Wang D,et al.Discrete-time online learning nonlinear systems via generalized fuzzy hyperbolic models.IEEE control for a class of unknown nonaffine nonlinear systems using Trans Fuey Syst,2019,27(11):2202 reinforcement learning.Neural Netw,2014,55:30 [23]Egtami A,Dimarogonas D V,Kyriakopoulos K J.Event-triggered [17]Tabuada P.Event-triggered real-time scheduling of stabilizing control for discrete-time systems /Proceedings of the 2010 control tasks.IEEE Trans Autom Control,2007,52(9):1680 American Control Conference,Baltimore,2010:4719 [18]Fan Q Y,Yang G H.Event-based fuzzy adaptive fault-tolerant [24]Dong L,Zhong X N.Sun C Y,et al.Adaptive event-triggered control for a class of nonlinear systems.IEEE Trans Fuzzy Syst, control based on heuristic dynamic programming for nonlinear 2018,26(5):2686 [19]Zhou Y.Zeng Z.Event-triggered impulsive control on quasi- discrete-time systems.IEEE Trans Neural Netw Learn Syst,2017, 28(7):1594 synchronization of memristive neural networks with time-varying delays.Neural Netw,2019,110:55 [25]Ha MM,Wang D,Liu D R.Event-triggered adaptive critic control [20]Wang D,Zhong X N.Advanced policy learning near-optimal design for discrete-time constrained nonlinear systems.IEEE regulation.IEEE/CAA J Autom Sin,2019,6(3):743 Trans Syst Man Cybern:Syst,2020,50(9):3158 [21]Wang D.Research progress on learning-based robust adaptive [26]Dhar N K,Verma N K,Behera L.Adaptive critic-based event- critic control.Acta Autom Sin,2019,45(6):1031 triggered control for HVAC system.IEEE Trans Ind Inform,2018, (王鼎.基于学习的鲁棒自适应评判控制研究进展.自动化学报, 14(1):178
Zhong X, Ni Z, He H. A theoretical foundation of goal representation heuristic dynamic programming. IEEE Trans Neural Netw Learn Syst, 2016, 27(12): 2513 [15] Yang X, Liu D R, Wang D, et al. Discrete-time online learning control for a class of unknown nonaffine nonlinear systems using reinforcement learning. Neural Netw, 2014, 55: 30 [16] Tabuada P. Event-triggered real-time scheduling of stabilizing control tasks. IEEE Trans Autom Control, 2007, 52(9): 1680 [17] Fan Q Y, Yang G H. Event-based fuzzy adaptive fault-tolerant control for a class of nonlinear systems. IEEE Trans Fuzzy Syst, 2018, 26(5): 2686 [18] Zhou Y, Zeng Z. Event-triggered impulsive control on quasisynchronization of memristive neural networks with time-varying delays. Neural Netw, 2019, 110: 55 [19] Wang D, Zhong X N. Advanced policy learning near-optimal regulation. IEEE/CAA J Autom Sin, 2019, 6(3): 743 [20] Wang D. Research progress on learning-based robust adaptive critic control. Acta Autom Sin, 2019, 45(6): 1031 (王鼎. 基于学习的鲁棒自适应评判控制研究进展. 自动化学报, [21] 2019, 45(6):1031) Zhang H G, Su H G, Zhang K, et al. Event-triggered adaptive dynamic programming for non-zero-sum games of unknown nonlinear systems via generalized fuzzy hyperbolic models. IEEE Trans Fuzzy Syst, 2019, 27(11): 2202 [22] Eqtami A, Dimarogonas D V, Kyriakopoulos K J. Event-triggered control for discrete-time systems // Proceedings of the 2010 American Control Conference, Baltimore, 2010: 4719 [23] Dong L, Zhong X N, Sun C Y, et al. Adaptive event-triggered control based on heuristic dynamic programming for nonlinear discrete-time systems. IEEE Trans Neural Netw Learn Syst, 2017, 28(7): 1594 [24] Ha M M, Wang D, Liu D R. Event-triggered adaptive critic control design for discrete-time constrained nonlinear systems. IEEE Trans Syst Man Cybern: Syst, 2020, 50(9): 3158 [25] Dhar N K, Verma N K, Behera L. Adaptive critic-based eventtriggered control for HVAC system. IEEE Trans Ind Inform, 2018, 14(1): 178 [26] 王 鼎: 一类离散动态系统基于事件的迭代神经控制 · 419 ·