第17卷第2期 智能系统学报 Vol.17 No.2 2022年3月 CAAI Transactions on Intelligent Systems Mar.2022 D0:10.11992/tis.202012038 网络出版地址:https:/ns.cnki.net/kcms/detail/23.1538.TP.20210622.1109.004html 基于强化学习的参数自整定及优化算法 严家政,专祥涛2 (1.武汉大学电气与自动化学院,湖北武汉430072:2.武汉大学深圳研究院,广东深圳518057) 摘要:传统PD控制算法在非线性时滞系统的应用中,存在参数整定及性能优化过程繁琐、控制效果不理想 的问题。针对该问题,提出了一种基于强化学习的控制器参数自整定及优化算法。该算法引入系统动态性能 指标计算奖励函数,通过学习周期性阶跃响应的经验数据,无需辨识被控对象模型的具体数据,即可实现控制 器参数的在线自整定及优化。以水箱液位控制系统为实验对象,对不同类型的PD控制器使用该算法进行参 数整定及优化的对比实验。实验结果表明,相比于传统的参数整定方法,所提出的算法能省去繁琐的人工调参 过程,有效优化控制器参数,减少被控量的超调量,提升控制器动态响应性能。 关键词:强化学习;整定;优化;学习算法;时滞;控制器;液位控制:动态响应 中图分类号:TP273 文献标志码:A文章编号:1673-4785(2022)02-0341-07 中文引用格式:严家政,专祥涛.基于强化学习的参数自整定及优化算法.智能系统学报,2022,17(2):341-347. 英文引用格式:YAN Jiazheng,ZHUAN Xiangtao..Parameter self-tuning and optimization algorithm based on reinforcement learn- ingJCAAI transactions on intelligent systems,2022,17(2):341-347. Parameter self-tuning and optimization algorithm based on reinforcement learning YAN Jiazheng',ZHUAN Xiangtao (1.School of Electrical Engineering and Automation,Wuhan University,Wuhan 430072,China;2.Shenzhen Research Institute, Wuhan University,Shenzhen 518057,China) Abstract:To achieve better control performance in the nonlinear time-delay system,the traditional Proportional-Integ- ral-Derivative(PID)control algorithm requires tuning and optimization,which complicates the controller design.First, we propose a new self-tuning and optimization algorithm for controller parameters based on reinforcement learning. Then,a reward function based on the system dynamic performance index is introduced by this algorithm.This function can learn the empirical data of periodic step response and realize the online optimization of controller parameters without identifying the model data of the controlled object.Finally,the algorithm is tested through experiments on a wa- ter tank level control system with different types of PID controllers.Experimental results show that,in contrast to the traditional parameter tuning method,the manual process is eliminated by the proposed algorithm,effectively optimizing the controller parameters,reducing the overshoot of the controlled quantity,and improving the dynamic response per- formance of the controller. Keywords:reinforcement learning;tuning;optimization;learning algorithm;time delay;controller,level control;dy- namic response 在现代工业控制系统研究中,对控制性能指 见的工业控制系统一般具有非线性、含时滞、多 标进行优化是研究控制算法的首要任务之一。常 变量等复杂特性,研究人员提出了模糊PD控制、 分数阶PD控制、自抗扰控制4)等算法,提升 收稿日期:2020-12-23.网络出版日期:2021-06-22. 基金项目:深圳市知识创新计划项目(JCYJ20170818144449801), 控制算法的性能。工程实践中,此类控制算法和 通信作者:专祥涛.E-mail:xtzhuan@whu.edu.cn 控制器的参数整定及优化过程需要工程师大量的
DOI: 10.11992/tis.202012038 网络出版地址: https://kns.cnki.net/kcms/detail/23.1538.TP.20210622.1109.004.html 基于强化学习的参数自整定及优化算法 严家政1 ,专祥涛1,2 (1. 武汉大学 电气与自动化学院,湖北 武汉 430072; 2. 武汉大学 深圳研究院,广东 深圳 518057) 摘 要:传统 PID 控制算法在非线性时滞系统的应用中,存在参数整定及性能优化过程繁琐、控制效果不理想 的问题。针对该问题,提出了一种基于强化学习的控制器参数自整定及优化算法。该算法引入系统动态性能 指标计算奖励函数,通过学习周期性阶跃响应的经验数据,无需辨识被控对象模型的具体数据,即可实现控制 器参数的在线自整定及优化。以水箱液位控制系统为实验对象,对不同类型的 PID 控制器使用该算法进行参 数整定及优化的对比实验。实验结果表明,相比于传统的参数整定方法,所提出的算法能省去繁琐的人工调参 过程,有效优化控制器参数,减少被控量的超调量,提升控制器动态响应性能。 关键词:强化学习;整定;优化;学习算法;时滞;控制器;液位控制;动态响应 中图分类号:TP273 文献标志码:A 文章编号:1673−4785(2022)02−0341−07 中文引用格式:严家政, 专祥涛. 基于强化学习的参数自整定及优化算法 [J]. 智能系统学报, 2022, 17(2): 341–347. 英文引用格式:YAN Jiazheng, ZHUAN Xiangtao. Parameter self-tuning and optimization algorithm based on reinforcement learning[J]. CAAI transactions on intelligent systems, 2022, 17(2): 341–347. Parameter self-tuning and optimization algorithm based on reinforcement learning YAN Jiazheng1 ,ZHUAN Xiangtao1,2 (1. School of Electrical Engineering and Automation, Wuhan University, Wuhan 430072, China; 2. Shenzhen Research Institute, Wuhan University, Shenzhen 518057, China) Abstract: To achieve better control performance in the nonlinear time-delay system, the traditional Proportional-Integral-Derivative (PID) control algorithm requires tuning and optimization, which complicates the controller design. First, we propose a new self-tuning and optimization algorithm for controller parameters based on reinforcement learning. Then, a reward function based on the system dynamic performance index is introduced by this algorithm. This function can learn the empirical data of periodic step response and realize the online optimization of controller parameters without identifying the model data of the controlled object. Finally, the algorithm is tested through experiments on a water tank level control system with different types of PID controllers. Experimental results show that, in contrast to the traditional parameter tuning method, the manual process is eliminated by the proposed algorithm, effectively optimizing the controller parameters, reducing the overshoot of the controlled quantity, and improving the dynamic response performance of the controller. Keywords: reinforcement learning; tuning; optimization; learning algorithm; time delay; controller; level control; dynamic response 在现代工业控制系统研究中,对控制性能指 标进行优化是研究控制算法的首要任务之一。常 见的工业控制系统一般具有非线性、含时滞、多 变量等复杂特性,研究人员提出了模糊 PID 控制[1] 、 分数阶 PID 控制[2-3] 、自抗扰控制[4-5] 等算法,提升 控制算法的性能。工程实践中,此类控制算法和 控制器的参数整定及优化过程需要工程师大量的 收稿日期:2020−12−23. 网络出版日期:2021−06−22. 基金项目:深圳市知识创新计划项目 (JCYJ20170818144449801). 通信作者:专祥涛. E-mail:xtzhuan@whu.edu.cn. 第 17 卷第 2 期 智 能 系 统 学 报 Vol.17 No.2 2022 年 3 月 CAAI Transactions on Intelligent Systems Mar. 2022
·342· 智能系统学报 第17卷 实践经验,或通过观察被控对象的响应逐步调 I)智能体Agent获取环境Environment在当 整,或通过辨识模型推理计算。参数优化过程繁 前周期T的状态Sr; 琐耗时、常有重复性工作。随着人工智能技术的 2)智能体Agent依据状态S,和策略Pr,选择 发展,深度学习6-刀、强化学习图等人工智能理论 并执行动作ar,作用于当前环境; 及技术被广泛应用于图像识别、智能推荐、机 3)环境由状态Sr变为新的状态S+,并反馈 器人控制]等领域。由于控制理论的反馈概念 当前策略的评价函数r; 与强化学习的奖励概念的相似性,为了增强控制 4)智能体Agent根据评价函数r更新策略, 算法性能、减少人工成本,许多学者也尝试在控 即Pr→P+1,T→T+1 制理论与控制工程领域引入强化学习2。但目 5)返回步骤1),重复上述步骤,直至满足目 前这类研究大多处于理论证明和仿真实验阶段, 标要求。 少有工程实践的验证。 算法流程中,评价函数r是关于环境的状态 本文针对上述问题,首先提出了一种基于强 S和智能体的执行动作α的函数,是决定强化学 化学习的控制参数优化算法,将参数整定问题近 习训练结果策略P性能好坏的关键性因素。 似为求解约束优化问题,通过结合强化学习的奖 2算法设计 励、经验回放机制和控制系统的动态性能指标评 价模块对控制器参数进行在线自整定及优化。然 在控制系统控制器性能分析中,系统阶跃响 后,以水箱液位控制系统为实验对象,对上述算 应对应的超调量6、上升时间t、调节时间t:等动 法进行实物对比测试。最后,设计了一种动态变 态性能指标是关于控制器参数矢量X的非线性 参数PD控制算法,验证基于强化学习的参数自 函数,评价控制器设计优劣的关键性因素。(本 整定及优化算法的可行性、有效性和普适性。 文研究中,以稳态值的±2%作为平衡状态误差 范围) 1强化学习 结合强化学习理论和控制理论知识,本文提 作为一种重要的机器学习方法,强化学习(re- 出一种基于强化学习(reinforcement learning,RL) inforcement learning,RL)采用了人类和动物学习 的控制器参数自整定及优化算法。算法将控制参 中的“尝试与失败”机制,强调智能体在与环境的 数矢量X作为智能体的动作,控制系统的响应结 交互过程中学习,利用评价性的反馈信号实现决 果作为状态,引入动态性能指标计算奖励函数, 策的优化。由于强化学习在学习过程中不需要给 通过在线学习周期性阶跃响应数据、梯度更新控 定各种状态的监督信号,因此其在求解复杂的优 制器参数的方式改变控制器的控制策略,直至满 化决策问题方面有广泛的应用前景。强化学习的 足优化目标,实现参数的自整定及优化。算法原 基本框架如图1所示。 理如图2所示。 状态S 动态性能指标 响应曲线 参数优化 (Agent) (Reward) (State) 控制器参数(Actor) 智能体 动作a(Actor) 环境 新的状态S 周期性 控制器 被控对象 (Agent) (Environment) 阶跃信号 (Policy) (Environment) 奖励r(Reward)- 反馈信号 图1强化学习的基本框架 图2基于强化学习的控制器参数优化算法原理图 Fig.1 Basic framework of reinforcement learning Fig.2 Schematic diagram of controller parameter optimiz- 与环境Environment交互过程中,智能体 ation algorithm based on reinforcement learning Agent根据当前状态,选择并执行一个动作,环境 根据原理图2,本文提出的参数自整定及优 接受动作后变为新的状态,并把奖赏信号反馈给 化算法将控制器参数整定问题定义为,求解满足 智能体,根据奖赏信号智能体更新决策单元,选 下列不等式约束条件的可行解: 择后续动作,直至获得期望的最大奖励值。 6(X)≤2 t,(X)≤22 智能体与环境的交互过程中,在每个周期 t,(X)≤2 (1) T会经历如下步骤: (s.t.XEZ
实践经验,或通过观察被控对象的响应逐步调 整,或通过辨识模型推理计算。参数优化过程繁 琐耗时、常有重复性工作。随着人工智能技术的 发展,深度学习[6-7] 、强化学习[8] 等人工智能理论 及技术被广泛应用于图像识别[9] 、智能推荐[10] 、机 器人控制[11] 等领域。由于控制理论的反馈概念 与强化学习的奖励概念的相似性,为了增强控制 算法性能、减少人工成本,许多学者也尝试在控 制理论与控制工程领域引入强化学习[12-14]。但目 前这类研究大多处于理论证明和仿真实验阶段[15] , 少有工程实践的验证。 本文针对上述问题,首先提出了一种基于强 化学习的控制参数优化算法,将参数整定问题近 似为求解约束优化问题,通过结合强化学习的奖 励、经验回放机制和控制系统的动态性能指标评 价模块对控制器参数进行在线自整定及优化。然 后,以水箱液位控制系统为实验对象,对上述算 法进行实物对比测试。最后,设计了一种动态变 参数 PID 控制算法,验证基于强化学习的参数自 整定及优化算法的可行性、有效性和普适性。 1 强化学习 作为一种重要的机器学习方法,强化学习 (reinforcement learning, RL) 采用了人类和动物学习 中的“尝试与失败”机制,强调智能体在与环境的 交互过程中学习,利用评价性的反馈信号实现决 策的优化。由于强化学习在学习过程中不需要给 定各种状态的监督信号,因此其在求解复杂的优 化决策问题方面有广泛的应用前景。强化学习的 基本框架[16] 如图 1 所示。 智能体 (Agent) 状态 S 动作 a (Actor) 奖励 r (Reward) 环境 (Environment) 新的状态 S 图 1 强化学习的基本框架 Fig. 1 Basic framework of reinforcement learning 与环境 Environment 交互过程中,智能体 Agent 根据当前状态,选择并执行一个动作,环境 接受动作后变为新的状态,并把奖赏信号反馈给 智能体,根据奖赏信号智能体更新决策单元,选 择后续动作,直至获得期望的最大奖励值。 智能体与环境的交互过程中, 在每个周期 T 会经历如下步骤[17] : S T 1) 智能体 Agent 获取环境 Environment 在当 前周期 T 的状态 ; S T PT aT 2) 智能体 Agent 依据状态 和策略 ,选择 并执行动作 ,作用于当前环境; S T S T+1 rT 3) 环境由状态 变为新的状态 ,并反馈 当前策略的评价函数 ; rT PT → PT+1 T → T +1 4) 智能体 Agent 根据评价函数 更新策略, 即 , ; 5) 返回步骤 1),重复上述步骤,直至满足目 标要求。 算法流程中,评价函数 r 是关于环境的状态 S 和智能体的执行动作 a 的函数,是决定强化学 习训练结果策略 P 性能好坏的关键性因素。 2 算法设计 δ tr ts 在控制系统控制器性能分析中,系统阶跃响 应对应的超调量 、上升时间 、调节时间 等动 态性能指标是关于控制器参数矢量 X 的非线性 函数,评价控制器设计优劣的关键性因素。(本 文研究中,以稳态值的±2% 作为平衡状态误差 范围) 结合强化学习理论和控制理论知识,本文提 出一种基于强化学习 (reinforcement learning, RL) 的控制器参数自整定及优化算法。算法将控制参 数矢量 X 作为智能体的动作,控制系统的响应结 果作为状态,引入动态性能指标计算奖励函数, 通过在线学习周期性阶跃响应数据、梯度更新控 制器参数的方式改变控制器的控制策略,直至满 足优化目标,实现参数的自整定及优化。算法原 理如图 2 所示。 RL 参数优化 (Agent) 控制器参数 (Actor) 周期性 阶跃信号 控制器 (Policy) 响应曲线 (State) 动态性能指标 (Reward) 被控对象 (Environment) 反馈信号 图 2 基于强化学习的控制器参数优化算法原理图 Fig. 2 Schematic diagram of controller parameter optimization algorithm based on reinforcement learning 根据原理图 2,本文提出的参数自整定及优 化算法将控制器参数整定问题定义为,求解满足 下列不等式约束条件的可行解: δ(X) ⩽ Ω1 tr (X) ⩽ Ω2 ts (X) ⩽ Ω3 s.t.X ∈ Z (1) ·342· 智 能 系 统 学 报 第 17 卷
第2期 严家政,等:基于强化学习的参数自整定及优化算法 ·343· 式中:Z为待优化的参数矢量X的取值范围; 识其模型及参数较为困难,而本文所设计的控制 2,(i=1,2,3)为优化目标的约束值。基于控制系统 器参数整定及优化算法是无需具体分析被控对象 动态性能指标超调量6、上升时间+,、调节时间 模型的无模型算法。因此,为了贴合工程实际条 t,算法定义奖励函数R为 件,本文只对控制系统模型作定性分析,而不对 其参数进行详细辨识。 R(X)= (2) 6X)2+1,(X)+1,(X3 由控制器、变频器(磁力泵)、水箱组成的水箱 液位控制系统原理图如图4所示。其中,变频器 本文算法的参数整定及优化流程如下(算法1): 1)根据实际条件和需求设定优化目标2,和 模块的输出(流量Q)与控制器模块的输出(占空 参数X的搜索范围Z,随机初始化参数X: 比U)的传递函数可近似为 Q(s) K 2)获得系统在参数X下的周期阶跃响应数 U(s) (T1s+1) ·e (3) 据,计算动态性能指标6、t、t,和奖励函数R:若 变频器Q H 满足优化目标,则终止迭代,输出参数X: 设定值 水箱 磁力泵) 3)从经验回放集S中随机批量抽取m个经验 样本,将2)中数据{X,6,1,‘,R)存入经验回放集S: 4)计算m个样本的参数平均梯度Vx; 图4水箱液位控制系统原理 Fig.4 Schematic diagram of liquid control system for tank 5)σ为高斯白噪声,α为自适应学习率,利用 梯度下降法更新参数:X=X+α.VX+σ 考虑对象的滞后时间,根据物料平衡方程,水 6)返回步骤2),重复上述步骤。 箱液位H与流量Q的传递函数为 为了尽可能获得全局最优的参数,本文的参 H(s)K2 (4) 数自整定及优化算法在更新参数的过程中引入高 (s)T:s+1 综上,本文实验中的水箱液位被控对象为具 斯白噪声,增加参数的探索度。同时,算法利用 有二阶传递函数的时滞系统。其传递函数为 经验回放技术,对过去的经验样本进行随机批量 H(s) KiK2 抽样,减弱经验数据的相关性和不平稳分布的影 而,s+12s+Dea (5) 响,增加优化过程的准确性和收敛速度。实践试 实物实验中,因实验装置部件设置的不同,部 验中,为避免算法陷入局部死循环,当可行解的 分模型参数范围为:T1∈[5,12],T2∈[30,56。 变异系数小于一定阈值时,即认为算法已获得局 3.2增量式PD控制器的参数优化 部收敛(近似全局)的相对最优解,保留当前结果 工业过程控制系统通常使用PD控制作为控 并重新搜索。 制器,增量式PD算法表达式为 3算法实验与对比分析 Au(k)=K.le(k)-e(k-1)]+Ke(k)+ Kd[e(k)-2e(k-1)+e(k-2)l (6) 为了验证上述基于强化学习的参数自整定及 u(k)=(k-1)+△u(k) (7) 优化算法的可行性和有效性,本文选择常见的水 式中:e()、u(、u()分别为采样k时刻的误差信 箱控制系统作为实物实验对象,对水箱液位控制 号、输出增量和输出:K。、K、K为PID控制器待 器进行算法验证实验。实验设备如图3所示。 整定的比例系数、积分系数和微分系数。 使用本文提出的基于强化学习的参数自整定 及优化算法对水箱实验设备的增量式PD控制器 进行参数优化实验,算法参数设定如下:随机样 本数m=10,学习率a=0.02。考虑系统性能实际 可行性,设定优化约束如下:系数范围K。∈[6,15], K∈[0,0.41,Ka∈[0,4:超调量阈值21=2%,上升时 间阈值22=20s,调节时间阈值23=38s。 图3水箱控制系统实验设备 算法训练过程中,PID控制器的系数随迭代 Fig.3 Experimental equipment of water tank control sys- 轮次的变化曲线如图5所示。由图5可以看出, tem 算法在学习过程的前期,利用较大范围的参数变 3.1控制系统模型定性分析 化增加了参数的探索度,然后通过在线学习经验 工程实际中的控制系统具有非线性,精准辨 数据,使得控制器参数逐渐收敛至优化目标
Ωi(i = 1,2,3) δ tr ts R 式中: Z 为待优化的参数矢 量 X 的取值范围; 为优化目标的约束值。基于控制系统 动态性能指标超调量 、上升时间 、调节时间 ,算法定义奖励函数 为 R(X) = 1 δ(X) 2 +tr(X) 2 +ts(X) 2 (2) 本文算法的参数整定及优化流程如下(算法 1): 1) 根据实际条件和需求设定优化目标 Ωi 和 参数 X 的搜索范围 Z,随机初始化参数 X; δ tr ts 2) 获得系统在参数 X 下的周期阶跃响应数 据,计算动态性能指标 、 、 和奖励函数 R;若 满足优化目标,则终止迭代,输出参数 X; {X,δ,tr ,ts ,R} 3) 从经验回放集 S 中随机批量抽取 m 个经验 样本,将 2) 中数据 存入经验回放集 S; 4) 计算 m 个样本的参数平均梯度 ∇X ; σ α X = X+α· ∇X+σ 5) 为高斯白噪声, 为自适应学习率,利用 梯度下降法更新参数: 6) 返回步骤 2),重复上述步骤。 为了尽可能获得全局最优的参数,本文的参 数自整定及优化算法在更新参数的过程中引入高 斯白噪声,增加参数的探索度。同时,算法利用 经验回放技术,对过去的经验样本进行随机批量 抽样,减弱经验数据的相关性和不平稳分布的影 响,增加优化过程的准确性和收敛速度。实践试 验中,为避免算法陷入局部死循环,当可行解的 变异系数小于一定阈值时,即认为算法已获得局 部收敛 (近似全局) 的相对最优解,保留当前结果 并重新搜索。 3 算法实验与对比分析 为了验证上述基于强化学习的参数自整定及 优化算法的可行性和有效性,本文选择常见的水 箱控制系统作为实物实验对象,对水箱液位控制 器进行算法验证实验。实验设备如图 3 所示。 图 3 水箱控制系统实验设备 Fig. 3 Experimental equipment of water tank control system 3.1 控制系统模型定性分析 工程实际中的控制系统具有非线性,精准辨 识其模型及参数较为困难,而本文所设计的控制 器参数整定及优化算法是无需具体分析被控对象 模型的无模型算法。因此,为了贴合工程实际条 件,本文只对控制系统模型作定性分析,而不对 其参数进行详细辨识。 由控制器、变频器 (磁力泵)、水箱组成的水箱 液位控制系统原理图如图 4 所示。其中,变频器 模块的输出 (流量 Q) 与控制器模块的输出 (占空 比 U) 的传递函数可近似为 Q(s) U(s) = K1 (T1 s+1) · e (−τ1 s) (3) 设定值 控制器 变频器 (磁力泵) 水箱 e U Q H + − 图 4 水箱液位控制系统原理 Fig. 4 Schematic diagram of liquid control system for tank 考虑对象的滞后时间,根据物料平衡方程,水 箱液位 H 与流量 Q 的传递函数为 H(s) Q(s) = K2 (T2 s+1) · e (−τ2 s) (4) 综上,本文实验中的水箱液位被控对象为具 有二阶传递函数的时滞系统。其传递函数为 H(s) U(s) = K1K2 (T1 s+1)(T2 s+1) · e −(τ1+τ2)s (5) T1 ∈ [5,12],T2 ∈ [30,56] 实物实验中,因实验装置部件设置的不同,部 分模型参数范围为: 。 3.2 增量式 PID 控制器的参数优化 工业过程控制系统通常使用 PID 控制作为控 制器,增量式 PID 算法表达式为 △ u(k) = Kp[e(k)−e(k−1)]+Kie(k)+ Kd[e(k)−2e(k−1)+e(k−2)] (6) u(k) = u(k−1)+ △ u(k) (7) e (k) u(k) u(k) Kp Ki Kd 式中: 、 、 分别为采样 k 时刻的误差信 号、输出增量和输出; 、 、 为 PID 控制器待 整定的比例系数、积分系数和微分系数。 m = 10 α = 0.02 Kp ∈ [6,15] Ki ∈ [0,0.4] Kd ∈ [0,4] Ω1 = 2% Ω2 = 20 s Ω3 = 38 s 使用本文提出的基于强化学习的参数自整定 及优化算法对水箱实验设备的增量式 PID 控制器 进行参数优化实验,算法参数设定如下:随机样 本数 ,学习率 。考虑系统性能实际 可行性,设定优化约束如下:系数范围 , , ;超调量阈值 ,上升时 间阈值 ,调节时间阈值 。 算法训练过程中,PID 控制器的系数随迭代 轮次的变化曲线如图 5 所示。由图 5 可以看出, 算法在学习过程的前期,利用较大范围的参数变 化增加了参数的探索度,然后通过在线学习经验 数据,使得控制器参数逐渐收敛至优化目标。 第 2 期 严家政,等:基于强化学习的参数自整定及优化算法 ·343·
·344· 智能系统学报 第17卷 16 A 14 20 40 60 20U 40 40 60 80 迭代轮次 迭代轮次 迭代轮次 (a)比例系数K,变化曲线 (b)积分系数K变化曲线 (c)微分系数K,变化曲线 图5PD控制器参数的变化曲线 Fig.5 Change curves of PID controller parameters 为了测试所得参数的实际控制性能,将上述 源,获得了性能相近的结果。 参数与传统的Ziegler-Nichols(Z-N)法II、基于遗 12r 传算法的参数优化方法9所得参数进行实物实 10 验对比。即在相同输入条件下,对比不同方法所 8 得控制器参数的阶跃响应性能,对比数据如表1 6 和图6所示。由对比数据可以看出,本文提出的 设定值 基于强化学习的参数自整定及优化算法可以有效 Z-N法 强化学习 地优化常规PD控制器的参数,其实验结果在超 一一·遗传算法 调量、调节时间性能指标上明显优于传统的Z-N 20 40 60 80100 时间/s 参数整定法,且省去人工整定参数的繁琐过程。 图6不同方法所得参数对应的PD控制器阶跃响应曲线 此外,相比于基于遗传算法的参数优化算法,基 Fig.6 PID controllers dynamic input response tracking 于强化学习的参数优化算法使用更少的计算机资 curve of parameters obtained by different methods 表1不同方法所得控制器参数在相同阶跃输入下的对比数据 Table 1 Comparison data of controller parameters obtained by different methods with the same step input 控制器参数 动态性能指标 算法 优化过程数据计算量 K K 超调量/% 上升时间s 调节时间/s Ziegler-Nichols法 8.40 0.180 1.6 9.01 16.9 56.3 人工经验 基于遗传算法的算法 8.67 0.128 2.2 1.10 19.7 35.8 大于300 基于强化学习的算法 8.74 0.132 1.8 0.84 19.7 36.6 小于100 3.3变参数PID控制器的参数优化 行整定和优化。算法参数设定如下:随机样本数 为了进一步验证基于强化学习的参数自整定 m=15,学习率a=0.001。基于表1的结果,令系 及优化算法的普适性,提升控制器的动态性能。 数偏置量K。=8.7,6=0.14,Do=2.2。优化约束设 结合模糊控制理论2,本文设计了一种动态变参 定如下:P,1,D∈[-1,1,(i=1,2,3),超调量阈值 数的PD控制算法,动态PID系数的计算公式为 2=2%,上升时间阈值22=19s,调节时间阈值 (Kp=Ko+2x(PIe+P2de+P3e) 2=33s。变参数PD控制器的各项参数随迭代 K=1o+0.03×(L1e+12d.+3e) (8) 轮次的变化曲线如图7所示。本文算法的参数优 Ka=Do+(D1-e+D2-de+Dse) 化结果如表2所示,对应控制系统的阶跃响应动 式中:e为经过处理的误差信号;d。为误差信号 态性能指标如下:超调量为0.896%、上升时间为 e的变化率;Ko、o、Do是PID系数的偏置量;P:、 17.9s、调节时间为31s。 I、D(i=1,2,3)是待确定的参数。此时,传统的经 3.4对比实验及结果分析 验方法难以整定这类改进PID控制器的参数;使 为了进一步测试本文参数优化算法所得控制 用遗传算法等最优化方法优化参数所需的计算机 参数的动态性能,将表1中的Z-N法和基于强化 资源过多,实际应用较为困难。 学习(RL)的算法获得的固定参数PID控制器与 使用本文算法对上述控制器待确定的参数进 表2的动态变参数PD控制器进行性能对比。对
60 80 6 10 12 8 14 16 Kp 0 40 20 (a) 比例系数 Kp 变化曲线 迭代轮次 0.2 0.3 0.1 0.4 Ki 0 20 60 80 40 (b) 积分系数 Ki 变化曲线 迭代轮次 2 3 1 4 Kd 0 40 20 60 80 (c) 微分系数 Kd 变化曲线 迭代轮次 图 5 PID 控制器参数的变化曲线 Fig. 5 Change curves of PID controller parameters 为了测试所得参数的实际控制性能,将上述 参数与传统的 Ziegler-Nichols(Z-N) 法 [18] 、基于遗 传算法的参数优化方法[19-20] 所得参数进行实物实 验对比。即在相同输入条件下,对比不同方法所 得控制器参数的阶跃响应性能,对比数据如表 1 和图 6 所示。由对比数据可以看出,本文提出的 基于强化学习的参数自整定及优化算法可以有效 地优化常规 PID 控制器的参数,其实验结果在超 调量、调节时间性能指标上明显优于传统的 Z-N 参数整定法,且省去人工整定参数的繁琐过程。 此外,相比于基于遗传算法的参数优化算法,基 于强化学习的参数优化算法使用更少的计算机资 源,获得了性能相近的结果。 设定值 Z-N 法 强化学习 遗传算法 2 6 8 4 10 12 液位/cm 0 40 20 60 80 100 时间/s 图 6 不同方法所得参数对应的 PID 控制器阶跃响应曲线 Fig. 6 PID controllers dynamic input response tracking curve of parameters obtained by different methods 表 1 不同方法所得控制器参数在相同阶跃输入下的对比数据 Table 1 Comparison data of controller parameters obtained by different methods with the same step input 算法 控制器参数 动态性能指标 优化过程数据计算量 Kp Ki Kd 超调量/% 上升时间/s 调节时间/s Ziegler-Nichols法 8.40 0.180 1.6 9.01 16.9 56.3 人工经验 基于遗传算法的算法 8.67 0.128 2.2 1.10 19.7 35.8 大于300 基于强化学习的算法 8.74 0.132 1.8 0.84 19.7 36.6 小于100 3.3 变参数 PID 控制器的参数优化 为了进一步验证基于强化学习的参数自整定 及优化算法的普适性,提升控制器的动态性能。 结合模糊控制理论[21] ,本文设计了一种动态变参 数的 PID 控制算法,动态 PID 系数的计算公式为 Kp = K0 +2×(P1 · e+ P2 · de + P3 · e 3 ) Ki = I0 +0.03×(I1 · e+ I2 · de + I3 · e 3 ) Kd = D0 +(D1 · e+ D2 · de + D3 · e 3 ) (8) K0 I0 D0 Pi Ii Di i = 1,2,3 式中:e 为经过处理的误差信号;de 为误差信号 e 的变化率; 、 、 是 PID 系数的偏置量; 、 、 ( ) 是待确定的参数。此时,传统的经 验方法难以整定这类改进 PID 控制器的参数;使 用遗传算法等最优化方法优化参数所需的计算机 资源过多,实际应用较为困难。 使用本文算法对上述控制器待确定的参数进 m = 15 α = 0.001 K0 = 8.7 I0 = 0.14 D0 Pi ,Ii ,Di ∈ [−1,1],(i = 1,2,3) Ω1 = 2% Ω2 = 19 s Ω3 = 33 s 行整定和优化。算法参数设定如下:随机样本数 ,学习率 。基于表 1 的结果,令系 数偏置量 , , =2.2。优化约束设 定如下: ,超调量阈值 ,上升时间阈值 ,调节时间阈值 。变参数 PID 控制器的各项参数随迭代 轮次的变化曲线如图 7 所示。本文算法的参数优 化结果如表 2 所示,对应控制系统的阶跃响应动 态性能指标如下:超调量为 0.896%、上升时间为 17.9 s、调节时间为 31 s。 3.4 对比实验及结果分析 为了进一步测试本文参数优化算法所得控制 参数的动态性能,将表 1 中的 Z-N 法和基于强化 学习 (RL) 的算法获得的固定参数 PID 控制器与 表 2 的动态变参数 PID 控制器进行性能对比。对 ·344· 智 能 系 统 学 报 第 17 卷
第2期 严家政,等:基于强化学习的参数自整定及优化算法 ·345· 比测试分为两个部分:动态输入下的响应性能对 比和稳定状态下的抗干扰性能对比。 1.0 1.0 1.0 0.5 0.5 0.5 0 0 0.5 -09 -05 D D -D, 1.00 -10 20406080100120 0 20 406080100120 0 20406080100120 迭代轮次 迭代轮次 迭代轮次 (a)比例项参数变化曲线 (b)积分项参数变化曲线 (©)微分项参数变化曲线 图7优化过程的参数变化曲线 Fig.7 Data curves of parameter optimization process 表2变参数PD控制器的参数优化结果 进入稳定状态后,在仁10s时刻,对被控系统施加 Table 2 Parameter optimization results of variable para 一定的干扰,3种控制器在相同扰动条件下的对 meter PID controller 比曲线如图9所示。 参数名 数值 11.0 =10s加人扰动 P -0.052 10.5 P2 0.046 10.0 P -0.156 1 -0.231 设定值 h 0.387 9.0 Z-N固定PID RL固定PID 1 -0.426 8.5 ---·RL变参数PID D 0.488 8.0 100 150 D2 0.628 时间/s Ds 0.231 图9不同控制器的抗扰动曲线 1)动态输入下的响应性能对比。控制系统在 Fig.9 Anti-disturbance curves of different controllers 给定相同的动态阶跃输入条件下,3种控制器的 由图9可以看出,3种控制器受到扰动影响 响应性能对比如图8所示。由图8可以看出,相 后,被控量恢复至稳定状态所用的时间相近,Z 比Z-N法的参数,本文算法所得参数具有更小的 N法整定的PD控制器恢复时间相对最短,但其 超调量、更好的响应跟踪性能。同时,本文算法 恢复过程中的超调量最大,变参数PD控制器的 优化后的动态变参数PD控制器具有最小的超调 抗干扰综合性能最优。 量、最优的响应跟踪性能,验证了本文算法应用 4结束语 于不同类型控制器的有效性和普适性。 16 本文针对传统PID算法在含时延、非线性的 14 控制系统应用过程中,参数整定繁琐、控制效果 12 较差等问题2,提出了一种基于强化学习的参数 10 自整定及优化算法,可以实现在线整定和优化控 制器参数。水箱液位控制系统实验的结果表明, 6 设定值 基于强化学习的参数自整定及优化算法省去了依 4 Z-N固定PID ---,RL周定PID 赖经验且耗时较长的人工调参过程,比遗传算法 RL变参数PID 等最优化方法使用了更少的计算机资源,获得近 50100150200250300350400 时间s 似最优的控制器参数,提升控制系统的动态性 能。与固定参数的PD控制器相比,经本文算法 图8不同控制器的动态输入跟踪曲线 Fig.8 Dynamic input tracking curves for different con- 优化的变参数PID控制器具有超调量小、响应跟 trollers 踪性能好的优点。本文所提出的算法有望应用于 2)稳定状态下的抗干扰性能对比。控制系统 工业过程控制系统的控制器参数整定及控制优化
比测试分为两个部分:动态输入下的响应性能对 比和稳定状态下的抗干扰性能对比。 60 80 100 120 −1.0 0 0.5 −0.5 1.0 微分项参数 0 40 20 (c) 微分项参数变化曲线 迭代轮次 P1 P2 P3 60 80 100 120 −1.0 0 0.5 −0.5 1.0 比例项参数 0 40 20 (a) 比例项参数变化曲线 迭代轮次 60 80 100 120 −1.0 0 0.5 −0.5 1.0 积分项参数 0 40 20 (b) 积分项参数变化曲线 迭代轮次 I1 I2 I3 D1 D2 D3 图 7 优化过程的参数变化曲线 Fig. 7 Data curves of parameter optimization process 表 2 变参数 PID 控制器的参数优化结果 Table 2 Parameter optimization results of variable parameter PID controller 参数名 数值 P1 −0.052 P2 0.046 P3 −0.156 I1 −0.231 I2 0.387 I3 −0.426 D1 0.488 D2 0.628 D3 0.231 1) 动态输入下的响应性能对比。控制系统在 给定相同的动态阶跃输入条件下,3 种控制器的 响应性能对比如图 8 所示。由图 8 可以看出,相 比 Z-N 法的参数,本文算法所得参数具有更小的 超调量、更好的响应跟踪性能。同时,本文算法 优化后的动态变参数 PID 控制器具有最小的超调 量、最优的响应跟踪性能,验证了本文算法应用 于不同类型控制器的有效性和普适性。 2 8 10 12 6 4 14 16 液位/cm 0 100 150 200 300 50 250 350 400 时间/s 设定值 Z-N 固定 PID RL 固定 PID RL 变参数 PID 图 8 不同控制器的动态输入跟踪曲线 Fig. 8 Dynamic input tracking curves for different controllers 2) 稳定状态下的抗干扰性能对比。控制系统 进入稳定状态后,在 t=10 s 时刻,对被控系统施加 一定的干扰,3 种控制器在相同扰动条件下的对 比曲线如图 9 所示。 8.5 8.0 10.0 9.5 9.0 10.5 11.0 液位/cm 0 100 150 50 时间/s 设定值 Z-N 固定 PID RL 固定 PID RL 变参数 PID t=10 s 加入扰动 图 9 不同控制器的抗扰动曲线 Fig. 9 Anti-disturbance curves of different controllers 由图 9 可以看出,3 种控制器受到扰动影响 后,被控量恢复至稳定状态所用的时间相近,ZN 法整定的 PID 控制器恢复时间相对最短,但其 恢复过程中的超调量最大,变参数 PID 控制器的 抗干扰综合性能最优。 4 结束语 本文针对传统 PID 算法在含时延、非线性的 控制系统应用过程中,参数整定繁琐、控制效果 较差等问题[22] ,提出了一种基于强化学习的参数 自整定及优化算法,可以实现在线整定和优化控 制器参数。水箱液位控制系统实验的结果表明, 基于强化学习的参数自整定及优化算法省去了依 赖经验且耗时较长的人工调参过程,比遗传算法 等最优化方法使用了更少的计算机资源,获得近 似最优的控制器参数,提升控制系统的动态性 能。与固定参数的 PID 控制器相比,经本文算法 优化的变参数 PID 控制器具有超调量小、响应跟 踪性能好的优点。本文所提出的算法有望应用于 工业过程控制系统的控制器参数整定及控制优化 第 2 期 严家政,等:基于强化学习的参数自整定及优化算法 ·345·
·346· 智能系统学报 第17卷 等相关问题。 telligent systems,2019,14(1):1-19 本文提出的算法是基于PD控制算法进行优 [7]SILVER D.HUANG A.MADDISON C J.et al.Master- 化和改进,虽能在一定程度上保证控制系统的控 ing the game of Go with deep neural networks and tree 制稳定性,但其控制效果也因此受限于传统的 search[J.Nature,2016,529(7587):484-489. PID算法。在非PID原理的控制器参数优化应用 [8] 李超,张智,夏桂华,等.基于强化学习的学习变阻抗控 过程,算法无法确定控制器输出的安全性。同 制.哈尔滨工程大学学报,2019,40(2):304-311. 时,本文未在优化算法的评价函数中考虑扰动恢 LI Chao,ZHANG Zhi,XIA Guihua,et al.Learning vari- 复性能等指标,无法从理论上确保优化所得参数 able impedance control based on reinforcement learning[J].Journal of Harbin Engineering University, 的整体性能最优性。 2019,40(2):304-311. 因此,增加奖励函数的评估因素,或改变控制 [9]王念滨,何鸣,王红滨,等.适用于水下目标识别的快速 算法的底层策略结构,是今后的研究方向。例 降维卷积模型[).哈尔滨工程大学学报,2019,40(7) 如,结合预测控制算法232或由深度神经网络2 1327-1333. 组成的“黑盒”模型,取代PD算法框架,使用基于 WANG Nianbin,HE Ming,WANG Hongbin,et al.Fast 深度强化学习62刃的优化算法进一步优化控制系 dimensional-reduction convolution model for underwater 统的性能等。 target recognition[J].Journal of Harbin Engineering Uni- versity,2019,40(7):1327-1333 参考文献: [10]黄立威,江碧涛,吕守业,等.基于深度学习的推荐系 [1]赵新华,王璞,陈晓红.投球机器人模糊PID控制), 统研究综述).计算机学报,2018,41(7):1619-1647. 智能系统学报,2015,10(3):399406, HUANG Liwei,JIANG Bitao,LYU Shouye,et al.A re- ZHAO Xinhua,WANG Pu,CHEN Xiaohong.Fuzzy PID view of recommendation systems based on deep learn- control of pitching robots[.CAAl transactions on intel- ing[J].Chinese journal of computers,2018,41(7) ligent systems..2015,10(3):399-406. 1619-1647 [2]YANG Bo,YU Tao,SHU Hongchun,et al.Perturbation [11]GHEISARNEJAD M,KHOOBAN M H.An intelligent observer based fractional-order PID control of photovol- non-integer PID controller-based deep reinforcement taics inverters for solar energy harvesting via Yin-Yang- learning:implementation and experimental results[J]. Pair optimization[J].Energy conversion and management, IEEE transactions on industrial electronics,2021,68(4): 2018.171:170-187 3609-3618. [3]JAISWAL S.CHILUKA S K.SEEPANA MM.et al. [12]BUSONIU L.DE BRUIN T,TOLIC D,et al.Reinforce- Design of fractional order PID controller using genetic al- ment learning for control:performance,stability,and gorithm optimization technique for nonlinear system[J]. deep approximators[J].Annual reviews in control,2018, Chemical product and process modeling,2020,15(2): 46:8-28 20190072 [13]袁兆麟,何润姿,姚超,等.基于强化学习的浓密机底 [4]陈增强,黄朝阳,孙明玮,等.基于大变异遗传算法进行 流浓度在线控制算法.自动化学报,2021,47(7): 参数优化整定的负荷频率自抗扰控制).智能系统学 1558-1571 报,2020,15(1):41-49. YUAN Zhaolin,HE Runzi,YAO Chao,et al.Online re- CHEN Zengqiang.HUANG Zhaoyang,SUN Mingwei,et al. inforcement learning control algorithm for concentra- Active disturbance rejection control of load frequency tion of thickener underflow[J].Acta automatica sinica. based on big probability variation's genetic algorithm for 2021.47(7:1558-1571. parameter optimization[J].CAAI transactions on intelli- [14]NIAN R,LIU J,HUANG B.A review on reinforcement gent systems,.2020,15(1):41-49 learning:introduction and applications in industrial pro- [5]WEI Wei,CHEN Nan,ZHANG Zhiyuan,et al.U-model- cess control[J].Computers and chemical engineering, based active disturbance rejection control for the dis- 2020:106886. solved oxygen in a wastewater treatment process[J]. [15]PANG B.JIANG Z P,MAREELS I.Reinforcement Mathematical problems in engineering,2020:3507910. learning for adaptive optimal control of continuous-time [6]胡越,罗东阳,花奎,等.关于深度学习的综述与讨论 linear periodic systems[J].Automatica,2020,118: ).智能系统学报,2019,14(1)1-19. 109035. HU Yue,LUO Dongyang,HUA Kui,et al.Review and [16]殷昌盛,杨若鹏,朱巍,等.多智能体分层强化学习综 discussion on deep learning[J].CAAI transactions on in- 述[J.智能系统学报,2020,15(4):646-655
等相关问题。 本文提出的算法是基于 PID 控制算法进行优 化和改进,虽能在一定程度上保证控制系统的控 制稳定性,但其控制效果也因此受限于传统的 PID 算法。在非 PID 原理的控制器参数优化应用 过程,算法无法确定控制器输出的安全性。同 时,本文未在优化算法的评价函数中考虑扰动恢 复性能等指标,无法从理论上确保优化所得参数 的整体性能最优性。 因此,增加奖励函数的评估因素,或改变控制 算法的底层策略结构,是今后的研究方向。例 如,结合预测控制算法[23-24] 或由深度神经网络[25] 组成的“黑盒”模型,取代 PID 算法框架,使用基于 深度强化学习[26-27] 的优化算法进一步优化控制系 统的性能等。 参考文献: 赵新华, 王璞, 陈晓红. 投球机器人模糊 PID 控制 [J]. 智能系统学报, 2015, 10(3): 399–406. ZHAO Xinhua, WANG Pu, CHEN Xiaohong. Fuzzy PID control of pitching robots[J]. CAAI transactions on intelligent systems, 2015, 10(3): 399–406. [1] YANG Bo, YU Tao, SHU Hongchun, et al. Perturbation observer based fractional-order PID control of photovoltaics inverters for solar energy harvesting via Yin-YangPair optimization[J]. Energy conversion and management, 2018, 171: 170–187. [2] JAISWAL S, CHILUKA S K, SEEPANA M M, et al. Design of fractional order PID controller using genetic algorithm optimization technique for nonlinear system[J]. Chemical product and process modeling, 2020, 15(2): 20190072. [3] 陈增强, 黄朝阳, 孙明玮, 等. 基于大变异遗传算法进行 参数优化整定的负荷频率自抗扰控制 [J]. 智能系统学 报, 2020, 15(1): 41–49. CHEN Zengqiang, HUANG Zhaoyang, SUN Mingwei, et al. Active disturbance rejection control of load frequency based on big probability variation’s genetic algorithm for parameter optimization[J]. CAAI transactions on intelligent systems, 2020, 15(1): 41–49. [4] WEI Wei, CHEN Nan, ZHANG Zhiyuan, et al. U-modelbased active disturbance rejection control for the dissolved oxygen in a wastewater treatment process[J]. Mathematical problems in engineering, 2020: 3507910. [5] 胡越, 罗东阳, 花奎, 等. 关于深度学习的综述与讨论 [J]. 智能系统学报, 2019, 14(1): 1–19. HU Yue, LUO Dongyang, HUA Kui, et al. Review and discussion on deep learning[J]. CAAI transactions on in- [6] telligent systems, 2019, 14(1): 1–19. SILVER D, HUANG A, MADDISON C J, et al. Mastering the game of Go with deep neural networks and tree search[J]. Nature, 2016, 529(7587): 484–489. [7] 李超, 张智, 夏桂华, 等. 基于强化学习的学习变阻抗控 制 [J]. 哈尔滨工程大学学报, 2019, 40(2): 304–311. LI Chao, ZHANG Zhi, XIA Guihua, et al. Learning variable impedance control based on reinforcement learning[J]. Journal of Harbin Engineering University, 2019, 40(2): 304–311. [8] 王念滨, 何鸣, 王红滨, 等. 适用于水下目标识别的快速 降维卷积模型 [J]. 哈尔滨工程大学学报, 2019, 40(7): 1327–1333. WANG Nianbin, HE Ming, WANG Hongbin, et al. Fast dimensional-reduction convolution model for underwater target recognition[J]. Journal of Harbin Engineering University, 2019, 40(7): 1327–1333. [9] 黄立威, 江碧涛, 吕守业, 等. 基于深度学习的推荐系 统研究综述 [J]. 计算机学报, 2018, 41(7): 1619–1647. HUANG Liwei, JIANG Bitao, LYU Shouye, et al. A review of recommendation systems based on deep learning[J]. Chinese journal of computers, 2018, 41(7): 1619–1647. [10] GHEISARNEJAD M, KHOOBAN M H. An intelligent non-integer PID controller-based deep reinforcement learning: implementation and experimental results[J]. IEEE transactions on industrial electronics, 2021, 68(4): 3609–3618. [11] BUSONIU L, DE BRUIN T, TOLIĆ D, et al. Reinforcement learning for control: performance, stability, and deep approximators[J]. Annual reviews in control, 2018, 46: 8–28. [12] 袁兆麟, 何润姿, 姚超, 等. 基于强化学习的浓密机底 流浓度在线控制算法 [J]. 自动化学报, 2021, 47(7): 1558–1571. YUAN Zhaolin, HE Runzi, YAO Chao, et al. Online reinforcement learning control algorithm for concentration of thickener underflow[J]. Acta automatica sinica, 2021, 47(7): 1558–1571. [13] NIAN R, LIU J, HUANG B. A review on reinforcement learning: introduction and applications in industrial process control[J]. Computers and chemical engineering, 2020: 106886. [14] PANG B, JIANG Z P, MAREELS I. Reinforcement learning for adaptive optimal control of continuous-time linear periodic systems[J]. Automatica, 2020, 118: 109035. [15] 殷昌盛, 杨若鹏, 朱巍, 等. 多智能体分层强化学习综 述 [J]. 智能系统学报, 2020, 15(4): 646–655. [16] ·346· 智 能 系 统 学 报 第 17 卷
第2期 严家政,等:基于强化学习的参数自整定及优化算法 ·347· YIN Changsheng,YANG Ruopeng,ZHU Wei,et al.A LIU Zhilin,LI Guosheng,ZHANG Jun.Predictive con- survey on multi-agent hierarchical reinforcement learn- trol of underactuated ship track tracking with roll con- ing[J].CAAI transactions on intelligent systems,2020, straint[J].Journal of Harbin Engineering University, 15(4):646-655. 2019,40(2:312-317. [17刀高瑞娟,吴梅.基于改进强化学习的PID参数整定原 [24]朱芮,吴迪,陈继峰,等.电机系统模型预测控制研究 理及应用U.现代电子技术,2014,374):1-4. 综述[).电机与控制应用,2019,46(8):1-10,30 GAO Ruijuan,WU Mei.Principle and application of ZHU Rui,WU Di,CHEN Jifeng,et al.A review of mod- PID parameter tuning based on improved reinforcement el predictive control for motor systems[J].Electric ma- learning[J].Modern electronics technique,2014,37(4): chines and control application,2019,46(8):1-10,30. 14. [25]PU Z,WANG Y,CHANG N,et al.A deep reinforce- [18]ALDEMIR A,HAPOGLU H.Comparison of PID tun- ment learning framework for optimizing fuel economy ing methods for wireless temperature control[J].Journal of hybrid electric vehicles[C]//2018 23rd Asia and South of polytechnic,2016,19(1):9-19. Pacific Design Automation Conference.Jeju Island, [19]蔡聪仁,向凤红.基于遗传算法优化PID的板球系统 Korea,2018. 位置控制[.电子测量技术,2019,42(23):97-101. [26]张法帅,李宝安,阮子涛.基于深度强化学习的无人艇 CAI Congren,XIANG Fenghong.Position control of 航行控制[円.计测技术,2018.38(A01)上5 cricket system based on genetic algorithm optimized ZHANG Fashuai,LI Baoan,RUAN Zitao.Navigation PID[J].Electronic measurement technology,2019, control of unmanned vehicle based on deep reinforce- 42(23):97-101. ment learning[J].Metrology and measurement techno- [20]么洪飞,王宏健,王莹,等.基于遗传算法DDBN参数 logy,2018,38(A01):5. 学习的UUV威胁评估].哈尔滨工程大学学报, [27]唐振韬,邵坤,赵冬减.等.深度强化学习进展:从A1- 2018.3912:1972-1978 phaGo到AlphaGo Zero[U.控制理论与应用,2017, YAO Hongfei,WANG Hongjian,WANG Ying,et al. 3412):18. UUV threat assessment based on genetic algorithm TANG Zhentao,SHAO Kun,ZHAO Dongbin,et al. DDBN parameter learning[J].Journal of Harbin Engin- Progress in deep reinforcement learning:from AlphaGo eering University,2018,39(12):1972-1978. [21]胡勤丰,陈威振,邱攀峰,等.适用于连续加减速的永 to AlphaGo Zero[J].Control theory and applications, 2017,3412:18 磁同步电机模糊增益自调整PI控制研究[).中国电 机工程学报,2017,373:907-914. 作者简介: HU Qinfeng,CHEN Weizhen,QIU Panfeng,et al.Re- 严家政,硕士研究生,主要研究方 search on fuzzy self-tuning gain PI control for accelerat- 向为深度强化学习、最优控制。 ing and decelerating based on permanent magnet syn- chronous motor[J].Proceedings of the CSEE,2017, 37(3):907-914 [22]叶政.PID控制器参数整定方法研究及其应用D].北 京:北京邮电大学,2016 YE Zheng.Research on PID controller parameter tuning 专祥涛,教授,博士生导师,IEEE 会员,湖北省自动化学会常务理事,主 method and its application [D].Beijing:Beijing Uni- 要研究方向为载体运动过程建模与控 versity of Posts and Telecommunications,2016 制、新能源系统规划与运行、资源优化 [23】刘志林,李国胜,张军.有横摇约束的欠驱动船舶航迹 分配、智能控制与数据分析。发表学 跟踪预测控制).哈尔滨工程大学学报,2019,40(2): 术论文30余篇。 312-317
YIN Changsheng, YANG Ruopeng, ZHU Wei, et al. A survey on multi-agent hierarchical reinforcement learning[J]. CAAI transactions on intelligent systems, 2020, 15(4): 646–655. 高瑞娟, 吴梅. 基于改进强化学习的 PID 参数整定原 理及应用 [J]. 现代电子技术, 2014, 37(4): 1–4. GAO Ruijuan, WU Mei. Principle and application of PID parameter tuning based on improved reinforcement learning[J]. Modern electronics technique, 2014, 37(4): 1–4. [17] ALDEMIR A, HAPOĞLU H. Comparison of PID tuning methods for wireless temperature control[J]. Journal of polytechnic, 2016, 19(1): 9–19. [18] 蔡聪仁, 向凤红. 基于遗传算法优化 PID 的板球系统 位置控制 [J]. 电子测量技术, 2019, 42(23): 97–101. CAI Congren, XIANG Fenghong. Position control of cricket system based on genetic algorithm optimized PID[J]. Electronic measurement technology, 2019, 42(23): 97–101. [19] 么洪飞, 王宏健, 王莹, 等. 基于遗传算法 DDBN 参数 学习的 UUV 威胁评估 [J]. 哈尔滨工程大学学报, 2018, 39(12): 1972–1978. YAO Hongfei, WANG Hongjian, WANG Ying, et al. UUV threat assessment based on genetic algorithm DDBN parameter learning[J]. Journal of Harbin Engineering University, 2018, 39(12): 1972–1978. [20] 胡勤丰, 陈威振, 邱攀峰, 等. 适用于连续加减速的永 磁同步电机模糊增益自调整 PI 控制研究 [J]. 中国电 机工程学报, 2017, 37(3): 907–914. HU Qinfeng, CHEN Weizhen, QIU Panfeng, et al. Research on fuzzy self-tuning gain PI control for accelerating and decelerating based on permanent magnet synchronous motor[J]. Proceedings of the CSEE, 2017, 37(3): 907–914. [21] 叶政. PID 控制器参数整定方法研究及其应用 [D]. 北 京: 北京邮电大学, 2016. YE Zheng. Research on PID controller parameter tuning method and its application [D]. Beijing: Beijing University of Posts and Telecommunications, 2016. [22] 刘志林, 李国胜, 张军. 有横摇约束的欠驱动船舶航迹 跟踪预测控制 [J]. 哈尔滨工程大学学报, 2019, 40(2): 312–317. [23] LIU Zhilin, LI Guosheng, ZHANG Jun. Predictive control of underactuated ship track tracking with roll constraint[J]. Journal of Harbin Engineering University, 2019, 40(2): 312–317. 朱芮, 吴迪, 陈继峰, 等. 电机系统模型预测控制研究 综述 [J]. 电机与控制应用, 2019, 46(8): 1–10,30. ZHU Rui, WU Di, CHEN Jifeng, et al. A review of model predictive control for motor systems[J]. Electric machines and control application, 2019, 46(8): 1–10,30. [24] PU Z , WANG Y , CHANG N , et al. A deep reinforcement learning framework for optimizing fuel economy of hybrid electric vehicles[C]//2018 23rd Asia and South Pacific Design Automation Conference. Jeju Island , Korea, 2018. [25] 张法帅, 李宝安, 阮子涛. 基于深度强化学习的无人艇 航行控制 [J]. 计测技术, 2018, 38(A01): 5. ZHANG Fashuai, LI Baoan, RUAN Zitao. Navigation control of unmanned vehicle based on deep reinforcement learning[J]. Metrology and measurement technology, 2018, 38(A01): 5. [26] 唐振韬, 邵坤, 赵冬斌, 等. 深度强化学习进展: 从 AlphaGo 到 AlphaGo Zero[J]. 控制理论与应用, 2017, 34(12): 18. TANG Zhentao, SHAO Kun, ZHAO Dongbin, et al. Progress in deep reinforcement learning: from AlphaGo to AlphaGo Zero[J]. Control theory and applications, 2017, 34(12): 18. [27] 作者简介: 严家政,硕士研究生,主要研究方 向为深度强化学习、最优控制。 专祥涛,教授,博士生导师,IEEE 会员,湖北省自动化学会常务理事,主 要研究方向为载体运动过程建模与控 制、新能源系统规划与运行、资源优化 分配、智能控制与数据分析。发表学 术论文 30 余篇。 第 2 期 严家政,等:基于强化学习的参数自整定及优化算法 ·347·