第17卷第5期 智能系统学报 Vol.17 No.5 2022年9月 CAAI Transactions on Intelligent Systems Sep.2022 D0:10.11992/tis.202107040 网络出版地址:https:/kns.cnki.net/kcms/detail/23.1538.TP.20220519.1429.004html 旋翼无人机在移动平台降落的控制 参数自学习调节方法 张鹏鹏,魏长赞,张恺睿,欧阳勇平 (河海大学机电工程学院,江苏常州213022) 摘要:无人机设备能够适应复杂地形,但由于电池容量等原因,无人机无法长时间执行任务。无人机与其他 无人系统(无人车、无人船等)协同能够有效提升无人机的工作时间,完成既定任务,当无人机完成任务后,将 无人机迅速稳定地降落至移动平台上是一项必要且具有挑战性的工作。针对降落问题,文中提出了基于矫正 纠偏COACH(corrective advice communicated humans)方法的深度强化学习比例积分微分(proportional-integral-de rivative,PID)方法,为无人机降落至移动平台提供了最优路径。首先在仿真环境中使用矫正纠偏框架对强化学 习模型进行训练,然后在仿真环境和真实环境中,使用训练后的模型输出控制参数,最后利用输出参数获得无 人机位置控制量。仿真结果和真实无人机实验表明,基于矫正纠偏COACH方法的深度强化学习PID方法优 于传统控制方法,且能稳定完成在移动平台上的降落任务。 关键词:自主降落;强化学习;路径规划;COACH框架;确定性策略梯度;空地协同:无人机;最优控制 中图分类号:TP273+.2文献标志码:A 文章编号:1673-4785(2022)05-0931-10 中文引用格式:张鹏鹏,魏长簧,张恺容,等.旋翼无人机在移动平台降落的控制参数自学习调节方法.智能系统学报,2022, 17(5):931-940. 英文引用格式:ZHANG Pengpeng,WEI Changyun,,ZHANG Kairui,,etal.Self-learning approach to control parameter adjust- ment for quadcopter landing on a moving platformJ.CAAI transactions on intelligent systems,2022,17(5):931-940. Self-learning approach to control parameter adjustment for quadcopter landing on a moving platform ZHANG Pengpeng,WEI Changyun,ZHANG Kairui,OUYANG Yongping (College of Mechanical and Electrical Engineering,Hohai University,Changzhou 213022,China) Abstract:Unmanned Aerial Vehicle(UAV)is a type of robot that performs well in mapping without being affected by the terrain.However,a UAV cannot perform its tasks for long due to its small battery capacity and several other reasons. The collaboration between UAVs and other unmanned ground vehicles (UGVs)is considered a crucial solution to this concern as it can save up the time taken by UAVs effectively when completing a scheduled task.When deploying a team of UAVs and UGVs,it is both important and challenging to land a UAV on a mobile platform quickly and stably.To circumvent the UAV landing issue,this study proposes a reinforcement learning PID method based on the correction COACH method,thereby providing an optimal path for the UAV to land on a mobile platform.First,the reinforcement learning agent is trained using the rectification framework in a simulated environment.Next,the trained agent is used for output control parameters in the simulated and true environments,and subsequently,the output parameters are utilized to obtain the control variables of the UAV's position.The simulation and real UAV experiment results show that the deep reinforcement learning PID method based on the correction COACH method is superior to the traditional control meth- od and can accomplish the task of a stable landing on a mobile platform. Keywords:autonomous landing;reinforcement learning;path planning;COACH frame;deterministic policy gradient; air-ground cooperation;UAV;optimal control 无人机可以应用于不同的场景,例如日常的 挖掘过程)等。单一的无人机不受地形的限制,但 便民生活应用山,农业生产过程,矿场的侦探和 是由于携带电池能量的限制,执行任务时间短,并 收稿日期:2021-07-20.网络出版日期:2022-05-20 且难以承担较重的负载。无人车(船)移动范围受 基金项目:国家自然科学基金项目(61703138):中央高校基本 科研业务费项目(B200202224). 限于地形,难以到达特定的位置。无人机-无人车 通信作者:魏长赞.E-mail:c.wei@hhu.edu.cn. (船)的组合系统可以结合两者的优点,完成复杂
DOI: 10.11992/tis.202107040 网络出版地址: https://kns.cnki.net/kcms/detail/23.1538.TP.20220519.1429.004.html 旋翼无人机在移动平台降落的控制 参数自学习调节方法 张鹏鹏,魏长赟,张恺睿,欧阳勇平 (河海大学 机电工程学院,江苏 常州 213022) 摘 要:无人机设备能够适应复杂地形,但由于电池容量等原因,无人机无法长时间执行任务。无人机与其他 无人系统(无人车、无人船等)协同能够有效提升无人机的工作时间,完成既定任务,当无人机完成任务后,将 无人机迅速稳定地降落至移动平台上是一项必要且具有挑战性的工作。针对降落问题,文中提出了基于矫正 纠偏 COACH(corrective advice communicated humans) 方法的深度强化学习比例积分微分 (proportional-integral-derivative, PID) 方法,为无人机降落至移动平台提供了最优路径。首先在仿真环境中使用矫正纠偏框架对强化学 习模型进行训练,然后在仿真环境和真实环境中,使用训练后的模型输出控制参数,最后利用输出参数获得无 人机位置控制量。仿真结果和真实无人机实验表明,基于矫正纠偏 COACH 方法的深度强化学习 PID 方法优 于传统控制方法,且能稳定完成在移动平台上的降落任务。 关键词:自主降落;强化学习;路径规划;COACH 框架;确定性策略梯度;空地协同;无人机;最优控制 中图分类号:TP273+.2 文献标志码:A 文章编号:1673−4785(2022)05−0931−10 中文引用格式:张鹏鹏, 魏长赟, 张恺睿, 等. 旋翼无人机在移动平台降落的控制参数自学习调节方法 [J]. 智能系统学报, 2022, 17(5): 931–940. 英文引用格式:ZHANG Pengpeng, WEI Changyun, ZHANG Kairui, et al. Self-learning approach to control parameter adjustment for quadcopter landing on a moving platform[J]. CAAI transactions on intelligent systems, 2022, 17(5): 931–940. Self-learning approach to control parameter adjustment for quadcopter landing on a moving platform ZHANG Pengpeng,WEI Changyun,ZHANG Kairui,OUYANG Yongping (College of Mechanical and Electrical Engineering, Hohai University, Changzhou 213022, China) Abstract: Unmanned Aerial Vehicle (UAV) is a type of robot that performs well in mapping without being affected by the terrain. However, a UAV cannot perform its tasks for long due to its small battery capacity and several other reasons. The collaboration between UAVs and other unmanned ground vehicles (UGVs) is considered a crucial solution to this concern as it can save up the time taken by UAVs effectively when completing a scheduled task. When deploying a team of UAVs and UGVs, it is both important and challenging to land a UAV on a mobile platform quickly and stably. To circumvent the UAV landing issue, this study proposes a reinforcement learning PID method based on the correction COACH method, thereby providing an optimal path for the UAV to land on a mobile platform. First, the reinforcement learning agent is trained using the rectification framework in a simulated environment. Next, the trained agent is used for output control parameters in the simulated and true environments, and subsequently, the output parameters are utilized to obtain the control variables of the UAV’s position. The simulation and real UAV experiment results show that the deep reinforcement learning PID method based on the correction COACH method is superior to the traditional control method and can accomplish the task of a stable landing on a mobile platform. Keywords: autonomous landing; reinforcement learning; path planning; COACH frame; deterministic policy gradient; air-ground cooperation; UAV; optimal control 无人机可以应用于不同的场景,例如日常的 便民生活应用[1] ,农业生产过程[2] ,矿场的侦探和 挖掘过程[3] 等。单一的无人机不受地形的限制,但 是由于携带电池能量的限制,执行任务时间短,并 且难以承担较重的负载。无人车(船)移动范围受 限于地形,难以到达特定的位置。无人机–无人车 (船)的组合系统可以结合两者的优点,完成复杂 收稿日期:2021−07−20. 网络出版日期:2022−05−20. 基金项目:国家自然科学基金项目(61703138);中央高校基本 科研业务费项目(B200202224). 通信作者:魏长赟. E-mail:c.wei@hhu.edu.cn. 第 17 卷第 5 期 智 能 系 统 学 报 Vol.17 No.5 2022 年 9 月 CAAI Transactions on Intelligent Systems Sep. 2022
第17卷 智能系统学报 ·932· 的任务。在执行任务结束后,无人机如何移动 务,不过在文中提到的无人机降落方法依然有进 到指定位置是协同系统实际应用的关键问题, 步的空间,难以在复杂的环境中实行降落任务。 因此本文聚焦于无人机的自主降落问题。 1.2 传统控制方法应用 在文献[7-8]中,作者将多种传统的控制方法 文献[18]提出一种比例微分(proportional-.in- 应用于无人机降落任务,这些方法具有稳定和低 tegral,PD)控制器,该控制方法针对无人机自主降 算力需求的优点,但是较难实现最优的控制效 落问题,实现了无人机降落到固定平台的任务。在 果。文献[912]将强化学习理论应用于无人机降 文献[8]中,作者将模型预测控制方法应用于无 落问题,并取得良好的效果。在文献[13-16]中, 人机降落问题,该方法结构轻量,响应迅速,能够 使用强化学习原理调整控制算法的参数,面对不 在低算力的平台中运行。同时,作者在文中使用 同的控制情形,能够实现较优的控制效果,但是 仿真环境进行验证,且效果良好,但是并没有在 并没有进行真实无人机实验。 真实的场景中进行降落效果的测试。PD控制方 针对以上方法的不足,本文结合深度强化学 法在控制任务中广泛使用,但是固定参数的PD控 习理论和比例积分微分(proportional-integral-deriv- 制方法对非线性问题适应性差,在文献[刀中,作 ative,PID)控制方法,解决无人机降落至移动平台 者提出一种基于模糊逻辑的PID控制方法,结果 的问题,本方法既有PID方法的稳定性,又能够 显示,该方法优于传统的控制方法,不足之处在 发挥强化学习寻找最优控制策略的优点,迅速完 于该方法未考虑无人机降落到移动的平台的情形。 成无人机降落到无人移动平台的任务。 1.3强化学习算法的应用 1 无人机降落问题描述 许多学者应用强化学习算法寻找解决问题的 最优策略。强化学习算法能够实现在干扰和复杂 在多机器人无人系统中,无人机在完成特定任 情况下的最优控制,这是传统控制方法难以比拟 务后需要降落至特定平台,本文基于上述任务,针 的。理论上,基于马尔可夫过程的强化学习算法 对无人机降落问题,提出一种结合深度强化学习 有潜力找到最优的控制策略,当算法训练充分后 算法和比例积分微分(proportional-integral--derivat-- 就可以实现对于无人机降落问题的最优控制。在 ive,PID)原理的控制方法。文中首先介绍多机器 文献[9,11]中,作者将确定性策略梯度方法应 人协同系统以及实现无人机降落任务的必要性, 用于无人机降落问题中,该方法在虚拟环境中进 并详细介绍传统控制方法和机器学习方法在无人 行训练,并且可以在仿真和真实环境中,实现对无 机降落问题上的应用现状。 人机降落过程的控制。确定性策略梯度方法能够 1.1关键的无人机降落问题 根据不同的状态输入输出不同的动作,进而完成 在如今的机器人学研究中,单一的机器人难 当前的任务。文献[11]中,输人状态包含x、y两 以完成复杂任务。在所有的无人设备中,无人机 个方向上的位置信息,算法根据不同的位置信息控 有着多项优点,其他设备难以替代无人机执行任 务。首先无人机运动不受地形限制,可以轻易地 制无人机降落,以连续的状态作为输入并输出连 到达特定的位置,并且无人机在空中悬停可以为 续动作,有潜力实现精确控制,由于文章中的方法 地面无人设备和工作人员提供高处视角的图像信 未使用:方向的位置信息,当面对不同高度的输 息,为发现和定位目标物品提供可能。同时,无 入时可能有相同的输出,影响控制无人机降落的 人机由于自身结构的原因也有特定的缺点,包括 效果。文献[9]中,作者同样使用确定性策略梯度 由于电池能量不足造成的执行任务时间短和无法 方法,该方法的输入包括三轴的位置信息,可根 携带较重负载的问题等。对单一的无人机设备添 据无人机高度改变输出动作,从而实现精准控制, 加无人车(船)组成协同系统可以有效地解决无 同上面的方法一样,此方法以连续的状态作为输 人机的上述缺点。实际应用中,无人机完成任 入并输出连续的动作,保证无人机的精确控制。 务,须自动返回,以备下次任务的执行。因此,在 在文献[16,20]中,一种结合PD理论和强化 这些协同系统中,如何将无人机降落到特定的平 学习原理的方法被应用于移动机器人的路径规划 台上是一项必须解决的任务。在文献[17刀中,作 问题,在仿真实验中,对比传统PD方法,文中提 者提出一种无人机和无人车的协同系统,该系统 出的Q学习-PID方法在路径规划实验的结果中 作业于建筑行业,收集建筑区域内的各种关键数 优势明显,面对不同环境和干扰时,表现出鲁棒 据。该方法结合了两种机器人的优点,弥补单一 性强的优点。文献[21-22]将参数自学习调节方法 机器人的不足,高效地实现建筑行业数据收集任 应用于无人机降落至静止平台的任务,由于控制
的任务[4-5]。在执行任务结束后,无人机如何移动 到指定位置是协同系统实际应用的关键问题[6] , 因此本文聚焦于无人机的自主降落问题。 在文献 [7-8] 中,作者将多种传统的控制方法 应用于无人机降落任务,这些方法具有稳定和低 算力需求的优点,但是较难实现最优的控制效 果。文献 [9-12] 将强化学习理论应用于无人机降 落问题,并取得良好的效果。在文献 [13-16] 中, 使用强化学习原理调整控制算法的参数,面对不 同的控制情形,能够实现较优的控制效果,但是 并没有进行真实无人机实验。 针对以上方法的不足,本文结合深度强化学 习理论和比例积分微分 (proportional-integral-derivative, PID) 控制方法,解决无人机降落至移动平台 的问题,本方法既有 PID 方法的稳定性,又能够 发挥强化学习寻找最优控制策略的优点,迅速完 成无人机降落到无人移动平台的任务。 1 无人机降落问题描述 在多机器人无人系统中,无人机在完成特定任 务后需要降落至特定平台,本文基于上述任务,针 对无人机降落问题,提出一种结合深度强化学习 算法和比例积分微分 (proportional-integral-derivative, PID) 原理的控制方法。文中首先介绍多机器 人协同系统以及实现无人机降落任务的必要性, 并详细介绍传统控制方法和机器学习方法在无人 机降落问题上的应用现状。 1.1 关键的无人机降落问题 在如今的机器人学研究中,单一的机器人难 以完成复杂任务。在所有的无人设备中,无人机 有着多项优点,其他设备难以替代无人机执行任 务。首先无人机运动不受地形限制,可以轻易地 到达特定的位置,并且无人机在空中悬停可以为 地面无人设备和工作人员提供高处视角的图像信 息,为发现和定位目标物品提供可能。同时,无 人机由于自身结构的原因也有特定的缺点,包括 由于电池能量不足造成的执行任务时间短和无法 携带较重负载的问题等。对单一的无人机设备添 加无人车(船)组成协同系统可以有效地解决无 人机的上述缺点。实际应用中,无人机完成任 务,须自动返回,以备下次任务的执行。因此,在 这些协同系统中,如何将无人机降落到特定的平 台上是一项必须解决的任务。在文献 [17] 中,作 者提出一种无人机和无人车的协同系统,该系统 作业于建筑行业,收集建筑区域内的各种关键数 据。该方法结合了两种机器人的优点,弥补单一 机器人的不足,高效地实现建筑行业数据收集任 务,不过在文中提到的无人机降落方法依然有进 步的空间,难以在复杂的环境中实行降落任务。 1.2 传统控制方法应用 文献 [18] 提出一种比例微分 (proportional-integral, PD) 控制器,该控制方法针对无人机自主降 落问题,实现了无人机降落到固定平台的任务。在 文献 [8] 中,作者将模型预测控制方法应用于无 人机降落问题,该方法结构轻量,响应迅速,能够 在低算力的平台中运行。同时,作者在文中使用 仿真环境进行验证,且效果良好,但是并没有在 真实的场景中进行降落效果的测试。PID 控制方 法在控制任务中广泛使用,但是固定参数的 PID 控 制方法对非线性问题适应性差,在文献 [7] 中,作 者提出一种基于模糊逻辑的 PID 控制方法,结果 显示,该方法优于传统的控制方法,不足之处在 于该方法未考虑无人机降落到移动的平台的情形。 1.3 强化学习算法的应用 许多学者应用强化学习算法寻找解决问题的 最优策略。强化学习算法能够实现在干扰和复杂 情况下的最优控制,这是传统控制方法难以比拟 的。理论上,基于马尔可夫过程的强化学习算法 有潜力找到最优的控制策略,当算法训练充分后 就可以实现对于无人机降落问题的最优控制。在 文献 [9,11] 中,作者将确定性策略梯度方法[19] 应 用于无人机降落问题中,该方法在虚拟环境中进 行训练,并且可以在仿真和真实环境中,实现对无 人机降落过程的控制。确定性策略梯度方法能够 根据不同的状态输入输出不同的动作,进而完成 当前的任务。文献 [11] 中,输入状态包含 x、y 两 个方向上的位置信息,算法根据不同的位置信息控 制无人机降落,以连续的状态作为输入并输出连 续动作,有潜力实现精确控制,由于文章中的方法 未使用 z 方向的位置信息,当面对不同高度的输 入时可能有相同的输出,影响控制无人机降落的 效果。文献 [9] 中,作者同样使用确定性策略梯度 方法,该方法的输入包括三轴的位置信息,可根 据无人机高度改变输出动作,从而实现精准控制, 同上面的方法一样,此方法以连续的状态作为输 入并输出连续的动作,保证无人机的精确控制。 在文献 [16,20] 中,一种结合 PID 理论和强化 学习原理的方法被应用于移动机器人的路径规划 问题,在仿真实验中,对比传统 PID 方法,文中提 出的 Q 学习–PID 方法在路径规划实验的结果中 优势明显,面对不同环境和干扰时,表现出鲁棒 性强的优点。文献 [21-22] 将参数自学习调节方法 应用于无人机降落至静止平台的任务,由于控制 第 17 卷 智 能 系 统 学 报 ·932·
·933· 张鹏鹏,等:旋翼无人机在移动平台降落的控制参数自学习调节方法 第5期 器参数随当前状态自适应调节,因此取得的无人 为其后的算法带来启发,这些算法包括深度Q学 机路径控制效果均优于传统PD方法。目前类似 习2网、双Q学习0、决斗Q学习算法,但是Q学 的方法还没有应用于无人机降落至移动平台任务, 习算法由于其离散的输入和输出,只能解决复杂 在无人机降落问题中,使用结合PD理论和强化 度低的低维度问题。 学习原理的方法,具有创新性和可行性。在文献 2.2深度强化学习 [23]中,作者提出一种矫正纠偏(corrective advice 在实际任务执行时,状态和动作的表示是连 communicated humans,COACH)框架,使用人类建 续的,由于维度爆炸的问题,在连续的动作状态 议,用于帮助强化学习算法寻找最优的控制策 空间中使用离散的状态和动作难以实现。因此, 略,效果显著,能优化获得的最终策略。 本文使用神经网络非线性拟合的特点,对动作价 本文提出一种结合PD原理和强化学习理论 值函数进行估计,为了更好的表示动作价值函 的方法,完成无人机降落到移动平台的任务,应 数,本方法定义损失函数L()=E0y,-Qs,a,le)] 用矫正纠偏框架,优化最终训练得到的策略。上 来优化网络参数P,其中y=(s,a)+yQ(s41,a+ile)。 层的控制策略选择确定性策略梯度方法,该方法 如果策略是确定的,则可以将状态映射到动作 有着连续的输入和输出,在连续空间上,有潜力 上,即:S→A,之后本文定义动作网络俨,其遵循 实现优秀的控制效果。下层应用PD方法,用于 J(π)进行更新,使得J(π)变大,即根据7J(π≈ 保证无人机降落的稳定性。 EVeQ(s,dee儿==g]=EV.O(s,alee)儿==a7e4(se儿=l 进行更新。 2强化学习算法描述 确定性策略梯度方法是一种解决在连续状 2.1强化学习 态空间和动作空间的无模型算法。此方法使用动 作-评论家的结构,有两个主要的人工神经网络, 人工智能领域中,强化学习通常根据特定的 一个用于拟合动作价值函数,称为价值网络,另 状态寻找最优动作,并将动作执行进而完成相应 一个网络用于产生动作,成为动作网络俨。在这 的任务。基于强化学习原理的方法已经在多个领 域取得亮眼表现,包括围棋、电脑游戏2s2等。 两个网络进行更新时,网络的迭代会不稳定和发 散,因此,使用两个目标网络(目标价值网络和 在理论上,基于强化学习的方法在经过一定回合 目标动作网络俨)对更新的两个主网络进行软更 的训练后,所获得的智能体可以在不同场景实现 新,提高其稳定性。两个目标网络分别与价值网 特定的任务。一个标准的强化学习问题可以由 络和动作网络有着相同的结构。在训练时,每个 S、A、P、r、y定义。其中S和A分别代表输入状 输出动作有随机的干扰,用于增加算法探索的空 态和输出动作的集合,s和a表示某一时间的状 间,动作作用于环境后,智能体会将观察数组 态和动作,P表示状态转移概率,r是奖励信息,” (sep,aep,'ep,Sep1)储存到记忆库中,记忆库达到 是折扣因子,同时定义总体奖励R= 定数最后,按公式L=(付)∑-Qa更新 其中∫是最后的回合数。 价值网络参数使得L减小,其中B是样本取样个 智能体在环境中进行训练,不断优化当前的 数,y=(s,a)+yQ(s41,μ(s+ilG)0),之后按照7J≈ 策略,对于一个特定的策略π,本文以公式V(s)= E[Rls=,π定义价值函数V。同样由公式Q(s,a,)= B∑.Qxd儿P.对动作网路D进 E[Rs=s,a=a,π定义动作价值函数。同时本文使 行更新,使得J增大,接着,本方法对两个目标网 用J(π)定义策略π的评价标准,具体为J(π)=E[R,]。 络进行软更新,具体公式为:0=tP+(1-r)ge和 最后使用π来代表最优的控制策略,即, =t伊+(1-T)。最后经过不断地训练,会得到 π"=arg max O'(s,a) 两个主网络,用于实际问题的解决。 智能体不断地在环境中训练,并使用贝尔曼方程: 2.3使用矫正纠偏框架的强化学习方法 a)=.a4)ty》P之en 使用深度强化学习算法需要大量的时间进行 训练,并且训练的时间随着动作空间维度的增加 不断更新状态价值函数,因此智能体在强化学 而显著增加。为了减少训练的时间并提升训练的 习算法的规则下不断训练并获得最优的控制策略。 效果,一种矫正纠偏框架用于提升训练的效率, 在强化学习的发展过程中,最具有代表性的 在智能体输出动作时,使用人类的建议(一个二 算法2叨是Q学习算法2,算法本身结构简单,并 值化的量)对智能体产生的动作进行增强或者减
器参数随当前状态自适应调节,因此取得的无人 机路径控制效果均优于传统 PID 方法。目前类似 的方法还没有应用于无人机降落至移动平台任务, 在无人机降落问题中,使用结合 PID 理论和强化 学习原理的方法,具有创新性和可行性。在文献 [23] 中,作者提出一种矫正纠偏(corrective advice communicated humans, COACH)框架,使用人类建 议,用于帮助强化学习算法寻找最优的控制策 略,效果显著,能优化获得的最终策略。 本文提出一种结合 PID 原理和强化学习理论 的方法,完成无人机降落到移动平台的任务,应 用矫正纠偏框架,优化最终训练得到的策略。上 层的控制策略选择确定性策略梯度方法,该方法 有着连续的输入和输出,在连续空间上,有潜力 实现优秀的控制效果。下层应用 PID 方法,用于 保证无人机降落的稳定性。 2 强化学习算法描述 2.1 强化学习 Rt = ∑ f i=t γ i−t r(si ,ai) 人工智能领域中,强化学习通常根据特定的 状态寻找最优动作,并将动作执行进而完成相应 的任务。基于强化学习原理的方法已经在多个领 域取得亮眼表现,包括围棋[24] 、电脑游戏[25-26] 等。 在理论上,基于强化学习的方法在经过一定回合 的训练后,所获得的智能体可以在不同场景实现 特定的任务。一个标准的强化学习问题可以由 S、A、P、r、γ 定义。其中 S 和 A 分别代表输入状 态和输出动作的集合,s 和 a 表示某一时间的状 态和动作,P 表示状态转移概率,r 是奖励信息,γ 是折扣因子,同时定义总体奖励 , 其中 f 是最后的回合数。 V π (st) = E[Rt |s = st , π] V π Q π (st ,at) = E[Rt |s = st ,a = at , π] J(π) J(π) = E[Rt |π] π ∗ 智能体在环境中进行训练,不断优化当前的 策略,对于一个特定的策略 π,本文以公式 定义价值函数 。同样由公式 定义动作价值函数。同时本文使 用 定义策略 π 的评价标准,具体为 。 最后使用 来代表最优的控制策略,即, π ∗ = argmaxQ ∗ (st ,at) 智能体不断地在环境中训练,并使用贝尔曼方程: Q(st ,at) = r(st ,at)+γ ∑ st+1∈S P at st ,st+1 ∑ at+1∈A Q(st+1,at+1) 不断更新状态价值函数,因此智能体在强化学 习算法的规则下不断训练并获得最优的控制策略。 在强化学习的发展过程中,最具有代表性的 算法[27] 是 Q 学习算法[28] ,算法本身结构简单,并 为其后的算法带来启发,这些算法包括深度 Q 学 习 [29] 、双 Q 学习[30] 、决斗 Q 学习算法[31] ,但是 Q 学 习算法由于其离散的输入和输出,只能解决复杂 度低的低维度问题。 2.2 深度强化学习 L(θ Q ) = E[(yt − Q(st ,at |θ Q ))2 ] θ Q yt = r(st ,at)+γQ(st+1,at+1|θ Q ) µ : S → A θ µ J(π) J(π) ∇θ µ J(π) ≈ E[∇θ µQ(s,a|θ Q )|s=si,a=µ(si|θ µ )]= E[∇aQ(s,a|θ Q )|s=si,a=µ(si)∇θ µ µ(s|θ µ )|s=si ] 在实际任务执行时,状态和动作的表示是连 续的,由于维度爆炸的问题,在连续的动作状态 空间中使用离散的状态和动作难以实现。因此, 本文使用神经网络非线性拟合的特点,对动作价 值函数进行估计,为了更好的表示动作价值函 数,本方法定义损失函数 来优化网络参数 ,其中 。 如果策略是确定的,则可以将状态映射到动作 上,即 ,之后本文定义动作网络 ,其遵循 进行更新,使得 变大,即根据 进行更新。 θ Q θ µ θ Q ′ θ µ ′ (sstep,astep,rstep,sstep+1) L = ( 1 B ) · ∑ i (yi − Q(si ,ai |θ Q ))2 θ Q B yt = r(st ,at)+γQ(st+1, µ(st+1|θ µ ′ )|θ Q′ ) ∇θµ J ≈ 1 B ∑ i ∇aQ(s, a|θ Q )|s=si,a=µ(si)∇θ µ µ(s|θ µ )|si θ µ J θ Q ′ = τθQ+(1−τ)θ Q ′ θ µ ′ = τθµ +(1−τ)θ µ ′ 确定性策略梯度方法[19] 是一种解决在连续状 态空间和动作空间的无模型算法。此方法使用动 作–评论家的结构,有两个主要的人工神经网络, 一个用于拟合动作价值函数,称为价值网络 ,另 一个网络用于产生动作,成为动作网络 。在这 两个网络进行更新时,网络的迭代会不稳定和发 散,因此,使用两个目标网络(目标价值网络 和 目标动作网络 )对更新的两个主网络进行软更 新,提高其稳定性。两个目标网络分别与价值网 络和动作网络有着相同的结构。在训练时,每个 输出动作有随机的干扰,用于增加算法探索的空 间,动作作用于环境后,智能体会将观察数组 储存到记忆库中,记忆库达到一 定数量后,按公式 更新 价值网络参数 使得 L 减小,其中 是样本取样个 数, ,之后按照 对动作网络 进 行更新,使得 增大,接着,本方法对两个目标网 络进行软更新,具体公式为: 和 。最后经过不断地训练,会得到 两个主网络,用于实际问题的解决。 2.3 使用矫正纠偏框架的强化学习方法 使用深度强化学习算法需要大量的时间进行 训练,并且训练的时间随着动作空间维度的增加 而显著增加。为了减少训练的时间并提升训练的 效果,一种矫正纠偏框架用于提升训练的效率, 在智能体输出动作时,使用人类的建议(一个二 值化的量)对智能体产生的动作进行增强或者减 ·933· 张鹏鹏,等:旋翼无人机在移动平台降落的控制参数自学习调节方法 第 5 期
第17卷 智能系统学报 ·934· 弱。在矫正纠偏框架下的确定性策略梯度方法具 索,使用确定性策略梯度方法对网络进行更新, 体结构如图1所示,使用人类建议指导智能体探 最终迅速获得最优策略。 专家 初始网绍 智能体 a a,=a,'+a 仿其环境 记忆库 +终止网路 参数更新 图1使用矫正纠偏框架的确定性策略梯度方法 Fig.1 DDPG with COACH 在本文提出的方法中,使用人类的建议增加 定义,其中d,是1时刻无人机与目标点的欧式 或者减弱智能体生成的动作,最终动作作用于环 距离。当无人机降落到指定的地点,奖励值为1, 境中,并储存在(S,a,,+)中,且与确定性策略梯 当降落失败(目标消失或未降落至目标点)时,奖 度方法一致,对网络权重进行更新。总体来看,将 励值为-1,其他情况下,奖励值为与上一时刻欧 人类的建议用于修正智能体产生的动作,会使得 式距离和当前时刻欧式距离的差值。一旦记忆库 智能体在相同的训练回合下,获得更佳的策略。 存满,评价网络和动作网络便开始更新。 3无人机降落控制策略 强化学习模块 下层控制器模块 →智能体a,PD控制器“无人机 3.1传统PID方法控制无人机降落 传统的PID方法结构如图2所示,误差信号 奖励函数 (t)是设定值和测量值的差值,有比例、积分、微 分3个环节,分别由k、k、k如3个参数对输人的误 de①处理, 差信号按公式u)=kpe0+6e(rdr+k, 最终获得所需的输出控制量。 图3强化学习与PID结合方法 Fig.3 RL-based PID ke(r) 由于强化学习模块能时刻输出动作a对 PD控制模块的参数进行调整,因此本方法可在 () e(1) ke (T)dr 多个场景控制无人机进行降落。PD模块输出控 制命令4,包含x和y方向上的控制位置,无人机 D6巴 在z方向上的目标降落速度为0.3m/s保持不变, Ref代表无人机的目标位置,x是当前机器人的位 图2标准PD控制器 Fig.2 Standard structure of a PID controller 置,5是无人机在图像中相对目标点的位置,包含 3.2深度强化学习算法控制无人机降落 x、y和:三轴的信息。由于强化学习算法的加 本文提出的方法将强化学习算法应用在PID 入,本方法能够在复杂环境中更加有效地控制无 控制算法的上层,方法的结构如图3所示,有两个 人机降落。 控制模块,左边框为强化学习模块,右边框为PD 3.3应用矫正纠偏框架的深度强化学习算法控 控制模块,强化学习的输入状态由3个方向上的 制无人机降落 位置组成,输出a为PID控制模块的参数k、k、k。 本文的方法使用矫正纠偏框架优化训练过 强化学习模块时刻调节PD控制器的参数, 程,强化学习算法和矫正纠偏框架的结构如图4 具体的奖励函数由公式 所示,矫正纠偏框架使用人的建议代替干扰信 (1,成功 号,用于智能体探索环节,因为人类建议的加入, =了-1,失败 所以增强了最终获得策略的鲁棒性。 d-1-d,其他 当智能体选择动作α,然后根据人类当前指
弱。在矫正纠偏框架下的确定性策略梯度方法具 体结构如图 1 所示,使用人类建议指导智能体探 索,使用确定性策略梯度方法对网络进行更新, 最终迅速获得最优策略。 初始网络 智能体 终止网络 专家 仿真环境 参数更新 记忆库 at ′ at=at ′+ah (st , at , rt , st+1) ah 图 1 使用矫正纠偏框架的确定性策略梯度方法 Fig. 1 DDPG with COACH (st ,at ,rt ,st+1) 在本文提出的方法中,使用人类的建议增加 或者减弱智能体生成的动作,最终动作作用于环 境中,并储存在 中,且与确定性策略梯 度方法一致,对网络权重进行更新。总体来看,将 人类的建议用于修正智能体产生的动作,会使得 智能体在相同的训练回合下,获得更佳的策略。 3 无人机降落控制策略 3.1 传统 PID 方法控制无人机降落 e(t) kP kI kD u(t) = kPe(t) + kI r t 0 e(τ)dτ + kD de(t) dt 传统的 PID 方法结构如图 2 所示,误差信号 是设定值和测量值的差值,有比例、积分、微 分 3 个环节,分别由 、 、 3 个参数对输入的误 差信号按公式 处理, 最终获得所需的输出控制量。 e (t) u (t) de (t) dt ∑ P D kD I kpe (t) kI ∫0 t e (t) dt 图 2 标准 PID 控制器 Fig. 2 Standard structure of a PID controller 3.2 深度强化学习算法控制无人机降落 kP kI kD 本文提出的方法将强化学习算法应用在 PID 控制算法的上层,方法的结构如图 3 所示,有两个 控制模块,左边框为强化学习模块,右边框为 PID 控制模块,强化学习的输入状态由 3 个方向上的 位置组成,输出 a 为 PID 控制模块的参数 、 、 。 强化学习模块时刻调节 PID 控制器的参数, 具体的奖励函数由公式 rt = 1, 成功 −1, 失败 dt−1 −dt , 其他 定义,其中 dt是 t 时刻无人机与目标点的欧式 距离。当无人机降落到指定的地点,奖励值为 1, 当降落失败(目标消失或未降落至目标点)时,奖 励值为−1,其他情况下,奖励值为与上一时刻欧 式距离和当前时刻欧式距离的差值。一旦记忆库 存满,评价网络和动作网络便开始更新。 智能体 无人机 奖励函数 ∑ Ref + − s x x r a u 强化学习模块 下层控制器模块 PID 控制器 图 3 强化学习与 PID 结合方法 Fig. 3 RL-based PID 由于强化学习模块能时刻输出动 作 a 对 PID 控制模块的参数进行调整,因此本方法可在 多个场景控制无人机进行降落。PID 模块输出控 制命令 u,包含 x 和 y 方向上的控制位置,无人机 在 z 方向上的目标降落速度为 0.3m/s 保持不变, Ref 代表无人机的目标位置,x 是当前机器人的位 置,s 是无人机在图像中相对目标点的位置,包含 x、y 和 z 三轴的信息。由于强化学习算法的加 入,本方法能够在复杂环境中更加有效地控制无 人机降落。 3.3 应用矫正纠偏框架的深度强化学习算法控 制无人机降落 本文的方法使用矫正纠偏框架优化训练过 程,强化学习算法和矫正纠偏框架的结构如图 4 所示,矫正纠偏框架使用人的建议代替干扰信 号,用于智能体探索环节,因为人类建议的加入, 所以增强了最终获得策略的鲁棒性。 a ′ 当智能体选择动作 t,然后根据人类当前指 第 17 卷 智 能 系 统 学 报 ·934·
·935· 张鹏鹏,等:旋翼无人机在移动平台降落的控制参数自学习调节方法 第5期 导获得最终的输出a,其中d,的取值范围为[0,1.0] 给出的是仿真环境,图6(b)给出的是真实降落的 叠加人类的经验a,其取值为0.2或者-0.2,最终 场景。 输出的结果a,区间为[0,1.01,当a,超出1.0时,认为 输出结果为1.0,当a小于0时,认为输出结果为 0。当误差范围较大时,人类经验认为可以增大比 例参数,此时a=0.2,进而加速无人机到达目标 点,当误差范围较小时,人类经验认为需减小比 例参数,即取ah=-0.2,进而实现精准的降落,对 于积分和微分参数并没有使用人类的经验进行 (a)Gazebo仿真环境 调节。 专家经验 a,=a,'+a 智能体 仿其环境 记忆库 参数更新 (b)实际环境 图4使用矫正纠偏框架的强化学习方法 图6降落环境搭建 Fig.4 RL with COACH Fig.6 Training and testing environment 控制参数自学习调节方法具体流程如图5所 4.1 无人机降落至静止平台 示,由传感器获得无人机相对移动平台的坐标, 降落实验中,静止平台比无人机稍大,无人机 深度强化学习模块对状态进行处理,输出底层控 具体尺寸为0.4m×0.4m,平台具体的尺寸为0.6m× 制器的x、y方向上的控制参数,之后底层控制模 0.8m,用于无人机降落。在仿真实验中,搭建了 块根据当前误差和控制参数计算获得无人机位置 一个简单的环境,如图6(a)所示。为了得到无人 控制指令并执行。无人机在降落过程中不断检测 机与目标位置的相对信息,在无人机的底部加装 当前状态,若无人机位置合适,则旋翼停止运动, 有摄像头传感器,并通过ROS框架进行信息交 无人机降落至目标区域,否则无人机继续执行位 互。无人机在这个仿真环境中训练和测试,对于 置控制的步骤,直至无人机降落至目标区域。 强化学习PID方法和应用矫正纠偏COACH方法 开始 的强化学习PID方法,本实验对智能体进行了 200回合的训练。当无人机降落至平台并保持静 获取无人机状态一 止后,本实验认为无人机成功完成降落任务,经 无人机相对移动平台 是否降落 的坐标及自身高度 过共600次仿真实验测试表明,3种方法都能够 有效地(>99%)实现无人机降落任务。 3种方法控制无人机降落的轨迹如图7所示。 深度强化学习模块 无人机 PID控制器 无人机降落 +PD轨迹 ;控制参数 控制参数数值 ◆RL-PID轨迹 自学习调 ★-RLC-PID轨迹 节方法 底层PID控制模块 1300 无人机位置控制指令 250 结束 200 无人机位置控制 图5无人机自主降落流程 100 Fig.5 Autonomous landing process for an UAV 50 4实验及结果分析 10 -30-20-1001020 0 -10 本文提出的方法,在Gazebo仿真环境中训练 X/cm 30 -20 并在仿真和真实环境中进行测试。此外,PD模 图73种方法的降落轨迹(仿真) 块和强化学习模块之间的通信使用机器人操作系 Fig.7 Trajectories of three approaches for landing in a 统(robot operation system)B,如图6所示,图6(a) simulated situation
at a ′ t [0,1.0] ah at [0,1.0] at at ah = 0.2 ah = −0.2 导获得最终的输出 ,其中 的取值范围为 叠加人类的经验 ,其取值为 0.2 或者−0.2,最终 输出的结果 区间为 ,当 超出 1.0 时,认为 输出结果为 1.0,当 小于 0 时,认为输出结果为 0。当误差范围较大时,人类经验认为可以增大比 例参数,此时 ,进而加速无人机到达目标 点,当误差范围较小时,人类经验认为需减小比 例参数,即取 ,进而实现精准的降落,对 于积分和微分参数并没有使用人类的经验进行 调节。 智能体 仿真环境 专家经验 参数更新 记忆库 at ′ at=at ′+ah (st , at , rt , st+1) ah 图 4 使用矫正纠偏框架的强化学习方法 Fig. 4 RL with COACH 控制参数自学习调节方法具体流程如图 5 所 示,由传感器获得无人机相对移动平台的坐标, 深度强化学习模块对状态进行处理,输出底层控 制器的 x、y 方向上的控制参数,之后底层控制模 块根据当前误差和控制参数计算获得无人机位置 控制指令并执行。无人机在降落过程中不断检测 当前状态,若无人机位置合适,则旋翼停止运动, 无人机降落至目标区域,否则无人机继续执行位 置控制的步骤,直至无人机降落至目标区域。 获取无人机状态 开始 深度强化学习模块 底层 PID 控制模块 无人机位置控制 是否降落 无人机降落 结束 无人机 控制参数 自学习调 节方法 无人机相对移动平台 的坐标及自身高度 PID 控制器 控制参数数值 无人机位置控制指令 Y N 图 5 无人机自主降落流程 Fig. 5 Autonomous landing process for an UAV 4 实验及结果分析 本文提出的方法,在 Gazebo 仿真环境中训练 并在仿真和真实环境中进行测试。此外,PID 模 块和强化学习模块之间的通信使用机器人操作系 统 (robot operation system)[32] ,如图 6 所示,图 6(a) 给出的是仿真环境,图 6(b) 给出的是真实降落的 场景。 (a) Gazebo 仿真环境 (b) 实际环境 图 6 降落环境搭建 Fig. 6 Training and testing environment 4.1 无人机降落至静止平台 降落实验中,静止平台比无人机稍大,无人机 具体尺寸为 0.4 m×0.4 m,平台具体的尺寸为 0.6 m× 0.8 m,用于无人机降落。在仿真实验中,搭建了 一个简单的环境,如图 6(a)所示。为了得到无人 机与目标位置的相对信息,在无人机的底部加装 有摄像头传感器,并通过 ROS 框架进行信息交 互。无人机在这个仿真环境中训练和测试,对于 强化学习 PID 方法和应用矫正纠偏 COACH 方法 的强化学习 PID 方法,本实验对智能体进行了 200 回合的训练。当无人机降落至平台并保持静 止后,本实验认为无人机成功完成降落任务,经 过共 600 次仿真实验测试表明,3 种方法都能够 有效地 (>99%) 实现无人机降落任务。 3 种方法控制无人机降落的轨迹如图 7 所示。 PID 轨迹 RL-PID 轨迹 RLC-PID 轨迹 300 250 200 150 100 50 30 30 20 20 10 10 0 0 −10 −10 −20 −20 −30 X/cm Y/cm Z/cm 图 7 3 种方法的降落轨迹(仿真) Fig. 7 Trajectories of three approaches for landing in a simulated situation ·935· 张鹏鹏,等:旋翼无人机在移动平台降落的控制参数自学习调节方法 第 5 期
第17卷 智能系统学报 ·936· 红色的轨迹为传统PID方法,本方法轨迹平 无人机初始坐标为(0.3m,0.3m,3m),降落 滑,证明本方法的3个控制参数人工选择合理,能 目标点坐标为(0m,0m,0.2m),在移动平台降落 够有效完成无人机降落到固定平台的任务。绿色 实验中,3种方法的成功率如表1所示。当平台 的轨迹是深度强化学习PD方法,本方法同样可 移动后,由于各种不稳定性因素,无人机降落至平 以将无人机降落到规定的区域,但是在最终降落 台的难度加大,固定参数PD方法的成功率在99% 时,与静止平台中心的距离较大。蓝色轨迹曲线 附近,结合强化学习原理的方法成功率分别是 为应用矫正纠偏框架的深度强化学习PID方法, 89%和100%,本结果表明在训练合适的情况下, 能迅速地对当前误差进行调整并且最终降落时与 强化学习原理能够提高无人机降落的稳定性。 静止平台中心的距离较近,本方法有效应用了深 表1无人机移动平台降落测试结果 度强化学习理论和PD控制方法,并使用矫正纠 Table 1 The result of UAV landing on a moving platform 偏框架对两者进行结合,实现最佳的轨迹控制。 方法 成功率% 测试次数 无人机从坐标(0.3m,0.3m,3m)出发,目标点为 (0m,0m,0.2m),3种方法在各200次的测试实 传统PID方法 99 200 验中都能够有着较高的成功率(>99%),稳定完成 强化学习-PID方法 89 200 无人机降落的任务。图8给出了3种方法控制 使用矫正纠偏框架的 100 200 下,无人机执行降落任务的时间,从结果上看,两 强化学习-PID方法 种结合强化学习原理的方法能够有效地减少无人 机降落的时间(传统PD方法时间平均值为29s, 图9给出的是无人机降落过程中,3种方法 强化学习PID方法平均降落时间为17s,使用矫 PD参数的变化情况,传统PID方法的参数是固 正纠偏框架的强化学习PD方法平均时间为11s), 定的,k、k、ko分别是0.4、0.08、0.08。使用矫正纠 并且使用矫正纠偏框架,能够使得强化学习算法 偏COACH方法的强化学习PID方法,k时刻改 最终得到的策略控制效果更好,有效提升控制策 变,并且范围在区间(0.0,0.6),k、k也在不断地 略。最后,传统PD方法如果要达到控制要求,本 更新来适应不同的环境。对于强化学习PID方 身的参数是需要合理选择的,并且参数的选择是 法,k同样时刻改变,范围为区间(0.0,02)。 一个耗费时间的过程,在结合强化学习原理后, 0.6 通过在虚拟环境中训练,可以实现智能体代替人 类进行参数的选择,并且控制无人机降落效果比 0.5 人类调节参数的PID方法效果更佳。 0.4 PID P 35 0.3 --RL-PID P -RLC-PID P % 0.2 0.1 0 5 10 15 20 时间s (a)比例参数 15 10 0.08 PID RL-PID RLC-PID 0.07 0.06 图83种方法控制无人机至平台的时间(仿真) Fig.8 Time for UAV landing on a simulated static plat- 著05 -PID I form -RL-PID I -RLC-PID I 4.2无人机降落至移动平台 0.02 实验设置从静止的平台改变为移动的平台, 0.01 移动平台前进和后退并不断循环,其他的设置同 10 15 20 之前静止实验相同,且使用了先前实验的训练模 时间s b)积分参数 型和参数设置
红色的轨迹为传统 PID 方法,本方法轨迹平 滑,证明本方法的 3 个控制参数人工选择合理,能 够有效完成无人机降落到固定平台的任务。绿色 的轨迹是深度强化学习 PID 方法,本方法同样可 以将无人机降落到规定的区域,但是在最终降落 时,与静止平台中心的距离较大。蓝色轨迹曲线 为应用矫正纠偏框架的深度强化学习 PID 方法, 能迅速地对当前误差进行调整并且最终降落时与 静止平台中心的距离较近,本方法有效应用了深 度强化学习理论和 PID 控制方法,并使用矫正纠 偏框架对两者进行结合,实现最佳的轨迹控制。 无人机从坐标(0.3 m,0.3 m,3 m)出发,目标点为 (0 m,0 m,0.2 m),3 种方法在各 200 次的测试实 验中都能够有着较高的成功率(>99%),稳定完成 无人机降落的任务。图 8 给出了 3 种方法控制 下,无人机执行降落任务的时间,从结果上看,两 种结合强化学习原理的方法能够有效地减少无人 机降落的时间(传统 PID 方法时间平均值为 29 s, 强化学习 PID 方法平均降落时间为 17 s,使用矫 正纠偏框架的强化学习 PID 方法平均时间为 11 s), 并且使用矫正纠偏框架,能够使得强化学习算法 最终得到的策略控制效果更好,有效提升控制策 略。最后,传统 PID 方法如果要达到控制要求,本 身的参数是需要合理选择的,并且参数的选择是 一个耗费时间的过程,在结合强化学习原理后, 通过在虚拟环境中训练,可以实现智能体代替人 类进行参数的选择,并且控制无人机降落效果比 人类调节参数的 PID 方法效果更佳。 PID RL-PID 降落时间/s RLC-PID 10 15 20 25 30 35 图 8 3 种方法控制无人机至平台的时间(仿真) Fig. 8 Time for UAV landing on a simulated static platform 4.2 无人机降落至移动平台 实验设置从静止的平台改变为移动的平台, 移动平台前进和后退并不断循环,其他的设置同 之前静止实验相同,且使用了先前实验的训练模 型和参数设置。 无人机初始坐标为(0.3 m,0.3 m,3 m),降落 目标点坐标为(0 m,0 m,0.2 m),在移动平台降落 实验中,3 种方法的成功率如表 1 所示。当平台 移动后,由于各种不稳定性因素,无人机降落至平 台的难度加大,固定参数 PID 方法的成功率在 99% 附近,结合强化学习原理的方法成功率分别是 89% 和 100%,本结果表明在训练合适的情况下, 强化学习原理能够提高无人机降落的稳定性。 表 1 无人机移动平台降落测试结果 Table 1 The result of UAV landing on a moving platform 方法 成功率/% 测试次数 传统PID方法 99 200 强化学习–PID方法 89 200 使用矫正纠偏框架的 强化学习–PID方法 100 200 kP kI kD kP kI kD kP 图 9 给出的是无人机降落过程中,3 种方法 PID 参数的变化情况,传统 PID 方法的参数是固 定的, 、 、 分别是 0.4、0.08、0.08。使用矫正纠 偏 COACH 方法的强化学习 PID 方法, 时刻改 变,并且范围在区间(0.0,0.6), 、 也在不断地 更新来适应不同的环境。对于强化学习 PID 方 法, 同样时刻改变,范围为区间(0.0,0.2)。 D 控制器参数 时间/s (c) 微分参数 PID_D RL-PID_D RLC-PID_D 5 10 I 控制器参数 时间/s (b) 积分参数 15 20 20 0.01 0 0.02 0.03 0.05 0.06 0.04 0.07 0.08 PID_I RL-PID_I RLC-PID_I 0 5 10 P 控制器参数 时间/s (a) 比例参数 15 0.1 0.2 0.3 0.4 0.5 0.6 PID_P RL-PID_P RLC-PID_P 第 17 卷 智 能 系 统 学 报 ·936·
·937· 张鹏鹏,等:旋翼无人机在移动平台降落的控制参数自学习调节方法 第5期 0.08 的原因在于输出的PD控制参数不同,应用矫正 0.07 纠偏框架的强化学习方法能够在无人机处于高处 0.06 时,输出大的比例参数,有助于跟随目标平台,在 处于较低的高度时,输出较低的比例参数,有助 -PID D 0.04 -RL-PID D 于无人机实现精准降落。 -RLC-PID_D 图10给出的仿真环境中,无人机降落至移动 0.02 平台的轨迹。如图10(a)、(b)、(c)所示,蓝色“×”表 0.01 示无人机降落的初始位置,红色点线是3种方法 控制下,无人机降落至移动平台的轨迹,紫色点 5 10 15 时间/s 表示无人机降落时,平台的位置,绿色线为移动 (C)微分参数 平台的移动轨迹。无人机降落轨迹的终点与移动 图93种方法的PD参数 平台的终点距离是评判无人机降落效果的重要标 Fig.9 PID control gains in every sample time of three ap- 准,两者距离近则认为降落的效果优。图10(b) proaches 和(c)中无人机轨迹终点与移动平台的距离更近, 两种基于强化学习原理的方法面对相同的降 因此两种应用强化学习原理的方法有着更佳的控 落问题,同样的训练过程,具有不同的效果,主要 制效果。 ★UAV 金-UAV -平UGV -平UGV 300 300 250 250 200 200 150 150 100 100 50 50 40 -10 -5 0 -10 0 -20 Ylem -5 -20 X/cm 10 -40 0 X/cm -40 (a)PID方法轨迹 (6)强化学习方法轨迹 ★UAV ★PID =潭.UGV ●-RL-PID RLC-PID 300 300 250 250 200 200 150 100 100 50 50 30-20-100102030 Y/cm X/em 30-20100102030 X/cm (c)使用矫正纠偏框架的强化学习PID方法轨迹 (d)3种方法的轨迹对比 图103种方法降落至移动目标 Fig.10 Trajectories of three approaches for landing on a moving platform 图10(d)是3种方法控制下无人机的降落轨 而实现精准降落。实验结果表明应用矫正纠偏框 迹对比图,在高处,使用矫正纠偏方法的强化学 架的强化学习PID方法既能及时跟随平台移动, 习PD方法控制无人机,控制无人机的动作幅度 也能有比其他两种方法更高的降落精度,因此, 大,有助于无人机在高处跟随平台进行移动;在 使用矫正纠偏方法的强化学习PD方法在仿真环 较低高度,本方法控制无人机的动作幅度小,从 境中控制无人机降落的效果最佳
0 5 10 D 控制器参数 时间/s (c) 微分参数 15 0.01 0.02 0.03 0.05 0.06 0.04 0.07 0.08 PID_D RL-PID_D RLC-PID_D I 控制器参数 时间/s (b) 积分参数 20 PID_I RL-PID_I RLC-PID_I P 控制器参数 时间/s (a) 比例参数 PID_P RL-PID_P RLC-PID_P 图 9 3 种方法的 PID 参数 Fig. 9 PID control gains in every sample time of three approaches 两种基于强化学习原理的方法面对相同的降 落问题,同样的训练过程,具有不同的效果,主要 的原因在于输出的 PID 控制参数不同,应用矫正 纠偏框架的强化学习方法能够在无人机处于高处 时,输出大的比例参数,有助于跟随目标平台,在 处于较低的高度时,输出较低的比例参数,有助 于无人机实现精准降落。 图 10 给出的仿真环境中,无人机降落至移动 平台的轨迹。如图 10(a)、(b)、(c) 所示,蓝色“×”表 示无人机降落的初始位置,红色点线是 3 种方法 控制下,无人机降落至移动平台的轨迹,紫色点 表示无人机降落时,平台的位置,绿色线为移动 平台的移动轨迹。无人机降落轨迹的终点与移动 平台的终点距离是评判无人机降落效果的重要标 准,两者距离近则认为降落的效果优。图 10(b) 和 (c) 中无人机轨迹终点与移动平台的距离更近, 因此两种应用强化学习原理的方法有着更佳的控 制效果。 UAV UGV 300 250 200 150 100 50 40 10 20 5 0 0 −20 −40 −5 −10 X/cm Y/cm Z/cm (a) PID 方法轨迹 UAV UGV 300 250 200 150 100 50 40 20 30 20 10 0 0 −20 −60 −10 −40 −30−20 X/cm Y/cm Z/cm (c) 使用矫正纠偏框架的强化学习 PID 方法轨迹 PID RL-PID RLC-PID 300 250 200 150 100 50 40 20 30 20 10 0 0 −20 −60 −10 −40 −30−20 X/cm Y/cm Zn/cm (d) 3 种方法的轨迹对比 UAV UGV 300 250 200 150 100 50 40 20 5 0 0 −20 −40 −5 −10 X/cm Y/cm Z/cm (b) 强化学习方法轨迹 图 10 3 种方法降落至移动目标 Fig. 10 Trajectories of three approaches for landing on a moving platform 图 10(d) 是 3 种方法控制下无人机的降落轨 迹对比图,在高处,使用矫正纠偏方法的强化学 习 PID 方法控制无人机,控制无人机的动作幅度 大,有助于无人机在高处跟随平台进行移动;在 较低高度,本方法控制无人机的动作幅度小,从 而实现精准降落。实验结果表明应用矫正纠偏框 架的强化学习 PID 方法既能及时跟随平台移动, 也能有比其他两种方法更高的降落精度,因此, 使用矫正纠偏方法的强化学习 PID 方法在仿真环 境中控制无人机降落的效果最佳。 ·937· 张鹏鹏,等:旋翼无人机在移动平台降落的控制参数自学习调节方法 第 5 期
第17卷 智能系统学报 ·938· 4.3无人机实体实验 性策略梯度方法,用于不断输出PID参数,提高 在真实世界的设置与仿真环境中一致,并且 PD方法的实用性,在底层使用PID方法,直接输 模型的输入和输出也与仿真时相同。无人机降落 出控制量,用于控制无人机实现降落任务。强化 的初始高度为3m,并且初始位置偏离目标平台 学习模型在环境中不断训练,不断输出PD参数 0.3m。首先测试在静止平台上的降落,基于强化 值,区别于固定PD方法,获得的模型有更优的 学习的方法不断输出动作,直到无人机降落至目 控制效果。矫正纠偏框架将人类经验应用于强化 标平台,具体轨迹如图11所示,无人机可以稳定 学习模型训练中,在人类的指导下,得到的强化 地降落至目标平台的中心附近,在20次的测试 学习模型控制无人机降落时间更短,降落成功率 中,无人机可以全部降落至目标点0.3m半径内, 更高。仿真实验和真实实验的实验结果都表明本 认为无人机降落任务执行成功。 文提出的结合矫正纠偏COACH框架的深度强化 学习PD方法能有效完成无人机移动平台降落 任务。 参考文献: [1]LIU P,CHEN A Y,HUANG Yinnan,et al.A review of rotorcraft Unmanned Aerial Vehicle (UAV)develop- ments and applications in civil engineering[J].Smart 图11无人机(实体)降落至静止平台 structures and systems,2014,13(6):1065-1094. Fig.11 Trajectories of our approach for landing on a stat- [2] TSOUROS D.BIBI S.SARIGIANNIDIS P.A review on ic platform UAV-based applications for precision agriculture[J].In- 在协同系统执行任务时,大部分情况是移动 formation (Switzerland),2019,10(11):349. 或者不稳定的降落平台,因此,本文设置了无人 [3] REN H,ZHAO Y,XIAO W,et al.A review of UAV 机降落至移动平台的实验。实体实验设置为无人 monitoring in mining areas:current status and future per- 机降落的初始高度为3m,并且初始位置偏离目 spectives[J].International journal of coal science&tech- 标平台0.3m,并且降落的平台在前后循环移动, nology,2019,6(3):320-333. [4] 速度在0.05~0.1m/s范围内变化。如图12所示, MICHAEL N,SHEN Shaojie,MOHTA K,et al.Collab- orative mapping of an earthquake-damaged building via 实验结果证明使用矫正纠偏框架的深度强化学习 ground and aerial robots[J].Journal of field robotics, 方法能够控制无人机降落至移动的目标平台,有 2012,29(5)832-841 效完成移动平台在不稳定情况下的无人机降落任 [5] 王华鲜,华容,刘华平,等.无人机群多目标协同主动感 务。通过20次的测试,无人机都能够在平台移动 知的自组织映射方法[).智能系统学报,2020,15(3): 的情况下,降落至偏离目标平台0.4m半径内,认 609-614. 为无人机降落成功。综上,静止平台和移动平台的 WANG Huaxian,HUA Rong,LIU Huaping,et al.Self- 实验都证明了本文提出方法的有效性和稳定性。 organizing feature map method for multi-target active perception of unmanned aerial vehicle systems[J].CAAl transactions on intelligent systems,2020,15(3):609-614. [6] BACA T,STEPAN P,SPURNY V,et al.Autonomous landing on a moving vehicle with an unmanned aerial vehicle[J].Journal of field robotics,2019,36(5):874- 891 [7] TALHA M,ASGHAR F,ROHAN A,et al.Fuzzy logic- based robust and autonomous safe landing for UAV quad- 图12无人机降落至速度为0.05-0.1m/s的平台 copter[J].Arabian journal for science and engineering, Fig.12 Trajectories of our approach for landing on a mov- 2019,44(3)2627-2639. ing platform [8] FENG Yi,ZHANG Cong,BAEK S,et al.Autonomous 5结束语 landing of a UAV on a moving platform using model pre- dictive control[J.Drones,2018,2(4):34. 本文提出一种用于无人机降落的深度强化学 [9] RODRIGUEZ-RAMOS A.SAMPEDRO C.BAVLE H. 习方法。上层使用在矫正纠偏框架下的深度确定 et al.A deep reinforcement learning technique for vision-
4.3 无人机实体实验 在真实世界的设置与仿真环境中一致,并且 模型的输入和输出也与仿真时相同。无人机降落 的初始高度为 3 m,并且初始位置偏离目标平台 0.3 m。首先测试在静止平台上的降落,基于强化 学习的方法不断输出动作,直到无人机降落至目 标平台,具体轨迹如图 11 所示,无人机可以稳定 地降落至目标平台的中心附近,在 20 次的测试 中,无人机可以全部降落至目标点 0.3 m 半径内, 认为无人机降落任务执行成功。 图 11 无人机(实体)降落至静止平台 Fig. 11 Trajectories of our approach for landing on a static platform 在协同系统执行任务时,大部分情况是移动 或者不稳定的降落平台,因此,本文设置了无人 机降落至移动平台的实验。实体实验设置为无人 机降落的初始高度为 3 m,并且初始位置偏离目 标平台 0.3 m,并且降落的平台在前后循环移动, 速度在 0.05~0.1 m/s 范围内变化。如图 12 所示, 实验结果证明使用矫正纠偏框架的深度强化学习 方法能够控制无人机降落至移动的目标平台,有 效完成移动平台在不稳定情况下的无人机降落任 务。通过 20 次的测试,无人机都能够在平台移动 的情况下,降落至偏离目标平台 0.4 m 半径内,认 为无人机降落成功。综上,静止平台和移动平台的 实验都证明了本文提出方法的有效性和稳定性。 图 12 无人机降落至速度为 0.05~0.1m/s 的平台 Fig. 12 Trajectories of our approach for landing on a moving platform 5 结束语 本文提出一种用于无人机降落的深度强化学 习方法。上层使用在矫正纠偏框架下的深度确定 性策略梯度方法,用于不断输出 PID 参数,提高 PID 方法的实用性,在底层使用 PID 方法,直接输 出控制量,用于控制无人机实现降落任务。强化 学习模型在环境中不断训练,不断输出 PID 参数 值,区别于固定 PID 方法,获得的模型有更优的 控制效果。矫正纠偏框架将人类经验应用于强化 学习模型训练中,在人类的指导下,得到的强化 学习模型控制无人机降落时间更短,降落成功率 更高。仿真实验和真实实验的实验结果都表明本 文提出的结合矫正纠偏 COACH 框架的深度强化 学习 PID 方法能有效完成无人机移动平台降落 任务。 参考文献: LIU P, CHEN A Y, HUANG Yinnan, et al. A review of rotorcraft Unmanned Aerial Vehicle (UAV) developments and applications in civil engineering[J]. Smart structures and systems, 2014, 13(6): 1065–1094. [1] TSOUROS D, BIBI S, SARIGIANNIDIS P. A review on UAV-based applications for precision agriculture[J]. Information (Switzerland), 2019, 10(11): 349. [2] REN H, ZHAO Y, XIAO W, et al. A review of UAV monitoring in mining areas: current status and future perspectives[J]. International journal of coal science & technology, 2019, 6(3): 320–333. [3] MICHAEL N, SHEN Shaojie, MOHTA K, et al. Collaborative mapping of an earthquake-damaged building via ground and aerial robots[J]. Journal of field robotics, 2012, 29(5): 832–841. [4] 王华鲜, 华容, 刘华平, 等. 无人机群多目标协同主动感 知的自组织映射方法 [J]. 智能系统学报, 2020, 15(3): 609−614. WANG Huaxian, HUA Rong, LIU Huaping, et al. Selforganizing feature map method for multi-target active perception of unmanned aerial vehicle systems[J]. CAAI transactions on intelligent systems, 2020, 15(3): 609−614. [5] BACA T, STEPAN P, SPURNY V, et al. Autonomous landing on a moving vehicle with an unmanned aerial vehicle[J]. Journal of field robotics, 2019, 36(5): 874– 891. [6] TALHA M, ASGHAR F, ROHAN A, et al. Fuzzy logicbased robust and autonomous safe landing for UAV quadcopter[J]. Arabian journal for science and engineering, 2019, 44(3): 2627–2639. [7] FENG Yi, ZHANG Cong, BAEK S, et al. Autonomous landing of a UAV on a moving platform using model predictive control[J]. Drones, 2018, 2(4): 34. [8] RODRIGUEZ-RAMOS A, SAMPEDRO C, BAVLE H, et al. A deep reinforcement learning technique for vision- [9] 第 17 卷 智 能 系 统 学 报 ·938·
·939· 张鹏鹏,等:旋翼无人机在移动平台降落的控制参数自学习调节方法 第5期 based autonomous multirotor landing on a moving plat- mobile robots[J].Expert systems with applications,2017, form[C]//2018 IEEE/RSJ International Conference on In- 80:183-199 telligent Robots and Systems (IROS).Madrid,IEEE, [21]CHOI J,CHEON D,LEE J.Robust landing control of a 2018:1010-1017 quadcopter on a slanted surface[J].International journal [10]SHAKER M,SMITH M N R,YUE Shigang,et al.Vis- of precision engineering and manufacturing,2021,22(6): ion-based landing of a simulated unmanned aerial vehicle 1147-1156. with fast reinforcement learning[C]//2010 International [22]KIM J,JUNG Y,LEE D,et al.Landing control on a mo- Conference on Emerging Security Technologies.Canter- bile platform for multi-copters using an omnidirectional bury,EEE,2010:183-188. image sensor[J].Journal of intelligent robotic systems, [11]RODRIGUEZ-RAMOS A.SAMPEDRO C.BAVLE H. 2016.841/2/3/4):529-541 et al.A deep reinforcement learning strategy for UAV [23]CELEMIN C,RUIZ-DEL-SOLAR J.An interactive autonomous landing on a moving platform[J].Journal of framework for learning continuous actions policies based intelligent&robotic systems,2019,93(1/2):351-366. on corrective feedback[J].Journal of intelligent robotic [12]LEE S,SHIM T,KIM S,et al.Vision-based autonomous systems..2019.95(1):77-97. landing of a multi-copter unmanned aerial vehicle using [24]SILVER D.HUANG A.MADDISON C J.et al.Master- reinforcement learning[C]//2018 International Confer- ing the game of Go with deep neural networks and tree ence on Unmanned Aircraft Systems(ICUAS).Dallas, search[J.Nature,2016,529(7587):484-489 IEEE.2018:108-114. [25]GRIGORESCU S.TRASNEA B.COCIAS T.et al.A [13]ARULKUMARAN K.DEISENROTH M.BRUNDAGE survey of deep learning techniques for autonomous driv- M,et al.Deep reinforcement learning:a brief survey[J]. ing[J].Journal of field robotics,2020,37(3):362-386. IEEE signal processing magazine,2017,34:26-38. [26]HESSEL M.MODAYIL J.VAN HASSELT H.et al. [14]HESSEL M,SOYER H.ESPEHOLT L,et al.Multi-task Rainbow:combining improvements in deep reinforce- deep reinforcement learning with PopArt[J].Proceedings ment learning[EB/OLl.(2017-01-01)[2021-01-011.ht- of the AAAl conference on artificial intelligence,2019, tps://arxiv.org/abs/1710.02298. 33:3796-3803 [27]SUTTON R S,BARTO A G.Reinforcement learning:an [15]SEDIGHIZADEH M,REZAZADEH A.Adaptive PID introduction[M].Cambridge,Mass:MIT Press,1998. controller based on reinforcement learning for wind tur- [28]WATKINS C J C H,DAYAN P.Q-learning[J].Machine bine control[J].World academy of science,engineering learning,1992,8(3/4):279-292. and technology,international journal of computer,elec- [29]MNIH V.KAVUKCUOGLU K.SILVER D,et al.Hu- trical,automation,control and information engineering, man-level control through deep reinforcement learning[J]. 2008.2:124129. Nature,2015,518(7540):529-533. [16]WANG Shuti,YIN Xunhe,LI Peng,et al.Trajectory [30]VAN HASSELT H,GUEZ A,SILVER D.Deep rein- tracking control for mobile robots using reinforcement forcement learning with double Q-learning[EB/OL]. learning and PID[J].Iranian journal of science and tech- (2015-05-01)[2020-12-20].https:/arxiv.org/abs/ nology,transactions of electrical engineering,2020, 1509.06461v3. 44(3):1059-1068 [31]WANG Z.SCHAUL T.HESSEL M,et al.Dueling net- [17]ASADI K.KALKUNTE SURESH A.ENDER A.et al. work architectures for deep reinforcement learning[C]// An integrated UGV-UAV system for construction site International conference on machine learning.PMLR. data collection[J].Automation in construction,2020,112: 2016:1995-2003 103068. [32]KOUBAA A.Robot operating system (ROS):The com- [18]ERGINER B,ALTUG E.Modeling and PD control of a plete reference[M].volume 1.Cham:Springer,2016. quadrotor VTOL vehicle[C]//2007 IEEE Intelligent Vehicles Symposium.Istanbul,IEEE,2007:894-899. 作者简介: [19]LILLICRAP T P.HUNT J J,PRITZEL A,et al.Continu- 张鹏鹏,硕士研究生,主要研究方 ous control with deep reinforcement learning[EB/OL]. 向为空地协同系统、智能无人系统。 (2015-01-01)[2021-01-01].htps:/axiv.org/abs/1509 02971. [20]CARLUCHO I,DE PAULA M,VILLAR S A,et al.In- cremental Q-learning strategy for adaptive PID control of
based autonomous multirotor landing on a moving platform[C]//2018 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). Madrid, IEEE, 2018: 1010−1017. SHAKER M, SMITH M N R, YUE Shigang, et al. Vision-based landing of a simulated unmanned aerial vehicle with fast reinforcement learning[C]//2010 International Conference on Emerging Security Technologies. Canterbury, IEEE, 2010: 183−188. [10] RODRIGUEZ-RAMOS A, SAMPEDRO C, BAVLE H, et al. A deep reinforcement learning strategy for UAV autonomous landing on a moving platform[J]. Journal of intelligent & robotic systems, 2019, 93(1/2): 351–366. [11] LEE S, SHIM T, KIM S, et al. Vision-based autonomous landing of a multi-copter unmanned aerial vehicle using reinforcement learning[C]//2018 International Conference on Unmanned Aircraft Systems (ICUAS). Dallas, IEEE, 2018: 108−114. [12] ARULKUMARAN K, DEISENROTH M, BRUNDAGE M, et al. Deep reinforcement learning: a brief survey[J]. IEEE signal processing magazine, 2017, 34: 26–38. [13] HESSEL M, SOYER H, ESPEHOLT L, et al. Multi-task deep reinforcement learning with PopArt[J]. Proceedings of the AAAI conference on artificial intelligence, 2019, 33: 3796–3803. [14] SEDIGHIZADEH M, REZAZADEH A. Adaptive PID controller based on reinforcement learning for wind turbine control[J]. World academy of science, engineering and technology, international journal of computer, electrical, automation, control and information engineering, 2008, 2: 124–129. [15] WANG Shuti, YIN Xunhe, LI Peng, et al. Trajectory tracking control for mobile robots using reinforcement learning and PID[J]. Iranian journal of science and technology, transactions of electrical engineering, 2020, 44(3): 1059–1068. [16] ASADI K, KALKUNTE SURESH A, ENDER A, et al. An integrated UGV-UAV system for construction site data collection[J]. Automation in construction, 2020, 112: 103068. [17] ERGINER B, ALTUG E. Modeling and PD control of a quadrotor VTOL vehicle[C]//2007 IEEE Intelligent Vehicles Symposium. Istanbul, IEEE, 2007: 894−899. [18] LILLICRAP T P, HUNT J J, PRITZEL A, et al. Continuous control with deep reinforcement learning[EB/OL]. (2015−01−01)[2021−01−01]. https: //arxiv. org/abs/1509. 02971. [19] CARLUCHO I, DE PAULA M, VILLAR S A, et al. Incremental Q-learning strategy for adaptive PID control of [20] mobile robots[J]. Expert systems with applications, 2017, 80: 183–199. CHOI J, CHEON D, LEE J. Robust landing control of a quadcopter on a slanted surface[J]. International journal of precision engineering and manufacturing, 2021, 22(6): 1147–1156. [21] KIM J, JUNG Y, LEE D, et al. Landing control on a mobile platform for multi-copters using an omnidirectional image sensor[J]. Journal of intelligent & robotic systems, 2016, 84(1/2/3/4): 529–541. [22] CELEMIN C, RUIZ-DEL-SOLAR J. An interactive framework for learning continuous actions policies based on corrective feedback[J]. Journal of intelligent & robotic systems, 2019, 95(1): 77–97. [23] SILVER D, HUANG A, MADDISON C J, et al. Mastering the game of Go with deep neural networks and tree search[J]. Nature, 2016, 529(7587): 484−489. [24] GRIGORESCU S, TRASNEA B, COCIAS T, et al. A survey of deep learning techniques for autonomous driving[J]. Journal of field robotics, 2020, 37(3): 362−386. [25] HESSEL M, MODAYIL J, VAN HASSELT H, et al. Rainbow: combining improvements in deep reinforcement learning[EB/OL].(2017−01−01)[2021−01−01]. https: //arxiv. org/abs/1710.02298. [26] SUTTON R S, BARTO A G. Reinforcement learning: an introduction[M]. Cambridge, Mass: MIT Press, 1998. [27] WATKINS C J C H, DAYAN P. Q-learning[J]. Machine learning, 1992, 8(3/4): 279–292. [28] MNIH V, KAVUKCUOGLU K, SILVER D, et al. Human-level control through deep reinforcement learning[J]. Nature, 2015, 518(7540): 529−533. [29] VAN HASSELT H, GUEZ A, SILVER D. Deep reinforcement learning with double Q-learning[EB/OL]. (2015−05−01)[2020−12−20].https://arxiv. org/abs/ 1509.06461v3. [30] WANG Z, SCHAUL T, HESSEL M, et al. Dueling network architectures for deep reinforcement learning[C]// International conference on machine learning. PMLR, 2016: 1995−2003. [31] KOUBAA A. Robot operating system (ROS): The complete reference[M]. volume 1. Cham: Springer, 2016. [32] 作者简介: 张鹏鹏,硕士研究生,主要研究方 向为空地协同系统、智能无人系统。 ·939· 张鹏鹏,等:旋翼无人机在移动平台降落的控制参数自学习调节方法 第 5 期
第17卷 智能系统学报 ·940· 魏长资,副教授,博士,博士毕业 张恺容,本科,主要研究方向为智 于荷兰代尔夫特理工大学人工智能专 能无人系统。 业,英国卡迪夫大学机器人及自主系统 实验室访问学者,主要研究方向是自 主智能无人系统。以第一作者发表学 术论文20余篇,出版英文专著1本。 第四届国际高性能大数据暨智能系统会议 The 4%International Conference on High Performance Big Data and Intelligent Systems 第四届国际高性能大数据暨智能系统会议(The4 th International Conference on High Performance Big Data and Intelligent Systems,HDIS2022)拟于2022年12月9日至12月11日在中国天津举办。 会议旨在搭建高性能计算、大数据及人工智能领域高端前沿交流平台,促进海内外专家学者的交流与合 作,推动智能技术进步和智能产业发展。本次会议将汇聚全球顶级专家、学者和产业界优秀人才,共同围绕 国际热点话题、核心关键技术、产业发展及挑战等进行开放式研讨。 会议由中国计算机学会(CCF)、中国人工智能学会(CAAI)联合主办,IEEE Computer Society技术支持, 天津理工大学、澳门大学、中国科学院半导体研究所、中国科学院深圳先进技术研究院、CC℉高性能计算专 业委员会、CAAI神经网络与计算智能专业委员会、CAA模式识别与机器智能专业委员会、中国智能计算产 业联盟共同承办。会议论文集将由IEEE Xplore®出版,EI收录,优秀论文将会推荐至SCI/EI期刊发表。热 忱欢迎广大同仁踊跃投稿并莅临本届会议! 投稿要求: 1.论文未曾在国内外杂志或会议上发表。 2.稿件写作必须使用英文,并严格按照模板要求排版。 3.所有论文采用网上投稿,请访问会议官网进行投稿。 https://www.hdis.world/public/portal/list/index/id/9.html 会议报名: 请登录会议官网htp:www.hdis.world/,报名注册。 重要日期: 论文投稿截止日期:2022年9月15日(已延期) 论文录用通知日期:2022年10月15日 论文提交截止日期:2022年10月31日 早鸟注册截止日期:2022年11月09日 联系方式: 李老师,010-82304554,hpbdis(@semi.ac.cn 薛老师,13920254011,xuewanli@email..tjut.edu.cn
魏长赟,副教授,博士,博士毕业 于荷兰代尔夫特理工大学人工智能专 业,英国卡迪夫大学机器人及自主系统 实验室访问学者,主要研究方向是自 主智能无人系统。以第一作者发表学 术论文 20 余篇,出版英文专著 1 本。 张恺睿,本科,主要研究方向为智 能无人系统。 第四届国际高性能大数据暨智能系统会议 The 4th International Conference on High Performance Big Data and Intelligent Systems 第四届国际高性能大数据暨智能系统会议(The 4th International Conference on High Performance Big Data and Intelligent Systems, HDIS 2022)拟于 2022 年 12 月 9 日至 12 月 11 日在中国天津举办。 会议旨在搭建高性能计算、大数据及人工智能领域高端前沿交流平台,促进海内外专家学者的交流与合 作,推动智能技术进步和智能产业发展。本次会议将汇聚全球顶级专家、学者和产业界优秀人才,共同围绕 国际热点话题、核心关键技术、产业发展及挑战等进行开放式研讨。 会议由中国计算机学会 (CCF)、中国人工智能学会 (CAAI) 联合主办,IEEE Computer Society 技术支持, 天津理工大学、澳门大学、中国科学院半导体研究所、中国科学院深圳先进技术研究院、CCF 高性能计算专 业委员会、CAAI 神经网络与计算智能专业委员会、CAA 模式识别与机器智能专业委员会、中国智能计算产 业联盟共同承办。会议论文集将由 IEEE Xplore®出版,EI 收录,优秀论文将会推荐至 SCI/EI 期刊发表。热 忱欢迎广大同仁踊跃投稿并莅临本届会议! 投稿要求: 1.论文未曾在国内外杂志或会议上发表。 2.稿件写作必须使用英文,并严格按照模板要求排版。 3.所有论文采用网上投稿,请访问会议官网进行投稿。 https://www.hdis.world/public/portal/list/index/id/9.html 会议报名: 请登录会议官网 http://www.hdis.world/,报名注册。 重要日期: 论文投稿截止日期: 2022 年 9 月 15 日(已延期) 论文录用通知日期: 2022 年 10 月 15 日 论文提交截止日期: 2022 年 10 月 31 日 早鸟注册截止日期: 2022 年 11 月 09 日 联系方式: 李老师,010-82304554,hpbdis@semi.ac.cn 薛老师,13920254011,xuewanli@email.tjut.edu.cn 第 17 卷 智 能 系 统 学 报 ·940·