正在加载图片...
第17卷 智能系统学报 ·932· 的任务。在执行任务结束后,无人机如何移动 务,不过在文中提到的无人机降落方法依然有进 到指定位置是协同系统实际应用的关键问题, 步的空间,难以在复杂的环境中实行降落任务。 因此本文聚焦于无人机的自主降落问题。 1.2 传统控制方法应用 在文献[7-8]中,作者将多种传统的控制方法 文献[18]提出一种比例微分(proportional-.in- 应用于无人机降落任务,这些方法具有稳定和低 tegral,PD)控制器,该控制方法针对无人机自主降 算力需求的优点,但是较难实现最优的控制效 落问题,实现了无人机降落到固定平台的任务。在 果。文献[912]将强化学习理论应用于无人机降 文献[8]中,作者将模型预测控制方法应用于无 落问题,并取得良好的效果。在文献[13-16]中, 人机降落问题,该方法结构轻量,响应迅速,能够 使用强化学习原理调整控制算法的参数,面对不 在低算力的平台中运行。同时,作者在文中使用 同的控制情形,能够实现较优的控制效果,但是 仿真环境进行验证,且效果良好,但是并没有在 并没有进行真实无人机实验。 真实的场景中进行降落效果的测试。PD控制方 针对以上方法的不足,本文结合深度强化学 法在控制任务中广泛使用,但是固定参数的PD控 习理论和比例积分微分(proportional-integral-deriv- 制方法对非线性问题适应性差,在文献[刀中,作 ative,PID)控制方法,解决无人机降落至移动平台 者提出一种基于模糊逻辑的PID控制方法,结果 的问题,本方法既有PID方法的稳定性,又能够 显示,该方法优于传统的控制方法,不足之处在 发挥强化学习寻找最优控制策略的优点,迅速完 于该方法未考虑无人机降落到移动的平台的情形。 成无人机降落到无人移动平台的任务。 1.3强化学习算法的应用 1 无人机降落问题描述 许多学者应用强化学习算法寻找解决问题的 最优策略。强化学习算法能够实现在干扰和复杂 在多机器人无人系统中,无人机在完成特定任 情况下的最优控制,这是传统控制方法难以比拟 务后需要降落至特定平台,本文基于上述任务,针 的。理论上,基于马尔可夫过程的强化学习算法 对无人机降落问题,提出一种结合深度强化学习 有潜力找到最优的控制策略,当算法训练充分后 算法和比例积分微分(proportional-integral--derivat-- 就可以实现对于无人机降落问题的最优控制。在 ive,PID)原理的控制方法。文中首先介绍多机器 文献[9,11]中,作者将确定性策略梯度方法应 人协同系统以及实现无人机降落任务的必要性, 用于无人机降落问题中,该方法在虚拟环境中进 并详细介绍传统控制方法和机器学习方法在无人 行训练,并且可以在仿真和真实环境中,实现对无 机降落问题上的应用现状。 人机降落过程的控制。确定性策略梯度方法能够 1.1关键的无人机降落问题 根据不同的状态输入输出不同的动作,进而完成 在如今的机器人学研究中,单一的机器人难 当前的任务。文献[11]中,输人状态包含x、y两 以完成复杂任务。在所有的无人设备中,无人机 个方向上的位置信息,算法根据不同的位置信息控 有着多项优点,其他设备难以替代无人机执行任 务。首先无人机运动不受地形限制,可以轻易地 制无人机降落,以连续的状态作为输入并输出连 到达特定的位置,并且无人机在空中悬停可以为 续动作,有潜力实现精确控制,由于文章中的方法 地面无人设备和工作人员提供高处视角的图像信 未使用:方向的位置信息,当面对不同高度的输 息,为发现和定位目标物品提供可能。同时,无 入时可能有相同的输出,影响控制无人机降落的 人机由于自身结构的原因也有特定的缺点,包括 效果。文献[9]中,作者同样使用确定性策略梯度 由于电池能量不足造成的执行任务时间短和无法 方法,该方法的输入包括三轴的位置信息,可根 携带较重负载的问题等。对单一的无人机设备添 据无人机高度改变输出动作,从而实现精准控制, 加无人车(船)组成协同系统可以有效地解决无 同上面的方法一样,此方法以连续的状态作为输 人机的上述缺点。实际应用中,无人机完成任 入并输出连续的动作,保证无人机的精确控制。 务,须自动返回,以备下次任务的执行。因此,在 在文献[16,20]中,一种结合PD理论和强化 这些协同系统中,如何将无人机降落到特定的平 学习原理的方法被应用于移动机器人的路径规划 台上是一项必须解决的任务。在文献[17刀中,作 问题,在仿真实验中,对比传统PD方法,文中提 者提出一种无人机和无人车的协同系统,该系统 出的Q学习-PID方法在路径规划实验的结果中 作业于建筑行业,收集建筑区域内的各种关键数 优势明显,面对不同环境和干扰时,表现出鲁棒 据。该方法结合了两种机器人的优点,弥补单一 性强的优点。文献[21-22]将参数自学习调节方法 机器人的不足,高效地实现建筑行业数据收集任 应用于无人机降落至静止平台的任务,由于控制的任务[4-5]。在执行任务结束后,无人机如何移动 到指定位置是协同系统实际应用的关键问题[6] , 因此本文聚焦于无人机的自主降落问题。 在文献 [7-8] 中,作者将多种传统的控制方法 应用于无人机降落任务,这些方法具有稳定和低 算力需求的优点,但是较难实现最优的控制效 果。文献 [9-12] 将强化学习理论应用于无人机降 落问题,并取得良好的效果。在文献 [13-16] 中, 使用强化学习原理调整控制算法的参数,面对不 同的控制情形,能够实现较优的控制效果,但是 并没有进行真实无人机实验。 针对以上方法的不足,本文结合深度强化学 习理论和比例积分微分 (proportional-integral-deriv￾ative, PID) 控制方法,解决无人机降落至移动平台 的问题,本方法既有 PID 方法的稳定性,又能够 发挥强化学习寻找最优控制策略的优点,迅速完 成无人机降落到无人移动平台的任务。 1 无人机降落问题描述 在多机器人无人系统中,无人机在完成特定任 务后需要降落至特定平台,本文基于上述任务,针 对无人机降落问题,提出一种结合深度强化学习 算法和比例积分微分 (proportional-integral-derivat￾ive, PID) 原理的控制方法。文中首先介绍多机器 人协同系统以及实现无人机降落任务的必要性, 并详细介绍传统控制方法和机器学习方法在无人 机降落问题上的应用现状。 1.1 关键的无人机降落问题 在如今的机器人学研究中,单一的机器人难 以完成复杂任务。在所有的无人设备中,无人机 有着多项优点,其他设备难以替代无人机执行任 务。首先无人机运动不受地形限制,可以轻易地 到达特定的位置,并且无人机在空中悬停可以为 地面无人设备和工作人员提供高处视角的图像信 息,为发现和定位目标物品提供可能。同时,无 人机由于自身结构的原因也有特定的缺点,包括 由于电池能量不足造成的执行任务时间短和无法 携带较重负载的问题等。对单一的无人机设备添 加无人车(船)组成协同系统可以有效地解决无 人机的上述缺点。实际应用中,无人机完成任 务,须自动返回,以备下次任务的执行。因此,在 这些协同系统中,如何将无人机降落到特定的平 台上是一项必须解决的任务。在文献 [17] 中,作 者提出一种无人机和无人车的协同系统,该系统 作业于建筑行业,收集建筑区域内的各种关键数 据。该方法结合了两种机器人的优点,弥补单一 机器人的不足,高效地实现建筑行业数据收集任 务,不过在文中提到的无人机降落方法依然有进 步的空间,难以在复杂的环境中实行降落任务。 1.2 传统控制方法应用 文献 [18] 提出一种比例微分 (proportional-in￾tegral, PD) 控制器,该控制方法针对无人机自主降 落问题,实现了无人机降落到固定平台的任务。在 文献 [8] 中,作者将模型预测控制方法应用于无 人机降落问题,该方法结构轻量,响应迅速,能够 在低算力的平台中运行。同时,作者在文中使用 仿真环境进行验证,且效果良好,但是并没有在 真实的场景中进行降落效果的测试。PID 控制方 法在控制任务中广泛使用,但是固定参数的 PID 控 制方法对非线性问题适应性差,在文献 [7] 中,作 者提出一种基于模糊逻辑的 PID 控制方法,结果 显示,该方法优于传统的控制方法,不足之处在 于该方法未考虑无人机降落到移动的平台的情形。 1.3 强化学习算法的应用 许多学者应用强化学习算法寻找解决问题的 最优策略。强化学习算法能够实现在干扰和复杂 情况下的最优控制,这是传统控制方法难以比拟 的。理论上,基于马尔可夫过程的强化学习算法 有潜力找到最优的控制策略,当算法训练充分后 就可以实现对于无人机降落问题的最优控制。在 文献 [9,11] 中,作者将确定性策略梯度方法[19] 应 用于无人机降落问题中,该方法在虚拟环境中进 行训练,并且可以在仿真和真实环境中,实现对无 人机降落过程的控制。确定性策略梯度方法能够 根据不同的状态输入输出不同的动作,进而完成 当前的任务。文献 [11] 中,输入状态包含 x、y 两 个方向上的位置信息,算法根据不同的位置信息控 制无人机降落,以连续的状态作为输入并输出连 续动作,有潜力实现精确控制,由于文章中的方法 未使用 z 方向的位置信息,当面对不同高度的输 入时可能有相同的输出,影响控制无人机降落的 效果。文献 [9] 中,作者同样使用确定性策略梯度 方法,该方法的输入包括三轴的位置信息,可根 据无人机高度改变输出动作,从而实现精准控制, 同上面的方法一样,此方法以连续的状态作为输 入并输出连续的动作,保证无人机的精确控制。 在文献 [16,20] 中,一种结合 PID 理论和强化 学习原理的方法被应用于移动机器人的路径规划 问题,在仿真实验中,对比传统 PID 方法,文中提 出的 Q 学习–PID 方法在路径规划实验的结果中 优势明显,面对不同环境和干扰时,表现出鲁棒 性强的优点。文献 [21-22] 将参数自学习调节方法 应用于无人机降落至静止平台的任务,由于控制 第 17 卷 智 能 系 统 学 报 ·932·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有