第13卷第2期 智能系统学报 Vol.13 No.2 2018年4月 CAAI Transactions on Intelligent Systems Apr.2018 D0:10.11992/tis.201609017 网络出版地址:http:/kns.cnki.net/cms/detail/23.1538.TP.20170626.1740.020.html 强化学习的地-空异构多智能体协作覆盖研究 张文旭,马磊,贺荟霖,王晓东 (西南交通大学电气工程学院,四川成都610031) 摘要:以无人机(unmanned aerial vehicle,UAV)和无人车(unmanned ground vehicle,UGV)的异构协作任务为背 景,通过UAV和UGV的异构特性互补,为了扩展和改进异构多智能体的动态覆盖问题,提出了一种地-空异构多智 能体协作覆盖模型。在覆盖过程中,UAV可以利用速度与观测范围的优势对UGV的行动进行指导:同时考虑智能 体的局部观测性与不确定性,以分布式局部可观测马尔可夫(decentralized partially observable Markov decision pro cesses,DEC-POMDPs)为模型搭建覆盖场景,并利用多智能体强化学习算法完成对环境的覆盖。仿真实验表明, UAV与UGV间的协作加快了团队对环境的覆盖速度,同时强化学习算法也提高了覆盖模型的有效性。 关键词:异构多智能体;覆盖问题;地-空;UAV/UGV;DEC-POMDPs;强化学习 中图分类号:TP181文献标志码:A 文章编号:1673-4785(2018)02-0202-06 中文引用格式:张文旭,马磊,贺荟霖,等.强化学习的地-空异构多智能体协作覆盖研究.智能系统学报,2018,13(2:202-207, 英文引用格式:ZHANG Wenxu,A Lei,,HE Huilin,.etal.Air-ground heterogeneous coordination for multi-agent coverage based on reinforced learningJ.CAAI transactions on intelligent systems,2018,13(2):202-207. Air-ground heterogeneous coordination for multi-agent coverage based on reinforced learning ZHANG Wenxu,MA Lei,HE Huilin,WANG Xiaodong (School of Electrical Engineering.,Southwest Jiaotong University,Chengdu610031,China) Abstract:With the heterogeneous coordinate task of unmanned aerial vehicles(UAVs)and unmanned ground vehicle (UGVs)as the background to this study,a novel air-ground heterogeneous coverage model for a coordinated multi-agent is proposed by the complementation between UAV and UGV heterogeneity,in order to extend and improve the dynam- ic coverage of a heterogeneous multi-agent system.During the coverage process,the advantages of mobility and the ob- servation scope of the UAV were used in order to guide the actions of the UGV.Moreover,in view of the partial agent observability and uncertainty,decentralized and partially observable Markov decision processes(DEC-POMDPs)were applied as the model in order to establish the coverage environment.Additionally,the reinforced learning algorithm of multi-agents was utilized in order to complete the coverage of the environment.The simulation results revealed that the coverage process was accelerated by the cooperation of the UAV and UGV.Additionally,the reinforced learning al- gorithm also improved the effectiveness of the coverage model. Keywords:heterogeneous multi-agent system;coverage;air-ground;UAV/UGV;DEC-POMDPs;reinforced learning 近年来,多智能体覆盖问题得到了越来越多的索、资源勘察等方面都有着广阔的应用前景,其 关注山,并作为多智能体协调控制的一个重要研究 主要研究包括路径规划、动态避障、任务分配等方 方向,有着重要的理论和应用价值,在服务保障、工 面B4。 业制造、军事侦察、安全保卫、灾后搜救、星球探 对于一个多智能体系统,智能体的异构特性可 收稿日期:2016-09-21.网络出版日期:2017-06-26. 基金项目:国家自然科学基金青年基金项目(61304166) 以更大地发挥多智能体的优势,更好地完成协作任 通信作者:张文旭.E-mail:wenxu_zhang@163.com 务。目前,大多数的覆盖研究都基于智能体为同
DOI: 10.11992/tis.201609017 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20170626.1740.020.html 强化学习的地–空异构多智能体协作覆盖研究 张文旭,马磊,贺荟霖,王晓东 (西南交通大学 电气工程学院,四川 成都 610031) 摘 要:以无人机 (unmanned aerial vehicle, UAV) 和无人车 (unmanned ground vehicle, UGV) 的异构协作任务为背 景,通过 UAV 和 UGV 的异构特性互补,为了扩展和改进异构多智能体的动态覆盖问题,提出了一种地–空异构多智 能体协作覆盖模型。在覆盖过程中,UAV 可以利用速度与观测范围的优势对 UGV 的行动进行指导;同时考虑智能 体的局部观测性与不确定性,以分布式局部可观测马尔可夫 (decentralized partially observable Markov decision processes,DEC-POMDPs) 为模型搭建覆盖场景,并利用多智能体强化学习算法完成对环境的覆盖。仿真实验表明, UAV 与 UGV 间的协作加快了团队对环境的覆盖速度,同时强化学习算法也提高了覆盖模型的有效性。 关键词:异构多智能体;覆盖问题;地–空;UAV/UGV;DEC-POMDPs;强化学习 中图分类号:TP181 文献标志码:A 文章编号:1673−4785(2018)02−0202−06 中文引用格式:张文旭, 马磊, 贺荟霖, 等. 强化学习的地–空异构多智能体协作覆盖研究[J]. 智能系统学报, 2018, 13(2): 202–207. 英文引用格式:ZHANG Wenxu, MA Lei, HE Huilin, et al. Air-ground heterogeneous coordination for multi-agent coverage based on reinforced learning[J]. CAAI transactions on intelligent systems, 2018, 13(2): 202–207. Air-ground heterogeneous coordination for multi-agent coverage based on reinforced learning ZHANG Wenxu,MA Lei,HE Huilin,WANG Xiaodong (School of Electrical Engineering, Southwest Jiaotong University, Chengdu 610031, China) Abstract: With the heterogeneous coordinate task of unmanned aerial vehicles (UAVs) and unmanned ground vehicle (UGVs) as the background to this study, a novel air-ground heterogeneous coverage model for a coordinated multi-agent is proposed by the complementation between UAV and UGV heterogeneity, in order to extend and improve the dynamic coverage of a heterogeneous multi-agent system. During the coverage process, the advantages of mobility and the observation scope of the UAV were used in order to guide the actions of the UGV. Moreover, in view of the partial agent observability and uncertainty, decentralized and partially observable Markov decision processes (DEC-POMDPs) were applied as the model in order to establish the coverage environment. Additionally, the reinforced learning algorithm of multi-agents was utilized in order to complete the coverage of the environment. The simulation results revealed that the coverage process was accelerated by the cooperation of the UAV and UGV. Additionally, the reinforced learning algorithm also improved the effectiveness of the coverage model. Keywords: heterogeneous multi-agent system; coverage; air-ground; UAV/UGV; DEC-POMDPs; reinforced learning 近年来,多智能体覆盖问题得到了越来越多的 关注[1] ,并作为多智能体协调控制的一个重要研究 方向,有着重要的理论和应用价值,在服务保障、工 业制造、军事侦察、安全保卫、灾后搜救、星球探 索、资源勘察等方面都有着广阔的应用前景[2] ,其 主要研究包括路径规划、动态避障、任务分配等方 面 [3-4]。 对于一个多智能体系统,智能体的异构特性可 以更大地发挥多智能体的优势,更好地完成协作任 务 [5]。目前,大多数的覆盖研究都基于智能体为同 收稿日期:2016−09−21. 网络出版日期:2017−06−26. 基金项目:国家自然科学基金青年基金项目 (61304166). 通信作者:张文旭. E-mail: wenxu_zhang@163.com. 第 13 卷第 2 期 智 能 系 统 学 报 Vol.13 No.2 2018 年 4 月 CAAI Transactions on Intelligent Systems Apr. 2018
第2期 张文旭,等:强化学习的地-空异构多智能体协作覆盖研究 ·203· 构的假设前提,而异构多智能体与覆盖问题的结合 盖执行者,UAV则作为引导者。利用UAV观测范 相对薄弱,比如,文献「6]在一阶动态异构覆盖问题 围广和移动速度快的优势对UGV的覆盖行动进行 中,考虑不同的速度对应不同的控制输入,设计了 指导,以扩大UGV的观测视野和提高团队对位置 种分布式覆盖控制策略;文献[7☑研究了非凸环境 环境的获取准确性,UGV不断移动直到栅格被覆盖 下的覆盖问题,提出了一种梯度环境分割算法;文 到指定的程度。智能体的路径以栅格序号进行表 献[8]在异构无线传感器网络中研究了覆盖与消耗 示,便于算法中地图信息和智能体状态的更新。 的控制算法;文献[9]介绍了一种基于加权Voronoi 1.2分布式马尔可夫模型 图的异构机器人覆盖框架,根据异构覆盖代价进行 分布式控制是多智能体系统的一个重要特性, 加权,实现代价最小的覆盖任务。针对异构多智能 由于智能体携带的传感器存在精度误差,且覆盖环 体的覆盖问题,目前多智能体的异构性多体现在传 境复杂多变,智能体的局部观测性和环境的不确定 感器的异构上,即感知范围的不同,少有研究从智 性将难以避免。针对以上问题,考虑采用分布式 能体运动方式的异构性上进行考虑。另一方面,无 局部可观测马尔可夫模型(DEC-POMDPs)),其由 人机(unmanned aerial vehicle,UAV)和无人车(un- 一个八元组构成: manned ground vehicle,.UGV)的异构特性协作是多 ,S,{4l,P{2l,O,R,b)》 (1) 智能体的前沿性研究课题,它们在速度、负载、通 式中:1表示有限的智能体集合;S表示一个有限的 信、观测能力等方面具有很强的互补性,二者协作 系统状态集合;{A}表示智能体可采取的动作的集 可以有效拓宽应用范围,其应用价值受到了世界各 合;P表示系统的转移;{2}表示智能体i的观测集 国学者的广泛关注,现有的工作主要集中在路径 合;O表示观测函数;R表示回报函数;b为初始状态 规划、搜索定位、跟踪追逃等方面,比如,文献[12]提 分布。求解DEC-POMDPs的目的是找到一个联合 出了一种UAV和UGV的合作导航策略,利用UAV 策略元=(π1,π2,,πn)使回报函数R最大化。 的大视野特性引导UGV避障;文献[13]研究了多 1.3Q学习 UAV和UGV的合作监控,通过二者的观测数据融 文献[14]提出了一类通过引入期望的延时回 合完成对目标的侦查;文献[14]基于UAV和UGV 报,求解无完全信息的马尔可夫决策过程的方法, 的合作框架研究了人群跟踪的决策和监控。但是, 针对UAV和UGV互补特性的协作覆盖问题尚未 称为Q-学习(Q-learning)。Q-学习是一种与模型无 得到研究。 关的基于瞬时策略的强化学习方法,通过对状态-动 本文提出了一种地-空异构多智能体的协作覆 作对的值函数进行估计,以求得最优策略。Q学习 盖模型,针对未知环境下的动态覆盖问题,依靠 算法的基本形式如下: UAV机动性能与观测范围的优势,在覆盖过程中 2s,a)=k0+y∑rPa)maxg'6,a0(②) 对UGV的动作进行指导,同时考虑了智能体的观 式中:Q(s,a)表示智能体在状态s下采用动作a所获 测局部性和不确定性,基于分布式局部可观测马尔 得的奖赏折扣总和,y为折扣因子,P(s,a,s)表示概 可夫(DEC-POMDPs)模型建立栅格地图覆盖环境, 率函数。对于一个动态覆盖问题而言,强化学习算 根据UAV和UGV的异构特性设计覆盖场景,并利 法的优势在于,智能体无需提前了解环境模型,它 用多智能体强化学习算法完成对地图的覆盖。 可以通过与环境的交互来获得状态信息,并通过反 馈的覆盖效果对所采取的行动进行评价,利用不断 1问题描述 的试错和选择,逐步改进和完善覆盖策略,达到覆 1.1多智能体覆盖问题 盖重复路径少、覆盖时间短等优化目标。 覆盖问题大体上可分为静态与动态覆盖两类, 2覆盖问题设计 静态覆盖主要关注传感器位置的优化,动态覆盖则 要求智能体群组遍历区域内所有兴趣点。动态覆盖 2.1异构多智能体设计 包含了导航与避障的研究内容,目的是利用移动机 对于异构多智能体系统,首先需要对单个智能 器人或固定传感器,在物理接触或传感器感知范围 体的特性进行分析。UGV能够装载大容量动力装 内遍历目标环境区域,并尽可能地满足时间短、重 置和大型精密仪器,具备较高的数据处理运算能 复路径少和未遍历区域小的优化目标四。 力,但移动速度慢,视野范围小,在障碍物密集的区 本文考虑带有观测不确定性的异构多智能体动 域,行动能力受到极大限制;相比之下,UAV具有较 态覆盖问题,以栅格地图为覆盖环境,UGV作为覆 高的移动速度和空间灵活性,移动过程中不需要考
构的假设前提,而异构多智能体与覆盖问题的结合 相对薄弱,比如,文献[6]在一阶动态异构覆盖问题 中,考虑不同的速度对应不同的控制输入,设计了 一种分布式覆盖控制策略;文献[7]研究了非凸环境 下的覆盖问题,提出了一种梯度环境分割算法;文 献[8]在异构无线传感器网络中研究了覆盖与消耗 的控制算法;文献[9]介绍了一种基于加权 Voronoi 图的异构机器人覆盖框架,根据异构覆盖代价进行 加权,实现代价最小的覆盖任务。针对异构多智能 体的覆盖问题,目前多智能体的异构性多体现在传 感器的异构上,即感知范围的不同,少有研究从智 能体运动方式的异构性上进行考虑。另一方面,无 人机 (unmanned aerial vehicle, UAV) 和无人车 (unmanned ground vehicle, UGV) 的异构特性协作是多 智能体的前沿性研究课题[10] ,它们在速度、负载、通 信、观测能力等方面具有很强的互补性,二者协作 可以有效拓宽应用范围, 其应用价值受到了世界各 国学者的广泛关注[11] ,现有的工作主要集中在路径 规划、搜索定位、跟踪追逃等方面,比如,文献[12]提 出了一种 UAV 和 UGV 的合作导航策略,利用 UAV 的大视野特性引导 UGV 避障;文献[13]研究了多 UAV 和 UGV 的合作监控,通过二者的观测数据融 合完成对目标的侦查;文献[14]基于 UAV 和 UGV 的合作框架研究了人群跟踪的决策和监控。但是, 针对 UAV 和 UGV 互补特性的协作覆盖问题尚未 得到研究。 本文提出了一种地–空异构多智能体的协作覆 盖模型,针对未知环境下的动态覆盖问题,依靠 UAV 机动性能与观测范围的优势,在覆盖过程中 对 UGV 的动作进行指导,同时考虑了智能体的观 测局部性和不确定性,基于分布式局部可观测马尔 可夫 (DEC-POMDPs) 模型建立栅格地图覆盖环境, 根据 UAV 和 UGV 的异构特性设计覆盖场景,并利 用多智能体强化学习算法完成对地图的覆盖。 1 问题描述 1.1 多智能体覆盖问题 覆盖问题大体上可分为静态与动态覆盖两类, 静态覆盖主要关注传感器位置的优化,动态覆盖则 要求智能体群组遍历区域内所有兴趣点。动态覆盖 包含了导航与避障的研究内容,目的是利用移动机 器人或固定传感器,在物理接触或传感器感知范围 内遍历目标环境区域,并尽可能地满足时间短、重 复路径少和未遍历区域小的优化目标[2]。 本文考虑带有观测不确定性的异构多智能体动 态覆盖问题,以栅格地图为覆盖环境,UGV 作为覆 盖执行者,UAV 则作为引导者。利用 UAV 观测范 围广和移动速度快的优势对 UGV 的覆盖行动进行 指导,以扩大 UGV 的观测视野和提高团队对位置 环境的获取准确性,UGV 不断移动直到栅格被覆盖 到指定的程度。智能体的路径以栅格序号进行表 示,便于算法中地图信息和智能体状态的更新。 1.2 分布式马尔可夫模型 分布式控制是多智能体系统的一个重要特性, 由于智能体携带的传感器存在精度误差,且覆盖环 境复杂多变,智能体的局部观测性和环境的不确定 性将难以避免[12]。针对以上问题,考虑采用分布式 局部可观测马尔可夫模型 (DEC-POMDPs)[13] ,其由 一个八元组构成: ⟨ I,S,{Ai},P,{Ωi},O,R,b 0 ⟩ (1) I S {Ai} i P {Ωi} i O R b 0 ⃗π = (π1, π2,···, πn) R 式中: 表示有限的智能体集合; 表示一个有限的 系统状态集合; 表示智能体 可采取的动作的集 合; 表示系统的转移; 表示智能体 的观测集 合; 表示观测函数; 表示回报函数; 为初始状态 分布。求解 DEC-POMDPs 的目的是找到一个联合 策略 使回报函数 最大化。 1.3 Q 学习 文献[14]提出了一类通过引入期望的延时回 报,求解无完全信息的马尔可夫决策过程的方法, 称为 Q-学习 (Q-learning)。Q-学习是一种与模型无 关的基于瞬时策略的强化学习方法,通过对状态–动 作对的值函数进行估计,以求得最优策略。Q-学习 算法的基本形式如下: Q ∗ (s,a) = R(s,a)+γ ∑ s ′∈S P(s,a,s ′ )maxQ ∗ (s ′ ,a ′ ) (2) Q ∗ (s,a) s a γ P(s,a,s ′ ) 式中: 表示智能体在状态 下采用动作 所获 得的奖赏折扣总和, 为折扣因子, 表示概 率函数。对于一个动态覆盖问题而言,强化学习算 法的优势在于,智能体无需提前了解环境模型,它 可以通过与环境的交互来获得状态信息,并通过反 馈的覆盖效果对所采取的行动进行评价,利用不断 的试错和选择,逐步改进和完善覆盖策略,达到覆 盖重复路径少、覆盖时间短等优化目标。 2 覆盖问题设计 2.1 异构多智能体设计 对于异构多智能体系统,首先需要对单个智能 体的特性进行分析。UGV 能够装载大容量动力装 置和大型精密仪器,具备较高的数据处理运算能 力,但移动速度慢,视野范围小,在障碍物密集的区 域,行动能力受到极大限制;相比之下,UAV 具有较 高的移动速度和空间灵活性,移动过程中不需要考 第 2 期 张文旭,等:强化学习的地–空异构多智能体协作覆盖研究 ·203·
·204· 智能系统学报 第13卷 虑地面复杂的障碍环境,然而它的实时运算能力、 env,(f)、自身的位置信息pos.(d)以及根据通信获得的 负载能力和电量荷载受到较大限制。 其他UGV位置信息pos,(),设定UGV无法观测到 根据UGV和UAV的上述特性,在地-空异构 UAV的位置;对于UAV而言,观测集合2(0= 多智能体覆盖问题中,如图1所示,UAV以五角星 {env3(t),pos,(t),pos,(t),pos(d)},,依次描述r时刻 表示,定义UAV采取类似于摄像头抽象环境扫描 UAV自身对环境的观测、各个UGV的相对位置 算法,在环境中的观测范围为一个扫描半径为2个 (当UGV处于UAV传感范围时)、UAV自身的位 栅格的圆形区域,如虚线区域所示,其中12个阴影 置。在环境观测矩阵env:(①中,包含智能体观测范 栅格为UAV的观测,并据此获得相关观测矩阵。 围内n个点的环境观测信息集合j0={81,82,83,84}, 其中81表示尚未访问的栅格,s2表示已经访问的栅 10 格,s表示障碍物栅格,E4表示UGV。智能体的传感 器感应范围内出现其他UGV时,能根据该UGV对 环境的状态感知获取其相对位置,对于一辆UGV 而言,其观测范围内的其他UGV,作为障碍物进行 考虑。 O为观测概率函数:体现了智能体观测的不确 定性,O(as,a)表示智能体执行a后转移到状态s时获 2 3 45678910 得观测的概率。智能体从所处环境中获取观测信 息可以用概率矩阵进行表示,假设栅格地图上观测 图1 UAV and UGV的异构观测 点的观测函数相同,定义其观测-状态概率分布函数 Fig.1 The heterogeneous observation of UAV and UGV 如表1所示。 UAV获得的观测信息不仅用于决策UAV的 表1观测状态概率分布函数 下一步移动动作,还需要向UGV提供额外的地图 Table 1 The probability distribution function of observa- 环境信息。其次,考虑到UAV的速度异构特性,定 tion-state 义其移动速度为每步2个栅格,图中箭头表示智能 概率分布 S1 S2 S3 体的移动方向。UGV以圆圈表示,不同于UAV具 0.9 0.1 0 备广阔的高空视野,UGV的观测范围较小,定义其 $ 0.1 0.8 0.1 E3 0 0.1 0.9 观测为前、后、左、右4个栅格,即周围的阴影栅格, 设定移动速度为每步1个栅格。UGV的优势在于 O(sls1,a)=0.9表示在执行a后,到达真实状态 对环境信息的测量精度要高于UAV。 s1时,s1为s1的观测概率为0.9。 2.2覆盖场景设计 A;为动作集合:表示第个智能体的动作。对于 定义1基于DEC-POMDPs的覆盖环境需要 UGV和UAV,时刻可能产生的动作为A()={up, 体现出多智能体的异构性、分布式和不确定性,其 down.left.right 组成类似于式(1),可以抽象为一个8元组 R为回报函数:表示环境对智能体的行动给出 (L,S,{4}P,{2},O,R,b)结构,其中: 的评价。对于UGV,执行一次行动后存在着“没走 I为智能体数量集合:1=1,2,3},异构多智能体 过”、“走过”和“障碍物”3个状态,分别对应着30、-5 系统包含3个智能体,其中编号为1和2的智能体 和-10的回报值,栅格的边界作为障碍物考虑。在 为UGV,编号为3的智能体是UAV, 覆盖问题中,UAV对UGV的观测起指导作用,所 S为状态矩阵:用来描述整张地图上各栅格被 以UAV的回报由两部分组成,第1部分为UAV自 访问的情况,即各智能体自身的状态,状态集合为 身的回报,和UGV的回报定义相同,第2部分为 S:J×L。其中J表示地图被覆盖的情况,地图上每 UGV反馈的回报,其定义为 个栅格的状态信息又可表示为尚未访问状态51、已 RUaw=H~RUaw+I-W·∑RGN (3) 访问状态2、障碍物状态533类情况。L包含第i个智 式中:为权重系数,当UAV的观测范围里没有UGV 能体在地图上的位置P。 时μ=1o 2,为观测集合:表示第个智能体的观测集合。 b为初始信念状态:智能体根据初始信念状态 对UGV而言,2(0={env:(0,pos,(),posj(t)l,ie[1,2, 和初始Q值函数获取当前应选择的动作向量。其 依次描述t时刻第i个UGV的自身局部观测信息 更新公式为
虑地面复杂的障碍环境,然而它的实时运算能力、 负载能力和电量荷载受到较大限制。 根据 UGV 和 UAV 的上述特性,在地–空异构 多智能体覆盖问题中,如图 1 所示,UAV 以五角星 表示,定义 UAV 采取类似于摄像头抽象环境扫描 算法,在环境中的观测范围为一个扫描半径为 2 个 栅格的圆形区域,如虚线区域所示,其中 12 个阴影 栅格为 UAV 的观测,并据此获得相关观测矩阵。 10 9 8 7 6 5 4 3 2 1 Y 1 2 3 4 5 6 7 8 9 10 X 图 1 UAV and UGV 的异构观测 Fig. 1 The heterogeneous observation of UAV and UGV UAV 获得的观测信息不仅用于决策 UAV 的 下一步移动动作,还需要向 UGV 提供额外的地图 环境信息。其次,考虑到 UAV 的速度异构特性,定 义其移动速度为每步 2 个栅格,图中箭头表示智能 体的移动方向。UGV 以圆圈表示,不同于 UAV 具 备广阔的高空视野,UGV 的观测范围较小,定义其 观测为前、后、左、右 4 个栅格,即周围的阴影栅格, 设定移动速度为每步 1 个栅格。UGV 的优势在于 对环境信息的测量精度要高于 UAV。 2.2 覆盖场景设计 ⟨ I,S,{Ai},P,{Ωi},O,R,b 0 ⟩ 定义 1 基于 DEC-POMDPs 的覆盖环境需要 体现出多智能体的异构性、分布式和不确定性,其 组成类似于 式 (1) ,可以抽象为一 个 8 元 组 结构,其中: I 为智能体数量集合: I = {1,2,3} ,异构多智能体 系统包含 3 个智能体,其中编号为 1 和 2 的智能体 为 UGV,编号为 3 的智能体是 UAV。 S S : J × L J s1 s2 s3 L i Pi 为状态矩阵:用来描述整张地图上各栅格被 访问的情况,即各智能体自身的状态,状态集合为 。其中 表示地图被覆盖的情况,地图上每 个栅格的状态信息又可表示为尚未访问状态 、已 访问状态 、障碍物状态 3 类情况。 包含第 个智 能体在地图上的位置 。 Ωi i Ωi(t) = { envi(t),posi(t),posj(t) } i ∈ [1,2] t i 为观测集合:表示第 个智能体的观测集合。 对 UGV 而言, , , 依次描述 时刻第 个 UGV 的自身局部观测信息 envi(t) posi (t) posj (t) Ω3 (t) = { env3 (t),pos1 (t),pos2 (t),pos3 (t) } t envi(t) n j(t) = {ε1,ε2,ε3,ε4} ε1 ε2 ε3 ε4 、自身的位置信息 以及根据通信获得的 其他 UGV 位置信息 ,设定 UGV 无法观测到 UAV 的位置;对于 UAV 而言,观测集合 ,依次描述 时 刻 UAV 自身对环境的观测、各个 UGV 的相对位置 (当 UGV 处于 UAV 传感范围时)、UAV 自身的位 置。在环境观测矩阵 中,包含智能体观测范 围内 个点的环境观测信息集合 , 其中 表示尚未访问的栅格, 表示已经访问的栅 格, 表示障碍物栅格, 表示 UGV。智能体的传感 器感应范围内出现其他 UGV 时,能根据该 UGV 对 环境的状态感知获取其相对位置,对于一辆 UGV 而言,其观测范围内的其他 UGV,作为障碍物进行 考虑。 O O(o|s,a) a s o 为观测概率函数:体现了智能体观测的不确 定性, 表示智能体执行 后转移到状态 时获 得观测 的概率。智能体从所处环境中获取观测信 息可以用概率矩阵进行表示,假设栅格地图上观测 点的观测函数相同,定义其观测–状态概率分布函数 如表 1 所示。 表 1 观测-状态概率分布函数 Table 1 The probability distribution function of observation-state 概率分布 s1 s2 s3 ε1 0.9 0.1 0 ε2 0.1 0.8 0.1 ε3 0 0.1 0.9 O(s1|ε1,a) = 0.9 a s1 s1 ε1 表示在执行 后,到达真实状态 时, 为 的观测概率为 0.9。 Ai i t Ai(t) = {up, down,left,right} 为动作集合:表示第 个智能体的动作。对于 UGV 和 UAV, 时刻可能产生的动作为 。 R 为回报函数:表示环境对智能体的行动给出 的评价。对于 UGV,执行一次行动后存在着“没走 过”、“走过”和“障碍物”3 个状态,分别对应着 30、–5 和–10 的回报值,栅格的边界作为障碍物考虑。在 覆盖问题中,UAV 对 UGV 的观测起指导作用,所 以 UAV 的回报由两部分组成,第 1 部分为 UAV 自 身的回报,和 UGV 的回报定义相同,第 2 部分为 UGV 反馈的回报,其定义为 RUAV = µ ·RUAV +(1−µ)· ∑ RUGV (3) µ µ = 1 式中: 为权重系数,当 UAV 的观测范围里没有 UGV 时 。 b 0为初始信念状态:智能体根据初始信念状态 和初始 Q 值函数获取当前应选择的动作向量。其 更新公式为 ·204· 智 能 系 统 学 报 第 13 卷
第2期 张文旭,等:强化学习的地-空异构多智能体协作覆盖研究 ·205· b(s(t+1))=O(sils,a) b(s(t)P(s(t+1)s(),ad)(4) 开始 UGV获取局部观测 3基于强化学习的覆盖算法 是否接收到 3.1异构多智能体学习决策 UAV的信息 在覆盖场景中,我们将UGV设定为任务执行 获取联合观测 者,负责访问地图上尚未被探索的栅格,而将UAV 1策略倾向 更新信念状态 将策略倾扩 设定为作团队中的督导者,通过通信向UGV提供 充进联合观测 更广阔的视野信息,配合UGV建立更精确的信念 选择策略并执行 更新信念状态 状态,实现更高效的覆盖。 选择联合 考虑到智能体的结构异构性和局部观测性,假 获取环境反馈 同步 策略并热行■ 更新 设UAV可以向观测范围内的UGV进行单向通信, 获取环境反馈 并发送UAV的观测信息,而UGV之间不能进行通 更新对应Q值表 更新对应Q值表 信。UAV的强化学习一步策略更新的流程如图2 所示。 POMDP模型 DEC-POMDP模型 结束 (开始 图3异构多智能体强化学习框架 UAV获取观测 Fig.3 The frame of reinforcement learning of heterogen- eous multi-agent 更新信念状态 当智能体团队执行联合行动,并获取联合观测 N Y 是否与UGV通信≥ 2or后,也获得相应的局部观测2e信息,此时从 获取联合观测 POMDP对应的Q值表中获取局部观测2c对应的 动作a,并将其作为策略倾向在联合观测中扩充观 选择策略并执行 更新信念状态 测矩阵。另外,在智能体获取环境反馈后,更新DEC 选择联合策略并执行 POMDPs模型相应的Q值表的同时,由于2oeal∈2oiat, 根据环境反锁更新Q值表 限据环境反窗更新Q值表 同步更新POMDP模型Q值表中与2a对应的键 值。当UAV和UGV的观测范围出现重叠时,考虑 结束 到智能体观测精度的异构特性,栅格地图的联合观 图2UAV强化学习一步策略更新流程 测状态为Ooi=B.Ouw+(1-)·Ocv,其中,B为权 Fig.2 The one-step strategy update flow of reinforcement 重系数。 learning of UAV 3.2基于强化学习的覆盖算法 UGV获得的观测能够被分为两类:1)根据智能 解决强化学习问题主要是找到一个策略使智能 体自身传感器获得的局部观测信息2;2)依赖通 体团队最终达到最大的奖励信号。如果在所有状态 信行为获得的UAV的观测信息2a,则联合观测 下,策略π都大于或等于策略π的期望回报值,那么 表示为2oiat={2oeal,2berU0O},2 ca∈2 jont 称这个策略为最优策略,记作π。而最优策略对应 由于局部观测性的存在,UGV不一定在所有时 的状态-联合动作对(s,α)也有相同的最优值函数,记 刻都能获得UAV的观测信息,本文用类似文献[15] 作Q。在POMDP模型下,智能体在s状态下执行 行动a获得的Q值为 所提通讯受限的多智能体在线规划算法的思想,将 Q(s(),a)=R(s(t),a)+ 学习过程分为可以通信与不能通信两种情况。在 P(s(t+1)s(t),a)o(ols (1+1),a)v(s(t+1),a) DEC-POMDPs模型中嵌入多个局部可观察马尔可 (5) 夫决策过程(partially observable Markov decision Q学习更新公式为 processes,.POMDP)模型作为辅助学习单元,在 Q(s(t),a=(1-a)2(s(t),a))+ POMDP模型中使用最大似然算法,如表1所示,并 a R(s(t),a)+max(Q,(s(t+1),a)] (6) 将局部状态近似看作全局状态。当执行策略更新 DEC-POMDPs与POMDP的唯一区别在于智 时,依照观测来源将观测划分为局部观测2和联 能体的数量由单个变为多个,其Q-学习迭代表达式 合观测2两类,强化学习框架如图3所示。 与POMDP类似,智能体的行动由单独行动a变为联
b t (s(t+1)) = O(s1|ε,a) ∑ s∈S b t (s(t))P(s(t+1)|s(t),a) (4) 3 基于强化学习的覆盖算法 3.1 异构多智能体学习决策 在覆盖场景中,我们将 UGV 设定为任务执行 者,负责访问地图上尚未被探索的栅格,而将 UAV 设定为作团队中的督导者,通过通信向 UGV 提供 更广阔的视野信息,配合 UGV 建立更精确的信念 状态,实现更高效的覆盖。 考虑到智能体的结构异构性和局部观测性,假 设 UAV 可以向观测范围内的 UGV 进行单向通信, 并发送 UAV 的观测信息,而 UGV 之间不能进行通 信。UAV 的强化学习一步策略更新的流程如图 2 所示。 UAV㧧ਆ㿲⍻ ᴤᯠؑᘥ⣦ᘱ 㧧ਆ㚄ਸ㿲⍻ ᴤᯠؑᘥ⣦ᘱ 䘹ᤙ㚄ਸㆆ⮕ᒦᢗ㹼 䘹ᤙㆆ⮕ᒦᢗ㹼 N Y ᔰ 㔃ᶏ ᱟоUGV䙊ؑ ṩᦞ⧟ຳ৽侸ᴤᯠQ٬㺘 ṩᦞ⧟ຳ৽侸ᴤᯠQ٬㺘 图 2 UAV 强化学习一步策略更新流程 Fig. 2 The one-step strategy update flow of reinforcement learning of UAV Ωlocal Ωother Ωjoint = {Ωlocal,Ωother∪ Ωlocal ∈ Ωjoint UGV 获得的观测能够被分为两类:1) 根据智能 体自身传感器获得的局部观测信息 ;2) 依赖通 信行为获得的 UAV 的观测信息 ,则联合观测 表示为 Ø}, 。 Ωlocal Ωjoint 由于局部观测性的存在,UGV 不一定在所有时 刻都能获得 UAV 的观测信息,本文用类似文献[15] 所提通讯受限的多智能体在线规划算法的思想,将 学习过程分为可以通信与不能通信两种情况。在 DEC-POMDPs 模型中嵌入多个局部可观察马尔可 夫决策过程 (partially observable Markov decision processes, POMDP) 模型作为辅助学习单元,在 POMDP 模型中使用最大似然算法,如表 1 所示,并 将局部状态近似看作全局状态。当执行策略更新 时,依照观测来源将观测划分为局部观测 和联 合观测 两类,强化学习框架如图 3 所示。 ᰠԍᔡ⟢ᔭ N Y ᐬ UGV㣣ंᅬ䘔㻮≷ ᭛॒ᣑᩢݜ UAV⮰ԍᖛ 㣣ं㖀ऴ㻮≷ ᄲも⪑ժऽផ ≶䔇㖀ऴ㻮ٱ ᰠԍᔡ⟢ᔭ 䔵᠕㖀ऴ も⪑Ꭲន㵸 ᰠᄥᏀQը㶔 㣣ं⣛දࣹ亴 सₑ ᰠ も⪑ժऽ ㏿ POMDPὍಷ DEC−POMDPὍಷ ᰠᄥᏀQը㶔 㣣ं⣛දࣹ亴 䔵᠕も⪑Ꭲន㵸 图 3 异构多智能体强化学习框架 Fig. 3 The frame of reinforcement learning of heterogeneous multi-agent Ωjoint Ωlocal Ωlocal ak Ωlocal ∈Ωjoint Ωlocal Ojoint = β ·OUAV +(1−β)·OUGV β 当智能体团队执行联合行动,并获取联合观测 后,也获得相应的局部观测 信息,此时从 POMDP 对应的 Q 值表中获取局部观测 对应的 动作 , 并将其作为策略倾向在联合观测中扩充观 测矩阵。另外,在智能体获取环境反馈后,更新 DECPOMDPs 模型相应的 Q 值表的同时,由于 , 同步更新 POMDP 模型 Q 值表中与 对应的键 值。当 UAV 和 UGV 的观测范围出现重叠时,考虑 到智能体观测精度的异构特性,栅格地图的联合观 测状态为 ,其中, 为权 重系数。 3.2 基于强化学习的覆盖算法 π π ′ π ∗ (s, a) Q ∗ i s a 解决强化学习问题主要是找到一个策略使智能 体团队最终达到最大的奖励信号。如果在所有状态 下,策略 都大于或等于策略 的期望回报值,那么 称这个策略为最优策略,记作 。而最优策略对应 的状态–联合动作对 也有相同的最优值函数,记 作 。在 POMDP 模型下,智能体 在 状态下执行 行动 获得的 Q 值为 Qi(s(t),a) = R(s(t),a)+ ∑ s∈S ∑ o∈Ω P(s(t+1)|s(t),a)O(o|s (t+1),a)V (s(t+1),a) (5) Q 学习更新公式为 Qt (s(t),a) = (1−α)Qt (s(t),a)+ α [ R(s(t),a)+max a {Qt (s(t+1),a)} ] (6) a DEC-POMDPs 与 POMDP 的唯一区别在于智 能体的数量由单个变为多个,其 Q-学习迭代表达式 与 POMDP 类似,智能体的行动由单独行动 变为联 第 2 期 张文旭,等:强化学习的地–空异构多智能体协作覆盖研究 ·205·
·206· 智能系统学报 第13卷 合行动a: 图中实线表示一个UAV和两个UGV组成的异构 2,(s(),a)=(1-)Q,(s(t0),a)+ (7) 多智能体团队,虚线表示只有两个UGV组成的团 aR(s(t),a)+max(Q(s(t+1),a) 队。从图中可以看出,两种智能体团队对地图的覆 盖成功率都随着强化学习算法的迭代不断得到提 4仿真结果 高。但是,在存在UAV的团队中,因为UAV可以 仿真实验考虑一个20×20大小的栅格地图环 对UGV的覆盖行动进行指导,所以在经过700幕 境,如图4所示,最外围是地图边界,黑色区域表示 左右学习时,团队覆盖成功率就开始趋于稳定,而 障碍物,智能体的初始位置固定,五角星表示UAV, 只有UGV的团队,需要900幕左右的学习才开始趋 圆圈表示UGV。智能体团队的任务为尽可能多地 于稳定,因此体现出UAV与UGV协作覆盖的优势。 访问到所有栅格,即完成对格子世界的覆盖。当走 1.0 0.9 过的栅格超过95%以上时,认为此次覆盖任务成功: 0.8 当智能体在1500步仍不能完成95%的覆盖时,认 0.6 为此次任务失败。定义学习率为0.6,折扣因子为 g0.5 0.4 0.2,u=0.4,B=0.3。仿真实验在MATLAB2012b环 0.3 境下进行,并利用Mysql数据库存储Q值表。 0.2 一个UAV和两个UGV合作覆盖 0.1 -…两个UGV合作覆盖 0 2 3456 7891010 学习幕数 图6覆盖试验成功率 Fig.6 The success rate of coverage 最后,在地图左上角设置了一个影响整体覆盖 效果的“陷阱”区域,用以进一步的验证在强化学习 过程中,UAV对UGV的引导效果。陷阱区域如图4 中虚线圈区域所示,为边界与障碍物所夹的6个栅 格,访问此区域的回报R=0.3,低于访问其他空旷区 1234567891011121314151617181920 域的回报。当覆盖率达到95%时,认为本次覆盖任 务成功,但陷阱区域属于不应该访问的5%部分,每 图4多智能体覆盖环境 幕覆盖实验结束后,记录陷阱区域被访问的次数, Fig.4 The coverage environment of multi-agent 执行1000幕覆盖实验后的学习效果如图5所 每20个学习幕进行一次采样。 图7对比了UAV加入覆盖任务时对陷阱区域 示,可以看出随着学习幕数的增加,经过700幕左 右学习后,智能体团队完成地图覆盖所需步数逐渐 的访问效果,由图中可以看出,两种智能体团队对 收敛到较稳定的值,其中虚线为覆盖步数拟合曲 陷阱区的访问次数,都将随着学习幕数的增加而逐 线,图中覆盖步数存在的毛刺原因为智能体的观测 渐减少,最终将不再访问陷阱区,体现了强化学习 带有不确定性,当观测信息出现错误时,可能使智 算法对于覆盖问题的有效性。但是,在只有两个 能体当前学习幕的覆盖完成步数出现波动。 UGV组成的团队进行覆盖任务时,由于UGV的观 测范围较小,团队需要更多的学习幕数后,才能减 ×10P 少对陷阱区域的访问。 70 一个UAV和两个UGV合作覆盖 60象 两个UGV合作覆盖 50 40 5 30 23 4567890x10 10 学习幕数 200 400600 800 1000 图5异构多智能体覆盖完成步数 学习幕数 Fig.5 The coverage steps of heterogeneous multi-agent 图7陷阱区域访问次数统计 图6对比了UAV加入任务时的覆盖成功率, Fig.7 The count of visits to the trap
合行动 a: Qt (s(t), a) = (1−α)Qt (s(t), a)+ α [ R(s(t), a)+max a {Qt (s(t+1), a)} ] (7) 4 仿真结果 20×20 µ=0.4 β=0.3 仿真实验考虑一个 大小的栅格地图环 境,如图 4 所示,最外围是地图边界,黑色区域表示 障碍物,智能体的初始位置固定,五角星表示 UAV, 圆圈表示 UGV。智能体团队的任务为尽可能多地 访问到所有栅格,即完成对格子世界的覆盖。当走 过的栅格超过 95% 以上时,认为此次覆盖任务成功; 当智能体在 1 500 步仍不能完成 95% 的覆盖时,认 为此次任务失败。定义学习率为 0.6,折扣因子为 0.2, , 。仿真实验在 MATLAB 2012b 环 境下进行,并利用 Mysql 数据库存储 Q 值表。 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 Y 1 2 3 4 5 6 7 8 9 1011121314151617181920 图 4 多智能体覆盖环境 Fig. 4 The coverage environment of multi-agent 执行 1 000 幕覆盖实验后的学习效果如图 5 所 示,可以看出随着学习幕数的增加,经过 700 幕左 右学习后,智能体团队完成地图覆盖所需步数逐渐 收敛到较稳定的值,其中虚线为覆盖步数拟合曲 线,图中覆盖步数存在的毛刺原因为智能体的观测 带有不确定性,当观测信息出现错误时,可能使智 能体当前学习幕的覆盖完成步数出现波动。 0 1 2 3 4 5 6 7 8 9 10 5 10 15 ႒Όᎁ Ⴘ㺲Ⰲᝬ䰬ₑ ×102 ×102 图 5 异构多智能体覆盖完成步数 Fig. 5 The coverage steps of heterogeneous multi-agent 图 6 对比了 UAV 加入任务时的覆盖成功率, 图中实线表示一个 UAV 和两个 UGV 组成的异构 多智能体团队,虚线表示只有两个 UGV 组成的团 队。从图中可以看出,两种智能体团队对地图的覆 盖成功率都随着强化学习算法的迭代不断得到提 高。但是,在存在 UAV 的团队中,因为 UAV 可以 对 UGV 的覆盖行动进行指导,所以在经过 700 幕 左右学习时,团队覆盖成功率就开始趋于稳定,而 只有 UGV 的团队,需要 900 幕左右的学习才开始趋 于稳定,因此体现出 UAV 与 UGV 协作覆盖的优势。 0 1 2 3 4 5 6 7 8 9 10 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 ႒Όᎁ 㺲Ⰲߋ⢳ ̬͖UAVস͖͐UGVऴ҈㺲Ⰲ ͖͐UGVऴ҈㺲Ⰲ ×102 图 6 覆盖试验成功率 Fig. 6 The success rate of coverage R = 0.3 最后,在地图左上角设置了一个影响整体覆盖 效果的“陷阱”区域,用以进一步的验证在强化学习 过程中,UAV 对 UGV 的引导效果。陷阱区域如图 4 中虚线圈区域所示,为边界与障碍物所夹的 6 个栅 格,访问此区域的回报 ,低于访问其他空旷区 域的回报。当覆盖率达到 95% 时,认为本次覆盖任 务成功,但陷阱区域属于不应该访问的 5% 部分,每 幕覆盖实验结束后,记录陷阱区域被访问的次数, 每 20 个学习幕进行一次采样。 图 7 对比了 UAV 加入覆盖任务时对陷阱区域 的访问效果,由图中可以看出,两种智能体团队对 陷阱区的访问次数,都将随着学习幕数的增加而逐 渐减少,最终将不再访问陷阱区,体现了强化学习 算法对于覆盖问题的有效性。但是,在只有两个 UGV 组成的团队进行覆盖任务时,由于 UGV 的观 测范围较小,团队需要更多的学习幕数后,才能减 少对陷阱区域的访问。 0 200 400 600 800 1 000 10 20 30 40 50 60 70 ႒Όᎁ 䃫䬚䮣䭝ࡦഋ⮰⁍ ̬͖UAVস͖͐UGVऴ҈㺲Ⰲ ͖͐UGVऴ҈㺲Ⰲ 图 7 陷阱区域访问次数统计 Fig. 7 The count of visits to the trap ·206· 智 能 系 统 学 报 第 13 卷
第2期 张文旭,等:强化学习的地-空异构多智能体协作覆盖研究 ·207· 5结束语 UGV team:a collaborative strategy for navigation in par- tially-mapped environments[Cl//Proceedings of 22nd 本文探讨了异构多智能体与动态覆盖问题的结 Mediterranean Conference of Control and Automation 合,以UAV和UGV的异构协作任务为背景,提出 Palermo,Italy,2014:1153-1158. [13]GROCHOLSKY B,KELLER J,KUMAR V,et al.Cooper- 了一种地-空异构多智能体协作覆盖模型。根据 ative air and ground surveillance[J].IEEE robotics and UAV和UGV的异构特性,设计了UAV和UGV互 automation magazine,2006,13(3):16-25. 补的覆盖观测方法,同时考虑到智能体观测的局部 [14]KHALEGHI A M,XU Dong,WANG Zhenrui,et al.A 性和不确定性,以DEC-POMDPs为模型建立覆盖 DDDAMS-based planning and control framework for sur- 场景,并利用多智能体强化学习算法完成了对环境 veillance and crowd control via UAVs and UGVs[J].Ex- pert systems with applications,2013,40(18):7168-7183. 的覆盖。进一步工作主要包括:1)在强化学习动作 [15】马磊,张文旭,戴朝华.多机器人系统强化学习研究综述 选择中考虑UAV和UGA的动力学模型;2)在UAV [).西南交通大学学报,2014,496):1032-1044 与UGV的互补特性中考虑分布式系统的信息融合 MA Lei,ZHANG Wenxu,DAI Chaohua.A review of de- 问题,以提高学习收敛速度。 velopments in reinforcement learning for multi-robot sys- tems[J].Journal of southwest Jiaotong university,2014, 参考文献: 496):1032-1044. [16]PUTERMAN M L.Markov decision processes:discrete [1]KANTAROS Y,ZAVLANOS MM.Distributed commu- stochastic dynamic programming[M].New York:John nication-aware coverage control by mobile sensor networks Wiley and Sons,1994. [J.Automatica.2016,63:209-220 [17]WATKINS C J C H,DAYAN P.Q-learning[J].Machine [2]蔡自兴,崔益安.多机器人覆盖技术研究进展).控制与 learning,1992,8(3/4):279-292. 决策,2008,23(5):481-486,491 [18]WU Feng,ZILBERSTEIN S,CHEN Xiaoping.Online CAI Zixing,CUI Yi'an.Survey of multi-robot coverage[J]. planning for multi-agent systems with bounded communic- Control and decision.2008.23(5):481-486.491 ation[J].Artificial intelligence,2011,175(2):487-511. [3]MAHBOUBI H,MOEZZI K,AGHDAM A G,et al.Dis- 作者简介: tributed deployment algorithms for improved coverage in a network of wireless mobile sensors[J].IEEE transactions on 张文旭,男,1985年生,博士研究 industrial informatics,2014,10(1):163-174. 生,主要研究方向为多智能体系统、机 [4]TAO Dan,WU T Y.A survey on barrier coverage problem 器学习,发表学术论文4篇,其中被 in directional sensor networks[J].IEEE sensors journal, EI检索4篇。 2015,15(2):876-885 [5]TIAN Yuping,ZHANG Ya.High-order consensus of het- erogeneous multi-agent systems with unknown communica- tion delays[J].Automatica,2012,48(6):1205-1212. [6]SONG Cheng,LIU Lu,FENG Gang,et al.Coverage con- 马磊,男,1972年生,教授,博士, trol for heterogeneous mobile sensor networks on a circle[J]. 主要研究方向为控制理论及其在机器 Automatica,2016,63:349-358. 人、新能源和轨道交通系统中的应用 7]KANTAROS Y,THANOU M,TZES A.Distributed cover- 等,主持国内外项目14项,发表学术 age control for concave areas by a heterogeneous robot- 论文40余篇,其中被EI检索37篇。 swarm with visibility sensing constraints[J].Automatica, 2015,53:195-207. [8]WANG Xinbing,HAN Sihui,WU Yibo,et al.Coverage and energy consumption control in mobile heterogeneous wire- 贺荟霖,女,1993年生,硕士研究 less sensor networks[J].IEEE transactions on automatic 生,主要研究方向为机器学习。 control,2013.58(4):975-988 9]SHARIFI F,CHAMSEDDINE A.MAHBOUBI H,et al.A distributed deployment strategy for a network of cooperat- ive autonomous vehicles[J].IEEE transactions on control systems technology,2015,23(2):737-745. [10]CHEN Jie,ZHANG Xing,XIN Bin,et al.Coordination between unmanned aerial and ground vehicles:a tax- onomy and optimization perspective[J].IEEE transactions 王晓东,男,1992年生,硕士研究 on cybernetics,2016,46(4):959-972 生,主要研究方向为机器学习,获得国 [11]ZHOU Yi,CHENG Nan,LU Ning,et al.Multi-UAV-aided 家发明型专利3项,发表学术论文 networks:aerial-ground cooperative vehicular networking 4篇。 architecture[J].IEEE vehicular technology magazine, 2015,10(4):36-44. [12]PAPACHRISTOS C,TZES A.The power-tethered UAV-
5 结束语 本文探讨了异构多智能体与动态覆盖问题的结 合,以 UAV 和 UGV 的异构协作任务为背景,提出 了一种地–空异构多智能体协作覆盖模型。根据 UAV 和 UGV 的异构特性,设计了 UAV 和 UGV 互 补的覆盖观测方法,同时考虑到智能体观测的局部 性和不确定性,以 DEC-POMDPs 为模型建立覆盖 场景,并利用多智能体强化学习算法完成了对环境 的覆盖。进一步工作主要包括:1) 在强化学习动作 选择中考虑 UAV 和 UGA 的动力学模型;2) 在 UAV 与 UGV 的互补特性中考虑分布式系统的信息融合 问题,以提高学习收敛速度。 参考文献: KANTAROS Y, ZAVLANOS M M. Distributed communication-aware coverage control by mobile sensor networks [J]. Automatica, 2016, 63: 209–220. [1] 蔡自兴, 崔益安. 多机器人覆盖技术研究进展[J]. 控制与 决策, 2008, 23(5): 481–486, 491. CAI Zixing, CUI Yi’an. Survey of multi-robot coverage[J]. Control and decision, 2008, 23(5): 481–486, 491. [2] MAHBOUBI H, MOEZZI K, AGHDAM A G, et al. Distributed deployment algorithms for improved coverage in a network of wireless mobile sensors[J]. IEEE transactions on industrial informatics, 2014, 10(1): 163–174. [3] TAO Dan, WU T Y. A survey on barrier coverage problem in directional sensor networks[J]. IEEE sensors journal, 2015, 15(2): 876–885. [4] TIAN Yuping, ZHANG Ya. High-order consensus of heterogeneous multi-agent systems with unknown communication delays[J]. Automatica, 2012, 48(6): 1205–1212. [5] SONG Cheng, LIU Lu, FENG Gang, et al. Coverage control for heterogeneous mobile sensor networks on a circle[J]. Automatica, 2016, 63: 349–358. [6] KANTAROS Y, THANOU M, TZES A. Distributed coverage control for concave areas by a heterogeneous robotswarm with visibility sensing constraints[J]. Automatica, 2015, 53: 195–207. [7] WANG Xinbing, HAN Sihui, WU Yibo, et al. Coverage and energy consumption control in mobile heterogeneous wireless sensor networks[J]. IEEE transactions on automatic control, 2013, 58(4): 975–988. [8] SHARIFI F, CHAMSEDDINE A, MAHBOUBI H, et al. A distributed deployment strategy for a network of cooperative autonomous vehicles[J]. IEEE transactions on control systems technology, 2015, 23(2): 737–745. [9] CHEN Jie, ZHANG Xing, XIN Bin, et al. Coordination between unmanned aerial and ground vehicles: a taxonomy and optimization perspective[J]. IEEE transactions on cybernetics, 2016, 46(4): 959–972. [10] ZHOU Yi, CHENG Nan, LU Ning, et al. Multi-UAV-aided networks: aerial-ground cooperative vehicular networking architecture[J]. IEEE vehicular technology magazine, 2015, 10(4): 36–44. [11] [12] PAPACHRISTOS C, TZES A. The power-tethered UAVUGV team: a collaborative strategy for navigation in partially-mapped environments[C]//Proceedings of 22nd Mediterranean Conference of Control and Automation. Palermo, Italy, 2014: 1153–1158. GROCHOLSKY B, KELLER J, KUMAR V, et al. Cooperative air and ground surveillance[J]. IEEE robotics and automation magazine, 2006, 13(3): 16–25. [13] KHALEGHI A M, XU Dong, WANG Zhenrui, et al. A DDDAMS-based planning and control framework for surveillance and crowd control via UAVs and UGVs[J]. Expert systems with applications, 2013, 40(18): 7168–7183. [14] 马磊, 张文旭, 戴朝华. 多机器人系统强化学习研究综述 [J]. 西南交通大学学报, 2014, 49(6): 1032–1044. MA Lei, ZHANG Wenxu, DAI Chaohua. A review of developments in reinforcement learning for multi-robot systems[J]. Journal of southwest Jiaotong university, 2014, 49(6): 1032–1044. [15] PUTERMAN M L. Markov decision processes: discrete stochastic dynamic programming[M]. New York: John Wiley and Sons, 1994. [16] WATKINS C J C H, DAYAN P. Q-learning[J]. Machine learning, 1992, 8(3/4): 279–292. [17] WU Feng, ZILBERSTEIN S, CHEN Xiaoping. Online planning for multi-agent systems with bounded communication[J]. Artificial intelligence, 2011, 175(2): 487–511. [18] 作者简介: 张文旭,男,1985 年生,博士研究 生,主要研究方向为多智能体系统、机 器学习,发表学术论文 4 篇,其中被 EI 检索 4 篇。 马磊,男,1972 年生,教授,博士, 主要研究方向为控制理论及其在机器 人、新能源和轨道交通系统中的应用 等,主持国内外项目 14 项,发表学术 论文 40 余篇,其中被 EI 检索 37 篇。 贺荟霖,女,1993 年生,硕士研究 生,主要研究方向为机器学习。 王晓东,男,1992 年生,硕士研究 生,主要研究方向为机器学习,获得国 家发明型专利 3 项,发表学术论文 4 篇。 第 2 期 张文旭,等:强化学习的地–空异构多智能体协作覆盖研究 ·207·