第15卷第2期 智能系统学报 Vol.15 No.2 2020年3月 CAAI Transactions on Intelligent Systems Mar.2020 D0:10.11992tis.201908023 网络出版地址:http:/kns.cnki.net/kcms/detail/23.1538.TP.20200319.2009.004html 面向环境探测的多智能体自组织目标搜索算法 吴莹莹,丁肇红',刘华平,赵怀林,孙富春 (1.上海应用技术大学电气与电子工程学院,上海201418,2.清华大学计算机科学与技术系,北京100084; 3.清华大学智能技术与系统国家重点实验室,北京100084) 摘要:针对在复杂非结构化环境下如何协调多个无人机发现静态或动态目标的问题,建立了自组织目标搜索 算法框架。结合磁探仪等效平均探测宽度模型,受昆虫协调方式和鸟群效应的生物机制启发,提出了基于仿生 集群算法的无人机集群分布式目标搜索模型:采用改进的自适应差分进化算法帮助无人机集群模型在环境中 平衡勘探和探索,实现无人机群体的协同搜索优化。该自组织目标搜索算法旨在以最短时间实现跟踪目标数 量的最大化。基于仿真平台的实验测试了该策略的性能,验证了算法对具有未知目标的非结构化复杂环境的 适用性。 关键词:自组织算法;目标搜索;差分进化:仿生集群;无人机;非结构化环境:鸟群效应;动态目标 中图分类号:TP242.6文献标志码:A 文章编号:1673-4785(2020)02-0289-07 中文引用格式:吴莹莹,丁肇红,刘华平,等.面向环境探测的多智能体自组织目标搜索算法.智能系统学报,2020,15(2): 289-295. 英文引用格式:WU Yingying,.DING Zhaohong,LIU Huaping,etal.Self-organizing target search algorithm of multi-agent system for envi-ronment detection[J].CAAI transactions on intelligent systems,2020,15(2):289-295. Self-organizing target search algorithm of multi-agent system for envi-ronment detection WU Yingying',DING Zhaohong',LIU Huaping2,ZHAO Huailin',SUN Fuchun2 (1.School of Electrical and Electronics Engineering,Shanghai Institute of Technology,Shanghai 201418,China;2.Department of Computer Science and Technology,Tsinghua University,Beijing 100084,China;3.State Key Laboratory of Intelligent Technology and Systems,Tsinghua University,Beijing 100084,China) Abstract:In this study,the framework of self-organizing target search algorithm was developed to coordinate un- manned aerial vehicle(UAV)swarm to find static and dynamic targets in a complex unstructured environment.First.the UAVs distributed target search model was developed from the biologically-inspired mechanisms called flocking and stigmergy,which incorporated the magnetic detector's equivalent average width feature.Secondly,an improved differ- ential evolution algorithm,which introduced adaptive operators,was proposed for the balancing of exploration and ex- ploitation in the multi-UAV collaborative search system and realizing optimization of UAV collaborative search.This self-organizing target search algorithm aims at optimizing the number of tracking targets in the shortest possible time. The target search strategy tested on the simulation framework validates the algorithm's adaptability for uncertain spatial targets in unstructured complex scenarios. Keywords:self-organizing algorithm;target search;differential evolution algorithm;multi-agent bionic algorithm;un- manned aerial vehicle;unstructured environment;flocking;dynamic target 随着火灾救援,海洋监测和地质勘查等活动 收稿日期:2019-08-20.网络出版日期:2020-03-20. 基金项目:国家自然科学基金项目(U1613212):上海市自然科 日益频繁,军事、工业和民用领域对广域复杂环 学基金项目(19ZR1455200):校级基金项目 境目标搜索提出了更多的应用需求。例如,相 (XTCX2018-10). 通信作者:刘华平.E-mail:hpliu(@tsinghua.edu.cn 比于陆地等任务环境,海域环境多样性更强,水
DOI: 10.11992/tis.201908023 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20200319.2009.004.html 面向环境探测的多智能体自组织目标搜索算法 吴莹莹1 ,丁肇红1 ,刘华平2,3,赵怀林1 ,孙富春2,3 (1. 上海应用技术大学 电气与电子工程学院,上海 201418; 2. 清华大学 计算机科学与技术系,北京 100084; 3. 清华大学 智能技术与系统国家重点实验室,北京 100084) 摘 要:针对在复杂非结构化环境下如何协调多个无人机发现静态或动态目标的问题,建立了自组织目标搜索 算法框架。结合磁探仪等效平均探测宽度模型,受昆虫协调方式和鸟群效应的生物机制启发,提出了基于仿生 集群算法的无人机集群分布式目标搜索模型;采用改进的自适应差分进化算法帮助无人机集群模型在环境中 平衡勘探和探索,实现无人机群体的协同搜索优化。该自组织目标搜索算法旨在以最短时间实现跟踪目标数 量的最大化。基于仿真平台的实验测试了该策略的性能,验证了算法对具有未知目标的非结构化复杂环境的 适用性。 关键词:自组织算法;目标搜索;差分进化;仿生集群;无人机;非结构化环境;鸟群效应;动态目标 中图分类号:TP242.6 文献标志码:A 文章编号:1673−4785(2020)02−0289−07 中文引用格式:吴莹莹, 丁肇红, 刘华平, 等. 面向环境探测的多智能体自组织目标搜索算法 [J]. 智能系统学报, 2020, 15(2): 289–295. 英文引用格式:WU Yingying, DING Zhaohong, LIU Huaping, et al. Self-organizing target search algorithm of multi-agent system for envi-ronment detection[J]. CAAI transactions on intelligent systems, 2020, 15(2): 289–295. Self-organizing target search algorithm of multi-agent system for envi-ronment detection WU Yingying1 ,DING Zhaohong1 ,LIU Huaping2,3 ,ZHAO Huailin1 ,SUN Fuchun2,3 (1. School of Electrical and Electronics Engineering, Shanghai Institute of Technology, Shanghai 201418, China; 2. Department of Computer Science and Technology, Tsinghua University, Beijing 100084, China; 3. State Key Laboratory of Intelligent Technology and Systems, Tsinghua University, Beijing 100084, China) Abstract: In this study, the framework of self-organizing target search algorithm was developed to coordinate unmanned aerial vehicle (UAV) swarm to find static and dynamic targets in a complex unstructured environment. First, the UAVs distributed target search model was developed from the biologically-inspired mechanisms called flocking and stigmergy, which incorporated the magnetic detector’s equivalent average width feature. Secondly, an improved differential evolution algorithm, which introduced adaptive operators, was proposed for the balancing of exploration and exploitation in the multi-UAV collaborative search system and realizing optimization of UAV collaborative search. This self-organizing target search algorithm aims at optimizing the number of tracking targets in the shortest possible time. The target search strategy tested on the simulation framework validates the algorithm’s adaptability for uncertain spatial targets in unstructured complex scenarios. Keywords: self-organizing algorithm; target search; differential evolution algorithm; multi-agent bionic algorithm; unmanned aerial vehicle; unstructured environment; flocking; dynamic target 随着火灾救援,海洋监测和地质勘查等活动 日益频繁,军事、工业和民用领域对广域复杂环 境目标搜索提出了更多的应用需求[1-2]。例如,相 比于陆地等任务环境,海域环境多样性更强,水 收稿日期:2019−08−20. 网络出版日期:2020−03−20. 基金项目:国家自然科学基金项目 (U1613212);上海市自然科 学基金项 目 (19ZR1455200) ;校级基金项 目 (XTCX2018-10). 通信作者:刘华平. E-mail:hpliu@tsinghua.edu.cn. 第 15 卷第 2 期 智 能 系 统 学 报 Vol.15 No.2 2020 年 3 月 CAAI Transactions on Intelligent Systems Mar. 2020
·290· 智能系统学 报 第15卷 下环境特征变化频繁,目标运动具有较强的不确 服外部环境的信息干扰,高效自主地追踪即时目标。 定性。这些因素要求执行系统能够时刻感知周围 本文定义无人机集群序号为{1,2,…,N,X为无 的未知环境信息,面对不同的环境特征自主做出 人机i的状态序列,包括位置、传感距离、朝向等; 调整,在有限的资源分配下,合理高效地完成多 N为无人机数目;1为模拟时刻t∈N;T为环境中 目标搜索任务们。近年来,随着深度学习与强化 的目标位置集合;π为目标子集;(xy),为目标τ 学习等领域理论和实践技术的积累及发展,多目 的位置坐标,(,y)x为无人机i在1时刻的动态位 标搜索得到了广泛的研究和应用,主要集中在机 置坐标:T(T)sT为t时刻已发现的目标集合。 器人和机器人群体的轨迹规划方面。 磁探仪是主要反潜探测设备之一,它不受气 在单个机器人轨迹规划研究方面,多数研究 象条件限制、可连续搜索、分类能力好、定位精度 仅仅考虑离线规划。例如用环境信息获取来选择 高、不受浅海等复杂环境影响。如图1所示,在 使姿态不确定性最小化的轨迹的问题,但是该 未知的非结构化环境中,本文的无人机集群通过 优化框架计算量较大,预测的最优轨迹无法重新 磁探测器和感知算法来了解周围的环境,最大限 规划。使用强化学习进行自适应学习的方法主要 度地观察感兴趣的目标区域,以发现动态或静态 支持单个机器人的静态识别任务,且并不包括动 未知目标,最大化监测区域中的目标信息。无人 态移动对象。多机器人轨迹规划决定了信息收 机群体事先不知道目标的位置和障碍物布局,利 集和搜索任务的完成质量。例如把多目标搜索 用航空磁测系统搜寻海面及水下目标。磁探仪分 问题转换为多旅行商问题,基于自组织映射网络 辨率为0.0003nT,探测宽度为R。探测宽度与磁 算法提出了多机器人协同在线主动感知方法。 噪声环境、无人机态势、目标态势、目标磁特性、 此外,使用深度神经网络(DNN)的探测器可以提 磁探仪的工作参数、检测阈等因素有关,所以本 高机器人团队对三维空间中移动的人或物体的追 文从概率的角度对磁探仪的探测宽度进行描述, 踪搜索能力。但是强化学习解决方案3和 根据等效平均探测宽度模型,获得磁探仪的时变 深度神经网络21方法需要大量的培训场景来确 探测宽度。 定策略,无法保证适应性。此外,随着代理的数 UAVs通过磁探仪 量和映射的复杂性的增加,多机器人最优路径规 进行目标搜索 划变得困难。 已发现 针对大规模未知动态环境的持续、时变和多 目标 源分布等特点,本文建立了一种新型的多智能体 目标搜索算法框架,运用无人机集群在飞行空间 目标 构成相互协作、优势互补、效能倍增的协同体系, 障碍物 以提高系统在复杂非结构化环境下完成任务的能 力和效率。当前的许多目标搜索研究和实际应用 图1面向大规模非结构化环境的目标搜索任务示意图 Fig.1 Target search task for large unstructured environ- 通常忽略观测目标的运动或假设监测目标进行简 ment 单运动,这类方法应用于海域等大规模环境时,受 为了便于研究,做出以下假设:1)同一个时 视距和活动范围限制,搜索性能并不理想。本文 刻每个单元格中仅存在一个目标:2)各无人机之 提出了一种多目标检测的多智能体分布式搜索模 间通信良好,不考虑通信延迟、中断带来的影响; 型,并结合该模型建立了自组织协同搜索的最优 3)无人机平台必须能够自主运行;4)假定无人机 时间算法框架。机器人团队可以实现对一组机器 集群固定在平稳的飞行高度,可保证磁探仪测量 人观测视角的并行改进,最大限度地观察感兴趣 精度和对地分辨率。 的目标区域,在时间和空间上扩大观测数量和质量。 本文旨在用一组无人机探测存在障碍物的大 1问题描述 规模非结构化环境的动态和静态目标,通过合适 的目标函数来衡量进程的质量,其中探测器的感 本文重点利用自组织目标搜索算法通过多智 知半径随环境和目标实时变化。本文将预期观测 能体系统完成大规模未知环境的监视任务。监视 时间作为任务目标函数,通过最小化发现给定静 任务要求在大范围复杂环境中迅速搜索尽量多的 态目标所需的时间,或者通过最大化一定搜索时 目标。该搜索任务要求无人机集群拥有自主的搜 间内发现动态目标的平均数量来优化总体质量, 索能力,根据不同的环境特性做出反应和导航,克 目标发现率不小于95%视为完成任务
下环境特征变化频繁,目标运动具有较强的不确 定性。这些因素要求执行系统能够时刻感知周围 的未知环境信息,面对不同的环境特征自主做出 调整,在有限的资源分配下,合理高效地完成多 目标搜索任务[3]。近年来,随着深度学习与强化 学习等领域理论和实践技术的积累及发展,多目 标搜索得到了广泛的研究和应用,主要集中在机 器人和机器人群体的轨迹规划方面。 在单个机器人轨迹规划研究方面,多数研究 仅仅考虑离线规划。例如用环境信息获取来选择 使姿态不确定性最小化的轨迹的问题[4] ,但是该 优化框架计算量较大,预测的最优轨迹无法重新 规划。使用强化学习进行自适应学习的方法主要 支持单个机器人的静态识别任务,且并不包括动 态移动对象[5]。多机器人轨迹规划决定了信息收 集和搜索任务的完成质量[6]。例如把多目标搜索 问题转换为多旅行商问题,基于自组织映射网络 算法提出了多机器人协同在线主动感知方法[7-9]。 此外,使用深度神经网络 (DNN) 的探测器可以提 高机器人团队对三维空间中移动的人或物体的追 踪搜索能力[10-12]。但是强化学习解决方案[13-14] 和 深度神经网络[12] 方法需要大量的培训场景来确 定策略,无法保证适应性。此外,随着代理的数 量和映射的复杂性的增加,多机器人最优路径规 划变得困难。 针对大规模未知动态环境的持续、时变和多 源分布等特点,本文建立了一种新型的多智能体 目标搜索算法框架,运用无人机集群在飞行空间 构成相互协作、优势互补、效能倍增的协同体系, 以提高系统在复杂非结构化环境下完成任务的能 力和效率。当前的许多目标搜索研究和实际应用 通常忽略观测目标的运动或假设监测目标进行简 单运动,这类方法应用于海域等大规模环境时,受 视距和活动范围限制,搜索性能并不理想。本文 提出了一种多目标检测的多智能体分布式搜索模 型,并结合该模型建立了自组织协同搜索的最优 时间算法框架。机器人团队可以实现对一组机器 人观测视角的并行改进,最大限度地观察感兴趣 的目标区域,在时间和空间上扩大观测数量和质量。 1 问题描述 本文重点利用自组织目标搜索算法通过多智 能体系统完成大规模未知环境的监视任务。监视 任务要求在大范围复杂环境中迅速搜索尽量多的 目标。该搜索任务要求无人机集群拥有自主的搜 索能力,根据不同的环境特性做出反应和导航,克 服外部环境的信息干扰,高效自主地追踪即时目标。 {1,2,··· ,N} Xi t ∈ N + τ (x, y)τ τ (xt , yt)Xi TF(T) ⊆ T 本文定义无人机集群序号为 , 为无 人机 i 的状态序列,包括位置、传感距离、朝向等; N 为无人机数目;t 为模拟时刻 ;T 为环境中 的目标位置集合; 为目标子集; 为目标 的位置坐标, 为无人机 i 在 t 时刻的动态位 置坐标; 为 t 时刻已发现的目标集合。 磁探仪是主要反潜探测设备之一,它不受气 象条件限制、可连续搜索、分类能力好、定位精度 高、不受浅海等复杂环境影响。如图 1 所示,在 未知的非结构化环境中,本文的无人机集群通过 磁探测器和感知算法来了解周围的环境,最大限 度地观察感兴趣的目标区域,以发现动态或静态 未知目标,最大化监测区域中的目标信息。无人 机群体事先不知道目标的位置和障碍物布局,利 用航空磁测系统搜寻海面及水下目标。磁探仪分 辨率为 0.000 3 nT,探测宽度为 R。探测宽度与磁 噪声环境、无人机态势、目标态势、目标磁特性、 磁探仪的工作参数、检测阈等因素有关,所以本 文从概率的角度对磁探仪的探测宽度进行描述, 根据等效平均探测宽度模型,获得磁探仪的时变 探测宽度[15]。 UAVs通过磁探仪 进行目标搜索 已发现 目标 目标 障碍物 图 1 面向大规模非结构化环境的目标搜索任务示意图 Fig. 1 Target search task for large unstructured environment 为了便于研究,做出以下假设:1) 同一个时 刻每个单元格中仅存在一个目标;2) 各无人机之 间通信良好,不考虑通信延迟、中断带来的影响; 3) 无人机平台必须能够自主运行;4) 假定无人机 集群固定在平稳的飞行高度,可保证磁探仪测量 精度和对地分辨率。 本文旨在用一组无人机探测存在障碍物的大 规模非结构化环境的动态和静态目标,通过合适 的目标函数来衡量进程的质量,其中探测器的感 知半径随环境和目标实时变化。本文将预期观测 时间作为任务目标函数,通过最小化发现给定静 态目标所需的时间,或者通过最大化一定搜索时 间内发现动态目标的平均数量来优化总体质量, 目标发现率不小于 95% 视为完成任务。 ·290· 智 能 系 统 学 报 第 15 卷
第2期 吴莹莹,等:面向环境探测的多智能体自组织目标搜索算法 ·291· 2算法设计 目标特性变化对航空磁探测的影响。昆虫群体行 为通过生物制剂机制在环境中协调无人机集群的 本节介绍了为多机器人目标搜索系统设计的 行为模式;鸟群效应基于对齐、分离和内聚的局 分布式仿生集群模型和协同搜索优化策略与协调 部规则的影响。 方法。无人机集群分布式目标搜索模型考虑环境 具体来讲,无人机定期对其位置进行目标检 和目标运动特性对多智能体系统感知传感器探测 查。在无人机的每一个执行周期里完成如下过 性能的影响,基于启发式的仿生集群算法和传感 程:1)目标检测,如果无人机的磁探仪探测宽度 器探测宽度模型建立;使用差分进化算法提取从 内存在一个未知的目标,它会在它的位置上释放 环境中感知到的信息,以引导无人机通过环境。 大量的吸引信息素。2)目标和边界检测,如果在 自组织目标搜索算法考虑元启发式的使用和代理 探测半径内有无人机或障碍物,那么无人机就会 之间的本地交互,以最小化完成任务时间为目标 转向自由方向并离开。如果没有发现近距离物 优化分布式模型的协调参数,产生一种在线的无 体,无人机就会释放排斥信息素,并尝试感知吸 人机集群协调模式。本文算法流程如图2所示。 引信息素。如果在嗅觉半径内有吸引信息素,无 开始 人机就会转向其最大强度的方向。当没有信息素 的时候,无人机将在分离区域检测到同伴后,放 初始化种群和参数。计算初始适应度 慢速度并转离同伴。如果在该分离区域内发现没 * 有其他无人机,无人机将朝向更大区域内的其他 基于鸟群和昆虫行为更新种群 无人机飞。如果既没有发现无人机,也没有发现 信息素,更没有发现障碍物,如果可能的话,无人 计算适应度 机会随机转向排斥信息素最小的方向并前进。无 人机群体重复以上过程,直至发现的目标达到目 差分进化算法更新种群参数 标总数的95%。 在上述搜索过程中,本文将搜索者、搜索环 N 是否满足 境、目标等因素条件抽象为搜索模型中的搜索要 选代条件 素,建立静态航空磁探仪搜索概率评估解析模 y 型。假设在不同的横向距离L条件下,磁探仪的 是否达到目标 目标检测概率为P(),则探测宽度R可以描述为 发现率要求 目标检测概率在空间的累积,其物理含义表示航 空磁探仪的等效平均探测宽度,定义为 n+eo 输出最优解 R= P(LdL J-四 目标在横向探测距离R范围内即被探测 结束 到,目标在R范围之外则未被探测到,即检测 图2多智能体自组织目标搜索算法流程 概率表示为 Fig.2 The flow chart of self-organizing target search al- ∫1,凹≤Rd gorithm of multi-agent system pD=0,☑>R 2.1无人机集群分布式目标搜索模型 因此在设定的环境条件下,只需计算不同横 对多智能体系统而言,分布式规划避免了单 向距离L条件下的目标检测概率,便可以得到磁 一的故障点,即使通信暂时中断,机器人集群也 探仪的等效平均探测宽度,计算公式为 能保证正常工作。此外,多个节点并行计算拓展 R R= p(L)dL=2Rmad 了机器人团队可用的计算资源。相关的计算主要 -R 在执行计算结果的机器人个体中执行,这种规划 其中,目标检测概率表达式为 机制能大大提高多智能体的感知决策速度。在本 P=1-Pr12M,∑B1c) 节中,通过采用结合不同的仿生集群算法,即基 式中:假设磁噪声是高斯噪声,均值为0,方差为 于昆虫协调方式和鸟群效应的生物机制建立了无 σ2。检测概率P(x/2M,∑B/σ2)是M自由度的 人机集群分布式模型,同时该模型考虑了环境和 非中心卡方分布的随机变量的累积分布函数,B:
2 算法设计 本节介绍了为多机器人目标搜索系统设计的 分布式仿生集群模型和协同搜索优化策略与协调 方法。无人机集群分布式目标搜索模型考虑环境 和目标运动特性对多智能体系统感知传感器探测 性能的影响,基于启发式的仿生集群算法和传感 器探测宽度模型建立;使用差分进化算法提取从 环境中感知到的信息,以引导无人机通过环境。 自组织目标搜索算法考虑元启发式的使用和代理 之间的本地交互,以最小化完成任务时间为目标 优化分布式模型的协调参数,产生一种在线的无 人机集群协调模式。本文算法流程如图 2 所示。 开始 基于鸟群和昆虫行为更新种群 计算适应度 是否满足 迭代条件 输出最优解 结束 差分进化算法更新种群参数 是否达到目标 发现率要求 初始化种群和参数,计算初始适应度 Y Y N N 图 2 多智能体自组织目标搜索算法流程 Fig. 2 The flow chart of self-organizing target search algorithm of multi-agent system 2.1 无人机集群分布式目标搜索模型 对多智能体系统而言,分布式规划避免了单 一的故障点,即使通信暂时中断,机器人集群也 能保证正常工作。此外,多个节点并行计算拓展 了机器人团队可用的计算资源。相关的计算主要 在执行计算结果的机器人个体中执行,这种规划 机制能大大提高多智能体的感知决策速度。在本 节中,通过采用结合不同的仿生集群算法,即基 于昆虫协调方式和鸟群效应的生物机制建立了无 人机集群分布式模型,同时该模型考虑了环境和 目标特性变化对航空磁探测的影响。昆虫群体行 为通过生物制剂机制在环境中协调无人机集群的 行为模式;鸟群效应基于对齐、分离和内聚的局 部规则的影响。 具体来讲,无人机定期对其位置进行目标检 查。在无人机的每一个执行周期里完成如下过 程:1) 目标检测,如果无人机的磁探仪探测宽度 内存在一个未知的目标,它会在它的位置上释放 大量的吸引信息素。2) 目标和边界检测,如果在 探测半径内有无人机或障碍物,那么无人机就会 转向自由方向并离开。如果没有发现近距离物 体,无人机就会释放排斥信息素,并尝试感知吸 引信息素。如果在嗅觉半径内有吸引信息素,无 人机就会转向其最大强度的方向。当没有信息素 的时候,无人机将在分离区域检测到同伴后,放 慢速度并转离同伴。如果在该分离区域内发现没 有其他无人机,无人机将朝向更大区域内的其他 无人机飞。如果既没有发现无人机,也没有发现 信息素,更没有发现障碍物,如果可能的话,无人 机会随机转向排斥信息素最小的方向并前进。无 人机群体重复以上过程,直至发现的目标达到目 标总数的 95%。 P(L) 在上述搜索过程中,本文将搜索者、搜索环 境、目标等因素条件抽象为搜索模型中的搜索要 素,建立静态航空磁探仪搜索概率评估解析模 型。假设在不同的横向距离 L 条件下,磁探仪的 目标检测概率为 ,则探测宽度 R 可以描述为 目标检测概率在空间的累积,其物理含义表示航 空磁探仪的等效平均探测宽度,定义为 R = ∫ +∞ −∞ P(L)dL Rmad Rmad 目标在横向探测距离 范围内即被探测 到,目标在 范围之外则未被探测到,即检测 概率表示为 p(L) = { 1, |L| ⩽ Rmad 0, |L| > Rmad 因此在设定的环境条件下,只需计算不同横 向距离 L 条件下的目标检测概率,便可以得到磁 探仪的等效平均探测宽度,计算公式为 R = ∫ R∞ −R∞ p(L)dL = 2Rmad 其中,目标检测概率表达式为 P=1− P(x ∗ /σ2 M, ∑ B 2 i /σ2 ) σ 2 P(x ∗ /σ2 M, ∑ B 2 i /σ2 ) Bi 式中:假设磁噪声是高斯噪声,均值为 0,方差为 。检测概率 是 M 自由度的 非中心卡方分布的随机变量的累积分布函数, 第 2 期 吴莹莹,等:面向环境探测的多智能体自组织目标搜索算法 ·291·
·292· 智能系统学报 第15卷 表示磁探仪在1时刻输出的磁探仪的磁信号,检 式中:1为模拟时刻;T为环境中的目标位置集合; 测阈值为x。 T为目标子集;(x,y,为目标T的位置坐标;(x)D 具体来讲,细胞(x,y)的1时刻释放的信息素 为无人机i在1时刻的动态位置坐标。 强度p具有以下动力学特征: 在动态场景下,通过最大化一定搜索时间内 p(i)=E[1-o)Px(t-1)+ 发现动态目标的平均数量来优化总体质量。动态 △p(t-1,t)+dt-1,t] 模拟场景2的适用性定义为所有帧中发现目标 其中,扩散速率为6e[0,1:蒸发速率为s∈[0,1]。 的平均百分比,如式(1): (1-)·P,(t-1)表示扩散到邻近细胞后的剩 余量;△pv(t-1,)表示时间间隔(t-1,)内信息素 fitness()= A÷T(到 (1) 的累积浓度;d,(t-1,t)是t-1,1时间内从周边细 Φ,台T9 胞扩散来的输入信息素,计算公式为 式中:入为每个帧过渡周期;目标动态位置为 (x,y),p=0,入,2入,…,t·入,中,其中Φ是预设的模拟 (t- +i+(t-1) 时间的最终时刻。 ,≠0.0 设k为待调整的参数个数。进化算法的解用 8个相邻细胞在每个更新周期将一部分信息 K维向量表示。采用基于自适应算子的改进差分 素传播到细胞(x,y)。 进化算法选择并产生一个无人机群体,每个无人 2.2无人机集群协同搜索优化算法 机代表搜索空间的某个k维向量解,该群体的基因 2.1节将无人机群体视为鸟群,采用昆虫信息 型代表该可行解的各个分量,它与对应的场景相 素协调方式探测存在障碍物和目标的非结构化环 适应。X(O)为随机均匀分布产生的初始种群,代 境。这一过程涉及无人机集群的多个参数,如表1。 表N个初始解集合。第1代无人机种群为X), 这些参数直接影响协同目标搜索任务的完成质 x()为第1代种群X()的第i个基因型。本文采用 量,决定了无人机群体对不同场景的适应度和搜 改进的差分进化算法,通过自适应差分策略实现 索过程的效率。为了产生一个与场景相适应的群 个体变异。种群变异的中间变量h计算公式为 体,本节采用了基于自适应算子的改进差分进化 h(t+1)=x(0+F.(x,(0-x(t)i≠n≠n≠3 算法进行仿生集群参数调整,实现无人机集群的 式中,x,、xn、x为随机选择的突变成员,自适应 协同优化。 变异算子为 表1无人机集群分布式模型相关参数 A=el-ai-o Table 1 The parameters of distributed target search model F=Fo-2 参数 描述 参数 描述 式中:Fo为变异算子;Gm代表最大进化代数;G代 表当前进化代数。 R 无人机磁探测距离 Vhs 无人机水平速度 然后通过变异的中间变量h和第1代种群x() Rpd 无人机信息素感应距离 R.f 群体移动距离 的二项式交叉创建一个试验向量x,其中交叉公 s 群体分离角度限制 信息素释放浓度 式为 Oga 群体对齐角度限制 信息素扩散率 h(t+1), rand≤CR x(t+1)= e 群体内聚角度限制 信息素蒸发率 x(),其他 其中,CR为交叉概率。然后,基于贪婪算法原则, 无人机最大随机转向角 根据适应度函数的值从迭代中每个个体的试验向 基于改进差分算法的优化策略把任务完成所 量x和原向量x:()中选择出适应度更高的,以此 需的总时间作为衡量协同搜索任务质量的评价指 作为下一代的最佳拟合向量对种群进行修正。当 标。该算法需要通过最小化发现给定静态目标所 达到终止条件时,将当前种群中最优解向量作为 需的时间。因此静态仿真场景的适应度函数被定 最优群参数,得到对应最短搜索时间的解向量。 义无人机集群目标发现率超过95%的最短时间, 定义为 3仿真实验与分析 fitness(2)=min (t:ITe(t)>0.95 ITl) 为了测试第2章提出的自组织目标搜索策略 式中:1时刻已发现的目标集合T()二T,计算公 的运行情况,本文搭建了基于多智能体仿真平台 式为 Netlogo和算法开发框架Matlab的二维数字环境 T(0={x3D,3r≤t:(x,yr)n=(x,y),》 来验证本文设计的协同目标搜索算法。实验考虑
x ∗ 表示磁探仪在 t 时刻输出的磁探仪的磁信号,检 测阈值为 。 具体来讲,细胞 (x, y) 的 t 时刻释放的信息素 强度 p 具有以下动力学特征: px,y(t) = ε ·[(1−δ)· px,y(t−1)+ ∆px,y(t−1,t)+dx,y(t−1,t)] 其中,扩散速率为 δ ∈ [0,1] ;蒸发速率为 ε ∈ [0,1]。 (1−δ)· px,y(t−1) ∆px,y(t−1,t) (t−1,t] dx,y(t−1,t) (t−1,t] 表示扩散到邻近细胞后的剩 余量; 表示时间间隔 内信息素 的累积浓度; 是 时间内从周边细 胞扩散来的输入信息素,计算公式为 dx,y(t−1,t) = δ 8 ∑1 i=−1 ∑1 j=−1 (i, j),(0,0) px+i,y+j(t−1) (x, y) 8 个相邻细胞在每个更新周期将一部分信息 素传播到细胞 。 2.2 无人机集群协同搜索优化算法 2.1 节将无人机群体视为鸟群,采用昆虫信息 素协调方式探测存在障碍物和目标的非结构化环 境。这一过程涉及无人机集群的多个参数,如表 1。 这些参数直接影响协同目标搜索任务的完成质 量,决定了无人机群体对不同场景的适应度和搜 索过程的效率。为了产生一个与场景相适应的群 体,本节采用了基于自适应算子的改进差分进化 算法进行仿生集群参数调整,实现无人机集群的 协同优化。 表 1 无人机集群分布式模型相关参数 Table 1 The parameters of distributed target search model 参数 描述 参数 描述 R 无人机磁探测距离 vhs 无人机水平速度 Rpd 无人机信息素感应距离 Rfm 群体移动距离 θfs 群体分离角度限制 ς 信息素释放浓度 θfa 群体对齐角度限制 γ 信息素扩散率 θfc 群体内聚角度限制 μ 信息素蒸发率 ψmw 无人机最大随机转向角 基于改进差分算法的优化策略把任务完成所 需的总时间作为衡量协同搜索任务质量的评价指 标。该算法需要通过最小化发现给定静态目标所 需的时间。因此静态仿真场景的适应度函数被定 义无人机集群目标发现率超过 95% 的最短时间, 定义为 fitness(Ω) = min t∈N+ {t : |TF(t)| ⩾ 0.95|T|} 式中:t 时刻已发现的目标集合 TF(t) ⊆ T ,计算公 式为 TF(t) = { τ ∃Di ,∃t ′ ⩽ t : (xt ′ , yt ′ )Di = (x, y)τ } τ (x, y)τ τ (xt , yt)Di 式中:t 为模拟时刻;T 为环境中的目标位置集合; 为目标子集; 为目标 的位置坐标; 为无人机 i 在 t 时刻的动态位置坐标。 Ω 在动态场景下,通过最大化一定搜索时间内 发现动态目标的平均数量来优化总体质量。动态 模拟场景 的适用性定义为所有帧中发现目标 的平均百分比,如式 (1): fitness(Ω) = λ Φ ∑Φ φ=1 |TF(φ)| |T(φ)| (1) λ (x, y)τ(φ) φ=0, λ,2λ,··· ,t · λ,Φ Φ 式中: 为每个帧过渡周期;目标动态位置为 , ,其中 是预设的模拟 时间的最终时刻。 X(0) X(t) xi(t) X(t) 设 k 为待调整的参数个数。进化算法的解用 K 维向量表示。采用基于自适应算子的改进差分 进化算法选择并产生一个无人机群体,每个无人 机代表搜索空间的某个 k 维向量解,该群体的基因 型代表该可行解的各个分量,它与对应的场景相 适应。 为随机均匀分布产生的初始种群,代 表 N 个初始解集合。第 t 代无人机种群为 , 为第 t 代种群 的第 i 个基因型。本文采用 改进的差分进化算法,通过自适应差分策略实现 个体变异。种群变异的中间变量 h 计算公式为 h(t+1) = xr1 (t)+ F ·(xr2 (t)− xr3 (t))i , r1 , r2 , r3 xr1 xr2 式中, 、 、xr3 为随机选择的突变成员,自适应 变异算子为 λ = e 1− Gm Gm+1−G F = F0 · 2 λ 式中: F0 为变异算子; Gm 代表最大进化代数; G 代 表当前进化代数。 xi(t) x ∗ i 然后通过变异的中间变量 h 和第 t 代种群 的二项式交叉创建一个试验向量 ,其中交叉公 式为 x ∗ i (t+1) = { h(t+1), rand ⩽ CR xi(t), 其他 x ∗ i xi(t) 其中,CR 为交叉概率。然后,基于贪婪算法原则, 根据适应度函数的值从迭代中每个个体的试验向 量 和原向量 中选择出适应度更高的,以此 作为下一代的最佳拟合向量对种群进行修正。当 达到终止条件时,将当前种群中最优解向量作为 最优群参数,得到对应最短搜索时间的解向量。 3 仿真实验与分析 为了测试第 2 章提出的自组织目标搜索策略 的运行情况,本文搭建了基于多智能体仿真平台 Netlogo 和算法开发框架 Matlab 的二维数字环境 来验证本文设计的协同目标搜索算法。实验考虑 ·292· 智 能 系 统 学 报 第 15 卷
第2期 吴莹莹,等:面向环境探测的多智能体自组织目标搜索算法 ·293· 在大面积的非结构化环境里找到静态或动态目 45*10 标,无人机通过机载磁探测仪器来探测目标。在 4.0 ·一基础差分进化算法 仿真数字环境中,各无人机平台能够独立自主运 3.5 ·一改进差分进化算法 萱3.0 行,同时,各无人机之间能够正常通信,不考虑通 5 信延迟或中断等异常情况,此外,同一个时刻每 个单元格中仅存在一个目标。 3.1静态场景实验设置与分析 1.0 0.5 静态仿真场景设置为正方形区域,由不同的 障碍物和随机分布的42个目标构成。为了测试 122232425262 无人机数量架 算法性能,本文开展了基于传统差分进化算法的 图5不同规模无人机集群的任务完成时间对比图 协同策略和基于仿生集群与改进差分算法的自组 Fig.5 Task completion time comparison for different 织目标搜索策略的多组实验,并统计了不同规模 UAVs 无人机集群的测试性能。 由图6~7可知,本文采用的自组织目标搜索 非结构化静态环境仿真场景模型如图3,其 策略实现静态环境的目标发现任务时,在无人机 中绿色为无人机,灰色为障碍物:红色为目标位置。 规模相同的情况下,较传统差分进化算法方案拥 有更小的环境覆盖率。无人机数量大于32之后, 无人机集群完成任务时的环境覆盖率随着集群规 模的增加而减小,这意味着无人机群体在环境感 知和目标探测的过程中不断朝感兴趣的区域搜 索,在未知环境中的探索效率不断提高。 5 一62架无人机 图3基于Netlogo软件的静态非结构化环境模型 10 42 Fig.3 Unstructured environment model based on Netlogo 12架无人机 图45统计了无人机数目分别为6、12、22、32 6架无人机 10 42、52、62的情况下的实验结果。实验结果表明, 4 tis 就完成目标发现任务所需的最短时间这一指标, 采用改进差分进化算法的协同搜索方案较传统进 图6不同规模无人机集群环境覆盖率随时间变化曲线 Fig.6 Real-time environmental coverage for different 化算法方案需要的时间更短,具有更高的搜索效 UAVs 率。此外,随着无人机群体数量的增加,目标搜 3.2动态场景实验设置与分析 索速度不断提高,任务完成时间迅速衰减。 对于大规模的动态场景,本文的协同目标搜 100 索策略通过将动态环境视为不同帧,每隔一个固 % o 定周期目标变换一次,求解使所有帧中的目标的 平均百分比最大的群体最优参数。仿真海域动态 场景模型如图8所示。其中,场景每隔240s更新 0 -62架无人机 52架无人机 一次,绿色箭头为无人机,红色点为目标集群,灰 42架无人机 3 32架无人机 色表示海域内的岛屿、礁石等障碍物。图8中 20 .22架无人机 12架无人机 1分别为240、480、720、960s的场景模型,每一帧 6架无人机 ×103 目标总数不断增加,且随机扩散。图8中的目标 0 3 4 总数分别为140、240、340、340。实验结果表明, 图4不同规模无人机集群目标发现率随时间变化曲线 动态模拟场景的适合度定义为在所有帧中发现的 Fig.4 Real-time target discovery rate for different UAVs 目标的平均百分比
在大面积的非结构化环境里找到静态或动态目 标,无人机通过机载磁探测仪器来探测目标。在 仿真数字环境中,各无人机平台能够独立自主运 行,同时,各无人机之间能够正常通信,不考虑通 信延迟或中断等异常情况,此外,同一个时刻每 个单元格中仅存在一个目标。 3.1 静态场景实验设置与分析 静态仿真场景设置为正方形区域,由不同的 障碍物和随机分布的 42 个目标构成。为了测试 算法性能,本文开展了基于传统差分进化算法的 协同策略和基于仿生集群与改进差分算法的自组 织目标搜索策略的多组实验,并统计了不同规模 无人机集群的测试性能。 非结构化静态环境仿真场景模型如图 3,其 中绿色为无人机,灰色为障碍物;红色为目标位置。 图 3 基于 Netlogo 软件的静态非结构化环境模型 Fig. 3 Unstructured environment model based on Netlogo 图 4~5 统计了无人机数目分别为 6、12、22、32、 42、52、62 的情况下的实验结果。实验结果表明, 就完成目标发现任务所需的最短时间这一指标, 采用改进差分进化算法的协同搜索方案较传统进 化算法方案需要的时间更短,具有更高的搜索效 率。此外,随着无人机群体数量的增加,目标搜 索速度不断提高,任务完成时间迅速衰减。 1 2 3 4 ×103 0 10 20 30 40 50 60 70 80 90 100 62架无人机 52架无人机 42架无人机 32架无人机 22架无人机 12架无人机 6架无人机 目标发现率/% 图 4 不同规模无人机集群目标发现率随时间变化曲线 Fig. 4 Real-time target discovery rate for different UAVs 6 12 22 32 42 52 62 0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 基础差分进化算法 改进差分进化算法 任务完成时间/s 无人机数量/架 图 5 不同规模无人机集群的任务完成时间对比图 Fig. 5 Task completion time comparison for different UAVs 由图 6~7 可知,本文采用的自组织目标搜索 策略实现静态环境的目标发现任务时,在无人机 规模相同的情况下,较传统差分进化算法方案拥 有更小的环境覆盖率。无人机数量大于 32 之后, 无人机集群完成任务时的环境覆盖率随着集群规 模的增加而减小,这意味着无人机群体在环境感 知和目标探测的过程中不断朝感兴趣的区域搜 索,在未知环境中的探索效率不断提高。 0 1 2 3 4 ×103 5 10 15 20 25 30 62架无人机 52架无人机 42架无人机 32架无人机 22架无人机 12架无人机 6架无人机 环境覆盖率/% 图 6 不同规模无人机集群环境覆盖率随时间变化曲线 Fig. 6 Real-time environmental coverage for different UAVs 3.2 动态场景实验设置与分析 对于大规模的动态场景,本文的协同目标搜 索策略通过将动态环境视为不同帧,每隔一个固 定周期目标变换一次,求解使所有帧中的目标的 平均百分比最大的群体最优参数。仿真海域动态 场景模型如图 8 所示。其中,场景每隔 240 s 更新 一次,绿色箭头为无人机,红色点为目标集群,灰 色表示海域内的岛屿、礁石等障碍物。图 8 中 t 分别为 240、480、720、960 s 的场景模型,每一帧 目标总数不断增加,且随机扩散。图 8 中的目标 总数分别为 140、240、340、340。实验结果表明, 动态模拟场景的适合度定义为在所有帧中发现的 目标的平均百分比。 第 2 期 吴莹莹,等:面向环境探测的多智能体自组织目标搜索算法 ·293·
·294· 智能系统学报 第15卷 35 加,时间成本的增加幅度越来越缓慢,该结果验 30 证了该自组织目标搜索算法在大规模集群系统 22 中的可行性。 20 100 15 10 0 12 223242 52 62 0 -.-.140个目标 无人机数量架 …240个目标 (a)基础差分进化算法 0 240 480 720 96012001440 25 s 图9动态海域场景的目标发现率随时间变化曲线 Fig.9 Real-time curve of target detection rate for dynam- ic marine environment 200 6 1222324252 62 无人机数量/架 (b)改进差分进化算法 80 图7不同规模无人机集群完成任务时的环境覆盖率箱 线图 40 Fig.7 Boxplot of environmental coverage of different 40 140 240 340440 目标数目 UAVs 图10任务完成时间随目标规模变化折线图 Fig.10 Line chart of task completion time in distinct targets 4结束语 本文提出了一种面向无人机群目标搜索的自 组织目标搜索策略,该策略采用基于仿生集群算 法的分布式目标搜索模型,采用自适应差分进化 算法实现无人机集群的协同目标搜索优化。无人 (a)=240s (b)=480s 机的分布式搜索模型结合了磁探仪等效平均探测 宽度模型,考虑目标检测过程中环境和目标特性 变化的影响,概率性发现环境中的静态和动态目 标。仿真实验证明了,该协同策略明显降低了无 人机集群勘探的冗余度。随着无人机群体数量的 增加,目标搜索速度不断提高,任务完成时间迅 速衰减;无人机的环境覆盖率随着无人机规模的 增加而减少,表明该协同目标搜索算法的优势随 (c)=720s (d=960s 着代理数的增加逐渐显现出来,无人机集群在未 图8基于Netlogo软件的动态海域环境模型 知环境中的探索效率不断提高。此外,在未知非 Fig.8 Dynamic marine environment model of Netlogo 结构化环境中,利用本文的多智能体自组织目标 图9为目标发现率随时间变化曲线,由仿真 搜索算法能够快速发现数目增加且无规律运动的 结果可知,利用本文的多目标搜索算法能够高 动态目标。 效地实现大规模动态环境下的快速目标搜索任 务。图10为不同目标规模时任务完成时间的折 参考文献: 线图,由仿真结果可以看出,随着节点数目的增 [1]BENKOSKI S J,MONTICINO M G,WEISINGER J R.A
0 5 10 15 20 25 30 35 6 12 22 32 42 52 62 无人机数量/架 环境覆盖率/% (a) 基础差分进化算法 (b) 改进差分进化算法 0 5 10 15 20 25 30 6 12 22 32 42 52 62 环境覆盖率/% 无人机数量/架 图 7 不同规模无人机集群完成任务时的环境覆盖率箱 线图 Fig. 7 Boxplot of environmental coverage of different UAVs (a) t=240 s (b) t=480 s (c) t=720 s (d) t=960 s 图 8 基于 Netlogo 软件的动态海域环境模型 Fig. 8 Dynamic marine environment model of Netlogo 图 9 为目标发现率随时间变化曲线,由仿真 结果可知,利用本文的多目标搜索算法能够高 效地实现大规模动态环境下的快速目标搜索任 务。图 10 为不同目标规模时任务完成时间的折 线图,由仿真结果可以看出,随着节点数目的增 加,时间成本的增加幅度越来越缓慢,该结果验 证了该自组织目标搜索算法在大规模集群系统 中的可行性。 0 240 480 720 960 1 200 1 440 20 40 60 80 100 140个目标 240个目标 340个目标 340个扩散目标 目标发现率/% t/s 图 9 动态海域场景的目标发现率随时间变化曲线 Fig. 9 Real-time curve of target detection rate for dynamic marine environment 40 140 240 340 440 40 80 120 160 200 目标数目 任务完成时间/s 图 10 任务完成时间随目标规模变化折线图 Fig. 10 Line chart of task completion time in distinct targets 4 结束语 本文提出了一种面向无人机群目标搜索的自 组织目标搜索策略,该策略采用基于仿生集群算 法的分布式目标搜索模型,采用自适应差分进化 算法实现无人机集群的协同目标搜索优化。无人 机的分布式搜索模型结合了磁探仪等效平均探测 宽度模型,考虑目标检测过程中环境和目标特性 变化的影响,概率性发现环境中的静态和动态目 标。仿真实验证明了,该协同策略明显降低了无 人机集群勘探的冗余度。随着无人机群体数量的 增加,目标搜索速度不断提高,任务完成时间迅 速衰减;无人机的环境覆盖率随着无人机规模的 增加而减少,表明该协同目标搜索算法的优势随 着代理数的增加逐渐显现出来,无人机集群在未 知环境中的探索效率不断提高。此外,在未知非 结构化环境中,利用本文的多智能体自组织目标 搜索算法能够快速发现数目增加且无规律运动的 动态目标。 参考文献: [1] BENKOSKI S J, MONTICINO M G, WEISINGER J R. A ·294· 智 能 系 统 学 报 第 15 卷
第2期 吴莹莹,等:面向环境探测的多智能体自组织目标搜索算法 ·295· survey of the search theory literature[J].Naval research lo- IEEE International Symposium on Safety,Security,and gistics,1991,38(4):469-494. Rescue Robotics.Philadelphia,USA.2018. [2]吴军,徐昕,连传强,等.协作多机器人系统研究进展综 [12]AHMAD A.LAWLESS G.LIMA P.An online scalable 述[).智能系统学报,2011,6(1)少:13-27. approach to unified Multirobot cooperative localization WU Jun,XU Xin,LIAN Chuangiang,et al.A survey of re- and object tracking[J].IEEE transactions on robotics, cent advances in cooperative multi-robot systems[J].CAAI 2017,33(5:11841199. transactions on intelligent systems,2011,6(1):13-27. [13]CHEN Yufan,LIU Miao,EVERETT M,et al.Decentral- [3】]袁波.面向卫星资源规划的海面运动目标分析方法研 ized non-communicating Multiagent collision avoidance 究D].长沙:国防科学技术大学,2010:4-5 with deep reinforcement learning[C]//Proceedings of 2017 YUAN Bo.Research on analysis of maritime moving tar- IEEE International Conference on Robotics and Automa- get for satellite resource scheduling[D].Changsha:Nation- tion.Singapore,2017. al University of Defense Technology,2010:4-5. [14]LONG Pinxin,LIU Wenxi,PAN Jia.Deep-learned colli- [4]FORSTER C,PIZZOLI M,SCARAMUZZA D.Appear- sion avoidance policy for distributed multiagent naviga- ance-based active,monocular,dense reconstruction for mi- tion[J].IEEE robotics and automation letters,2017,2(2): cro aerial vehicle[C]//Proceedings of 2014 Robotics:Sci- 656-663. ence and Systems Conference.Berkeley,USA.2014. [15]熊雄,杨日杰,沈阳.基于等效平均探测宽度的航空磁 [5]XIA Fei,ZAMIR A R,HE Zhiyang,et al.Gibson Env: 探潜搜索概率评估模型[J].系统工程与电子技术 real-world perception for embodied agents[C]//Proceed- 2014,36(3):487-493 ings of the IEEE/CVF Conference on Computer Vision and XIONG Xiong,YANG Rijie,SHEN Yang.Search proba- Pattern Recognition.Salt Lake City,USA,2018: bility evaluation model of airborne magnetic anomaly de- 9068-9079 tection based on equivalent average sweep width[J].Sys- [6]RAMIREZ-PAREDES J P,DOUCETTE E A,CURTIS J tems engineering and electronics,2014,36(3):487-493. W,et al.Distributed information-based guidance of mul- 作者简介: tiple mobile sensors for urban target search[J].Autonom- 吴莹莹,硕士研究生,主要研究方 ous ro-bots.2018.42(2:375-389. 向为机器人控制、多智能体控制。 [7]BEST G.CLIFF O M.PATTEN T.et al.Dec-MCTS:de- centralized planning for multi-robot active perception[J]. The international journal of robotics research,2019. 38(2/3):316-337. [8]FAIGL J.GSOA:growing self-organizing Ar-ray-unsuper- vised learning for the close-enough traveling salesman 丁肇红,副教授,主要研究方向为 problem and other routing problems[J].Neuro-computing, 智能控制与决策、系统建模。主持完 成多项上海市教委科研项目。主编 2018.312:120-134 《自动控制原理》教材。发表学术论 [9]BEST G,FAIGL J,FITCH R.Online planning for mul-ti- 文数十篇。 robot active perception with self-organising maps[J]. Autonomous robots,2018,42(4):715-738. [10]PRICE E,LAWLESS G,LUDWIG R,et al.Deep neural network-based cooperative visual tracking through mul- 刘华平,副教授,博土生导师,主 要研究方向为机器人感知、学习与控 tiple micro aerial vehicles[J].IEEE robotics and automa- 制、多模态信息融合。发表学术论文 tion letters,2018,3(4)3193-3200. 10余篇。 [11]TALLAMRAJU R,RAJAPPA S,BLACK M J,et al.De- centralized MPC based obstacle avoidance for multi-ro- bot target tracking scenarios[C]//Proceedings of 2018
survey of the search theory literature[J]. Naval research logistics, 1991, 38(4): 469–494. 吴军, 徐昕, 连传强, 等. 协作多机器人系统研究进展综 述 [J]. 智能系统学报, 2011, 6(1): 13–27. WU Jun, XU Xin, LIAN Chuanqiang, et al. A survey of recent advances in cooperative multi-robot systems[J]. CAAI transactions on intelligent systems, 2011, 6(1): 13–27. [2] 袁波. 面向卫星资源规划的海面运动目标分析方法研 究 [D]. 长沙: 国防科学技术大学, 2010: 4–5. YUAN Bo. Research on analysis of maritime moving target for satellite resource scheduling[D]. Changsha: National University of Defense Technology, 2010: 4–5. [3] FORSTER C, PIZZOLI M, SCARAMUZZA D. Appearance-based active, monocular, dense reconstruction for micro aerial vehicle[C]//Proceedings of 2014 Robotics: Science and Systems Conference. Berkeley, USA, 2014. [4] XIA Fei, ZAMIR A R, HE Zhiyang, et al. Gibson Env: real-world perception for embodied agents[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA, 2018: 9068–9079. [5] RAMIREZ-PAREDES J P, DOUCETTE E A, CURTIS J W, et al. Distributed information-based guidance of multiple mobile sensors for urban target search[J]. Autonomous ro-bots, 2018, 42(2): 375–389. [6] BEST G, CLIFF O M, PATTEN T, et al. Dec-MCTS: decentralized planning for multi-robot active perception[J]. The international journal of robotics research, 2019, 38(2/3): 316–337. [7] FAIGL J. GSOA: growing self-organizing Ar-ray-unsupervised learning for the close-enough traveling salesman problem and other routing problems[J]. Neuro-computing, 2018, 312: 120–134. [8] BEST G, FAIGL J, FITCH R. Online planning for mul-tirobot active perception with self-organising maps[J]. Autonomous robots, 2018, 42(4): 715–738. [9] PRICE E, LAWLESS G, LUDWIG R, et al. Deep neural network-based cooperative visual tracking through multiple micro aerial vehicles[J]. IEEE robotics and automation letters, 2018, 3(4): 3193–3200. [10] TALLAMRAJU R, RAJAPPA S, BLACK M J, et al. Decentralized MPC based obstacle avoidance for multi-robot target tracking scenarios[C]//Proceedings of 2018 [11] IEEE International Symposium on Safety, Security, and Rescue Robotics. Philadelphia, USA, 2018. AHMAD A, LAWLESS G, LIMA P. An online scalable approach to unified Multirobot cooperative localization and object tracking[J]. IEEE transactions on robotics, 2017, 33(5): 1184–1199. [12] CHEN Yufan, LIU Miao, EVERETT M, et al. Decentralized non-communicating Multiagent collision avoidance with deep reinforcement learning[C]//Proceedings of 2017 IEEE International Conference on Robotics and Automation. Singapore, 2017. [13] LONG Pinxin, LIU Wenxi, PAN Jia. Deep-learned collision avoidance policy for distributed multiagent navigation[J]. IEEE robotics and automation letters, 2017, 2(2): 656–663. [14] 熊雄, 杨日杰, 沈阳. 基于等效平均探测宽度的航空磁 探潜搜索概率评估模型 [J]. 系统工程与电子技术, 2014, 36(3): 487–493. XIONG Xiong, YANG Rijie, SHEN Yang. Search probability evaluation model of airborne magnetic anomaly detection based on equivalent average sweep width[J]. Systems engineering and electronics, 2014, 36(3): 487–493. [15] 作者简介: 吴莹莹,硕士研究生,主要研究方 向为机器人控制、多智能体控制。 丁肇红,副教授,主要研究方向为 智能控制与决策、系统建模。主持完 成多项上海市教委科研项目。主编 《自动控制原理》教材。发表学术论 文数十篇。 刘华平,副教授,博士生导师,主 要研究方向为机器人感知、学习与控 制、多模态信息融合。发表学术论文 10 余篇。 第 2 期 吴莹莹,等:面向环境探测的多智能体自组织目标搜索算法 ·295·