第14卷第6期 智能系统学报 Vol.14 No.6 2019年11月 CAAI Transactions on Intelligent Systems Nov.2019 D0:10.11992/tis.201909005 网络出版地址:http:/kns.cnki.net/kcms/detail/23.1538.TP.20191012.1008.002.html 仿猛禽视顶盖信息中转整合的加油目标跟踪 李晗,段海滨,李淑宇2,丁希仑3 (1.北京航空航天大学自动化科学与电气工程学院,北京100083,2.北京航空航天大学生物与医学工程学院, 北京100083:3.北京航空航天大学机械工程及自动化学院,北京100083) 摘要:无人机自主空中加油是当前作战模式下非常重要的军事能力之一。空中加油对接阶段的视觉辅助导 引是对接阶段导航的研究重点,而加油目标跟踪则是其中的重要一环。本文通过对猛禽优异的视觉系统与视 觉导航能力的研究,发现其视觉通路中视顶盖的信息中转整合能力对于解决跟踪问题具有一定指导作用。通 过对这一信息处理模式的模拟,研究了一种仿猛禽交叉通路的神经网络,并针对空中加油视觉任务中可能出现 的目标丢失与再入问题,引入猛禽双中央凹扩大搜索策略,设计了一种完整的模拟猛禽视顶盖信息中转整合的 目标跟踪网络。仿真实验验证了所提方法的可行性和有效性。 关键词:自主空中加油;猛禽视觉;视顶盖:双凹结构;目标跟踪:神经网络 中图分类号:V249.32文献标志码:A文章编号:1673-4785(2019)06-1084-08 中文引用格式:李晗,段海滨,李淑宇,等.仿猛禽视顶盖信息中转整合的加油目标跟踪小.智能系统学报,2019,14(6): 1084-1091. 英文引用格式:LI Han,DUAN Haibin,LI Shuyu,etal.Aerial refueling target tracking using a falcon visual tectum information in- tegrating like method[Jl.CAAI transactions on intelligent systems,2019,14(6):1084-1091. Aerial refueling target tracking using a falcon visual tectum information integrating like method LI Han',DUAN Haibin',LI Shuyu',DING Xilun' (1.School of Automation Science and Electrical Engineering,Beihang University,Beijing 100083,China;2.School of Biological Science and Medical Engineering,Beihang University,Beijing 100083,China;3.School of Mechanical Engineering and Automation, Beihang University,Beijing 100083,China) Abstract:Autonomous aerial refueling is one of the most important military capabilities under current combat situation In docking phase navigation,visual-aid guidance during the docking phase is a main research focus,of which the track- ing of refueling target is an important part and challenge.During researching on the excellent visual system and visual navigation ability of falcon,it was found that the information transfer and integration ability of the visual tectum could help to solve the tracking problem.By simulating information processing mode,constructing a neural network with cross-pathway,and introducing the target out of view and reentry problem that may occur in the aerial refueling visual task,the raptor bifovea based searching strategy is introduced to construct a complete tracking method.Simulation and experiments are done to verify the feasibility and effectiveness of the proposed method. Keywords:autonomous aerial refueling;falcon visual system;tectum;bifovea;target tracking;neural net work 软式自主空中加油对接阶段的任务包括加/ 受油机到达指定加油区域后,从较远距离的双机 收稿日期:2019-08-25.网络出版日期:2019-10-12 编队到双机逐渐接近直至受油插头插入锥套的全 基金项目:国家自然科学基金项目(91648205):航空科学基金 过程。在这一过程中基于计算机视觉的导引系统 项目(20185851022) 通信作者:段海滨.E-mail:hbduan@buaa.edu.cn 需要准确识别锥套,然后对其进行精细地特征提
DOI: 10.11992/tis.201909005 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20191012.1008.002.html 仿猛禽视顶盖信息中转整合的加油目标跟踪 李晗1,段海滨1,李淑宇2,丁希仑3 (1. 北京航空航天大学 自动化科学与电气工程学院,北京 100083; 2. 北京航空航天大学 生物与医学工程学院, 北京 100083; 3. 北京航空航天大学 机械工程及自动化学院,北京 100083) 摘 要:无人机自主空中加油是当前作战模式下非常重要的军事能力之一。空中加油对接阶段的视觉辅助导 引是对接阶段导航的研究重点,而加油目标跟踪则是其中的重要一环。本文通过对猛禽优异的视觉系统与视 觉导航能力的研究,发现其视觉通路中视顶盖的信息中转整合能力对于解决跟踪问题具有一定指导作用。通 过对这一信息处理模式的模拟,研究了一种仿猛禽交叉通路的神经网络,并针对空中加油视觉任务中可能出现 的目标丢失与再入问题,引入猛禽双中央凹扩大搜索策略,设计了一种完整的模拟猛禽视顶盖信息中转整合的 目标跟踪网络。仿真实验验证了所提方法的可行性和有效性。 关键词:自主空中加油;猛禽视觉;视顶盖;双凹结构;目标跟踪;神经网络 中图分类号:V249.32 文献标志码:A 文章编号:1673−4785(2019)06−1084−08 中文引用格式:李晗, 段海滨, 李淑宇, 等. 仿猛禽视顶盖信息中转整合的加油目标跟踪 [J]. 智能系统学报, 2019, 14(6): 1084–1091. 英文引用格式:LI Han, DUAN Haibin, LI Shuyu, et al. Aerial refueling target tracking using a falcon visual tectum information integrating like method[J]. CAAI transactions on intelligent systems, 2019, 14(6): 1084–1091. Aerial refueling target tracking using a falcon visual tectum information integrating like method LI Han1 ,DUAN Haibin1 ,LI Shuyu2 ,DING Xilun3 (1. School of Automation Science and Electrical Engineering, Beihang University, Beijing 100083, China; 2. School of Biological Science and Medical Engineering, Beihang University, Beijing 100083, China; 3. School of Mechanical Engineering and Automation, Beihang University, Beijing 100083, China) Abstract: Autonomous aerial refueling is one of the most important military capabilities under current combat situation In docking phase navigation, visual-aid guidance during the docking phase is a main research focus, of which the tracking of refueling target is an important part and challenge. During researching on the excellent visual system and visual navigation ability of falcon, it was found that the information transfer and integration ability of the visual tectum could help to solve the tracking problem. By simulating information processing mode, constructing a neural network with cross-pathway, and introducing the target out of view and reentry problem that may occur in the aerial refueling visual task, the raptor bifovea based searching strategy is introduced to construct a complete tracking method. Simulation and experiments are done to verify the feasibility and effectiveness of the proposed method. Keywords: autonomous aerial refueling; falcon visual system; tectum; bifovea; target tracking; neural net work 软式自主空中加油对接阶段的任务包括加/ 受油机到达指定加油区域后,从较远距离的双机 编队到双机逐渐接近直至受油插头插入锥套的全 过程。在这一过程中基于计算机视觉的导引系统 需要准确识别锥套,然后对其进行精细地特征提 收稿日期:2019−08−25. 网络出版日期:2019−10−12. 基金项目:国家自然科学基金项目 (91648205);航空科学基金 项目 (20185851022) 通信作者:段海滨. E-mail:hbduan@buaa.edu.cn. 第 14 卷第 6 期 智 能 系 统 学 报 Vol.14 No.6 2019 年 11 月 CAAI Transactions on Intelligent Systems Nov. 2019
第6期 李晗,等:仿猛禽视顶盖信息中转整合的加油目标跟踪 ·1085· 取,接着完成位姿估计等任务,从而指导飞行控 制系统和加油对接系统完成精准对接。这一阶段 视觉导航任务重要的一环就是对锥套目标的跟 踪,稳定的目标跟踪是视觉导引加/受油机进行编 正中参考线 队的必要条件,也是后续准确目标识别与精确位 深凹视线角度 姿测量的重要支撑。通过目标跟踪算法在图像中 圈选出目标识别与视觉测量的感兴趣区域,可以 大幅度减少这些视觉任务的计算量,提高计算速 度,从而满足空中编队与加油中计算机视觉实时 处理的需求。 颗侧浅凹 目标跟踪作为计算机视觉领域的经典问题, 一直以来饱受关注川,主要解决方法包括经典的 图1猛禽视网膜中央凹与视线角度示意图 目标跟踪算法,如光流法、粒子滤波等,基于相关 Fig.1 Bifovea structure and line of sight of falcon 滤波的方法,如核相关滤波器(kernel correlation 配合这样特别的双凹结构,猛禽脑内存在着 filter,.KCF)和基于学习的跟踪算法如高效卷积算 复杂的视觉信息处理通路。离顶盖通路是以视网 子跟踪(efficient convolution operators,ECO)及深 膜-视顶盖-圆核-外纹体为主要核团的视觉通 度学习跟踪(deep learning tracker,.DLT)等。但当 路,离丘脑通路是以视网膜-背外侧膝状体-视丘 目标发生姿态、明暗和尺度变化时,现有的许多 为主要核团的视觉通路。这两条通路将视网膜获 跟踪算法会出现目标漂移甚至跟踪失败等情况。 取信息以交叉的方式传递至脑内核团,处理得到 猛禽涵盖了鸟类传统分类系统中隼形目如老鹰、 目标特征的编码信息,并逐步整合传输至大脑同 秃管和鸮形目如猫头鹰的所有种,这一类的鸟多 侧的高级核团,实现视觉信息提取。此外,有研 具有捕杀动物为食的习性,视觉器官发达,飞翔 究结果显示脑内核团间也存在向对侧大脑传递信 能力强。猛禽能够稳定跟踪空中、地面以及水中 息的神经通路,并且在离丘脑通路与离顶盖通路 快速运动的猎物,除了依赖优秀的飞行能力,其 之间也存在特征信息的传递。在这样复杂的信息 视觉系统对目标的准确追踪功不可没。现有的 交互传递的过程中,视顶盖承担了信息传递中转 模拟猛禽视觉系统的硬件装置)与方法也已经 站的任务,以视顶盖为中心,总结离顶盖和离丘 有所成就,但仍存在很多可以进一步研究的方向 脑通路中与其相关的神经通路如图2所示,视觉 和内容。猛禽视觉通路中的视顶盖是其视觉信息 信息从视网膜输入,经由对侧视顶盖处理后向同 处理过程中的重要核团,不仅处理对侧视网膜输 侧和对侧圆核传递,视顶盖同时接收视丘输入的信息。 入的信息,还整合脑内同侧与对侧的圆核与视丘 传递的目标特征信息,这种双侧信息并行处理的 视网膜 视网膜 方式更适合于猛禽视网膜的双中央凹结构,并且 对于目标跟踪过程也具有一定的指导意义。本 文针对自主空中加油对接阶段目标跟踪的需求, 视顶盖 视顶盖 模拟猛禽脑内同侧与对侧信息在视顶盖整合处理 的机制,建立目标跟踪算法,并进行仿真试验与 视丘 视丘 对比分析。 1猛禽视顶盖的信息整合与交互处理 猛禽中隼形目视网膜的鼻侧和颢侧存在两个 圆核 圆核 中央凹,鼻侧凹较深,题侧凹较浅,是其视觉特性 图2视顶盖中心神经通路 尤为出色的重要因素,如图1所示6。由于两个 Fig.2 Tectum centered neural pathway 中央凹的观察方向不同,所以隼形目的视野范围 从图2可见,以视顶盖为中心的神经通路主 非常大,在水平方向上的视野(除盲区以外的区 要包括离顶盖通路的一部分(图中不包括与视顶 域)可以达到260°,在垂直方向上也能够达到80°。 盖无直接信息传递的外纹体)和离丘脑通路中的
取,接着完成位姿估计等任务,从而指导飞行控 制系统和加油对接系统完成精准对接。这一阶段 视觉导航任务重要的一环就是对锥套目标的跟 踪,稳定的目标跟踪是视觉导引加/受油机进行编 队的必要条件,也是后续准确目标识别与精确位 姿测量的重要支撑。通过目标跟踪算法在图像中 圈选出目标识别与视觉测量的感兴趣区域,可以 大幅度减少这些视觉任务的计算量,提高计算速 度,从而满足空中编队与加油中计算机视觉实时 处理的需求。 目标跟踪作为计算机视觉领域的经典问题, 一直以来饱受关注[1] ,主要解决方法包括经典的 目标跟踪算法,如光流法、粒子滤波等,基于相关 滤波的方法,如核相关滤波器 (kernel correlation filter,KCF) 和基于学习的跟踪算法如高效卷积算 子跟踪 (efficient convolution operators, ECO) 及深 度学习跟踪 (deep learning tracker, DLT) 等。但当 目标发生姿态、明暗和尺度变化时,现有的许多 跟踪算法会出现目标漂移甚至跟踪失败等情况。 猛禽涵盖了鸟类传统分类系统中隼形目如老鹰、 秃鹫和鸮形目如猫头鹰的所有种,这一类的鸟多 具有捕杀动物为食的习性,视觉器官发达,飞翔 能力强。猛禽能够稳定跟踪空中、地面以及水中 快速运动的猎物,除了依赖优秀的飞行能力,其 视觉系统对目标的准确追踪功不可没[2]。现有的 模拟猛禽视觉系统的硬件装置[3] 与方法[4] 也已经 有所成就,但仍存在很多可以进一步研究的方向 和内容。猛禽视觉通路中的视顶盖是其视觉信息 处理过程中的重要核团,不仅处理对侧视网膜输 入的信息,还整合脑内同侧与对侧的圆核与视丘 传递的目标特征信息,这种双侧信息并行处理的 方式更适合于猛禽视网膜的双中央凹结构,并且 对于目标跟踪过程也具有一定的指导意义[5]。本 文针对自主空中加油对接阶段目标跟踪的需求, 模拟猛禽脑内同侧与对侧信息在视顶盖整合处理 的机制,建立目标跟踪算法,并进行仿真试验与 对比分析。 1 猛禽视顶盖的信息整合与交互处理 猛禽中隼形目视网膜的鼻侧和颞侧存在两个 中央凹,鼻侧凹较深,颞侧凹较浅,是其视觉特性 尤为出色的重要因素,如图 1 所示[6]。由于两个 中央凹的观察方向不同,所以隼形目的视野范围 非常大,在水平方向上的视野 (除盲区以外的区 域) 可以达到 260°,在垂直方向上也能够达到 80°。 正中参考线 深凹视线角度 颞侧浅凹 图 1 猛禽视网膜中央凹与视线角度示意图 Fig. 1 Bifovea structure and line of sight of falcon 配合这样特别的双凹结构,猛禽脑内存在着 复杂的视觉信息处理通路。离顶盖通路是以视网 膜−视顶盖−圆核−外纹体为主要核团的视觉通 路,离丘脑通路是以视网膜−背外侧膝状体−视丘 为主要核团的视觉通路。这两条通路将视网膜获 取信息以交叉的方式传递至脑内核团,处理得到 目标特征的编码信息,并逐步整合传输至大脑同 侧的高级核团,实现视觉信息提取。此外,有研 究结果显示脑内核团间也存在向对侧大脑传递信 息的神经通路,并且在离丘脑通路与离顶盖通路 之间也存在特征信息的传递。在这样复杂的信息 交互传递的过程中,视顶盖承担了信息传递中转 站的任务,以视顶盖为中心,总结离顶盖和离丘 脑通路中与其相关的神经通路如图 2 所示,视觉 信息从视网膜输入,经由对侧视顶盖处理后向同 侧和对侧圆核传递,视顶盖同时接收视丘输入的信息。 视顶盖 视顶盖 视网膜 视网膜 圆核 圆核 视丘 视丘 图 2 视顶盖中心神经通路 Fig. 2 Tectum centered neural pathway 从图 2 可见,以视顶盖为中心的神经通路主 要包括离顶盖通路的一部分 (图中不包括与视顶 盖无直接信息传递的外纹体) 和离丘脑通路中的 第 6 期 李晗,等:仿猛禽视顶盖信息中转整合的加油目标跟踪 ·1085·
·1086· 智能系统学报 第14卷 视丘。研究认为离顶盖通路主要检测获得目标的 传递整合机制,加入不同特征层之间的融合操作 形状、颜色、亮度和空间细节等信息,完成视觉系 (Concat),整合低级形状纹理特征的同时,提取出 统的“模式识别”功能:视丘作为离丘脑通路的中 两者的高级抽象特征:最终在待跟踪图片特征图 枢环节,主要获取目标的运动朝向、背景情况和 上使用目标模板的特征图进行卷积得到卷积响应 视觉定位等信息。由于视丘和视顶盖之间存在 图。响应最大的区域即为目标的跟踪结果,根据 信息传递,认为视顶盖处理的目标运动信息极有 特征图和原图的比例关系,进行等比例放缩完成 可能来源于视丘。猛禽脑内核团中的圆核与哺乳 目标跟踪的任务。整个网络的框架如图3所示。 的丘脑枕后外侧核同源,而丘脑在哺乳动物中的 单通路信息输入 一个任务就是实现前景与背景的分辨。那么以视 顶盖为中心的部分视觉信息脑处理通路的任务可 以总结为:视觉信息经由视网膜输入后,传递向 对侧视顶盖,提取出目标的部分特征后,传递至 单侧信息整合 视丘;视丘接收到离丘脑通路处理得到目标的方 的特征提取 向位置等运动信息,结合从视顶盖收到的特征反 向回传至视顶盖:对侧的视顶盖之间通过顶盖上 联合和顶盖下联合两个半脑间连接,实现信息在 左右半脑之间的传递;视顶盖整合所有浅层特征 与信息后,传递至圆核,由圆核进一步进行目标 视顶盖双侧信息整合 的几何形状、亮度、颜色和精细空间结构的特征 辨识处理。 卷积生成 响应图 这一部分视觉信息传递过程中的一个重要特 点与作用是打破了视觉信息传递过程中交叉传递 的壁垒,实现了双侧脑之间的信息融合,包括双 侧视顶盖之间的信息传递、视丘向同侧视顶盖的 信息传递、视顶盖向对侧视丘的信息传递以及视 顶盖向同侧和对侧圆核的信息传递。经过这种传 递机制,实现了双眼获取视觉信息在对侧半脑处 理后的整合调制。 图3目标跟踪总体框架 Fig.3 Framework of the target tracking method 2仿猛禽交叉通路的神经网络 图3中输入部分的左图为锥套目标模板图 2.1网络的基本结构 像,右图为待跟踪图像,在跟踪算法中以第一帧 目标跟踪的任务是在已知视频序列第一帧中 的目标位置和图像作为标准,两幅图像都经过模 目标位置与尺寸的情况下,预测后续视频序列中 拟猛禽单侧特征提取网络提取特征,主要包括卷 这一目标的大小和位置。通常人为框选初始目 积神经网络常用的卷积层、池化层以及非线性激 标,由跟踪算法在下一帧中计算出多个候选框, 活函数,进而得到两者的特征图。以模板图像的 然后提取候选框内的图像特征,并基于特征对这 特征图作为卷积核,对待跟踪图像的特征图进行 些候选框进行评分,最后选择一个得分最高的候 卷积操作,得到的卷积响应图,即为待跟踪图像 选框作为预测的目标,或者融合多个预测值从而 中各个位置与目标模板的相似度值,卷积响应图 得到更优的预测结果。本文根据视顶盖信息整合 中较亮的部分即为目标跟踪的响应最大位置也即 与交互的特征处理系统,设计了一种模拟交叉通 跟踪结果。 路的神经网络,跳出双通路信息依赖双目视觉分 总体来说,仿猛禽交叉通路卷积网络提取整 别获取的思维框架,将单镜头获取的图像分为两 个待跟踪图像和模板图像的特征,直接卷积计算 路进行处理。首先输入目标模板图像和待跟踪的 两特征图的相似度找到目标位置,相较于传统网 图像,作为交叉通路的两路信息,模拟猛禽视顶 络方法通过遍历的方式生成候选框后对每个候选 盖与视丘的神经网络特征提取层,对两幅图像进 框提取特征再进行比对的方法,减少了计算量, 行特征提取;然后模拟视丘-视顶盖-圆核的特征 节省了计算时间
视丘。研究认为离顶盖通路主要检测获得目标的 形状、颜色、亮度和空间细节等信息,完成视觉系 统的“模式识别”功能;视丘作为离丘脑通路的中 枢环节,主要获取目标的运动朝向、背景情况和 视觉定位等信息[7]。由于视丘和视顶盖之间存在 信息传递,认为视顶盖处理的目标运动信息极有 可能来源于视丘。猛禽脑内核团中的圆核与哺乳 的丘脑枕后外侧核同源,而丘脑在哺乳动物中的 一个任务就是实现前景与背景的分辨。那么以视 顶盖为中心的部分视觉信息脑处理通路的任务可 以总结为:视觉信息经由视网膜输入后,传递向 对侧视顶盖,提取出目标的部分特征后,传递至 视丘;视丘接收到离丘脑通路处理得到目标的方 向位置等运动信息,结合从视顶盖收到的特征反 向回传至视顶盖;对侧的视顶盖之间通过顶盖上 联合和顶盖下联合两个半脑间连接,实现信息在 左右半脑之间的传递;视顶盖整合所有浅层特征 与信息后,传递至圆核,由圆核进一步进行目标 的几何形状、亮度、颜色和精细空间结构的特征 辨识处理[8]。 这一部分视觉信息传递过程中的一个重要特 点与作用是打破了视觉信息传递过程中交叉传递 的壁垒,实现了双侧脑之间的信息融合,包括双 侧视顶盖之间的信息传递、视丘向同侧视顶盖的 信息传递、视顶盖向对侧视丘的信息传递以及视 顶盖向同侧和对侧圆核的信息传递。经过这种传 递机制,实现了双眼获取视觉信息在对侧半脑处 理后的整合调制。 2 仿猛禽交叉通路的神经网络 2.1 网络的基本结构 目标跟踪的任务是在已知视频序列第一帧中 目标位置与尺寸的情况下,预测后续视频序列中 这一目标的大小和位置。通常人为框选初始目 标,由跟踪算法在下一帧中计算出多个候选框, 然后提取候选框内的图像特征,并基于特征对这 些候选框进行评分,最后选择一个得分最高的候 选框作为预测的目标,或者融合多个预测值从而 得到更优的预测结果。本文根据视顶盖信息整合 与交互的特征处理系统,设计了一种模拟交叉通 路的神经网络,跳出双通路信息依赖双目视觉分 别获取的思维框架,将单镜头获取的图像分为两 路进行处理。首先输入目标模板图像和待跟踪的 图像,作为交叉通路的两路信息,模拟猛禽视顶 盖与视丘的神经网络特征提取层,对两幅图像进 行特征提取;然后模拟视丘−视顶盖−圆核的特征 传递整合机制,加入不同特征层之间的融合操作 (Concat),整合低级形状纹理特征的同时,提取出 两者的高级抽象特征;最终在待跟踪图片特征图 上使用目标模板的特征图进行卷积得到卷积响应 图。响应最大的区域即为目标的跟踪结果,根据 特征图和原图的比例关系,进行等比例放缩完成 目标跟踪的任务。整个网络的框架如图 3 所示。 单侧信息整合 的特征提取 卷积生成 响应图 单通路信息输入 视顶盖双侧信息整合 图 3 目标跟踪总体框架 Fig. 3 Framework of the target tracking method 图 3 中输入部分的左图为锥套目标模板图 像,右图为待跟踪图像,在跟踪算法中以第一帧 的目标位置和图像作为标准,两幅图像都经过模 拟猛禽单侧特征提取网络提取特征,主要包括卷 积神经网络常用的卷积层、池化层以及非线性激 活函数,进而得到两者的特征图。以模板图像的 特征图作为卷积核,对待跟踪图像的特征图进行 卷积操作,得到的卷积响应图,即为待跟踪图像 中各个位置与目标模板的相似度值,卷积响应图 中较亮的部分即为目标跟踪的响应最大位置也即 跟踪结果。 总体来说,仿猛禽交叉通路卷积网络提取整 个待跟踪图像和模板图像的特征,直接卷积计算 两特征图的相似度找到目标位置,相较于传统网 络方法通过遍历的方式生成候选框后对每个候选 框提取特征再进行比对的方法,减少了计算量, 节省了计算时间。 ·1086· 智 能 系 统 学 报 第 14 卷
第6期 李晗,等:仿猛禽视顶盖信息中转整合的加油目标跟踪 ·1087· 目标模板图像和待跟踪图像共用同一特征提 尺寸也不同,具体的卷积层、池化层的参数设置 取网络,由于二者图像尺寸差异,各自的特征图 如表1所示。 表1网络参数设置 Table 1 Parameters of the network 卷积池化层 卷积核尺寸 步长 填充像素 模板图尺寸 跟踪图尺寸 通道数 输入图像 137×137 265×265 Conv1 11×11 2 0 64×64 128×128 64 Pool 2×2 2 0 32×32 64×64 128 Conv2 5x5 1 0 28×28 60×60 128 Pool2 2×2 2 0 14×14 30×30 128 Conv3 3×3 1 14×14 30×30 128 Pools 2×2 2 0 7×7 15x15 128 Conva 3×3 7×7 15×15 128 Convs 3x3 0 5x5 13×13 384 在较低层的特征图中,卷积核的尺寸采用了 2×2的尺寸并且步长为2。在Concat操作中,由 11×11和5×5的卷积大小,这样可以在低层特征 于要对不同特征图统一尺寸进行整合,因此需要 图中取得较大的感受野,保留更多的低级特征, 对较大的特征图进行下采样以获得一致的尺寸, 后面的卷积核采用3×3的常规卷积核大小。池 主要涉及到的特征图为第2、3和4层的特征图, 化层根据需要对特征图降采样的特性,都采用了 具体参数如表2所示。 表2 Concat层参数 Table 2 Table 1 Parameters of the Concat layer Concat层 卷积池化层 卷积核尺寸 步长 模板图尺寸 跟踪图尺寸 通道数 Convz-Conv4 1×1 1 28 60 128 Conv2-Conv4 Poolz-Poola 4×4 > 15 128 ConvConv4 1×1 14 30 128 Conv3Conv4 Pool~Poola 2×2 7 15 128 Concat2-3-4 - > 15 384 Conv2~Conv4指从第2层特征图整合到第 (y,)log(1+exp(-y*v)) (1) 4层特征图之前需要进行卷积以及下采样,同样 式中:v是卷积响应图中每个点真实值;y∈(+1,-1 的,Conv:~Conv,指从第3层特征图整合到第4层 是这个点所对应的标签。式(1)描述的是卷积响 特征图,两者的下采样均采用了1×1卷积核以及 应图中每个点的loss值,卷积响应图的整体loss, 相对应大小的池化层来完成。 使用全部点loss的均值描述,即: 2.2双通路神经网络参数训练与优化 L0y,)= 2.2.1损失函数 之ot (2) 其中u∈D代表卷积响应图中对应点的位置。 在神经网络的训练过程中,通过最小化损失 2.2.2卷积响应相关度函数 函数并不断缩小误差才能获取最优模型。本文算 提取到目标模板和待跟踪图像的特征后,由 法为了构造有效的损失函数,对搜索区域内的位 卷积响应的相关度计算相似度,其中相似度函数 置点进行了正负样本的区分,即认为目标一定范 选用交叉相关函数,如下所示: 围内的点是正样本,认为这一范围外的点是负样 f(3,)=()*p()+lbl1 (3) 本,损失函数为逻辑回归损失,具体的损失函数 式中:z代表输入模板图像;x代表输入待跟踪图 形式如下,最终的卷积响应图中每个点的损失为 像;p是提取特征的网络。将()作为卷积核,在
目标模板图像和待跟踪图像共用同一特征提 取网络,由于二者图像尺寸差异,各自的特征图 尺寸也不同,具体的卷积层、池化层的参数设置 如表 1 所示。 表 1 网络参数设置 Table 1 Parameters of the network 卷积/池化层 卷积核尺寸 步长 填充像素 模板图尺寸 跟踪图尺寸 通道数 输入图像 − − − 137×137 265×265 3 Conv1 11×11 2 0 64×64 128×128 64 Pool1 2×2 2 0 32×32 64×64 128 Conv2 5×5 1 0 28×28 60×60 128 Pool2 2×2 2 0 14×14 30×30 128 Conv3 3×3 1 2 14×14 30×30 128 Pool3 2×2 2 0 7×7 15×15 128 Conv4 3×3 1 2 7×7 15×15 128 Conv5 3×3 1 0 5×5 13×13 384 11×11 5×5 3×3 在较低层的特征图中,卷积核的尺寸采用了 和 的卷积大小,这样可以在低层特征 图中取得较大的感受野,保留更多的低级特征, 后面的卷积核采用 的常规卷积核大小。池 化层根据需要对特征图降采样的特性,都采用了 2×2 的尺寸并且步长为 2。在 Concat 操作中,由 于要对不同特征图统一尺寸进行整合,因此需要 对较大的特征图进行下采样以获得一致的尺寸, 主要涉及到的特征图为第 2、3 和 4 层的特征图, 具体参数如表 2 所示。 表 2 Concat 层参数 Table 2 Table 1 Parameters of the Concat layer Concat层 卷积/池化层 卷积核尺寸 步长 模板图尺寸 跟踪图尺寸 通道数 Conv2~Conv4 Conv2~Conv4 1×1 1 28 60 128 Pool2~Pool4 4×4 4 7 15 128 Conv3~Conv4 Conv3~Conv4 1×1 1 14 30 128 Pool3~Pool4 2×2 2 7 15 128 Concat2-3-4 − − − 7 15 384 1×1 Conv2~Conv4 指从第 2 层特征图整合到第 4 层特征图之前需要进行卷积以及下采样,同样 的,Conv3~Conv4 指从第 3 层特征图整合到第 4 层 特征图,两者的下采样均采用了 卷积核以及 相对应大小的池化层来完成。 2.2 双通路神经网络参数训练与优化 2.2.1 损失函数 在神经网络的训练过程中,通过最小化损失 函数并不断缩小误差才能获取最优模型。本文算 法为了构造有效的损失函数,对搜索区域内的位 置点进行了正负样本的区分,即认为目标一定范 围内的点是正样本,认为这一范围外的点是负样 本,损失函数为逻辑回归损失,具体的损失函数 形式如下,最终的卷积响应图中每个点的损失为 l(y, v) = log(1+exp(−y ∗ v)) (1) 式中: v 是卷积响应图中每个点真实值; y ∈ {+1,−1} 是这个点所对应的标签。式 (1) 描述的是卷积响 应图中每个点的 loss 值,卷积响应图的整体 loss, 使用全部点 loss 的均值描述,即: L(y, v) = 1 |D| ∑ u∈D l(y[u], v[u]) (2) 其中 u ∈ D 代表卷积响应图中对应点的位置。 2.2.2 卷积响应相关度函数 提取到目标模板和待跟踪图像的特征后,由 卷积响应的相关度计算相似度,其中相似度函数 选用交叉相关函数,如下所示: f(z, x) = φ(z) ∗φ(x)+∥b∥1 (3) z x φ φ(z) 式中: 代表输入模板图像; 代表输入待跟踪图 像; 是提取特征的网络。将 作为卷积核,在 第 6 期 李晗,等:仿猛禽视顶盖信息中转整合的加油目标跟踪 ·1087·
·1088· 智能系统学报 第14卷 (x)上进行卷积,相似度大的地方,卷积响应值就 根据猛禽的双凹-眼动特性,设计一种局部 大,对应的就是目标z在x中的位置。 全局的搜索策略,用于长时目标跟踪。图像通过 2.2.3非线性激活层 模拟交叉通路的神经网络得到卷积响应图后,对 神经网络中的非线性激活函数主要是为了给 图像中响应区域求取均值,得到图中个备选目 神经网络加入一些非线性因素,使得神经网络可 标区域。使用非极大值抑制(non-maximum sup- 以更好地解决较为复杂的非线性问题。ReLU pression,NMS)方法,选出当前图像中响应值最 函数实际上是一个分段的线性函数,小于零的输 大的目标,即s,然后选出图像中k个非极大响应 入都会得到零输出,而正值则保持不变,类似于 区域r进行重新排序,得到最终选择的目标备选 单侧抑制。而ReLU的非线性正是通过这种类 序列q有: 似单侧抑制的方法,增加了神经网络参数的稀疏 af(p,Tk) 性。由于ReLU在正数区间为常数形式,在负数 q arg max f(s,r)- (5) 区间为零,所以不存在由于梯度过小而发生梯度 nER 消失的情况.函数形式如下: Relu(x)= x,x>0 式中:f)表示计算两个响应区域之间的相似性, 】0.x≤0 (4) 也即响应大小的差异;R为选择的,个非极大值 式中x为神经元的输出。ReLU非线性激活函数 响应区域的集合;à为控制全部非极大响应区域 相较于需要计算指数的Sigmoid函数来说,实质 对下一帧图像影响的总权重系数;:为控制单个 是一个比较函数,计算量很小,针对神经网络中 非极大响应区域对下一帧图像影响的权重系数。 庞大的神经元计算量来说,大大提高了效率,同 从式(5)可以看出,这一步骤的意义在于当前响 时也避免了梯度消失问题。 应区域和极大响应区域之间计算相似度后,减去 2.3双凹扩大搜索策略的目标跟踪 当前区域与全部备选响应区域相似度的加权和。 在目标跟踪过程中,一个重要的难点就是当 也即,猛禽在利用双凹大视场确定视觉注意区域 目标遇到遮挡或飞出图像后,如何在其再次出现 后,通过快速眼动逐一对比排除非最佳目标的注 或重新进入图像时继续进行跟踪。很多目标跟踪 意区域,并对部分区域进行记忆,用于后续排除 算法为了节省计算时间,提高跟踪帧率,在跟踪 目标。由于每次计算的时间复杂度和空间复杂度 过程中不对跟踪器做在线修改,但是这样就无法 较高,为了降低时间和空间复杂度,根据式(3)可 应对跟踪场景与目标发生剧烈变化的情况。此 将式(5)写为 外,还有一部分跟踪算法在目标丢失时使用局部 Pi 搜索策略,只在最后识别到目标的图像位置附近 q arg max (r) (6) 做搜索,无法应对长时跟踪时难以避免的目标完 nER 全遮挡和离开图像的问题。 O'Rourke对于红尾鹰、库氏鹰和美洲隼这 以学习率B,对目标模板和干扰项进行增量学 3种日行性猛禽的感受野结构的研究结果显示, 习,如式(7): 这些不同物种的日行性猛禽的感受野结构上的差 (s,) Ba an(p.) 异与捕食采用的搜索策略以及在环境中的视觉障 =1 i=1 gr+1 arg max or) 碍角度(例如栖息地的开放程度)相关,而不同物 几E员 种间的眼动角度差异则与觅食策略相关。此外, 22 猛禽双目区域和视觉盲区的大小会由于眼动产生 (7) 巨大差异,物种间的视觉区域和眼动则会影响栖 式(7)通过将现有的相似性矩阵转移到另一 息过程中的搜索和猎物追踪策略。在视场角有 个特定的域内降低计算量,加快了算法的运行速度。 限的情况下,尽量利用双凹的视觉敏锐度可变特 当目标由于遮挡等原因在原位置消失,或脱 性,结合眼动与头动调整最高视觉敏锐度的视野 离图像范围再次进入时,用深凹一浅凹的视觉焦 位置,实现对于目标的搜索”。这种搜索策略不 点转移方式,扩大聚焦范围,重新在浅凹对准的 仅适用于目标不确定情况下的目标分辨,也同样 更大范围内搜索确定目标,也就是目标跟踪过程 适用于目标遮挡或从场景中消失再入的重新搜索 中的再入搜索。在本跟踪方法中,对响应区域的 情况。 得分设定门限值,当图像极大响应区域的得分均
φ(x) z x 上进行卷积,相似度大的地方,卷积响应值就 大,对应的就是目标 在 中的位置。 2.2.3 非线性激活层 神经网络中的非线性激活函数主要是为了给 神经网络加入一些非线性因素,使得神经网络可 以更好地解决较为复杂的非线性问题。ReLU 函数实际上是一个分段的线性函数,小于零的输 入都会得到零输出,而正值则保持不变,类似于 单侧抑制[9]。而 ReLU 的非线性正是通过这种类 似单侧抑制的方法,增加了神经网络参数的稀疏 性。由于 ReLU 在正数区间为常数形式,在负数 区间为零,所以不存在由于梯度过小而发生梯度 消失的情况,函数形式如下: Relu(x) = { x, x > 0 0, x ⩽ 0 (4) 式中 x 为神经元的输出。ReLU 非线性激活函数 相较于需要计算指数的 Sigmoid 函数来说,实质 是一个比较函数,计算量很小,针对神经网络中 庞大的神经元计算量来说,大大提高了效率,同 时也避免了梯度消失问题。 2.3 双凹扩大搜索策略的目标跟踪 在目标跟踪过程中,一个重要的难点就是当 目标遇到遮挡或飞出图像后,如何在其再次出现 或重新进入图像时继续进行跟踪。很多目标跟踪 算法为了节省计算时间,提高跟踪帧率,在跟踪 过程中不对跟踪器做在线修改,但是这样就无法 应对跟踪场景与目标发生剧烈变化的情况。此 外,还有一部分跟踪算法在目标丢失时使用局部 搜索策略,只在最后识别到目标的图像位置附近 做搜索,无法应对长时跟踪时难以避免的目标完 全遮挡和离开图像的问题。 O’Rourke 对于红尾鹰、库氏鹰和美洲隼这 3 种日行性猛禽的感受野结构的研究结果显示, 这些不同物种的日行性猛禽的感受野结构上的差 异与捕食采用的搜索策略以及在环境中的视觉障 碍角度 (例如栖息地的开放程度) 相关,而不同物 种间的眼动角度差异则与觅食策略相关。此外, 猛禽双目区域和视觉盲区的大小会由于眼动产生 巨大差异,物种间的视觉区域和眼动则会影响栖 息过程中的搜索和猎物追踪策略[10]。在视场角有 限的情况下,尽量利用双凹的视觉敏锐度可变特 性,结合眼动与头动调整最高视觉敏锐度的视野 位置,实现对于目标的搜索[11]。这种搜索策略不 仅适用于目标不确定情况下的目标分辨,也同样 适用于目标遮挡或从场景中消失再入的重新搜索 情况。 n st k r q 根据猛禽的双凹−眼动特性,设计一种局部− 全局的搜索策略,用于长时目标跟踪。图像通过 模拟交叉通路的神经网络得到卷积响应图后,对 图像中响应区域求取均值,得到图中 个备选目 标区域。使用非极大值抑制 (non-maximum suppression,NMS)[12] 方法,选出当前图像中响应值最 大的目标,即 ,然后选出图像中 个非极大响应 区域 进行重新排序,得到最终选择的目标备选 序列 有: q = argmax rk∈R f(s,rk)− αˆ ∑n i=1 αi f(pi ,rk) ∑n i=1 αi (5) f(·) R r αˆ αi 式中: 表示计算两个响应区域之间的相似性, 也即响应大小的差异; 为选择的 个非极大值 响应区域的集合; 为控制全部非极大响应区域 对下一帧图像影响的总权重系数; 为控制单个 非极大响应区域对下一帧图像影响的权重系数。 从式 (5) 可以看出,这一步骤的意义在于当前响 应区域和极大响应区域之间计算相似度后,减去 当前区域与全部备选响应区域相似度的加权和。 也即,猛禽在利用双凹大视场确定视觉注意区域 后,通过快速眼动逐一对比排除非最佳目标的注 意区域,并对部分区域进行记忆,用于后续排除 目标。由于每次计算的时间复杂度和空间复杂度 较高,为了降低时间和空间复杂度,根据式 (3) 可 将式 (5) 写为 q = argmax rk∈R φ(s)− αˆ ∑n i=1 αiφ(pi) ∑n i=1 αi ∗φ(rk) (6) 以学习率 βt 对目标模板和干扰项进行增量学 习,如式 (7): qT+1 = argmax rk∈R ∑T t=1 βtφ(st) ∑T t=1 βt − ∑T t=1 βtαˆ ∑n i=1 αiφ(pi ,t) ∑T t=1 βt ∑n i=1 αi ∗φ(rk) (7) 式 (7) 通过将现有的相似性矩阵转移到另一 个特定的域内降低计算量,加快了算法的运行速度。 当目标由于遮挡等原因在原位置消失,或脱 离图像范围再次进入时,用深凹−浅凹的视觉焦 点转移方式,扩大聚焦范围,重新在浅凹对准的 更大范围内搜索确定目标,也就是目标跟踪过程 中的再入搜索。在本跟踪方法中,对响应区域的 得分设定门限值,当图像极大响应区域的得分均 ·1088· 智 能 系 统 学 报 第 14 卷
第6期 李晗,等:仿猛禽视顶盖信息中转整合的加油目标跟踪 ·1089· 低于门限值时,认为目标从当前图像中消失,需 针对自动空中加油问题,搭建了基于旋翼无 要进行再入搜索。以当前帧计算确定的候选响应 人机的空中验证平台。使用两架旋翼机模拟软式 区域中得分最高的区域作为搜索中心,以固定步 空中加油过程中的加油机与受油机。模拟加油机 长为扩大搜索半径,逐步扩大目标搜索区域,直 上搭载锥套标识,模拟受油机搭载摄像头,采集 至找到目标或完成对序列中全部目标的扩大搜索。 加油机与锥套图像,并进行跟踪。跟踪结果如图4 所示。 3仿真实验与结果分析 可以看出,当目标较为稳定地存在于图像中 在视觉目标跟踪(Visual Object Tracking, 时,本文所述方法可以连续并且准确地对目标进 V0T)2017数据集11上对本文算法进行测试,并 行跟踪,如图4(a)所示;即使目标在图像中变得 与ECo、DLTs、互补学习(staple)和全卷积 较小,并且与背景区域相近,本文所述方法仍能 够对实现对目标存在一定形变与误差的跟踪,如 孪生网络(fully-.convolutional siames network,.Siam- 图4(b)所示;当目标从图像中消失时,本方法可 FC)Im进行对比。在使用NMS方法选定候选目 以根据双凹搜索策略,对目标进行扩大范围的搜 标时,留选得分在0.8~0.95之间的目标作为候选 索,如图4(c)所示;当目标再次出现在图像中时, 目标,式(5)中总权重系数设置为0.5,单响应 可以重新搜索得到这一目标,进行继续跟踪,如 区域的权重系数a:设置为1。式(7)中学习率 图4(d)所示。 A-之-1-r其中7=01。对于再人目标的 扩大搜索,根据候选区域的得分,当区域得分小 于0.8时,认为目标从图像中消失,则以这一区域 为搜索中心,68像素为扩大搜索半径在扩大的搜 索范围内重新寻找目标,当得分大于0.95时认为 (a)目标稳定状态 (b)目标距离较远 重新寻找得到目标。结果如表3所示,其中准确 率是指算法目标跟踪结果的精确度,也就是圈选 出的目标框与实际真值之间的交并比。当圈选位 置与目标之间没有重叠时,认为跟踪失败,并在 5帧后重新初始化跟踪器,失败次数占视频总数 的比例就是鲁棒性。平均覆盖率是VOT数据集 (C)目标从图像中消失 (d)目标再入搜索 定义的量化准确率与鲁棒性平衡结果的指标,跟 图4目标跟踪结果示意图 踪精度与连续跟踪帧数都在这一指标中有所体现。 Fig.4 Result of the target tracking 表3算法在V0T2017数据集结果对比 对于目标跟踪的精度进行定量分析,比较每 Table 3 Performance comparison on VOT2017 帧图像中目标的中心坐标和跟踪区域的中心图 跟踪器 准确率 鲁棒性 平均覆盖率 像坐标,计算出两者间的像素误差,所得结果如 ECO 0.48 0.27 0.280 图5所示。 DLT 0.49 0.32 0.267 50 45 SiamFC 0.50 0.59 0.188 Staple 0.52 0.69 0.169 3 本文方法 0.51 0.27 0.317 2 如表3所示,本文所述方法跟踪精度仅略逊 15 于Staple,鲁棒性与ECO相当,但是平均覆盖率结 0 果最好,可见本方法对于精度与鲁棒性的平衡结 40 80 120 160 200 果较好。由于空中加油问题后续对于跟踪区域进 图像帧数F 行进一步的计算,所以跟踪精度并不会对加油任 图5目标跟踪误差曲线 务的完成造成太大影响。 Fig.5 Curve of target tracking error
低于门限值时,认为目标从当前图像中消失,需 要进行再入搜索。以当前帧计算确定的候选响应 区域中得分最高的区域作为搜索中心,以固定步 长为扩大搜索半径,逐步扩大目标搜索区域,直 至找到目标或完成对序列中全部目标的扩大搜索。 3 仿真实验与结果分析 αˆ αi βt= ∑t−1 i=0 ( η ·(1−η) −1 )i η=0.01 在视觉目标跟踪 (Visual Object Tracking, VOT)2017 数据集[13] 上对本文算法进行测试,并 与 ECO[14] 、DLT[15] 、互补学习 (staple)[16] 和全卷积 孪生网络 (fully-convolutional siames network, SiamFC)[17] 进行对比。在使用 NMS 方法选定候选目 标时,留选得分在 0.8~0.95 之间的目标作为候选 目标,式 (5) 中总权重系数 设置为 0.5,单响应 区域的权重系数 设置为 1。式 (7) 中学习率 ,其中 。对于再入目标的 扩大搜索,根据候选区域的得分,当区域得分小 于 0.8 时,认为目标从图像中消失,则以这一区域 为搜索中心,68 像素为扩大搜索半径在扩大的搜 索范围内重新寻找目标,当得分大于 0.95 时认为 重新寻找得到目标。结果如表 3 所示,其中准确 率是指算法目标跟踪结果的精确度,也就是圈选 出的目标框与实际真值之间的交并比。当圈选位 置与目标之间没有重叠时,认为跟踪失败,并在 5 帧后重新初始化跟踪器,失败次数占视频总数 的比例就是鲁棒性。平均覆盖率是 VOT 数据集 定义的量化准确率与鲁棒性平衡结果的指标,跟 踪精度与连续跟踪帧数都在这一指标中有所体现。 表 3 算法在 VOT2017 数据集结果对比 Table 3 Performance comparison on VOT2017 跟踪器 准确率 鲁棒性 平均覆盖率 ECO 0.48 0.27 0.280 DLT 0.49 0.32 0.267 SiamFC 0.50 0.59 0.188 Staple 0.52 0.69 0.169 本文方法 0.51 0.27 0.317 如表 3 所示,本文所述方法跟踪精度仅略逊 于 Staple,鲁棒性与 ECO 相当,但是平均覆盖率结 果最好,可见本方法对于精度与鲁棒性的平衡结 果较好。由于空中加油问题后续对于跟踪区域进 行进一步的计算,所以跟踪精度并不会对加油任 务的完成造成太大影响。 针对自动空中加油问题,搭建了基于旋翼无 人机的空中验证平台。使用两架旋翼机模拟软式 空中加油过程中的加油机与受油机。模拟加油机 上搭载锥套标识,模拟受油机搭载摄像头,采集 加油机与锥套图像,并进行跟踪。跟踪结果如图 4 所示。 可以看出,当目标较为稳定地存在于图像中 时,本文所述方法可以连续并且准确地对目标进 行跟踪,如图 4(a) 所示;即使目标在图像中变得 较小,并且与背景区域相近,本文所述方法仍能 够对实现对目标存在一定形变与误差的跟踪,如 图 4(b) 所示;当目标从图像中消失时,本方法可 以根据双凹搜索策略,对目标进行扩大范围的搜 索,如图 4(c) 所示;当目标再次出现在图像中时, 可以重新搜索得到这一目标,进行继续跟踪,如 图 4(d) 所示。 (a) 目标稳定状态 (b) 目标距离较远 (c) 目标从图像中消失 (d) 目标再入搜索 图 4 目标跟踪结果示意图 Fig. 4 Result of the target tracking 对于目标跟踪的精度进行定量分析,比较每 一帧图像中目标的中心坐标和跟踪区域的中心图 像坐标,计算出两者间的像素误差,所得结果如 图 5 所示。 50 45 40 35 30 25 20 15 10 5 0 40 80 120 160 200 图像帧数/f 中心坐标误差/pix 图 5 目标跟踪误差曲线 Fig. 5 Curve of target tracking error 第 6 期 李晗,等:仿猛禽视顶盖信息中转整合的加油目标跟踪 ·1089·
·1090· 智能系统学报 第14卷 图5中横坐标为目标跟踪序列的帧数,纵坐 过程中的跟踪误差都较小,基本维持在20个像素 标为以像素为单位的目标的跟踪误差。从结果中 左右,跟踪效果较好。使用NVIDIA1080Ti的 可以看出,在跟踪开始时,对目标的跟踪比较稳 GPU,i7-8700k的CPU进行5个目标的跟踪任务 定,但随着目标的远离,跟踪误差变大,但是在跟 时,处理速度可达45fs。 踪的全过程中,跟踪区域的中心和目标中心相 0 0 无人机1 差50个像素以内。此外,值得一提的是,使用 人机2 NVIDIA1080Ti的GPU,CPU为i7-8700k的地面 50 处理器进行离线跟踪测试时,本文所述方法的计 40 无人机5 算速度可达110fs。 30 20 此外,由于本方法同样适用于多目标跟踪问 10 题,针对自主空中加油过程中的伙伴加油问题, 50100150200250300350400 测试了本方法对于多目标的跟踪情况,结果如图6 图像帧数作 所示。 图7多目标跟踪误差曲线 Fig.7 Curve of multi target tracking error 4结束语 猛禽视觉系统作为其最强大的感知系统,能 够处理很多相对复杂的视觉信息,猛禽获取周围 物体的颜色和形状等属性、物体的位置和物体之 间的相对位置关系以及发现并稳定跟踪目标的机 (a)跟踪起始帧 制,可以为解决自主空中加油过程中的相关任务 提供部分思路。 本文对猛禽视觉通路中的一个环节一视顶 盖的信息整合与交互处理进行了模拟,并根据其 双凹与眼动的视觉特性建立了较为简单的神经网 (b)跟踪目标重叠 (c)跟踪目标恢复 络用于目标跟踪。模拟自主空中加油系统中的视 觉导引阶段进行了测试,验证了本文所述方法对 于受油目标跟踪的有效性,特别是对于长时跟踪 任务可能出现的目标从场景中丢失与再人环节, 本文所述方法具有一定的优越性。由于本算法的 (d)跟踪目标误识别 (©)跟踪目标恢复 计算速度较快,图像处理帧率较高,对于跟踪过 图6目标跟踪结果示意图 程中出现的跟踪位置误差问题,还可以考虑通过 Fig.6 Result of multi target tracking 增加图像采集帧率减小两帧之间目标运动距离的 图像序列中共存在5架无人机,图6(a)为跟 方式解决。 踪的起始帧,图6(b)中存在两个目标的重合,此 参考文献: 时跟踪过程产生了一定误差,当两个无人机在图 像中分离后,可以重新实现对两个目标的跟踪, [1]杨戈,刘宏.视觉跟踪算法综述).智能系统学报,2010, 如图6(c)所示。图6(d)所示,无人机的位置与背 5(2):95-105 YANG Ge,LIU Hong.Survey of visual tracking al- 景中其他物体接近产生误识别后,仍可以在目标 与背景位置分割开后实现重新跟踪,如图6(e)。 gorithms[J].CAAI transactions on intelligent systems, 2010,5(2):95-105 多目标跟踪的误差曲线如图7所示。 [2]赵国治,段海滨.仿鹰眼视觉技术研究进展[刀.中国科 图7中视频序列中5架无人机均保持在图像 学:技术科学,2017,47(5):514-523 中。从多目标跟踪误差结果曲线可以看出,在跟 ZHAO Guozhi,DUAN Haibin.Progresses in biological 踪过程中,存在同背景混淆而造成的误识别导致 eagle-eye vision technology[J].Scientia sinica technolo- 对无人机5的跟踪产生较大误差,此外整个跟踪 gica,2017,47(5):514-523
图 5 中横坐标为目标跟踪序列的帧数,纵坐 标为以像素为单位的目标的跟踪误差。从结果中 可以看出,在跟踪开始时,对目标的跟踪比较稳 定,但随着目标的远离,跟踪误差变大,但是在跟 踪的全过程中,跟踪区域的中心和目标中心相 差 50 个像素以内。此外,值得一提的是,使用 NVIDIA 1080Ti 的 GPU,CPU 为 i7-8700k 的地面 处理器进行离线跟踪测试时,本文所述方法的计 算速度可达 110 f/s。 此外,由于本方法同样适用于多目标跟踪问 题,针对自主空中加油过程中的伙伴加油问题, 测试了本方法对于多目标的跟踪情况,结果如图 6 所示。 (a) 跟踪起始帧 (b) 跟踪目标重叠 (c) 跟踪目标恢复 (d) 跟踪目标误识别 (e) 跟踪目标恢复 图 6 目标跟踪结果示意图 Fig. 6 Result of multi target tracking 图像序列中共存在 5 架无人机,图 6(a) 为跟 踪的起始帧,图 6(b) 中存在两个目标的重合,此 时跟踪过程产生了一定误差,当两个无人机在图 像中分离后,可以重新实现对两个目标的跟踪, 如图 6(c) 所示。图 6(d) 所示,无人机的位置与背 景中其他物体接近产生误识别后,仍可以在目标 与背景位置分割开后实现重新跟踪,如图 6(e)。 多目标跟踪的误差曲线如图 7 所示。 图 7 中视频序列中 5 架无人机均保持在图像 中。从多目标跟踪误差结果曲线可以看出,在跟 踪过程中,存在同背景混淆而造成的误识别导致 对无人机 5 的跟踪产生较大误差,此外整个跟踪 过程中的跟踪误差都较小,基本维持在 20 个像素 左右,跟踪效果较好。使用 NVIDIA 1080Ti 的 GPU,i7-8700k 的 CPU 进行 5 个目标的跟踪任务 时,处理速度可达 45 f/s。 80 70 60 50 40 30 20 10 0 50 100 150 200 250 300 350 400 图像帧数/f 中心坐标误差/pix 无人机 1 无人机 2 无人机 3 无人机 4 无人机 5 图 7 多目标跟踪误差曲线 Fig. 7 Curve of multi target tracking error 4 结束语 猛禽视觉系统作为其最强大的感知系统,能 够处理很多相对复杂的视觉信息,猛禽获取周围 物体的颜色和形状等属性、物体的位置和物体之 间的相对位置关系以及发现并稳定跟踪目标的机 制,可以为解决自主空中加油过程中的相关任务 提供部分思路。 本文对猛禽视觉通路中的一个环节—视顶 盖的信息整合与交互处理进行了模拟,并根据其 双凹与眼动的视觉特性建立了较为简单的神经网 络用于目标跟踪。模拟自主空中加油系统中的视 觉导引阶段进行了测试,验证了本文所述方法对 于受油目标跟踪的有效性,特别是对于长时跟踪 任务可能出现的目标从场景中丢失与再入环节, 本文所述方法具有一定的优越性。由于本算法的 计算速度较快,图像处理帧率较高,对于跟踪过 程中出现的跟踪位置误差问题,还可以考虑通过 增加图像采集帧率减小两帧之间目标运动距离的 方式解决。 参考文献: 杨戈, 刘宏. 视觉跟踪算法综述 [J]. 智能系统学报, 2010, 5(2): 95–105. YANG Ge, LIU Hong. Survey of visual tracking algorithms[J]. CAAI transactions on intelligent systems, 2010, 5(2): 95–105. [1] 赵国治, 段海滨. 仿鹰眼视觉技术研究进展 [J]. 中国科 学: 技术科学, 2017, 47(5): 514–523. ZHAO Guozhi, DUAN Haibin. Progresses in biological eagle-eye vision technology[J]. Scientia sinica technologica, 2017, 47(5): 514–523. [2] ·1090· 智 能 系 统 学 报 第 14 卷
第6期 李晗,等:仿猛禽视顶盖信息中转整合的加油目标跟踪 ·1091· [3]DENG Yimin,DUAN Haibin.Biological eagle-eye-based Proceedings of the IEEE International Conference on visual platform for target detection[J].IEEE transactions Computer Vision Workshops.Venice,Italy,2017: on aerospace and electronic systems,2018,54(6): 1949-1972. 3125-3136. [14]YUN S,CHOI J,YOO Y,et al.Action-decision net- [4]DUAN Haibin,DENG Yimin,WANG Xiaohua,et al.Bio- works for visual tracking with deep reinforcement learn- logical eagle-eye-based visual imaging guidance simula- ing[C]//Proceedings of the IEEE Conference on Com- tion platform for unmanned flying vehicles[J].IEEE puter Vision and Pattern Recognition.Honolulu,USA. aerospace and electronic systems magazine,2013,28(12): 2017:1349-1358 36-45. [15]WANG Naiyan,YEUNG D Y.Learning a deep compact [5]段海滨,张奇夫,邓亦敏,等.基于仿鹰眼视觉的无人机 image representation for visual tracking[C]//Proceedings 自主空中加油[】.仪器仪表学报,2014,35(7):1450- of the 26th International Conference on Neural Informa- 1458. tion Processing Systems.Lake Tahoe,USA,2013: DUAN Haibin,ZHANG Qifu,DENG Yimin,et al.Biolo- 809-817. gically eagle-eye-based autonomous aerial refueling for [16]BERTINETTO L.VALMADRE J.GOLODETZ S,et al unmanned aerial vehicles[J.Chinese journal of scientific Staple:complementary learners for real-time tracking[C]// instrument,2014,35(7):1450-1458. Proceedings of the IEEE Conference on Computer Vision [6]TUCKER V A.The deep fovea,sideways vision and spir- and Pattern Recognition.Las Vegas,NV,USA,2016: al flight paths in raptors[J].Journal of experimental bio- 1401-1409. 1ogy,2000,203(24):3745-3754 [17]BERTINETTO L.VALMADRE J,HENRIQUES J F,et [7]WATANABE S.MAYER U.BISCHOF H J.Visual wulst al.Fully-convolutional Siamese networks for object track- analyses“where'”and entopallium analyses“what”in the zebra finch visual system[J].Behavioural brain research ing[C]//Proceedings of European Conference on Com- 2011,222(1)51-56 puter Vision.Amsterdam,The Netherlands,2016: [8]HODOS W,KARTEN H J.Brightness and pattern dis- 850-865. crimination deficits in the pigeon after lesions of nucleus 作者简介: rotundus[J].Experimental brain research,1966,2(2): 李晗,女,1992年,博士研究生, 151-167. 主要研究方向为计算机仿生视觉、无 [9]GLOROT X,BORDES A,BENGIO Y.Deep sparse recti- 人机导航与制导。 fier neural networks[C]//Proceedings of the Fourteenth In- ternational Conference on Artificial Intelligence and Stat- istics.Lauderdale.USA.2011:315-323. [10]O'ROURKE C T.HALL MI.PITLIK T,et al.Hawk eyes I:diurnal raptors differ in visual fields and degree of eye 段海滨,男.1976年,教授,博士 movement[J].PLoS one,2010,5(9):e12802. 生导师,主要研究方向为无人机集群 [11]李晗,段海滨,李淑字.猛禽视觉研究新进展).科技导 自主控制、计算机仿生视觉与智能感 知、仿生智能计算理论及应用。主持 报,2018.36(17):52-67. 国家自然科学基金重点项目等课题, LI Han,DUAN Haibin,LI Shuyu.New progress of the 出版专著3部,发表学术论文80余 visual system in birds of prey[J].Science&technology 篇。 review,2018.36(17):52-67. [12]NEUBECK A,VAN GOOL L.Efficient non-maximum 李淑宇,女,1976年教授,博士生导 师,主要研究方向为生物医学图像处理 suppression[C]//Proceedings of the 18th International 和生物医学仪器。主持多项国家自然 Conference on Pattern Recognition.Hong Kong,China, 科学基金项目,发表学术论文40余 2006:850-855 篇。 [13]KRISTAN M,LEONARDIS A,MATAS J,et al.The visual object tracking VOT2017 challenge results[Cl//
DENG Yimin, DUAN Haibin. Biological eagle-eye-based visual platform for target detection[J]. IEEE transactions on aerospace and electronic systems, 2018, 54(6): 3125–3136. [3] DUAN Haibin, DENG Yimin, WANG Xiaohua, et al. Biological eagle-eye-based visual imaging guidance simulation platform for unmanned flying vehicles[J]. IEEE aerospace and electronic systems magazine, 2013, 28(12): 36–45. [4] 段海滨, 张奇夫, 邓亦敏, 等. 基于仿鹰眼视觉的无人机 自主空中加油 [J]. 仪器仪表学报, 2014, 35(7): 1450– 1458. DUAN Haibin, ZHANG Qifu, DENG Yimin, et al. Biologically eagle-eye-based autonomous aerial refueling for unmanned aerial vehicles[J]. Chinese journal of scientific instrument, 2014, 35(7): 1450–1458. [5] TUCKER V A. The deep fovea, sideways vision and spiral flight paths in raptors[J]. Journal of experimental biology, 2000, 203(24): 3745–3754. [6] WATANABE S, MAYER U, BISCHOF H J. Visual wulst analyses “where” and entopallium analyses “what” in the zebra finch visual system[J]. Behavioural brain research, 2011, 222(1): 51–56. [7] HODOS W, KARTEN H J. Brightness and pattern discrimination deficits in the pigeon after lesions of nucleus rotundus[J]. Experimental brain research, 1966, 2(2): 151–167. [8] GLOROT X, BORDES A, BENGIO Y. Deep sparse rectifier neural networks[C]//Proceedings of the Fourteenth International Conference on Artificial Intelligence and Statistics. Lauderdale, USA, 2011: 315−323. [9] O'ROURKE C T, HALL M I, PITLIK T, et al. Hawk eyes I: diurnal raptors differ in visual fields and degree of eye movement[J]. PLoS one, 2010, 5(9): e12802. [10] 李晗, 段海滨, 李淑宇. 猛禽视觉研究新进展 [J]. 科技导 报, 2018, 36(17): 52–67. LI Han, DUAN Haibin, LI Shuyu. New progress of the visual system in birds of prey[J]. Science & technology review, 2018, 36(17): 52–67. [11] NEUBECK A, VAN GOOL L. Efficient non-maximum suppression[C]//Proceedings of the 18th International Conference on Pattern Recognition. Hong Kong, China, 2006: 850−855. [12] KRISTAN M, LEONARDIS A, MATAS J, et al. The visual object tracking VOT2017 challenge results[C]// [13] Proceedings of the IEEE International Conference on Computer Vision Workshops. Venice, Italy, 2017: 1949−1972. YUN S, CHOI J, YOO Y, et al. Action-decision networks for visual tracking with deep reinforcement learning[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA, 2017: 1349−1358. [14] WANG Naiyan, YEUNG D Y. Learning a deep compact image representation for visual tracking[C]//Proceedings of the 26th International Conference on Neural Information Processing Systems. Lake Tahoe, USA, 2013: 809−817. [15] BERTINETTO L, VALMADRE J, GOLODETZ S, et al. Staple: complementary learners for real-time tracking[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA, 2016: 1401−1409. [16] BERTINETTO L, VALMADRE J, HENRIQUES J F, et al. Fully-convolutional Siamese networks for object tracking[C]//Proceedings of European Conference on Computer Vision. Amsterdam, The Netherlands, 2016: 850−865. [17] 作者简介: 李晗,女,1992 年,博士研究生, 主要研究方向为计算机仿生视觉、无 人机导航与制导。 段海滨,男,1976 年,教授,博士 生导师,主要研究方向为无人机集群 自主控制、计算机仿生视觉与智能感 知、仿生智能计算理论及应用。主持 国家自然科学基金重点项目等课题, 出版专著 3 部,发表学术论文 80 余 篇。 李淑宇,女,1976 年,教授,博士生导 师,主要研究方向为生物医学图像处理 和生物医学仪器。主持多项国家自然 科学基金项目,发表学术论文 40 余 篇。 第 6 期 李晗,等:仿猛禽视顶盖信息中转整合的加油目标跟踪 ·1091·