第14卷第4期 智能系统学报 Vol.14 No.4 2019年7月 CAAI Transactions on Intelligent Systems Jul.2019 D0:10.11992/tis.201807029 网络出版地址:http:/kns.cnki.net/kcms/detail/23.1538.TP.20181218.1639.009html 联合外形响应的深度目标追踪器 孙海宇,陈秀宏,肖汉雄 (江南大学数字媒体学院,江苏无锡214122) 摘要:针对追踪器使用卷积网络提取出来的特征模板进行目标位置匹配时,易产生响应噪声的问题,本文提 出一种联合外形响应和卷积响应的深度目标追踪方法。在当前帧中,由前一帧提供的目标信息先分别提取卷 积特征和外形信息,然后获得相应的卷积位置响应和外形位置响应:最后利用外形位置响应对卷积位置响应进 行修正,从而有效地抑制响应噪声。实验表明:这种方法具有较高的位置精度,能够提高目标跟踪的准确性。 关键词:目标追踪:神经网络;卷积特征;相关滤波:位置响应;外形信息:噪声抑制:修正:深度学习 中图分类号:TP391 文献标志码:A文章编号:1673-4785(2019)04-0725-08 中文引用格式:孙海宇,陈秀宏,肖汉雄.联合外形响应的深度目标追踪器J智能系统学报,2019,14(4):725-732. 英文引用格式:SUN Haiyu,.CHEN Xiuhong,.XIAO Hanxiong.A deep object tracker with outline response mapJ.CAAI transac- tions on intelligent systems,2019,14(4):725-732. A deep object tracker with outline response map SUN Haiyu,CHEN Xiuhong,XIAO Hanxiong (School of Digital Media,Jiangnan University,Wuxi 214122,China) Abstract:When convolutional neural network is used as a template to locate target,noise may be unavoidable in the fi- nal location response.To solve this problem,we developed a deep object tracker by combining the convolutional posi- tion response with the outline position response.For example,in the current frame,after extracting convolutional fea- tures and the outline information from the predicted target in the previous frame,we obtained the corresponding convo- lutional position response and the outline position response,and the latter was used to rectify the former in controlling the noise generated in the convolutional position response.The favorable results of our deep tracker on the benchmark show that the method of integrating the outline position response into the convolutional position response can greatly improve the precision and accuracy of the tracker. Keywords:object tracking;neural network;convolutional features;correlation filter,position response;outline informa- tion;noise suppression;rectify;deep learning 单目标跟踪是一项基础而又重要的计算机视 ation,,SV)、遮挡(occlusion,.OCC)、变形(deforma- 觉任务。通常所讲的单目标跟踪是指:在视频的 tion,DEF)、运动模糊(motion blur,MB)、快速运动 首帧,给定目标的初始状态(如:位置、大小),然 (fast motion,FM)、平面内旋转(in-plane rotation, 后在视频的后续帧中估计出目标的状态"。估计 IPR)、平面外旋转(out-of-plane rotation,OPR)、部 一个对象的运动轨迹)可以达到目标跟踪的目 分显示(out-of-view,OV)、背景杂乱(background 的,但是目标轨迹的估计在多种干扰因素的影响 clutters,BC)、目标像素过少(low-resolution,.LR)等。 下易有较大的误差。常见的干扰因素有:光照变 实际上,目标跟踪就是要在当前帧中确定与目标 化((illumination variation,IV)、大小变化(scale vari- 相关的两大要素:位置以及大小。有很多方法可 以实现该目的,其中,检测就是一种比较流行的 收稿日期:2018-07-26.网络出版日期:2018-12-20 基金项目:江苏省研究生科研与实践创新计划项目(1232050205185680) 方法。若在基于检测的目标跟踪方法中采用前背 通信作者:孙海宇.E-mail:616l610009@vip,jiangnan.edu.cn. 景分类器,这种追踪方法又称作基于判别式模型
DOI: 10.11992/tis.201807029 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20181218.1639.009.html 联合外形响应的深度目标追踪器 孙海宇,陈秀宏,肖汉雄 (江南大学 数字媒体学院,江苏 无锡 214122) 摘 要:针对追踪器使用卷积网络提取出来的特征模板进行目标位置匹配时,易产生响应噪声的问题,本文提 出一种联合外形响应和卷积响应的深度目标追踪方法。在当前帧中,由前一帧提供的目标信息先分别提取卷 积特征和外形信息,然后获得相应的卷积位置响应和外形位置响应;最后利用外形位置响应对卷积位置响应进 行修正,从而有效地抑制响应噪声。实验表明:这种方法具有较高的位置精度,能够提高目标跟踪的准确性。 关键词:目标追踪;神经网络;卷积特征;相关滤波;位置响应;外形信息;噪声抑制;修正;深度学习 中图分类号:TP391 文献标志码:A 文章编号:1673−4785(2019)04−0725−08 中文引用格式:孙海宇, 陈秀宏, 肖汉雄. 联合外形响应的深度目标追踪器 [J]. 智能系统学报, 2019, 14(4): 725–732. 英文引用格式:SUN Haiyu, CHEN Xiuhong, XIAO Hanxiong. A deep object tracker with outline response map[J]. CAAI transactions on intelligent systems, 2019, 14(4): 725–732. A deep object tracker with outline response map SUN Haiyu,CHEN Xiuhong,XIAO Hanxiong (School of Digital Media, Jiangnan University, Wuxi 214122, China) Abstract: When convolutional neural network is used as a template to locate target, noise may be unavoidable in the final location response. To solve this problem, we developed a deep object tracker by combining the convolutional position response with the outline position response. For example, in the current frame, after extracting convolutional features and the outline information from the predicted target in the previous frame, we obtained the corresponding convolutional position response and the outline position response, and the latter was used to rectify the former in controlling the noise generated in the convolutional position response. The favorable results of our deep tracker on the benchmark show that the method of integrating the outline position response into the convolutional position response can greatly improve the precision and accuracy of the tracker. Keywords: object tracking; neural network; convolutional features; correlation filter; position response; outline information; noise suppression; rectify; deep learning 单目标跟踪是一项基础而又重要的计算机视 觉任务。通常所讲的单目标跟踪是指:在视频的 首帧,给定目标的初始状态 (如:位置、大小),然 后在视频的后续帧中估计出目标的状态[1]。估计 一个对象的运动轨迹[2] 可以达到目标跟踪的目 的,但是目标轨迹的估计在多种干扰因素的影响 下易有较大的误差。常见的干扰因素有:光照变 化 (illumination variation,IV)、大小变化 (scale variation,SV)、遮挡 (occlusion,OCC)、变形 (deformation,DEF)、运动模糊 (motion blur,MB)、快速运动 (fast motion,FM)、平面内旋转 (in-plane rotation, IPR)、平面外旋转 (out-of-plane rotation,OPR)、部 分显示 (out-of-view,OV)、背景杂乱 (background clutters,BC)、目标像素过少 (low-resolution,LR) 等 [3]。 实际上,目标跟踪就是要在当前帧中确定与目标 相关的两大要素:位置以及大小。有很多方法可 以实现该目的,其中,检测就是一种比较流行的 方法。若在基于检测的目标跟踪方法中采用前背 景分类器,这种追踪方法又称作基于判别式模型[4] 收稿日期:2018−07−26. 网络出版日期:2018−12−20. 基金项目:江苏省研究生科研与实践创新计划项目(1232050205185680) 通信作者:孙海宇. E-mail:6161610009@vip.jiangnan.edu.cn. 第 14 卷第 4 期 智 能 系 统 学 报 Vol.14 No.4 2019 年 7 月 CAAI Transactions on Intelligent Systems Jul. 2019
·726· 智能系统学报 第14卷 的追踪方法。判别式追踪器充分利用了视频序列 1模板匹配以及外形信息 中每一帧的前背景信息,从而达到区分目标和背 景的目的,如:Henriques等IsI所提出的追踪器 模板匹配类的追踪器,基本思想是通过衡量 以及Danelljan等提出的追踪器,从某种意义上 目标与搜索区域内各个部分的相似度,选取相似 讲,以上追踪器亦可称为模板匹配类的追踪器。 度最大的位置作为目标位置。事实上,这种思想 在基于深度学习的追踪器)和基于相关滤波的 这类追踪器主要通过已知的目标信息,习得一个 与目标相关的滤波模板,然后使用该模板在搜索 追踪器的中均有体现。 区域(可能包含目标的区域)进行滑动匹配,以匹 11孪生网络追踪器 在深度追踪器中,模板的匹配大都是通过李 配度的形式来反应匹配区域是否是目标位置,并 生网络来实现的,Bertinetto等I回第一次将李生网 将匹配度最高的位置作为最佳目标位置。文献[) 络应用于目标追踪。图1展示了一个典型的李生 中,主要讨论的是样本采样问题,当样本的数目 网络结构图,∫表示已经训练好的、权值固定的卷 采集的越多时,这些样本会构成一种理论比较完 积网络;Z表示上一帧的目标信息;X表示搜索区 善的循环结构,故而提出了循环采样的方法。文 域:⑧表示相关操作,实践中具体表现为卷积运 献[⑤]中,基于文献[),使用样本的原始像素或者 算。当Z与X分别经过卷积网络提取特征之后, 方向梯度直方图作为样本特征求解模板,然后使 分别得到卷积特征,Z,以及X,通过计算两者之 用该模板进行目标位置的匹配。从跟踪的定义上 间的相关性可得到搜索区域中每个部分与目标之 来看,以上主要解决的是目标追踪中的位置问 间的相关程度响应(图中的红点表示搜索区域中 题。文献[6]中,基于文献[⑤],主要讨论了目标尺 红色部分与目标的相关程度,而蓝点则表示搜索 度问题,在求解尺度以及位置的时候,使用的是 区域中蓝色部分与目标的相关程度),当得到响应 方向梯度直方图作为特征。类似的追踪器还有文 图之后,通过三线性插值,最大响应值的位置便 献[89],而最近几年,深度学习在许多应用领域 可作为当前帧的目标位置。 表现出了优秀的成绩0,目标追踪领域也不例外, 自Wang Naiyan将深度学习算法应用到跟踪领 域!后,深度学习类的追踪器也涌现出不少优秀 的作品,文献[12]中,提出了基于孪生网络的深 度追踪器,其在利用目标信息提取出卷积特征之 图1孪生网络追踪器结构图 后,仅仅使用了卷积特征在搜索区域进行目标位 Fig.1 Siamese network tracker structure 置的匹配。文献[13]在文献[12]的基础上直接将 1.2 相关滤波追踪器 相关滤波转化为了神经网络的网络层,使得两者 相关滤波类的追踪器最早是由文献[18]提出 合二为一,成为一个端到端的整体系统,但是依 来的,文献[7]在其基础上发展了循环采样以及 旧仅仅使用卷积网络所提取出来的特征。在最近 引入了核方法,但在文献[19]中,将目标位置和 的研究中,孪生网络受到了极大的关注。文献[14] 大小分开考虑,与本文将追踪中两大要素分而治 提出了一种动态孪生网络通过在线学习目标的外 之的思想更为契合,因此为本文所选用。为了获 形变化以获得目标的时域信息;文献[15]结合 取目标位置的响应图,相关滤波类的追踪器要找 RPN改进了候选框的生成来提高追踪的精度;文 到一个最优化的滤波器H,该滤波器由H所构 献[16]则尝试通过改变训练样本的数据分布来获 成。H通过最小化如下的代价函数获得: 得更具有判别性的特征;文献[I7]基于FaceNet 中的Triplet Loss来改进损失函数。本文认为,网 2-2 (1) 络卷积出来的特征其实是碎片化的,故而在进行 式中:H为特征的第i维度上的滤波器;F为特 目标位置匹配的时候,易在远离目标的地方产生 征的第i维度上的值;G是对应的位置响应标签, 位置响应噪声,从而影响目标位置的确定。因 由峰值点在目标中心处的高斯函数获得;并且 此,本文设计了一种联合外形响应的深度目标追 H、F、G都是M×N大小的;·代表了循环卷积运 踪器,利用外形信息的位置响应来修正卷积的位 算;1≥0,为正则项系数,易得该式的解为 置响应,从而得到更准确的目标定位,并通过实 = G.oF 验与其他追踪器进行了比较,验证了思路的可 (2) 牙koF+入 行性。 1
的追踪方法。判别式追踪器充分利用了视频序列 中每一帧的前背景信息,从而达到区分目标和背 景的目的,如:Henriques 等 [ 5 ] 所提出的追踪器 以及 Danelljan 等 [6] 提出的追踪器,从某种意义上 讲,以上追踪器亦可称为模板匹配类的追踪器。 这类追踪器主要通过已知的目标信息,习得一个 与目标相关的滤波模板,然后使用该模板在搜索 区域 (可能包含目标的区域) 进行滑动匹配,以匹 配度的形式来反应匹配区域是否是目标位置,并 将匹配度最高的位置作为最佳目标位置。文献 [7] 中,主要讨论的是样本采样问题,当样本的数目 采集的越多时,这些样本会构成一种理论比较完 善的循环结构,故而提出了循环采样的方法。文 献 [5] 中,基于文献 [7],使用样本的原始像素或者 方向梯度直方图作为样本特征求解模板,然后使 用该模板进行目标位置的匹配。从跟踪的定义上 来看,以上主要解决的是目标追踪中的位置问 题。文献 [6] 中,基于文献 [5],主要讨论了目标尺 度问题,在求解尺度以及位置的时候,使用的是 方向梯度直方图作为特征。类似的追踪器还有文 献 [8-9],而最近几年,深度学习在许多应用领域 表现出了优秀的成绩[10] ,目标追踪领域也不例外, 自 Wang Naiyan 将深度学习算法应用到跟踪领 域 [11] 后,深度学习类的追踪器也涌现出不少优秀 的作品,文献 [12] 中,提出了基于孪生网络的深 度追踪器,其在利用目标信息提取出卷积特征之 后,仅仅使用了卷积特征在搜索区域进行目标位 置的匹配。文献 [13] 在文献 [12] 的基础上直接将 相关滤波转化为了神经网络的网络层,使得两者 合二为一,成为一个端到端的整体系统,但是依 旧仅仅使用卷积网络所提取出来的特征。在最近 的研究中,孪生网络受到了极大的关注。文献 [14] 提出了一种动态孪生网络通过在线学习目标的外 形变化以获得目标的时域信息;文献 [15] 结合 RPN 改进了候选框的生成来提高追踪的精度;文 献 [16] 则尝试通过改变训练样本的数据分布来获 得更具有判别性的特征;文献 [17] 基于 FaceNet 中的 Triplet Loss 来改进损失函数。本文认为,网 络卷积出来的特征其实是碎片化的,故而在进行 目标位置匹配的时候,易在远离目标的地方产生 位置响应噪声,从而影响目标位置的确定。因 此,本文设计了一种联合外形响应的深度目标追 踪器,利用外形信息的位置响应来修正卷积的位 置响应,从而得到更准确的目标定位,并通过实 验与其他追踪器进行了比较,验证了思路的可 行性。 1 模板匹配以及外形信息 模板匹配类的追踪器,基本思想是通过衡量 目标与搜索区域内各个部分的相似度,选取相似 度最大的位置作为目标位置。事实上,这种思想 在基于深度学习的追踪器[12] 和基于相关滤波的 追踪器[5] 中均有体现。 1.1 孪生网络追踪器 f Z X ⊗ Z X Zf Xf 在深度追踪器中,模板的匹配大都是通过孪 生网络来实现的,Bertinetto 等 [12] 第一次将孪生网 络应用于目标追踪。图 1 展示了一个典型的孪生 网络结构图, 表示已经训练好的、权值固定的卷 积网络; 表示上一帧的目标信息; 表示搜索区 域; 表示相关操作,实践中具体表现为卷积运 算。当 与 分别经过卷积网络提取特征之后, 分别得到卷积特征, 以及 ,通过计算两者之 间的相关性可得到搜索区域中每个部分与目标之 间的相关程度响应 (图中的红点表示搜索区域中 红色部分与目标的相关程度,而蓝点则表示搜索 区域中蓝色部分与目标的相关程度),当得到响应 图之后,通过三线性插值,最大响应值的位置便 可作为当前帧的目标位置。 Z X f Zf Xf 图 1 孪生网络追踪器结构图 Fig. 1 Siamese network tracker structure 1.2 相关滤波追踪器 H Hi H 相关滤波类的追踪器最早是由文献 [18] 提出 来的,文献 [7] 在其基础上发展了循环采样以及 引入了核方法,但在文献 [19] 中,将目标位置和 大小分开考虑,与本文将追踪中两大要素分而治 之的思想更为契合,因此为本文所选用。为了获 取目标位置的响应图,相关滤波类的追踪器要找 到一个最优化的滤波器 ,该滤波器由 所构 成。 通过最小化如下的代价函数获得: l = ∑d i=1 H i · F i −G 2 +λ ∑d i=1 H i 2 (1) Hi i F i i G Hi F i G M ×N · λ ⩾ 0 式中: 为特征的第 维度上的滤波器; 为特 征的第 维度上的值; 是对应的位置响应标签, 由峰值点在目标中心处的高斯函数获得;并且 、 、 都是 大小的; 代表了循环卷积运 算; ,为正则项系数,易得该式的解为 H i = G∗ ◦ F i ∑d k=1 F k ∗ ◦ F k +λ (2) ·726· 智 能 系 统 学 报 第 14 卷
第4期 孙海宇,等:联合外形响应的深度目标追踪器 ·727· 式中:G、牙代表了式(1)中G、F的离散傅里叶变 式中:P表示位置响应图,响应值最大的位置为目 换,下标*代表取该对象的复共轭,。表示哈达玛 标的位置;D为离散傅里叶变换的逆变换;Z是 积。将式(2)中g.oF记作A(t表示第t时刻), 新的一帧中的特征,与式(1)中的F相对应。 将分母中加号前的部分记作B,那么第1时刻的 1.3目标外形信息 分子分母可用式(3)和式(4)近似更新,而第一个 在人类视觉中,目标的外形信息具有重要的 时刻的H可由式(2)获得。 意义,倘若缺少了目标的外形信息,人类就会产 A=(1-a)A+aG. (3) 生‘一叶障目'的视觉障碍,因此在过去的几十年 d 中,学者们对于目标的外形信息有着大量的研 B,=(1-m)B1+a∑FoT (4) 究2心-21。目标的外形信息一般存在于目标与背景 式中α为学习率,则新的目标位置响应可计算 之间,能够有效地突出目标物,为双眼提供一个 得到: 良好的聚焦区域。由于目标与背景在外形上存在 较大的差异,因而学者们常常使用微分的方式来 检测目标的外形信息,常见的方式有Canny、So- P=I D-(H.Z) (5) B+1 bel、Roberts、Scharr、Prewitt、Hog,此外,还有小波 变换等方式,其检测效果如图2所示。 上c2 (a)原图(b)Canny (c)Sobel (d)Roberts (e)Scharr (f)Prewitt (g)Gabor (h)Hog 图2外形信息检测方法 Fig.2 The samples of methods to detect outlines 2联合外形响应的深度目标追踪器 的结构如图4所示,它由两个部分组成,一个是由 卷积网络所构成的位置匹配部分,这个部分主要 本文在可视化卷积网络特征后,观察到其与 使用卷积网络提取的目标特征进行位置匹配,称 文献[24]所述的局部性、方向性的特征具有相似 性后(如图3),更加验证了本文联合外形信息的想 之为卷积匹配部分,另一个是利用外形信息使用 相关滤波进行位置匹配,称之为滤波匹配部分。 法。图3(a)为卷积网络所提取的特征,图3(b) 为稀疏编码所求得的基,可以发现图3(a)的特征 与未完全处理的基具有很高的相似性。如前所 述,提取目标外轮廓信息有相当多的方法,鉴于 方向梯度直方图在追踪问题上的广泛应用,本文 选择使用方向梯度直方图来提取外形信息。 取外形精息 图4本文目标追踪器结构 Fig.4 The architecture of the proposed deep tracker 2.1.1卷积匹配部分 在追踪器的卷积匹配部分仅使用卷积网络提 中品中出品 取的特征进行目标位置的匹配,同时融合了尺度 (a)卷积网络特征 (b)局部性、方向性特征 考虑,同文献[12]中所表示的那样,本文仅使用 图3特征对比 了3种尺度,追踪器的输入同文献[12]一样是一 Fig.3 Features comparison 对样本,一个是在初始帧中标记出来的目标,用Z 2.1网络结构 来表示,其维度是H×W:×3,另一个是在当前帧 本文提出的联合外形响应的深度目标追踪器 中,以上一帧目标中心为中心的包含背景的目标
G F G F ∗ ◦ G∗ ◦ F i A i t t t Bt t H 式中: 、 代表了式 (1) 中 、 的离散傅里叶变 换,下标 代表取该对象的复共轭, 表示哈达玛 积。将式 (2) 中 记作 ( 表示第 时刻), 将分母中加号前的部分记作 ,那么第 时刻的 分子分母可用式 (3) 和式 (4) 近似更新,而第一个 时刻的 可由式 (2) 获得。 A i t = (1−α) A i t−1 +αG t ∗ ◦ F i t (3) Bt = (1−α)Bt−1 +α ∑d k=1 F k t∗◦F k t (4) 式中α 为学习率,则新的目标位置响应可计算 得到: P = D −1 ∑d i=1 A i ∗ ◦ Z i B+λ = D −1 {H∗ ◦ Z} (5) P D −1 Z F 式中: 表示位置响应图,响应值最大的位置为目 标的位置; 为离散傅里叶变换的逆变换; 是 新的一帧中的特征,与式 (1) 中的 相对应。 1.3 目标外形信息 在人类视觉中,目标的外形信息具有重要的 意义,倘若缺少了目标的外形信息,人类就会产 生‘一叶障目’的视觉障碍,因此在过去的几十年 中,学者们对于目标的外形信息有着大量的研 究 [20-23]。目标的外形信息一般存在于目标与背景 之间,能够有效地突出目标物,为双眼提供一个 良好的聚焦区域。由于目标与背景在外形上存在 较大的差异,因而学者们常常使用微分的方式来 检测目标的外形信息,常见的方式有 Canny、Sobel、Roberts、Scharr、Prewitt、Hog,此外,还有小波 变换等方式,其检测效果如图 2 所示。 (a) 原图 (b) Canny (c) Sobel (d) Roberts (e) Scharr (f) Prewitt (g) Gabor (h) Hog 图 2 外形信息检测方法 Fig. 2 The samples of methods to detect outlines 2 联合外形响应的深度目标追踪器 本文在可视化卷积网络特征后,观察到其与 文献 [24] 所述的局部性、方向性的特征具有相似 性后 (如图 3),更加验证了本文联合外形信息的想 法。图 3(a) 为卷积网络所提取的特征,图 3(b) 为稀疏编码所求得的基,可以发现图 3(a) 的特征 与未完全处理的基具有很高的相似性。如前所 述,提取目标外轮廓信息有相当多的方法,鉴于 方向梯度直方图在追踪问题上的广泛应用,本文 选择使用方向梯度直方图来提取外形信息。 (a) 卷积网络特征 (b) 局部性、方向性特征 图 3 特征对比 Fig. 3 Features comparison 2.1 网络结构 本文提出的联合外形响应的深度目标追踪器 的结构如图 4 所示,它由两个部分组成,一个是由 卷积网络所构成的位置匹配部分,这个部分主要 使用卷积网络提取的目标特征进行位置匹配,称 之为卷积匹配部分,另一个是利用外形信息使用 相关滤波进行位置匹配,称之为滤波匹配部分。 初始化 A 和 B f 提取外形信息 首帧 后续帧 Zf Xf 修正 Rconv Routl Rrev 图 4 本文目标追踪器结构 Fig. 4 The architecture of the proposed deep tracker 2.1.1 卷积匹配部分 Z Hz ×Wz ×3 在追踪器的卷积匹配部分仅使用卷积网络提 取的特征进行目标位置的匹配,同时融合了尺度 考虑,同文献 [12] 中所表示的那样,本文仅使用 了 3 种尺度,追踪器的输入同文献 [12] 一样是一 对样本,一个是在初始帧中标记出来的目标,用 来表示,其维度是 ,另一个是在当前帧 中,以上一帧目标中心为中心的包含背景的目标 第 4 期 孙海宇,等:联合外形响应的深度目标追踪器 ·727·
·728· 智能系统学报 第14卷 搜索区域,用X表示,其维度是H×W×3,将两 大,则颜色越红)。相对的,在搜索区域中,目标的 者通过权值固定的卷积网络f,f是文献[25]中 外形占比一定大于局部特征的占比,所以利用了 所提出的AlexNet网络(不包含全连接层),提取出 外形信息的滤波匹配的位置响应大多会集中在目 对应的卷积特征Z,和X,之后,通过相关操作得 标区域处,如图5中滤波匹配的位置响应图所示, 出目标的位置响应, 联合该外形信息的位置响应,可以有效地突出目 2.1.2滤波匹配部分 标的所在区域,使得位置响应集中在目标区域 在追踪器的滤波匹配部分,主要使用方向梯 处,从而达到抑制噪声,避免位置发生漂移的目 度直方图来提取目标的外形信息。由于目标的外 的。如图5中修正的位置响应图所示,可以看到 形信息常常存在于目标与背景之间,为了提取目 标的外形信息,需要包含一些背景信息,因此本 目标的位置响应图在修正后,抑制住了左边的噪 文直接在X中进行目标的外形信息提取。如果 声响应。联合该外形位置响应,涉及到数据融合 当前帧是首帧的话,就使用式(2)初始化滤波匹 技术,可以使用加权平均法、贝叶斯估计法2、卡 配时所需要的A和B,如果当前帧不是首帧的 尔曼滤波法7等,本文为验证想法直接采用了最 话,就利用式(⑤)求得目标的位置响应,然后再利 为简单的加权平均法: 用式(3)和式(4)更新A和B。 Rv=7Row+(1-刀)Roui (6) 2.2修正部分 式中:?是权重值;Rmv是卷积匹配的位置响应; 在没有使用外形信息对位置响应进行修正的 Raul是利用外形信息的滤波匹配的位置响应;R 情况下,由于卷积特征中多是类似于局部的、方 是最终经过修正之后的位置响应。三者之间的关 向性的特征,这种碎片化的特征容易导致在远离 系可参考图4,由于修正前Rom和Rt的量纲不 目标的区域处产生极大的位置响应点,从而形成 一致,故而在修正前,先分别对两个位置响应进 位置响应噪声。如图5中卷积匹配的位置响应图 行如下的归一化处理: 所示(X、Y轴无十分重要的物理意义,Z轴表示相 Rold (7) 关性程度,数值越大表示该处与目标的相关性越 Raom三 max(Rold) 的区域目标皮 0.50 1.0 0.8 0.000030 0.23 0.6 0.000025 0.4 0.000020 0.2 0.000015N -0.50 0.75 0.000010 0.2 0.000005 -1.00 00 100-50050100-1m%0.7l% 010o -10050050100 -100-50050100 0S0 X -100 (a)卷积匹配的位置响应 (6)滤波匹配的位置响应 (c)修正的位置响应 图5位置响应的变化 Fig.5 The transform of position response map 3实验配置以及评价指标 sigmoid(x)=1+exp(-x) (9) 3.1实验细节 训练时,网络的输入是一对样本,并且,执行 卷积匹配部分,网络的构成同文献[12]一样 一次梯度下降使用8对样本,一对样本中,Z的维 (去除了网络的全连接部分),权重的取值是经过 度是127×127×3,X的维度是255×255×3,经过 网络f后,Z,的维度是6×6×256,X的维度是 405650次随机梯度下降得到的,网络训练的数据 22×22×256,Rv经过三线性插值后,维度为 集是从ILSVRC-2015视频数据集2中提取出的 255×255,学习率采用动态学习率,初始值为0.01, 4417个视频序列,网络训练的损失函数为 然后使用如下的指数衰减法进行衰减: leaa=N'∑G×-ln(sigmoid(R)l川+ Sglobal 1=linit xrSdecay (10) (1-G)x-In(1-sigmoid(Rie (8) 式中:1是初始学习率;,是初始学习率的基本 式中:N为G中的元素个数;i、j为G中元素索 保留率,本文中取值为0.8685;5b表示当前是 引;sigmoid函数为: 第几次梯度下降;sy表示经过几次梯度下降
X Hx ×Wx ×3 f f Zf Xf 搜索区域,用 表示,其维度是 ,将两 者通过权值固定的卷积网络 , 是文献 [25] 中 所提出的 AlexNet 网络 (不包含全连接层),提取出 对应的卷积特征 和 之后,通过相关操作得 出目标的位置响应。 2.1.2 滤波匹配部分 X A B A B 在追踪器的滤波匹配部分,主要使用方向梯 度直方图来提取目标的外形信息。由于目标的外 形信息常常存在于目标与背景之间,为了提取目 标的外形信息,需要包含一些背景信息,因此本 文直接在 中进行目标的外形信息提取。如果 当前帧是首帧的话,就使用式 (2) 初始化滤波匹 配时所需要的 和 ,如果当前帧不是首帧的 话,就利用式 (5) 求得目标的位置响应,然后再利 用式 (3) 和式 (4) 更新 和 。 2.2 修正部分 在没有使用外形信息对位置响应进行修正的 情况下,由于卷积特征中多是类似于局部的、方 向性的特征,这种碎片化的特征容易导致在远离 目标的区域处产生极大的位置响应点,从而形成 位置响应噪声。如图 5 中卷积匹配的位置响应图 所示 (X、Y 轴无十分重要的物理意义,Z 轴表示相 关性程度,数值越大表示该处与目标的相关性越 大,则颜色越红)。相对的,在搜索区域中,目标的 外形占比一定大于局部特征的占比,所以利用了 外形信息的滤波匹配的位置响应大多会集中在目 标区域处,如图 5 中滤波匹配的位置响应图所示, 联合该外形信息的位置响应,可以有效地突出目 标的所在区域,使得位置响应集中在目标区域 处,从而达到抑制噪声,避免位置发生漂移的目 的。如图 5 中修正的位置响应图所示,可以看到 目标的位置响应图在修正后,抑制住了左边的噪 声响应。联合该外形位置响应,涉及到数据融合 技术,可以使用加权平均法、贝叶斯估计法[26] 、卡 尔曼滤波法[27] 等,本文为验证想法直接采用了最 为简单的加权平均法: Rrev = ηRconv +(1−η)Routl (6) η Rconv Routl Rrev Rconv Routl 式中: 是权重值; 是卷积匹配的位置响应; 是利用外形信息的滤波匹配的位置响应; 是最终经过修正之后的位置响应。三者之间的关 系可参考图 4,由于修正前 和 的量纲不 一致,故而在修正前,先分别对两个位置响应进 行如下的归一化处理: Rnorm = Rold max(Rold) (7) 图 5 位置响应的变化 Fig. 5 The transform of position response map 3 实验配置以及评价指标 3.1 实验细节 卷积匹配部分,网络的构成同文献 [12] 一样 (去除了网络的全连接部分),权重的取值是经过 405 650 次随机梯度下降得到的,网络训练的数据 集是从 ILSVRC-2015 视频数据集[29] 中提取出的 4 417 个视频序列,网络训练的损失函数为 ltrain =N −1∑ i, j Gi j × [ −ln( sigmoid( R i j conv))]+ ( 1−Gi j) × [ −ln( 1−sigmoid( R i j conv))] (8) N G i j G sigmoid 式中: 为 中的元素个数; 、 为 中元素索 引; 函数为: sigmoid(x) = 1 1+exp(−x) (9) Z 127×127×3 X 255×255×3 f Zf 6×6×256 Xf 22×22×256 Rconv 255×255 0.01 训练时,网络的输入是一对样本,并且,执行 一次梯度下降使用 8 对样本,一对样本中, 的维 度是 , 的维度是 ,经过 网络 后 , 的维度是 , 的维度是 , 经过三线性插值后,维度为 ,学习率采用动态学习率,初始值为 , 然后使用如下的指数衰减法进行衰减: l = linit ×r sglobal sdecay (10) linit r sglobal sdecay 式中: 是初始学习率; 是初始学习率的基本 保留率,本文中取值为 0.868 5; 表示当前是 第几次梯度下降; 表示经过几次梯度下降 ·728· 智 能 系 统 学 报 第 14 卷
第4期 孙海宇,等:联合外形响应的深度目标追踪器 ·729· 后,执行一次学习率的衰减,本文取值6650。滤 benchmark,OTB),1中CVPR-2013、OTB-50和 波匹配部分不需要进行训练,其中,构造目标位 OTB-1003个数据集对现有的算法进行评估。这 置响应标签的高斯函数: 3个数据集分别有51、50和100个视频序列,每 x2+y2 g exp (11) 个视频序列都包含了IV、SV、OCC、DEF、MB、 22 FM、IPR、OPR、OV、BC、LR中的多个干扰因素。 式中:g是G中的元素;x、y表示目标位置,σ控 在这些干扰因素的影响下,追踪测试平台统计追 制了响应结果中与目标相关的范围大小,如图6 踪器的成功率,以精度图和成功图的形式来反应 所示,本文的取值为16。为了使得输入的数据依 旧保持3个维度,外形信息的提取方法同文献[5] 追踪器的追踪性能。 中一样,使用文献[28]中所使用的多通道方向梯 3.3.3外形信息的时间花费 度直方图,然后按照21.2节所述方法进行日标位 本文在不同分辨率图上测试了提取外形信息以 置的匹配,修正部分的权重值?是通过二分法确 及获得其对应的位置响应所花费的时间,如图7 定的,本文最终的取值为0.9678。 所示。分别给出了提取外形信息的时间花费和获 取外形信息对应的位置响应所花费的时间。从图 中可以看出,外形信息的提取时间相对较为合理 (和图像分辨率之间接近线性关系):同时,获取位 置响应的时间相对较长,有待进一步改进。 0.40r 外形信息 0.35 ·一位置响应 (a)o=10 (b)0=20 0.30 0.25 图6σ效果图 ≤0.20 Fig.6 The effect ofo 0.15 3.2实验设备 0.10 本文使用Tensorflowo框架来实现模型,版 0.05 本为1.4.0,实验是在配置为i5-7300HQ2.5GHz 0 50100150200250300 CPU,GeForceGTX1050GPU的笔记本中运行的。 分辨率 3.3测试数据集以及评价指标 图7时间花费 3.3.1指标 Fig.7 The results of elapsed time 目标追踪需要解决两个问题:位置和大小,因 3.4平台测试结果 此,评价一个追踪器的优劣往往通过精度图和成 本文在目标追踪测试平台上和近几年优秀的 功图来描述。精度图是指在不同的中心误差 追踪器CFNet conv3l)、SiamFC3s21、Staplels 下,目标追踪的成功率所构成的图;成功图是指 fDSSTI、ACFN-selNet!3I、SAMFIS例、LCTI3] 在不同的重叠率下,目标追踪的成功率所构成的 MEEM、ACFN-attNet、DSSTUS9、KCF进行了 图。其中,中心误差是指:追踪器所输出的目标 比较,其结果如图8所示,这里仅给出了CVPR- 框的中心与标签目标框的中心之间的误差,常用 2013的结果,并利用图9,直观展示了部分追踪效 欧氏距离表示,单位是像素;重叠率0的定义为 果(更多的结果数据请访问文献[34),图8(a)代 Atack∩Agroundtuth 0= (12) 表数据集的成功图结果,图8(b)代表数据集的精 Atack UAgroundtruth 式中:Ack表示由追踪器所追踪到目标区域; 度图结果。从图8(b)的结果中可以看出,在中心 Agroundinuth表示标签所表示的目标区域。对于某一 误差阈值很大的情况下,本文追踪器依旧有着优 帧而言,如果该帧的中心误差小于某个阈值或者 秀的成功率,说明在追踪的过程中,本文的追踪 重叠率大于某个阈值,则认为追踪器在该帧上的 器发生了较少的边框漂移,反应到图8(a)的成功 追踪结果是可靠的、成功的,而一个视频序列中, 图中,可以看到,在重叠率阈值很小的情况下,本 成功帧数的占比,称之为成功率。 文追踪器的成功率依旧优秀,而很多追踪器的成 3.3.2测试数据集 功率却不理想,说明他们在追踪的过程中,发生 本文使用目标追踪测试平台(object tracking 了较多的边框漂移现象,导致了目标丢失;而本
后,执行一次学习率的衰减,本文取值 6 650。滤 波匹配部分不需要进行训练,其中,构造目标位 置响应标签的高斯函数: g = exp( x 2 +y 2 2σ2 ) (11) g G x y σ η 式中: 是 中的元素; 、 表示目标位置, 控 制了响应结果中与目标相关的范围大小,如图 6 所示,本文的取值为 16。为了使得输入的数据依 旧保持 3 个维度,外形信息的提取方法同文献 [5] 中一样,使用文献 [28] 中所使用的多通道方向梯 度直方图,然后按照 2.1.2 节所述方法进行目标位 置的匹配,修正部分的权重值 是通过二分法确 定的,本文最终的取值为 0.967 8。 (a) σ=10 (b) σ=20 图 6 σ 效果图 Fig. 6 The effect of σ 3.2 实验设备 本文使用 Tensorflow[30] 框架来实现模型,版 本为 1.4.0,实验是在配置为 i5-7300HQ 2.5 GHz CPU,GeForce GTX1050 GPU 的笔记本中运行的。 3.3 测试数据集以及评价指标 3.3.1 指标 目标追踪需要解决两个问题:位置和大小,因 此,评价一个追踪器的优劣往往通过精度图和成 功图来描述[4]。精度图是指在不同的中心误差 下,目标追踪的成功率所构成的图;成功图是指 在不同的重叠率下,目标追踪的成功率所构成的 图。其中,中心误差是指:追踪器所输出的目标 框的中心与标签目标框的中心之间的误差,常用 欧氏距离表示,单位是像素;重叠率 o 的定义为 o = Atrack ∩ Agroundtruth Atrack ∪ Agroundtruth (12) Atrack Agroundtruth 式中: 表示由追踪器所追踪到目标区域; 表示标签所表示的目标区域。对于某一 帧而言,如果该帧的中心误差小于某个阈值或者 重叠率大于某个阈值,则认为追踪器在该帧上的 追踪结果是可靠的、成功的,而一个视频序列中, 成功帧数的占比,称之为成功率。 3.3.2 测试数据集 本文使用目标追踪测试平台 (object tracking benchmark,OTB)[1,3] 中 CVPR-2013、OTB-50 和 OTB-1003 个数据集对现有的算法进行评估。这 3 个数据集分别有 51、50 和 100 个视频序列,每 个视频序列都包含了 IV、SV、OCC、DEF、MB、 FM、IPR、OPR、OV、BC、LR 中的多个干扰因素。 在这些干扰因素的影响下,追踪测试平台统计追 踪器的成功率,以精度图和成功图的形式来反应 追踪器的追踪性能。 3.3.3 外形信息的时间花费 本文在不同分辨率图上测试了提取外形信息以 及获得其对应的位置响应所花费的时间,如图 7 所示。分别给出了提取外形信息的时间花费和获 取外形信息对应的位置响应所花费的时间。从图 中可以看出,外形信息的提取时间相对较为合理 (和图像分辨率之间接近线性关系);同时,获取位 置响应的时间相对较长,有待进一步改进。 0 50 100 150 200 250 300 分辨率 0.05 0.10 0.15 0.20 0.25 0.30 0.35 0.40 t/s 外形信息 位置响应 图 7 时间花费 Fig. 7 The results of elapsed time 3.4 平台测试结果 本文在目标追踪测试平台上和近几年优秀的 追踪器 CFNet_conv3[13] 、SiamFC_3s[12] 、Staple[8] 、 fDSST[ 7 ] 、ACFN-selNet[ 3 1 ] 、SAMF[ 9 ] 、LCT[ 3 3 ] 、 MEEM[32] 、ACFN-attNet[31] 、DSST[19] 、KCF[5] 进行了 比较,其结果如图 8 所示,这里仅给出了 CVPR- 2013 的结果,并利用图 9,直观展示了部分追踪效 果 (更多的结果数据请访问文献 [34]),图 8(a) 代 表数据集的成功图结果,图 8(b) 代表数据集的精 度图结果。从图 8(b) 的结果中可以看出,在中心 误差阈值很大的情况下,本文追踪器依旧有着优 秀的成功率,说明在追踪的过程中,本文的追踪 器发生了较少的边框漂移,反应到图 8(a) 的成功 图中,可以看到,在重叠率阈值很小的情况下,本 文追踪器的成功率依旧优秀,而很多追踪器的成 功率却不理想,说明他们在追踪的过程中,发生 了较多的边框漂移现象,导致了目标丢失;而本 第 4 期 孙海宇,等:联合外形响应的深度目标追踪器 ·729·
·730· 智能系统学报 第14卷 文追踪器在进行位置确定的时候,利用了外形信 少的边框漂移现象。以上的结果表明本文的追踪 息来抑制原本位置响应中的噪声点,所以具有较 器具有优秀的追踪效果。 本文[0.624] CFNet conv3 [0.610] 一本文0.849 MEEM0.830] SiamFC 3s [0.608] Staple [0.600] ACFN-selNet [0.823] CFNet conv3 [0.822] DSST [0.595] ACFN-selNet [0.589] SiamFC 3s [0.809] fDSST [0.802] SAMF [0.579] MEEM [0.566] ACFN-attNet [0.794] Staple [0.793] ACFN-attNet [0.563] DSsT0.554] SAMF [0.785] KCF LinearHOG AT [0.766] KCF LinearHOG AT [0.539] ---KCF0.5141 KCF0.740] DSsT[0.740] 1.0r 1.0r 0.9 0.9 0.8 0.8 0.7 0.7 解0.6 0.6 0.5 Ξ0.4 05 0.4 0.3 0.3 0.2 0.2 0.1 00.10.20.30.40.50.60.70.80.91.0 0 5101520253035404550 重叠率圆值 中心误差阀值 (a)成功图 b)精度图 图8测试结果 Fig.8 The results of object tracking benchmark 本文 SiamFC 3s CFNet conv3 -Staple KCE 出0020 #0010 #0100 #0043 (a)DragonBaby (b)MotorRolling (c)Skiing 图9追踪效果直观感受 Fig.9 The direct feeling of our tracker 3.5直观效果 标追踪中卷积位置响应的结果,从而指导如何修 在追踪测试平台的测试序列中,每个序列都 正目标跟踪中的卷积响应。通过分析可知:卷积 包含了多个干扰因素。从这么多的测试序列中取 网络抽离出的卷积特征类似于局部性、方向性的 得优秀的追踪效果是相当不容易,由于本文使用 特征,是碎片化的,在进行位置匹配的时候,可以 了外形信息来对目标的位置响应进行噪声抑 通过突出目标区域的方式来缓和这种碎片化特 制,所以从上面的测试平台给出的追踪结果可 征的影响。和最近几年优秀的追踪器相比,该思 知,本文的追踪器具有优秀的追踪能力,但由于 路具有一定的可行性,能够有效提高目标位置定 篇幅限制,这里给出几组具有代表性的视频序列追 位的精度。接下来的工作可以进一步探究如何缩 踪效果的直观展示,如图9所示,正红为本文追踪器。 短位置响应的时间:本文卷积网络的许多特征之 4结束语 间具有很高的相似性,是否可以直接通过稀疏化 的方式来实现抑制位置响应中的噪声也是值得研 本文尝试从理解卷积特征的基础上来理解目 究的
文追踪器在进行位置确定的时候,利用了外形信 息来抑制原本位置响应中的噪声点,所以具有较 少的边框漂移现象。以上的结果表明本文的追踪 器具有优秀的追踪效果。 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 重叠率阈值 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 成功率 5 10 15 20 25 30 35 40 45 50 中心误差阈值 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 精度 本文 [0.624] CFNet_conv3 [0.610] SiamFC_3s [0.608] Staple [0.600] fDSST [0.595] ACFN-selNet [0.589] SAMF [0.579] MEEM [0.566] ACFN-attNet [0.563] DSST [0.554] KCF_LinearHOG_AT [0.539] KCF [0.514] 本文 [0.849] MEEM [0.830] ACFN-selNet [0.823] CFNet_conv3 [0.822] SiamFC_3s [0.809] fDSST [0.802] ACFN-attNet [0.794] Staple [0.793] SAMF [0.785] KCF_LinearHOG_AT [0.766] KCF [0.740] DSST [0.740] (a) 成功图 (b) 精度图 图 8 测试结果 Fig. 8 The results of object tracking benchmark #0045 #0030 #0010 #0090 #0100 #0043 (a) DragonBaby (b) MotorRolling (c) Skiing 本文 SiamFC_3s CFNet_conv3 Staple KCF 图 9 追踪效果直观感受 Fig. 9 The direct feeling of our tracker 3.5 直观效果 在追踪测试平台的测试序列中,每个序列都 包含了多个干扰因素。从这么多的测试序列中取 得优秀的追踪效果是相当不容易,由于本文使用 了外形信息来对目标的位置响应进行噪声抑 制,所以从上面的测试平台给出的追踪结果可 知,本文的追踪器具有优秀的追踪能力,但由于 篇幅限制,这里给出几组具有代表性的视频序列追 踪效果的直观展示,如图 9 所示,正红为本文追踪器。 4 结束语 本文尝试从理解卷积特征的基础上来理解目 标追踪中卷积位置响应的结果,从而指导如何修 正目标跟踪中的卷积响应。通过分析可知:卷积 网络抽离出的卷积特征类似于局部性、方向性的 特征,是碎片化的,在进行位置匹配的时候,可以 通过突出目标区域的方式来缓和这种碎片化特 征的影响。和最近几年优秀的追踪器相比,该思 路具有一定的可行性,能够有效提高目标位置定 位的精度。接下来的工作可以进一步探究如何缩 短位置响应的时间;本文卷积网络的许多特征之 间具有很高的相似性,是否可以直接通过稀疏化 的方式来实现抑制位置响应中的噪声也是值得研 究的。 ·730· 智 能 系 统 学 报 第 14 卷
第4期 孙海宇,等:联合外形响应的深度目标追踪器 ·731· 参考文献: tracking[C]//Proceedings of European Conference on Computer Vision.Amsterdam,The Netherlands,2016: [1]WU Yi,LIM J,YANG M H.Online object tracking:a 850-865 benchmark[Cl//Proceedings of 2013 IEEE Conference on [13]VALMADRE J.BERTINETTO L.HENRIQUES J.et al. Computer Vision and Pattern Recognition.Portland,USA. End-to-end representation learning for correlation filter 2013:2411-2418. based tracking[C]//Proceedings of 2017 IEEE Confer- [2]杨戈,刘宏.视觉跟踪算法综述).智能系统学报,2010, ence on Computer Vision and Pattern Recognition.Hon- 5(2):95-105 olulu.USA.2017:5000-5008. YANG Ge,LIU Hong.Survey of visual tracking al- [14]GUO Qing,FENG Wei,ZHOU Ce,et al.Learning dy- gorithms[J].CAAI transactions on intelligent systems, namic Siamese network for visual object tracking[C]// 2010,5(2):95-105. Proceedings of 2017 IEEE International Conference on [3]WU Yi,LIM J,YANG M H.Object tracking Computer Vision.Venice,Italy,2017:1781-1789. benchmark[J].IEEE transactions on pattern analysis and [15]LI Bo,YAN Junjie,WU Wei,et al.High performance machine intelligence.2015.37(9):1834-1848. visual tracking with Siamese region proposal [4]管皓,薛向阳,安志勇.深度学习在视频目标跟踪中的应 network[Cl//Proceedings of 2018 IEEE/CVF Conference 用进展与展望).自动化学报,2016,42(6):834-847 on Computer Vision and Pattern Recognition.Salt Lake GUAN Hao,XUE Xiangyang,AN Zhiyong.Advances on City,USA,2018:8971-8980. application of deep learning for video object tracking[J]. Acta automatica sinica,2016,42(6):834-847. [16]ZHU Zheng,WANG Qiang,LI Bo,et al.Distractor- aware Siamese networks for visual object tracking[C// [5]HENRIQUES J F,CASEIRO R,MARTINS P,et al.High- Proceedings of European Conference on Computer Vis- speed tracking with kernelized correlation filters[J].IEEE ion.Munich,Germany,2018:103-119. transactions on pattern analysis and machine intelligence, 2015,37(3):583-596. [17]DONG Xingping,SHEN Jianbing.Triplet loss in Sia- [6]DANELLJAN M.HAGER G.KHAN F S.et al.Discrim- mese network for object tracking[C]//Proceedings of the inative scale space tracking[J].IEEE transactions on pat- 15th European Conference on Computer Vision.Munich, tern analysis and machine intelligence,2017,39(8): Germany,2018:472-488. 1561-1575 [18]BOLME D S,BEVERIDGE J R,DRAPER B A,et al. [7]HENRIQUES J F,CASEIRO R,MARTINS P,et al.Ex- Visual object tracking using adaptive correlation filters[CV/ ploiting the circulant structure of tracking-by-detection Proceedings of 2010 IEEE Computer Society Conference with kernels[C]//Proceedings of the 12th European Confer- on Computer Vision and Pattern Recognition.California, ence on Computer Vision.Florence,Italy,2012:702-715. USA.2010:2544-2550. [8]BERTINETTO L,VALMADRE J,GOLODETZ S,et al. [19]DANELLJAN M.HAGER G,KHAN F S,et al.Accur- Staple:complementary learners for real-time tracking[Cl/ ate scale estimation for robust visual tracking[Cl//Pro- Proceedings of 2016 IEEE Conference on Computer Vis- ceedings of the 25th British Machine Vision Conference. ion and Pattern Recognition.Las Vegas,USA,2016: Linkoping,Sweden,2014:1-5 1401-1409. [20]CANNY J.A computational approach to edge [9]LI Yang,ZHU Jianke.A scale adaptive kernel correlation detection[J].IEEE transactions on pattern analysis and filter tracker with feature integration[C]//Proceedings of machine intelligence,1986,PAMI-8(6):679-698. European Conference on Computer Vision.Zurich, [21]DALAL N,TRIGGS B.Histograms of oriented gradients Switzerland,2014:254-265. for human detection[C]//Proceedings of 2005 IEEE Com- [10]ALOM MZ,TAHA T M,YAKOPCIC C,et al.The his- puter Society Conference on Computer Vision and Pat- tory began from alexNet:a comprehensive survey on deep tern Recognition.California,USA,2005:886-893. learning approaches[J]arXiv:1803.01164,2018. [22]DERICHE R.Using Canny's criteria to derive a recurs- [11]WANG Naiyan,YEUNG D Y.Learning a deep compact ively implemented optimal edge detector[J].International image representation for visual tracking[C//Proceedings journal of computer vision,1987,1(2):167-187. of the 26th International Conference on Neural Informa- [23]ELDER J H.ZUCKER S W.Local scale control for edge tion Processing Systems.Lake Tahoe,USA,2013: detection and blur estimation[J].IEEE transactions on 809-817. pattern analysis and machine intelligence,1998,20(7): [12]BERTINETTO L,VALMADRE J,HENRIQUES J F,et al. 699-716. Fully-convolutional Siamese networks for object [24]OLSHAUSEN B A,FIELD D J.Emergence of simple-
参考文献: WU Yi, LIM J, YANG M H. Online object tracking: a benchmark[C]//Proceedings of 2013 IEEE Conference on Computer Vision and Pattern Recognition. Portland, USA, 2013: 2411–2418. [1] 杨戈, 刘宏. 视觉跟踪算法综述 [J]. 智能系统学报, 2010, 5(2): 95–105. YANG Ge, LIU Hong. Survey of visual tracking algorithms[J]. CAAI transactions on intelligent systems, 2010, 5(2): 95–105. [2] WU Yi, LIM J, YANG M H. Object tracking benchmark[J]. IEEE transactions on pattern analysis and machine intelligence, 2015, 37(9): 1834–1848. [3] 管皓, 薛向阳, 安志勇. 深度学习在视频目标跟踪中的应 用进展与展望 [J]. 自动化学报, 2016, 42(6): 834–847. GUAN Hao, XUE Xiangyang, AN Zhiyong. Advances on application of deep learning for video object tracking[J]. Acta automatica sinica, 2016, 42(6): 834–847. [4] HENRIQUES J F, CASEIRO R, MARTINS P, et al. Highspeed tracking with kernelized correlation filters[J]. IEEE transactions on pattern analysis and machine intelligence, 2015, 37(3): 583–596. [5] DANELLJAN M, HÄGER G, KHAN F S, et al. Discriminative scale space tracking[J]. IEEE transactions on pattern analysis and machine intelligence, 2017, 39(8): 1561–1575. [6] HENRIQUES J F, CASEIRO R, MARTINS P, et al. Exploiting the circulant structure of tracking-by-detection with kernels[C]//Proceedings of the 12th European Conference on Computer Vision. Florence, Italy, 2012: 702–715. [7] BERTINETTO L, VALMADRE J, GOLODETZ S, et al. Staple: complementary learners for real-time tracking[C]// Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA, 2016: 1401–1409. [8] LI Yang, ZHU Jianke. A scale adaptive kernel correlation filter tracker with feature integration[C]//Proceedings of European Conference on Computer Vision. Zurich, Switzerland, 2014: 254–265. [9] ALOM M Z, TAHA T M, YAKOPCIC C, et al. The history began from alexNet: a comprehensive survey on deep learning approaches[J] arXiv: 1803.01164, 2018. [10] WANG Naiyan, YEUNG D Y. Learning a deep compact image representation for visual tracking[C]//Proceedings of the 26th International Conference on Neural Information Processing Systems. Lake Tahoe, USA, 2013: 809–817. [11] BERTINETTO L, VALMADRE J, HENRIQUES J F, et al. Fully-convolutional Siamese networks for object [12] tracking[C]//Proceedings of European Conference on Computer Vision. Amsterdam, The Netherlands, 2016: 850–865. VALMADRE J, BERTINETTO L, HENRIQUES J, et al. End-to-end representation learning for correlation filter based tracking[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA, 2017: 5000–5008. [13] GUO Qing, FENG Wei, ZHOU Ce, et al. Learning dynamic Siamese network for visual object tracking[C]// Proceedings of 2017 IEEE International Conference on Computer Vision. Venice, Italy, 2017: 1781–1789. [14] LI Bo, YAN Junjie, WU Wei, et al. High performance visual tracking with Siamese region proposal network[C]//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA, 2018: 8971–8980. [15] ZHU Zheng, WANG Qiang, LI Bo, et al. Distractoraware Siamese networks for visual object tracking[C]// Proceedings of European Conference on Computer Vision. Munich, Germany, 2018: 103–119. [16] DONG Xingping, SHEN Jianbing. Triplet loss in Siamese network for object tracking[C]//Proceedings of the 15th European Conference on Computer Vision. Munich, Germany, 2018: 472–488. [17] BOLME D S, BEVERIDGE J R, DRAPER B A, et al. Visual object tracking using adaptive correlation filters[C]// Proceedings of 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. California, USA, 2010: 2544–2550. [18] DANELLJAN M, HÄGER G, KHAN F S, et al. Accurate scale estimation for robust visual tracking[C]//Proceedings of the 25th British Machine Vision Conference. Linköping, Sweden, 2014: 1–5 [19] CANNY J. A computational approach to edge detection[J]. IEEE transactions on pattern analysis and machine intelligence, 1986, PAMI-8(6): 679–698. [20] DALAL N, TRIGGS B. Histograms of oriented gradients for human detection[C]//Proceedings of 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. California, USA, 2005: 886–893. [21] DERICHE R. Using Canny's criteria to derive a recursively implemented optimal edge detector[J]. International journal of computer vision, 1987, 1(2): 167–187. [22] ELDER J H, ZUCKER S W. Local scale control for edge detection and blur estimation[J]. IEEE transactions on pattern analysis and machine intelligence, 1998, 20(7): 699–716. [23] [24] OLSHAUSEN B A, FIELD D J. Emergence of simple- 第 4 期 孙海宇,等:联合外形响应的深度目标追踪器 ·731·
·732· 智能系统学报 第14卷 cell receptive field properties by learning a sparse code robust tracking via multiple experts using entropy minim- for natural images[J].Nature,1996,381(6583):607-609. ization[C]//Proceedings of the 13th European Conference [25]KRIZHEVSKY A,SUTSKEVER I,HINTON G E.Im- on Computer Vision.Zurich,Switzerland,2014:188-203 agenet classification with deep convolutional neural net- [33]MA Chao,YANG Xiaokang,ZHANG Chongyang,et al. works[C]//Proceedings of the 25th International Confer- Long-term correlation tracking[C]//Proceedings of 2015 ence on Neural Information Processing Systems.Lake IEEE Conference on Computer Vision and Pattern Recog- Tahoe,USA,2012:1097-1105. nition.Boston,USA.2015:5388-5396. [26]BLEIHOLDER J,NAUMANN F.Data fusion[J].ACM computing surveys(CSUR),2009,41(1):1. [34]SUN H.Y data[EB/OL].https://github.com/SMZCC/A_ [27]KALMAN R E.A new approach to linear filtering and proposed_deep_tracker. prediction problems[J].Journal of basic engineering, 作者简介: 1960,82(1)35-45. 孙海宇,男,1993年生,硕士研究 [28]FELZENSZWALB P F,GIRSHICK R B,MC- 生,主要研究方向为图像处理、目标跟 ALLESTER D,et al.Object detection with discriminat- 踪、深度学习相关算法。 ively trained part-based models[J].IEEE transactions on pattern analysis and machine intelligence,2010,32(9): 1627-1645 [29]RUSSAKOVSKY O,DENG Jia,SU Hao,et al.Imagenet large scale visual recognition challenge[J].International 陈秀宏,男,1964年生,教授,博 journal of computer vision,2015,115(3):211-252. 土后,主要研究方向为数字图像处理 [30]ABADI M,BARHAM P,CHEN Jianmin,et al.Tensor- 和模式识别、目标检测与跟踪、优化理 论与方法。发表学术论文100余篇。 flow:a system for large-scale machine learning[Cl//Pro- ceedings of the 12th USENIX conference on Operating Systems Design and Implementation.Savannah,USA, 2016:265-283. [31]CHOI J,CHANG H J,YUN S,et al.Attentional correla- 肖汉雄.男,1991年生,硕土研究 生,主要研究方向为模式识别和数 tion filter network for adaptive visual tracking[C]//Pro- 字图像处理、人脸识别、深度学习相关 ceedings of 2017 IEEE Conference on Computer Vision 算法。 and Pattern Recognition.Honolulu,USA,2017: 4828-4837. [32]ZHANG Jianming,MA Shugao,SCLAROFF S.MEEM:
cell receptive field properties by learning a sparse code for natural images[J]. Nature, 1996, 381(6583): 607–609. KRIZHEVSKY A, SUTSKEVER I, HINTON G E. Imagenet classification with deep convolutional neural networks[C]//Proceedings of the 25th International Conference on Neural Information Processing Systems. Lake Tahoe, USA, 2012: 1097–1105. [25] BLEIHOLDER J, NAUMANN F. Data fusion[J]. ACM computing surveys (CSUR), 2009, 41(1): 1. [26] KALMAN R E. A new approach to linear filtering and prediction problems[J]. Journal of basic engineering, 1960, 82(1): 35–45. [27] FELZENSZWALB P F, GIRSHICK R B, MCALLESTER D, et al. Object detection with discriminatively trained part-based models[J]. IEEE transactions on pattern analysis and machine intelligence, 2010, 32(9): 1627–1645. [28] RUSSAKOVSKY O, DENG Jia, SU Hao, et al. Imagenet large scale visual recognition challenge[J]. International journal of computer vision, 2015, 115(3): 211–252. [29] ABADI M, BARHAM P, CHEN Jianmin, et al. Tensorflow: a system for large-scale machine learning[C]//Proceedings of the 12th USENIX conference on Operating Systems Design and Implementation. Savannah, USA, 2016: 265–283. [30] CHOI J, CHANG H J, YUN S, et al. Attentional correlation filter network for adaptive visual tracking[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA, 2017: 4828–4837. [31] [32] ZHANG Jianming, MA Shugao, SCLAROFF S. MEEM: robust tracking via multiple experts using entropy minimization[C]//Proceedings of the 13th European Conference on Computer Vision. Zurich, Switzerland, 2014: 188–203. MA Chao, YANG Xiaokang, ZHANG Chongyang, et al. Long-term correlation tracking[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA, 2015: 5388–5396. [33] SUN H. Y data[EB/OL]. https://github.com/SMZCC/A_ proposed_deep_tracker. [34] 作者简介: 孙海宇,男,1993 年生,硕士研究 生,主要研究方向为图像处理、目标跟 踪、深度学习相关算法。 陈秀宏,男,1964 年生,教授,博 士后,主要研究方向为数字图像处理 和模式识别、目标检测与跟踪、优化理 论与方法。发表学术论文 100 余篇。 肖汉雄,男,1991 年生,硕士研究 生,主要研究方向为模式识别和数 字图像处理、人脸识别、深度学习相关 算法。 ·732· 智 能 系 统 学 报 第 14 卷