【人工智能基础】联合外形响应的深度目标追踪器

团购合买资源类别：文库，文档格式：PDF，文档页数：8，文件大小：5.36MB

第14卷第4期智能系统学报 Vol.14 No.4 2019年7月 CAAI Transactions on Intelligent Systems Jul.2019 D0:10.11992/tis.201807029 网络出版地址：http:/kns.cnki.net/kcms/detail/23.1538.TP.20181218.1639.009html 联合外形响应的深度目标追踪器孙海宇，陈秀宏，肖汉雄（江南大学数字媒体学院，江苏无锡214122) 摘要：针对追踪器使用卷积网络提取出来的特征模板进行目标位置匹配时，易产生响应噪声的问题，本文提出一种联合外形响应和卷积响应的深度目标追踪方法。在当前帧中，由前一帧提供的目标信息先分别提取卷积特征和外形信息，然后获得相应的卷积位置响应和外形位置响应：最后利用外形位置响应对卷积位置响应进行修正，从而有效地抑制响应噪声。实验表明：这种方法具有较高的位置精度，能够提高目标跟踪的准确性。关键词：目标追踪：神经网络；卷积特征；相关滤波：位置响应；外形信息：噪声抑制：修正：深度学习中图分类号：TP391 文献标志码：A文章编号：1673-4785(2019)04-0725-08 中文引用格式：孙海宇，陈秀宏，肖汉雄.联合外形响应的深度目标追踪器J智能系统学报，2019,14(4)：725-732. 英文引用格式：SUN Haiyu,.CHEN Xiuhong,.XIAO Hanxiong.A deep object tracker with outline response mapJ.CAAI transac- tions on intelligent systems,2019,14(4):725-732. A deep object tracker with outline response map SUN Haiyu,CHEN Xiuhong,XIAO Hanxiong (School of Digital Media,Jiangnan University,Wuxi 214122,China) Abstract:When convolutional neural network is used as a template to locate target,noise may be unavoidable in the fi- nal location response.To solve this problem,we developed a deep object tracker by combining the convolutional posi- tion response with the outline position response.For example,in the current frame,after extracting convolutional fea- tures and the outline information from the predicted target in the previous frame,we obtained the corresponding convo- lutional position response and the outline position response,and the latter was used to rectify the former in controlling the noise generated in the convolutional position response.The favorable results of our deep tracker on the benchmark show that the method of integrating the outline position response into the convolutional position response can greatly improve the precision and accuracy of the tracker. Keywords:object tracking;neural network;convolutional features;correlation filter,position response;outline informa- tion;noise suppression;rectify;deep learning 单目标跟踪是一项基础而又重要的计算机视 ation,,SV)、遮挡(occlusion,.OCC)、变形(deforma- 觉任务。通常所讲的单目标跟踪是指：在视频的 tion,DEF)、运动模糊(motion blur,MB)、快速运动首帧，给定目标的初始状态（如：位置、大小），然 (fast motion,FM)、平面内旋转(in-plane rotation, 后在视频的后续帧中估计出目标的状态"。估计 IPR)、平面外旋转(out-of-plane rotation,OPR)、部一个对象的运动轨迹)可以达到目标跟踪的目分显示(out-of-view,OV)、背景杂乱(background 的，但是目标轨迹的估计在多种干扰因素的影响 clutters,BC)、目标像素过少(low-resolution,.LR)等。下易有较大的误差。常见的干扰因素有：光照变实际上，目标跟踪就是要在当前帧中确定与目标化((illumination variation,IV)、大小变化(scale vari- 相关的两大要素：位置以及大小。有很多方法可以实现该目的，其中，检测就是一种比较流行的收稿日期：2018-07-26.网络出版日期：2018-12-20 基金项目：江苏省研究生科研与实践创新计划项目(1232050205185680) 方法。若在基于检测的目标跟踪方法中采用前背通信作者：孙海宇.E-mail:616l610009@vip,jiangnan.edu.cn. 景分类器，这种追踪方法又称作基于判别式模型

DOI: 10.11992/tis.201807029 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20181218.1639.009.html 联合外形响应的深度目标追踪器孙海宇，陈秀宏，肖汉雄（江南大学数字媒体学院，江苏无锡 214122）摘要：针对追踪器使用卷积网络提取出来的特征模板进行目标位置匹配时，易产生响应噪声的问题，本文提出一种联合外形响应和卷积响应的深度目标追踪方法。在当前帧中，由前一帧提供的目标信息先分别提取卷积特征和外形信息，然后获得相应的卷积位置响应和外形位置响应；最后利用外形位置响应对卷积位置响应进行修正，从而有效地抑制响应噪声。实验表明：这种方法具有较高的位置精度，能够提高目标跟踪的准确性。关键词：目标追踪；神经网络；卷积特征；相关滤波；位置响应；外形信息；噪声抑制；修正；深度学习中图分类号：TP391 文献标志码：A 文章编号：1673−4785(2019)04−0725−08 中文引用格式：孙海宇, 陈秀宏, 肖汉雄. 联合外形响应的深度目标追踪器 [J]. 智能系统学报, 2019, 14(4): 725–732. 英文引用格式：SUN Haiyu, CHEN Xiuhong, XIAO Hanxiong. A deep object tracker with outline response map[J]. CAAI transactions on intelligent systems, 2019, 14(4): 725–732. A deep object tracker with outline response map SUN Haiyu，CHEN Xiuhong，XIAO Hanxiong (School of Digital Media, Jiangnan University, Wuxi 214122, China) Abstract: When convolutional neural network is used as a template to locate target, noise may be unavoidable in the final location response. To solve this problem, we developed a deep object tracker by combining the convolutional position response with the outline position response. For example, in the current frame, after extracting convolutional features and the outline information from the predicted target in the previous frame, we obtained the corresponding convolutional position response and the outline position response, and the latter was used to rectify the former in controlling the noise generated in the convolutional position response. The favorable results of our deep tracker on the benchmark show that the method of integrating the outline position response into the convolutional position response can greatly improve the precision and accuracy of the tracker. Keywords: object tracking; neural network; convolutional features; correlation filter; position response; outline information; noise suppression; rectify; deep learning 单目标跟踪是一项基础而又重要的计算机视觉任务。通常所讲的单目标跟踪是指：在视频的首帧，给定目标的初始状态 (如：位置、大小)，然后在视频的后续帧中估计出目标的状态[1]。估计一个对象的运动轨迹[2] 可以达到目标跟踪的目的，但是目标轨迹的估计在多种干扰因素的影响下易有较大的误差。常见的干扰因素有：光照变化 (illumination variation，IV)、大小变化 (scale variation，SV)、遮挡 (occlusion，OCC)、变形 (deformation，DEF)、运动模糊 (motion blur，MB)、快速运动 (fast motion，FM)、平面内旋转 (in-plane rotation， IPR)、平面外旋转 (out-of-plane rotation，OPR)、部分显示 (out-of-view，OV)、背景杂乱 (background clutters，BC)、目标像素过少 (low-resolution，LR) 等 [3]。实际上，目标跟踪就是要在当前帧中确定与目标相关的两大要素：位置以及大小。有很多方法可以实现该目的，其中，检测就是一种比较流行的方法。若在基于检测的目标跟踪方法中采用前背景分类器，这种追踪方法又称作基于判别式模型[4] 收稿日期：2018−07−26. 网络出版日期：2018−12−20. 基金项目：江苏省研究生科研与实践创新计划项目(1232050205185680) 通信作者：孙海宇. E-mail：6161610009@vip.jiangnan.edu.cn. 第 14 卷第 4 期智能系统学报 Vol.14 No.4 2019 年 7 月 CAAI Transactions on Intelligent Systems Jul. 2019

·726· 智能系统学报第14卷的追踪方法。判别式追踪器充分利用了视频序列 1模板匹配以及外形信息中每一帧的前背景信息，从而达到区分目标和背景的目的，如：Henriques等IsI所提出的追踪器模板匹配类的追踪器，基本思想是通过衡量以及Danelljan等提出的追踪器，从某种意义上目标与搜索区域内各个部分的相似度，选取相似讲，以上追踪器亦可称为模板匹配类的追踪器。度最大的位置作为目标位置。事实上，这种思想在基于深度学习的追踪器)和基于相关滤波的这类追踪器主要通过已知的目标信息，习得一个与目标相关的滤波模板，然后使用该模板在搜索追踪器的中均有体现。区域（可能包含目标的区域）进行滑动匹配，以匹 11孪生网络追踪器在深度追踪器中，模板的匹配大都是通过李配度的形式来反应匹配区域是否是目标位置，并生网络来实现的，Bertinetto等I回第一次将李生网将匹配度最高的位置作为最佳目标位置。文献[) 络应用于目标追踪。图1展示了一个典型的李生中，主要讨论的是样本采样问题，当样本的数目网络结构图，∫表示已经训练好的、权值固定的卷采集的越多时，这些样本会构成一种理论比较完积网络；Z表示上一帧的目标信息；X表示搜索区善的循环结构，故而提出了循环采样的方法。文域：⑧表示相关操作，实践中具体表现为卷积运献[⑤]中，基于文献[)，使用样本的原始像素或者算。当Z与X分别经过卷积网络提取特征之后，方向梯度直方图作为样本特征求解模板，然后使分别得到卷积特征，Z,以及X,通过计算两者之用该模板进行目标位置的匹配。从跟踪的定义上间的相关性可得到搜索区域中每个部分与目标之来看，以上主要解决的是目标追踪中的位置问间的相关程度响应（图中的红点表示搜索区域中题。文献[6]中，基于文献[⑤]，主要讨论了目标尺红色部分与目标的相关程度，而蓝点则表示搜索度问题，在求解尺度以及位置的时候，使用的是区域中蓝色部分与目标的相关程度)，当得到响应方向梯度直方图作为特征。类似的追踪器还有文图之后，通过三线性插值，最大响应值的位置便献[89]，而最近几年，深度学习在许多应用领域可作为当前帧的目标位置。表现出了优秀的成绩0，目标追踪领域也不例外，自Wang Naiyan将深度学习算法应用到跟踪领域！后，深度学习类的追踪器也涌现出不少优秀的作品，文献[12]中，提出了基于孪生网络的深度追踪器，其在利用目标信息提取出卷积特征之图1孪生网络追踪器结构图后，仅仅使用了卷积特征在搜索区域进行目标位 Fig.1 Siamese network tracker structure 置的匹配。文献[13]在文献[12]的基础上直接将 1.2 相关滤波追踪器相关滤波转化为了神经网络的网络层，使得两者相关滤波类的追踪器最早是由文献[18]提出合二为一，成为一个端到端的整体系统，但是依来的，文献[7]在其基础上发展了循环采样以及旧仅仅使用卷积网络所提取出来的特征。在最近引入了核方法，但在文献[19]中，将目标位置和的研究中，孪生网络受到了极大的关注。文献[14] 大小分开考虑，与本文将追踪中两大要素分而治提出了一种动态孪生网络通过在线学习目标的外之的思想更为契合，因此为本文所选用。为了获形变化以获得目标的时域信息；文献[15]结合取目标位置的响应图，相关滤波类的追踪器要找 RPN改进了候选框的生成来提高追踪的精度；文到一个最优化的滤波器H,该滤波器由H所构献[16]则尝试通过改变训练样本的数据分布来获成。H通过最小化如下的代价函数获得：得更具有判别性的特征；文献[I7]基于FaceNet 中的Triplet Loss来改进损失函数。本文认为，网 2-2 (1) 络卷积出来的特征其实是碎片化的，故而在进行式中：H为特征的第i维度上的滤波器；F为特目标位置匹配的时候，易在远离目标的地方产生征的第i维度上的值；G是对应的位置响应标签，位置响应噪声，从而影响目标位置的确定。因由峰值点在目标中心处的高斯函数获得；并且此，本文设计了一种联合外形响应的深度目标追 H、F、G都是M×N大小的；·代表了循环卷积运踪器，利用外形信息的位置响应来修正卷积的位算；1≥0，为正则项系数，易得该式的解为置响应，从而得到更准确的目标定位，并通过实 = G.oF 验与其他追踪器进行了比较，验证了思路的可 (2) 牙koF+入行性。 1

的追踪方法。判别式追踪器充分利用了视频序列中每一帧的前背景信息，从而达到区分目标和背景的目的，如：Henriques 等 [ 5 ] 所提出的追踪器以及 Danelljan 等 [6] 提出的追踪器，从某种意义上讲，以上追踪器亦可称为模板匹配类的追踪器。这类追踪器主要通过已知的目标信息，习得一个与目标相关的滤波模板，然后使用该模板在搜索区域 (可能包含目标的区域) 进行滑动匹配，以匹配度的形式来反应匹配区域是否是目标位置，并将匹配度最高的位置作为最佳目标位置。文献 [7] 中，主要讨论的是样本采样问题，当样本的数目采集的越多时，这些样本会构成一种理论比较完善的循环结构，故而提出了循环采样的方法。文献 [5] 中，基于文献 [7]，使用样本的原始像素或者方向梯度直方图作为样本特征求解模板，然后使用该模板进行目标位置的匹配。从跟踪的定义上来看，以上主要解决的是目标追踪中的位置问题。文献 [6] 中，基于文献 [5]，主要讨论了目标尺度问题，在求解尺度以及位置的时候，使用的是方向梯度直方图作为特征。类似的追踪器还有文献 [8-9]，而最近几年，深度学习在许多应用领域表现出了优秀的成绩[10] ，目标追踪领域也不例外，自 Wang Naiyan 将深度学习算法应用到跟踪领域 [11] 后，深度学习类的追踪器也涌现出不少优秀的作品，文献 [12] 中，提出了基于孪生网络的深度追踪器，其在利用目标信息提取出卷积特征之后，仅仅使用了卷积特征在搜索区域进行目标位置的匹配。文献 [13] 在文献 [12] 的基础上直接将相关滤波转化为了神经网络的网络层，使得两者合二为一，成为一个端到端的整体系统，但是依旧仅仅使用卷积网络所提取出来的特征。在最近的研究中，孪生网络受到了极大的关注。文献 [14] 提出了一种动态孪生网络通过在线学习目标的外形变化以获得目标的时域信息；文献 [15] 结合 RPN 改进了候选框的生成来提高追踪的精度；文献 [16] 则尝试通过改变训练样本的数据分布来获得更具有判别性的特征；文献 [17] 基于 FaceNet 中的 Triplet Loss 来改进损失函数。本文认为，网络卷积出来的特征其实是碎片化的，故而在进行目标位置匹配的时候，易在远离目标的地方产生位置响应噪声，从而影响目标位置的确定。因此，本文设计了一种联合外形响应的深度目标追踪器，利用外形信息的位置响应来修正卷积的位置响应，从而得到更准确的目标定位，并通过实验与其他追踪器进行了比较，验证了思路的可行性。 1 模板匹配以及外形信息模板匹配类的追踪器，基本思想是通过衡量目标与搜索区域内各个部分的相似度，选取相似度最大的位置作为目标位置。事实上，这种思想在基于深度学习的追踪器[12] 和基于相关滤波的追踪器[5] 中均有体现。 1.1 孪生网络追踪器 f Z X ⊗ Z X Zf Xf 在深度追踪器中，模板的匹配大都是通过孪生网络来实现的，Bertinetto 等 [12] 第一次将孪生网络应用于目标追踪。图 1 展示了一个典型的孪生网络结构图，表示已经训练好的、权值固定的卷积网络；表示上一帧的目标信息；表示搜索区域；表示相关操作，实践中具体表现为卷积运算。当与分别经过卷积网络提取特征之后，分别得到卷积特征，以及，通过计算两者之间的相关性可得到搜索区域中每个部分与目标之间的相关程度响应 (图中的红点表示搜索区域中红色部分与目标的相关程度，而蓝点则表示搜索区域中蓝色部分与目标的相关程度)，当得到响应图之后，通过三线性插值，最大响应值的位置便可作为当前帧的目标位置。 Z X f Zf Xf 图 1 孪生网络追踪器结构图 Fig. 1 Siamese network tracker structure 1.2 相关滤波追踪器 H Hi H 相关滤波类的追踪器最早是由文献 [18] 提出来的，文献 [7] 在其基础上发展了循环采样以及引入了核方法，但在文献 [19] 中，将目标位置和大小分开考虑，与本文将追踪中两大要素分而治之的思想更为契合，因此为本文所选用。为了获取目标位置的响应图，相关滤波类的追踪器要找到一个最优化的滤波器，该滤波器由所构成。通过最小化如下的代价函数获得： l = ∑d i=1 H i · F i −G 2 +λ ∑d i=1 H i 2 (1) Hi i F i i G Hi F i G M ×N · λ ⩾ 0 式中：为特征的第维度上的滤波器；为特征的第维度上的值；是对应的位置响应标签，由峰值点在目标中心处的高斯函数获得；并且、、都是大小的；代表了循环卷积运算；，为正则项系数，易得该式的解为 H i = G∗ ◦ F i ∑d k=1 F k ∗ ◦ F k +λ (2) ·726· 智能系统学报第 14 卷

第4期孙海宇，等：联合外形响应的深度目标追踪器 ·727· 式中：G、牙代表了式(1)中G、F的离散傅里叶变式中：P表示位置响应图，响应值最大的位置为目换，下标*代表取该对象的复共轭，。表示哈达玛标的位置；D为离散傅里叶变换的逆变换；Z是积。将式(2)中g.oF记作A(t表示第t时刻)，新的一帧中的特征，与式(1)中的F相对应。将分母中加号前的部分记作B,那么第1时刻的 1.3目标外形信息分子分母可用式(3)和式(4)近似更新，而第一个在人类视觉中，目标的外形信息具有重要的时刻的H可由式(2)获得。意义，倘若缺少了目标的外形信息，人类就会产 A=(1-a)A+aG. (3) 生‘一叶障目'的视觉障碍，因此在过去的几十年 d 中，学者们对于目标的外形信息有着大量的研 B,=(1-m)B1+a∑FoT (4) 究2心-21。目标的外形信息一般存在于目标与背景式中α为学习率，则新的目标位置响应可计算之间，能够有效地突出目标物，为双眼提供一个得到：良好的聚焦区域。由于目标与背景在外形上存在较大的差异，因而学者们常常使用微分的方式来检测目标的外形信息，常见的方式有Canny、So- P=I D-(H.Z) (5) B+1 bel、Roberts、Scharr、Prewitt、Hog,此外，还有小波变换等方式，其检测效果如图2所示。上c2 (a)原图(b)Canny (c)Sobel (d)Roberts (e)Scharr (f)Prewitt (g)Gabor (h)Hog 图2外形信息检测方法 Fig.2 The samples of methods to detect outlines 2联合外形响应的深度目标追踪器的结构如图4所示，它由两个部分组成，一个是由卷积网络所构成的位置匹配部分，这个部分主要本文在可视化卷积网络特征后，观察到其与使用卷积网络提取的目标特征进行位置匹配，称文献[24]所述的局部性、方向性的特征具有相似性后（如图3），更加验证了本文联合外形信息的想之为卷积匹配部分，另一个是利用外形信息使用相关滤波进行位置匹配，称之为滤波匹配部分。法。图3(a)为卷积网络所提取的特征，图3(b) 为稀疏编码所求得的基，可以发现图3(a)的特征与未完全处理的基具有很高的相似性。如前所述，提取目标外轮廓信息有相当多的方法，鉴于方向梯度直方图在追踪问题上的广泛应用，本文选择使用方向梯度直方图来提取外形信息。取外形精息图4本文目标追踪器结构 Fig.4 The architecture of the proposed deep tracker 2.1.1卷积匹配部分在追踪器的卷积匹配部分仅使用卷积网络提中品中出品取的特征进行目标位置的匹配，同时融合了尺度 (a)卷积网络特征 (b)局部性、方向性特征考虑，同文献[12]中所表示的那样，本文仅使用图3特征对比了3种尺度，追踪器的输入同文献[12]一样是一 Fig.3 Features comparison 对样本，一个是在初始帧中标记出来的目标，用Z 2.1网络结构来表示，其维度是H×W:×3,另一个是在当前帧本文提出的联合外形响应的深度目标追踪器中，以上一帧目标中心为中心的包含背景的目标

G F G F ∗ ◦ G∗ ◦ F i A i t t t Bt t H 式中：、代表了式 (1) 中、的离散傅里叶变换，下标代表取该对象的复共轭，表示哈达玛积。将式 (2) 中记作 ( 表示第时刻)，将分母中加号前的部分记作，那么第时刻的分子分母可用式 (3) 和式 (4) 近似更新，而第一个时刻的可由式 (2) 获得。 A i t = (1−α) A i t−1 +αG t ∗ ◦ F i t (3) Bt = (1−α)Bt−1 +α ∑d k=1 F k t∗◦F k t (4) 式中α 为学习率，则新的目标位置响应可计算得到： P = D −1    ∑d i=1 A i ∗ ◦ Z i B+λ    = D −1 {H∗ ◦ Z} (5) P D −1 Z F 式中：表示位置响应图，响应值最大的位置为目标的位置；为离散傅里叶变换的逆变换；是新的一帧中的特征，与式 (1) 中的相对应。 1.3 目标外形信息在人类视觉中，目标的外形信息具有重要的意义，倘若缺少了目标的外形信息，人类就会产生‘一叶障目’的视觉障碍，因此在过去的几十年中，学者们对于目标的外形信息有着大量的研究 [20-23]。目标的外形信息一般存在于目标与背景之间，能够有效地突出目标物，为双眼提供一个良好的聚焦区域。由于目标与背景在外形上存在较大的差异，因而学者们常常使用微分的方式来检测目标的外形信息，常见的方式有 Canny、Sobel、Roberts、Scharr、Prewitt、Hog，此外，还有小波变换等方式，其检测效果如图 2 所示。 (a) 原图 (b) Canny (c) Sobel (d) Roberts (e) Scharr (f) Prewitt (g) Gabor (h) Hog 图 2 外形信息检测方法 Fig. 2 The samples of methods to detect outlines 2 联合外形响应的深度目标追踪器本文在可视化卷积网络特征后，观察到其与文献 [24] 所述的局部性、方向性的特征具有相似性后 (如图 3)，更加验证了本文联合外形信息的想法。图 3(a) 为卷积网络所提取的特征，图 3(b) 为稀疏编码所求得的基，可以发现图 3(a) 的特征与未完全处理的基具有很高的相似性。如前所述，提取目标外轮廓信息有相当多的方法，鉴于方向梯度直方图在追踪问题上的广泛应用，本文选择使用方向梯度直方图来提取外形信息。 (a) 卷积网络特征 (b) 局部性、方向性特征图 3 特征对比 Fig. 3 Features comparison 2.1 网络结构本文提出的联合外形响应的深度目标追踪器的结构如图 4 所示，它由两个部分组成，一个是由卷积网络所构成的位置匹配部分，这个部分主要使用卷积网络提取的目标特征进行位置匹配，称之为卷积匹配部分，另一个是利用外形信息使用相关滤波进行位置匹配，称之为滤波匹配部分。初始化 A 和 B f 提取外形信息首帧后续帧 Zf Xf 修正 Rconv Routl Rrev 图 4 本文目标追踪器结构 Fig. 4 The architecture of the proposed deep tracker 2.1.1 卷积匹配部分 Z Hz ×Wz ×3 在追踪器的卷积匹配部分仅使用卷积网络提取的特征进行目标位置的匹配，同时融合了尺度考虑，同文献 [12] 中所表示的那样，本文仅使用了 3 种尺度，追踪器的输入同文献 [12] 一样是一对样本，一个是在初始帧中标记出来的目标，用来表示，其维度是，另一个是在当前帧中，以上一帧目标中心为中心的包含背景的目标第 4 期孙海宇，等：联合外形响应的深度目标追踪器 ·727·

·728· 智能系统学报第14卷搜索区域，用X表示，其维度是H×W×3,将两大，则颜色越红)。相对的，在搜索区域中，目标的者通过权值固定的卷积网络f,f是文献[25]中外形占比一定大于局部特征的占比，所以利用了所提出的AlexNet网络（不包含全连接层），提取出外形信息的滤波匹配的位置响应大多会集中在目对应的卷积特征Z,和X,之后，通过相关操作得标区域处，如图5中滤波匹配的位置响应图所示，出目标的位置响应，联合该外形信息的位置响应，可以有效地突出目 2.1.2滤波匹配部分标的所在区域，使得位置响应集中在目标区域在追踪器的滤波匹配部分，主要使用方向梯处，从而达到抑制噪声，避免位置发生漂移的目度直方图来提取目标的外形信息。由于目标的外的。如图5中修正的位置响应图所示，可以看到形信息常常存在于目标与背景之间，为了提取目标的外形信息，需要包含一些背景信息，因此本目标的位置响应图在修正后，抑制住了左边的噪文直接在X中进行目标的外形信息提取。如果声响应。联合该外形位置响应，涉及到数据融合当前帧是首帧的话，就使用式(2)初始化滤波匹技术，可以使用加权平均法、贝叶斯估计法2、卡配时所需要的A和B,如果当前帧不是首帧的尔曼滤波法7等，本文为验证想法直接采用了最话，就利用式（⑤）求得目标的位置响应，然后再利为简单的加权平均法：用式(3)和式(4)更新A和B。 Rv=7Row+(1-刀)Roui (6) 2.2修正部分式中：？是权重值；Rmv是卷积匹配的位置响应；在没有使用外形信息对位置响应进行修正的 Raul是利用外形信息的滤波匹配的位置响应；R 情况下，由于卷积特征中多是类似于局部的、方是最终经过修正之后的位置响应。三者之间的关向性的特征，这种碎片化的特征容易导致在远离系可参考图4，由于修正前Rom和Rt的量纲不目标的区域处产生极大的位置响应点，从而形成一致，故而在修正前，先分别对两个位置响应进位置响应噪声。如图5中卷积匹配的位置响应图行如下的归一化处理：所示(X、Y轴无十分重要的物理意义，Z轴表示相 Rold (7) 关性程度，数值越大表示该处与目标的相关性越 Raom三 max(Rold) 的区域目标皮 0.50 1.0 0.8 0.000030 0.23 0.6 0.000025 0.4 0.000020 0.2 0.000015N -0.50 0.75 0.000010 0.2 0.000005 -1.00 00 100-50050100-1m%0.7l% 010o -10050050100 -100-50050100 0S0 X -100 (a)卷积匹配的位置响应 (6)滤波匹配的位置响应 (c)修正的位置响应图5位置响应的变化 Fig.5 The transform of position response map 3实验配置以及评价指标 sigmoid(x)=1+exp(-x) (9) 3.1实验细节训练时，网络的输入是一对样本，并且，执行卷积匹配部分，网络的构成同文献[12]一样一次梯度下降使用8对样本，一对样本中，Z的维 (去除了网络的全连接部分)，权重的取值是经过度是127×127×3，X的维度是255×255×3，经过网络f后，Z,的维度是6×6×256，X的维度是 405650次随机梯度下降得到的，网络训练的数据 22×22×256,Rv经过三线性插值后，维度为集是从ILSVRC-2015视频数据集2中提取出的 255×255,学习率采用动态学习率，初始值为0.01， 4417个视频序列，网络训练的损失函数为然后使用如下的指数衰减法进行衰减： leaa=N'∑G×-ln(sigmoid(R)l川+ Sglobal 1=linit xrSdecay (10) (1-G)x-In(1-sigmoid(Rie (8) 式中：1是初始学习率；，是初始学习率的基本式中：N为G中的元素个数；i、j为G中元素索保留率，本文中取值为0.8685；5b表示当前是引；sigmoid函数为：第几次梯度下降；sy表示经过几次梯度下降

X Hx ×Wx ×3 f f Zf Xf 搜索区域，用表示，其维度是，将两者通过权值固定的卷积网络，是文献 [25] 中所提出的 AlexNet 网络 (不包含全连接层)，提取出对应的卷积特征和之后，通过相关操作得出目标的位置响应。 2.1.2 滤波匹配部分 X A B A B 在追踪器的滤波匹配部分，主要使用方向梯度直方图来提取目标的外形信息。由于目标的外形信息常常存在于目标与背景之间，为了提取目标的外形信息，需要包含一些背景信息，因此本文直接在中进行目标的外形信息提取。如果当前帧是首帧的话，就使用式 (2) 初始化滤波匹配时所需要的和，如果当前帧不是首帧的话，就利用式 (5) 求得目标的位置响应，然后再利用式 (3) 和式 (4) 更新和。 2.2 修正部分在没有使用外形信息对位置响应进行修正的情况下，由于卷积特征中多是类似于局部的、方向性的特征，这种碎片化的特征容易导致在远离目标的区域处产生极大的位置响应点，从而形成位置响应噪声。如图 5 中卷积匹配的位置响应图所示 (X、Y 轴无十分重要的物理意义，Z 轴表示相关性程度，数值越大表示该处与目标的相关性越大，则颜色越红)。相对的，在搜索区域中，目标的外形占比一定大于局部特征的占比，所以利用了外形信息的滤波匹配的位置响应大多会集中在目标区域处，如图 5 中滤波匹配的位置响应图所示，联合该外形信息的位置响应，可以有效地突出目标的所在区域，使得位置响应集中在目标区域处，从而达到抑制噪声，避免位置发生漂移的目的。如图 5 中修正的位置响应图所示，可以看到目标的位置响应图在修正后，抑制住了左边的噪声响应。联合该外形位置响应，涉及到数据融合技术，可以使用加权平均法、贝叶斯估计法[26] 、卡尔曼滤波法[27] 等，本文为验证想法直接采用了最为简单的加权平均法： Rrev = ηRconv +(1−η)Routl (6) η Rconv Routl Rrev Rconv Routl 式中：是权重值；是卷积匹配的位置响应；是利用外形信息的滤波匹配的位置响应；是最终经过修正之后的位置响应。三者之间的关系可参考图 4，由于修正前和的量纲不一致，故而在修正前，先分别对两个位置响应进行如下的归一化处理： Rnorm = Rold max(Rold) (7) 图 5 位置响应的变化 Fig. 5 The transform of position response map 3 实验配置以及评价指标 3.1 实验细节卷积匹配部分，网络的构成同文献 [12] 一样 (去除了网络的全连接部分)，权重的取值是经过 405 650 次随机梯度下降得到的，网络训练的数据集是从 ILSVRC-2015 视频数据集[29] 中提取出的 4 417 个视频序列，网络训练的损失函数为 ltrain =N −1∑ i, j Gi j × [ −ln( sigmoid( R i j conv))]+ ( 1−Gi j) × [ −ln( 1−sigmoid( R i j conv))] (8) N G i j G sigmoid 式中：为中的元素个数；、为中元素索引；函数为： sigmoid(x) = 1 1+exp(−x) (9) Z 127×127×3 X 255×255×3 f Zf 6×6×256 Xf 22×22×256 Rconv 255×255 0.01 训练时，网络的输入是一对样本，并且，执行一次梯度下降使用 8 对样本，一对样本中，的维度是，的维度是，经过网络后，的维度是，的维度是，经过三线性插值后，维度为，学习率采用动态学习率，初始值为，然后使用如下的指数衰减法进行衰减： l = linit ×r sglobal sdecay (10) linit r sglobal sdecay 式中：是初始学习率；是初始学习率的基本保留率，本文中取值为 0.868 5；表示当前是第几次梯度下降；表示经过几次梯度下降 ·728· 智能系统学报第 14 卷

第4期孙海宇，等：联合外形响应的深度目标追踪器 ·729· 后，执行一次学习率的衰减，本文取值6650。滤 benchmark,OTB),1中CVPR-2013、OTB-50和波匹配部分不需要进行训练，其中，构造目标位 OTB-1003个数据集对现有的算法进行评估。这置响应标签的高斯函数： 3个数据集分别有51、50和100个视频序列，每 x2+y2 g exp (11) 个视频序列都包含了IV、SV、OCC、DEF、MB、 22 FM、IPR、OPR、OV、BC、LR中的多个干扰因素。式中：g是G中的元素；x、y表示目标位置，σ控在这些干扰因素的影响下，追踪测试平台统计追制了响应结果中与目标相关的范围大小，如图6 踪器的成功率，以精度图和成功图的形式来反应所示，本文的取值为16。为了使得输入的数据依旧保持3个维度，外形信息的提取方法同文献[5] 追踪器的追踪性能。中一样，使用文献[28]中所使用的多通道方向梯 3.3.3外形信息的时间花费度直方图，然后按照21.2节所述方法进行日标位本文在不同分辨率图上测试了提取外形信息以置的匹配，修正部分的权重值？是通过二分法确及获得其对应的位置响应所花费的时间，如图7 定的，本文最终的取值为0.9678。所示。分别给出了提取外形信息的时间花费和获取外形信息对应的位置响应所花费的时间。从图中可以看出，外形信息的提取时间相对较为合理 (和图像分辨率之间接近线性关系)：同时，获取位置响应的时间相对较长，有待进一步改进。 0.40r 外形信息 0.35 ·一位置响应 (a)o=10 (b)0=20 0.30 0.25 图6σ效果图 ≤0.20 Fig.6 The effect ofo 0.15 3.2实验设备 0.10 本文使用Tensorflowo框架来实现模型，版 0.05 本为1.4.0，实验是在配置为i5-7300HQ2.5GHz 0 50100150200250300 CPU,GeForceGTX1050GPU的笔记本中运行的。分辨率 3.3测试数据集以及评价指标图7时间花费 3.3.1指标 Fig.7 The results of elapsed time 目标追踪需要解决两个问题：位置和大小，因 3.4平台测试结果此，评价一个追踪器的优劣往往通过精度图和成本文在目标追踪测试平台上和近几年优秀的功图来描述。精度图是指在不同的中心误差追踪器CFNet conv3l)、SiamFC3s21、Staplels 下，目标追踪的成功率所构成的图；成功图是指 fDSSTI、ACFN-selNet!3I、SAMFIS例、LCTI3] 在不同的重叠率下，目标追踪的成功率所构成的 MEEM、ACFN-attNet、DSSTUS9、KCF进行了图。其中，中心误差是指：追踪器所输出的目标比较，其结果如图8所示，这里仅给出了CVPR- 框的中心与标签目标框的中心之间的误差，常用 2013的结果，并利用图9，直观展示了部分追踪效欧氏距离表示，单位是像素；重叠率0的定义为果（更多的结果数据请访问文献[34），图8(a)代 Atack∩Agroundtuth 0= (12) 表数据集的成功图结果，图8(b)代表数据集的精 Atack UAgroundtruth 式中：Ack表示由追踪器所追踪到目标区域；度图结果。从图8(b)的结果中可以看出，在中心 Agroundinuth表示标签所表示的目标区域。对于某一误差阈值很大的情况下，本文追踪器依旧有着优帧而言，如果该帧的中心误差小于某个阈值或者秀的成功率，说明在追踪的过程中，本文的追踪重叠率大于某个阈值，则认为追踪器在该帧上的器发生了较少的边框漂移，反应到图8(a)的成功追踪结果是可靠的、成功的，而一个视频序列中，图中，可以看到，在重叠率阈值很小的情况下，本成功帧数的占比，称之为成功率。文追踪器的成功率依旧优秀，而很多追踪器的成 3.3.2测试数据集功率却不理想，说明他们在追踪的过程中，发生本文使用目标追踪测试平台(object tracking 了较多的边框漂移现象，导致了目标丢失；而本

后，执行一次学习率的衰减，本文取值 6 650。滤波匹配部分不需要进行训练，其中，构造目标位置响应标签的高斯函数： g = exp( x 2 +y 2 2σ2 ) (11) g G x y σ η 式中：是中的元素；、表示目标位置，控制了响应结果中与目标相关的范围大小，如图 6 所示，本文的取值为 16。为了使得输入的数据依旧保持 3 个维度，外形信息的提取方法同文献 [5] 中一样，使用文献 [28] 中所使用的多通道方向梯度直方图，然后按照 2.1.2 节所述方法进行目标位置的匹配，修正部分的权重值是通过二分法确定的，本文最终的取值为 0.967 8。 (a) σ=10 (b) σ=20 图 6 σ 效果图 Fig. 6 The effect of σ 3.2 实验设备本文使用 Tensorflow[30] 框架来实现模型，版本为 1.4.0，实验是在配置为 i5-7300HQ 2.5 GHz CPU，GeForce GTX1050 GPU 的笔记本中运行的。 3.3 测试数据集以及评价指标 3.3.1 指标目标追踪需要解决两个问题：位置和大小，因此，评价一个追踪器的优劣往往通过精度图和成功图来描述[4]。精度图是指在不同的中心误差下，目标追踪的成功率所构成的图；成功图是指在不同的重叠率下，目标追踪的成功率所构成的图。其中，中心误差是指：追踪器所输出的目标框的中心与标签目标框的中心之间的误差，常用欧氏距离表示，单位是像素；重叠率 o 的定义为 o = Atrack ∩ Agroundtruth Atrack ∪ Agroundtruth (12) Atrack Agroundtruth 式中：表示由追踪器所追踪到目标区域；表示标签所表示的目标区域。对于某一帧而言，如果该帧的中心误差小于某个阈值或者重叠率大于某个阈值，则认为追踪器在该帧上的追踪结果是可靠的、成功的，而一个视频序列中，成功帧数的占比，称之为成功率。 3.3.2 测试数据集本文使用目标追踪测试平台 (object tracking benchmark，OTB)[1,3] 中 CVPR-2013、OTB-50 和 OTB-1003 个数据集对现有的算法进行评估。这 3 个数据集分别有 51、50 和 100 个视频序列，每个视频序列都包含了 IV、SV、OCC、DEF、MB、 FM、IPR、OPR、OV、BC、LR 中的多个干扰因素。在这些干扰因素的影响下，追踪测试平台统计追踪器的成功率，以精度图和成功图的形式来反应追踪器的追踪性能。 3.3.3 外形信息的时间花费本文在不同分辨率图上测试了提取外形信息以及获得其对应的位置响应所花费的时间，如图 7 所示。分别给出了提取外形信息的时间花费和获取外形信息对应的位置响应所花费的时间。从图中可以看出，外形信息的提取时间相对较为合理 (和图像分辨率之间接近线性关系)；同时，获取位置响应的时间相对较长，有待进一步改进。 0 50 100 150 200 250 300 分辨率 0.05 0.10 0.15 0.20 0.25 0.30 0.35 0.40 t/s 外形信息位置响应图 7 时间花费 Fig. 7 The results of elapsed time 3.4 平台测试结果本文在目标追踪测试平台上和近几年优秀的追踪器 CFNet_conv3[13] 、SiamFC_3s[12] 、Staple[8] 、 fDSST[ 7 ] 、ACFN-selNet[ 3 1 ] 、SAMF[ 9 ] 、LCT[ 3 3 ] 、 MEEM[32] 、ACFN-attNet[31] 、DSST[19] 、KCF[5] 进行了比较，其结果如图 8 所示，这里仅给出了 CVPR- 2013 的结果，并利用图 9，直观展示了部分追踪效果 (更多的结果数据请访问文献 [34])，图 8(a) 代表数据集的成功图结果，图 8(b) 代表数据集的精度图结果。从图 8(b) 的结果中可以看出，在中心误差阈值很大的情况下，本文追踪器依旧有着优秀的成功率，说明在追踪的过程中，本文的追踪器发生了较少的边框漂移，反应到图 8(a) 的成功图中，可以看到，在重叠率阈值很小的情况下，本文追踪器的成功率依旧优秀，而很多追踪器的成功率却不理想，说明他们在追踪的过程中，发生了较多的边框漂移现象，导致了目标丢失；而本第 4 期孙海宇，等：联合外形响应的深度目标追踪器 ·729·

·730· 智能系统学报第14卷文追踪器在进行位置确定的时候，利用了外形信少的边框漂移现象。以上的结果表明本文的追踪息来抑制原本位置响应中的噪声点，所以具有较器具有优秀的追踪效果。本文[0.624] CFNet conv3 [0.610] 一本文0.849 MEEM0.830] SiamFC 3s [0.608] Staple [0.600] ACFN-selNet [0.823] CFNet conv3 [0.822] DSST [0.595] ACFN-selNet [0.589] SiamFC 3s [0.809] fDSST [0.802] SAMF [0.579] MEEM [0.566] ACFN-attNet [0.794] Staple [0.793] ACFN-attNet [0.563] DSsT0.554] SAMF [0.785] KCF LinearHOG AT [0.766] KCF LinearHOG AT [0.539] ---KCF0.5141 KCF0.740] DSsT[0.740] 1.0r 1.0r 0.9 0.9 0.8 0.8 0.7 0.7 解0.6 0.6 0.5 Ξ0.4 05 0.4 0.3 0.3 0.2 0.2 0.1 00.10.20.30.40.50.60.70.80.91.0 0 5101520253035404550 重叠率圆值中心误差阀值 (a)成功图 b)精度图图8测试结果 Fig.8 The results of object tracking benchmark 本文 SiamFC 3s CFNet conv3 -Staple KCE 出0020 #0010 #0100 #0043 (a)DragonBaby (b)MotorRolling (c)Skiing 图9追踪效果直观感受 Fig.9 The direct feeling of our tracker 3.5直观效果标追踪中卷积位置响应的结果，从而指导如何修在追踪测试平台的测试序列中，每个序列都正目标跟踪中的卷积响应。通过分析可知：卷积包含了多个干扰因素。从这么多的测试序列中取网络抽离出的卷积特征类似于局部性、方向性的得优秀的追踪效果是相当不容易，由于本文使用特征，是碎片化的，在进行位置匹配的时候，可以了外形信息来对目标的位置响应进行噪声抑通过突出目标区域的方式来缓和这种碎片化特制，所以从上面的测试平台给出的追踪结果可征的影响。和最近几年优秀的追踪器相比，该思知，本文的追踪器具有优秀的追踪能力，但由于路具有一定的可行性，能够有效提高目标位置定篇幅限制，这里给出几组具有代表性的视频序列追位的精度。接下来的工作可以进一步探究如何缩踪效果的直观展示，如图9所示，正红为本文追踪器。短位置响应的时间：本文卷积网络的许多特征之 4结束语间具有很高的相似性，是否可以直接通过稀疏化的方式来实现抑制位置响应中的噪声也是值得研本文尝试从理解卷积特征的基础上来理解目究的

文追踪器在进行位置确定的时候，利用了外形信息来抑制原本位置响应中的噪声点，所以具有较少的边框漂移现象。以上的结果表明本文的追踪器具有优秀的追踪效果。 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 重叠率阈值 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 成功率 5 10 15 20 25 30 35 40 45 50 中心误差阈值 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 精度本文 [0.624] CFNet_conv3 [0.610] SiamFC_3s [0.608] Staple [0.600] fDSST [0.595] ACFN-selNet [0.589] SAMF [0.579] MEEM [0.566] ACFN-attNet [0.563] DSST [0.554] KCF_LinearHOG_AT [0.539] KCF [0.514] 本文 [0.849] MEEM [0.830] ACFN-selNet [0.823] CFNet_conv3 [0.822] SiamFC_3s [0.809] fDSST [0.802] ACFN-attNet [0.794] Staple [0.793] SAMF [0.785] KCF_LinearHOG_AT [0.766] KCF [0.740] DSST [0.740] (a) 成功图 (b) 精度图图 8 测试结果 Fig. 8 The results of object tracking benchmark #0045 #0030 #0010 #0090 #0100 #0043 (a) DragonBaby (b) MotorRolling (c) Skiing 本文 SiamFC_3s CFNet_conv3 Staple KCF 图 9 追踪效果直观感受 Fig. 9 The direct feeling of our tracker 3.5 直观效果在追踪测试平台的测试序列中，每个序列都包含了多个干扰因素。从这么多的测试序列中取得优秀的追踪效果是相当不容易，由于本文使用了外形信息来对目标的位置响应进行噪声抑制，所以从上面的测试平台给出的追踪结果可知，本文的追踪器具有优秀的追踪能力，但由于篇幅限制，这里给出几组具有代表性的视频序列追踪效果的直观展示，如图 9 所示，正红为本文追踪器。 4 结束语本文尝试从理解卷积特征的基础上来理解目标追踪中卷积位置响应的结果，从而指导如何修正目标跟踪中的卷积响应。通过分析可知：卷积网络抽离出的卷积特征类似于局部性、方向性的特征，是碎片化的，在进行位置匹配的时候，可以通过突出目标区域的方式来缓和这种碎片化特征的影响。和最近几年优秀的追踪器相比，该思路具有一定的可行性，能够有效提高目标位置定位的精度。接下来的工作可以进一步探究如何缩短位置响应的时间；本文卷积网络的许多特征之间具有很高的相似性，是否可以直接通过稀疏化的方式来实现抑制位置响应中的噪声也是值得研究的。 ·730· 智能系统学报第 14 卷

第4期孙海宇，等：联合外形响应的深度目标追踪器 ·731· 参考文献： tracking[C]//Proceedings of European Conference on Computer Vision.Amsterdam,The Netherlands,2016: [1]WU Yi,LIM J,YANG M H.Online object tracking:a 850-865 benchmark[Cl//Proceedings of 2013 IEEE Conference on [13]VALMADRE J.BERTINETTO L.HENRIQUES J.et al. Computer Vision and Pattern Recognition.Portland,USA. End-to-end representation learning for correlation filter 2013:2411-2418. based tracking[C]//Proceedings of 2017 IEEE Confer- [2]杨戈，刘宏.视觉跟踪算法综述).智能系统学报，2010， ence on Computer Vision and Pattern Recognition.Hon- 5(2):95-105 olulu.USA.2017:5000-5008. YANG Ge,LIU Hong.Survey of visual tracking al- [14]GUO Qing,FENG Wei,ZHOU Ce,et al.Learning dy- gorithms[J].CAAI transactions on intelligent systems, namic Siamese network for visual object tracking[C]// 2010,5(2):95-105. Proceedings of 2017 IEEE International Conference on [3]WU Yi,LIM J,YANG M H.Object tracking Computer Vision.Venice,Italy,2017:1781-1789. benchmark[J].IEEE transactions on pattern analysis and [15]LI Bo,YAN Junjie,WU Wei,et al.High performance machine intelligence.2015.37(9):1834-1848. visual tracking with Siamese region proposal [4]管皓，薛向阳，安志勇.深度学习在视频目标跟踪中的应 network[Cl//Proceedings of 2018 IEEE/CVF Conference 用进展与展望).自动化学报，2016,42(6)：834-847 on Computer Vision and Pattern Recognition.Salt Lake GUAN Hao,XUE Xiangyang,AN Zhiyong.Advances on City,USA,2018:8971-8980. application of deep learning for video object tracking[J]. Acta automatica sinica,2016,42(6):834-847. [16]ZHU Zheng,WANG Qiang,LI Bo,et al.Distractor- aware Siamese networks for visual object tracking[C// [5]HENRIQUES J F,CASEIRO R,MARTINS P,et al.High- Proceedings of European Conference on Computer Vis- speed tracking with kernelized correlation filters[J].IEEE ion.Munich,Germany,2018:103-119. transactions on pattern analysis and machine intelligence, 2015,37(3):583-596. [17]DONG Xingping,SHEN Jianbing.Triplet loss in Sia- [6]DANELLJAN M.HAGER G.KHAN F S.et al.Discrim- mese network for object tracking[C]//Proceedings of the inative scale space tracking[J].IEEE transactions on pat- 15th European Conference on Computer Vision.Munich, tern analysis and machine intelligence,2017,39(8): Germany,2018:472-488. 1561-1575 [18]BOLME D S,BEVERIDGE J R,DRAPER B A,et al. [7]HENRIQUES J F,CASEIRO R,MARTINS P,et al.Ex- Visual object tracking using adaptive correlation filters[CV/ ploiting the circulant structure of tracking-by-detection Proceedings of 2010 IEEE Computer Society Conference with kernels[C]//Proceedings of the 12th European Confer- on Computer Vision and Pattern Recognition.California, ence on Computer Vision.Florence,Italy,2012:702-715. USA.2010:2544-2550. [8]BERTINETTO L,VALMADRE J,GOLODETZ S,et al. [19]DANELLJAN M.HAGER G,KHAN F S,et al.Accur- Staple:complementary learners for real-time tracking[Cl/ ate scale estimation for robust visual tracking[Cl//Pro- Proceedings of 2016 IEEE Conference on Computer Vis- ceedings of the 25th British Machine Vision Conference. ion and Pattern Recognition.Las Vegas,USA,2016: Linkoping,Sweden,2014:1-5 1401-1409. [20]CANNY J.A computational approach to edge [9]LI Yang,ZHU Jianke.A scale adaptive kernel correlation detection[J].IEEE transactions on pattern analysis and filter tracker with feature integration[C]//Proceedings of machine intelligence,1986,PAMI-8(6):679-698. European Conference on Computer Vision.Zurich, [21]DALAL N,TRIGGS B.Histograms of oriented gradients Switzerland,2014:254-265. for human detection[C]//Proceedings of 2005 IEEE Com- [10]ALOM MZ,TAHA T M,YAKOPCIC C,et al.The his- puter Society Conference on Computer Vision and Pat- tory began from alexNet:a comprehensive survey on deep tern Recognition.California,USA,2005:886-893. learning approaches[J]arXiv:1803.01164,2018. [22]DERICHE R.Using Canny's criteria to derive a recurs- [11]WANG Naiyan,YEUNG D Y.Learning a deep compact ively implemented optimal edge detector[J].International image representation for visual tracking[C//Proceedings journal of computer vision,1987,1(2):167-187. of the 26th International Conference on Neural Informa- [23]ELDER J H.ZUCKER S W.Local scale control for edge tion Processing Systems.Lake Tahoe,USA,2013: detection and blur estimation[J].IEEE transactions on 809-817. pattern analysis and machine intelligence,1998,20(7): [12]BERTINETTO L,VALMADRE J,HENRIQUES J F,et al. 699-716. Fully-convolutional Siamese networks for object [24]OLSHAUSEN B A,FIELD D J.Emergence of simple-

参考文献： WU Yi, LIM J, YANG M H. Online object tracking: a benchmark[C]//Proceedings of 2013 IEEE Conference on Computer Vision and Pattern Recognition. Portland, USA, 2013: 2411–2418. [1] 杨戈, 刘宏. 视觉跟踪算法综述 [J]. 智能系统学报, 2010, 5(2): 95–105. YANG Ge, LIU Hong. Survey of visual tracking algorithms[J]. CAAI transactions on intelligent systems, 2010, 5(2): 95–105. [2] WU Yi, LIM J, YANG M H. Object tracking benchmark[J]. IEEE transactions on pattern analysis and machine intelligence, 2015, 37(9): 1834–1848. [3] 管皓, 薛向阳, 安志勇. 深度学习在视频目标跟踪中的应用进展与展望 [J]. 自动化学报, 2016, 42(6): 834–847. GUAN Hao, XUE Xiangyang, AN Zhiyong. Advances on application of deep learning for video object tracking[J]. Acta automatica sinica, 2016, 42(6): 834–847. [4] HENRIQUES J F, CASEIRO R, MARTINS P, et al. Highspeed tracking with kernelized correlation filters[J]. IEEE transactions on pattern analysis and machine intelligence, 2015, 37(3): 583–596. [5] DANELLJAN M, HÄGER G, KHAN F S, et al. Discriminative scale space tracking[J]. IEEE transactions on pattern analysis and machine intelligence, 2017, 39(8): 1561–1575. [6] HENRIQUES J F, CASEIRO R, MARTINS P, et al. Exploiting the circulant structure of tracking-by-detection with kernels[C]//Proceedings of the 12th European Conference on Computer Vision. Florence, Italy, 2012: 702–715. [7] BERTINETTO L, VALMADRE J, GOLODETZ S, et al. Staple: complementary learners for real-time tracking[C]// Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA, 2016: 1401–1409. [8] LI Yang, ZHU Jianke. A scale adaptive kernel correlation filter tracker with feature integration[C]//Proceedings of European Conference on Computer Vision. Zurich, Switzerland, 2014: 254–265. [9] ALOM M Z, TAHA T M, YAKOPCIC C, et al. The history began from alexNet: a comprehensive survey on deep learning approaches[J] arXiv: 1803.01164, 2018. [10] WANG Naiyan, YEUNG D Y. Learning a deep compact image representation for visual tracking[C]//Proceedings of the 26th International Conference on Neural Information Processing Systems. Lake Tahoe, USA, 2013: 809–817. [11] BERTINETTO L, VALMADRE J, HENRIQUES J F, et al. Fully-convolutional Siamese networks for object [12] tracking[C]//Proceedings of European Conference on Computer Vision. Amsterdam, The Netherlands, 2016: 850–865. VALMADRE J, BERTINETTO L, HENRIQUES J, et al. End-to-end representation learning for correlation filter based tracking[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA, 2017: 5000–5008. [13] GUO Qing, FENG Wei, ZHOU Ce, et al. Learning dynamic Siamese network for visual object tracking[C]// Proceedings of 2017 IEEE International Conference on Computer Vision. Venice, Italy, 2017: 1781–1789. [14] LI Bo, YAN Junjie, WU Wei, et al. High performance visual tracking with Siamese region proposal network[C]//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA, 2018: 8971–8980. [15] ZHU Zheng, WANG Qiang, LI Bo, et al. Distractoraware Siamese networks for visual object tracking[C]// Proceedings of European Conference on Computer Vision. Munich, Germany, 2018: 103–119. [16] DONG Xingping, SHEN Jianbing. Triplet loss in Siamese network for object tracking[C]//Proceedings of the 15th European Conference on Computer Vision. Munich, Germany, 2018: 472–488. [17] BOLME D S, BEVERIDGE J R, DRAPER B A, et al. Visual object tracking using adaptive correlation filters[C]// Proceedings of 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. California, USA, 2010: 2544–2550. [18] DANELLJAN M, HÄGER G, KHAN F S, et al. Accurate scale estimation for robust visual tracking[C]//Proceedings of the 25th British Machine Vision Conference. Linköping, Sweden, 2014: 1–5 [19] CANNY J. A computational approach to edge detection[J]. IEEE transactions on pattern analysis and machine intelligence, 1986, PAMI-8(6): 679–698. [20] DALAL N, TRIGGS B. Histograms of oriented gradients for human detection[C]//Proceedings of 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. California, USA, 2005: 886–893. [21] DERICHE R. Using Canny's criteria to derive a recursively implemented optimal edge detector[J]. International journal of computer vision, 1987, 1(2): 167–187. [22] ELDER J H, ZUCKER S W. Local scale control for edge detection and blur estimation[J]. IEEE transactions on pattern analysis and machine intelligence, 1998, 20(7): 699–716. [23] [24] OLSHAUSEN B A, FIELD D J. Emergence of simple- 第 4 期孙海宇，等：联合外形响应的深度目标追踪器 ·731·

·732· 智能系统学报第14卷 cell receptive field properties by learning a sparse code robust tracking via multiple experts using entropy minim- for natural images[J].Nature,1996,381(6583):607-609. ization[C]//Proceedings of the 13th European Conference [25]KRIZHEVSKY A,SUTSKEVER I,HINTON G E.Im- on Computer Vision.Zurich,Switzerland,2014:188-203 agenet classification with deep convolutional neural net- [33]MA Chao,YANG Xiaokang,ZHANG Chongyang,et al. works[C]//Proceedings of the 25th International Confer- Long-term correlation tracking[C]//Proceedings of 2015 ence on Neural Information Processing Systems.Lake IEEE Conference on Computer Vision and Pattern Recog- Tahoe,USA,2012:1097-1105. nition.Boston,USA.2015:5388-5396. [26]BLEIHOLDER J,NAUMANN F.Data fusion[J].ACM computing surveys(CSUR),2009,41(1):1. [34]SUN H.Y data[EB/OL].https://github.com/SMZCC/A_ [27]KALMAN R E.A new approach to linear filtering and proposed_deep_tracker. prediction problems[J].Journal of basic engineering, 作者简介： 1960,82(1)35-45. 孙海宇，男，1993年生，硕士研究 [28]FELZENSZWALB P F,GIRSHICK R B,MC- 生，主要研究方向为图像处理、目标跟 ALLESTER D,et al.Object detection with discriminat- 踪、深度学习相关算法。 ively trained part-based models[J].IEEE transactions on pattern analysis and machine intelligence,2010,32(9): 1627-1645 [29]RUSSAKOVSKY O,DENG Jia,SU Hao,et al.Imagenet large scale visual recognition challenge[J].International 陈秀宏，男，1964年生，教授，博 journal of computer vision,2015,115(3):211-252. 土后，主要研究方向为数字图像处理 [30]ABADI M,BARHAM P,CHEN Jianmin,et al.Tensor- 和模式识别、目标检测与跟踪、优化理论与方法。发表学术论文100余篇。 flow:a system for large-scale machine learning[Cl//Pro- ceedings of the 12th USENIX conference on Operating Systems Design and Implementation.Savannah,USA, 2016:265-283. [31]CHOI J,CHANG H J,YUN S,et al.Attentional correla- 肖汉雄.男，1991年生，硕土研究生，主要研究方向为模式识别和数 tion filter network for adaptive visual tracking[C]//Pro- 字图像处理、人脸识别、深度学习相关 ceedings of 2017 IEEE Conference on Computer Vision 算法。 and Pattern Recognition.Honolulu,USA,2017: 4828-4837. [32]ZHANG Jianming,MA Shugao,SCLAROFF S.MEEM:

cell receptive field properties by learning a sparse code for natural images[J]. Nature, 1996, 381(6583): 607–609. KRIZHEVSKY A, SUTSKEVER I, HINTON G E. Imagenet classification with deep convolutional neural networks[C]//Proceedings of the 25th International Conference on Neural Information Processing Systems. Lake Tahoe, USA, 2012: 1097–1105. [25] BLEIHOLDER J, NAUMANN F. Data fusion[J]. ACM computing surveys (CSUR), 2009, 41(1): 1. [26] KALMAN R E. A new approach to linear filtering and prediction problems[J]. Journal of basic engineering, 1960, 82(1): 35–45. [27] FELZENSZWALB P F, GIRSHICK R B, MCALLESTER D, et al. Object detection with discriminatively trained part-based models[J]. IEEE transactions on pattern analysis and machine intelligence, 2010, 32(9): 1627–1645. [28] RUSSAKOVSKY O, DENG Jia, SU Hao, et al. Imagenet large scale visual recognition challenge[J]. International journal of computer vision, 2015, 115(3): 211–252. [29] ABADI M, BARHAM P, CHEN Jianmin, et al. Tensorflow: a system for large-scale machine learning[C]//Proceedings of the 12th USENIX conference on Operating Systems Design and Implementation. Savannah, USA, 2016: 265–283. [30] CHOI J, CHANG H J, YUN S, et al. Attentional correlation filter network for adaptive visual tracking[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA, 2017: 4828–4837. [31] [32] ZHANG Jianming, MA Shugao, SCLAROFF S. MEEM: robust tracking via multiple experts using entropy minimization[C]//Proceedings of the 13th European Conference on Computer Vision. Zurich, Switzerland, 2014: 188–203. MA Chao, YANG Xiaokang, ZHANG Chongyang, et al. Long-term correlation tracking[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA, 2015: 5388–5396. [33] SUN H. Y data[EB/OL]. https://github.com/SMZCC/A_ proposed_deep_tracker. [34] 作者简介：孙海宇，男，1993 年生，硕士研究生，主要研究方向为图像处理、目标跟踪、深度学习相关算法。陈秀宏，男，1964 年生，教授，博士后，主要研究方向为数字图像处理和模式识别、目标检测与跟踪、优化理论与方法。发表学术论文 100 余篇。肖汉雄，男，1991 年生，硕士研究生，主要研究方向为模式识别和数字图像处理、人脸识别、深度学习相关算法。 ·732· 智能系统学报第 14 卷

点击进入文档下载页（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录