正在加载图片...
·726· 智能系统学报 第14卷 的追踪方法。判别式追踪器充分利用了视频序列 1模板匹配以及外形信息 中每一帧的前背景信息,从而达到区分目标和背 景的目的,如:Henriques等IsI所提出的追踪器 模板匹配类的追踪器,基本思想是通过衡量 以及Danelljan等提出的追踪器,从某种意义上 目标与搜索区域内各个部分的相似度,选取相似 讲,以上追踪器亦可称为模板匹配类的追踪器。 度最大的位置作为目标位置。事实上,这种思想 在基于深度学习的追踪器)和基于相关滤波的 这类追踪器主要通过已知的目标信息,习得一个 与目标相关的滤波模板,然后使用该模板在搜索 追踪器的中均有体现。 区域(可能包含目标的区域)进行滑动匹配,以匹 11孪生网络追踪器 在深度追踪器中,模板的匹配大都是通过李 配度的形式来反应匹配区域是否是目标位置,并 生网络来实现的,Bertinetto等I回第一次将李生网 将匹配度最高的位置作为最佳目标位置。文献[) 络应用于目标追踪。图1展示了一个典型的李生 中,主要讨论的是样本采样问题,当样本的数目 网络结构图,∫表示已经训练好的、权值固定的卷 采集的越多时,这些样本会构成一种理论比较完 积网络;Z表示上一帧的目标信息;X表示搜索区 善的循环结构,故而提出了循环采样的方法。文 域:⑧表示相关操作,实践中具体表现为卷积运 献[⑤]中,基于文献[),使用样本的原始像素或者 算。当Z与X分别经过卷积网络提取特征之后, 方向梯度直方图作为样本特征求解模板,然后使 分别得到卷积特征,Z,以及X,通过计算两者之 用该模板进行目标位置的匹配。从跟踪的定义上 间的相关性可得到搜索区域中每个部分与目标之 来看,以上主要解决的是目标追踪中的位置问 间的相关程度响应(图中的红点表示搜索区域中 题。文献[6]中,基于文献[⑤],主要讨论了目标尺 红色部分与目标的相关程度,而蓝点则表示搜索 度问题,在求解尺度以及位置的时候,使用的是 区域中蓝色部分与目标的相关程度),当得到响应 方向梯度直方图作为特征。类似的追踪器还有文 图之后,通过三线性插值,最大响应值的位置便 献[89],而最近几年,深度学习在许多应用领域 可作为当前帧的目标位置。 表现出了优秀的成绩0,目标追踪领域也不例外, 自Wang Naiyan将深度学习算法应用到跟踪领 域!后,深度学习类的追踪器也涌现出不少优秀 的作品,文献[12]中,提出了基于孪生网络的深 度追踪器,其在利用目标信息提取出卷积特征之 图1孪生网络追踪器结构图 后,仅仅使用了卷积特征在搜索区域进行目标位 Fig.1 Siamese network tracker structure 置的匹配。文献[13]在文献[12]的基础上直接将 1.2 相关滤波追踪器 相关滤波转化为了神经网络的网络层,使得两者 相关滤波类的追踪器最早是由文献[18]提出 合二为一,成为一个端到端的整体系统,但是依 来的,文献[7]在其基础上发展了循环采样以及 旧仅仅使用卷积网络所提取出来的特征。在最近 引入了核方法,但在文献[19]中,将目标位置和 的研究中,孪生网络受到了极大的关注。文献[14] 大小分开考虑,与本文将追踪中两大要素分而治 提出了一种动态孪生网络通过在线学习目标的外 之的思想更为契合,因此为本文所选用。为了获 形变化以获得目标的时域信息;文献[15]结合 取目标位置的响应图,相关滤波类的追踪器要找 RPN改进了候选框的生成来提高追踪的精度;文 到一个最优化的滤波器H,该滤波器由H所构 献[16]则尝试通过改变训练样本的数据分布来获 成。H通过最小化如下的代价函数获得: 得更具有判别性的特征;文献[I7]基于FaceNet 中的Triplet Loss来改进损失函数。本文认为,网 2-2 (1) 络卷积出来的特征其实是碎片化的,故而在进行 式中:H为特征的第i维度上的滤波器;F为特 目标位置匹配的时候,易在远离目标的地方产生 征的第i维度上的值;G是对应的位置响应标签, 位置响应噪声,从而影响目标位置的确定。因 由峰值点在目标中心处的高斯函数获得;并且 此,本文设计了一种联合外形响应的深度目标追 H、F、G都是M×N大小的;·代表了循环卷积运 踪器,利用外形信息的位置响应来修正卷积的位 算;1≥0,为正则项系数,易得该式的解为 置响应,从而得到更准确的目标定位,并通过实 = G.oF 验与其他追踪器进行了比较,验证了思路的可 (2) 牙koF+入 行性。 1的追踪方法。判别式追踪器充分利用了视频序列 中每一帧的前背景信息,从而达到区分目标和背 景的目的,如:Henriques 等 [ 5 ] 所提出的追踪器 以及 Danelljan 等 [6] 提出的追踪器,从某种意义上 讲,以上追踪器亦可称为模板匹配类的追踪器。 这类追踪器主要通过已知的目标信息,习得一个 与目标相关的滤波模板,然后使用该模板在搜索 区域 (可能包含目标的区域) 进行滑动匹配,以匹 配度的形式来反应匹配区域是否是目标位置,并 将匹配度最高的位置作为最佳目标位置。文献 [7] 中,主要讨论的是样本采样问题,当样本的数目 采集的越多时,这些样本会构成一种理论比较完 善的循环结构,故而提出了循环采样的方法。文 献 [5] 中,基于文献 [7],使用样本的原始像素或者 方向梯度直方图作为样本特征求解模板,然后使 用该模板进行目标位置的匹配。从跟踪的定义上 来看,以上主要解决的是目标追踪中的位置问 题。文献 [6] 中,基于文献 [5],主要讨论了目标尺 度问题,在求解尺度以及位置的时候,使用的是 方向梯度直方图作为特征。类似的追踪器还有文 献 [8-9],而最近几年,深度学习在许多应用领域 表现出了优秀的成绩[10] ,目标追踪领域也不例外, 自 Wang Naiyan 将深度学习算法应用到跟踪领 域 [11] 后,深度学习类的追踪器也涌现出不少优秀 的作品,文献 [12] 中,提出了基于孪生网络的深 度追踪器,其在利用目标信息提取出卷积特征之 后,仅仅使用了卷积特征在搜索区域进行目标位 置的匹配。文献 [13] 在文献 [12] 的基础上直接将 相关滤波转化为了神经网络的网络层,使得两者 合二为一,成为一个端到端的整体系统,但是依 旧仅仅使用卷积网络所提取出来的特征。在最近 的研究中,孪生网络受到了极大的关注。文献 [14] 提出了一种动态孪生网络通过在线学习目标的外 形变化以获得目标的时域信息;文献 [15] 结合 RPN 改进了候选框的生成来提高追踪的精度;文 献 [16] 则尝试通过改变训练样本的数据分布来获 得更具有判别性的特征;文献 [17] 基于 FaceNet 中的 Triplet Loss 来改进损失函数。本文认为,网 络卷积出来的特征其实是碎片化的,故而在进行 目标位置匹配的时候,易在远离目标的地方产生 位置响应噪声,从而影响目标位置的确定。因 此,本文设计了一种联合外形响应的深度目标追 踪器,利用外形信息的位置响应来修正卷积的位 置响应,从而得到更准确的目标定位,并通过实 验与其他追踪器进行了比较,验证了思路的可 行性。 1 模板匹配以及外形信息 模板匹配类的追踪器,基本思想是通过衡量 目标与搜索区域内各个部分的相似度,选取相似 度最大的位置作为目标位置。事实上,这种思想 在基于深度学习的追踪器[12] 和基于相关滤波的 追踪器[5] 中均有体现。 1.1 孪生网络追踪器 f Z X ⊗ Z X Zf Xf 在深度追踪器中,模板的匹配大都是通过孪 生网络来实现的,Bertinetto 等 [12] 第一次将孪生网 络应用于目标追踪。图 1 展示了一个典型的孪生 网络结构图, 表示已经训练好的、权值固定的卷 积网络; 表示上一帧的目标信息; 表示搜索区 域; 表示相关操作,实践中具体表现为卷积运 算。当 与 分别经过卷积网络提取特征之后, 分别得到卷积特征, 以及 ,通过计算两者之 间的相关性可得到搜索区域中每个部分与目标之 间的相关程度响应 (图中的红点表示搜索区域中 红色部分与目标的相关程度,而蓝点则表示搜索 区域中蓝色部分与目标的相关程度),当得到响应 图之后,通过三线性插值,最大响应值的位置便 可作为当前帧的目标位置。 Z X f Zf Xf 图 1 孪生网络追踪器结构图 Fig. 1 Siamese network tracker structure 1.2 相关滤波追踪器 H Hi H 相关滤波类的追踪器最早是由文献 [18] 提出 来的,文献 [7] 在其基础上发展了循环采样以及 引入了核方法,但在文献 [19] 中,将目标位置和 大小分开考虑,与本文将追踪中两大要素分而治 之的思想更为契合,因此为本文所选用。为了获 取目标位置的响应图,相关滤波类的追踪器要找 到一个最优化的滤波器 ,该滤波器由 所构 成。 通过最小化如下的代价函数获得: l = ∑d i=1 H i · F i −G 2 +λ ∑d i=1 H i 2 (1) Hi i F i i G Hi F i G M ×N · λ ⩾ 0 式中: 为特征的第 维度上的滤波器; 为特 征的第 维度上的值; 是对应的位置响应标签, 由峰值点在目标中心处的高斯函数获得;并且 、 、 都是 大小的; 代表了循环卷积运 算; ,为正则项系数,易得该式的解为 H i = G∗ ◦ F i ∑d k=1 F k ∗ ◦ F k +λ (2) ·726· 智 能 系 统 学 报 第 14 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有