第15卷第4期 智能系统学报 Vol.15 No.4 2020年7月 CAAI Transactions on Intelligent Systems Jul.2020 D0L:10.11992tis.201803036 基于特征融合及自适应模型更新的 相关滤波目标跟踪算法 刘威2,靳宝23,周璇23,付杰23,王薪予23,郭直清23,牛英杰23 (1.辽宁工程技术大学理学院,辽宁阜新123000:2.辽宁工程技术大学智能工程与数学研究院,辽宁阜新 123000,3.过宁工程技术大学数学与系统科学研究所,辽宁阜新123000) 摘要:针对单一特征目标跟踪算法因背景干扰、目标遮挡造成的跟踪失败问题,以及跟踪过程中每帧进行模 型更新容易造成错误更新和实时性差的问题,提出了一种基于特征融合及自适应模型更新策略的相关滤波目 标跟踪算法一多特征自适应相关滤波目标跟踪算法。该算法在特征提取阶段将边缘特征及HOG特征加权 融合作为目标特征,加强对边缘特征的学习:在模型更新阶段通过计算预测区域与真实区域的奇异值特征向量 相似度,并结合设定的阈值判断是否需要进行模型更新,通过自适应更新的方式减少模型的更新次数。在标准 测试视频集下验证所提算法,并与两种经典相关滤波算法进行比较,结果表明该算法能够较好地适应背景干扰 及目标遮挡问题,跟踪目标的平均中心误差减少了9.05像素,平均距离精度提高12.2%,平均重叠率提高4.53%。 关键词:目标跟踪:相关滤波;特征融合:模型更新:目标遮挡:背景干扰:计算机视觉:奇异值分解 中图分类号:TP301文献标志码:A文章编号:1673-4785(2020)04-0714-08 中文引用格式:刘威,靳宝,周璇,等.基于特征融合及自适应模型更新的相关滤波目标跟踪算法J.智能系统学报,2020, 15(4):714-721. 英文引用格式:LIU Wei,,JIN Bao,ZHOU Xuan,,et al.Correlation filter target tracking algorithm based on feature fusion and ad- aptive model updating J.CAAI transactions on intelligent systems,2020,15(4):714-721. Correlation filter target tracking algorithm based on feature fusion and adaptive model updating LIU Wei2,JIN Bao2,ZHOU Xuan'2,FU Jie23,WANG Xinyu23, GUO Zhiqing'2,NIU Yingjie (1.School of Sciences,Liaoning Technical University,Fuxin 123000,China;2.Institute of Intelligence Engineering and Mathemat- ics,Liaoning Technical University,Fuxin 123000,China;3.Institute of Mathematics and Systems Science,Liaoning Technical Uni- versity,Fuxin 123000,China) Abstract:For the problem of object tracking failure caused by background interference,object occlusion in object track- ing algorithm based on a single feature,and the problem of error updating and poor real-time performance caused by mod- el updating for each frame during tracking,a correlation filtering object tracking algorithm based on feature fusion and ad- aptive model updating is proposed in this paper.In the feature extraction phase,the edge feature and HOG feature are weighted together as the object features to enhance the learning of edge features.During the updating phase of the model, calculating the similarity of singular value eigenvector between the predicted region and the real region,and according to the set threshold to determine whether the model needs to be updated or not,and reducing the number of updates to the model by adaptively updating.The algorithm is verified under the standard test video set,and compared with two typical correlation filtering algorithms.The results show that the algorithm can better adapt to background interference and object occlusion problem.The average center location error is reduced by 9.05 pixels,the average distance precision is increased by 12.2%,and the average overlapping precision is increased by 4.53%. Keywords:object tracking;correlation filter;feature fusion;model updating;object occlusion;background interference; computer vision;singular value decomposition 收稿日期:2018-03-22. 基金项目:国家自然科学基金项目(51974144,71771111), 视频目标跟踪(video object tracking,VOT)是 通信作者:刘威.E-mail:v8218218@126.com. 计算机视觉领域的重要研究方向,综合了图像分
DOI: 10.11992/tis.201803036 基于特征融合及自适应模型更新的 相关滤波目标跟踪算法 刘威1,2,3,靳宝1,2,3,周璇1,2,3,付杰1,2,3,王薪予1,2,3,郭直清1,2,3,牛英杰1,2,3 (1. 辽宁工程技术大学 理学院,辽宁 阜新 123000; 2. 辽宁工程技术大学 智能工程与数学研究院,辽宁 阜新 123000; 3. 辽宁工程技术大学 数学与系统科学研究所,辽宁 阜新 123000) 摘 要:针对单一特征目标跟踪算法因背景干扰、目标遮挡造成的跟踪失败问题,以及跟踪过程中每帧进行模 型更新容易造成错误更新和实时性差的问题,提出了一种基于特征融合及自适应模型更新策略的相关滤波目 标跟踪算法−多特征自适应相关滤波目标跟踪算法。该算法在特征提取阶段将边缘特征及 HOG 特征加权 融合作为目标特征,加强对边缘特征的学习;在模型更新阶段通过计算预测区域与真实区域的奇异值特征向量 相似度,并结合设定的阈值判断是否需要进行模型更新,通过自适应更新的方式减少模型的更新次数。在标准 测试视频集下验证所提算法,并与两种经典相关滤波算法进行比较,结果表明该算法能够较好地适应背景干扰 及目标遮挡问题,跟踪目标的平均中心误差减少了 9.05 像素,平均距离精度提高 12.2%,平均重叠率提高 4.53%。 关键词:目标跟踪;相关滤波;特征融合;模型更新;目标遮挡;背景干扰;计算机视觉;奇异值分解 中图分类号:TP301 文献标志码:A 文章编号:1673−4785(2020)04−0714−08 中文引用格式:刘威, 靳宝, 周璇, 等. 基于特征融合及自适应模型更新的相关滤波目标跟踪算法 [J]. 智能系统学报, 2020, 15(4): 714–721. 英文引用格式:LIU Wei, JIN Bao, ZHOU Xuan, et al. Correlation filter target tracking algorithm based on feature fusion and adaptive model updating[J]. CAAI transactions on intelligent systems, 2020, 15(4): 714–721. Correlation filter target tracking algorithm based on feature fusion and adaptive model updating LIU Wei1,2,3 ,JIN Bao1,2,3 ,ZHOU Xuan1,2,3 ,FU Jie1,2,3 ,WANG Xinyu1,2,3 , GUO Zhiqing1,2,3 ,NIU Yingjie1,2,3 (1. School of Sciences, Liaoning Technical University, Fuxin 123000, China; 2. Institute of Intelligence Engineering and Mathematics, Liaoning Technical University, Fuxin 123000, China; 3. Institute of Mathematics and Systems Science, Liaoning Technical University, Fuxin 123000, China) Abstract: For the problem of object tracking failure caused by background interference, object occlusion in object tracking algorithm based on a single feature, and the problem of error updating and poor real-time performance caused by model updating for each frame during tracking, a correlation filtering object tracking algorithm based on feature fusion and adaptive model updating is proposed in this paper. In the feature extraction phase, the edge feature and HOG feature are weighted together as the object features to enhance the learning of edge features. During the updating phase of the model, calculating the similarity of singular value eigenvector between the predicted region and the real region, and according to the set threshold to determine whether the model needs to be updated or not, and reducing the number of updates to the model by adaptively updating. The algorithm is verified under the standard test video set, and compared with two typical correlation filtering algorithms. The results show that the algorithm can better adapt to background interference and object occlusion problem. The average center location error is reduced by 9.05 pixels, the average distance precision is increased by 12.2%, and the average overlapping precision is increased by 4.53%. Keywords: object tracking; correlation filter; feature fusion; model updating; object occlusion; background interference; computer vision; singular value decomposition 视频目标跟踪 (video object tracking, VOT) 是 计算机视觉领域的重要研究方向,综合了图像分 收稿日期:2018−03−22. 基金项目:国家自然科学基金项目 (51974144,71771111). 通信作者:刘威. E-mail:lv8218218@126.com. 第 15 卷第 4 期 智 能 系 统 学 报 Vol.15 No.4 2020 年 7 月 CAAI Transactions on Intelligent Systems Jul. 2020
第4期 刘威,等:基于特征融合及自适应模型更新的相关滤波目标跟踪算法 ·715· 析与处理、模式识别、人工智能、自动控制等领域 标位置的区域提取图像块用来检测;提取图像块 的先进技术,在视觉导航、机器人、智能交通、视 的特征,同时加余弦窗口平滑边缘;利用离散傅 频监控等方面具有广泛应用刘。但在实际应用 里叶变换进行相关滤波操作;通过傅里叶变换得 中仍面临诸多困难与挑战,主要包括光照变化、 到响应图谱,具有最大响应值的位置就是要预测 尺度变化、目标遮挡、背景干扰、非刚体形变、旋 的目标位置:提取估计位置的目标外观,训练和 转、运动模糊等。因此近年来一些目标跟踪算法 更新相关滤波器。 被提出B,其中基于相关滤波的目标跟踪采用密 1.1相关滤波目标跟踪算法 集采样策略,利用频域中的快速傅里叶变换(fast 将一张图片以d维特征图表示。设∫是从这 fourier transformation.FFT)代替空间卷积运算,进 个特征图中提取出来的目标的矩形块。用P来 行相关滤波的训练,通过对后续帧进行相关滤波 表示f的特征维数1∈(1,2,…,d。相关滤波算法 快速定位目标,因其跟踪精度及实时性显著提升 目的是找到一个最佳的相关滤波器h,该滤波器 而被广泛关注。 由每个特征维度的滤波器组成。通过最小化 最小输出平方误差和(minimum output sum of 代价函数式(1)来实现: squared error,MOSSE)滤波器最早将相关滤波用 于目标跟踪,该方法采用单一的灰度特征,速度 2 (1) 远高于其他算法,但准确度一般。之后在MOSSE 算法基础上,一系列改进算法被提出8。其中 式中:*表示循环相关(h的复共轭与对应位置 CSK81采用单一的灰度特征,易受背景复杂、目标 元素乘积),g是与训练样本f相关的期望相关输 和背景颜色相似的影响,KCF采用方向梯度直 出。≥0是正则化参数。式中只考虑一个训练 方图HOG特征,CNo中采用颜色特征,运用自 样本,求解得: 适应降维方法将11维颜色特征降为2维用于目 GFL H (2) 标跟踪,均得到了较好的跟踪效果。文献[14]将 *F+ 原始图像的灰度特征、颜色特征及HOG特征融 合,提高了跟踪性能。随着深度学习的发展,许 式(1)中正则化参数缓解了f频谱中零频分 多算法将深度学习提取的特征同现有的特征进行 量的问题,避免了除数为零。通过最小化所有训 融合7,同样提高了跟踪性能。 练块的输出误差来获得最优滤波器。但需要对每 虽然上述算法取得了较好的跟踪效果,但是 个像素的d×d线性系统求解,这对于在线学习计 在存在严重背景干扰及目标遮挡等情况下,仍容 算资源的消耗是高昂的。为了获得一个鲁棒稳定 易发生跟踪失败的情况。为了在严重背景干扰及 的近似,通过式(3)、(4)更新式(2)中的相关滤波 目标遮挡情况下更好地完成跟踪,考虑到图像的 器H!的分子A和分母B: 边缘特征作为图像的基本特征,携带了原始图像 A=(1-4-1+nG,F (3) 的绝大部分信息,而HOG特征是分块提取图像 县,=0-081+nE d 的局部特征,两个特征具有一定的互补性,从而 (4) 提出一种基于特征融合方法及自适应模型更新策 k=1 略的相关滤波目标跟踪算法一多特征自适应 式中:)是学习率,使用式(⑤)计算特征图的矩形 相关滤波目标跟踪算法,通过选择边缘特征和 区域z处的相关得分y,然后通过最大化分数y找 HOG特征的线性加权融合结果作为目标特征,加 到新的目标状态。 强对边缘特征的学习:采用基于奇异值特征向量 相似度的自适应模型更新策略,避免了每一帧都 Z(B+) (5) 更新模型造成的重复计算,降低了错误更新的概 1.2边缘特征和HOG特征的融合策略 率,更好适应了背景干扰及目标遮挡等问题。 图像中的边界信息携带了原始图像的绝大部 1算法描述 分信息,描述了图像的整体边缘特征,可以通过 边缘线就能识别出一个物体,因此对图像边缘特 相关滤波跟踪算法的总体框架是根据视频第 征的提取与学习一定程度上影响了对后续处理的 一帧中给定的目标位置提取图像块,训练、学习 精度;HOG特征是分块提取图像的局部特征;因 得到相关滤波器:对后续的每一帧,从上一帧目 此通过将两种特征进行融合,可以更好地掌握图
析与处理、模式识别、人工智能、自动控制等领域 的先进技术,在视觉导航、机器人、智能交通、视 频监控等方面具有广泛应用[1- 2]。但在实际应用 中仍面临诸多困难与挑战,主要包括光照变化、 尺度变化、目标遮挡、背景干扰、非刚体形变、旋 转、运动模糊等。因此近年来一些目标跟踪算法 被提出[3-6] ,其中基于相关滤波的目标跟踪采用密 集采样策略,利用频域中的快速傅里叶变换 (fast fourier transformation, FFT) 代替空间卷积运算,进 行相关滤波的训练,通过对后续帧进行相关滤波 快速定位目标,因其跟踪精度及实时性显著提升 而被广泛关注。 最小输出平方误差和 (minimum output sum of squared error, MOSSE)[7] 滤波器最早将相关滤波用 于目标跟踪,该方法采用单一的灰度特征,速度 远高于其他算法,但准确度一般。之后在 MOSSE 算法基础上,一系列改进算法被提出[8-13]。其中 CSK[8] 采用单一的灰度特征,易受背景复杂、目标 和背景颜色相似的影响,KCF[9] 采用方向梯度直 方图 HOG 特征,CN[10] 中采用颜色特征,运用自 适应降维方法将 11 维颜色特征降为 2 维用于目 标跟踪,均得到了较好的跟踪效果。文献 [14] 将 原始图像的灰度特征、颜色特征及 HOG 特征融 合,提高了跟踪性能。随着深度学习的发展,许 多算法将深度学习提取的特征同现有的特征进行 融合[15-17] ,同样提高了跟踪性能。 虽然上述算法取得了较好的跟踪效果,但是 在存在严重背景干扰及目标遮挡等情况下,仍容 易发生跟踪失败的情况。为了在严重背景干扰及 目标遮挡情况下更好地完成跟踪,考虑到图像的 边缘特征作为图像的基本特征,携带了原始图像 的绝大部分信息,而 HOG 特征是分块提取图像 的局部特征,两个特征具有一定的互补性,从而 提出一种基于特征融合方法及自适应模型更新策 略的相关滤波目标跟踪算法−多特征自适应 相关滤波目标跟踪算法,通过选择边缘特征和 HOG 特征的线性加权融合结果作为目标特征,加 强对边缘特征的学习;采用基于奇异值特征向量 相似度的自适应模型更新策略,避免了每一帧都 更新模型造成的重复计算,降低了错误更新的概 率,更好适应了背景干扰及目标遮挡等问题。 1 算法描述 相关滤波跟踪算法的总体框架是根据视频第 一帧中给定的目标位置提取图像块,训练、学习 得到相关滤波器;对后续的每一帧,从上一帧目 标位置的区域提取图像块用来检测;提取图像块 的特征,同时加余弦窗口平滑边缘;利用离散傅 里叶变换进行相关滤波操作;通过傅里叶变换得 到响应图谱,具有最大响应值的位置就是要预测 的目标位置;提取估计位置的目标外观,训练和 更新相关滤波器。 1.1 相关滤波目标跟踪算法 d f f l f l ∈ {1,2,··· ,d} h h l 将一张图片以 维特征图表示。设 是从这 个特征图中提取出来的目标的矩形块。用 来 表示 的特征维数 。相关滤波算法 目的是找到一个最佳的相关滤波器 ,该滤波器 由每个特征维度的滤波器 组成。通过最小化 代价函数式 (1) 来实现: ε= ∑d l=1 h l ∗ f l −g 2 +λ ∑d l=1 h l 2 (1) ∗ h l f l g f λ ⩾ 0 式中: 表示循环相关 ( 的复共轭与 对应位置 元素乘积), 是与训练样本 相关的期望相关输 出。 是正则化参数。式中只考虑一个训练 样本,求解得: H l = GF¯ l ∑d k=1 F¯ kF k +λ (2) f d ×d H l t A l t Bt 式 (1) 中正则化参数缓解了 频谱中零频分 量的问题,避免了除数为零。通过最小化所有训 练块的输出误差来获得最优滤波器。但需要对每 个像素的 线性系统求解,这对于在线学习计 算资源的消耗是高昂的。为了获得一个鲁棒稳定 的近似,通过式 (3)、(4) 更新式 (2) 中的相关滤波 器 的分子 和分母 : A l t = (1−η)A l t−1 +ηG¯ tF l t (3) Bt = (1−η)Bt−1 +η ∑d k=1 F¯ k t F k t (4) η z y y 式中: 是学习率,使用式 (5) 计算特征图的矩形 区域 处的相关得分 ,然后通过最大化分数 找 到新的目标状态。 y = F −1 ∑d l=1 A¯ lZ l / (B+λ) (5) 1.2 边缘特征和 HOG 特征的融合策略 图像中的边界信息携带了原始图像的绝大部 分信息,描述了图像的整体边缘特征,可以通过 边缘线就能识别出一个物体,因此对图像边缘特 征的提取与学习一定程度上影响了对后续处理的 精度;HOG 特征是分块提取图像的局部特征;因 此通过将两种特征进行融合,可以更好地掌握图 第 4 期 刘威,等:基于特征融合及自适应模型更新的相关滤波目标跟踪算法 ·715·
·716· 智能系统学报 第15卷 像的特征,为目标跟踪的后续工作提供更加精确 奇异值分解。 的特征表示。 基于奇异值特征向量相似性的模型自适应更 在特征提取阶段采用线性加权方式融合边缘 新算法流程如下: 特征和HOG特征作为目标特征,具体流程如下: 1)分别对预测区域与真实区域图像矩阵进行 1)分别提取目标区域的边缘特征Fe和HOG 奇异值分解,得到预测区域与真实区域图像的奇 特征FHoG; 异值特征向量M1和M2; 2)初始化融合参数6; 2)利用余弦距离计算M1和M2的相似度: 3)计算边缘特征与HOG特征融合后的目标 、M1·M2 特征:F=6Fe+(1-)FHOG =Mil-IMal (7) 其中6∈[0,1,当6=0时,表示跟踪只使用HOG 3)若入≥0.5,表示预测区域与真实区域相似, 特征:当6=1时,表示跟踪只使用边缘特征。实验 则通过式(3)、(4)进行模型更新,同时设置较低的 中根据所需的对象特征适当选取6的值。 学习率1=0.025,以保持良好的跟踪;若λ0),A日A的特征值为1≥ 量相似度: 2≥…≥,≥+1=…=n=0,则称g,=V瓦i=1, 6)若相似度大于设定的阈值,则进行相关滤 2,…,n)是A的奇异值;规定零矩阵的奇异值都是0。 波器更新,若相似度小于设定的阈值,则不更新: 定理1设A∈Cmx(r>0),则存在m阶酉矩 7)重复4)6)0 阵U和n阶酉矩阵V,使得 2实验结果与分析 A-8 (6) 2.1数据集说明 式中:矩阵=diag(c1,02,…,0),而1,02,…,0,是 为了验证基于特征融合及自适应模型更新的 矩阵A的所有非零奇异值。称式(6)是矩阵A的 相关滤波目标跟踪算法的有效性,选取视频跟踪
像的特征,为目标跟踪的后续工作提供更加精确 的特征表示。 在特征提取阶段采用线性加权方式融合边缘 特征和 HOG 特征作为目标特征,具体流程如下: Fedge FHOG 1) 分别提取目标区域的边缘特征 和 HOG 特征 ; 2) 初始化融合参数 δ ; F = δFedge +(1−δ)FHOG 3) 计算边缘特征与 HOG 特征融合后的目标 特征: 。 δ ∈ [0,1] δ=0 δ=1 δ 其中 ,当 时,表示跟踪只使用 HOG 特征;当 时,表示跟踪只使用边缘特征。实验 中根据所需的对象特征适当选取 的值。 1.3 基于奇异值特征向量相似性的自适应模型 更新策略 同离线跟踪相比,在线跟踪方式的优势在于 可以实时对模型进行更新,增加了跟踪的鲁棒 性,目前主要的更新方式有以下 3 种: 1) 每一帧都进行更新[18]。这种更新方式过于 频繁,增加了错误更新的概率,同时增加了模型 漂移的可能。 2) 当响应分数低于一定阈值才进行模型更 新 [6]。减少了更新频率,增加了对模型的判断。 3) 计算正负样本的响应分数,当二者的差值 低于一定阈值时更新模型[19]。 本文提出了一种基于奇异值特征向量相似性 的模型自适应更新策略:首先将预测区域图像矩 阵与真实区域图像矩阵进行奇异值分解,然后计 算分解后得到的奇异值特征向量之间的余弦距 离,来表征预测区域和真实区域的相似程度,并 与给定阈值比较以决定模型是否更新。 矩阵奇异值分解 (singular value decomposition, SVD) 是矩阵特征提取的一种主要方法,它通过将 复杂的矩阵转换为代表矩阵特征的更小、更简单 的几个子矩阵相乘来实现矩阵特征提取。图像的 奇异值特征向量具有正交变换、旋转等代数和几 何上的不变性,同时具有稳定性和抗噪性,因此 在模式识别、图像分析等领域中应用广泛[20]。 A ∈ C m×n r (r > 0) A H A λ1 ⩾ λ2 ⩾ ··· ⩾ λr ⩾ λr+1 = ··· = λn = 0 σi = √ λi(i = 1, 2,··· ,n) A 定义 1 设 , 的特征值为 ,则称 是 的奇异值;规定零矩阵的奇异值都是 0。 A ∈ C m×n r (r > 0) m U n V 定理 1 设 ,则存在 阶酉矩 阵 和 阶酉矩阵 ,使得 A=U ( Σ 0 0 0 ) V H (6) Σ= diag(σ1,σ2,··· ,σr) σ1,σ2,··· ,σr A A 式中:矩阵 ,而 是 矩阵 的所有非零奇异值。称式 (6) 是矩阵 的 奇异值分解。 基于奇异值特征向量相似性的模型自适应更 新算法流程如下: M1 M2 1) 分别对预测区域与真实区域图像矩阵进行 奇异值分解,得到预测区域与真实区域图像的奇 异值特征向量 和 ; 2) 利用余弦距离计算 M1 和 M2 的相似度: λ = M1 · M2 |M1| · |M2| (7) λ ⩾ 0.5 l = 0.025 λ < 0.5 l = 1 3) 若 ,表示预测区域与真实区域相似, 则通过式 (3)、(4) 进行模型更新,同时设置较低的 学习率 ,以保持良好的跟踪;若 ,则 认为预测区域与真实区域相差很大,不进行模型 更新,同时设置较大的学习率 。 λ λ 通过对大量数值实验结果的对比分析可知, 当 取值较大或较小时,目标跟踪易发生偏移, 鲁棒性较差,跟踪准确率低,因此最终实验确定 的取值为 0.5。而学习率表征了对目标表观的学 习能力,一般由经验值来确定,学习率越大说明 学习速度越快,对目标表观变化大的复杂环境跟 踪良好,学习率越小说明学习速度越慢,对目标 表观变化小的环境跟踪良好。 1.4 多特征自适应相关滤波目标跟踪算法 基于边缘特征和 HOG 特征的融合策略和奇 异值特征向量相似性的自适应模型更新策略,本 文提出了一种新的相关滤波目标跟踪算法− 多特征自适应相关滤波目标跟踪算法。算法流程 如下: 1) 根据给定的视频第 1 帧目标位置,提取边 缘特征及 HOG 特征; 2) 根据视频内容设定特征融合参数,计算得 到融合后的特征值; 3) 训练、学习相关滤波器; 4) 提取下一帧目标位置特征,进行相关滤波 操作,得到预测区域; 5) 计算预测区域与真实区域的奇异值特征向 量相似度; 6) 若相似度大于设定的阈值,则进行相关滤 波器更新,若相似度小于设定的阈值,则不更新; 7) 重复 4)~6)。 2 实验结果与分析 2.1 数据集说明 为了验证基于特征融合及自适应模型更新的 相关滤波目标跟踪算法的有效性,选取视频跟踪 ·716· 智 能 系 统 学 报 第 15 卷
第4期 刘威,等:基于特征融合及自适应模型更新的相关滤波目标跟踪算法 ·717· 标准数据集OTB-50和OTB-100中存在背景干扰 时存在目标遮挡问题,各组视频序列的帧数、目 问题的18组视频序列进行数值实验,其中9组同 标大小以及存在的问题信息见表1。 表1测试视频信息 Table 1 Test video information 测试视频 帧数 目标大小(像素×像素) 主要问题 测试视频 帧数 目标大小(像素×像素) 主要问题 Basketball 725 81×34 OCC,BC、IV Liquor 1741 210×73 OCC、BC、SV、IV CarDark 393 23×29 BC,IV Matrix 100 42×38 OCC、BC、SV、IV Coke 291 80×48 OCC、BC、IV Mhyang 1490 70×62 BC、IV Crossing 120 50×17 BC、SV MountainBike 228 56×67 BC David3 252 78×64 OCC、BC Shaking 365 71×61 BC、SV、V Deer 71 65×95 BC、MB Singer2 366 122×67 BC、IV Dudek 1145 36×51 OCC、BC、SV Skatingl 400 84×34 OCC、BC、SV Football 362 50×39 OCC、BC Subway 175 51×19 OCC、BC Footballl 74 43×26 BC Trellis 569 101×68 BC、SV、V 注:OCC一遮挡,BC一背景干扰,SV一尺度变化,IV一照明变化,MB一运动模糊 2.2评估方式 用固定学习率y=0.025,均采用同DSST相同的尺 为了评估目标跟踪算法的性能,本文使用如 度估计,除本文算法采用自适应模型更新策略 下评估指标:中心位置误差(center location error, 外,其他算法均采用每帧更新策略。实验结果如 CLE)、区域重叠准确率(region overlap precision,. 表2所示。可以看出,本文算法对18个视频的 OP)、距离精度(distance precision,DP)、跟踪速度 CLE、DP和OP指标均表现良好,跟踪长度也略 (frames per second,FPS)、跟踪长度(tracking length, 优于其他对比算法。本文算法得到的18组视频 TL)。其中CLE为检测到的目标中心与真实目标 的平均中心位置误差CLE为8.91,平均中心距离 中心间的平均欧氏距离,OP为检测区域与真实区 精度DP为92.92%,平均重叠面积精度0P为 域重叠面积超过一定阈值的视频帧数占视频总帧 81.65%,同其他两种算法表现最优的结果相比, 数的百分比,DP为中心位置误差小于一定阈值的 本文算法的平均中心位置误差CLE减少9.05,平 视频帧数占总帧数的百分比,FPS为每秒处理的 均中心距离精度DP增加12.2%,平均重叠面积精 视频帧数,TL为从跟踪开始到中心位置误差下降 度OP增加4.53%。 到一定阈值以下的帧数。CLE的值越小,OP、 2)背景干扰及目标遮挡下的跟踪实验 DP、FPS、TL的值越大,跟踪效果越好。 对存在严重背景干扰及目标遮挡的3组视频 2.3实验分析 Basketball、David3和Liquor序列进行实验,图1 本文共设计3组实验,第1组实验在18组测 所示为3组视频的跟踪曲线。从图1中(a)(c)可 试视频上对现有的两种算法(基于多维特征的 以看出,在Basketball数据集中,当期望重叠率为 DSST2算法、基于HOG特征的SRDCF算法I 0.5时,本章算法的重叠面积精度高于DSST算 法、SRDCF算法;在David3数据集中,本文算法 和本文的算法的跟踪效果进行对比;第2组实验 的重叠面积精度略低于SRDCF算法,优于DSST 重点测试算法在同时具有背景干扰及目标遮挡问 算法;在Liquor数据集中,本文算法的重叠率精 题的视频序列上的跟踪效果;第3组实验对比 度取得了同SRDCF算法相近的结果,优于DSST 3种跟踪算法的跟踪速度。 算法。由图(d)()的距离精度可以看出,当期望 1)跟踪效果对比实验 像素误差为20时,在Basketball数据集中,本文算 对18组存在背景干扰的视频进行实验,为确 法的距离精度远远高于SRDCF算法和DSST算 定每组视频的最优融合参数6,以步长为0.1,从 法;在David3数据集中,本文算法取得同SRD- 0~1对融合参数6进行采样测试,选择测试中最 CF算法,但都远远高于DSST算法;在Liquor 优的6如表2所示,验证本文算法和现有的两种 数据集中,本文算法的距离精度,略高于SRD 相关滤波跟踪算法的跟踪效果。所有实验中均采 CF算法,远高于DSST算法。当距离精度为
标准数据集 OTB-50 和 OTB-100 中存在背景干扰 问题的 18 组视频序列进行数值实验,其中 9 组同 时存在目标遮挡问题,各组视频序列的帧数、目 标大小以及存在的问题信息见表 1。 表 1 测试视频信息 Table 1 Test video information 测试视频 帧数 目标大小/(像素×像素) 主要问题 测试视频 帧数 目标大小/(像素×像素) 主要问题 Basketball 725 81×34 OCC、BC、IV Liquor 1 741 210×73 OCC、BC、SV、IV CarDark 393 23×29 BC、IV Matrix 100 42×38 OCC、BC、SV、IV Coke 291 80×48 OCC、BC、IV Mhyang 1 490 70×62 BC、IV Crossing 120 50×17 BC、SV MountainBike 228 56×67 BC David3 252 78×64 OCC、BC Shaking 365 71×61 BC、SV、IV Deer 71 65×95 BC、MB Singer2 366 122×67 BC、IV Dudek 1 145 36×51 OCC、BC、SV Skating1 400 84×34 OCC、BC、SV Football 362 50×39 OCC、BC Subway 175 51×19 OCC、BC Football1 74 43×26 BC Trellis 569 101×68 BC、SV、IV 注:OCC—遮挡,BC—背景干扰,SV—尺度变化,IV—照明变化,MB—运动模糊 2.2 评估方式 为了评估目标跟踪算法的性能,本文使用如 下评估指标[11] :中心位置误差 (center location error, CLE)、区域重叠准确率 (region overlap precision, OP)、距离精度 (distance precision, DP)、跟踪速度 (frames per second, FPS)、跟踪长度 (tracking length, TL)。其中 CLE 为检测到的目标中心与真实目标 中心间的平均欧氏距离,OP 为检测区域与真实区 域重叠面积超过一定阈值的视频帧数占视频总帧 数的百分比,DP 为中心位置误差小于一定阈值的 视频帧数占总帧数的百分比,FPS 为每秒处理的 视频帧数,TL 为从跟踪开始到中心位置误差下降 到一定阈值以下的帧数。CLE 的值越小,OP、 DP、FPS、TL 的值越大,跟踪效果越好。 2.3 实验分析 本文共设计 3 组实验,第 1 组实验在 18 组测 试视频上对现有的两种算法 (基于多维特征的 DSST[12] 算法、基于 HOG 特征的 SRDCF 算法[13] ) 和本文的算法的跟踪效果进行对比;第 2 组实验 重点测试算法在同时具有背景干扰及目标遮挡问 题的视频序列上的跟踪效果;第 3 组实验对比 3 种跟踪算法的跟踪速度。 1) 跟踪效果对比实验 δ δ δ 对 18 组存在背景干扰的视频进行实验,为确 定每组视频的最优融合参数 ,以步长为 0.1,从 0~1 对融合参数 进行采样测试,选择测试中最 优的 如表 2 所示,验证本文算法和现有的两种 相关滤波跟踪算法的跟踪效果。所有实验中均采 用固定学习率 γ=0.025 ,均采用同 DSST 相同的尺 度估计,除本文算法采用自适应模型更新策略 外,其他算法均采用每帧更新策略。实验结果如 表 2 所示。可以看出,本文算法对 18 个视频的 CLE、DP 和 OP 指标均表现良好,跟踪长度也略 优于其他对比算法。本文算法得到的 18 组视频 的平均中心位置误差 CLE 为 8.91,平均中心距离 精度 DP 为 92.92%,平均重叠面积精度 OP 为 81.65%,同其他两种算法表现最优的结果相比, 本文算法的平均中心位置误差 CLE 减少 9.05,平 均中心距离精度 DP 增加 12.2%,平均重叠面积精 度 OP 增加 4.53%。 2) 背景干扰及目标遮挡下的跟踪实验 对存在严重背景干扰及目标遮挡的 3 组视频 Basketball、David3 和 Liquor 序列进行实验,图 1 所示为 3 组视频的跟踪曲线。从图 1 中 (a)~(c) 可 以看出,在 Basketball 数据集中,当期望重叠率为 0.5 时,本章算法的重叠面积精度高于 DSST 算 法、SRDCF 算法;在 David3 数据集中,本文算法 的重叠面积精度略低于 SRDCF 算法,优于 DSST 算法;在 Liquor 数据集中,本文算法的重叠率精 度取得了同 SRDCF 算法相近的结果,优于 DSST 算法。由图 (d)~(f) 的距离精度可以看出,当期望 像素误差为 20 时,在 Basketball 数据集中,本文算 法的距离精度远远高于 SRDCF 算法和 DSST 算 法;在 David3 数据集中,本文算法取得同 SRDCF 算法,但都远远高于 DSST 算法;在 Liquor 数据集中,本文算法的距离精度,略高于 SRDCF 算法,远高于 DSST 算法。当距离精度为 第 4 期 刘威,等:基于特征融合及自适应模型更新的相关滤波目标跟踪算法 ·717·
·718· 智能系统学报 第15卷 0.8时,Basketball、David:3、Liquor3个数据集中, David3数据集中,本文算法和SRDCF算法具有 本文算法的误差像素均低于SRDCF和算法DSST 相同的跟踪长度,但都大于DSST算法;在Li- 算法。由图(g)(①的跟踪长度可以看出,当期望 quor数据集中,本文算法略大于SRDCF算法和 像素误差为20时,在Basketball数据集中,本文算 DSST算法。综合下来,同其他两种算法相比,本 法的跟踪长度大于SRDCF算法及DSST算法;在 文算法的跟踪效果更好。 表23种算法在18组视频序列上的跟踪效果 Table 2 The tracking effect of 3 algorithms on 18 groups of video sequences CLE/像素 DP/ OP/% TL/帧 测试视频 融合参数 总帧数 DSST SRDCF本文DSST SRDCF本文DSST SRDCF本文 DSST SRDCF本文 Basketball 0.6 83.425.1 12.9 45.1 32 77.9 1.6626.9 42.9 12 8 243 725 CarDark 0.5 1.03 1.31 1.01100 100 100 100 100 100 393 393 393 393 Coke 0.2 17.520 17.5 86.9 80.4 86.6 79 71.1 78.4 101 91 101 291 Crossing 0.5 1.5 1.88 1.37100 100 100 100 120 120 120 120 David3 0.5 611 002 154 252 252 252 Deer 0.2 12 24 71 Dudek 0.7 461145 Football 0.5 22 362 Footballl 0.9 63 74 Liquor 0.3 385 1741 Matrix 0.3 66 100 Mhyang 0.3 4 1490 1490 MountainBike 0.6 22 228 228 Shaking 0.2 R37 365 365 365 Singer2 0.3 7.66 15. 8.1 100 70. 99. 10 81.1 100 366 242 361 366 Skatingl 0.6 10.3 23.6 7.6 89 64 99.5 65.5 49.8 63.2 309 177 309 400 Subway 0.5 2.46 2.97 2.38100 100 100 100 98.3 100 175 175 175 175 Trellis 0.5 2.666.82 2.11100 100 100 97.5 95.4100 569 569 569 569 平均值 27.8817.96 8.9180.7280.1092.9274.6977.1281.65 图1中3组视频的实验数据如表2中第1、 性能也达到与DSST算法相近的性能,在存在遮 5、10行所示,结合其他测试视频的对比结果,本 挡问题的视频中各项评价指标均好于DSST,与 文所提算法在多数测试视频上的性能好于DSST SRDCF相比,本文提出的算法平均CLE降低5.79, 算法。其中,在Coke和Singer2等测试视频中的 DP提高15.27%,OP提高3.04%。 1.0 1.0 1.0 一本文算法 0.8 -DSST 0.8 0.8 SRDCF 06 0.6 0.6 0.4 0.4 0.4 本文算法 ,本文算法 0.2 -DSST 0.2 -DSST SRDCF SRDCF 0.2 0.40.6 0.8 1.0 0 02 0.40.60.8 1.0 0 0.2 0.40.6 0.8 1.0 重叠率 重叠率 重叠率 (a)Basketball重叠面积精度 (b)David3重叠面积精度 (c)Liquor重叠面积精度
0.8 时,Basketball、David3、Liquor 3 个数据集中, 本文算法的误差像素均低于 SRDCF 和算法 DSST 算法。由图 (g)~(i) 的跟踪长度可以看出,当期望 像素误差为 20 时,在 Basketball 数据集中,本文算 法的跟踪长度大于 SRDCF 算法及 DSST 算法;在 David3 数据集中,本文算法和 SRDCF 算法具有 相同的跟踪长度,但都大于 DSST 算法;在 Liquor 数据集中,本文算法略大于 SRDCF 算法和 DSST 算法。综合下来,同其他两种算法相比,本 文算法的跟踪效果更好。 表 2 3 种算法在 18 组视频序列上的跟踪效果 Table 2 The tracking effect of 3 algorithms on 18 groups of video sequences 测试视频 融合参数 CLE/像素 DP/% OP/% TL/帧 总帧数 DSST SRDCF 本文 DSST SRDCF 本文 DSST SRDCF 本文 DSST SRDCF 本文 Basketball 0.6 83.4 25.1 12.9 45.1 32 77.9 1.66 26.9 42.9 12 8 243 725 CarDark 0.5 1.03 1.31 1.01 100 100 100 100 100 100 393 393 393 393 Coke 0.2 17.5 20 17.5 86.9 80.4 86.6 79 71.1 78.4 101 91 101 291 Crossing 0.5 1.5 1.88 1.37 100 100 100 100 100 100 120 120 120 120 David3 0.5 88 5.23 3.95 61.1 100 100 54 99.2 92.1 154 252 252 252 Deer 0.2 10.3 5.12 9.54 88.7 100 90.1 88.7 100 84.5 24 71 24 71 Dudek 0.7 13.6 14.2 11.8 81.4 79.6 82.9 98.9 96.1 93 48 46 46 1145 Football 0.5 16.7 6.82 9.09 79.8 100 98.6 63 84.8 50.8 289 362 225 362 Football1 0.9 32.1 21.5 8.64 51.4 78.4 97.3 35.1 54.1 39.2 38 58 63 74 Liquor 0.3 130 7.66 3.76 40.5 98.2 98.1 41 98.4 98.6 385 385 385 1741 Matrix 0.3 66.4 68.8 42.5 29 37 42 20 36 27 18 36 33 100 Mhyang 0.3 2.1 5.06 2.02 100 99.8 100 100 95.8 100 1 490 1380 1490 1490 MountainBike 0.6 7.73 5.15 7.86 100 100 100 100 100 100 228 228 228 228 Shaking 0.2 8.37 86.9 8.17 100 1.64 100 100 1.1 100 365 4 365 365 Singer2 0.3 7.66 15.2 8.16 100 70.8 99.5 100 81.1 100 366 242 361 366 Skating1 0.6 10.3 23.6 7.6 89 64 99.5 65.5 49.8 63.2 309 177 309 400 Subway 0.5 2.46 2.97 2.38 100 100 100 100 98.3 100 175 175 175 175 Trellis 0.5 2.66 6.82 2.11 100 100 100 97.5 95.4 100 569 569 569 569 平均值 27.88 17.96 8.91 80.72 80.10 92.92 74.69 77.12 81.65 图 1 中 3 组视频的实验数据如表 2 中第 1、 5、10 行所示,结合其他测试视频的对比结果,本 文所提算法在多数测试视频上的性能好于 DSST 算法。其中,在 Coke 和 Singer2 等测试视频中的 性能也达到与 DSST 算法相近的性能,在存在遮 挡问题的视频中各项评价指标均好于 DSST,与 SRDCF 相比,本文提出的算法平均 CLE 降低 5.79, DP 提高 15.27%,OP 提高 3.04%。 0.2 0.4 0.6 0.8 1.0 重叠率 0 0.2 0.4 0.6 0.8 1.0 OP-重叠面积精度 本文算法 DSST SRDCF 本文算法 DSST SRDCF 本文算法 DSST SRDCF 0.2 0.4 0.6 0.8 1.0 重叠率 0 0.2 0.4 0.6 0.8 1.0 OP-重叠面积精度 0.2 0.4 0.6 0.8 1.0 重叠率 0 0.2 0.4 0.6 0.8 1.0 OP-重叠面积精度 (a) Basketball 重叠面积精度 (b) David3 重叠面积精度 (c) Liquor 重叠面积精度 ·718· 智 能 系 统 学 报 第 15 卷
第4期 刘威,等:基于特征融合及自适应模型更新的相关滤波目标跟踪算法 ·719· 1.0 9 1.0 0.8 09 0.8 0.6 0.6 0.6 0.4 0.4 0.4 ,本文算法 一本文算法 本文算法 02 DSST 02 --DSST 0.2 --DSST SRDCF SRDCF SRDCF 10 20 30 40 50 0 10 20 30 40 50 0 10 20 30 40 50 误差像素 误差像素 误差像素 (d)Basketball中心距离精度 (e)David3中心距离精度 ()Liquor中心距离精度 800 300 800 700 本文算法 DSST 250 700 600 SRDCF 600 500 200 500 400 50 400 300 200 100 300 本文算法 本文算法 200 100 50 DSST DSST SRDCF 100 SRDCF 10 2030 0 50 0 20 30 50 0 10 20 30 40 50 误差像素 误差像素 误差像素 (g))Basketball跟踪长度 (h)David3跟踪长度 ()Liquor跟踪长度 图13组背景干扰及目标遮挡下跟踪曲线 Fig.1 Tracking curves of 3 groups of background interference and target occlusion 图2所示为遇到严重背景干扰及目标遮挡到第736帧遮挡结束,在遮挡结束时本文算法和 遮挡结束时的跟踪结果,可以看出,视频Basket- SRDCF都可以准确地继续跟踪目标,DSST发生 ball、David3、Liquor分别在第l6帧、第80帧、第 跟丢或偏移。结果表明,在发生严重背景干扰及 722帧发生严重遮挡,分别在第32帧、第90帧、 目标遮挡情况下本文算法的跟踪性能更好。 (a)Basketball遮挡开始帧跟踪结果 (b)David3遮挡开始帧跟踪结果 (c)Liquor遮挡开始帧跟踪结果 (d)Basketball遮挡结束帧跟踪结果 (e)David.3遮挡结束帧跟踪结果 ()Liquor遮挡结束帧跟踪结果 图23组背景干扰及目标遮挡下的跟踪结果 Fig.2 Tracking results of 3 groups of background interference and target occlusion 3)跟踪速度对比实验 比算法在18组视频序列上的跟踪速度如表3所 视频跟踪算法在保证跟踪性能的前提下,同 示,相比于DSST算法平均19s的跟踪速度,本 时还要考虑跟踪速度的问题,本文算法同两种对 文算法在特征提取阶段加入边缘特征的融合,模
本文算法 DSST SRDCF 本文算法 DSST SRDCF 本文算法 DSST SRDCF 本文算法 DSST SRDCF 本文算法 DSST SRDCF 本文算法 DSST SRDCF 10 20 30 40 50 误差像素 0 0.2 0.4 0.6 0.8 1.0 DP-距离精度 10 20 30 40 50 误差像素 0 0.2 0.4 0.6 0.8 1.0 DP-距离精度 10 20 30 40 50 误差像素 0 10 20 30 40 50 误差像素 0 10 20 30 40 50 误差像素 0 10 20 30 40 50 误差像素 0 0.2 0.4 0.6 0.8 1.0 DP-距离精度 100 200 300 400 500 600 700 800 TL-跟踪长度 50 100 150 200 250 300 TL-跟踪长度 100 200 300 400 500 600 700 800 TL-跟踪长度 (d) Basketball 中心距离精度 (e) David3 中心距离精度 (f) Liquor 中心距离精度 (g) Basketball 跟踪长度 (h) David3 跟踪长度 (i) Liquor 跟踪长度 图 1 3 组背景干扰及目标遮挡下跟踪曲线 Fig. 1 Tracking curves of 3 groups of background interference and target occlusion 图 2 所示为遇到严重背景干扰及目标遮挡到 遮挡结束时的跟踪结果,可以看出,视频 Basketball、David3、Liquor 分别在第 16 帧、第 80 帧、第 722 帧发生严重遮挡,分别在第 32 帧、第 90 帧、 第 736 帧遮挡结束,在遮挡结束时本文算法和 SRDCF 都可以准确地继续跟踪目标,DSST 发生 跟丢或偏移。结果表明,在发生严重背景干扰及 目标遮挡情况下本文算法的跟踪性能更好。 (a) Basketball 遮挡开始帧跟踪结果 (b) David3 遮挡开始帧跟踪结果 (c) Liquor 遮挡开始帧跟踪结果 (d) Basketball 遮挡结束帧跟踪结果 (e) David3 遮挡结束帧跟踪结果 (f) Liquor 遮挡结束帧跟踪结果 736 -本文 - - DSST -. SRDCF 722 -本文 - - DSST -. SRDCF 90 -本文 - - DSST -. SRDCF 80 -本文 - - DSST -. SRDC F 16 -本文 - - DSST -. SRDCF 32 -本文 - - DSST -. SRDCF 图 2 3 组背景干扰及目标遮挡下的跟踪结果 Fig. 2 Tracking results of 3 groups of background interference and target occlusion 3) 跟踪速度对比实验 视频跟踪算法在保证跟踪性能的前提下,同 时还要考虑跟踪速度的问题,本文算法同两种对 比算法在 18 组视频序列上的跟踪速度如表 3 所 示,相比于 DSST 算法平均 19 f/s 的跟踪速度,本 文算法在特征提取阶段加入边缘特征的融合,模 第 4 期 刘威,等:基于特征融合及自适应模型更新的相关滤波目标跟踪算法 ·719·
·720· 智能系统学报 第15卷 型更新阶段加入区域相似性计算,增加了计算 SRDCF算法的平均4.26fs的跟踪速度,本文算 量,从而导致跟踪速度有所下降,平均跟踪速度 法的速度提高了1倍,同时在准确率及跟踪的鲁 为8.95fs。但相比于DSST算法的另一个改进 棒性上有所提高。 表33种算法跟踪速度对比 Table 3 Tracking speed contrast of 3 algorithms FPS FPS 测试视频 总帧数 测试视频 总帧数 DSST SRDCF 本文 DSST SRDCF 本文 Basketball 19.1 3.08 10.1 725 Liquor 3.64 2.98 2.36 1741 CarDark 43.5 6.8 17.9 393 Matrix 30.6 4.89 11.4 100 Coke 17.9 3.18 6.94 291 Mhyang 12.4 3.21 7.34 1490 Crossing 40.4 8.7 19.4 120 MountainBike 12.2 3.03 6.72 228 David3 8.17 3.26 5.77 252 Shaking 9.13 3.03 5.43 365 Deer 8.74 3.2 5.25 1 Singer2 4.91 3.03 2.89 366 Dudek 2.78 2.62 1.86 1145 Skatingl 17.3 3.14 7.74 400 Football 30.7 4.16 15.5 362 Subway 38.8 7.76 17 175 Footballl 35.2 7.36 12.7 74 Trellis 6.64 3.23 4.8 569 3结束语 图形学报.2017.22(8):1017-1033 ZHANG Wei.KANG Baosheng.Recent advances in cor- 本文对DSST相关滤波目标跟踪算法进行了 relation filter-based object tracking:a review[J].Journal of 改进,提出了融合边缘特征和HOG特征的特征 image and graphics,2017,22(8):1017-1033. 提取策略和基于奇异值特征向量相似度的模型自 [3]VALMADRE J,BERTINETTO L,HENRIQUES J F,et 适应更新策略,通过两种策略的结合实现了一种 al.End-to-end tracking[J].arXiv:1704.06036,2017. 新的相关滤波目标跟踪算法一多特征自适应 [4]刘新卉.基于深度信息的核相关滤波日标跟踪算法研 相关滤波目标跟踪算法,实验表明本文所提出的 究D].深圳:哈尔滨工业大学,2017. 算法在存在严重背景干扰和目标遮挡的情况下仍 LIU Xinhui.Research on kernel correlation filter object 能很好地进行跟踪,提高了算法精度。在严重背 tracking algorithm based on depth information[D].Shen- 景干扰和目标遮挡的情况下仍能准确进行跟踪, zhen:Harbin Institute of Technology,2017 提高了算法精度和鲁棒性。 [5]董艳梅.基于相关滤波器的目标跟踪技术[D].北京:北 由于特征自适应相关滤波目标跟踪算法采用 京理工大学,2015. 了边缘特征和HOG特征的融合,并在模型更新 DONG Yanmei.Visual object tracking based on correla- 阶段加入了相似性计算,因此加大了计算量,速 tion filters[D].Beijing:Beijing Institute of Technology, 2015 度相比于DSST有所下降,但仍高于SRDCF,在 [6]朱明敏,胡茂海.基于相关滤波器的长时视觉目标跟踪 准确率和鲁棒性上有所提高,后续研究工作可围 方法.计算机应用,2017,37(5:1466-1470 绕进一步解决计算上所带来的速度下降问题、进 ZHU Mingmin,HU Maohai.Long-term visual object 步改进特征融合的方式,以及将深度学习所提 tracking algorithm based on correlation filter[J].Journal of 取的特征与现有特征进行自适应融合等方面展 computer applications,2017,37(5):1466-1470 开,使改进的算法能够同时兼顾实时性、鲁棒性 [7]BOLME D S,BEVERIDGE J R,DRAPER B A,et al. 和准确性的要求。 Visual object representation learning for correlation filter 参考文献: based tracking using adaptive correlation filters[C]//2010 IEEE Computer Society Conference on Computer Vision [1]CHEN Zhe,HONG Zhibin,TAO Dacheng.An experi- and Pattern Recognition.San Francisco,USA,2010: mental survey on correlation filter-based tracking[J].arX- 2544-2550. iv:1509.05520,2015. [8]HENRIQUES J F,CASEIRO R,MARTINS P,et al.Ex- [2]张微,康宝生.相关滤波目标跟踪进展综述叮.中国图象 ploiting the circulant structure of tracking-by-detection
型更新阶段加入区域相似性计算,增加了计算 量,从而导致跟踪速度有所下降,平均跟踪速度 为 8.95 f/s。但相比于 DSST 算法的另一个改进 SRDCF 算法的平均 4.26 f/s 的跟踪速度,本文算 法的速度提高了 1 倍,同时在准确率及跟踪的鲁 棒性上有所提高。 表 3 3 种算法跟踪速度对比 Table 3 Tracking speed contrast of 3 algorithms 测试视频 FPS 总帧数 测试视频 FPS 总帧数 DSST SRDCF 本文 DSST SRDCF 本文 Basketball 19.1 3.08 10.1 725 Liquor 3.64 2.98 2.36 1 741 CarDark 43.5 6.8 17.9 393 Matrix 30.6 4.89 11.4 100 Coke 17.9 3.18 6.94 291 Mhyang 12.4 3.21 7.34 1 490 Crossing 40.4 8.7 19.4 120 MountainBike 12.2 3.03 6.72 228 David3 8.17 3.26 5.77 252 Shaking 9.13 3.03 5.43 365 Deer 8.74 3.2 5.25 71 Singer2 4.91 3.03 2.89 366 Dudek 2.78 2.62 1.86 1145 Skating1 17.3 3.14 7.74 400 Football 30.7 4.16 15.5 362 Subway 38.8 7.76 17 175 Football1 35.2 7.36 12.7 74 Trellis 6.64 3.23 4.8 569 3 结束语 本文对 DSST 相关滤波目标跟踪算法进行了 改进,提出了融合边缘特征和 HOG 特征的特征 提取策略和基于奇异值特征向量相似度的模型自 适应更新策略,通过两种策略的结合实现了一种 新的相关滤波目标跟踪算法−多特征自适应 相关滤波目标跟踪算法,实验表明本文所提出的 算法在存在严重背景干扰和目标遮挡的情况下仍 能很好地进行跟踪,提高了算法精度。在严重背 景干扰和目标遮挡的情况下仍能准确进行跟踪, 提高了算法精度和鲁棒性。 由于特征自适应相关滤波目标跟踪算法采用 了边缘特征和 HOG 特征的融合,并在模型更新 阶段加入了相似性计算,因此加大了计算量,速 度相比于 DSST 有所下降,但仍高于 SRDCF,在 准确率和鲁棒性上有所提高,后续研究工作可围 绕进一步解决计算上所带来的速度下降问题、进 一步改进特征融合的方式,以及将深度学习所提 取的特征与现有特征进行自适应融合等方面展 开,使改进的算法能够同时兼顾实时性、鲁棒性 和准确性的要求。 参考文献: CHEN Zhe, HONG Zhibin, TAO Dacheng. An experimental survey on correlation filter-based tracking[J]. arXiv: 1509.05520, 2015. [1] [2] 张微, 康宝生. 相关滤波目标跟踪进展综述 [J]. 中国图象 图形学报, 2017, 22(8): 1017–1033. ZHANG Wei, KANG Baosheng. Recent advances in correlation filter-based object tracking: a review[J]. Journal of image and graphics, 2017, 22(8): 1017–1033. VALMADRE J, BERTINETTO L, HENRIQUES J F, et al. End-to-end tracking[J]. arXiv: 1704.06036, 2017. [3] 刘新卉. 基于深度信息的核相关滤波目标跟踪算法研 究 [D]. 深圳: 哈尔滨工业大学, 2017. LIU Xinhui. Research on kernel correlation filter object tracking algorithm based on depth information[D]. Shenzhen: Harbin Institute of Technology, 2017 [4] 董艳梅. 基于相关滤波器的目标跟踪技术 [D]. 北京: 北 京理工大学, 2015. DONG Yanmei. Visual object tracking based on correlation filters[D]. Beijing: Beijing Institute of Technology, 2015. [5] 朱明敏, 胡茂海. 基于相关滤波器的长时视觉目标跟踪 方法 [J]. 计算机应用, 2017, 37(5): 1466–1470. ZHU Mingmin, HU Maohai. Long-term visual object tracking algorithm based on correlation filter[J]. Journal of computer applications, 2017, 37(5): 1466–1470. [6] BOLME D S, BEVERIDGE J R, DRAPER B A, et al. Visual object representation learning for correlation filter based tracking using adaptive correlation filters[C]//2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Francisco, USA, 2010: 2544−2550. [7] HENRIQUES J F, CASEIRO R, MARTINS P, et al. Exploiting the circulant structure of tracking-by-detection [8] ·720· 智 能 系 统 学 报 第 15 卷
第4期 刘威,等:基于特征融合及自适应模型更新的相关滤波目标跟踪算法 ·721· with kernels[C]//European conference on computer vision. [17]MA C,HUANG J B,YANG X,et al.Hierarchical convo- Berlin,Germany,2012:702-715. lutional features for visual tracking[C]//IEEE Internation- [9]HENRIQUES J F,CASEIRO R,MARTINS P,et al.High- al Conference on Computer Vision.Santiago,Chile, speed tracking with kernelized correlation filters[J].IEEE 2015:3074-3082. transactions on pattern analysis and machine intelligence, [18]KALAL Z.MIKOLAJCZYK K.MATAS J.Tracking- 2015,37(3):583-596. learning-detection[J].IEEE Transactions on software en- [10]DANELLJAN M,SHAHBAZ K F,FELSBERG M,et al. gineering,.201l,347):1409-1422. Adaptive color attributes for real-time visual [19]BERTINETTO L,VALMADRE J.HENRIQUES J F,et tracking[C]//Proceedings of the IEEE Conference on al.Fully-convolutional siamese networks for object track- Computer Vision and Pattern Recognition.Columbus, ing[C]//European Conference on Computer Vision.Ams- USA.2014:1090-1097 terdam,Netherlands,2016:850-865. [11]WU Y,LIM J,YANG M H.Online object tracking:A [20]洪子泉,杨静宇.用于图像识别的图像代数特征抽 benchmark[C]//Proceedings of the IEEE Conference on 取U.自动化学报,1992,18(2):233-238. Computer Vision and Pattern Recognition.Portland, USA,2013:2411-2418. HONG Ziquan,YANG Jingyu.Algebraic feature extrac- [12]DANELLJAN M.HAGER G,KHAN F,et al.Accurate tion of images for recognition[.Acta automatica sinica, scale estimation for robust visual tracking[C]//British Ma- 1992,18(2):233-238 chine Vision Conference.Nottingham,UK,2014:1-11. 作者简介: [13]DANELLJAN M.HAGER G,SHAHBAZ K F,et al. 刘威.副教授,博土,中国人工智 Learning spatially regularized correlation filters for visu- 能学会会员,中国计算机学会会员,主 al tracking[C]//Proceedings of the IEEE International 要研究方向为深度神经网络、机器学 Conference on Computer Vision.Santiago,Chile,2015: 习、矿业系统工程。 4310-4318 [14]LI Y,ZHU J.A scale adaptive kernel correlation filter tracker with feature integration[Cl//European Conference on Computer Vision.Zurich,Switzerland,2014: 靳宝,硕士研究生,主要研究方向 254-265. 为强化学习、机器学习。 [15]DANELLJAN M,HAGER G,KHAN F S,et al.Con vo- lutional features for correlation filter based visual track- ing[C]//IEEE International Conference on Computer Vis- ion Workshop.Santiago,Chile,2015:621-629. [16]白冰,钟必能,欧阳谷.融合分层卷积特征和尺度自适 应核相关滤波器的目标跟踪】.小型微型计算机系统, 周璇,硕士研究生,中国计算机学 会会员,主要研究方向为深度神经网 2017,38(9):2062-2066. BAI Bing,ZHONG Bineng,OUYANG Gu.Object track- 络、机器学习。 ing based on hierarchical convolution feature and scale adaptive kernel correlation filter[J].Journal of chinese computer systems,2017,38(9):2062-2066
with kernels[C]//European conference on computer vision. Berlin, Germany, 2012: 702−715. HENRIQUES J F, CASEIRO R, MARTINS P, et al. Highspeed tracking with kernelized correlation filters[J]. IEEE transactions on pattern analysis and machine intelligence, 2015, 37(3): 583–596. [9] DANELLJAN M, SHAHBAZ K F, FELSBERG M, et al. Adaptive color attributes for real-time visual tracking[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Columbus, USA, 2014: 1090−1097. [10] WU Y, LIM J, YANG M H. Online object tracking: A benchmark[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Portland, USA, 2013: 2411−2418. [11] DANELLJAN M, HӒGER G, KHAN F, et al. Accurate scale estimation for robust visual tracking[C]//British Machine Vision Conference. Nottingham, UK, 2014:1-11. [12] DANELLJAN M, HAGER G, SHAHBAZ K F, et al. Learning spatially regularized correlation filters for visual tracking[C]//Proceedings of the IEEE International Conference on Computer Vision. Santiago, Chile, 2015: 4310−4318. [13] LI Y, ZHU J. A scale adaptive kernel correlation filter tracker with feature integration[C]//European Conference on Computer Vision. Zurich, Switzerland, 2014: 254−265. [14] DANELLJAN M, HAGER G, KHAN F S, et al. Con volutional features for correlation filter based visual tracking[C]//IEEE International Conference on Computer Vision Workshop. Santiago, Chile, 2015: 621−629. [15] 白冰, 钟必能, 欧阳谷. 融合分层卷积特征和尺度自适 应核相关滤波器的目标跟踪 [J]. 小型微型计算机系统, 2017, 38(9): 2062–2066. BAI Bing, ZHONG Bineng, OUYANG Gu. Object tracking based on hierarchical convolution feature and scale adaptive kernel correlation filter[J]. Journal of chinese computer systems, 2017, 38(9): 2062–2066. [16] MA C, HUANG J B, YANG X, et al. Hierarchical convolutional features for visual tracking[C]//IEEE International Conference on Computer Vision. Santiago, Chile, 2015: 30 74−3082. [17] KALAL Z, MIKOLAJCZYK K, MATAS J. Trackinglearning-detection[J]. IEEE Transactions on software engineering, 2011, 34(7): 1409–1422. [18] BERTINETTO L, VALMADRE J, HENRIQUES J F, et al. Fully-convolutional siamese networks for object tracking[C]//European Conference on Computer Vision. Amsterdam, Netherlands, 2016: 850−865. [19] 洪子泉, 杨静宇. 用于图像识别的图像代数特征抽 取 [J]. 自动化学报, 1992, 18(2): 233–238. HONG Ziquan, YANG Jingyu. Algebraic feature extraction of images for recognition[J]. Acta automatica sinica, 1992, 18(2): 233–238. [20] 作者简介: 刘威,副教授,博士,中国人工智 能学会会员,中国计算机学会会员,主 要研究方向为深度神经网络、机器学 习、矿业系统工程。 靳宝,硕士研究生,主要研究方向 为强化学习、机器学习。 周璇,硕士研究生,中国计算机学 会会员,主要研究方向为深度神经网 络、机器学习。 第 4 期 刘威,等:基于特征融合及自适应模型更新的相关滤波目标跟踪算法 ·721·