第14卷第1期 智能系统学报 Vol.14 No.I 2019年1月 CAAI Transactions on Intelligent Systems Jan.2019 D0:10.11992/tis.201806038 网络出版地址:http:/kns.cnki.net/kcms/detail/23.1538.tp.20180928.1338.004.html 一种自适应模板更新的判别式KCF跟踪方法 宁欣2,李卫军2,田伟娟2,徐驰2,徐健 (1.中国科学院半导体研究所高速电路与神经网络实验室,北京100083,2.威富集团形象认知计算联合实验 室,北京100083,3.中国科学院大学微电子学院,北京100029) 摘要:为了解决单目标跟踪算法中存在的目标旋转、遮挡和快速运动等挑战,提出了一种基于自适应更新策 略的判别式核相关滤波器(kernelized correlation filter,KCF)目标跟踪新框架。构建了外观判别式模型,实现跟 踪质量有效性的评估。构造了新的自适应模板更新策略,能够有效区分目标跟踪异常时当前目标是否发生了 旋转。提出了一种结合目标检测的跟踪新构架,能够进一步有效判别快速运动和遮挡状态。同时,针对上述 3种挑战,分别采用模板更新、目标运动位移最小化以及目标检测算法实现目标跟踪框的恢复,保证了跟踪的 有效性和长期性。实验分别采用2种传统手动特征HOG和CN(color names)验证提出的框架鲁棒性,结果证明 了提出的目标跟踪新方法在速度和精度方面的优越性能。 关键词:目标跟踪;目标检测;高速核相关滤波算法:模板更新;卷积神经网络 中图分类号:TP391文献标志码:A文章编号:1673-4785(2019)01-0121-06 中文引用格式:宁欣,李卫军,田伟娟,等.一种自适应模板更新的判别式KC℉跟踪方法J川.智能系统学报,2019,14(1): 121-126. 英文引用格式:NING Xin,LI Weijun,TIAN Weijuan,etal.Adaptive template update of discriminant KCF for visual tracking J CAAI transactions on intelligent systems,2019,14(1):121-126. Adaptive template update of discriminant KCF for visual tracking NING Xin,LI Weijun2,TIAN Weijuan2,XU Chi,XU Jian' (1.Laboratory of Artificial Neural Networks and High-speed Circuits,Institute of Semiconductors,Chinese Academy of Sciences, Beijing 100083,China;2.Image Cognitive Computing Joint Lab,Wave Group,Beijing 100083,China;3.School of Microelectron- ics,University of Chinese Academy of Sciences,Beijing 100029,China) Abstract:To solve the challenges of in-plane/out-of-plane rotation(IPR/OPR),fast motion(FM),and occlusion(OCC), a new robust visual tracking framework of discriminant kernelized correlation filter(KCF)based on adaptive template update strategy is presented in this paper.Specifically,the proposed discriminant models were first used to determine the tracking validity and then a new adaptive template update strategy was introduced to effectively distinguish whether or not the object has rotated when the object tracking was abnormal.Furthermore,a new visual tracking framework com- bining object test is presented,which could further effectively distinguish FM and OCC.Meanwhile,to overcome the above-mentioned challenges,three measures were taken to recover the object tracking frame:template updating,object movement displacement minimization,and use of an object detection algorithm ensuring validity and long-term visual tracking.We implemented two versions of the proposed tracker with representations from two conventional hand-actu- ated features,histogram of oriented gradient(HOG),and color names(CN)to validate the strong compatibility of the al- gorithm.Experimental results demonstrated the state-of-the-art performance in tracking accuracy and speed for pro- cessing the cases of IPR/OPR,FM,and OCC. Keywords:visual tracking;object detection;high-speed kernelized correlation filters;template update;convolution neural network 收稿日期:2018-06-22.网络出版日期:2018-09-30 近年来,计算机视觉作为一门新兴学科发展 基金项目:国家自然科学基金项目(61572458) 通信作者:李卫军.E-mail:wjli@semi.ac.cn 十分迅速,目标跟踪作为视频监督、分析和理解
DOI: 10.11992/tis.201806038 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.tp.20180928.1338.004.html 一种自适应模板更新的判别式 KCF 跟踪方法 宁欣1,2,李卫军1,2,3,田伟娟2 ,徐驰2 ,徐健1 (1. 中国科学院半导体研究所 高速电路与神经网络实验室,北京 100083; 2. 威富集团 形象认知计算联合实验 室,北京 100083; 3. 中国科学院大学 微电子学院,北京 100029) 摘 要:为了解决单目标跟踪算法中存在的目标旋转、遮挡和快速运动等挑战,提出了一种基于自适应更新策 略的判别式核相关滤波器 (kernelized correlation filter,KCF) 目标跟踪新框架。构建了外观判别式模型,实现跟 踪质量有效性的评估。构造了新的自适应模板更新策略,能够有效区分目标跟踪异常时当前目标是否发生了 旋转。提出了一种结合目标检测的跟踪新构架,能够进一步有效判别快速运动和遮挡状态。同时,针对上述 3 种挑战,分别采用模板更新、目标运动位移最小化以及目标检测算法实现目标跟踪框的恢复,保证了跟踪的 有效性和长期性。实验分别采用 2 种传统手动特征 HOG 和 CN(color names) 验证提出的框架鲁棒性,结果证明 了提出的目标跟踪新方法在速度和精度方面的优越性能。 关键词:目标跟踪;目标检测;高速核相关滤波算法;模板更新;卷积神经网络 中图分类号:TP391 文献标志码:A 文章编号:1673−4785(2019)01−0121−06 中文引用格式:宁欣, 李卫军, 田伟娟, 等. 一种自适应模板更新的判别式 KCF 跟踪方法[J]. 智能系统学报, 2019, 14(1): 121–126. 英文引用格式:NING Xin, LI Weijun, TIAN Weijuan, et al. Adaptive template update of discriminant KCF for visual tracking[J]. CAAI transactions on intelligent systems, 2019, 14(1): 121–126. Adaptive template update of discriminant KCF for visual tracking NING Xin1,2 ,LI Weijun1,2,3 ,TIAN Weijuan2 ,XU Chi2 ,XU Jian1 (1. Laboratory of Artificial Neural Networks and High-speed Circuits, Institute of Semiconductors, Chinese Academy of Sciences, Beijing 100083, China; 2. Image Cognitive Computing Joint Lab, Wave Group, Beijing 100083, China; 3. School of Microelectronics, University of Chinese Academy of Sciences, Beijing 100029, China) Abstract: To solve the challenges of in-plane/out-of-plane rotation (IPR/OPR), fast motion (FM), and occlusion (OCC), a new robust visual tracking framework of discriminant kernelized correlation filter (KCF) based on adaptive template update strategy is presented in this paper. Specifically, the proposed discriminant models were first used to determine the tracking validity and then a new adaptive template update strategy was introduced to effectively distinguish whether or not the object has rotated when the object tracking was abnormal. Furthermore, a new visual tracking framework combining object test is presented, which could further effectively distinguish FM and OCC. Meanwhile, to overcome the above-mentioned challenges, three measures were taken to recover the object tracking frame: template updating, object movement displacement minimization, and use of an object detection algorithm ensuring validity and long-term visual tracking. We implemented two versions of the proposed tracker with representations from two conventional hand-actuated features, histogram of oriented gradient (HOG), and color names (CN) to validate the strong compatibility of the algorithm. Experimental results demonstrated the state-of-the-art performance in tracking accuracy and speed for processing the cases of IPR/OPR, FM, and OCC. Keywords: visual tracking; object detection; high-speed kernelized correlation filters; template update; convolution neural network 近年来,计算机视觉作为一门新兴学科发展 十分迅速,目标跟踪作为视频监督、分析和理解 收稿日期:2018−06−22. 网络出版日期:2018−09−30. 基金项目:国家自然科学基金项目 (61572458). 通信作者:李卫军. E-mail:wjli@semi.ac.cn. 第 14 卷第 1 期 智 能 系 统 学 报 Vol.14 No.1 2019 年 1 月 CAAI Transactions on Intelligent Systems Jan. 2019
·122· 智能系统学 报 第14卷 的关键技术,由于其重要的学术价值、潜在的商 提高了跟踪准确率。为降低计算复杂度,Ning 业价值和广泛的应用前景迅速成为计算机视觉领 等提出了一种基于双线性结构化的SVM模型, 域研究的热点和难点,已成功应用于智能监控、机 该模型采用的特征图可达到近似非线性核的效 器人、医学成像及人体运动分析等人机交互领域网, 果,因此跟踪性能得到大幅度提升,然而该算法 越来越多的学者和机构在相关方面进行了大量的 的跟踪速度依然限制了其实际应用。因此,Wang 研究工作,同时取得了较好的成就。然而,目标 等6提出了一种高置信度的模板更新策略,能尽 形状变化、快速运动和遮挡一直是限制目标跟踪 可能地避免模板更新引入的背景信息,但目标跟 在实际场合应用的瓶颈。 踪过程中,目标往往不是一成不变的,目标状态 最近,KC以其高效的计算能力成功引起了 的变化会引起当前跟踪框的置信度较小,从而导 众多研究者的重视和青睐,同时在目标跟踪中取 致学习到的模板无法拟合目标的变化。 得了较好的性能。该方法首次将快速Fourier变 以上2种方法致力于设计更复杂的特征或者 换成功应用到目标跟踪中,达到了实时跟踪的效 分类器,在提高跟踪精度的同时,无疑大大增加 果。然而该算法未对遮挡和快速运动中的目标跟 了算法的复杂度,从而限制了视觉跟踪的实时性 踪作进一步处理:同时为了减少训练样本数目少 能,同时,上述方法并没有对目标的快速运动和 的缺陷,每一帧均用于模板更新,以增强模板的 目标遮挡作进一步的处理。 检测性能,但这也使得大量的与目标无关的背景 1跟踪算法新构架 信息被加入到模板更新中,导致跟踪框漂移,目 标跟踪性能下降。针对经典的KCF算法存在的 本文提出了一种自适应模板更新的判别式核 问题,最新的跟踪算法主要从2个方面作改进:一 相关滤波跟踪新构架,如图1所示。能够判断当 种是目标特征表示的优化设计,另一种是鲁棒的 前跟踪状态是否正常,及时恢复丢失的目标,同 分类器的设计。 时能够判断当前跟踪的目标是否发生形状变化, 1)目标新特征的优化设计方法。特征的优化 并制定出不同的机制恢复丢失的目标,实现了高 设计是目标跟踪领域一个非常重要的研究线索, 效的目标跟踪。 该方法主要致力于目标表示的设计,即通过采用 1.1基于判别式模型的跟踪质量判定 机器学习方法或者深度学习方法设计表达能力更 为了实时监督跟踪目标是否发生形状变化或 好的特征,实现目标更详细的描述。文献[4-8]对 者目标丢失的情况,本文提出一种基于外观判别 传统特征进行改进;考虑到深度学习在特征表示 式分类器的跟踪质量判定标准,以判断跟踪结果 中的优越性,文献[9-13]采用深度卷积神经网络挖 的准确性,实现目标的有效跟踪。本文跟踪结果 掘高层卷积特征,以增强跟踪算法的性能。文献9] 判定标准的定义和实现如下: 直接从预训练的深度CNN中提取若干层特征并 1)获取初始帧中目标框的初始信息。采用目 用于学习自适应相关滤波器,保证了跟踪准确率 标检测算法对输入帧执行目标检测,获取目标框 和鲁棒性。进一步地,文献[1O提出了一种基于CNN 的初始信息,包括目标所在位置以及尺寸大小。 的序列训练方法,该方法把每个通道的特征输出 2)构建判别式分类器的样本训练集并分配样 作为单独的跟踪器,最后将分类器的结果级联作 本标签。以一定步长在目标框的周围进行稠密采 为最后的决策输出。目标特征的优化设计方法, 样,获取与目标框大小相同的训练样本;假设样 虽取得了一定成绩,但目标跟踪算法旨在区分出 本图像所在框与目标框之间的重叠阈值为Tp,分 背景和目标区域,该方法所学习到的特征只表示 别计算所有样本图像与目标框的重叠值;当重叠 了目标视频的底层视觉信息,未对背景作进一步 值大于T时,设置该样本图像的标签为1,否则为0。 约束,导致学习到的模板判别能力非常有限。因 3)提取样本的HOG特征在低维空间的特征 此,获取判别性好的目标特征仍是一个比较棘手 表示,即HOG描述子。首先提取所有样本的HOG 的难题。 特征,然后采用PCA-net的思想对HOG特征作 2)鲁棒的分类器的设计方法。鲁棒的分类器 进一步的降维处理,旨在获取更抽象且判别性更 设计方法主要是通过建立优化机制,对需要进行 好的特征表示f。 模板更新的样本作限制,进一步保证了模板对于 4)对所有正负样本重复3),得到所有样本的 目标的检测效果。为了充分利用结构化输出的 低维特征表示,为当前目标学习判别模型svm,并 SVM能够处理复杂输出,如树、序列和集合等优 加入到集合SVM中,SVM为跟踪目标出现的所 势,Hare等首次将该算法应用到跟踪中,大大 有外观状态对应的分类器集合
的关键技术,由于其重要的学术价值、潜在的商 业价值和广泛的应用前景迅速成为计算机视觉领 域研究的热点和难点,已成功应用于智能监控、机 器人、医学成像及人体运动分析等人机交互领域[1-2] , 越来越多的学者和机构在相关方面进行了大量的 研究工作,同时取得了较好的成就。然而,目标 形状变化、快速运动和遮挡一直是限制目标跟踪 在实际场合应用的瓶颈。 最近,KCF[3]以其高效的计算能力成功引起了 众多研究者的重视和青睐,同时在目标跟踪中取 得了较好的性能。该方法首次将快速 Fourier 变 换成功应用到目标跟踪中,达到了实时跟踪的效 果。然而该算法未对遮挡和快速运动中的目标跟 踪作进一步处理;同时为了减少训练样本数目少 的缺陷,每一帧均用于模板更新,以增强模板的 检测性能,但这也使得大量的与目标无关的背景 信息被加入到模板更新中,导致跟踪框漂移,目 标跟踪性能下降。针对经典的 KCF 算法存在的 问题,最新的跟踪算法主要从 2 个方面作改进:一 种是目标特征表示的优化设计,另一种是鲁棒的 分类器的设计。 1) 目标新特征的优化设计方法。特征的优化 设计是目标跟踪领域一个非常重要的研究线索, 该方法主要致力于目标表示的设计,即通过采用 机器学习方法或者深度学习方法设计表达能力更 好的特征,实现目标更详细的描述。文献[4-8]对 传统特征进行改进;考虑到深度学习在特征表示 中的优越性,文献[9-13]采用深度卷积神经网络挖 掘高层卷积特征,以增强跟踪算法的性能。文献[9] 直接从预训练的深度 CNN 中提取若干层特征并 用于学习自适应相关滤波器,保证了跟踪准确率 和鲁棒性。进一步地,文献[10]提出了一种基于 CNN 的序列训练方法,该方法把每个通道的特征输出 作为单独的跟踪器,最后将分类器的结果级联作 为最后的决策输出。目标特征的优化设计方法, 虽取得了一定成绩,但目标跟踪算法旨在区分出 背景和目标区域,该方法所学习到的特征只表示 了目标视频的底层视觉信息,未对背景作进一步 约束,导致学习到的模板判别能力非常有限。因 此,获取判别性好的目标特征仍是一个比较棘手 的难题。 2) 鲁棒的分类器的设计方法。鲁棒的分类器 设计方法主要是通过建立优化机制,对需要进行 模板更新的样本作限制,进一步保证了模板对于 目标的检测效果。为了充分利用结构化输出的 SVM 能够处理复杂输出,如树、序列和集合等优 势,Hare 等 [14]首次将该算法应用到跟踪中,大大 提高了跟踪准确率。为降低计算复杂度,Ning 等 [15]提出了一种基于双线性结构化的 SVM 模型, 该模型采用的特征图可达到近似非线性核的效 果,因此跟踪性能得到大幅度提升,然而该算法 的跟踪速度依然限制了其实际应用。因此,Wang 等 [16]提出了一种高置信度的模板更新策略,能尽 可能地避免模板更新引入的背景信息,但目标跟 踪过程中,目标往往不是一成不变的,目标状态 的变化会引起当前跟踪框的置信度较小,从而导 致学习到的模板无法拟合目标的变化。 以上 2 种方法致力于设计更复杂的特征或者 分类器,在提高跟踪精度的同时,无疑大大增加 了算法的复杂度,从而限制了视觉跟踪的实时性 能,同时,上述方法并没有对目标的快速运动和 目标遮挡作进一步的处理。 1 跟踪算法新构架 本文提出了一种自适应模板更新的判别式核 相关滤波跟踪新构架,如图 1 所示。能够判断当 前跟踪状态是否正常,及时恢复丢失的目标,同 时能够判断当前跟踪的目标是否发生形状变化, 并制定出不同的机制恢复丢失的目标,实现了高 效的目标跟踪。 1.1 基于判别式模型的跟踪质量判定 为了实时监督跟踪目标是否发生形状变化或 者目标丢失的情况,本文提出一种基于外观判别 式分类器的跟踪质量判定标准,以判断跟踪结果 的准确性,实现目标的有效跟踪。本文跟踪结果 判定标准的定义和实现如下: 1) 获取初始帧中目标框的初始信息。采用目 标检测算法对输入帧执行目标检测,获取目标框 的初始信息,包括目标所在位置以及尺寸大小。 Tovp Tovp 2) 构建判别式分类器的样本训练集并分配样 本标签。以一定步长在目标框的周围进行稠密采 样,获取与目标框大小相同的训练样本;假设样 本图像所在框与目标框之间的重叠阈值为 ,分 别计算所有样本图像与目标框的重叠值;当重叠 值大于 时,设置该样本图像的标签为 1,否则为 0。 f 3) 提取样本的 HOG 特征在低维空间的特征 表示,即 HOG 描述子。首先提取所有样本的 HOG 特征,然后采用 PCA-net[17]的思想对 HOG 特征作 进一步的降维处理,旨在获取更抽象且判别性更 好的特征表示 。 svm1 SVMobj SVMobj 4) 对所有正负样本重复 3),得到所有样本的 低维特征表示,为当前目标学习判别模型 ,并 加入到集合 中, 为跟踪目标出现的所 有外观状态对应的分类器集合。 ·122· 智 能 系 统 学 报 第 14 卷
第1期 宁欣,等:一种自适应模板更新的判别式KC℉跟踪方法 ·123· 训练 A 特征提取 目标检测 初始化 法展 模板学习 HOG+CN PCA处理 判别模型学习 样本选取 类别约束 判别模型 在线跟踪 特征提取 当前输出 响应图 模板 基于外观判别 跟踪正常 判别模型 更新 模型的跟踪质量 判定 集合更新 跟踪异常 快速运动 HOG+CN 自适应模板 遮挡或者 更新策略 快速运动 目标检测 跟踪旋转 当前 模板更新 新判别 判别模型 模型学习 集合更新 图1目标跟踪新框架图示 Fig.1 Overview of the proposed framework for visual tracking 5)针对易混淆的训练样本,在模型学习的过 1.2 自适应模板更新策略 程中加入类别约束,对易错分的样本进行惩罚, 本节给出了一种基于极小值的模板更新策 使得特征的类别信息更明显,判别能力更强。针 略,旨在针对性地筛选出不同形状以及与背景相 对出现错分的样本:若隶属于目标的样本特征 似度较大的目标样本,用于对当前模板进行更 f被错分到背景类别中,即f,在目标中的类别判 新,以增强模板对于不同形状和与背景相似的正 分小于在背景中的判分;若隶属于背景的样本特 样本的泛化能力。 征无被错分到目标类别中,即无ea在目标中的类 目标跟踪过程中,可观察到置信度呈现先下 别判分大于在背景中的判分。因此,引入下列类 降后上升的趋势,有2种情况可以解释:1)目标 别约束条件: 形状从偏离初始模板到逐渐恢复至与模板相似, s(foj.svm)-s(fid,svm)>0 (1) 如目标的平面内旋转;2)目标形状发生变化的过 6)采用KC℉获取测试帧的跟踪结果,并计算 程中,目标形状逐渐偏离初始模板,而背景中存 跟踪区域对应的特征f在集合SVM下的判分 在与初始模板相近的区域,导致目标所在位置框 s(f,SVMb),以判断当前目标的跟踪状态trk sta是 朝着背景方向漂移,如目标平面外的旋转。为了 否正常,计算如式(2)、式(3): 能够让模板具有较好的鲁棒性,需要同时保证图 s(f,SVMbi)=max(s(f,svm),i=1,2,....n) (2) 像标签为1的正样本的数量和多样性,当上述 (normal,s(f,SVMobj)>Tsco 2种情况出现时表示目前样本的状态发生了变 trk_sta= (3) abnormal,.其他 化,需要对模板及时进行更新,使得跟踪器具有 式中:n表示外观判别模型的数目;T表示 更好的检测性能。因此,模板的更新条件设置 跟踪结果在判别模型中的判分阈值。若trk sta= 为:连续多帧目标跟踪框的置信度呈现先增后减 normal,.表明跟踪结果可信;否则,表明目标状态 的趋势,即伴随有极小值的出现。基于这样的思 变化,可能发生旋转、目标快速运动或者被遮挡 想,本文基于极值的模板更新策略具体过程如下。 等情况。 1)输入下一帧图像,采用KCF算法进行跟
fobj fobj fbgd fbgd 5) 针对易混淆的训练样本,在模型学习的过 程中加入类别约束,对易错分的样本进行惩罚, 使得特征的类别信息更明显,判别能力更强。针 对出现错分的样本:若隶属于目标的样本特征 被错分到背景类别中,即 在目标中的类别判 分小于在背景中的判分;若隶属于背景的样本特 征 被错分到目标类别中,即 在目标中的类 别判分大于在背景中的判分。因此,引入下列类 别约束条件: s(fobj,svm1)− s(fbgd,svm1) > 0 (1) f SVMobj s (f,SVMobj) trk_sta 6) 采用 KCF 获取测试帧的跟踪结果,并计算 跟踪区域对应的特征 在集合 下的判分 ,以判断当前目标的跟踪状态 是 否正常,计算如式 (2)、式 (3): s(f,SVMobj) = max(s(f,svmi),i = 1,2,··· ,n) (2) trk_sta = { normal, s(f,SVMobj) >Tsco abnormal, 其他 (3) n Tsco trk_sta = normal 式中: 表示外观判别模型的数目; 表 示 跟踪结果在判别模型中的判分阈值。若 ,表明跟踪结果可信;否则,表明目标状态 变化,可能发生旋转、目标快速运动或者被遮挡 等情况。 1.2 自适应模板更新策略 本节给出了一种基于极小值的模板更新策 略,旨在针对性地筛选出不同形状以及与背景相 似度较大的目标样本,用于对当前模板进行更 新,以增强模板对于不同形状和与背景相似的正 样本的泛化能力。 目标跟踪过程中,可观察到置信度呈现先下 降后上升的趋势,有 2 种情况可以解释:1) 目标 形状从偏离初始模板到逐渐恢复至与模板相似, 如目标的平面内旋转;2) 目标形状发生变化的过 程中,目标形状逐渐偏离初始模板,而背景中存 在与初始模板相近的区域,导致目标所在位置框 朝着背景方向漂移,如目标平面外的旋转。为了 能够让模板具有较好的鲁棒性,需要同时保证图 像标签为 1 的正样本的数量和多样性,当上述 2 种情况出现时表示目前样本的状态发生了变 化,需要对模板及时进行更新,使得跟踪器具有 更好的检测性能。因此,模板的更新条件设置 为:连续多帧目标跟踪框的置信度呈现先增后减 的趋势,即伴随有极小值的出现。基于这样的思 想,本文基于极值的模板更新策略具体过程如下。 1) 输入下一帧图像,采用 KCF 算法进行跟 目标检测 初始化 样本选取 特征提取 特征提取 或 训练 HOG+CN PCA 处理 在线跟踪 判别模型学习 判别模型 类别约束 模板学习 模板 更新 模板更新 响应图 跟踪正常 判别模型 集合更新 判别模型 集合更新 目标检测 遮挡 快速 运动 当前输出 跟踪 异常 跟踪 旋转 遮挡或者 快速运动 新判别 模型学习 HOG+CN 当前 输入 基于外观判别 模型的跟踪质量 判定 自适应模板 更新策略 图 1 目标跟踪新框架图示 Fig. 1 Overview of the proposed framework for visual tracking 第 1 期 宁欣,等:一种自适应模板更新的判别式 KCF 跟踪方法 ·123·
·124· 智能系统学报 第14卷 踪,获取跟踪结果的置信度。 跟踪的准确率,包含跟踪精度和成功率两个指标; 2)重复步骤1),获取连续n帧的置信度集合 帧速率用于评估跟踪速度的快慢。 C={c1,c2,…,cn,观察置信度的变化情况。设F表 示更新标志位,定义为 F=1. argmin(C)==n-1 (4) 0.其他 (a)快速运动人脸 3)若F为1,则极小值对应的跟踪结果用于模 板更新,同时考虑到模板更新具有一定的记忆功 能,为了能包含更完整的样本信息,对接下来的3 帧,直接设置标志位F为1,并执行模块更新操作。 (b)遮挡人脸 4)模板未被更新时,若极小值出现在帧Fra 时,保留最后的-1帧,否则仅保留最后一帧;模 板被更新时,剔除所有帧的置信度,得到更新后 的置信度集合C,计算式为 b)行人 (argmin(C)==n-1 Ca={cz,c3,…,cn argmin(C)==n (5) 图2OTB-100数据库 {cn,其他 Fig.2 OTB-100 dataset 5)将用于模板更新的样本作为训练样本,学 本文实验参数设置如下:1)本文提出的基于 习新的外观判别式模型svm,并加入到SVMg中。 极值的自适应更新策略中,最小值存在性判断需 1.3目标跟踪新构架 要的帧数目n设置为4,重叠率阈值T。设置为0.7; 本文提出了一种自适应模板更新的判别式核 2)本文用于跟踪质量判定的判别模型学习中,训 相关滤波跟踪新构架,能够实时监督目标的跟踪 练样本标签确定需要的重叠率阈值Tp设置为0.7。 情况,捕捉发生旋转或者处于遮挡和快速运动的 22新构架的目标跟踪 目标,并进一步设计跟踪丢失恢复机制,以保证 本节采用基于HOG和CN特征结合的跟踪 目标实时且长期有效地跟踪,具体实施如下。 新构架,即AU DKCF进行测试,通过比较不同特 1)输入图像,并执行1.1节提出的跟踪质量 征以验证提出的方法的有效性。表1分别列出了 判定方法,捕捉跟踪异常的情况。 新构架AU DKCF与对比算法的跟踪结果。由表1 2)获取跟踪异常的图像帧,利用1.2节提出 可以看出,新构架在跟踪速度和精度方面取得了 的模板更新策略获取模板更新标志F。F=1表明 较高的性能,均优于对比算法。其原因在于:新构 目标发生旋转,有必要进行模板更新:否则,表明 架能够较准确判断目标是否跟踪异常,同时可进 目标形状未发生较大的变化,此时目标可能被干 一步区别目标跟踪异常所产生的原因,并利用不同 扰物遮挡或者处于快速运动的状态。 机制恢复丢失的目标,实现目标长期且准确地跟 3)对当前帧执行目标检测算法,若丢失目标 踪。AU DKCF在采用2种手工特征结合时,跟踪速 被成功检测,则利用检测结果继续跟踪,否则认 为目标被干扰物遮挡,在这种情况下,假设遮挡 度能达到105.2fs,可有效实现目标的实时跟踪。 过程具备时长短期性和目标运动位移最小化的性 表1本文新构架和对比算法的目标跟踪结果 质,因此,保持目标丢失前的位置不变,直到跟踪 Table 1 Object tracking results of proposed method and contrastive methods on OTB-50 状态trk sta正常或者目标被成功检测。 跟踪准确率/% 方法 帧速率/(s) 2实验与分析 精确度 成功率 KCF间 73.20 52.00 172.0 2.1实验设置和数据库 DCF 72.80 50.40 292.0 为验证提出的新框架的有效性,首先从公共 LMCF [16 83.90 数据集OTB-10011中选取50组视频进行测试。 62.40 85.2 TLD 19 60.80 33.40 28.0 然后,分别选取具有旋转、快速运动和遮挡属性 ORIA ROI 45.70 23.10 9.0 的视频对本文新构架的鲁棒性进行评估。图2给 Ours (HOG) 85.40 64.30 143.0 出了OTB-100中的部分视频帧。一次成功率和 Ours (CN) 86.70 52.40 121.0 帧速率分别用于跟踪评估。一次成功率用于评估 AU DKCF 87.50 63.10 105.2
踪,获取跟踪结果的置信度。 n C = {c1, c2,··· , cn} F 2) 重复步骤 1),获取连续 帧的置信度集合 ,观察置信度的变化情况。设 表 示更新标志位,定义为 F = { 1, argmin(C) == n−1 0, 其他 (4) F F 3) 若 为 1,则极小值对应的跟踪结果用于模 板更新,同时考虑到模板更新具有一定的记忆功 能,为了能包含更完整的样本信息,对接下来的 3 帧,直接设置标志位 为 1,并执行模块更新操作。 Fran n−1 n C ′ n 4) 模板未被更新时,若极小值出现在帧 时,保留最后的 帧,否则仅保留最后一帧;模 板被更新时,剔除所有 帧的置信度,得到更新后 的置信度集合 ,计算式为 C ′ n = {}, argmin(C) == n−1 {c2, c3,··· , cn}, argmin(C) == n {cn}, 其他 (5) svm SVMobj 5) 将用于模板更新的样本作为训练样本,学 习新的外观判别式模型 ,并加入到 中。 1.3 目标跟踪新构架 本文提出了一种自适应模板更新的判别式核 相关滤波跟踪新构架,能够实时监督目标的跟踪 情况,捕捉发生旋转或者处于遮挡和快速运动的 目标,并进一步设计跟踪丢失恢复机制,以保证 目标实时且长期有效地跟踪,具体实施如下。 1) 输入图像,并执行 1.1 节提出的跟踪质量 判定方法,捕捉跟踪异常的情况。 F F = 1 2) 获取跟踪异常的图像帧,利用 1.2 节提出 的模板更新策略获取模板更新标志 。 表明 目标发生旋转,有必要进行模板更新;否则,表明 目标形状未发生较大的变化,此时目标可能被干 扰物遮挡或者处于快速运动的状态。 trk_sta 3) 对当前帧执行目标检测算法,若丢失目标 被成功检测,则利用检测结果继续跟踪,否则认 为目标被干扰物遮挡,在这种情况下,假设遮挡 过程具备时长短期性和目标运动位移最小化的性 质,因此,保持目标丢失前的位置不变,直到跟踪 状态 正常或者目标被成功检测。 2 实验与分析 2.1 实验设置和数据库 为验证提出的新框架的有效性,首先从公共 数据集 OTB-100[18]中选取 50 组视频进行测试。 然后,分别选取具有旋转、快速运动和遮挡属性 的视频对本文新构架的鲁棒性进行评估。图 2 给 出了 OTB-100 中的部分视频帧。一次成功率和 帧速率分别用于跟踪评估。一次成功率用于评估 跟踪的准确率,包含跟踪精度和成功率两个指标; 帧速率用于评估跟踪速度的快慢。 n Tsco Tovp 本文实验参数设置如下:1) 本文提出的基于 极值的自适应更新策略中,最小值存在性判断需 要的帧数目 设置为 4,重叠率阈值 设置为 0.7; 2) 本文用于跟踪质量判定的判别模型学习中,训 练样本标签确定需要的重叠率阈值 设置为 0.7。 2.2 新构架的目标跟踪 本节采用基于 HOG 和 CN 特征结合的跟踪 新构架,即 AU_DKCF 进行测试,通过比较不同特 征以验证提出的方法的有效性。表 1 分别列出了 新构架 AU_DKCF 与对比算法的跟踪结果。由表 1 可以看出,新构架在跟踪速度和精度方面取得了 较高的性能,均优于对比算法。其原因在于:新构 架能够较准确判断目标是否跟踪异常,同时可进 一步区别目标跟踪异常所产生的原因,并利用不同 机制恢复丢失的目标,实现目标长期且准确地跟 踪。AU_DKCF 在采用 2 种手工特征结合时,跟踪速 度能达到 105.2 f/s,可有效实现目标的实时跟踪。 表 1 本文新构架和对比算法的目标跟踪结果 Table 1 Object tracking results of proposed method and contrastive methods on OTB-50 方法 跟踪准确率/% 帧速率/(f/s) 精确度 成功率 KCF [3] 73.20 52.00 172.0 DCF [3] 72.80 50.40 292.0 LMCF [16] 83.90 62.40 85.2 TLD [19] 60.80 33.40 28.0 ORIA [20] 45.70 23.10 9.0 Ours (HOG) 85.40 64.30 143.0 Ours (CN) 86.70 52.40 121.0 AU_DKCF 87.50 63.10 105.2 (a) 快速运动人脸 (b) 遮挡人脸 (b) 行人 图 2 OTB-100 数据库 Fig. 2 OTB-100 dataset ·124· 智 能 系 统 学 报 第 14 卷
第1期 宁欣,等:一种自适应模板更新的判别式KC℉跟踪方法 ·125· 2.3不同属性的视频跟踪 3结束语 本节针对具有目标形状变化、目标被遮挡和 快速运动等属性的视频序列,分别进行目标跟踪 本文在充分分析、研究和实验的基础上,取 测试,以验证提出的跟踪算法对于上述挑战的鲁 得了以下几点结论:)提出一种基于外观判别式 棒性。表2给出了本文新构架和对比算法在OTB-100 分类器的跟踪质量判定方法,旨在判断当前跟踪 数据集上,对于不同属性视频的跟踪结果。由表2 状态是否正常,以便及时恢复丢失的目标;2)提 可以看出,本文提出的新构架对于上述挑战的有效性。 出了一种新的自适应模板更新策略,在提高跟踪 表2本文新构架对不同属性视频的跟踪结果 速度的同时,能够判断当前跟踪的目标是否发生 Table 2 Tracking results on videos with sequence attrib- 形状变化,以增强模板的泛化能力;3)提出一种 utes % 融合跟踪质量判定和模板自适应更新的跟踪新构 方法 精确度 架,旨在实时判断当前跟踪目标所处状态,同时 遮挡 快速运动 平面内/外旋转 制定出不同的机制恢复丢失的目标,实现了高效 KCFB] 74.90 65.00 74.00 的目标跟踪。后续作者将致力于将现有跟踪算法 Struck4 58.40 53.90 52.10 和深度学习结合用于安防监控中的异常行为分 TLD U9 58.30 57.60 51.20 析、客流量统计和警戒区域报警等应用中。 LMCF U16] 62.70 61.60 58.85 AU DKCF 75.80 72.10 79.90 参考文献: 2.4 跟踪结果可视化 [1]YILMAZ A,JAVED O,SHAH M.Object tracking:a Sur- 本节给出了本文新框架的跟踪可视化效果, vey[J].ACM computing surveys,2006,38(4):45-50. 以展示本文方法的有效性。图3~5分别给出了本 [2]CANNONS K.A review of visual tracking[R].Technical 文AU DKCF和经典滤波算法(线性相关滤波DCF Report CSE 2008-07.York University,Canada,2008 和核相关滤波KC℉)对旋转属性的视频,快速运 [3]HENRIQUES J F,CASEIRO R,MARTINS P,et al.High- 动属性的视频和遮挡属性的视频的跟踪结果。从 speed tracking with kernelized correlation filters[J].IEEE 图中可以观察得到,新框架在处理具备旋转挑战 transactions on pattern analysis and machine intelli-gence, 的视频时,获得了更优的性能。图3~5中,绿色框 2015,37(3):583-596. 表示Groundruth,紫色框表示DCF,蓝色框表示 [4]DANELLJAN F M,KHAN F S,FELSBERG M,et al.Ad- KCF,红色框表示AU DKCF。 aptive color attributes for real-time visual track- #:000 ing[C]//Proceedings of the 20014 IEEE Conference on Computer Vision and Pattern Recognition.Columbus, USA.2014:1090-1097. (a)1帧 (b)65帧 (c)236帧 [5]JIA Xu,LU Huchuan,YANG M H.Visual tracking via ad- aptive structural local sparse appearance mod-el[C]//Pro- 图3足球视频的可视化跟踪结果 ceedings of the 2012 IEEE Conference on Computer Vis- Fig.3 Visualizing tracking result of soccer ion and Pattern Recognition.Providence,USA,2012: #0386 1822-1829 [6]KALAL Z,MIKOLAJCZYK K,MATAS J.Track-ing- learning-detection[J].IEEE transactions on pattern analys is and machine intelligence,2012,34(7):1409-1422 (a)1帧 (b)386帧 (c)486帧 [7]KWON J,LEE K M.Visual tracking decomposi- 图4行人视频的可视化跟踪结果 tion[C]//Proceedings of the 2010 IEEE Computer Society Fig.4 Visualizing tracking result of boy Conference on Computer Vision and Pattern Recognition 0001 地0024 0445国 San Francisco,USA,2010:1269-1276 [8]ROSS DA,LIM J,LIN R S,et al.Incremental learning for robust visual tracking[J].International journal of computer vision,.2008,77(1/2/3):125-141. (a)1帧 (b)24帧 (c)445帧 [9]HONG S,YOU T,KWAK S,et al.Online tracking by 图5篮球视频的可视化跟踪结果 learning discriminative saliency map with convolutional Fig.5 Visualizing tracking result of basketball neural network[Cl//Proceedings of the 32nd International
2.3 不同属性的视频跟踪 本节针对具有目标形状变化、目标被遮挡和 快速运动等属性的视频序列,分别进行目标跟踪 测试,以验证提出的跟踪算法对于上述挑战的鲁 棒性。表 2 给出了本文新构架和对比算法在 OTB-100 数据集上,对于不同属性视频的跟踪结果。由表 2 可以看出,本文提出的新构架对于上述挑战的有效性。 2.4 跟踪结果可视化 本节给出了本文新框架的跟踪可视化效果, 以展示本文方法的有效性。图 3~5 分别给出了本 文 AU_DKCF 和经典滤波算法 (线性相关滤波 DCF 和核相关滤波 KCF) 对旋转属性的视频,快速运 动属性的视频和遮挡属性的视频的跟踪结果。从 图中可以观察得到,新框架在处理具备旋转挑战 的视频时,获得了更优的性能。图 3~5 中,绿色框 表示 Groundruth,紫色框表示 DCF,蓝色框表示 KCF,红色框表示 AU_DKCF。 3 结束语 本文在充分分析、研究和实验的基础上,取 得了以下几点结论:1) 提出一种基于外观判别式 分类器的跟踪质量判定方法,旨在判断当前跟踪 状态是否正常,以便及时恢复丢失的目标;2) 提 出了一种新的自适应模板更新策略,在提高跟踪 速度的同时,能够判断当前跟踪的目标是否发生 形状变化,以增强模板的泛化能力;3) 提出一种 融合跟踪质量判定和模板自适应更新的跟踪新构 架,旨在实时判断当前跟踪目标所处状态,同时 制定出不同的机制恢复丢失的目标,实现了高效 的目标跟踪。后续作者将致力于将现有跟踪算法 和深度学习结合用于安防监控中的异常行为分 析、客流量统计和警戒区域报警等应用中。 参考文献: YILMAZ A, JAVED O, SHAH M. Object tracking: a Survey[J]. ACM computing surveys, 2006, 38(4): 45–50. [1] CANNONS K. A review of visual tracking[R]. Technical Report CSE 2008-07. York University, Canada, 2008. [2] HENRIQUES J F, CASEIRO R, MARTINS P, et al. Highspeed tracking with kernelized correlation filters[J]. IEEE transactions on pattern analysis and machine intelli-gence, 2015, 37(3): 583–596. [3] DANELLJAN F M, KHAN F S, FELSBERG M, et al. Adaptive color attributes for real-time visual tracking[C]//Proceedings of the 20014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, USA, 2014: 1090–1097. [4] JIA Xu, LU Huchuan, YANG M H. Visual tracking via adaptive structural local sparse appearance mod-el[C]//Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition. Providence, USA, 2012: 1822–1829. [5] KALAL Z, MIKOLAJCZYK K, MATAS J. Track-inglearning-detection[J]. IEEE transactions on pattern analysis and machine intelligence, 2012, 34(7): 1409–1422. [6] KWON J, LEE K M. Visual tracking decomposition[C]//Proceedings of the 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Francisco, USA, 2010: 1269–1276. [7] ROSS D A, LIM J, LIN R S, et al. Incremental learning for robust visual tracking[J]. International journal of computer vision, 2008, 77(1/2/3): 125–141. [8] HONG S, YOU T, KWAK S, et al. Online tracking by learning discriminative saliency map with convolutional neural network[C]//Proceedings of the 32nd International [9] 表 2 本文新构架对不同属性视频的跟踪结果 Table 2 Tracking results on videos with sequence attributes % 方法 精确度 遮挡 快速运动 平面内/外旋转 KCF [3] 74.90 65.00 74.00 Struck [14] 58.40 53.90 52.10 TLD [19] 58.30 57.60 51.20 LMCF [16] 62.70 61.60 58.85 AU_DKCF 75.80 72.10 79.90 (a) 1 帧 (b) 65 帧 (c) 236 帧 #: 0001 #: 0065 #: 0236 图 3 足球视频的可视化跟踪结果 Fig. 3 Visualizing tracking result of soccer (a) 1 帧 (b) 386 帧 (c) 486 帧 #: 0001 #: 0386 #: 0486 图 4 行人视频的可视化跟踪结果 Fig. 4 Visualizing tracking result of boy (a) 1 帧 (b) 24 帧 (c) 445 帧 #: 0001 #: 0024 #: 0445 图 5 篮球视频的可视化跟踪结果 Fig. 5 Visualizing tracking result of basketball 第 1 期 宁欣,等:一种自适应模板更新的判别式 KCF 跟踪方法 ·125·
·126· 智能系统学报 第14卷 Conference on Machine Learning.Lille,France,2015: 5017-5032 597-606. [18]WU Yi,LIM J,YANG M H.Online object tracking:a [10]MA Chao,HUANG Jiabin,YANG Xiaokang,et al.Hier- benchmark[C]//Proceedings of the 2013 IEEE Confer- archical convolutional features for visual track-ing[C]// ence on Computer Vision and Pattern Recognition.Port- Proceedings of the 2015 IEEE International Con-ference land,USA,2013:2411-2418. on Computer Vision.Santiago,Chile,2015:3074-3082. [19]KALAL Z,MIKOLAJCZYK K,MATAS J.Track-ing- [11]QI Yuankai,ZHANG Shengping.QIN Lei,et al.Hedged learning-detectionJ].IEEE transactions on pattern ana- deep tracking[C]//Proceedings of 2016 IEEE Conference lysis and machine intelligence,2012,34(7):1409-1422 on Computer Vision and Pattern Recognition.Las Vegas, [20]WU Yi,SHEN Bin,LING Haibin.Online robust image USA,2016:4303-4311. alignment via iterative convex optimization[Cl//Proceed- [12]WANG Lijun,OUYANG Wanli,WANG Xiaogang,et al. ings of 2012 IEEE Conference on Computer Vision and Visual tracking with fully convolutional net-works[C]// Pattern Recognition.Rhode Island,USA,2012:1808- Proceedings of the 2015 IEEE International Conference on Computer Vision.Santiago,Chile,2015:3119-3127. 1814. [13]WANG Lijun,OUYANG Wanli,WANG Xiaogang,et al. 作者简介: Stct:sequentially training convolutional networks for 宁欣.男.1989年生,博士,IEEE visual tracking[C]//Proceedings of the 2016 IEEE Confer- 中国计算机学会、中国人工智能学会 ence on Computer Vision and Pattern Recognition.Las 中国自动化学会会员,主要研究方向 Vegas,USA,2016:1373-1381 为计算机视觉、类脑视觉计算、形象认 [14]HARE S,SAFFARI A,TORR P H S.Struck:structured 知计算和神经网络。发表学术论文 15篇,被SCI收录5篇。 output tracking with kernels[Cl//Proceedings of the 2011 International Conference on Computer Vision.Barcelona, Spain,2011:263-270. 李卫军,男,1975年生,教授,博 [15]NING Jifeng,YANG Jimei,JIANG Shaojie,et al.Object 士生导师,博士,主要研究方向为机器 tracking via dual linear structured SVM and explicit fea- 视觉、模式识别与智能系统、仿生图像 处理技术、仿生模式识别理论与方法 ture map[C]//Proceedings of 2016 IEEE Conference on 近红外光谱定性分析技术、高维信息 Computer Vision and Pattern Recognition.Las Vegas, 计算。主持国家自然科学基金项目 USA,2016:4266-4274. 2项,企业合作研究项目3项。发表学 [16]WANG Mengmeng,LIU Yong,HUANG Zeyi.Large 术论文30篇。 margin object tracking with circulant feature maps[C// Proceedings of 2017 IEEE Conference on Computer Vis- 田伟娟,女,1990年生,硕士研究 生,主要研究方向为视频、图像处理和 ion and Pattern Recognition.Honolulu,HI,USA,2017: 日标跟踪相关算法。 4800-4808. [17]CHAN T H,JIA Kui,GAO Shenghua,et al.PCANet:a simple deep learning baseline for image classification?. IEEE transactions on image processing,2015,24(12):
Conference on Machine Learning. Lille, France, 2015: 597–606. MA Chao, HUANG Jiabin, YANG Xiaokang, et al. Hierarchical convolutional features for visual track-ing[C]// Proceedings of the 2015 IEEE International Con-ference on Computer Vision. Santiago, Chile, 2015: 3074–3082. [10] QI Yuankai, ZHANG Shengping, QIN Lei, et al. Hedged deep tracking[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA, 2016: 4303–4311. [11] WANG Lijun, OUYANG Wanli, WANG Xiaogang, et al. Visual tracking with fully convolutional net-works[C]// Proceedings of the 2015 IEEE International Conference on Computer Vision. Santiago, Chile, 2015: 3119–3127. [12] WANG Lijun, OUYANG Wanli, WANG Xiaogang, et al. Stct: sequentially training convolutional networks for visual tracking[C]//Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA, 2016: 1373–1381. [13] HARE S, SAFFARI A, TORR P H S. Struck: structured output tracking with kernels[C]//Proceedings of the 2011 International Conference on Computer Vision. Barcelona, Spain, 2011: 263–270. [14] NING Jifeng, YANG Jimei, JIANG Shaojie, et al. Object tracking via dual linear structured SVM and explicit feature map[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA, 2016: 4266–4274. [15] WANG Mengmeng, LIU Yong, HUANG Zeyi. Large margin object tracking with circulant feature maps[C]// Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA, 2017: 4800–4808. [16] CHAN T H, JIA Kui, GAO Shenghua, et al. PCANet: a simple deep learning baseline for image classification?[J]. IEEE transactions on image processing, 2015, 24(12): [17] 5017–5032. WU Yi, LIM J, YANG M H. Online object tracking: a benchmark[C]//Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition. Portland, USA, 2013: 2411–2418. [18] KALAL Z, MIKOLAJCZYK K, MATAS J. Track-inglearning-detection[J]. IEEE transactions on pattern analysis and machine intelligence, 2012, 34(7): 1409–1422. [19] WU Yi, SHEN Bin, LING Haibin. Online robust image alignment via iterative convex optimization[C]//Proceedings of 2012 IEEE Conference on Computer Vision and Pattern Recognition. Rhode Island, USA, 2012: 1808– 1814. [20] 作者简介: 宁欣,男,1989 年生,博士,IEEE、 中国计算机学会、中国人工智能学会、 中国自动化学会会员,主要研究方向 为计算机视觉、类脑视觉计算、形象认 知计算和神经网络。发表学术论文 15 篇,被 SCI 收录 5 篇。 李卫军,男,1975 年生,教授,博 士生导师,博士,主要研究方向为机器 视觉、模式识别与智能系统、仿生图像 处理技术、仿生模式识别理论与方法、 近红外光谱定性分析技术、高维信息 计算。主持国家自然科学基金项目 2 项,企业合作研究项目 3 项。发表学 术论文 30 篇。 田伟娟,女,1990 年生,硕士研究 生,主要研究方向为视频、图像处理和 目标跟踪相关算法。 ·126· 智 能 系 统 学 报 第 14 卷