第16卷第3期 智能系统学报 Vol.16 No.3 2021年5月 CAAI Transactions on Intelligent Systems May 2021 D0L:10.11992tis.201910029 一种基于深度学习目标检测的长时目标跟踪算法 邵江南2,葛洪伟 (1.江南大学江苏省模式识别与计算智能工程实验室,江苏无锡214122;2.江南大学物联网工程学院,江苏 无锡214122) 摘要:针对长时目标跟踪所面临的目标被遮挡、出视野等常常会导致跟踪漂移或丢失的问题,基于MDNt提 出一种深度长时目标跟踪算法long-term object tracking based on MDNet,LT-MDNet)。首先,引入了一种改进的 收缩损失函数,以解决模型训练时正负样本不均衡的问题:其次,设计了一种高置信度保留样本池,对在线跟 踪时的每一帧的有效并且置信度最高结果进行保留,并在池满时替换最低置信度的保留样本;最后,在模型检 测到跟踪失败或连续跟踪帧数达到特定阈值时,利用保留样本池进行在线训练更新模型,从而使模型在应对长 时跟踪时保持鲁棒和高效。实验结果表明,LT-MDNt在跟踪精度和成功率上都展现了极强的竞争力,并且在 目标被遮挡、出视野等情况下保持了优越的跟踪性能和可靠性。 关键词:目标跟踪:长时跟踪:神经网络:卷积特征:类不均衡问题:损失函数:特征提取:深度学习 中图分类号:TP391.4文献标志码:A文章编号:1673-4785(2021)03-0433-09 中文引用格式:邵江南,葛洪伟.一种基于深度学习目标检测的长时目标跟踪算法.智能系统学报,202116(3):433-441. 英文引用格式:SHAO Jiangnan,,GE Hongwei..A long-term object tracking algorithm based on deep learning and object detection[J].CAAI transactions on intelligent systems,2021,16(3):433-441. A long-term object tracking algorithm based on deep learning and object detection SHAO Jiangnan,GE Hongwei2 (1.Jiangsu Provincial Engineering Laboratory of Pattern Recognition and Computational Intelligence,Jiangnan University,Wuxi 214122,China;2.School of Internet of Things,Jiangnan University,Wuxi 214122,China) Abstract:Aiming at the problem of tracking drift or loss caused by the occlusion and the out-of-view of the target in long-term tracking,this paper proposes a new deep,long-term tracking algorithm based on MDNet(LT-MDNet).First, an improved shrinkage loss function is introduced to solve the problem of the positive-negative class imbalance in the model training.Second,a high confidence retention sample pool is designed to retain the valid and highest confidence results of each frame during online tracking and to replace the lowest confidence retention samples when the pool is full. Finally,when the model detects a tracking failure or when the continuous tracking frame number reaches a specific threshold,the reserved sample pool is used for online training to update the model to make the model robust and effi- cient in dealing with long-term tracking.Experimental results show that LT-MDNet is highly competitive in its tracking accuracy and success rate and maintains excellent tracking performance and reliability in the case of target occlusion and out-of-view. Keywords:object tracking;long-term tracking;neural network;convolutional features;class imbalance problem;loss function;feature extraction;deep learning 随着计算机视觉领域的发展,目标跟踪在人到越来越多的重视和应用。早期的跟踪模型常见 机交互、视频监控、自动驾驶和机器人等领域得 的有粒子滤波四、Mean shift!回、相关滤波)及其衍 收稿日期:2019-10-24. 生模型41等。虽然这些传统的跟踪器经过近年 基金项目:江苏省研究生创新计划项目(KYLX16_0781):江苏 来的发展在精度和速度上都有了明显提升,但是 高校优势学科建设工程项目(PAPD). 通信作者:葛洪伟.E-mail:ghw8601@163.com. 对目标特征的提取仍以光流、外观形状、颜色等
DOI: 10.11992/tis.201910029 一种基于深度学习目标检测的长时目标跟踪算法 邵江南1,2,葛洪伟1,2 (1. 江南大学 江苏省模式识别与计算智能工程实验室,江苏 无锡 214122; 2. 江南大学 物联网工程学院,江苏 无锡 214122) 摘 要:针对长时目标跟踪所面临的目标被遮挡、出视野等常常会导致跟踪漂移或丢失的问题,基于 MDNet 提 出一种深度长时目标跟踪算法 (long-term object tracking based on MDNet, LT-MDNet)。首先,引入了一种改进的 收缩损失函数,以解决模型训练时正负样本不均衡的问题;其次,设计了一种高置信度保留样本池,对在线跟 踪时的每一帧的有效并且置信度最高结果进行保留,并在池满时替换最低置信度的保留样本;最后,在模型检 测到跟踪失败或连续跟踪帧数达到特定阈值时,利用保留样本池进行在线训练更新模型,从而使模型在应对长 时跟踪时保持鲁棒和高效。实验结果表明,LT-MDNet 在跟踪精度和成功率上都展现了极强的竞争力,并且在 目标被遮挡、出视野等情况下保持了优越的跟踪性能和可靠性。 关键词:目标跟踪;长时跟踪;神经网络;卷积特征;类不均衡问题;损失函数;特征提取;深度学习 中图分类号:TP391.4 文献标志码:A 文章编号:1673−4785(2021)03−0433−09 中文引用格式:邵江南, 葛洪伟. 一种基于深度学习目标检测的长时目标跟踪算法 [J]. 智能系统学报, 2021, 16(3): 433–441. 英文引用格式:SHAO Jiangnan, GE Hongwei. A long-term object tracking algorithm based on deep learning and object detection[J]. CAAI transactions on intelligent systems, 2021, 16(3): 433–441. A long-term object tracking algorithm based on deep learning and object detection SHAO Jiangnan1,2 ,GE Hongwei1,2 (1. Jiangsu Provincial Engineering Laboratory of Pattern Recognition and Computational Intelligence, Jiangnan University, Wuxi 214122, China; 2. School of Internet of Things, Jiangnan University, Wuxi 214122, China) Abstract: Aiming at the problem of tracking drift or loss caused by the occlusion and the out-of-view of the target in long-term tracking, this paper proposes a new deep, long-term tracking algorithm based on MDNet (LT-MDNet). First, an improved shrinkage loss function is introduced to solve the problem of the positive-negative class imbalance in the model training. Second, a high confidence retention sample pool is designed to retain the valid and highest confidence results of each frame during online tracking and to replace the lowest confidence retention samples when the pool is full. Finally, when the model detects a tracking failure or when the continuous tracking frame number reaches a specific threshold, the reserved sample pool is used for online training to update the model to make the model robust and efficient in dealing with long-term tracking. Experimental results show that LT-MDNet is highly competitive in its tracking accuracy and success rate and maintains excellent tracking performance and reliability in the case of target occlusion and out-of-view. Keywords: object tracking; long-term tracking; neural network; convolutional features; class imbalance problem; loss function; feature extraction; deep learning 随着计算机视觉领域的发展,目标跟踪在人 机交互、视频监控、自动驾驶和机器人等领域得 到越来越多的重视和应用。早期的跟踪模型常见 的有粒子滤波[1] 、Mean shift[2] 、相关滤波[3] 及其衍 生模型[4-8] 等。虽然这些传统的跟踪器经过近年 来的发展在精度和速度上都有了明显提升,但是 对目标特征的提取仍以光流、外观形状、颜色等 收稿日期:2019−10−24. 基金项目:江苏省研究生创新计划项目 (KYLX16_0781);江苏 高校优势学科建设工程项目 (PAPD). 通信作者:葛洪伟. E-mail:ghw8601@163.com. 第 16 卷第 3 期 智 能 系 统 学 报 Vol.16 No.3 2021 年 5 月 CAAI Transactions on Intelligent Systems May 2021
·434· 智能系统学报 第16卷 浅层特征为主,不能捕捉目标语义特征,难以在 污染,最终导致跟踪漂移,而在目标被遮挡时,这 面对长时跟踪时目标外观形变、被遮挡或出视野 种污染的影响将更加明显。近年来,随着深度跟 等情况下保持鲁棒跟踪。而随着深度学习在跟踪 踪器的骨干网络层数逐渐加深,模型在线更新对 领域的发展,这些问题正逐渐得到改善。 跟踪效率的影响逐渐加大,因此大多数深度跟踪 基于深度学习的跟踪器,能有效利用目标的 器都未引入在线更新策略,但模型更新仍是维持 深度特征对目标进行语义级抽象,并拟合目标的 长时跟踪鲁棒性的重要途径。 运动过程,这大大提高了跟踪精度;且模型的特 针对上述问题,本文结合MDNet提出了一种 征提取器在离线时得到了大量标记图片的端到端 深度长时目标跟踪算法LT-MDNet。通过改进收 预训练,这进一步提高了跟踪器在线跟踪速度, 缩损失函数和提出一种全新的高置信度保留样本 使深度学习在目标跟踪领域的应用成为可能。由 池,进一步解决类不均衡和模型更新问题。在标 于目标检测与目标跟踪具有相似性,检测领域的 准跟踪数据集OTB20151和标准长时数据集 很多算法思想都逐渐被应用于跟踪:MDNet在 UAV2OLI6上的实验结果表明,LT-MDNet有着优 前一帧的目标周围高斯采样出大量候选框,再利 越的跟踪性能并能在长时跟踪时的遮挡和目标出 用预训练的二分类器区分候选框中的目标和背 视野等复杂情况下保持鲁棒性。 景,从而定位目标位置;SiamFC孪生网络模型o 利用同样结构的CNN(convolutional neural network) 1 MDNet算法 网络对初始帧目标和当前帧搜索域提取深度特 MDNet将每一个视频帧序列视为一个单独 征,然后通过卷积操作进行相似性计算,得到目 标在搜索域位置的响应;RasNet')将传统的相关 的域,基于VGG-Mm架构,提出多域卷积网络。 滤波引入孪生网络中,再把检测领域的通道注意 如图1所示,convI、conv2、conv3、fc4、fc5为域无 力、残差注意力和通用注意力结合,提高了跟踪器 关的共享层,初始参数通过离线训练得出:fc6 的泛化能力,增大了对首帧目标信息的利用率。 (fc6,i=1,2,…,k)为特定域层,参数在每次迭代训 然而,基于深度学习的目标跟踪算法,需要收 练或跟踪特定域时均随机初始化,灰色框和白色 集含有目标信息的正样本,以及含有背景信息的 框分别表示每个域中的正样本(目标)和负样本 负样本用于模型的迭代训练。但在实际取样中, (背景);1,2,…,k为离线训练时所迭代训练模型的 正样本的可采样数量远远小于负样本,且这些负 k个视频序列。MDNet在共享层中对域无关的信 样本中绝大多数是无意义的简单负样本,对分类 息建模,从而获得通用的特征表示,并在fc6层训 器的训练贡献很少。不仅如此,虽然简单负样本 练一个二分类器,区分目标与背景,通过将目标 的损失值低,但数量庞大,这些值的累积和很可 跟踪抽象为一个二分类任务,最终达到跟踪运动 能掩盖了正样本和重要负样本损失值的变化,从 目标的目的。 而影响模型训练的收敛速度以及跟踪器性能。针 对这种不均衡问题,MDNt采用检测领域的难分 样本挖掘技术筛选难分负样本,使模型的训练 f6 免受大多数简单样本的干扰,但其对难分负样本 离线 fc62 训练 的采样数量固定,在很多应用场景下难以避免地 对简单样本过多采集;FocalLoss!)对所有的负样 ■fc6 在线 本损失值进行抑制,但同时降低了有价值的难分 跟踪 -fc6 convl conv3 样本对训练的贡献。 ut %@51x51 onv2512@3x3f4 fe5 512512 3@107×107 256@11×11 此外,长时跟踪时目标不可避免地会出现形 变、遮挡和出视野等情况,未采用模型在线更新 图1 MDNet模型主要结构 机制的深度跟踪器往往由于过度依赖首帧特征而 Fig.1 Main architecture of MDNet 导致跟踪漂移或目标丢失。MDNet保留最近T MDNet将目标搜索域采样出的样本,统一裁剪 帧的跟踪结果用于更新模型,但这可能导致有价 成107×107大小,输人图1的网络中,通过网络 值的保留样本被新出现的无效样本替代,同时其 fc6层输出样本属于目标的置信度p,将模型难以 忽视首帧目标信息,也使得模型在跟踪失败后难 判别的负样本归为难分样本。为降低正负样本不 以通过有效更新重新定位目标位置:CFNet!4对 均衡问题对模型在线训练的干扰,MDNet采取了 当前帧之前的所有跟踪结果计算平均值,更新目 难分样本挖掘策略,取p值最高的前96个负样本, 标模板,同样,随着跟踪的持续,目标模板不断被 再将这组难分样本和在目标周围高斯采样出的32
浅层特征为主,不能捕捉目标语义特征,难以在 面对长时跟踪时目标外观形变、被遮挡或出视野 等情况下保持鲁棒跟踪。而随着深度学习在跟踪 领域的发展,这些问题正逐渐得到改善。 基于深度学习的跟踪器,能有效利用目标的 深度特征对目标进行语义级抽象,并拟合目标的 运动过程,这大大提高了跟踪精度;且模型的特 征提取器在离线时得到了大量标记图片的端到端 预训练,这进一步提高了跟踪器在线跟踪速度, 使深度学习在目标跟踪领域的应用成为可能。由 于目标检测与目标跟踪具有相似性,检测领域的 很多算法思想都逐渐被应用于跟踪:MDNet[9] 在 前一帧的目标周围高斯采样出大量候选框,再利 用预训练的二分类器区分候选框中的目标和背 景,从而定位目标位置;SiamFC 孪生网络模型[10] 利用同样结构的 CNN(convolutional neural network) 网络对初始帧目标和当前帧搜索域提取深度特 征,然后通过卷积操作进行相似性计算,得到目 标在搜索域位置的响应;RasNet[11] 将传统的相关 滤波引入孪生网络中,再把检测领域的通道注意 力、残差注意力和通用注意力结合,提高了跟踪器 的泛化能力,增大了对首帧目标信息的利用率。 然而,基于深度学习的目标跟踪算法,需要收 集含有目标信息的正样本,以及含有背景信息的 负样本用于模型的迭代训练。但在实际取样中, 正样本的可采样数量远远小于负样本,且这些负 样本中绝大多数是无意义的简单负样本,对分类 器的训练贡献很少。不仅如此,虽然简单负样本 的损失值低,但数量庞大,这些值的累积和很可 能掩盖了正样本和重要负样本损失值的变化,从 而影响模型训练的收敛速度以及跟踪器性能。针 对这种不均衡问题,MDNet 采用检测领域的难分 样本挖掘[12] 技术筛选难分负样本,使模型的训练 免受大多数简单样本的干扰,但其对难分负样本 的采样数量固定,在很多应用场景下难以避免地 对简单样本过多采集;FocalLoss[13] 对所有的负样 本损失值进行抑制,但同时降低了有价值的难分 样本对训练的贡献。 T 此外,长时跟踪时目标不可避免地会出现形 变、遮挡和出视野等情况,未采用模型在线更新 机制的深度跟踪器往往由于过度依赖首帧特征而 导致跟踪漂移或目标丢失。MDNet 保留最近 帧的跟踪结果用于更新模型,但这可能导致有价 值的保留样本被新出现的无效样本替代,同时其 忽视首帧目标信息,也使得模型在跟踪失败后难 以通过有效更新重新定位目标位置;CFNet[14] 对 当前帧之前的所有跟踪结果计算平均值,更新目 标模板,同样,随着跟踪的持续,目标模板不断被 污染,最终导致跟踪漂移,而在目标被遮挡时,这 种污染的影响将更加明显。近年来,随着深度跟 踪器的骨干网络层数逐渐加深,模型在线更新对 跟踪效率的影响逐渐加大,因此大多数深度跟踪 器都未引入在线更新策略,但模型更新仍是维持 长时跟踪鲁棒性的重要途径。 针对上述问题,本文结合 MDNet 提出了一种 深度长时目标跟踪算法 LT-MDNet。通过改进收 缩损失函数和提出一种全新的高置信度保留样本 池,进一步解决类不均衡和模型更新问题。在标 准跟踪数据集 OTB2015[ 1 5 ] 和标准长时数据集 UAV20L[16] 上的实验结果表明,LT-MDNet 有着优 越的跟踪性能并能在长时跟踪时的遮挡和目标出 视野等复杂情况下保持鲁棒性。 1 MDNet 算法 fc6i ,i = 1,2,···, k 1,2,···, k k MDNet 将每一个视频帧序列视为一个单独 的域,基于 VGG-M[17] 架构,提出多域卷积网络。 如图 1 所示,conv1、conv2、conv3、fc4、fc5 为域无 关的共享层,初始参数通过离线训练得出;fc6 ( ) 为特定域层,参数在每次迭代训 练或跟踪特定域时均随机初始化,灰色框和白色 框分别表示每个域中的正样本 (目标) 和负样本 (背景); 为离线训练时所迭代训练模型的 个视频序列。MDNet 在共享层中对域无关的信 息建模,从而获得通用的特征表示,并在 fc6 层训 练一个二分类器,区分目标与背景,通过将目标 跟踪抽象为一个二分类任务,最终达到跟踪运动 目标的目的。 input 3@107×107 conv1 96@51×51conv2 256@11×11 conv3 512@3×3 fc4 512 fc5 512 离线 训练 在线 跟踪 fc61 fc62 fc6k fc6 图 1 MDNet 模型主要结构 Fig. 1 Main architecture of MDNet p p MDNet 将目标搜索域采样出的样本,统一裁剪 成 107×107 大小,输入图 1 的网络中,通过网络 fc6 层输出样本属于目标的置信度 ,将模型难以 判别的负样本归为难分样本。为降低正负样本不 均衡问题对模型在线训练的干扰,MDNet 采取了 难分样本挖掘策略,取 值最高的前 96 个负样本, 再将这组难分样本和在目标周围高斯采样出的 32 ·434· 智 能 系 统 学 报 第 16 卷
第3期 邵江南,等:一种基于深度学习目标检测的长时目标跟踪算法 ·435· 个正样本结合,通过式(1)损失函数和随机梯度 式中:cxp()能随着模型输出的样本置信度p的变 下降算法(stochastic gradient descent,.SGD)对模型 化非线性改变其损失值S(p);a、c为超参数,分别 参数进行迭代训练更新: 控制损失收缩速度(曲线梯度变化率)和损失值 L(p,y)=-(y.n(p)+(1-y)ln(1-p) (1) 调节敏感范围(S(p)值趋于0时的p区间)。 式中:y∈0,1)为样本类别标签;pe{0≤x≤1)为 式(3)损失值变化曲线如图2中实线所示,当 样本属于目标0y=1)的模型估计概率(置信度)。 p<0.5时,损失值几乎为零,而当p接近1时,损失 2LT-MDNet算法 值迅速增大,比式(2)更有效地非线性抑制了简单 负样本的损失值,且负样本越简单抑制比越大。 本文提出的LT-MDNet算法在MDNet基础 在线训练与离线训练存在本质区别:在线训 上通过改进收缩损失函数解决采样时的类不均衡 练迭代次数少,涉及网络层不多,且已经预训练 问题,并提出了高置信度保留样本池,以鲁棒更 的模型在线更新时只需微调部分参数即可快速收 新模型,使模型能够有效应对长时跟踪下的遮 敛,因此,虽然抑制大多数负样本会降低模型的 挡、出视野等复杂因素。 泛化能力,但这样做允许模型对当前视频域存在 2.1损失函数 一定程度过拟合,这在提高跟踪器性能的同时有 从式(1)可以看出,当样本实际为负时,y=0, 效降低了训练成本;对p的平方操作,使得简单 原式可简化为式(2),其损失值变化曲线如图2中 负样本在损失计算时得到进一步抑制。修正后的 虚线所示。 模型损失函数如式(4)所示: L(p,0)=-ln(1-p) (2) Ls(p,y)=L(p.y)+6S(p) (4) 5.0 式中:6为超参数,控制损失收缩比。 ---…L(p,0) S(p) 2.2模型更新 4.0 为了尽可能地保留有效跟踪结果使模型更新 30 更为有效,本文设计并实现了基于置信度的跟踪 样本池,保留最近最高置信度的跟踪结果样本, 并在池满时替换置信度最低的保留样本(第一帧 1.0 目标永久保留在样本池中)。置信度评估标准,按 照当前帧所采样的正样本在fc6层输出的5个最 0.2 0.4 0.6 0.81.0 P 高分类分数的均值计算。样本池的具体工作流程 图2L(p,O)和S(p)损失值对比曲线 如图3所示。 Fig.2 Loss comparison curve of L(p,0)and S(p) 新的视频跟踪序列 可见,模型对样本的预测输出越接近真实样 本标签0,损失值L越小:预测越接近1,L越大。 初始化样本池SnFI 但在处理简单负样本时,由于负样本的采样数量 计算第1帧的跟踪结果S 远高于正样本,尽管采样的负样本经过难分样本 挖掘,简单负样本占比仍较大,依然存在类不均 N S.置信分数0 衡问题。而图2中虚线在样本置信度p∈[0,0.5] 7 的损失值未能被有效抑制,使得大量的较简单负 Soa满 Y +=】 删S 样本损失值累加,仍可以掩盖正样本和难分负样 N 本损失值的变化,从而影响模型训练。 添加S,到S中,记录最 低置信度样本索引心1) 为进一步解决上述类不均衡问题,本文结合 文献[18]的思想,改进了收缩损失函数,在式(1) %T==0 货酬型 N 的基础上增加了收缩抑制项(见式(3)),通过抑制 K视频总帧数 损失值曲线在p∈[0,0.5]内的梯度,降低简单负 N 样本的损失值,以突出难分样本和正样本损失值 结束 的变化对模型训练的贡献率。 图3高置信度保留样本池工作流程 p S(p)=I+exp(a(c-p)) (3) Fig.3 Workflow chart of the high-confidence retention sample pool
个正样本结合,通过式 (1) 损失函数和随机梯度 下降算法 (stochastic gradient descent, SGD) 对模型 参数进行迭代训练更新: L(p, y) = −(y ·ln(p)+(1−y)·ln(1− p)) (1) y ∈ {0,1} p ∈ {x|0 ⩽ x ⩽ 1} y 式中: 为样本类别标签; 为 样本属于目标 ( =1) 的模型估计概率 (置信度)。 2 LT-MDNet 算法 本文提出的 LT-MDNet 算法在 MDNet 基础 上通过改进收缩损失函数解决采样时的类不均衡 问题,并提出了高置信度保留样本池,以鲁棒更 新模型,使模型能够有效应对长时跟踪下的遮 挡、出视野等复杂因素。 2.1 损失函数 从式 (1) 可以看出,当样本实际为负时, y =0, 原式可简化为式 (2),其损失值变化曲线如图 2 中 虚线所示。 L(p,0) = −ln(1− p) (2) 0.2 0.4 0.6 0.8 1.0 p 0 1.0 2.0 3.0 4.0 5.0 L(p, y) L(p, 0) S(p) 图 2 L(p,0) 和 S (p) 损失值对比曲线 Fig. 2 Loss comparison curve of L(p,0) and S (p) L L p 可见,模型对样本的预测输出越接近真实样 本标签 0,损失值 越小;预测越接近 1, 越大。 但在处理简单负样本时,由于负样本的采样数量 远高于正样本,尽管采样的负样本经过难分样本 挖掘,简单负样本占比仍较大,依然存在类不均 衡问题。而图 2 中虚线在样本置信度 ∈[0,0.5] 的损失值未能被有效抑制,使得大量的较简单负 样本损失值累加,仍可以掩盖正样本和难分负样 本损失值的变化,从而影响模型训练。 p 为进一步解决上述类不均衡问题,本文结合 文献 [18] 的思想,改进了收缩损失函数,在式 (1) 的基础上增加了收缩抑制项(见式 (3)),通过抑制 损失值曲线在 ∈[0,0.5] 内的梯度,降低简单负 样本的损失值,以突出难分样本和正样本损失值 的变化对模型训练的贡献率。 S (p) = p 4 1+exp(a(c− p 2 )) (3) 式中:exp(·) 能随着模型输出的样本置信度 p 的变 化非线性改变其损失值 S(p);a、c 为超参数,分别 控制损失收缩速度 (曲线梯度变化率) 和损失值 调节敏感范围 (S(p) 值趋于 0 时的 p 区间)。 p p 式 (3) 损失值变化曲线如图 2 中实线所示,当 0 Spool 满 添加 St 到 Spool 中, 记录最 低置信度样本索引 k(k>1) t+=1 删 Sk N Y Y Y t%T==0 t<视频总帧数 N N Y N 图 3 高置信度保留样本池工作流程 Fig. 3 Workflow chart of the high-confidence retention sample pool 第 3 期 邵江南,等:一种基于深度学习目标检测的长时目标跟踪算法 ·435·
·436· 智能系统学报 第16卷 模型应用了短时更新和长时更新2种更新策 测数据集,每间隔T=10帧时更新模型参数;首帧 略,前者当检测到跟踪失败(置信分数低于0)时 模型更新训练迭代50次,学习率为0.0005:非首 利用S在线更新模型,后者每隔T帧对模型进 帧更新迭代15次,学习率为0.001;式(3)中的a 行更新以提高跟踪精度。2种更新策略的结合, c分别设置为10、0.2,式(4)中6取1.3。为保证 以及高置信度样本池的应用,使LT-MDNet能够 实验的公平性,实验中所对比的MDNt模型为作 保持对视频帧环境变化的适应能力,并延长首帧 者开源的PyTorch版,LT-MDNet模型参数与MD 目标特征的时域有效范围,从而可以很好地应对 Net保持一致;其余对比跟踪器的实验结果均来 长时跟踪下的遮挡、出视野等复杂因素。 自于作者论文所给出的实验结果或使用作者提供 2.3算法流程 的开源代码和参数实际运行所得。 LT-MDNet在前帧目标位置周围高斯采样出 3.2评价指标 多个候选正样本,通过预训练和在线更新后的网 本文采用跟踪成功率(tracking success rate)和 络模型输出这些候选样本的目标置信度(·),取 跟踪精度(tracking precision)来比较各跟踪器的 置信度最高的5个正样本的坐标和长宽数据的平 性能。 均值作为当前帧跟踪结果,该结果的置信度为这 1)跟踪成功率。通过计算跟踪器对目标位 5个正样本置信度的均值。算法的主要步骤: 置边界的预测框(R)和目标真实边界框(R)的重 1)输入视频帧序列和首帧的目标位置,随机 叠率(IoU)来计算: 初始化fc6层的权值参数w6; IoU=IR,nR,l (5) 2)采样正样本S1和负样本Si,初始化Sp, R,UR 训练边框回归器BBR; IoU值越大表示跟踪器的成功率越高,当 3)使用S和S迭代训练模型,通过式(4)和 IoU>0.5时可认为该帧目标被成功跟踪,通过计算 SGD更新fc4、fc5、fc6层的权值w4、w、w%; 成功率图中的曲线下面积(area under curve, 4)对于第t帧图像N,在N-1目标位置周围 AUC)得到模型的跟踪成功率。 高斯采样候选样本集合X,; 2)跟踪精度21。通过计算R,的中心位置 5)取X,中5个最高置信度候选位置的均值 (xy,)与R。的中心位置(x)间的欧氏距离来 x,通过BBR调整后的x值作为第t帧目标估计 衡量: 位置; ε=V(x-xa)2+0,-ya)月 (6) 6)若(x)>0,则按照流程图3所示维护高置 两者的欧氏距离ε越小表示跟踪精度越高。 信度保留样本池So: 3.3OTB2015数据集的测试 7)若f(x)≤0或t%10=0,则使用S更新 OTB2015包含100个跟踪视频帧序列,含目 模型; 标遮挡、尺度变化、出视野等11种常见的复杂跟 8)重复步骤4人7)直至目标跟踪结束。 踪因素,可有效评估跟踪器的综合性能。 3实验结果与分析 图4(a)、(b)为LT-MDNet和对比跟踪器在 OTB2015数据集上对所有视频帧序列的跟踪结 本文LT-MDNet算法基于PyTorch1.2.0编程 果的综合统计平均曲线图。可以看出,LT-MD- 语言和CUDA10.0深度学习架构实现,实验平台 Net的综合跟踪精度为91.6%,成功率为68.2%, 操作系统为Windows10,处理器为AMDR5-2600 分别较对比实验中的最优算法提高0.8%和 3.4GHz,GPU为NVIDIA RTX2070,内存16GB。 1.1%。 为验证模型的有效性、泛化能力和长时跟踪 图4(c)、(d)、(e)、(f)分别为各跟踪器在 性能,分别在OTB2015和UAV20L数据集上与 OTB2015上关于目标遮挡、目标出视野的平均跟 MDNet!9、DSLTUS、SRDCFI6I、TADTU9I 踪精度和跟踪成功率,在这些复杂因素下,LT SiamRPN2oI、CIResNet22-FC2l、MUSTer22和 MDNet跟踪效果均为最优,尤其是对比MDNet, BACF等主流跟踪模型进行对比实验,将统计的 在遮挡因素下均提高了1.8%,在目标出视野因素 各数据集上所有图像序列跟踪结果平均值作为最 下则分别提高了2.2%和1.2%。可见,除了综合 终结果。 性能的领先,LT-MDNet在应对目标遮挡、出视 3.1实验设置 野等复杂因素同样保持了良好的跟踪能力和稳 模型离线训练于IMAGENET-VID21目标检 定性
S pool T 模型应用了短时更新和长时更新 2 种更新策 略,前者当检测到跟踪失败 (置信分数低于 0) 时 利用 在线更新模型,后者每隔 帧对模型进 行更新以提高跟踪精度。2 种更新策略的结合, 以及高置信度样本池的应用,使 LT-MDNet 能够 保持对视频帧环境变化的适应能力,并延长首帧 目标特征的时域有效范围,从而可以很好地应对 长时跟踪下的遮挡、出视野等复杂因素。 2.3 算法流程 f + (·) LT-MDNet 在前帧目标位置周围高斯采样出 多个候选正样本,通过预训练和在线更新后的网 络模型输出这些候选样本的目标置信度 ,取 置信度最高的 5 个正样本的坐标和长宽数据的平 均值作为当前帧跟踪结果,该结果的置信度为这 5 个正样本置信度的均值。算法的主要步骤: w6 1) 输入视频帧序列和首帧的目标位置,随机 初始化 fc6 层的权值参数 ; S + 1 S − 1 2) 采样正样本 和负样本 ,初始化 S pool, 训练边框回归器 BBR; S + 1 S − 1 w4 w5 w6 3) 使用 和 迭代训练模型,通过式 (4) 和 SGD 更新 fc4、fc5、fc6 层的权值 、 、 ; t Nt Nt−1 Xt 4) 对于第 帧图像 ,在 目标位置周围 高斯采样候选样本集合 ; Xt x ∗ t x ∗ t t 5) 取 中 5 个最高置信度候选位置的均值 ,通过 BBR 调整后的 值作为第 帧目标估计 位置; f + (x ∗ t ) S pool 6) 若 >0,则按照流程图 3 所示维护高置 信度保留样本池 ; f + (x ∗ t 7) 若 ) ≤0 或 t%10 = 0 ,则使用 S pool 更新 模型; 8) 重复步骤 4)~7) 直至目标跟踪结束。 3 实验结果与分析 本文 LT-MDNet 算法基于 PyTorch 1.2.0 编程 语言和 CUDA 10.0 深度学习架构实现,实验平台 操作系统为 Windows 10,处理器为 AMD R5-2 600 3.4 GHz,GPU 为 NVIDIA RTX2070,内存 16 GB。 为验证模型的有效性、泛化能力和长时跟踪 性能,分别在 OTB2015 和 UAV20L 数据集上与 MDNet [ 9 ] 、 DSLT[ 1 8 ] 、 SRDCF [ 6 ] 、 TADT[ 1 9 ] 、 SiamRPN[20] 、CIResNet22-FC[21] 、MUSTer[22] 和 BACF[7] 等主流跟踪模型进行对比实验,将统计的 各数据集上所有图像序列跟踪结果平均值作为最 终结果。 3.1 实验设置 模型离线训练于 IMAGENET-VID[23] 目标检 T a c δ 测数据集, 每间隔 =10 帧时更新模型参数;首帧 模型更新训练迭代 50 次,学习率为 0.000 5;非首 帧更新迭代 15 次,学习率为 0.001;式 (3) 中的 、 分别设置为 10、0.2,式(4)中 取 1.3。为保证 实验的公平性,实验中所对比的 MDNet 模型为作 者开源的 PyTorch 版,LT-MDNet 模型参数与 MDNet 保持一致;其余对比跟踪器的实验结果均来 自于作者论文所给出的实验结果或使用作者提供 的开源代码和参数实际运行所得。 3.2 评价指标 本文采用跟踪成功率 (tracking success rate) 和 跟踪精度 (tracking precision) 来比较各跟踪器的 性能。 Rt Ra 1) 跟踪成功率[24]。通过计算跟踪器对目标位 置边界的预测框 ( ) 和目标真实边界框 ( ) 的重 叠率 (IoU) 来计算: IoU = |Rt ∩Ra| |Rt ∪Ra| (5) IoU 值越大表示跟踪器的成功率越高,当 IoU>0.5 时可认为该帧目标被成功跟踪,通过计算 成功率图中的曲线下面积 (area under curve, AUC) 得到模型的跟踪成功率。 Rt xt yt Ra xa ya 2) 跟踪精度[ 2 4 ]。通过计算 的中心位置 ( , ) 与 的中心位置 ( , ) 间的欧氏距离来 衡量: ε = √ (xt − xa) 2 +(yt −ya) 2 (6) 两者的欧氏距离 ε 越小表示跟踪精度越高。 3.3 OTB2015 数据集的测试 OTB2015 包含 100 个跟踪视频帧序列,含目 标遮挡、尺度变化、出视野等 11 种常见的复杂跟 踪因素,可有效评估跟踪器的综合性能。 图 4(a)、(b) 为 LT-MDNet 和对比跟踪器在 OTB2015 数据集上对所有视频帧序列的跟踪结 果的综合统计平均曲线图。可以看出,LT-MDNet 的综合跟踪精度为 91.6%,成功率为 68.2%, 分别较对比实验中的最优算法提 高 0.8 % 和 1.1%。 图 4(c)、 (d)、 (e)、 ( f) 分别为各跟踪器 在 OTB2015 上关于目标遮挡、目标出视野的平均跟 踪精度和跟踪成功率,在这些复杂因素下,LTMDNet 跟踪效果均为最优,尤其是对比 MDNet, 在遮挡因素下均提高了 1.8%,在目标出视野因素 下则分别提高了 2.2% 和 1.2%。可见,除了综合 性能的领先,LT-MDNet 在应对目标遮挡、出视 野等复杂因素同样保持了良好的跟踪能力和稳 定性。 ·436· 智 能 系 统 学 报 第 16 卷
第3期 邵江南,等:一种基于深度学习目标检测的长时目标跟踪算法 ·437· 1.0 1.0 1.0 0.9 0.9 0.9 0.8 0.8 0.8 0.7 0.6 0.6 0.6 0.5 [0.916]LT-MDNet 0.5 [0.682]LT-MDNet 0.5 0.4 0.90 0.7]DSLTDNe 0.4 06581 0.4 10.864 0.3 22-FC 0.3 0CIReNe22-FC 0.3 0.80 CIResNet22-FC 0.2 0.2 0.2 87 01 0.774]MUSTe 0.1 8 0.1 0.732]SRDCF 0 5 101520253035404550 0 0.10.20.30.40.50.60.70.80.91.0 5101520253035404550 中心误差阈值 重叠率阀值 中心误差國值 (a)综合精度 (b)综合成功率 (c)目标被遮挡精度 1.0 1.0 1.0 0.9 0.9 0.9 0.8 0.8 0.8 0.7 0.7 0.7 0.6 TM 0.5 TO8501LT-MDNer 08281MNe 04 0.641 TADT 816 D 0.4 0.3 e22-F0 0.3 Net22-FC 0.3 02 SiamRP 0.2 0.2 0.550]SiamRPN 0.1 9 0.552]MUSTe 0.1 0.1 [0.590]MUSTer 0.461]SRDCF 0 0.10.2030.40.50.60.70.80.91.0 101520253035404550 0 0.1020.30.40.50.60.70.80.91.0 重叠率圆值 中心误差阅值 重叠率國值 (d)目标被遮挡成功率 (e)目标出视野精度 ()目标出视野成功率 图4LT-MDNet和对比算法在OTB2015上的跟踪结果评估曲线 Fig.4 Evaluation plots of the tracking results on OTB2015 of contrast algorithms and LT-MDNet 3.4UAV20L长时数据集的测试 析,进一步验证LT-MDNet在长时跟踪下的跟踪 UAV20L包含20个无人机拍摄的视频帧序 性能。 列,这些序列时间跨度大,目标视野变化剧烈,目 3.4.1定量分析 标形变也更大,有利于评估跟踪器在长时跟踪环 图5(a)、(b)分别为各跟踪器在UAV20L的平 境下的有效性和鲁棒性。本文基于UAV20L数据 均跟踪精度和成功率曲线对比图,可以看出LT 集与MDNet、TADT、SiamRPN、CIResNet22-FC、 MDNet在长时跟踪数据集上性能大幅领先,较最 BACF、MUSTer和SRDCF等主流长短时跟踪算 优对比模型的精度和成功率分别提升3.7%、 法进行了对比实验,并通过定量分析和定性分 2.9%,较MDNet则分别提升7.3%、4.4%。 0.8 0.8 0.7 0.7 0.6 0.6 0.5 0.5 0.4 [0.654]LT-MDNet =,0.617刀SiamRPN 04 0.3 =■0.612]TADT 0.3 ET-MDN 0.2 [0.603]CIResNet22-FC =0.8 0.2 22.Fd 0. 0 0.274]BACF 5 101520253035404550 0.10.20.30.40.50.60.70.80.91.0 中心误差阀值 重叠率國值 (a)综合精度 (b)综合成功率 图5LT-MDNet和对比算法在UAV20L上跟踪结果评估曲线 Fig.5 Evaluation plots of the tracking results on UA V20L of contrast algorithms and LT-MDNet 针对UAV20L所包含的12个不同的视频属 辨率(LR)、部分遮挡(PO)、全部遮挡(FO)和目标 性,即相机运动(CM)、快速运动(FM)、纵横比变 出视野(OV),表1定量展示了LT-MDNet和各对 化(ARC)、相似目标干扰(SO)、光照变化(IV)、背景 比跟踪器在应对这些复杂跟踪因素下的平均AUC 杂乱(BC)、视角变化(VC)、尺度变化(SV)、低分 数据。从表1中可以看出,LT-MDNet在l2个视频
1.0 0.9 0.8 0.7 0.6 0.5 精度 0.4 0.3 0.2 0.1 0 5 10 15 20 25 30 中心误差阈值 35 40 45 50 5 10 15 20 25 30 中心误差阈值 35 40 45 50 5 10 15 20 25 30 中心误差阈值 35 40 45 50 1.0 0.9 0.8 0.7 0.6 0.5 成功率 0.4 0.3 0.2 0.1 0 0.1 0.2 0.3 0.4 重叠率阈值 0.5 0.6 0.7 0.8 0.9 1.0 0.1 0.2 0.3 0.4 重叠率阈值 0.5 0.6 0.7 0.8 0.9 1.0 0.1 0.2 0.3 0.4 重叠率阈值 0.5 0.6 0.7 0.8 0.9 1.0 1.0 0.9 0.8 0.7 0.6 0.5 成功率 0.4 0.3 0.2 0.1 0 1.0 0.9 0.8 0.7 0.6 0.5 成功率 0.4 0.3 0.2 0.1 0 1.0 0.9 0.8 0.7 0.6 0.5 精度 0.4 0.3 0.2 0.1 0 1.0 0.9 0.8 0.7 0.6 0.5 精度 0.4 0.3 0.2 0.1 0 [0.916] LT-MDNet [0.908] MDNet [0.907] DSLT [0.866] TADT [0.851] SiamRPN [0.829] CIResNet22-FC [0.816] BACF [0.788] SRDCF [0.774] MUSTer [0.682] LT-MDNet [0.671] MDNet [0.660] TADT [0.658] DSLT [0.637] SiamRPN [0.633] CIResNet22-FC [0.615] BACF [0.598] SRDCF [0.575] MUSTer [0.882] LT-MDNet [0.876] DSLT [0.864] MDNet [0.842] TADT [0.800] CIResNet22-FC [0.785] SiamRPN [0.735] BACF [0.734] MUSTer [0.732] SRDCF [0.653] LT-MDNet [0.641] DSLT [0.641] TADT [0.635] MDNet [0.606] CIResNet22-FC [0.592] SiamRPN [0.566] BACF [0.557] SRDCF [0.552] MUSTer [0.850] LT-MDNet [0.828] MDNet [0.816] TADT [0.798] DSLT [0.780] CIResNet22-FC [0.748] BACF [0.728] SiamRPN [0.602] SRDCF [0.590] MUSTer [0.635] LT-MDNet [0.625] TADT [0.623] MDNet [0.595] DSLT [0.595] CIResNet22-FC [0.550] SiamRPN [0.547] BACF [0.462] MUSTer [0.461] SRDCF (a) 综合精度 (b) 综合成功率 (c) 目标被遮挡精度 (d) 目标被遮挡成功率 (e) 目标出视野精度 (f) 目标出视野成功率 图 4 LT-MDNet 和对比算法在 OTB2015 上的跟踪结果评估曲线 Fig. 4 Evaluation plots of the tracking results on OTB2015 of contrast algorithms and LT-MDNet 3.4 UAV20L 长时数据集的测试 UAV20L 包含 20 个无人机拍摄的视频帧序 列,这些序列时间跨度大,目标视野变化剧烈,目 标形变也更大,有利于评估跟踪器在长时跟踪环 境下的有效性和鲁棒性。本文基于 UAV20L 数据 集与 MDNet、TADT、SiamRPN、CIResNet22-FC、 BACF、MUSTer 和 SRDCF 等主流长短时跟踪算 法进行了对比实验,并通过定量分析和定性分 析,进一步验证 LT-MDNet 在长时跟踪下的跟踪 性能。 3.4.1 定量分析 图 5(a)、(b) 分别为各跟踪器在 UAV20L 的平 均跟踪精度和成功率曲线对比图,可以看出 LTMDNet 在长时跟踪数据集上性能大幅领先,较最 优对比模型的精度和成功率分别提 升 3.7%、 2.9%,较 MDNet 则分别提升 7.3%、4.4%。 0.8 0.7 0.6 0.5 精度0.4 0.3 0.2 0.1 0 5 10 15 20 25 中心误差阈值 (a) 综合精度 30 35 40 45 50 [0.654] LT-MDNet [0.617] SiamRPN [0.612] TADT [0.603] CIResNet22-FC [0.581] MDNet [0.514] MUSTer [0.507] SRDCF [0.403] BACF 成功率 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 (b) 综合成功率 重叠率阈值 [0.483] LT-MDNet [0.454] SiamRPN [0.453] TADT [0.439] MDNet [0.431] CIResNet22-FC [0.343] SRDCF [0.329] MUSTer [0.274] BACF 图 5 LT-MDNet 和对比算法在 UAV20L 上跟踪结果评估曲线 Fig. 5 Evaluation plots of the tracking results on UAV20L of contrast algorithms and LT-MDNet 针对 UAV20L 所包含的 12 个不同的视频属 性,即相机运动 (CM)、快速运动 (FM)、纵横比变 化 (ARC)、相似目标干扰 (SO)、光照变化 (IV)、背景 杂乱 (BC)、视角变化 (VC)、尺度变化 (SV)、低分 辨率 (LR)、部分遮挡 (PO)、全部遮挡 (FO) 和目标 出视野 (OV),表 1 定量展示了 LT-MDNet 和各对 比跟踪器在应对这些复杂跟踪因素下的平均 AUC 数据。从表 1 中可以看出,LT-MDNet 在 12 个视频 第 3 期 邵江南,等:一种基于深度学习目标检测的长时目标跟踪算法 ·437·
·438· 智能系统学报 第16卷 属性中的10个均保持了最优或次优性能,除在 景负样本对参数的影响,一定程度上弱化了模型 CM、ARC下稍稍落后于MDNet外,其余复杂跟踪 在应对未包含在训练集中的复杂因素时的泛化能 环境下均优于MDNet。而究其原因,主要是因为 力;而在应对已知变化因素时,模型则可以通过 训练集中缺少CM和ARC复杂变化因素,且在线 有效的离线学习和鲁棒的在线更新机制,迅速适 训练时为使模型快速收敛而抑制了大部分简单背 应跟踪视频域内的目标变化并准确定位目标位置。 表1UAV20L数据集上对比算法与本文LT-MDNet在12个视频属性上AUC的定量对比结果 Table 1 Quantitative comparison results of the AUC of contrast algorithms and the prossed LT-MDNet algorithm on the 12 video attributes in the UAV20L database 视频属性 视频总数 SRDCF MUSTer BACF TADT SiamRPN CIResNet22-FC MDNet LT-MDNet IV 19 0.332 0.314 0.251 0.439 0.443 0.417 0.425 0.470 CM 12 0.329 0.309 0.293 0.411 0.479 0.385 0.469 0.448 OV 7 0.170 0.200 0.121 0.277 0.192 0.223 0.201 0.258 FM 0.320 0.305 0.276 0.433 0.423 0.399 0.422 0.460 ARO 9 0.303 0.318 0.174 0.406 0.450 0.368 0.444 0.436 so 0.295 0. 0.420 0.343 0.425 0.371 0.469 BC 0.156 0.29 0.104 0.249 0.148 0.275 VC 19 0.3 0.27 0.436 0.436 0.414 0.422 0.468 SV 16 0.270 0.191 0.390 0.388 0.361 0.363 0.417 LR 14 0.397 0.342 0.335 0.478 0.532 0.488 0.479 0.524 PO 12 0.228 0.278 0.205 0.341 0.335 0.273 0.327 0.351 FO 5 0.197 0.206 0.174 0.355 0.422 0.303 0.324 0.367 UAV20L 20 0.343 0.329 0.274 0.453 0.454 0.431 0.439 0.483 3.4.2定性分析 素,并选取了在UAV20L上综合性能最好的5个 为了更为直观地对比跟踪器在应对长时跟踪 对比算法(SiamRPN、TADT、MDNet、.CIResNet22- 复杂因素下的实际跟踪性能,本文选取了 FC和SRDCF)与LT-MDNet进行定性实验对比。 UAV20L中较为典型的4组图像序列,即uav1、 图6着重对跟踪器在目标快速移动、目标遮挡、 person17、carl、bikel,.包含全部l2个复杂跟踪因 目标出视野和目标形变下的实际表现做了展示。 -LT-MDNet- -CIResNet22-FC -MDNet -TADT SRDCF -SiamRPN 001088 001529 09199 002130 (a)uavl LT-MDNet CIResNet22-FC -MDNet TADT SRDCF -SiamRPN 001415 5#002279 7002114 (b)person17
属性中的 10 个均保持了最优或次优性能,除在 CM、ARC 下稍稍落后于 MDNet 外,其余复杂跟踪 环境下均优于 MDNet。而究其原因,主要是因为 训练集中缺少 CM 和 ARC 复杂变化因素,且在线 训练时为使模型快速收敛而抑制了大部分简单背 景负样本对参数的影响,一定程度上弱化了模型 在应对未包含在训练集中的复杂因素时的泛化能 力;而在应对已知变化因素时,模型则可以通过 有效的离线学习和鲁棒的在线更新机制,迅速适 应跟踪视频域内的目标变化并准确定位目标位置。 表 1 UAV20L 数据集上对比算法与本文 LT-MDNet 在 12 个视频属性上 AUC 的定量对比结果 Table 1 Quantitative comparison results of the AUC of contrast algorithms and the prossed LT-MDNet algorithm on the 12 video attributes in the UAV20L database 视频属性 视频总数 SRDCF MUSTer BACF TADT SiamRPN CIResNet22-FC MDNet LT-MDNet IV 19 0.332 0.314 0.251 0.439 0.443 0.417 0.425 0.470 CM 12 0.329 0.309 0.293 0.411 0.479 0.385 0.469 0.448 OV 7 0.170 0.200 0.121 0.277 0.192 0.223 0.201 0.258 FM 18 0.320 0.305 0.276 0.433 0.423 0.399 0.422 0.460 ARC 9 0.303 0.318 0.174 0.406 0.450 0.368 0.444 0.436 SO 7 0.295 0.242 0.154 0.420 0.343 0.425 0.371 0.469 BC 4 0.156 0.230 0.105 0.297 0.104 0.249 0.148 0.275 VC 19 0.327 0.307 0.271 0.436 0.436 0.414 0.422 0.468 SV 16 0.270 0.275 0.191 0.390 0.388 0.361 0.363 0.417 LR 14 0.397 0.342 0.335 0.478 0.532 0.488 0.479 0.524 PO 12 0.228 0.278 0.205 0.341 0.335 0.273 0.327 0.351 FO 5 0.197 0.206 0.174 0.355 0.422 0.303 0.324 0.367 UAV20L 20 0.343 0.329 0.274 0.453 0.454 0.431 0.439 0.483 3.4.2 定性分析 为了更为直观地对比跟踪器在应对长时跟踪 复杂因素下的实际跟踪性能,本文选取 了 UAV20L 中较为典型的 4 组图像序列,即 uav1、 person17、car1、bike1,包含全部 12 个复杂跟踪因 素,并选取了在 UAV20L 上综合性能最好的 5 个 对比算法 (SiamRPN、TADT、MDNet、CIResNet22- FC 和 SRDCF) 与 LT-MDNet 进行定性实验对比。 图 6 着重对跟踪器在目标快速移动、目标遮挡、 目标出视野和目标形变下的实际表现做了展示。 LT-MDNet CIResNet22-FC MDNet TADT SRDCF SiamRPN LT-MDNet CIResNet22-FC MDNet TADT SRDCF SiamRPN #001088 #001529 #001999 #002130 #000594 #001415 #002279 #002114 (a) uav1 (b) person17 ·438· 智 能 系 统 学 报 第 16 卷
第3期 邵江南,等:一种基于深度学习目标检测的长时目标跟踪算法 ·439· LT-MDNet CIResNet22-FC -MDNet- TADTSRDCF -SiamRPN 0561 001927 029 (c)carl LT-MDNet CIResNet22-FC -MDNet -TADT -SRDCF SiamRPN 001531 (d)bikel 图6LT-MDNet与对比算法在uavl、person17、carl和bike1下的定性对比结果 Fig.6 Qualitative comparison results of contrast algorithms and the propossed LT-MDNet algorithm on uav1,person17, carl and bikel in the UAV20L database 图6(a)为对小型飞机这种快速移动的小目标 棒跟踪,并且较对比算法能更精确地捕捉日标的 进行跟踪,在第1088帧,飞机平稳飞行,此时只 轮廓信息。 有LT-MDNet和MDNet可以锁定目标位置;而在 3.5消融实验 第1529帧和之后的帧序列里,由于飞机航向、目 为进一步验证LT-MDNet改进的有效性,本 标背景和航拍角度均剧烈变化,除LT-MDNet能 文在OTB2015上对模型进行了消融实验,分别测 由于模型有效更新操作精确锁定目标位置外,其 试在MDNt模型基础上所做出的2个主要改进: 余跟踪器均跟踪失败。 收缩损失(SK)和高置信度保留样本池(HU),实 图6(b)中目标行人在第594、1415帧被树叶 验环境与模型主要超参数均一致。MDNet+HU、 遮挡,此时LT-MDNet较其他对比跟踪器更能精 MDNet+SK和LT-MDNet在线跟踪时速度约为3fs, 确捕捉目标轮廓信息,并在随后持续稳定跟踪; 与MDNet持平,跟踪成功率(Succ)与跟踪精度 SRDCF、MDNet和SiamRPN均在目标重现后失 (Prec)对比数据如表2所示。实验结果表明,高置 去跟踪能力。 信度保留样本池和收缩损失函数均能在不影响跟 图6(c)中目标汽车在第1505帧被遮挡、在 踪速度的情况下有效提高跟踪器的定位精度和成 第1927帧出视野,从图中可以看出,除LT-MDNt 功率,且两者结合能够协同提高跟踪器性能。 和MDNet外其余跟踪器均在目标被遮挡和出视 表2LT-MDNet模型在OTB2015数据集上的消融实验 野时发生了跟踪漂移。 结果 图6(d)中目标小男孩在第2375帧掉转车头, Table 2 Ablation study results of the LT-MDNet al- 目标外观由男孩正面变成背影,而随后航拍镜头 gorithm in the OTB2015 database 加速向前,目标迅速被甩在后面,其在图像帧中 模型 Prec/% Succ/% 轮廓尺度也剧烈变化。此时,LT-MDNet仍可准 MDNet 90.8 67.1 确定位目标位置,并保持对目标横纵比信息的有 MDNet+HU 91.0 67.2 效估计,而其余跟踪器均难以检测目标的准确轮 MDNet+SK 91.4 67.6 廓,TADT则彻底跟踪失败。 LT-MDNet 91.6 68.2 从上述分析可见,LT-MDNet能够在长时跟 踪下很好地应对这些复杂因素,在目标遮挡、出 4 结束语 视野重现时仍能迅速定位目标;对快速位移、剧 烈形变下的目标,在经过模型更新后可以维持鲁 针对长时跟踪时的目标遮挡和出视野问题
图 6(a) 为对小型飞机这种快速移动的小目标 进行跟踪,在第 1 088 帧,飞机平稳飞行,此时只 有 LT-MDNet 和 MDNet 可以锁定目标位置;而在 第 1 529 帧和之后的帧序列里,由于飞机航向、目 标背景和航拍角度均剧烈变化,除 LT-MDNet 能 由于模型有效更新操作精确锁定目标位置外,其 余跟踪器均跟踪失败。 图 6(b) 中目标行人在第 594、1 415 帧被树叶 遮挡,此时 LT-MDNet 较其他对比跟踪器更能精 确捕捉目标轮廓信息,并在随后持续稳定跟踪; SRDCF、MDNet 和 SiamRPN 均在目标重现后失 去跟踪能力。 图 6(c) 中目标汽车在第 1 505 帧被遮挡、在 第 1 927 帧出视野,从图中可以看出,除 LT-MDNet 和 MDNet 外其余跟踪器均在目标被遮挡和出视 野时发生了跟踪漂移。 图 6(d) 中目标小男孩在第 2 375 帧掉转车头, 目标外观由男孩正面变成背影,而随后航拍镜头 加速向前,目标迅速被甩在后面,其在图像帧中 轮廓尺度也剧烈变化。此时,LT-MDNet 仍可准 确定位目标位置,并保持对目标横纵比信息的有 效估计,而其余跟踪器均难以检测目标的准确轮 廓,TADT 则彻底跟踪失败。 从上述分析可见,LT-MDNet 能够在长时跟 踪下很好地应对这些复杂因素,在目标遮挡、出 视野重现时仍能迅速定位目标;对快速位移、剧 烈形变下的目标,在经过模型更新后可以维持鲁 棒跟踪,并且较对比算法能更精确地捕捉目标的 轮廓信息。 3.5 消融实验 为进一步验证 LT-MDNet 改进的有效性,本 文在 OTB2015 上对模型进行了消融实验,分别测 试在 MDNet 模型基础上所做出的 2 个主要改进: 收缩损失 (SK) 和高置信度保留样本池 (HU),实 验环境与模型主要超参数均一致。MDNet+HU、 MDNet+SK 和 LT-MDNet 在线跟踪时速度约为 3 f/s, 与 MDNet 持平,跟踪成功率 (Succ) 与跟踪精度 (Prec) 对比数据如表 2 所示。实验结果表明,高置 信度保留样本池和收缩损失函数均能在不影响跟 踪速度的情况下有效提高跟踪器的定位精度和成 功率,且两者结合能够协同提高跟踪器性能。 表 2 LT-MDNet 模型在 OTB2015 数据集上的消融实验 结果 Table 2 Ablation study results of the LT-MDNet algorithm in the OTB2015 database 模型 Prec/% Succ/% MDNet 90.8 67.1 MDNet+HU 91.0 67.2 MDNet+SK 91.4 67.6 LT-MDNet 91.6 68.2 4 结束语 针对长时跟踪时的目标遮挡和出视野问题, #001505 #001565 #001927 #002019 #001531 #002375 #002888 #003027 (c) car1 (d) bike1 LT-MDNet CIResNet22-FC MDNet TADT SRDCF SiamRPN LT-MDNet CIResNet22-FC MDNet TADT SRDCF SiamRPN 图 6 LT-MDNet 与对比算法在 uav1、person17、car1 和 bike1 下的定性对比结果 Fig. 6 Qualitative comparison results of contrast algorithms and the propossed LT-MDNet algorithm on uav1, person17, car1 and bike1 in the UAV20L database 第 3 期 邵江南,等:一种基于深度学习目标检测的长时目标跟踪算法 ·439·
·440· 智能系统学报 第16卷 本文提出了一种能够有效在线更新的深度跟踪算 ference on Computer Vision.Venice,Italy,2017: 法LT-MDNet。在雅分样本挖掘的基础上,引入 1135-1143 改进的收缩损失函数,进一步抑制简单负样本的 [8]宁欣,李卫军,田伟娟,等.一种自适应模板更新的判别 损失值,以缓和类不均衡问题:在模型在线追踪 式KCF跟踪方法[J].智能系统学报,2019,14(1): 运动目标时,设计了一种全新的高置信度保留样 121-126. 本池,对在线跟踪时的高置信度正样本进行保 NING Xin,LI Weijun,TIAN Weijuan,et al.Adaptive tem- 留,并在池满时替换最低置信度的保留样本,首 plate update of discriminant KCF for visual tracking[J]. 帧样本则长期保存在池中;当模型检测到跟踪失 CAAI transactions on intelligent systems,2019,14(1): 121-126. 败以及跟踪达到特定帧间隔时,利用保留样本池 [9]NAM H.HAN B.Learning multi-domain convolutional 进行在线训练更新模型,以维持跟踪器的长期鲁 neural networks for visual tracking[C]//Proceedings of 棒性。在OTB2015标准数据集和UAV20L长时 2016 IEEE Conference on Computer Vision and Pattern 跟踪数据集上与主流跟踪算法对比,LT-MD- Recognition.Las Vegas,USA,2016:4293-4302. Net在跟踪精度和成功率上均保持了优越的性 [10]BERTINETTO L,VALMADRE J,HENRIQUES J F,et 能,并能很好地应对目标遮挡和出视野问题。接 al.Fully-convolutional Siamese networks for object track- 下来的工作将探索在不同跟踪环境下自适应收缩 ing[C]//Proceedings of the 14th European Conference on 比6和其他收缩损失超参数的值来进一步提高模 Computer Vision.Amsterdam,The Netherlands,2016: 型的泛化能力。 850-865 参考文献 [11]WANG Qiang,TENG Zhu,XING Junliang,et al.Learn- ing attentions:residual attentional Siamese network for [1]ARULAMPALAM M S,MASKELL S,GORDON N,et high performance online visual tracking[C]//Proceedings al.A tutorial on particle filters for online nonlinear/non- of 2018 IEEE/CVF Conference on Computer Vision and Gaussian Bayesian tracking[J].IEEE transactions on sig- Pattern Recognition.Salt Lake City,USA,2018: nal processing,.2002,50(2):174-188. 4854-4863 [2]COMANICIU D,MEER P.Mean shift:a robust approach [12]SUNG KK.POGGIO T.Example-based learning for toward feature space analysis[J].IEEE transactions on pat- view-based human face detection[J].IEEE transactions on tern analysis and machine intelligence,2002,24(5): pattern analysis and machine intelligence,1998,20(1): 603-619. 39-51. [3]BOLME D S,BEVERIDGE J R,DRAPER B A,et al. [13]LIN T Y,GOYAL P,GIRSHICK R,et al.Focal loss for Visual object tracking using adaptive correlation dense object detection[C]//Proceedings of 2017 IEEE In- filters[C]//Proceedings of 2010 IEEE Computer Society ternational Conference on Computer Vision.Venice. Conference on Computer Vision and Pattern Recognition. 1taly,2017:2980-2988 San Francisco,USA,2010:2544-2550. [14]VALMADRE J,BERTINETTO L,HENRIQUES J,et al. [4]HENRIQUES J F,CASEIRO R,MARTINS P.et al.High- End-to-end representation learning for correlation filter speed tracking with Kernelized correlation filters[J].IEEE based tracking[C]//Proceedings of 2017 IEEE Confer- transactions on pattern analysis and machine intelligence, ence on Computer Vision and Pattern Recognition.Hon- 2015,37(3):583-596 olulu.USA.2017:2805-2813. [5]MUELLER M.SMITH N.GHANEM B.Context-aware [15]WU Yi,LIM J,YANG M H.Object tracking correlation filter tracking[C]//Proceedings of 2017 IEEE benchmark[].IEEE transactions on pattern analysis and Conference on Computer Vision and Pattern Recognition. machine intelligence,2015,37(9):1834-1848. Honolulu,USA.2017:1396-1404. [16]MUELLER M,SMITH N,GHANEM B.A benchmark [6]DANELLJAN M.HAGER G.SHAHBAZ KHAN F.et al. and simulator for uav tracking[C]//Proceedings of the Learning spatially regularized correlation filters for visual 14th European Conference on Computer Vision.Amster- tracking[C]//Proceedings of 2015 IEEE International Con- dam,The Netherlands,2016:445-461. ference on Computer Vision.Santiago,Chile,2015: [17]CHATFIELD K,SIMONYAN K,VEDALDI A,et al 4310-4318. Return of the devil in the details:Delving deep into con- [7]KIANI GALOOGAHI H.FAGG A,LUCEY S.Learning volutional nets[EB/OL].(2014-11-05)[2019-10- background-aware correlation filters for visual 01]https://arxiv.org/abs/1405.3531. tracking[C]//Proceedings of 2017 IEEE International Con- [18]LU Xiankai,MA Chao,NI Bingbing,et al.Deep regres-
δ 本文提出了一种能够有效在线更新的深度跟踪算 法 LT-MDNet。在难分样本挖掘的基础上,引入 改进的收缩损失函数,进一步抑制简单负样本的 损失值,以缓和类不均衡问题;在模型在线追踪 运动目标时,设计了一种全新的高置信度保留样 本池,对在线跟踪时的高置信度正样本进行保 留,并在池满时替换最低置信度的保留样本,首 帧样本则长期保存在池中;当模型检测到跟踪失 败以及跟踪达到特定帧间隔时,利用保留样本池 进行在线训练更新模型,以维持跟踪器的长期鲁 棒性。在 OTB2015 标准数据集和 UAV20L 长时 跟踪数据集上与主流跟踪算法对比,LT-MDNet 在跟踪精度和成功率上均保持了优越的性 能,并能很好地应对目标遮挡和出视野问题。接 下来的工作将探索在不同跟踪环境下自适应收缩 比 和其他收缩损失超参数的值来进一步提高模 型的泛化能力。 参考文献: ARULAMPALAM M S, MASKELL S, GORDON N, et al. A tutorial on particle filters for online nonlinear/nonGaussian Bayesian tracking[J]. IEEE transactions on signal processing, 2002, 50(2): 174–188. [1] COMANICIU D, MEER P. Mean shift: a robust approach toward feature space analysis[J]. IEEE transactions on pattern analysis and machine intelligence, 2002, 24(5): 603–619. [2] BOLME D S, BEVERIDGE J R, DRAPER B A, et al. Visual object tracking using adaptive correlation filters[C]//Proceedings of 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Francisco, USA, 2010: 2544−2550. [3] HENRIQUES J F, CASEIRO R, MARTINS P, et al. Highspeed tracking with Kernelized correlation filters[J]. IEEE transactions on pattern analysis and machine intelligence, 2015, 37(3): 583–596. [4] MUELLER M, SMITH N, GHANEM B. Context-aware correlation filter tracking[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA, 2017: 1396−1404. [5] DANELLJAN M, HÄGER G, SHAHBAZ KHAN F, et al. Learning spatially regularized correlation filters for visual tracking[C]//Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago, Chile, 2015: 4310−4318. [6] KIANI GALOOGAHI H, FAGG A, LUCEY S. Learning background-aware correlation filters for visual tracking[C]//Proceedings of 2017 IEEE International Con- [7] ference on Computer Vision. Venice, Italy, 2017: 1135−1143. 宁欣, 李卫军, 田伟娟, 等. 一种自适应模板更新的判别 式 KCF 跟踪方法 [J]. 智能系统学报, 2019, 14(1): 121–126. NING Xin, LI Weijun, TIAN Weijuan, et al. Adaptive template update of discriminant KCF for visual tracking[J]. CAAI transactions on intelligent systems, 2019, 14(1): 121–126. [8] NAM H, HAN B. Learning multi-domain convolutional neural networks for visual tracking[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA, 2016: 4293−4302. [9] BERTINETTO L, VALMADRE J, HENRIQUES J F, et al. Fully-convolutional Siamese networks for object tracking[C]//Proceedings of the 14th European Conference on Computer Vision. Amsterdam, The Netherlands, 2016: 850−865. [10] WANG Qiang, TENG Zhu, XING Junliang, et al. Learning attentions: residual attentional Siamese network for high performance online visual tracking[C]//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA, 2018: 4854−4863. [11] SUNG K K, POGGIO T. Example-based learning for view-based human face detection[J]. IEEE transactions on pattern analysis and machine intelligence, 1998, 20(1): 39–51. [12] LIN T Y, GOYAL P, GIRSHICK R, et al. Focal loss for dense object detection[C]//Proceedings of 2017 IEEE International Conference on Computer Vision. Venice, Italy, 2017: 2980−2988. [13] VALMADRE J, BERTINETTO L, HENRIQUES J, et al. End-to-end representation learning for correlation filter based tracking[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA, 2017: 2805−2813. [14] WU Yi, LIM J, YANG M H. Object tracking benchmark[J]. IEEE transactions on pattern analysis and machine intelligence, 2015, 37(9): 1834–1848. [15] MUELLER M, SMITH N, GHANEM B. A benchmark and simulator for uav tracking[C]//Proceedings of the 14th European Conference on Computer Vision. Amsterdam, The Netherlands, 2016: 445−461. [16] CHATFIELD K, SIMONYAN K, VEDALDI A, et al. Return of the devil in the details: Delving deep into convolutional nets[EB/OL]. (2014-11-05)[2019-10- 01]https://arxiv.org/abs/1405.3531. [17] [18] LU Xiankai, MA Chao, NI Bingbing, et al. Deep regres- ·440· 智 能 系 统 学 报 第 16 卷
第3期 邵江南,等:一种基于深度学习目标检测的长时目标跟踪算法 ·441· sion tracking with shrinkage loss[C]//Proceedings of the [23]RUSSAKOVSKY O,DENG Jia,SU Hao,et al.ImageN- 15th European Conference on Computer Vision(ECCV). et large scale visual recognition challenge[J].Internation- Munich,Germany,2018:353-369. al journal of computer vision,2015,115(3):211-252. [19]LI Xin,MA Chao,WU Baoyuan,et al.Target-aware deep [24]ZHANG Shunli,LU Wei,XING Weiwei,et al.Using tracking[Cl//Proceedings of 2019 IEEE/CVF Conference fuzzy least squares support vector machine with metric on Computer Vision and Pattern Recognition.Long learning for object tracking[J].Pattern recognition,2018, Beach,USA,2019:1369-1378. 84:112-125 [20]LI Bo,YAN Junjie,WU Wei,et al.High performance 作者简介: visual tracking with Siamese region proposal network[C]//Proceedings of 2018 IEEE/CVF Conference 邵江南,硕士研究生,主要研究方 on Computer Vision and Pattern Recognition.Salt Lake 向为目标跟踪、深度学习。 City,USA,2018:8971-8980. [21]ZHANG Zhipeng,PENG Houwen.Deeper and wider Sia- mese networks for real-time visual tracking[Cl//Proceed- ings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Long Beach,USA,2019: 4591-4600. 葛洪伟,教授,博士生导师,主要 研究方向为人工智能与模式识别、机 [22]HONG Zhibin,CHEN Zhe,WANG Chaohui,et al.Multi- 器学习、图像处理与分析。主持和参 store tracker (muster):a cognitive psychology inspired ap- 与国家自然科学基金等国家级项目 proach to object tracking[Cl//Proceedings of 2015 IEEE 5项,省部级重点项目4项。发表学 Conference on Computer Vision and Pattern Recognition. 术论文100余篇。 Boston,.USA.2015:749-758. 2021中国人工智能大会 Chinese Congress on Artificial Intelligence 2021 2021中国人工智能大会(CCAI2021)以“智启非凡”为主题,将聚焦万物智能互联时代的学术前沿与技术 重点,围绕“强化自立、硬化创新、深化融合、优化协同”四大办会目标,邀请政府部门、科研院所、高校、科技 企业的领导、专家学者、企业家、技术领军者等各界代表进行最新成果交流,以产业共智启迪非凡未来。 作为我国人工智能领域的顶级盛会,中国人工智能大会自2015年创办以来,以落实国家科技创新战略 为方向,以引领智能科技发展为目标,以打造行业交流平台为抓手,横向聚合生态圈,纵向打通产业链,在成 果分享和实践论道中,不断为产学研用各方协同发展梳理主线、把脉大势。 天府之国,智者之约。地处“一带一路”重要枢纽与战略支撑点,成都已成为我国西南地区的人工智能创 新高地,伴随国家人工智能创新应用先导区的确立,成都正式进入国家新一代人工智能创新发展试验区和 国家人工智能创新应用先导区“双轮驱动”的新发展阶段。相信,2021中国人工智能大会的举办,将为成都 以及川渝地区带来“非凡”的智力资源与合作机遇。八月蓉城,CCAI2021期待与您同谱华章、共启非凡。 会议举办日期:2021年8月7一8日 会议举办地点:中国成都 指导单位:中国科学技术协会、中国科学院 主办单位:中国人工智能学会
sion tracking with shrinkage loss[C]//Proceedings of the 15th European Conference on Computer Vision (ECCV). Munich, Germany, 2018: 353−369. LI Xin, MA Chao, WU Baoyuan, et al. Target-aware deep tracking[C]//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA, 2019: 1369−1378. [19] LI Bo, YAN Junjie, WU Wei, et al. High performance visual tracking with Siamese region proposal network[C]//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA, 2018: 8971−8980. [20] ZHANG Zhipeng, PENG Houwen. Deeper and wider Siamese networks for real-time visual tracking[C]//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA, 2019: 4591−4600. [21] HONG Zhibin, CHEN Zhe, WANG Chaohui, et al. Multistore tracker (muster): a cognitive psychology inspired approach to object tracking[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA, 2015: 749−758. [22] RUSSAKOVSKY O, DENG Jia, SU Hao, et al. ImageNet large scale visual recognition challenge[J]. International journal of computer vision, 2015, 115(3): 211–252. [23] ZHANG Shunli, LU Wei, XING Weiwei, et al. Using fuzzy least squares support vector machine with metric learning for object tracking[J]. Pattern recognition, 2018, 84: 112–125. [24] 作者简介: 邵江南,硕士研究生,主要研究方 向为目标跟踪、深度学习。 葛洪伟,教授,博士生导师,主要 研究方向为人工智能与模式识别、机 器学习、图像处理与分析。主持和参 与国家自然科学基金等国家级项目 5 项,省部级重点项目 4 项。发表学 术论文 100 余篇。 2021 中国人工智能大会 Chinese Congress on Artificial Intelligence 2021 2021 中国人工智能大会(CCAI 2021)以“智启非凡”为主题,将聚焦万物智能互联时代的学术前沿与技术 重点,围绕“强化自立、硬化创新、深化融合、优化协同”四大办会目标,邀请政府部门、科研院所、高校、科技 企业的领导、专家学者、企业家、技术领军者等各界代表进行最新成果交流,以产业共智启迪非凡未来。 作为我国人工智能领域的顶级盛会,中国人工智能大会自 2015 年创办以来,以落实国家科技创新战略 为方向,以引领智能科技发展为目标,以打造行业交流平台为抓手,横向聚合生态圈,纵向打通产业链,在成 果分享和实践论道中,不断为产学研用各方协同发展梳理主线、把脉大势。 天府之国,智者之约。地处“一带一路”重要枢纽与战略支撑点,成都已成为我国西南地区的人工智能创 新高地,伴随国家人工智能创新应用先导区的确立,成都正式进入国家新一代人工智能创新发展试验区和 国家人工智能创新应用先导区“双轮驱动”的新发展阶段。相信,2021 中国人工智能大会的举办,将为成都 以及川渝地区带来“非凡”的智力资源与合作机遇。八月蓉城,CCAI 2021 期待与您同谱华章、共启非凡。 会议举办日期:2021 年 8 月 7—8 日 会议举办地点:中国·成都 指导单位:中国科学技术协会、中国科学院 主办单位:中国人工智能学会 第 3 期 邵江南,等:一种基于深度学习目标检测的长时目标跟踪算法 ·441·