第15卷第4期 智能系统学报 Vol.15 No.4 2020年7月 CAAI Transactions on Intelligent Systems Jul.2020 D0:10.11992/tis.201910005 区域损失函数的孪生网络目标跟踪 吴贵山2,林淑彬2,钟江华3,杨文元2 (1.闽南师范大学计算机学院,福建漳州363000,2.闽南师范大学福建省粒计算及其应用重点实验室,福建 漳州363000:3.闽南师范大学信息与网络中心,福建漳州363000) 摘要:针对预训练卷积神经网络提取的深度特征空间分辨率低,快速运动造成运动目标空间细节信息丢失等 问题,提出用区域损失函数构建孪生网络的目标跟踪,进一步降低深度特征通道之间的冗余性,并减少高层信 息丢失。利用线下预训练的VGG-16卷积神经网络提取深度特征,构成初始深度特征空间。通过区域损失函 数构建特征和尺度选择网络,根据反向传播的梯度大小进行特征选择。对筛选后的特征进行拼接,融入到孪生 网络中匹配跟踪。在OTB-2013、OTB-2015、VOT2016、TempleColor数据集上与其他算法对比。实验结果表明, 该算法在快速运动、低分辨率等场景中表现出较好的跟踪精度和鲁棒性。 关键词:计算机视觉:目标跟踪:区域损失;深度特征;孪生网络;卷积神经网络;反向传播:VGG网络 中图分类号:TP391.4文献标志码:A 文章编号:1673-4785(2020)04-0722-10 中文引用格式:吴贵山,林淑彬,钟江华,等.区域损失函数的李生网络目标跟踪.智能系统学报,2020,15(4):722-731. 英文引用格式:VU Guishan,.LIN Shubin,ZHONG Jianghua,etal.Regional loss function based siamese network for object track; ing[JI.CAAI transactions on intelligent systems,2020,15(4):722-731. Regional loss function based siamese network for object tracking WU Guishan2,LIN Shubin'2,ZHONG Jianghua',YANG Wenyuan'2 (1.School of Computer Science,Minnan Normal University,Zhangzhou 363000,China;2.Fujian Key Laboratory of Granular Com- puting and Application,Minnan Normal University,Zhangzhou 363000,China;3.Information and Network Center,Minnan Normal University.Zhangzhou 363000.China) Abstract:Due to the low spatial resolution of deep features extracted by pre-trained convolutional neural network,fast motion causes loss of spatial details of a moving object.This paper proposes a method to construct a siamese network for object tracking,so as to reduce the redundancy between the deep feature channels and the loss of high-level informa- tion.First,the VGG-16 convolutional neural network is trained offline to extract deep features and form the initial deep feature space.And then,the regional loss function is used to construct the feature and scale selection network.The fea- ture is selected according to the gradient size of back propagation.Further,the selected features are spliced and integ- rated into the siamese network for matching tracking.By comparing OTB-2013,OTB-2015,VOT2016 and TempleCol- or benchmark datasets with other algorithms,it shows that the algorithm has preferable precision and robustness in the challenging scenarios such as fast motion and low resolution. Keywords:computer vision;object tracking;regional loss;depth features;siamese network;convolutional neural net- work;back propagation;VGG network 目标跟踪是计算机视觉领域研究的热点问 目标跟踪具有非常广泛的应用,如智能监控)、自 题,大量文献对这一问题进行了详细的描述2。 动驾驶四、无人机)、机器人向等。运动目标跟踪 通常是首先给定第一帧的初始位置,然后在后续 收稿日期:2019-10-09. 的帧中精确定位目标位置。在实际跟踪场景中, 基金项目:国家自然科学青年基金项目(61703196):福建省自 然科学基金项目(2018J01549). 由于快速运动、遮挡形变、运动模糊等因素影响, 通信作者:杨文元.E-mail:yangwycn(@163.com 视觉跟踪仍然是一个挑战性的任务。因此,进一
DOI: 10.11992/tis.201910005 区域损失函数的孪生网络目标跟踪 吴贵山1,2,林淑彬1,2,钟江华3 ,杨文元1,2 (1. 闽南师范大学 计算机学院,福建 漳州 363000; 2. 闽南师范大学 福建省粒计算及其应用重点实验室,福建 漳州 363000; 3. 闽南师范大学 信息与网络中心,福建 漳州 363000) 摘 要:针对预训练卷积神经网络提取的深度特征空间分辨率低,快速运动造成运动目标空间细节信息丢失等 问题,提出用区域损失函数构建孪生网络的目标跟踪,进一步降低深度特征通道之间的冗余性,并减少高层信 息丢失。利用线下预训练的 VGG-16 卷积神经网络提取深度特征,构成初始深度特征空间。通过区域损失函 数构建特征和尺度选择网络,根据反向传播的梯度大小进行特征选择。对筛选后的特征进行拼接,融入到孪生 网络中匹配跟踪。在 OTB-2013、OTB-2015、VOT2016、TempleColor 数据集上与其他算法对比。实验结果表明, 该算法在快速运动、低分辨率等场景中表现出较好的跟踪精度和鲁棒性。 关键词:计算机视觉;目标跟踪;区域损失;深度特征;孪生网络;卷积神经网络;反向传播;VGG 网络 中图分类号:TP391.4 文献标志码:A 文章编号:1673−4785(2020)04−0722−10 中文引用格式:吴贵山, 林淑彬, 钟江华, 等. 区域损失函数的孪生网络目标跟踪 [J]. 智能系统学报, 2020, 15(4): 722–731. 英文引用格式:WU Guishan, LIN Shubin, ZHONG Jianghua, et al. Regional loss function based siamese network for object tracking[J]. CAAI transactions on intelligent systems, 2020, 15(4): 722–731. Regional loss function based siamese network for object tracking WU Guishan1,2 ,LIN Shubin1,2 ,ZHONG Jianghua3 ,YANG Wenyuan1,2 (1. School of Computer Science, Minnan Normal University, Zhangzhou 363000, China; 2. Fujian Key Laboratory of Granular Computing and Application, Minnan Normal University, Zhangzhou 363000, China; 3. Information and Network Center, Minnan Normal University, Zhangzhou 363000, China) Abstract: Due to the low spatial resolution of deep features extracted by pre-trained convolutional neural network, fast motion causes loss of spatial details of a moving object. This paper proposes a method to construct a siamese network for object tracking, so as to reduce the redundancy between the deep feature channels and the loss of high-level information. First, the VGG-16 convolutional neural network is trained offline to extract deep features and form the initial deep feature space. And then, the regional loss function is used to construct the feature and scale selection network. The feature is selected according to the gradient size of back propagation. Further, the selected features are spliced and integrated into the siamese network for matching tracking. By comparing OTB-2013, OTB-2015, VOT2016 and TempleColor benchmark datasets with other algorithms, it shows that the algorithm has preferable precision and robustness in the challenging scenarios such as fast motion and low resolution. Keywords: computer vision; object tracking; regional loss; depth features; siamese network; convolutional neural network; back propagation; VGG network 目标跟踪是计算机视觉领域研究的热点问 题,大量文献对这一问题进行了详细的描述[1-2]。 目标跟踪具有非常广泛的应用,如智能监控[3] 、自 动驾驶[4] 、无人机[5] 、机器人[6] 等。运动目标跟踪 通常是首先给定第一帧的初始位置,然后在后续 的帧中精确定位目标位置。在实际跟踪场景中, 由于快速运动、遮挡形变、运动模糊等因素影响, 视觉跟踪仍然是一个挑战性的任务。因此,进一 收稿日期:2019−10−09. 基金项目:国家自然科学青年基金项目 (61703196);福建省自 然科学基金项目 (2018J01549). 通信作者:杨文元. E-mail:yangwycn@163.com. 第 15 卷第 4 期 智 能 系 统 学 报 Vol.15 No.4 2020 年 7 月 CAAI Transactions on Intelligent Systems Jul. 2020
第4期 吴贵山,等:区域损失函数的李生网络目标跟踪 ·723· 步提高视觉跟踪的精度和鲁棒性具有重要的研究 RLST),用区域损失函数构建特征选择网络,通过 意义。 目标感知特征和尺度特征选择,降低深度特征通 过去几年,基于相关滤波和结合深度特征的 道之间的冗余性,并减少高层信息丢失。首先, 目标跟踪取得了巨大的进展。深度跟踪方法采用 与传统的深度相关滤波跟踪方法类似,采用线下 的策略主要是在线微调预训练深度网络1或者 预训练的VGG-16模型对采样的图像块进行特征 利用线下预训练提取深度特征来表示跟踪的目 提取。为了减少池化降采样导致的空间分辨率低 标910,这些方法取得了较好的跟踪精度。例如, 和高层信息丢失,只提取第4层卷积层的特征。 宁欣等)基于判别式核相关滤波器提出自适应 各个通道的卷积特征构成初始的输人特征空间。 更新策略的目标跟踪新框架,有效判别快速运动 其次,与已有的一些采用PCA、自编码网络降维 和遮挡状态。Bertinetto等I☒提出的基于李生全 的方法不同,采用迁移学习的思想,构建像素级 卷积网络的跟踪方法,通过离线训练卷积神经网 损失函数和区域损失函数的特征选择网络,在线 络(convolutional neural networks,CNN)提取输人 学习调整模型参数。通过引入区域损失函数,用 图像的高层卷积特征,然后用交叉相关的方法得 反向传播的梯度对输人特征空间进行选择。反向 到目标位置的响应。Gu0等)提出动态的李生网 传播得到的梯度能够很好地反映分类的显著性, 络跟踪方法,在孪生全卷积网络跟踪方法的基础 通过这些梯度能够获得卷积滤波核的重要性,从 上引入外观模型变换学习和背景抑制学习模块。 而筛选出不同通道的卷积特征。此外,为了选择 Valmadre等把相关滤波层当成是孪生网络的 最有效的尺度估计,需要筛选出对尺度变化敏感 1层卷积层,实现了端到端的精确跟踪。Nam等昀 的卷积滤波核。目标表示不是连续的,因此采用 提出多域深度分类网络用于视觉跟踪,通过边界 逼近的尺度估计方法,选择那些和采样对最接近 框回归和在线样本采集等技巧结合,取得很高的 的尺度。最后,对筛选后特征进行拼接,融入到 跟踪精度。Danell山jan等lo提出通过惩罚依赖于 孪生网络中。通过计算特征之间的互相关性,得 空间位置的相关滤波系数,减轻边界效应,减少 到目标响应图,然后利用线性插值的方式得到原 损坏样本的影响;在连续空间域卷积的跟踪方法 图大小,从而实现精确跟踪定位。RLST算法减 基础上,提出高效卷积运算跟踪方法可,通过构造 少特征数量,降低需要更新计算的参数。 更小的卷积滤波核和使用矩阵分解来更有效地捕 获目标表示。Huang等提出提前终止策略,利 1相关工作 用马尔可夫决策过程来学习智能体,通过智能体 在本节中,主要介绍研究的相关基础工作,分 来决策终止策略,提升了深度跟踪速度。 别为VGG-Net和孪生网络。 然而,传统的深度相关滤波跟踪方法通常是 1.1 VGG-Net 初始化所有通道特征,由于各个通道之间存在强 VGG-Net由牛津大学的Visual Geometry 相关性,特征通道之间的冗余性不仅加剧了计算 Group和Google的DeepMind公司的研究员共同 负载,还限制了模型学习更通用的表达。因此, 提出,探索CNN的深度及其性能之间的关系。通 需要对输入的特征空间进行选择。其次,这些方 过反复堆叠3×3的小型卷积核和2×2的最大池化 法提取的特征表示大部分都是采用预训练的高层 层,VGG-Net成功地构筑了16~l9层深的CNN。 深度特征,比如VGG网络的第4或第5层特征。 VGG-16是一个具有16层的卷积神经网络,包括 一方面,预训练深度特征空间分辨率低,丢失大 13个卷积层和3个全连接层。使用多个3×3卷积 量运动目标的空间细节信息,在复杂背景和外观 核的卷积层代替一个卷积核较大的卷积层,减少 剧烈变化时,跟踪的目标容易发生漂移;另一方 参数量的同时保留了同样的感受野,并且在一定 面,大部分深度跟踪方法和基于孪生网络的跟踪 程度上提升了神经网络的效果。卷积神经网络模 方法采用的模型都是计算像素级网络损失,忽略 型920具有很强的特征提取能力,因此非常适合 空间位置信息,丢失了像素间的固有关系。跟踪 在跟踪任务中建立鲁棒的外观模型。其中最常用 的目标很容易因为周围邻域的相似目标而发生错 的一类方法是用卷积神经网络模型提取深度特征 误匹配,导致跟踪失败。 代替手工特征,如颜色特征、HOG特征等,然后 针对上述问题,为了减少高层信息丢失,提高 利用相关滤波跟踪的框架进行精确跟踪。 预训练深度特征对剧烈运动和低分辨率的鲁棒 1.2孪生网络 性。现提出区域损失函数的孪生网络目标跟踪 基于孪生网络(siamese network)的目标跟踪 (regional loss in siamese network for object tracking, 在跟踪速度和精度上都取得了良好的性能,已经
步提高视觉跟踪的精度和鲁棒性具有重要的研究 意义。 过去几年,基于相关滤波和结合深度特征的 目标跟踪取得了巨大的进展。深度跟踪方法采用 的策略主要是在线微调预训练深度网络[7-8] 或者 利用线下预训练提取深度特征来表示跟踪的目 标 [9-10] ,这些方法取得了较好的跟踪精度。例如, 宁欣等[11] 基于判别式核相关滤波器提出自适应 更新策略的目标跟踪新框架,有效判别快速运动 和遮挡状态。Bertinetto 等 [12] 提出的基于孪生全 卷积网络的跟踪方法,通过离线训练卷积神经网 络 (convolutional neural networks, CNN) 提取输入 图像的高层卷积特征,然后用交叉相关的方法得 到目标位置的响应。Guo 等 [13] 提出动态的孪生网 络跟踪方法,在孪生全卷积网络跟踪方法的基础 上引入外观模型变换学习和背景抑制学习模块。 Valmadre 等 [14] 把相关滤波层当成是孪生网络的 1 层卷积层,实现了端到端的精确跟踪。Nam 等 [15] 提出多域深度分类网络用于视觉跟踪,通过边界 框回归和在线样本采集等技巧结合,取得很高的 跟踪精度。Danelljan 等 [16] 提出通过惩罚依赖于 空间位置的相关滤波系数,减轻边界效应,减少 损坏样本的影响;在连续空间域卷积的跟踪方法 基础上,提出高效卷积运算跟踪方法[17] ,通过构造 更小的卷积滤波核和使用矩阵分解来更有效地捕 获目标表示。Huang 等 [18] 提出提前终止策略,利 用马尔可夫决策过程来学习智能体,通过智能体 来决策终止策略,提升了深度跟踪速度。 然而,传统的深度相关滤波跟踪方法通常是 初始化所有通道特征,由于各个通道之间存在强 相关性,特征通道之间的冗余性不仅加剧了计算 负载,还限制了模型学习更通用的表达。因此, 需要对输入的特征空间进行选择。其次,这些方 法提取的特征表示大部分都是采用预训练的高层 深度特征,比如 VGG 网络的第 4 或第 5 层特征。 一方面,预训练深度特征空间分辨率低,丢失大 量运动目标的空间细节信息,在复杂背景和外观 剧烈变化时,跟踪的目标容易发生漂移;另一方 面,大部分深度跟踪方法和基于孪生网络的跟踪 方法采用的模型都是计算像素级网络损失,忽略 空间位置信息,丢失了像素间的固有关系。跟踪 的目标很容易因为周围邻域的相似目标而发生错 误匹配,导致跟踪失败。 针对上述问题,为了减少高层信息丢失,提高 预训练深度特征对剧烈运动和低分辨率的鲁棒 性。现提出区域损失函数的孪生网络目标跟踪 (regional loss in siamese network for object tracking, RLST),用区域损失函数构建特征选择网络,通过 目标感知特征和尺度特征选择,降低深度特征通 道之间的冗余性,并减少高层信息丢失。首先, 与传统的深度相关滤波跟踪方法类似,采用线下 预训练的 VGG-16 模型对采样的图像块进行特征 提取。为了减少池化降采样导致的空间分辨率低 和高层信息丢失,只提取第 4 层卷积层的特征。 各个通道的卷积特征构成初始的输入特征空间。 其次,与已有的一些采用 PCA、自编码网络降维 的方法不同,采用迁移学习的思想,构建像素级 损失函数和区域损失函数的特征选择网络,在线 学习调整模型参数。通过引入区域损失函数,用 反向传播的梯度对输入特征空间进行选择。反向 传播得到的梯度能够很好地反映分类的显著性, 通过这些梯度能够获得卷积滤波核的重要性,从 而筛选出不同通道的卷积特征。此外,为了选择 最有效的尺度估计,需要筛选出对尺度变化敏感 的卷积滤波核。目标表示不是连续的,因此采用 逼近的尺度估计方法,选择那些和采样对最接近 的尺度。最后,对筛选后特征进行拼接,融入到 孪生网络中。通过计算特征之间的互相关性,得 到目标响应图,然后利用线性插值的方式得到原 图大小,从而实现精确跟踪定位。RLST 算法减 少特征数量,降低需要更新计算的参数。 1 相关工作 在本节中,主要介绍研究的相关基础工作,分 别为 VGG-Net 和孪生网络。 1.1 VGG-Net VGG-Net 由牛津大学的 Visual Geometry Group 和 Google 的 DeepMind 公司的研究员共同 提出,探索 CNN 的深度及其性能之间的关系。通 过反复堆叠 3×3 的小型卷积核和 2×2 的最大池化 层,VGG-Net 成功地构筑了 16~19 层深的 CNN。 VGG-16 是一个具有 16 层的卷积神经网络,包括 13 个卷积层和 3 个全连接层。使用多个 3×3 卷积 核的卷积层代替一个卷积核较大的卷积层,减少 参数量的同时保留了同样的感受野,并且在一定 程度上提升了神经网络的效果。卷积神经网络模 型 [19-20] 具有很强的特征提取能力,因此非常适合 在跟踪任务中建立鲁棒的外观模型。其中最常用 的一类方法是用卷积神经网络模型提取深度特征 代替手工特征,如颜色特征、HOG 特征等,然后 利用相关滤波跟踪的框架进行精确跟踪。 1.2 孪生网络 基于孪生网络 (siamese network) 的目标跟踪 在跟踪速度和精度上都取得了良好的性能,已经 第 4 期 吴贵山,等:区域损失函数的孪生网络目标跟踪 ·723·
·724· 智能系统学报 第15卷 成为目标跟踪的研究热点。由于不进行模板更 的特征空间。对于目标跟踪任务来说,理想的特 新,因此能够达到较高的实时跟踪性能。孪生网 征激活只针对需要跟踪的目标,对背景信息则不 络核心思想是,寻找一个映射函数,将输入图像 激活或激活值非常小。因此,对初始特征空间进 转换到一个特征空间,每幅图像对应一个特征向 行筛选,选择那些重要的卷积核激活,可以降低 量;通过简单的距离度量来表示向量之间的差 冗余和无相关信息,进一步增强特征表达能力, 异,如欧氏距离;最后利用这个距离来衡量输入 同时也能够降低过拟合和参数计算量。反向传播 图像之间的相似度差异。其模型公式如下: 得到的梯度能够很好地反映分类的显著性,这些 Ew(X1,X2)=llGw(Xi)-Gw(X2)l (1) 梯度能够决定卷积滤波核的重要性,从而筛选出 式中:X、X2为输入数据;W表示模型参数;Gm的 不同通道的卷积激活。为提高计算效率,采用岭 作用就是将输入数据转换为一组特征向量;Ew用 回归线性模型来进行特征选择。其次,为了不丢 于衡量两个输入向量转换为特征向量之后,用欧 像素之间的空间结构位置关系,在岭回归模型中 氏距离来衡量两个特征向量之间的相似性。基于 添加区域损失来增强特征选择能力。模型方程表 李生网络的跟踪方法是把跟踪问题看成相似性度 示为 量的问题,用学习出来的度量去比较和匹配新的 Los=min∑(l-w*xP+dw(化)- 未知类别的样本来进行跟踪。后续出现了大量的 L. (2) 基于李生网络的改进方法,例如利用学习残差注 W+N(X)+lWI 意力机制网络,通过改进相似性度量的方式来提 式中:Y,为高斯真值标签;N(Y)表示以像素点 高匹配精度。最近,把其他领域如目标检测、图 (,)为中心的邻域的高斯真值标签值;W为权重 像识别、图像分割的网络引入到跟踪领域成了新 矩阵;*为卷积操作;W*X表示采样图像X的预 的研究热点。这些方法在孪生网络中加入大量的 测值;W*N(X)表示邻域采样图像N(X)的预 优化技巧,实现了最高的跟踪精度。Li等在孪 测值,忽略两帧之间有语义信息的背景干扰, 生网络后加入线下训练好的区域检测网络,把跟 N(X)可表示采样图像X的偏移。每个卷积核 踪问题看成一次局部检测任务,可以取得更好的 的重要性可以根据梯度大小来计算,根据链式求 性能。例如,Wang等22提出跟踪和分割统一的 导法则,损失函数对所有输入的导数可表示为 方法,通过生成与目标对象类别无关的二进制分 8袋-∑2化-W*X)xW+ 割掩码,用来同时完成目标跟踪和图像分割任务。 OXin (3) 1(N(Y)-W*N(X)×W) 2区域损失函数的目标跟踪 各个卷积核的重要性△可以用梯度表示,直 接采用全局平均池化函数G表示 利用迁移学习的思想,通过像素级损失函数 和区域损失函数反向传播的梯度进行特征选择。 X (4) 考虑了像素之间的空间结构关系,降低高层深度 根据计算出的卷积核重要性△,有选择地激 特征各个通道之间冗余性,增强了判别能力。尤 活对应的通道特征。式(4)加入了区域损失函 其是对外观发生剧烈变化时,减少了高层信息的 数,考虑了像素间空间位置结构关系,能够更为 损失,能够更有效表示运动目标。 有效地对原始输入特征空间进行选择,增强了特 深度神经网络常见的损失函数包括均方误 征表达能力。特征选择可表示为 差、对数误差、hinge损失等,用来计算预测像素 X=中(X:△) (5) 和真值高斯标签之间的误差值。采用线性模型岭 式(⑤)表示根据卷积核重要性△对原始输入 回归对目标外观建模,这些单纯的像素级损失很 的特征空间进行选择,选择后的特征为X。与预 容易丢失像素之间的空间位置结构信息,也不能 训练的深度特征相比,选择后的特征X减少了通 精确表达与邻域像素之间的固有关系。因此在特 道之间的冗余信息,具有更强的分类显著性和鲁 征选择和尺度估计的损失函数中加入区域损失, 棒性。 提高在外观发生剧烈变化、低分辨率等场景下的 2.2目标尺度特征选择 跟踪鲁棒性。 仅仅通过目标感知特征选择还不足以对运动 2.1目标感知特征选择 目标的尺度进行估计,为了选择最有效的尺度估 在预训练的卷积神经网络中,每一个卷积核 计,还需要筛选出那些对尺度变化敏感的特征。 都提取了特定类型的特征信息,比如边缘、角点 目标表示并不是连续的,可采用逼近的尺度估计 等。所有的卷积核提取的特征信息则构成了初始 方法,选择那些和采样对最接近的尺度。筛选方
成为目标跟踪的研究热点。由于不进行模板更 新,因此能够达到较高的实时跟踪性能。孪生网 络核心思想是,寻找一个映射函数,将输入图像 转换到一个特征空间,每幅图像对应一个特征向 量;通过简单的距离度量来表示向量之间的差 异,如欧氏距离;最后利用这个距离来衡量输入 图像之间的相似度差异。其模型公式如下: EW (X1,X2) = ∥GW (X1)−GW (X2)∥ (1) 式中:X1、X2 为输入数据;W 表示模型参数;GW 的 作用就是将输入数据转换为一组特征向量;EW 用 于衡量两个输入向量转换为特征向量之后,用欧 氏距离来衡量两个特征向量之间的相似性。基于 孪生网络的跟踪方法是把跟踪问题看成相似性度 量的问题,用学习出来的度量去比较和匹配新的 未知类别的样本来进行跟踪。后续出现了大量的 基于孪生网络的改进方法,例如利用学习残差注 意力机制网络,通过改进相似性度量的方式来提 高匹配精度。最近,把其他领域如目标检测、图 像识别、图像分割的网络引入到跟踪领域成了新 的研究热点。这些方法在孪生网络中加入大量的 优化技巧,实现了最高的跟踪精度。Li 等 [21] 在孪 生网络后加入线下训练好的区域检测网络,把跟 踪问题看成一次局部检测任务,可以取得更好的 性能。例如,Wang 等 [22] 提出跟踪和分割统一的 方法,通过生成与目标对象类别无关的二进制分 割掩码,用来同时完成目标跟踪和图像分割任务。 2 区域损失函数的目标跟踪 利用迁移学习的思想,通过像素级损失函数 和区域损失函数反向传播的梯度进行特征选择。 考虑了像素之间的空间结构关系,降低高层深度 特征各个通道之间冗余性,增强了判别能力。尤 其是对外观发生剧烈变化时,减少了高层信息的 损失,能够更有效表示运动目标。 深度神经网络常见的损失函数包括均方误 差、对数误差、hinge 损失等,用来计算预测像素 和真值高斯标签之间的误差值。采用线性模型岭 回归对目标外观建模,这些单纯的像素级损失很 容易丢失像素之间的空间位置结构信息,也不能 精确表达与邻域像素之间的固有关系。因此在特 征选择和尺度估计的损失函数中加入区域损失, 提高在外观发生剧烈变化、低分辨率等场景下的 跟踪鲁棒性。 2.1 目标感知特征选择 在预训练的卷积神经网络中,每一个卷积核 都提取了特定类型的特征信息,比如边缘、角点 等。所有的卷积核提取的特征信息则构成了初始 的特征空间。对于目标跟踪任务来说,理想的特 征激活只针对需要跟踪的目标,对背景信息则不 激活或激活值非常小。因此,对初始特征空间进 行筛选,选择那些重要的卷积核激活,可以降低 冗余和无相关信息,进一步增强特征表达能力, 同时也能够降低过拟合和参数计算量。反向传播 得到的梯度能够很好地反映分类的显著性,这些 梯度能够决定卷积滤波核的重要性,从而筛选出 不同通道的卷积激活。为提高计算效率,采用岭 回归线性模型来进行特征选择。其次,为了不丢 像素之间的空间结构位置关系,在岭回归模型中 添加区域损失来增强特征选择能力。模型方程表 示为 Loss = min W ∑ i, j ( Yi, j −W ∗ Xi, j 2 +λ1 N ( Yi, j ) − W ∗ N ( Xi, j ) 2 ) +λ2∥W∥ 2 (2) Yi, j N ( Yi, j ) W∗Xi, j Xi, j W ∗ N ( Xi, j ) N ( Xi, j ) N ( Xi, j ) Xi, j 式中: 为高斯真值标签; 表示以像素点 (i,j) 为中心的邻域的高斯真值标签值;W 为权重 矩阵;*为卷积操作; 表示采样图像 的预 测值; 表示邻域采样图像 的预 测值,忽略两帧之间有语义信息的背景干扰, 可表示采样图像 的偏移。每个卷积核 的重要性可以根据梯度大小来计算,根据链式求 导法则,损失函数对所有输入的导数可表示为 ∂Loss ∂Xin = ∑ i, j 2 ((Yi, j −W ∗ Xi, j ) ×W+ λ1 ( N ( Yi, j ) −W ∗N ( Xi, j ))×W ) (3) 各个卷积核的重要性 ∆k 可以用梯度表示,直 接采用全局平均池化函数 G 表示: ∆k = G ( ∂Loss Xin ) (4) 根据计算出的卷积核重要性 ∆k,有选择地激 活对应的通道特征。式 (4) 加入了区域损失函 数,考虑了像素间空间位置结构关系,能够更为 有效地对原始输入特征空间进行选择,增强了特 征表达能力。特征选择可表示为 χ = ψ(X;∆k) (5) ∆k χ χ 式 (5) 表示根据卷积核重要性 对原始输入 的特征空间进行选择,选择后的特征为 。与预 训练的深度特征相比,选择后的特征 减少了通 道之间的冗余信息,具有更强的分类显著性和鲁 棒性。 2.2 目标尺度特征选择 仅仅通过目标感知特征选择还不足以对运动 目标的尺度进行估计,为了选择最有效的尺度估 计,还需要筛选出那些对尺度变化敏感的特征。 目标表示并不是连续的,可采用逼近的尺度估计 方法,选择那些和采样对最接近的尺度。筛选方 ·724· 智 能 系 统 学 报 第 15 卷
第4期 吴贵山,等:区域损失函数的李生网络目标跟踪 ·725· 式和目标感知特征选择类似,根据损失函数反向 其中Yu=Y-Y,Y为独热编码,表示第i个采 传播的梯度,选择对尺度变化敏感,激活值大的 样图像的相应标签为1,其他为0,是图像的向量 卷积核。同样,在图像对损失函数中加入区域损 标签形式。通过反向传播,特征输入的梯度可以 失,方程可表示为 通过式(10)计算: Lmaltiscale Imultiscale of(x)Lmaliscale exp(f(x)-f(x)) OXi af(x)x xW+ axin of(x) (6) a2(W(Y)-W*N(X》×W (10) ∑∑a 计算梯度后,尺度特征的选择方法同目标感 s.t. ∑t=l,t≥0 (7) 知特征选择,根据梯度的重要性来选择对尺度变 化敏感的卷积核激活。跟踪检测方程可表示为 式(6)中,K个不同尺度的采样图像对构成训练样 score=argmax山(Xi;d)*山(Zi;) (11) 本空间,图像对x和x之间具有相近的尺度。 f(x)和fx)为预测值,c为通道数,k为选择的卷 score为匹配跟踪过程各个位置的置信度得 积核数量,a4为各个卷积核的权重。区域损失和 分,X1为第1帧图像提取的深度特征,Z,为待跟 式(2)的定义一样,表示为 踪帧搜索区域图像提取的深度特征,中为特征映 regm=lN(Y)-W*N(X)川 射函数,表示对原始特征空间进行特征选择。 (8) 2.3RLST跟踪算法模型 图像对之间比较的时间复杂度为O(K),采 如图1所示,跟踪器的跟踪框架分为3个部 样样本较多时,会影响尺度估计效率。因此实验 分。首先是预训练深度特征提取,构成初始特征 取33个不同尺度的图像对构成尺度估计的样本 空间。然后是特征选择,根据不同损失函数计算 空间。根据链式求导法则,对所有预测值求梯度为 的梯度重要性,选择对应的通道特征卷积核激 Lmultiscale 活。最后对特征选择后进行特征拼接,融人到孪 of(x) ∑4 Vjexp(f(x)aY)(9) 生网络中进行跟踪定位和尺度估计。 特征选择 特征 层 筛选后特征 第1帧 区域损失 卷 像 梯 VGG-16预训练 层 响应图 第什1顿 特征提取网络 第t帧 特征选择 特征 筛选后特征 图1RLST跟踪流程图 Fig.1 Framework of the proposed algorithm 具体过程为:根据式(3)和式(10)计算的梯 算法区域损失函数的孪生网络目标跟踪 度,用全局平均池化函数对梯度的大小进行排 (RLST) 序。然后按重要性选择固定数量的卷积核对初始 输入视频序列{o,I1,·,Iw,第1帧位置 特征空间进行选择。最后计算特征之间的相似性 P。,初始化网络参数。 得分,得到响应图。通常,响应图的大小为降采 输出跟踪序列的最大响应位置P。 样后的尺寸,为得到精确跟踪位置,还需要利用 1)分别裁剪第1帧和待预测帧的图像块: 线性插值的方式得到原图大小,响应值最大的点 2)用VGG-16预训练网络提取裁剪图像块的 就是跟踪的目标位置。其次,为了对尺度变化更 第4层卷积层和Relu层的特征: 有效估计,模板图像采用固定的尺度大小,对当 3)分别用式(3)和式(10)计算损失函数对所 前帧搜索区域的特征图缩放到不同尺度大小。算 有输入的梯度,并保存结果用于下一帧计算: 法步骤表示如下。 4)利用计算的梯度分别对原始特征空间进行
式和目标感知特征选择类似,根据损失函数反向 传播的梯度,选择对尺度变化敏感,激活值大的 卷积核。同样,在图像对损失函数中加入区域损 失,方程可表示为 Lmultiscale = log 1+ ∑ {(xi,Yi)} K i=1 exp( f(xi)− f(xj) ) + ∑ c ∑ k αckℓregion (6) s.t. ∑ k αck = 1, αck ⩾ 0 (7) xi xj f(xi) f(xj) αck 式 (6) 中,K 个不同尺度的采样图像对构成训练样 本空间,图像对 和 之间具有相近的尺度。 和 为预测值,c 为通道数,k 为选择的卷 积核数量, 为各个卷积核的权重。区域损失和 式 (2) 的定义一样,表示为 ℓregion= N ( Yi, j ) −W ∗ N ( Xi, j ) 2 (8) O ( K 2 ) 图像对之间比较的时间复杂度为 ,采 样样本较多时,会影响尺度估计效率。因此实验 取 33 个不同尺度的图像对构成尺度估计的样本 空间。根据链式求导法则,对所有预测值求梯度为 ∂Lmultiscale ∂ f(x) = − 1 Lmultiscale ∑ {(xi,Yi)} K i=1 ∆Yi, j exp(f(x)∆Yi, j) (9) ∆Yi, j = Yi −Yj Yi 其中 , 为独热编码,表示第 i 个采 样图像的相应标签为 1,其他为 0,是图像的向量 标签形式。通过反向传播,特征输入的梯度可以 通过式 (10) 计算: ∂Lmultiscale ∂Xin = ∂Lmultiscale ∂ f(x) × ∂ f(x) ∂Xin = ∂Lmultiscale ∂ f(x) ×W+ α ∑ i, j 2 ( N ( Yi, j ) −W ∗ N ( Xi, j ))×W (10) 计算梯度后,尺度特征的选择方法同目标感 知特征选择,根据梯度的重要性来选择对尺度变 化敏感的卷积核激活。跟踪检测方程可表示为 score = argmax p ψ(X1;∆) ∗ψ(Zt ;∆) (11) X1 Zt ψ score 为匹配跟踪过程各个位置的置信度得 分, 为第 1 帧图像提取的深度特征, 为待跟 踪帧搜索区域图像提取的深度特征, 为特征映 射函数,表示对原始特征空间进行特征选择。 2.3 RLST 跟踪算法模型 如图 1 所示,跟踪器的跟踪框架分为 3 个部 分。首先是预训练深度特征提取,构成初始特征 空间。然后是特征选择,根据不同损失函数计算 的梯度重要性,选择对应的通道特征卷积核激 活。最后对特征选择后进行特征拼接,融入到孪 生网络中进行跟踪定位和尺度估计。 第1帧 VGG-16 预训练 特征提取网络 ··· 特征 筛选后特征 筛选后特征 响应图 特征选择 特征选择 卷 积 层 卷 积 层 像 素 损 失 像 素 损 失 梯 度 梯 度 特征 区域损失 第 t 帧 第 t+1帧 * 图 1 RLST 跟踪流程图 Fig. 1 Framework of the proposed algorithm 具体过程为:根据式 (3) 和式 (10) 计算的梯 度,用全局平均池化函数对梯度的大小进行排 序。然后按重要性选择固定数量的卷积核对初始 特征空间进行选择。最后计算特征之间的相似性 得分,得到响应图。通常,响应图的大小为降采 样后的尺寸,为得到精确跟踪位置,还需要利用 线性插值的方式得到原图大小,响应值最大的点 就是跟踪的目标位置。其次,为了对尺度变化更 有效估计,模板图像采用固定的尺度大小,对当 前帧搜索区域的特征图缩放到不同尺度大小。算 法步骤表示如下。 算法 区域损失函数的孪生网络目标跟踪 (RLST) 输入 视频序列 {I0, I1, ··· , IN},第 1 帧位置 P0,初始化网络参数。 输出 跟踪序列的最大响应位置 P。 1) 分别裁剪第 1 帧和待预测帧的图像块; 2) 用 VGG-16 预训练网络提取裁剪图像块的 第 4 层卷积层和 Relu 层的特征; 3) 分别用式 (3) 和式 (10) 计算损失函数对所 有输入的梯度,并保存结果用于下一帧计算; 4) 利用计算的梯度分别对原始特征空间进行 第 4 期 吴贵山,等:区域损失函数的孪生网络目标跟踪 ·725·
·726· 智能系统学报 第15卷 筛选; 验基准,分别为240、80,这些卷积核包含了大部 5)利用式(1l)计算响应,取max(score)为跟 分梯度信息。为了进一步观察卷积核数的影响, 踪位置; 在TempleColor数据集上进行分组实验。首先, 6)重复上述过程,直到视频序列最后一帧。 固定Conv4-1卷积核个数,逐步增加Conv4-3卷 返回跟踪结果。 积核个数。然后,固定Conv4-3卷积核个数,逐 3实验结果与分析 步增加Conv4-1卷积核个数。实验结果如图2所 示,增加卷积核数,AUC得分先增加后降低。在 为验证所提跟踪算法RLST的有效性,在 Conv4-1卷积核300个、Conv4-3卷积核120个 0TB-201321、OTB-20152、V0T20162和Temple- 时,AUC得分取得最好0.567。随着卷积核数进 Color公开基准数据集上进行实验。 一步增加,AUC得分降低,这与卷积核之间的冗 3.1实验设置 余信息有关。这也进一步验证了利用区域损失 实验过程的特征提取器采用的是预训练的 函数可以降低深度特征通道之间的冗余性,提高 VGG-16模型,为了减少池化降采样导致的空间 跟踪性能。 分辨率低,从而导致高层信息丢失,只提取第4层 卷积层和线性修正单元层的特征。其次,当感知 特征提取和尺度特征选择网络的训练损失小于 0.6 0.02时,停止对梯度更新,最大迭代次数设置为50。 迭代完成后,分别选择卷积层和线性修正单元层 前300和120个卷积核进行特征选择。 0 实验环境:CPU采用Intel Xeon Silver41122.6 240 240 GHz.GPU采用NVIDIA GeForce RTX2080.内存 Conv4-1 280 320 200 为128GB的工作站。 160 40080 3.2数据集和评价指标 Comv43卷积核数 120 OTB-2013和OTB-2015分别包含50个和 图2 TempleColor数据集上卷积核个数对AUC得分的 100个视频序列,每个视频序列都标记了真实矩 影响 形框和各种属性注释,比如光照变化、平面外旋 Fig.2 Influence of the number of convolution kernels on the score of AUC on TempleColor dataset 转、尺度变化、快速运动、运动模糊、遮挡等。在 3.3.2定量实验分析 VOT2016数据集中,包含60个不同挑战的视频 RLST在OTB-2013和OTB-2015数据集上与 序列,而TempleColor是一个公共基准测试数据 SIAMRPNE、ECO-HCII、PTAVETI、BACF2、CF- 集,由128个颜色视频序列组成。在各个数据集 Netu、Staple2、LDES01等7个先进视频跟踪算 上评价指标不一样,后续实验采取的评价指标 法进行比较。整体性能比较结果如图3和图4所 为:在OTB-2013和0TB-2015数据集实验中,采 示,跟踪器RLST在两个基准数据集上,一次通过 用一次通过(OPE)的精准度和成功率两个指标来 的精准度和成功率都取得了很好的结果,在OTB- 定量描述各个跟踪器的性能。在VOT2016数据 2013数据集上分别为83.3%和61.8%,在0TB- 集中,主要采用平均重叠率(EAO)、精度(A)、鲁 2015数据集上分别为85.6%和65.1%。所选的对 棒性(R)3个指标。而在TempleColor数据集中则 比算法中,主要分为传统的相关滤波方法、结合 选择AUC评分来衡量各个跟踪器的性能。 深度特征的相关滤波方法以及基于孪生网络的跟 3.3实验分析 踪方法。这些算法各自都具有代表性,与其进行 本节主要对卷积核实验、定量实验和定性实 比较更能验证RLST算法的有效性。RLST跟踪 验进行讨论分析。 器利用了区域损失函数,比起单纯的像素级损失 3.3.1卷积核实验分析 函数,建立的跟踪模型保留了更多的细节信息以 VGG-16结构中Conv4-1和Conv4-3层的卷 及空间位置结构信息,更能精确表达与邻域像素 积核个数都为512个。为了去除冗余信息,提高 之间的固有关系。因此能选择更加鲁棒的目标感 特征表达能力,首先对计算的梯度大小进行排 知和尺度特征,实验结果也进一步表明了RLST 序,然后各自筛选梯度信息重要的卷积核作为实 能够取得比较高的性能表现
筛选; 5) 利用式 (11) 计算响应,取 max(score) 为跟 踪位置; 6) 重复上述过程,直到视频序列最后一帧。 返回跟踪结果。 3 实验结果与分析 为验证所提跟踪算法 RLST 的有效性,在 OTB-2013[23] 、OTB-2015[24] 、VOT2016[25] 和 TempleColor[26] 公开基准数据集上进行实验。 3.1 实验设置 实验过程的特征提取器采用的是预训练的 VGG-16 模型,为了减少池化降采样导致的空间 分辨率低,从而导致高层信息丢失,只提取第 4 层 卷积层和线性修正单元层的特征。其次,当感知 特征提取和尺度特征选择网络的训练损失小于 0.02 时,停止对梯度更新,最大迭代次数设置为 50。 迭代完成后,分别选择卷积层和线性修正单元层 前 300 和 120 个卷积核进行特征选择。 实验环境:CPU 采用 Intel Xeon Silver 4 112 2.6 GHz,GPU 采用 NVIDIA GeForce RTX2080,内存 为 128 GB 的工作站。 3.2 数据集和评价指标 OTB-2013 和 OTB-2015 分别包含 50 个和 100 个视频序列,每个视频序列都标记了真实矩 形框和各种属性注释,比如光照变化、平面外旋 转、尺度变化、快速运动、运动模糊、遮挡等。在 VOT2016 数据集中,包含 60 个不同挑战的视频 序列,而 TempleColor 是一个公共基准测试数据 集,由 128 个颜色视频序列组成。在各个数据集 上评价指标不一样,后续实验采取的评价指标 为:在 OTB-2013 和 OTB-2015 数据集实验中,采 用一次通过 (OPE) 的精准度和成功率两个指标来 定量描述各个跟踪器的性能。在 VOT2016 数据 集中,主要采用平均重叠率 (EAO)、精度 (A)、鲁 棒性 (R)3 个指标。而在 TempleColor 数据集中则 选择 AUC 评分来衡量各个跟踪器的性能。 3.3 实验分析 本节主要对卷积核实验、定量实验和定性实 验进行讨论分析。 3.3.1 卷积核实验分析 VGG-16 结构中 Conv4-1 和 Conv4-3 层的卷 积核个数都为 512 个。为了去除冗余信息,提高 特征表达能力,首先对计算的梯度大小进行排 序,然后各自筛选梯度信息重要的卷积核作为实 验基准,分别为 240、80,这些卷积核包含了大部 分梯度信息。为了进一步观察卷积核数的影响, 在 TempleColor 数据集上进行分组实验。首先, 固定 Conv4-1 卷积核个数,逐步增加 Conv4-3 卷 积核个数。然后,固定 Conv4-3 卷积核个数,逐 步增加 Conv4-1 卷积核个数。实验结果如图 2 所 示,增加卷积核数,AUC 得分先增加后降低。在 Conv4-1 卷积核 300 个、Conv4-3 卷积核 120 个 时,AUC 得分取得最好 0.567。随着卷积核数进 一步增加,AUC 得分降低,这与卷积核之间的冗 余信息有关。这也进一步验证了利用区域损失 函数可以降低深度特征通道之间的冗余性,提高 跟踪性能。 0.6 0 0.2 0.4 AUC 得分 240 280 320 360 400 80 120 160 200 Conv4-1 240 卷积核数 Conv4-3 卷积核数 图 2 TempleColor 数据集上卷积核个数对 AUC 得分的 影响 Fig. 2 Influence of the number of convolution kernels on the score of AUC on TempleColor dataset 3.3.2 定量实验分析 RLST 在 OTB-2013 和 OTB-2015 数据集上与 SIAMRPN[21] 、ECO-HC[17] 、PTAV[27] 、BACF[28] 、CFNet[14] 、Staple[29] 、LDES[30] 等 7 个先进视频跟踪算 法进行比较。整体性能比较结果如图 3 和图 4 所 示,跟踪器 RLST 在两个基准数据集上,一次通过 的精准度和成功率都取得了很好的结果,在 OTB- 2013 数据集上分别为 83.3% 和 61.8%,在 OTB- 2015 数据集上分别为 85.6% 和 65.1%。所选的对 比算法中,主要分为传统的相关滤波方法、结合 深度特征的相关滤波方法以及基于孪生网络的跟 踪方法。这些算法各自都具有代表性,与其进行 比较更能验证 RLST 算法的有效性。RLST 跟踪 器利用了区域损失函数,比起单纯的像素级损失 函数,建立的跟踪模型保留了更多的细节信息以 及空间位置结构信息,更能精确表达与邻域像素 之间的固有关系。因此能选择更加鲁棒的目标感 知和尺度特征,实验结果也进一步表明了 RLST 能够取得比较高的性能表现。 ·726· 智 能 系 统 学 报 第 15 卷
第4期 吴贵山,等:区域损失函数的李生网络目标跟踪 ·727· 1.0 1.0 0.9 0.9 0.8 0.7 Ours[0.833] 1EC0-HC0.814] 0.6 Ours0.6187 0 SIAMRPN [0.810] 0.5 SIAMRPNI0592 PTAV[0.806 0.4 ECO-HC [0.5921 PTAV [0.581 BACF [0.756 LDES [0.7501 0.3 ■BAC℉I0.559 0 0 CfNet 0.7 6 0.2 LDES [0.558 Staple [0.684] 0.1 CfNet j0.530 =.Staple[0.507 10 30 40 50 0 0.2 04 0.6 0.8 .0 定位误差國值 重叠國值 (a)OPE精准度 (b)OPE成功率 图3 在OTB-2013数据集上的精准度和成功率曲线 Fig.3 Precision and success plots using one-pass evaluation on OTB-2013 Dataset 1.0 1.0 0.9 0.9 0.8 0.8 0.7 EC0-HC0.856 解0.6 =Ours[0.651 0.5 =1Ours0.8561 SIAMRPN [0.851] 0.5 ■1ECO-HC0.6431 0.4 PTAV0.841 0.4 SIAMRPN [0.6371 PTAV [0.63 0.3 BACF 10 x08 0.3 LDES [0.614 0.2 m■m1)FS0796 Staple [0.784 0.2 BACF T0.609 0.1 CfNet [0.780] 0.1 CNet[0.592 Staple [0.578] 10 20 30 40 50 0.2 0.4 0.6 0.8 1.0 定位误差圆值 重叠阀值 (a)OPE精准度 (b)OPE成功率 图4在OTB-2015数据集上的精准度和成功率曲线 Fig.4 Precision and success plots using one-pass evaluation on OTB-2015 Dataset 为进一步分析RLST跟踪算法在各个属性上 分辨率、快速运动和运动模糊等6个属性上都取 的表现,和7个先进视频跟踪算法在OTB-2015数 得较高的性能。尤其是在低分辨率情况下,RLST 据集各个属性上进行了比较。图5显示了RLST 取得了最好性能,这也验证了通过区域损失函数 跟踪算法在光照变化、平面外旋转、尺度变化、低 构建网络进行特征选择能够有效降低信息丢失。 1.0 1.0 0.9 0.9 0.8 0.8 0.7 0.7 0.6 Ours [0.8651 0.6 Ours[0.676 ■SIAMRPN0.864I 0.5 m■PTAV0.8401 0.5 ■SIAMRPN0.6551 0.4 ECO-HC 0.820 ECO-HC [0.6401 0.4 PTAV I 0.3 BACF [0.808 0.3 BACF [0.623 0.2 Staple [0.7821 LDES 0.2 LDES [0.605 0.766 0.1 Staple 0.593 ■CfNet[0.7571 =CfNet[0.581] 10 20 30 40 50 0.2 0.4 06 0.8 定位误差阀值 重叠圆值 (a)OPE精准度-光照变化 (b)OPE成功率-光照变化 1.0 1.0 0.9 0.8 0.7 Ours0.8581 ■Ours[0.6351 有 0.6 0.6 0.5 SIAMRPN [0.855] ECO-HC [0.8341 0.5 ■1 SIAMRPN0.6311 0.4 PTAV[0.813] 0.4 EC0-HC[0.608 0 ,LDES0.777] PTAV[0.601 0.3 02 BACF I0.767 LDES[0.592 0.741 0.2 BACF10.568 0. ■1 Staple0.738] 0.1 CfNet [0.552 Staple [0.533 10 20 30 40 50 0 0.2 0.4 0.6 0.8 1.0 定位误差阀值 重叠圆值 (c)OPE精准度-平面外旋转 (d)OPE成功率-平面外旋转
0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 10 20 30 40 50 定位误差阈值 0.2 0.4 0.6 0.8 1.0 重叠阈值 精准度 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 成功率 (a) OPE 精准度 (b) OPE 成功率 Ours [0.833] ECO-HC [0.814] SIAMRPN [0.810] PTAV [0.806] BACF [0.756] LDES [0.750] CfNet [0.716] Staple [0.684] Ours [0.618] ECO-HC [0.592] SIAMRPN [0.592] PTAV [0.581] BACF [0.559] LDES [0.558] CfNet [0.530] Staple [0.507] 图 3 在 OTB-2013 数据集上的精准度和成功率曲线 Fig. 3 Precision and success plots using one-pass evaluation on OTB-2013 Dataset 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 10 20 30 40 50 定位误差阈值 精准度 (a) OPE 精准度 Ours [0.856] ECO-HC [0.856] SIAMRPN [0.851] PTAV [0.841] BACF [0.808] LDES [0.796] CfNet [0.780] Staple [0.784] 0 0.2 0.4 0.6 0.8 1.0 重叠阈值 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 成功率 (b) OPE 成功率 Ours [0.651] ECO-HC [0.643] SIAMRPN [0.637] PTAV [0.631] BACF [0.609] LDES [0.614] CfNet [0.592] Staple [0.578] 图 4 在 OTB-2015 数据集上的精准度和成功率曲线 Fig. 4 Precision and success plots using one-pass evaluation on OTB-2015 Dataset 为进一步分析 RLST 跟踪算法在各个属性上 的表现,和 7 个先进视频跟踪算法在 OTB-2015 数 据集各个属性上进行了比较。图 5 显示了 RLST 跟踪算法在光照变化、平面外旋转、尺度变化、低 分辨率、快速运动和运动模糊等 6 个属性上都取 得较高的性能。尤其是在低分辨率情况下,RLST 取得了最好性能,这也验证了通过区域损失函数 构建网络进行特征选择能够有效降低信息丢失。 0 0.2 0.4 0.6 0.8 1.0 重叠阈值 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 成功率 (b) OPE 成功率−光照变化 Ours [0.676] ECO-HC [0.640] SIAMRPN [0.655] PTAV [0.632] BACF [0.623] LDES [0.605] CfNet [0.581] Staple [0.593] 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 10 20 30 40 50 定位误差阈值 精准度 (a) OPE 精准度−光照变化 Ours [0.865] ECO-HC [0.820] SIAMRPN [0.864] PTAV [0.840] BACF [0.808] LDES [0.766] CfNet [0.757] Staple [0.782] 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 10 20 30 40 50 定位误差阈值 精准度 (c) OPE 精准度−平面外旋转 Ours [0.858] ECO-HC [0.834] SIAMRPN [0.855] PTAV [0.813] BACF [0.767] LDES [0.777] CfNet [0.741] Staple [0.738] 0 0.2 0.4 0.6 0.8 1.0 重叠阈值 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 成功率 (d) OPE 成功率−平面外旋转 Ours [0.635] ECO-HC [0.608] SIAMRPN [0.631] PTAV [0.601] BACF [0.568] LDES [0.592] CfNet [0.552] Staple [0.533] 第 4 期 吴贵山,等:区域损失函数的孪生网络目标跟踪 ·727·
·728· 智 能系统学 报 第15卷 1.0 0.9 0.9 0.8 0.8 7 0.7 06 =Ours0.847 SIAMRPN [0.8411 0.6 0urs0.6391 0.5 aEC0-HC[0.822] 0.5 1 SIAMRPN I0.62④ 0.4 PTAV[0.794 0.4 EC-HC[0.610] PTAV[0.586 0.3 CfNet [0.759 0.3 0.2 BACF [0.759 ■1 CfNet0.578 ■LDES0.753 0.2 LDES 0.574 BACF10.564 0.1 Staple [0.727 0.1 Staple [0.520 10 20 30 40 50 0 02 0.4 0.6 0.8 0 定位误差倒值 重叠阈值 (e)OPE精准度-尺度变化 ()OPE成功率-尺度变化 1.0 1.0 0.9 0.9 0.8 0.8 0.7 0is0.99 0.7 0.6 0.6 0urs[0.669 0 SIAMRPN [0.982] ■ECO-HC0.8881 0.5 SIAMRPN [0.6661 04 iI)F9「05621 BACF [0.844] 0.4 CfNet to.546 0 ■CfNet0.834 0.3 BACF [0.539] 0.2 PTAV [O.8117 EC0-HC0.5301 ■LDES I0.799 0.2 0.1 0.1 PTAV[0.496 -1 Staple[0.695] IStaple [0.399] 10 20 30 40 50 0 0.2 04 06 0.8 10 定位误差國值 重叠國值 (g)OPE精准度-低分辨率 h)OPE成功率-低分辨率 1.0 1.0 0.9 0.9 0.8 0.8 四居 0.7 0.7 EC0-HC[0.829] 0.6 ■Ours[0.640] 0.5 =10urs[0.812] a■SIAMRPN0.793] 0.5 =1EC0-HC[0.634 0.4 BACF[0.767 0.4 SIAMRPN 0.6061 0.3 ■PTAV0.759 PTAV[0.595 03 ■BAF0583 LDES [0.728 CINet [0.717 0.2 0 ■Staple0.710l 0.1 Staple [0.541] 10 20 30 40 50 0 0.2 0.4 0.6 0.8 定位误差阈值 重叠圆值 (①)OPE精准度-快速运动 ①OPE成功率-快速运动 1.0 1.0 0.9 0.9 0.8 0.8 0.7 0.7 0.6 SIAMRPN [0.821] 0.6 Ours[0.645 Ours[0.803] aEC0-HC0.8021 0.5 SIAMRPN [0.627] 0.4 PTAV [0.775] 0.4 ·EC0-HC[0.627] BACF [0.715] PTAV I0.6021 0.3 LDES [0.704 0.3 CfNet [0.568 0.2 ■Staple0.699 0.2 LDES [0.567 ,CfNet j0.695 BACF [0.554 0.1 0.1 Staple [0.540 20 30 40 0 0.2 0.40.6 0.8 1.0 定位误差倒值 重叠圆值 (k)OPE精准度-运动模糊 (①OPE成功率-运动模糊 图5在光照变化、平面外旋转、尺度变化、低分辨率、快速运动和运动模糊等6个属性上的精准度和成功率曲线 Fig.5 Precision plots and success plots over six tracking challenges,including illumination variation,out-of-plane rotation, scale variation,low resolution,fast motion and motion blur 为了全面比较RLST在所有属性上的表现: 和偏离视线(OV)属性上性能仅次于其他跟踪算 表1列出了RLST跟踪算法在另外5个属性上的 法。在背景干扰(BC)和遮挡(OCC)属性上表现 比较结果。在这些属性上,虽然RLST没有表现 不佳,可能原因是特征选择网络对邻域采样。构 出最好性能,但在形变(DEF)、平面内旋转(IPR) 建区域损失函数,将周围背景信息也考虑在内
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 10 20 30 40 50 定位误差阈值 精准度 (e) OPE 精准度−尺度变化 Ours [0.847] ECO-HC [0.822] SIAMRPN [0.841] PTAV [0.794] BACF [0.759] LDES [0.753] CfNet [0.759] Staple [0.727] 0 0.2 0.4 0.6 0.8 1.0 重叠阈值 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 成功率 (f) OPE 成功率−尺度变化 Ours [0.639] ECO-HC [0.610] SIAMRPN [0.624] PTAV [0.586] BACF [0.564] LDES [0.574] CfNet [0.578] Staple [0.520] 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 10 20 30 40 50 定位误差阈值 (k) OPE 精准度−运动模糊 精准度 Ours [0.803] ECO-HC [0.802] SIAMRPN [0.821] PTAV [0.775] BACF [0.715] LDES [0.704] CfNet [0.695] Staple [0.699] 0 0.2 0.4 0.6 0.8 1.0 重叠阈值 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 成功率 (l) OPE 成功率−运动模糊 Ours [0.645] ECO-HC [0.627] SIAMRPN [0.627] PTAV [0.602] BACF [0.554] LDES [0.567] CfNet [0.568] Staple [0.540] 0 0.2 0.4 0.6 0.8 1.0 重叠阈值 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 成功率 (h) OPE 成功率−低分辨率 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 10 20 30 40 50 定位误差阈值 精准度 (g) OPE 精准度−低分辨率 Ours [0.999] ECO-HC [0.888] SIAMRPN [0.982] PTAV [0.811] BACF [0.844] LDES [0.799] CfNet [0.834] Staple [0.695] 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 10 20 30 40 50 定位误差阈值 精准度 (i) OPE 精准度−快速运动 Ours [0.812] ECO-HC [0.829] SIAMRPN [0.793] PTAV [0.759] BACF [0.767] LDES [0.728] CfNet [0.717] Staple [0.710] 0 0.2 0.4 0.6 0.8 1.0 重叠阈值 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 成功率 (j) OPE 成功率−快速运动 Ours [0.640] ECO-HC [0.634] SIAMRPN [0.606] PTAV [0.595] BACF [0.583] LDES [0.572] CfNet [0.566] Staple [0.541] Ours [0.669] ECO-HC [0.530] SIAMRPN [0.666] PTAV [0.496] BACF [0.539] LDES [0.562] CfNet [0.546] Staple [0.399] 图 5 在光照变化、平面外旋转、尺度变化、低分辨率、快速运动和运动模糊等 6 个属性上的精准度和成功率曲线 Fig. 5 Precision plots and success plots over six tracking challenges, including illumination variation, out-of-plane rotation, scale variation, low resolution, fast motion and motion blur 为了全面比较 RLST 在所有属性上的表现, 表 1 列出了 RLST 跟踪算法在另外 5 个属性上的 比较结果。在这些属性上,虽然 RLST 没有表现 出最好性能,但在形变 (DEF)、平面内旋转 (IPR) 和偏离视线 (OV) 属性上性能仅次于其他跟踪算 法。在背景干扰 (BC) 和遮挡 (OCC) 属性上表现 不佳,可能原因是特征选择网络对邻域采样。构 建区域损失函数,将周围背景信息也考虑在内, ·728· 智 能 系 统 学 报 第 15 卷
第4期 吴贵山,等:区域损失函数的李生网络目标跟踪 ·729· 增加了过拟合的风险。下一步,将着重研究如何 了比较好的跟踪效果,进一步验证了RLST跟踪 降低背景信息干扰以及探索减少过拟合策略,应 算法的有效性。在OTB-2015数据集上定性比较 用到跟踪算法上以进一步提高性能。 结果如图7。 表1在OTB2015数据集上另外5个属性的AUC比较结果 0.40 CCOT Table 1 AUC scores for another five attributes on the 0.38 Ours OTB-2015 Dataset 0.36 SSAT 算法 0.34 R BC DEF IPR OCC OV 陶0.32 ★PO RLST(本文) 0.599 0.600 0.618 0.609 0.573 SRBT PTAVEn 至0.30 EBT 0.649 0.587 0.598 0.614 0.570 028 STAPLEp SIAMRPNEI DNT 0.601 0.622 0.6360.592 0.550 套0.26 ECO-HCl7 0.636 0.595 0.582 0.629 0.592 0.24 LDESBO 0.590 0.532 0.608 0.582 0.491 0.22 CFNet] 0.5950.528 0.555 0.559 0.537 0.20 21110987654321 BACFR28] 0.585 0.573 0.582 0.566 0.504 排名 Staple 0.5610.5500.5480.5420.476 图6在V0T2016数据集上的对比实验结果 注:黑体为最好结果,黑体下划线为第二好结果 Fig.6 Comparisons results on the VOT2016 dataset 为进一步验证所提跟踪算法在其他数据集上 表2在TempleColor数据集上的对比实验结果 性能,选取了VOT2016和TempleColor两个比较 Table 2 Comparison experiment resultson TempleColor 常用的基准数据集进行实验。图6和表2显示了 Dataset RLST跟踪算法与其他先进跟踪算法在VOT2016 算法 AUC得分 是否实时 速度(fs) 和TempleColor数据集上的对比实验结果。如 RLST(本文) 0.567 是 28 图6和表2所示,RLST总体跟踪性能取得EAO MCPFB321 0.545 否 评分0.327和AUC评分0.567的性能,分别仅次 HCF33 0.482 否 P 于C-C0T的EA0评分0.3294、EC0的AUC评分 ECO!7 0.600 否 2 0.600。尽管RLST没有取得最好的性能,但是C BACFR8] 0.520 是 35 COTB和ECOm都是非实时的跟踪算法。相比 PTAVE7 0.544 是 33 之下,所提跟踪算法能取得约28s的实时跟踪 Staple 0.498 浪 50 性能。总体来说,RLST在这两个数据集上取得 注:黑体为最好结果,黑体下划线为第二好结果 --…RLST(本文) -C-COT Staple CFNet PTAV ·BACF 图7在OTB-2015数据集上的定性比较结果 Fig.7 Qualitative evaluation of our proposed RLST and other trackers on OTB-2015 Dataset
增加了过拟合的风险。下一步,将着重研究如何 降低背景信息干扰以及探索减少过拟合策略,应 用到跟踪算法上以进一步提高性能。 为进一步验证所提跟踪算法在其他数据集上 性能,选取了 VOT2016 和 TempleColor 两个比较 常用的基准数据集进行实验。图 6 和表 2 显示了 RLST 跟踪算法与其他先进跟踪算法在 VOT2016 和 TempleColor 数据集上的对比实验结果。如 图 6 和表 2 所示,RLST 总体跟踪性能取得 EAO 评分 0.327 和 AUC 评分 0.567 的性能,分别仅次 于 C-COT 的 EAO 评分 0.329 4、ECO 的 AUC 评分 0.600。尽管 RLST 没有取得最好的性能,但是 CCOT[31] 和 ECO[17] 都是非实时的跟踪算法。相比 之下,所提跟踪算法能取得约 28 f/s 的实时跟踪 性能。总体来说,RLST 在这两个数据集上取得 了比较好的跟踪效果,进一步验证了 RLST 跟踪 算法的有效性。在 OTB-2015 数据集上定性比较 结果如图 7。 12 0.20 0.22 0.24 0.26 0.28 0.30 0.32 0.34 0.36 0.38 0.40 11 10 9 8 7 6 5 4 3 2 1 排名 期望平均重叠率 CCOT Ours TCNN SSAT DSiam MLDF Staple DDC SRBT EBT STAPLEp DNT 图 6 在 VOT2016 数据集上的对比实验结果 Fig. 6 Comparisons results on the VOT2016 dataset RLST (本文) C-COT Staple CFNet PTAV BACF 图 7 在 OTB-2015 数据集上的定性比较结果 Fig. 7 Qualitative evaluation of our proposed RLST and other trackers on OTB-2015 Dataset 表 1 在 OTB-2015 数据集上另外 5 个属性的 AUC 比较结果 Table 1 AUC scores for another five attributes on the OTB-2015 Dataset 算法 BC DEF IPR OCC OV RLST(本文) 0.599 0.600 0.618 0.609 0.573 PTAV[27] 0.649 0.587 0.598 0.614 0.570 SIAMRPN[21] 0.601 0.622 0.636 0.592 0.550 ECO-HC[17] 0.636 0.595 0.582 0.629 0.592 LDES[30] 0.590 0.532 0.608 0.582 0.491 CFNet[16] 0.595 0.528 0.555 0.559 0.537 BACF[28] 0.585 0.573 0.582 0.566 0.504 Staple[29] 0.561 0.550 0.548 0.542 0.476 注:黑体为最好结果,黑体下划线为第二好结果 表 2 在 TempleColor 数据集上的对比实验结果 Table 2 Comparison experiment resultson TempleColor Dataset 算法 AUC得分 是否实时 速度/(f·s−1) RLST(本文) 0.567 是 28 MCPF[32] 0.545 否 1 HCF[33] 0.482 否 8 ECO[17] 0.600 否 3 BACF[28] 0.520 是 35 PTAV[27] 0.544 是 25 Staple[29] 0.498 是 50 注:黑体为最好结果,黑体下划线为第二好结果 第 4 期 吴贵山,等:区域损失函数的孪生网络目标跟踪 ·729·
·730· 智能系统学报 第15卷 3.33定性实验分析 vision[J].Electronic design engineering,2019,27(11): 为直观展示可视化跟踪结果,分别与C-COT) 150-153 Staple2、CFNet!、PTAVI27、BACF8等5个先进 [6]王杰,蒋明敏,花晓慧,等.基于投影直方图匹配的双目 跟踪算法进行了定性评估比较。如图7,从上到 视觉跟踪算法[.智能系统学报,2015,10(5):775-782. 下依次为Bird1、Box、Skiing、Girl2和Dragon- WANG Jie,JIANG Mingmin,HUA Xiaohui,et al.Bin- ocular object tracking method using projection histogram Baby等5个视频序列。RLST跟踪算法在这5个 matching[J].CAAl transactions on intelligent systems, 视频序列上都表现出较好的性能,尤其在Box和 2015,10(5):775-782 Skiing视频序列,从初始帧到最后一帧,几乎没有 [7]SONG Yibing,MA Chao,GONG Lijun,et al.CREST: 出现跟踪失败的情况。在另外3个视频序列,虽 convolutional residual learning for visual tracking[C]/Pro- 然有些帧会发生微小的偏移,但基本上都能跟踪 ceedings of 2017 IEEE International Conference on Com- 定位到运动目标。针对Skiing低分辨率视频序 puter Vision.Venice,Italy,2017:2574-2583 列,跟踪精度达到近98.7%。RLST通过区域损失 [8]TENG Zhu,XING Junliang,WANG Qiang,et al.Robust 函数构建特征选择网络,减少了预训练深度特征 object tracking based on temporal and spatial deep net- 通道之间的信息冗余,通过损失函数反向传播的 works[Cl//Proceedings of 2017 IEEE International Confer- 梯度能够有效地选择更鲁棒的目标和尺度特征, ence on Computer Vision.Venice,Italy,2017:1153-1162. [9]SUN Chong,WANG Dong,LU Huchuan,et al.Correla- 验证了所提算法的有效性和鲁棒性。 tion tracking via joint discrimination and reliability learn- 4结束语 ing[C]//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City, 本文提出了区域损失函数的孪生网络目标跟 USA,2018:489-497 踪RLST。在像素级网络损失函数中,利用区域 [10]SUN Chong,WANG Dong,LU Huchuan,et al.Learning 损失函数来降低深度特征通道之间的冗余性,有 spatial-aware regressions for visual tracking[C]//Proceed- 效地解决了预训练深度特征空间分辨率低,以及 ings of the IEEE/CVF Conference on Computer Vision 剧烈运动下运动目标空间细节信息丢失的问题, and Pattern Recognition.Salt Lake City,USA,2018: 8962-8970. 提高了跟踪精度和鲁棒性。在背景干扰和遮挡情 [11]宁欣,李卫军,田伟娟,等.一种自适应模板更新的判别 况下,RLST性能表现并不是最好。因此,下一步 式KCF跟踪方法[].智能系统学报,2019,14(1): 将探索新的采样策略来减少背景信息干扰,以及 121-126. 寻求解决过拟合的方法来进一步提高跟踪精度和 NING Xin,LI Weijun,TIAN Weijuan,et al.Adaptive 鲁棒性。 template update of discriminant KCF for visual tracking[J].CAAI transactions on intelligent systems, 参考文献: 2019.14(1121-126. [1]ZHANG Shengping,YAO Hongxun,SUN Xin,et al. [12]BERTINETTO L,VALMADRE J,HENRIQUES J F,et Sparse coding based visual tracking:review and experi- al.Fully-convolutional Siamese networks for object track- mental comparison[J].Pattern recognition,2013,46(7): ing[C]//Proceedings of European Conference on Com- 1772-1788 puter Vision.Amsterdam,the Netherlands,2016: [2]FIAZ M,MAHMOOD A,JAVED S,et al.Handcrafted 850-865. and deep trackers:recent visual object tracking approaches [13]GUO Qing,FENG Wei,ZHOU Ce,et al.Learning dy- and trends[J].ACM computing surveys,2018,52(2):43. namic Siamese network for visual object tracking[C]// [3]TANG Siyu,ANDRILUKA M,ANDRES B,et al.Mul- Proceedings of 2017 IEEE International Conference on tiple people tracking by lifted Multicut and person re-iden- Computer Vision.Venice,Italy,2017:1781-1789. tification[C]//Proceedings of 2017 IEEE Conference on [14]VALMADRE J.BERTINETTO L.HENRIQUES J.et al. Computer Vision and Pattern Recognition.Honolulu,USA, End-to-end representation learning for correlation filter 2017:3701-3710. based tracking[Cl//Proceedings of 2017 IEEE Confer- [4]LEE K H,HWANG J N.On-road pedestrian tracking ence on Computer Vision and Pattern Recognition.Hon- across multiple driving recorders[J].IEEE transactions on olulu.USA,2017:5000-5008. multimedia,.2015,17(9):1429-1438. [15]NAM H,HAN B.Learning multi-domain convolutional [5]彭文亮,梁祝,李智峰.基于机器视觉的无人机识别系统 neural networks for visual tracking[C]//Proceedings of 算法分析).电子设计工程,2019,27(11):150-153. 2016 IEEE Conference on Computer Vision and Pattern PENG Wenliang,LIANG Zhu,LI Zhifeng.Algorithm ana- Recognition.Las Vegas,USA,2016:4293-4302 lysis of UAV recognition system based on machine [16]DANELLJAN M,HAGER G,KHAN F S,et al.Learn-
3.3.3 定性实验分析 为直观展示可视化跟踪结果,分别与 C-COT[33] 、 Staple[29] 、CFNet[14] 、PTAV[27] 、BACF[28] 等 5 个先进 跟踪算法进行了定性评估比较。如图 7,从上到 下依次为 Bird1、Box、Skiing、Girl2 和 DragonBaby 等 5 个视频序列。RLST 跟踪算法在这 5 个 视频序列上都表现出较好的性能,尤其在 Box 和 Skiing 视频序列,从初始帧到最后一帧,几乎没有 出现跟踪失败的情况。在另外 3 个视频序列,虽 然有些帧会发生微小的偏移,但基本上都能跟踪 定位到运动目标。针对 Skiing 低分辨率视频序 列,跟踪精度达到近 98.7%。RLST 通过区域损失 函数构建特征选择网络,减少了预训练深度特征 通道之间的信息冗余,通过损失函数反向传播的 梯度能够有效地选择更鲁棒的目标和尺度特征, 验证了所提算法的有效性和鲁棒性。 4 结束语 本文提出了区域损失函数的孪生网络目标跟 踪 RLST。在像素级网络损失函数中,利用区域 损失函数来降低深度特征通道之间的冗余性,有 效地解决了预训练深度特征空间分辨率低,以及 剧烈运动下运动目标空间细节信息丢失的问题, 提高了跟踪精度和鲁棒性。在背景干扰和遮挡情 况下,RLST 性能表现并不是最好。因此,下一步 将探索新的采样策略来减少背景信息干扰,以及 寻求解决过拟合的方法来进一步提高跟踪精度和 鲁棒性。 参考文献: ZHANG Shengping, YAO Hongxun, SUN Xin, et al. Sparse coding based visual tracking: review and experimental comparison[J]. Pattern recognition, 2013, 46(7): 1772–1788. [1] FIAZ M, MAHMOOD A, JAVED S, et al. Handcrafted and deep trackers: recent visual object tracking approaches and trends[J]. ACM computing surveys, 2018, 52(2): 43. [2] TANG Siyu, ANDRILUKA M, ANDRES B, et al. Multiple people tracking by lifted Multicut and person re-identification[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA, 2017: 3701−3710. [3] LEE K H, HWANG J N. On-road pedestrian tracking across multiple driving recorders[J]. IEEE transactions on multimedia, 2015, 17(9): 1429–1438. [4] 彭文亮, 梁祝, 李智峰. 基于机器视觉的无人机识别系统 算法分析 [J]. 电子设计工程, 2019, 27(11): 150–153. PENG Wenliang, LIANG Zhu, LI Zhifeng. Algorithm analysis of UAV recognition system based on machine [5] vision[J]. Electronic design engineering, 2019, 27(11): 150–153. 王杰, 蒋明敏, 花晓慧, 等. 基于投影直方图匹配的双目 视觉跟踪算法 [J]. 智能系统学报, 2015, 10(5): 775–782. WANG Jie, JIANG Mingmin, HUA Xiaohui, et al. Binocular object tracking method using projection histogram matching[J]. CAAI transactions on intelligent systems, 2015, 10(5): 775–782. [6] SONG Yibing, MA Chao, GONG Lijun, et al. CREST: convolutional residual learning for visual tracking[C]//Proceedings of 2017 IEEE International Conference on Computer Vision. Venice, Italy, 2017: 2574−2583. [7] TENG Zhu, XING Junliang, WANG Qiang, et al. Robust object tracking based on temporal and spatial deep networks[C]//Proceedings of 2017 IEEE International Conference on Computer Vision. Venice, Italy, 2017: 1153−1162. [8] SUN Chong, WANG Dong, LU Huchuan, et al. Correlation tracking via joint discrimination and reliability learning[C]//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA, 2018: 489−497. [9] SUN Chong, WANG Dong, LU Huchuan, et al. Learning spatial-aware regressions for visual tracking[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA, 2018: 8962−8970. [10] 宁欣, 李卫军, 田伟娟, 等. 一种自适应模板更新的判别 式 KCF 跟踪方法 [J]. 智能系统学报, 2019, 14(1): 121–126. NING Xin, LI Weijun, TIAN Weijuan, et al. Adaptive template update of discriminant KCF for visual tracking[J]. CAAI transactions on intelligent systems, 2019, 14(1): 121–126. [11] BERTINETTO L, VALMADRE J, HENRIQUES J F, et al. Fully-convolutional Siamese networks for object tracking[C]//Proceedings of European Conference on Computer Vision. Amsterdam, the Netherlands, 2016: 850−865. [12] GUO Qing, FENG Wei, ZHOU Ce, et al. Learning dynamic Siamese network for visual object tracking[C]// Proceedings of 2017 IEEE International Conference on Computer Vision. Venice, Italy, 2017: 1781−1789. [13] VALMADRE J, BERTINETTO L, HENRIQUES J, et al. End-to-end representation learning for correlation filter based tracking[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA, 2017: 5000−5008. [14] NAM H, HAN B. Learning multi-domain convolutional neural networks for visual tracking[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA, 2016: 4293−4302. [15] [16] DANELLJAN M, HÄGER G, KHAN F S, et al. Learn- ·730· 智 能 系 统 学 报 第 15 卷
第4期 吴贵山,等:区域损失函数的孪生网络目标跟踪 ·731· ing spatially regularized correlation filters for visual [28]GALOOGAHI H K,FAGG A,LUCEY S.Learning back- tracking[Cl//Proceedings of 2015 IEEE International Con- ground-aware correlation filters for visual tracking[C]// ference on Computer Vision.Santiago,Chile,2015: Proceedings of 2017 IEEE International Conference on 4310-4318 Computer Vision.Venice,Italy,2017:1144-1152. [17]DANELLJAN M,BHAT G,KHAN FS,et al.ECO:effi- [29]BERTINETTO L.VALMADRE J,GOLODETZ S,et al. cient convolution operators for tracking[C]//Proceedings Staple:complementary learners for real-time track- of 2017 IEEE Conference on Computer Vision and Pat- ing[C]//Proceedings of 2016 IEEE Conference on Com- tern Recognition.Honolulu,USA,2017:6931-6939. puter Vision and Pattern Recognition.Las Vegas,USA, [18]HUANG Chen,LUCEY S,RAMANAN D.Learning 2016:1401-1409 policies for adaptive tracking with deep feature casca- [30]LI Yang,ZHU Jianke,HOI S C H,et al.Robust estima- des[C]//Proceedings of 2017 IEEE International Confer- tion of similarity transformation for visual object track- ence on Computer Vision.Venice,Italy,2017:105-114. ing[C]//Proceedings of AAAI Conference on Artificial In- [19]SIMONYAN K,ZISSERMAN A.Very deep convolu- telligence.Hawaii,USA,2019:8666-8673. tional networks for large-scale image recognition[J]. [31]DANELLJAN M,ROBINSON A.KHAN F S,et al.Bey- 2015:arXiv:1409.1556v6. ond correlation filters:learning continuous convolution [20]HE Kaiming,ZHANG Xiangyu,REN Shaoqing,et al. operators for visual tracking[C]//Proceedings of the 14th Deep residual learning for image recognition[Cl//Proceed- European Conference on Computer Vision.Amsterdam. ings of 2016 IEEE Conference on Computer Vision and The Netherlands,2016:472-488. Pattern Recognition.Las Vegas,USA,2016:770-778. [32]ZHANG Tianzhu,XU Changsheng,YANG M H.Multi- [21]LI Bo,YAN Junjie,WU Wei,et al.High performance task correlation particle filter for robust object track- visual tracking with Siamese region proposal network[C]// ing[C]//Proceedings of 2017 IEEE Conference on Com- Proceedings of 2018 IEEE/CVF Conference on Com- puter Vision and Pattern Recognition.Honolulu,USA, puter Vision and Pattern Recognition.Salt Lake,USA, 2017:4819-4827 2018:8971-8980. [33]MA Chao,HUANG Jiabin,YANG Xiaokang,et al.Hier- [22]WANG Qiang,ZHANG Li,BERTINETTO L,et al.Fast archical convolutional features for visual tracking[C]// online object tracking and segmentation:a unifying ap- Proceedings of 2015 IEEE International Conference on proach[C]//Proceedings of 2019 IEEE/CVF Conference Computer Vision.Santiago,Chile,2015:3074-3082. on Computer Vision and Pattern Recognition.Long 作者简介: Beach.USA,2019:1328-1338. 吴贵山,高级讲师,主要研究方向 [23]WU Yi,LIM J,YANG M H.Online object tracking:a 为计算机视觉和机器学习。发表学术 benchmark[Cl//Proceedings of 2013 IEEE Conference on 论文7篇。 Computer Vision and Pattern Recognition.Portland, USA.2013:2411-2418. [24]WU Yi,LIM J,YANG M H.Object Tracking Bench- mark[J.IEEE transactions on pattern analysis and ma- chine intelligence,2015,37(9):1834-1848. 林淑彬,讲师,主要研究方向为计 [25]KRISTAN M.LEONARDIS A,MATAS J,et al.The 算机视觉和模式识别。 visual object tracking VOT2016 challenge results[C]// Proceedings of European Conference on Computer Vis- ion.Amsterdam,The Netherlands,2016:777-823 [26]LIANG Pengpeng,BLASCH E,LING Haibin.Encoding color information for visual tracking:algorithms and benchmark[J].IEEE transactions on image processing, 杨文元,副教授,博士,主要研究 2015,24(12):5630-5644. 方向为计算机视觉、模式识别和机器 [27]FAN Heng,LING Haibin.Parallel tracking and verifying: 学习。 a framework for real-time and high accuracy visual track- ing[C]//Proceedings of 2017 IEEE International Confer- ence on Computer Vision.Venice,Italy,2017: 5487-5495
ing spatially regularized correlation filters for visual tracking[C]//Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago, Chile, 2015: 4310−4318. DANELLJAN M, BHAT G, KHAN FS, et al. ECO: efficient convolution operators for tracking[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA, 2017: 6931−6939. [17] HUANG Chen, LUCEY S, RAMANAN D. Learning policies for adaptive tracking with deep feature cascades[C]//Proceedings of 2017 IEEE International Conference on Computer Vision. Venice, Italy, 2017: 105−114. [18] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[J]. 2015: arXiv: 1409.1556v6. [19] HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al. Deep residual learning for image recognition[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA, 2016: 770−778. [20] LI Bo, YAN Junjie, WU Wei, et al. High performance visual tracking with Siamese region proposal network[C]// Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake, USA, 2018: 8971−8980. [21] WANG Qiang, ZHANG Li, BERTINETTO L, et al. Fast online object tracking and segmentation: a unifying approach[C]//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA, 2019: 1328−1338. [22] WU Yi, LIM J, YANG M H. Online object tracking: a benchmark[C]//Proceedings of 2013 IEEE Conference on Computer Vision and Pattern Recognition. Portland, USA, 2013: 2411−2418. [23] WU Yi, LIM J, YANG M H. Object Tracking Benchmark[J]. IEEE transactions on pattern analysis and machine intelligence, 2015, 37(9): 1834–1848. [24] KRISTAN M, LEONARDIS A, MATAS J, et al. The visual object tracking VOT2016 challenge results[C]// Proceedings of European Conference on Computer Vision. Amsterdam, The Netherlands, 2016: 777−823. [25] LIANG Pengpeng, BLASCH E, LING Haibin. Encoding color information for visual tracking: algorithms and benchmark[J]. IEEE transactions on image processing, 2015, 24(12): 5630–5644. [26] FAN Heng, LING Haibin. Parallel tracking and verifying: a framework for real-time and high accuracy visual tracking[C]//Proceedings of 2017 IEEE International Conference on Computer Vision. Venice, Italy, 2017: 5487−5495. [27] GALOOGAHI H K, FAGG A, LUCEY S. Learning background-aware correlation filters for visual tracking[C]// Proceedings of 2017 IEEE International Conference on Computer Vision. Venice, Italy, 2017: 1144−1152. [28] BERTINETTO L, VALMADRE J, GOLODETZ S, et al. Staple: complementary learners for real-time tracking[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA, 2016: 1401−1409. [29] LI Yang, ZHU Jianke, HOI S C H, et al. Robust estimation of similarity transformation for visual object tracking[C]//Proceedings of AAAI Conference on Artificial Intelligence. Hawaii, USA, 2019: 8666−8673. [30] DANELLJAN M, ROBINSON A, KHAN F S, et al. Beyond correlation filters: learning continuous convolution operators for visual tracking[C]//Proceedings of the 14th European Conference on Computer Vision. Amsterdam, The Netherlands, 2016: 472−488. [31] ZHANG Tianzhu, XU Changsheng, YANG M H. Multitask correlation particle filter for robust object tracking[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA, 2017: 4819−4827. [32] MA Chao, HUANG Jiabin, YANG Xiaokang, et al. Hierarchical convolutional features for visual tracking[C]// Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago, Chile, 2015: 3074−3082. [33] 作者简介: 吴贵山,高级讲师,主要研究方向 为计算机视觉和机器学习。发表学术 论文 7 篇。 林淑彬,讲师,主要研究方向为计 算机视觉和模式识别。 杨文元,副教授,博士,主要研究 方向为计算机视觉、模式识别和机器 学习。 第 4 期 吴贵山,等:区域损失函数的孪生网络目标跟踪 ·731·