工程科学学报.第42卷,第3期:381-389.2020年3月 Chinese Journal of Engineering,Vol.42,No.3:381-389,March 2020 https://doi.org/10.13374/j.issn2095-9389.2019.06.06.005;http://cje.ustb.edu.cn 复杂环境下一种基于SiamMask的时空预测移动目标跟 踪算法 周珂”,张浩博2)区,付冬梅,赵志毅),曾惠2) 1)北京科技大学高等工程师学院,北京1000832)北京科技大学自动化学院,北京100083 ☒通信作者,E-mail:cocofay126@126.com 摘要随着无人工厂、智能安监等技术在制造业领域的深人应用,以视觉识别预警系统为代表的复杂环境下动态识别技术 成为智能工业领域的重要研究内容之一,在本文所述的工业级视觉识别预警系统中,操作人员头发区域由于其具有移动形 态非规则性、运动无规律性的特点,在动态图像中的实时分割较为困难.针对此问题,提出一种基于SiamMask模型的时空预 测移动目标跟踪算法.该算法将基于PyTorch深度学习框架的SiamMask单目标跟踪算法与ROI检测及STC时空上下文预 测算法相融合,根据目标时空关系的在线学习,预测新的目标位置并对SiamMask模型进行算法校正,实现视频序列中的目标 快速识别.实验结果表明,所提出的算法能够克服环境干扰、目标遮挡对跟踪效果的影响,将目标跟踪误识别率降低至 0.156%.该算法计算时间成本为每秒30帧,比改进前的SiamMask模型帧率每秒提高3.2帧.算法效率提高11.94%.该算法 达到视觉识别预警系统准确性、实时性的要求,对移动目标识别算法模型的复杂环境应用具有借鉴意义 关键词深度学习:复杂环境:移动目标识别:SiamMask:STC 分类号TG142.71 Design and implementation of multi-feature fusion moving target detection algorithms in a complex environment based on SiamMask ZHOU Ke,ZHANG Hao-bo2,FU Dong-me),ZHAO Zhi-yi,ZENG Hup) 1)School of Advanced Engineering,University of Science and Technology Beijing,Beijing 100083,China 2)School of Automation and Electrical Engineering,University of Science and Technology Beijing,Beijing 100083,China Corresponding author,E-mail:cocofay126@126.com ABSTRACT Moving target recognition in a complex environment is recently an important research direction in the field of image recognition.The current research focus is how to track moving objects online in complex scenes to meet the real-time and reliability requirements of image tracking and subsequent processing.With the in-depth application of unmanned factory,intelligent safety supervision and other technologies in the field of manufacturing industry,dynamic recognition technology in the complex environment represented by a visual recognition warning system has become an important research in the field of intelligent industry,and the detection requirements of high reliability and real-time for mobile target detection have been identified.In the industrial level vision recognition warning system described in this paper,the hair area of operators was difficult to be segmented in real time because of its irregular movement.To solve this problem,a space-time predictive moving target tracking algorithm was proposed based on the SiamMask model.This algorithm combined the SiamMask single target tracking algorithm based on the PyTorch deep learning framework with ROI detection and STC spatiotemporal context prediction algorithm.According to the online learning of the spatiotemporal relationship of the target,it predicted the new target location and corrected the algorithm of the SiamMask model to 收稿日期:2019-06-06 基金项目:国家自然科学基金资助项目(61375010:北京科技大学基本科研业务费资助项目(FRF-0T-18-020SY)
复杂环境下一种基于 SiamMask 的时空预测移动目标跟 踪算法 周 珂1),张浩博2) 苣,付冬梅2),赵志毅1),曾 惠2) 1) 北京科技大学高等工程师学院,北京 100083 2) 北京科技大学自动化学院,北京 100083 苣通信作者,E-mail: cocofay126@126.com 摘 要 随着无人工厂、智能安监等技术在制造业领域的深入应用,以视觉识别预警系统为代表的复杂环境下动态识别技术 成为智能工业领域的重要研究内容之一. 在本文所述的工业级视觉识别预警系统中,操作人员头发区域由于其具有移动形 态非规则性、运动无规律性的特点,在动态图像中的实时分割较为困难. 针对此问题,提出一种基于 SiamMask 模型的时空预 测移动目标跟踪算法. 该算法将基于 PyTorch 深度学习框架的 SiamMask 单目标跟踪算法与 ROI 检测及 STC 时空上下文预 测算法相融合,根据目标时空关系的在线学习,预测新的目标位置并对 SiamMask 模型进行算法校正,实现视频序列中的目标 快速识别. 实验结果表明,所提出的算法能够克服环境干扰、目标遮挡对跟踪效果的影响,将目标跟踪误识别率降低至 0.156%. 该算法计算时间成本为每秒 30 帧,比改进前的 SiamMask 模型帧率每秒提高 3.2 帧,算法效率提高 11.94%. 该算法 达到视觉识别预警系统准确性、实时性的要求,对移动目标识别算法模型的复杂环境应用具有借鉴意义. 关键词 深度学习;复杂环境;移动目标识别;SiamMask;STC 分类号 TG142.71 Design and implementation of multi-feature fusion moving target detection algorithms in a complex environment based on SiamMask ZHOU Ke1) ,ZHANG Hao-bo2) 苣 ,FU Dong-mei2) ,ZHAO Zhi-yi1) ,ZENG Hui2) 1) School of Advanced Engineering, University of Science and Technology Beijing, Beijing 100083, China 2) School of Automation and Electrical Engineering, University of Science and Technology Beijing, Beijing 100083, China 苣 Corresponding author, E-mail: cocofay126@126.com ABSTRACT Moving target recognition in a complex environment is recently an important research direction in the field of image recognition. The current research focus is how to track moving objects online in complex scenes to meet the real-time and reliability requirements of image tracking and subsequent processing. With the in-depth application of unmanned factory, intelligent safety supervision and other technologies in the field of manufacturing industry, dynamic recognition technology in the complex environment represented by a visual recognition warning system has become an important research in the field of intelligent industry, and the detection requirements of high reliability and real-time for mobile target detection have been identified. In the industrial level vision recognition warning system described in this paper, the hair area of operators was difficult to be segmented in real time because of its irregular movement. To solve this problem, a space-time predictive moving target tracking algorithm was proposed based on the SiamMask model. This algorithm combined the SiamMask single target tracking algorithm based on the PyTorch deep learning framework with ROI detection and STC spatiotemporal context prediction algorithm. According to the online learning of the spatiotemporal relationship of the target, it predicted the new target location and corrected the algorithm of the SiamMask model to 收稿日期: 2019−06−06 基金项目: 国家自然科学基金资助项目 (61375010);北京科技大学基本科研业务费资助项目 (FRF-OT-18-020SY) 工程科学学报,第 42 卷,第 3 期:381−389,2020 年 3 月 Chinese Journal of Engineering, Vol. 42, No. 3: 381−389, March 2020 https://doi.org/10.13374/j.issn2095-9389.2019.06.06.005; http://cje.ustb.edu.cn
382 工程科学学报,第42卷,第3期 realize the fast recognition of the target in the video sequence.The experimental results show that the proposed algorithm can overcome the influence of environmental interference and target occlusion on the tracking effect,reducing the target tracking error recognition rate to 0.156%.The computational time cost is 30 frames per second,which is 3.2 frames per second greater than the frame rate of the improved SiamMask model and 11.94%greater efficiency than that of the original SiamMask model.The algorithm meets the requirements of accuracy and real-time performance of the visual recognition and early warning system,and has reference significance for the application of the moving target recognition algorithm model in a complex environment. KEY WORDS deep learning;complex environment;moving target recognition;SiamMask;STC 视频图像的跟踪及特征分割,是视频应用中 生产操作环节里,由于人的安全防护不符合规范, 的一项基本任务,如自动监视山,车辆导航,视频标 操作人员的头发往往是导致严重安全事故的隐患 签,人机交互四和行为识别等,如何在使用场景 之一.如女性操作车床时,若未扎好头发或未戴帽 中,对视频流在线执行目标跟踪,满足图像跟踪及 子,散落的发梢极易被卷进高速旋转的车床部件 后续处理的实时性、可靠性需求,是目前图像识别 中,带来严重的人身安全事故.随着数字化管理手 领域的重要研究方向 段的普及,操作环节的全时监控已在生产过程中 20l6年,Bertinetto等]提出SiamFC算法,利 得到普遍应用,预警系统可通过监控视频的目标 用CNN的全卷积(Fully-convolutional)神经网络进 识别,达到对危险因素监测、预警的目的.然而头 行实时图像的跟踪处理,克服了传统深度学习在 发由于移动中的非规则性、运动无规律性,使得头 实时视频图像处理中计算量大、效率过低的缺陷 发区域在运动图像中的分割较为困难.常见的动 2018年,Li等结合了SiameseFC和Faster R- 态图像识别Camshift算法以颜色直方图为特征对 CNN中的RPN(Region proposal network),使得实 目标进行跟踪8-,对刚性目标的跟踪具有较强的 时图像的提取速度大大加快,同时也达到较高精 鲁棒性.但当目标过于复杂、目标被遮挡或做加 度效果,其目标跟踪算法的代码实现精度在 速运动时,很容易发生目标跟丢的情况.目前国内 VOT2018排名第一,鲁棒性大大增强.2019年,中 外头发区域分割多集中在二维图像中心四,对移 科院Wang等提出新算法SiamMask,实时进行 动目标的头发区域分割尚无工业实现的先例 目标跟踪和半监督视频对象分割,采用基于数百 本文的动态识别检测以北京科技大学工程训 万视频帧上离线训练的全卷积网络Siamese,.缩小 练中心金工实习车床加工环节为样本,其结果需 任意目标跟踪与VOS之间的差距,在视频跟踪任 满足生产环节的安全操作预警,要求较高的识别 务上达到最优性能,并且在视频目标分割上取得 准确性及算法效率.因此提出了一种基于PyTorch 了当前最快速度 深度学习框架,将SiamMask单目标跟踪算法与 上述算法在已有开源数据库的实时识别中均 ROI(Region of interest)检测及STC(Spatio-temporal 有出色表现,但在应用场景里,由于识别背景的复 context learning)时空上下文目标跟踪算法融合的 杂性及遮挡性、目标特征的差异性、环境影响的 方法),满足实际场景中对人员头发区域动态分 随机性等因素,会存在一定的目标误识别现象6刃 割识别的任务需求 针对如何在识别准确度要求较高的应用场景中 1.2基于SiamMask模型的面部动态检测实现 (如生产安全智能预警系统中的移动目标实时图 动态视频检测的重要技术难题就是如何更 像识别),实现高效、快速的实时图像识别,开展了本文研 快、更有效,本文基于2019年5月PySOT目标跟 究内容.提出一种基于SiamMask的时空预测移动 踪库l的最新成果SiamMask模型进行面部动态 目标跟踪算法,克服环境干扰、目标遮挡对跟踪效 检测).SiamMask是当前视频图像目标跟踪模型 果的影响,实现视频序列中的目标快速识别,对移动 中,最为出色的快速跟踪和分割方法.该算法基 目标识别算法模型的复杂环境应用具有借鉴意义 于PyTorch深度学习框架,实时进行目标跟踪和半 监督视频对象分割,通过增加目标分割的损失,改 基于SiamMask的时空预测移动目标跟 进了全卷积网络Siamese跟踪方法的离线训练过 踪算法设计 程.经过训练,SiamMask完全依赖于初始化单个 1.1应用场景提出 边界框并在线操作,产生类别未知的目标分割 机床加工在工业生产中应用极为广泛,实际 Mask和实时每秒35帧的旋转边界框.在VOT-
realize the fast recognition of the target in the video sequence. The experimental results show that the proposed algorithm can overcome the influence of environmental interference and target occlusion on the tracking effect, reducing the target tracking error recognition rate to 0.156%. The computational time cost is 30 frames per second, which is 3.2 frames per second greater than the frame rate of the improved SiamMask model and 11.94% greater efficiency than that of the original SiamMask model. The algorithm meets the requirements of accuracy and real-time performance of the visual recognition and early warning system, and has reference significance for the application of the moving target recognition algorithm model in a complex environment. KEY WORDS deep learning;complex environment;moving target recognition;SiamMask;STC 视频图像的跟踪及特征分割,是视频应用中 的一项基本任务,如自动监视[1] ,车辆导航,视频标 签,人机交互[2] 和行为识别等. 如何在使用场景 中,对视频流在线执行目标跟踪,满足图像跟踪及 后续处理的实时性、可靠性需求,是目前图像识别 领域的重要研究方向. 2016 年 ,Bertinetto 等[3] 提出 SiamFC 算法,利 用 CNN 的全卷积(Fully-convolutional)神经网络进 行实时图像的跟踪处理,克服了传统深度学习在 实时视频图像处理中计算量大、效率过低的缺陷. 2018 年 , Li 等 [4] 结 合 了 SiameseFC 和 Faster RCNN 中的 RPN(Region proposal network),使得实 时图像的提取速度大大加快,同时也达到较高精 度 效 果 , 其 目 标 跟 踪 算 法 的 代 码 实 现 精 度 在 VOT2018 排名第一,鲁棒性大大增强. 2019 年,中 科院 Wang 等[5] 提出新算法 SiamMask,实时进行 目标跟踪和半监督视频对象分割,采用基于数百 万视频帧上离线训练的全卷积网络 Siamese,缩小 任意目标跟踪与 VOS 之间的差距,在视频跟踪任 务上达到最优性能,并且在视频目标分割上取得 了当前最快速度. 上述算法在已有开源数据库的实时识别中均 有出色表现,但在应用场景里,由于识别背景的复 杂性及遮挡性、目标特征的差异性、环境影响的 随机性等因素,会存在一定的目标误识别现象[6−7] . 针对如何在识别准确度要求较高的应用场景中 (如生产安全智能预警系统中的移动目标实时图 像识别),实现高效、快速的实时图像识别,开展了本文研 究内容. 提出一种基于 SiamMask 的时空预测移动 目标跟踪算法,克服环境干扰、目标遮挡对跟踪效 果的影响,实现视频序列中的目标快速识别,对移动 目标识别算法模型的复杂环境应用具有借鉴意义. 1 基于 SiamMask 的时空预测移动目标跟 踪算法设计 1.1 应用场景提出 机床加工在工业生产中应用极为广泛,实际 生产操作环节里,由于人的安全防护不符合规范, 操作人员的头发往往是导致严重安全事故的隐患 之一. 如女性操作车床时,若未扎好头发或未戴帽 子,散落的发梢极易被卷进高速旋转的车床部件 中,带来严重的人身安全事故. 随着数字化管理手 段的普及,操作环节的全时监控已在生产过程中 得到普遍应用,预警系统可通过监控视频的目标 识别,达到对危险因素监测、预警的目的. 然而头 发由于移动中的非规则性、运动无规律性,使得头 发区域在运动图像中的分割较为困难. 常见的动 态图像识别 Camshift 算法以颜色直方图为特征对 目标进行跟踪[8−9] ,对刚性目标的跟踪具有较强的 鲁棒性. 但当目标过于复杂、目标被遮挡或做加 速运动时,很容易发生目标跟丢的情况. 目前国内 外头发区域分割多集中在二维图像中[10−12] ,对移 动目标的头发区域分割尚无工业实现的先例. 本文的动态识别检测以北京科技大学工程训 练中心金工实习车床加工环节为样本,其结果需 满足生产环节的安全操作预警,要求较高的识别 准确性及算法效率. 因此提出了一种基于 PyTorch 深度学习框架,将 SiamMask 单目标跟踪算法与 ROI(Region of interest)检测及 STC(Spatio-temporal context learning)时空上下文目标跟踪算法融合的 方法[13] ,满足实际场景中对人员头发区域动态分 割识别的任务需求. 1.2 基于 SiamMask 模型的面部动态检测实现 动态视频检测的重要技术难题就是如何更 快、更有效,本文基于 2019 年 5 月 PySOT 目标跟 踪库[14] 的最新成果 SiamMask 模型进行面部动态 检测[15] . SiamMask 是当前视频图像目标跟踪模型 中,最为出色的快速跟踪和分割方法. 该算法基 于 PyTorch 深度学习框架,实时进行目标跟踪和半 监督视频对象分割,通过增加目标分割的损失,改 进了全卷积网络 Siamese 跟踪方法的离线训练过 程. 经过训练,SiamMask 完全依赖于初始化单个 边界框并在线操作 ,产生类别未知的目标分割 Mask 和实时每秒 35 帧的旋转边界框. 在 VOT- · 382 · 工程科学学报,第 42 卷,第 3 期
周珂等:复杂环境下一种基于SiamMask的时空预测移动目标跟踪算法 383 2018、DAVIS-2016和DAVIS-.2017上均有极为出 目标跟踪处理,具有非常强的实时性、便捷性、计 色表现. 算低成本性.考虑应用场景对识别快速性的要求, 1.2.1算法移植测试优势 采用SiamMask对图像进行初步处理.为更好的测 如图1所示,Mask生成的网络采用的两层 试算法可用性,算法处理环境为工业环境中易于 1*1卷积,分别是256通道和63*63通道数,并采 实现的单GPU处理板 用了Refinement module(微调模块),这是一种不同 图2为SiamMask模型在工业系统视频中的测 分辨率的特征融合策略.在SiamFC和SiamRPN 试效果,对不同发型及尺寸视频目标的头部追踪, 基础上分别加上目标分割分支网络,形成两分支 该模块表现出较高的识别效率,平均识别速度可 和三分支的SiamMask网络.图1左边是共享权值 达每秒26.8帧 的孪生网络,在对模板(上分支网络)和搜索区域 1.2.2算法移植测试误识别现象 (下分支网络输入)特征提取后,进行卷积生成与 尽管算法识别效率高,但在环境嘈杂时,会出 模板最相似的相应区域.图中,*d表示深度相关 现跟踪误识别情况.如图3(a)、(b)所示,当追踪 权重叠加,Row表示响应窗口,Mask表示视频目 对象周围出现深色服装、肉色物体等干扰源时,算 标物体,Box为预测盒,Score为预测得分.f、h。、 法产生误识别现象;图3(c)为人脸被头发遮挡后, b。、S。P。分别为CNN、目标物体、预测盒、预测 该模型失去跟踪目标.此外,在目标出画面之外再 得分、响应窗口预测得分的处理函数 进来的情况下,继续跟踪效果不佳 SiamMask模型通过大量的深度学习网络离线 将SiamMask模型对7段测试视频的追踪效果 训练,将在线学习工作量节约至最小状态,整个模 进行统计,得到表1所列情况 型通过初始帧跟踪目标设定即可完成整段视频的 结合图3和表1数据可以看出,SiamMask网 (a) (b) 127#127*1 116 *17(630 Mask 127*127*3 1725 1*63*63) Ro:1*1*236 RW:1126 255◆255◆3 图1 SiamMask模型算法流程图阿.(a)三分支变型架构:(b)二分支变型架构核心 Fig.1 SiamMask model algorithmic flow chart!sl:(a)three-branch variant architecture;(b)two-branch variant head 图2 SiamMask模型面部检测效果.(a)束发头部跟踪;(b)长发头部跟踪I:(c)长发头部跟踪Ⅱ Fig.2 SiamMask model face detection effect:(a)bundle head tracking;(b)long hair head tracking I;(c)long hair head tracking II 图3 SiamMask模型测试误识别现象.(a)深色干扰源误识别:(b)肉色干扰误识别:(c)头发遮挡误识别 Fig.3 SiamMask model test misrecognition phenomenon:(a)misidentification of dark interference sources;(b)misidentification of flesh color interference;(c)misidentification of hair occlusion
2018、 DAVIS-2016 和 DAVIS-2017 上均有极为出 色表现. 1.2.1 算法移植测试优势 如 图 1 所示 , Mask 生成的网络采用的两 层 1*1 卷积,分别是 256 通道和 63*63 通道数,并采 用了 Refinement module(微调模块),这是一种不同 分辨率的特征融合策略. 在 SiamFC 和 SiamRPN 基础上分别加上目标分割分支网络,形成两分支 和三分支的 SiamMask 网络. 图 1 左边是共享权值 的孪生网络,在对模板(上分支网络)和搜索区域 (下分支网络输入)特征提取后,进行卷积生成与 模板最相似的相应区域. 图中,★d 表示深度相关 权重叠加,Row 表示响应窗口,Mask 表示视频目 标物体,Box 为预测盒,Score 为预测得分. fθ、hϕ、 bσ、sφ、pω 分别为 CNN、目标物体、预测盒、预测 得分、响应窗口预测得分的处理函数[5] . SiamMask 模型通过大量的深度学习网络离线 训练,将在线学习工作量节约至最小状态,整个模 型通过初始帧跟踪目标设定即可完成整段视频的 目标跟踪处理,具有非常强的实时性、便捷性、计 算低成本性. 考虑应用场景对识别快速性的要求, 采用 SiamMask 对图像进行初步处理. 为更好的测 试算法可用性,算法处理环境为工业环境中易于 实现的单 GPU 处理板. 图 2 为 SiamMask 模型在工业系统视频中的测 试效果,对不同发型及尺寸视频目标的头部追踪, 该模块表现出较高的识别效率,平均识别速度可 达每秒 26.8 帧. 1.2.2 算法移植测试误识别现象 尽管算法识别效率高,但在环境嘈杂时,会出 现跟踪误识别情况. 如图 3(a)、(b)所示,当追踪 对象周围出现深色服装、肉色物体等干扰源时,算 法产生误识别现象;图 3(c)为人脸被头发遮挡后, 该模型失去跟踪目标. 此外,在目标出画面之外再 进来的情况下,继续跟踪效果不佳. 将 SiamMask 模型对 7 段测试视频的追踪效果 进行统计,得到表 1 所列情况. 结合图 3 和表 1 数据可以看出,SiamMask 网 127*127*3 15*15*256 17*17*256 *d (a) (b) bσ 17*17*4k sφ 17*17*4k 17*17*(63*63) 17*17*256 17*17*(63*63) 1*1*(63*63) 1*1*(63*63) RoW: 1*1*256 127*127*1 Mask Mask Box Score hϕ hϕ pω 17*17*1 Score RoW: 1*1*256 31*31*256 255*255*3 fθ fθ 图 1 SiamMask 模型算法流程图[5] . (a)三分支变型架构;(b)二分支变型架构核心 Fig.1 SiamMask model algorithmic flow chart[5] : (a) three-branch variant architecture; (b) two-branch variant head (a) (b) (c) 图 2 SiamMask 模型面部检测效果. (a)束发头部跟踪;(b)长发头部跟踪Ⅰ;(c)长发头部跟踪Ⅱ Fig.2 SiamMask model face detection effect: (a) bundle head tracking; (b) long hair head tracking I; (c) long hair head tracking II (a) (b) (c) 图 3 SiamMask 模型测试误识别现象. (a)深色干扰源误识别;(b)肉色干扰误识别;(c)头发遮挡误识别 Fig.3 SiamMask model test misrecognition phenomenon: (a) misidentification of dark interference sources; (b) misidentification of flesh color interference; (c) misidentification of hair occlusion 周 珂等: 复杂环境下一种基于 SiamMask 的时空预测移动目标跟踪算法 · 383 ·
384 工程科学学报,第42卷,第3期 表1 SiamMask模型目标跟踪效果统计 Table 1 Statistics of target tracking effect of the SiamMask model Video No. Frame number of false detection Analysis on the causes of false inspection Total frames Failure rate/ 0 Little change in this movement 361 0 2 87 Misidentified as dark cloth 288 30.21 3 98 Part of the face is blocked by the hair 192 51.04 4 674 Initialization offset,screen will pop up in recognition 1380 48.84 5 131 The target moves out of the screen slightly and the recognition is lost 240 54.58 6 753 Large proportion of face selection in initialization area 1360 55.37 7 0 Accurate initialization and small action range 241 0 络模型会在以下情况产生误识别现象: 与空间信息,根据对头发目标时空关系的在线学 1)初始化区域选定的面部比例较大时,效果 习预测新的目标位置,并与SiamMask模型的跟踪 存在较多误识别现象, 结果进行匹配校正 2)干扰项出现时若产生误识别现象,在干扰 1.3.1工业视频ROI提取 因素消失时,无法及时恢复目标跟踪.在本文的对 本文所使用的视频来自于实际车工场地监控 象视频中表现为,目标移出视频后再返回则不再 镜头录制的彩色视频,分辨率为1920×1080,帧率 跟踪.由图3所示,目标误识别后,即便目标仍在 为每秒24帧,总帧数截取3427帧.从图5(a)可以 同一区域,也难以校正 看出,视频画面中包含多个机床工位,往来人员较 1.3 SiamMask模型的修正处理 多,这给单个目标的跟踪、检测带来一定干扰.面 针对SiamMask模型的应用不足,提出算法修 对实际情况,针对单个车床目标,需要对获得的视 正.对原始工业视频做ROI提取,并以STC时空 频进行ROI提取操作.其中包括:视频ROI区域设 上下文跟踪法6-7对视频序列进行匹配校正,从 定、全图运动检测两部分 而减少工业环境中的目标漏检、误检率,实现复杂 (1)ROI区域设定 环境中头发区域的精准检测.算法框架图如图4 具体ROI提取步骤中有两个关键点:ROI区 所示.图中,P:为第k帧图像,P为STC预测的第 域起点位置、ROI区域的分辨率.应用先验知识, k帧图像,中为判断函数. 可以确定ROI区域左上角起点像素位置A(x,), 修正1:ROI区域提取.如上文所述,SiamMask ROI区域宽度为lw,高度为h,如式(1)所示: 模型初始Mask对视频后序识别的误差具有积累 x=1w×0.268 性,因此在算法修正时首先对视频进行了识别目 y=×0.502 (1) 标与非相关性背景的分离预处理剧 lw=1v×0.426 修正2:STC匹配校正.STC模型是一种考量 h=%×0.497 了目标与背景相关性的算法理念,具有较高的目 式中,为原画面宽度,为原画面高度 标跟踪精度与速度.本文基于STC算法,结合时间 通过自动获取原始视频的信息,按照式(1)进 ☆Judge Siam mask Video OI prpcessing deep learning sequence processunng P 图4基于SiamMask模型的时空预测移动目标跟踪算法框架图 Fig.4 Framework of spatiotemporal prediction moving target tracking algorithms based on the SiamMask Model
络模型会在以下情况产生误识别现象: 1)初始化区域选定的面部比例较大时,效果 存在较多误识别现象. 2)干扰项出现时若产生误识别现象,在干扰 因素消失时,无法及时恢复目标跟踪. 在本文的对 象视频中表现为,目标移出视频后再返回则不再 跟踪. 由图 3 所示,目标误识别后,即便目标仍在 同一区域,也难以校正. 1.3 SiamMask 模型的修正处理 针对 SiamMask 模型的应用不足,提出算法修 正. 对原始工业视频做 ROI 提取,并以 STC 时空 上下文跟踪法[16−17] 对视频序列进行匹配校正,从 而减少工业环境中的目标漏检、误检率,实现复杂 环境中头发区域的精准检测. 算法框架图如图 4 所示. 图中,Pk 为第 k 帧图像,Pk ’为 STC 预测的第 k 帧图像,Φ 为判断函数. 修正 1:ROI 区域提取. 如上文所述,SiamMask 模型初始 Mask 对视频后序识别的误差具有积累 性,因此在算法修正时首先对视频进行了识别目 标与非相关性背景的分离预处理[18] . 修正 2:STC 匹配校正. STC 模型是一种考量 了目标与背景相关性的算法理念,具有较高的目 标跟踪精度与速度. 本文基于 STC 算法,结合时间 与空间信息,根据对头发目标时空关系的在线学 习预测新的目标位置,并与 SiamMask 模型的跟踪 结果进行匹配校正. 1.3.1 工业视频 ROI 提取 本文所使用的视频来自于实际车工场地监控 镜头录制的彩色视频,分辨率为 1920×1080,帧率 为每秒 24 帧,总帧数截取 3427 帧. 从图 5(a)可以 看出,视频画面中包含多个机床工位,往来人员较 多,这给单个目标的跟踪、检测带来一定干扰. 面 对实际情况,针对单个车床目标,需要对获得的视 频进行 ROI 提取操作. 其中包括:视频 ROI 区域设 定、全图运动检测两部分. (1)ROI 区域设定. 具体 ROI 提取步骤中有两个关键点:ROI 区 域起点位置、ROI 区域的分辨率. 应用先验知识, 可以确定 ROI 区域左上角起点像素位置 A(x,y), ROI 区域宽度为 lw,高度为 lh,如式 (1) 所示: x = l ′ w ×0.268 y = l ′ h ×0.502 lw = l ′ w ×0.426 lh = l ′ h ×0.497 (1) l ′ w l ′ 式中, 为原画面宽度, h 为原画面高度. 通过自动获取原始视频的信息,按照式(1)进 表 1 SiamMask 模型目标跟踪效果统计 Table 1 Statistics of target tracking effect of the SiamMask model Video No. Frame number of false detection Analysis on the causes of false inspection Total frames Failure rate/% 1 0 Little change in this movement 361 0 2 87 Misidentified as dark cloth 288 30.21 3 98 Part of the face is blocked by the hair 192 51.04 4 674 Initialization offset, screen will pop up in recognition 1380 48.84 5 131 The target moves out of the screen slightly and the recognition is lost 240 54.58 6 753 Large proportion of face selection in initialization area 1360 55.37 7 0 Accurate initialization and small action range 241 0 Video sequence ROI prpcessing Siam mask deep learning processunng Pk−2 Pk−1 × P′ k Pk Pk P′ k Φ>1 Φ<1 ☆ΦJudge 图 4 基于 SiamMask 模型的时空预测移动目标跟踪算法框架图 Fig.4 Framework of spatiotemporal prediction moving target tracking algorithms based on the SiamMask Model · 384 · 工程科学学报,第 42 卷,第 3 期
周珂等:复杂环境下一种基于SiamMask的时空预测移动目标跟踪算法 385· b 图5车工监控视频ROI提取结果.(a)原始画面:(b)ROI提取画面 Fig.5 ROI extraction result of a locomotive monitoring video:(a)original picture;(b)ROI extraction picture 行相对比例的计算,处理结果如图5(b)所示,裁切 志赋值.在训练中选取灰度差阈值△1=30. 得到的视频宽度为816个像素、高度为536个像 步骤3:判断两个差值标志位逻辑结果同时为 素、ROI左上角起点坐标像素为(516,541) 1时,代表三帧中有运动目标存在 (2)ROI全图运动检测及自动提取. 步骤4:对于输入的序列图像,按照时序统计 步骤1:设e)为像素点(x)灰度值,对输 每三帧之间的灰度变化像素点的个数,当运动目 入视频相邻的三帧图像,进行像素点灰度值变化 标出现时,灰度变化像素点个数成跳变趋势,从该 计算 时刻进行ROI区域的提取,即按照ROI区域先验 步骤2:判断相邻帧之间灰度变化,对差值标 设定尺寸进行裁切.如图6所示 图6运动图像检测灰度图.()无运动目标时的原图/灰度图:(b)运动目标出现时的原图灰度图 Fig.6 Gray level image of moving image detection:(a)original image/gray level image without moving object.(b)original image/gray level image when moving object appears 1.3.2STC匹配校正 由目标矩形确定的局部上下文区域的图像灰度与 为了解决复杂环境、头发遮挡等对头部跟踪 位置的统计建模,c()为置信图函数如图7所 的影响,在深度学习框架后的滤波跟踪框架中融 示,对灰度级图像进行阈值化处理,得到的二值化 合了图像空间上下文信息,以实现对目标变化的 图像可进一步排除背景冗余信息. 自适应调整.STC图像空间上下文算法通过贝叶 设SiamMask模型第k帧追踪目标图像为Pk, 斯框架统计目标及其背景的相关性并进行置信图 空间上下文预测第k帧目标图像为P.设计判断 计算,根据置信图的似然概率最大位置预测新的 函数中进行Pk与P中目标位置的相似度比对,根据 目标位置 比对结果进行更新校正,形成新的目标跟踪结果. 根据当前帧确定上下文特征集合: 步骤1:计算k-1帧ROI区域置信图: T={ce=((e,∈2()片,其中,txy)是目标区 c-1(t)=>P(te(2).o)P(c(2)o) (2) 域中心,I)是目标区域像素z的灰度值,2()是 c(z)eTe a 图7图像灰度及國值化处理.()原始视频图像:(b)灰度化处理结果:(c)厨值化处理结果 Fig.7 Gray level and threshold processing of image:(a)original video image;(b)grayscale processing results,(c)threshold processing results
行相对比例的计算,处理结果如图 5(b)所示,裁切 得到的视频宽度为 816 个像素、高度为 536 个像 素、ROI 左上角起点坐标像素为(516,541). (2)ROI 全图运动检测及自动提取. 步骤 1:设 Ik (z) 为像素点 z(xz ,yz ) 灰度值,对输 入视频相邻的三帧图像,进行像素点灰度值变化 计算. 步骤 2:判断相邻帧之间灰度变化,对差值标 志赋值. 在训练中选取灰度差阈值 ΔIT=30. 步骤 3:判断两个差值标志位逻辑结果同时为 1 时,代表三帧中有运动目标存在. 步骤 4:对于输入的序列图像,按照时序统计 每三帧之间的灰度变化像素点的个数,当运动目 标出现时,灰度变化像素点个数成跳变趋势,从该 时刻进行 ROI 区域的提取,即按照 ROI 区域先验 设定尺寸进行裁切. 如图 6 所示. 1.3.2 STC 匹配校正 为了解决复杂环境、头发遮挡等对头部跟踪 的影响,在深度学习框架后的滤波跟踪框架中融 合了图像空间上下文信息,以实现对目标变化的 自适应调整. STC 图像空间上下文算法通过贝叶 斯框架统计目标及其背景的相关性并进行置信图 计算,根据置信图的似然概率最大位置预测新的 目标位置. 根 据 当 前 帧 确 定 上 下 文 特 征 集 合 : T c={c(z)=(I(z), z)|z∈Ωc (t * )},其中, t * (xt ,yt ) 是目标区 域中心,I(z) 是目标区域像素 z 的灰度值,Ωc (t * ) 是 由目标矩形确定的局部上下文区域的图像灰度与 位置的统计建模,c(z) 为置信图函数[19] . 如图 7 所 示,对灰度级图像进行阈值化处理,得到的二值化 图像可进一步排除背景冗余信息. P ′ k P ′ k 设 SiamMask 模型第 k 帧追踪目标图像为 Pk, 空间上下文预测第 k 帧目标图像为 . 设计判断 函数 Φ 进行 Pk 与 中目标位置的相似度比对,根据 比对结果进行更新校正,形成新的目标跟踪结果. 步骤 1:计算 k‒1 帧 ROI 区域置信图: ck−1(t) = ∑ c(z)∈T c P(t|c(z),o)P(c(z)|o) (2) (a) (b) 图 5 车工监控视频 ROI 提取结果. (a)原始画面;(b)ROI 提取画面 Fig.5 ROI extraction result of a locomotive monitoring video: (a) original picture; (b) ROI extraction picture (a) (b) 图 6 运动图像检测灰度图. (a)无运动目标时的原图/灰度图;(b)运动目标出现时的原图/灰度图 Fig.6 Gray level image of moving image detection: (a) original image / gray level image without moving object; (b) original image / gray level image when moving object appears (a) (b) (c) 图 7 图像灰度及阈值化处理. (a) 原始视频图像;(b) 灰度化处理结果;(c) 阈值化处理结果 Fig.7 Gray level and threshold processing of image: (a) original video image; (b) grayscale processing results; (c) threshold processing results 周 珂等: 复杂环境下一种基于 SiamMask 的时空预测移动目标跟踪算法 · 385 ·
386 工程科学学报,第42卷,第3期 式中,o表示所跟踪目标,P为上下文先验模型 将与SiamMask模型该帧目标位置t比对. P(c(2)lo)=Ig-1(2)@(z-t)=hi(t-2) (3) 设计判断函数中=候-)/(-1-k-2 式中,wr()=ae12是一个权重函数,其中,a是 若Φ>1,则第k帧目标图像输出为P,第k帧 归一化参数,取值为[0,1,σ是一个尺度参数,2为 的目标位置输出更新为;若中<1,则追踪目标图 高斯函数方差.h(t-)是时空上下文模型,是傅里 像为Pk,第k帧的目标位置输出更新为 叶变换后的频率域计算变形 2算法研究结果及分析 步骤2:计算k-1帧2.()上下文区域的空间 上下文模型: 2.1算法训练 0=FFb-err%f 与SiamMask!一样,使用Warmup预热学习 (4) F(I(t)wo(t-r) 率的方式,在Davis?2017201数据集中进行训练,并 式中,b是归一化参数,α是尺度参数,B是目标形 在机加工操作数据视频集中进行头部识别测试 状参数 其中,训练输人为图像尺寸127像素×127像素, 步骤3:更新空间上下文c(x)模型: 255像素×255像素,数据增强采用随机抖动与搜 H)(t)=h(t) (5) 索策略,网络初始化权重采用SiamMask模型在 H()=(1-p)H10+ph10 (6) ImageNet--Ik Datasets上预训练的权重,梯度下降策 式中,p为模型更新的学习率 略采用SGD.训练时在开始进行的5轮训练中,先 步骤4:在第k帧计算上下文先验模型及置信图: 将学习率从103线性增长到5×10~3,之后通过15轮 P(c(z)o)=Ig(z)wo(z-1) (7) 训练将学习率以对数规律降为5×10 ck(t)=F-(F(He(t))I(t)@(z-1) (8) 图8为本文算法在训练及测试集中的准确 率、损失率曲线图.可以看到,在训练集上,15轮 步骤5:将第k帧得到的置信图极值点作为目 次左右训练后,准确率及损失率均有效收敛.在测 标在k帧的位置输出: 试集上,由于数据特征更为集中,呈现了更快速的 =arg r c() (9) 收敛性 2.00 90(a) (b) 1.75 80 wwwwwwM [Epoch:88,90.23] 1.50 70 1.25 60 10 0.75 40 0.50 [Epoch:93,0.172] 0.25 AMwLKh 20 20 40 60 80 100 0 20 40 60 80100 Epoch Epoch 90 (c) (d) 1.6 [Epoch:53,92.85刀 1.4 1.2 70 60 0.8 0.6 50 0.4 [Epoch:23,0.18063] % 0.2 0 20 4060 80 100 0 20 4060 80100 Epoch Epoch 图8算法训练测试准确率及损失率曲线.(a)训练集准确率曲线图:(b)训练集损失率曲线图:(c)测试集准确率曲线图:()测试集损失率曲线图 Fig Algorithm training/test accuracy and loss rate curve:(a)training set accuracy curve;(b)training set loss curve;(c)test set accuracy curve (d)test set loss curve
式中,o 表示所跟踪目标,P 为上下文先验模型. P(c(z)|o) = Ik−1(z)ωσ(z−t ∗ ) = h sc k−1 (t−z) (3) ωσ(z) = a · e −z 2 /σ2 h sc(t−z) 式中, 是一个权重函数,其中,a 是 归一化参数,取值为 [0,1],σ 是一个尺度参数,σ 2 为 高斯函数方差. 是时空上下文模型,是傅里 叶变换后的频率域计算变形. 步骤 2:计算 k‒1 帧 Ωc (t * ) 上下文区域的空间 上下文模型: h sc k−1 (t) = F −1 ( F(b · e − (t−t ∗ )⧸α β ) F(I(t)ωσ(t−t ∗ )) ) (4) 式中,b 是归一化参数,α 是尺度参数,β 是目标形 状参数. h sc 步骤 3:更新空间上下文 (x) 模型: H sc 2 (t) = h sc 1 (t) (5) H sc k (t) = (1−ρ)H sc k−1 (t)+ρh sc k−1 (t) (6) 式中,ρ 为模型更新的学习率. 步骤 4:在第 k 帧计算上下文先验模型及置信图: P(c(z)|o) = Ik(z)ωσ(z−t ∗ k−1 ) (7) ck(t) = F −1 (F(H sc k (t))⊙ Ik(t)ωσ(z−t ∗ k−1 ) (8) 步骤 5:将第 k 帧得到的置信图极值点作为目 标在 k 帧的位置输出: t ∗ k = arg max x∈Ω(t ∗ ) ck(t) (9) t ∗ k t k Φ= (t ∗ k −tk)/(tk−1 −tk−2) 将 与 SiamMask 模型该帧目标位置 比 对 . 设计判断函数 . Φ > 1 P ′ k t ∗ k Φ < 1 Pk tk 若 ,则第 k 帧目标图像输出为 ,第 k 帧 的目标位置输出更新为 ;若 ,则追踪目标图 像为 ,第 k 帧的目标位置输出更新为 . 2 算法研究结果及分析 2.1 算法训练 与 SiamMask[15] 一样,使用 Warmup 预热学习 率的方式,在 Davis2017[20] 数据集中进行训练,并 在机加工操作数据视频集中进行头部识别测试. 其中,训练输入为图像尺寸 127 像素×127 像素, 255 像素×255 像素,数据增强采用随机抖动与搜 索策略,网络初始化权重采用 SiamMask 模型在 ImageNet-1k Datasets 上预训练的权重,梯度下降策 略采用 SGD. 训练时在开始进行的 5 轮训练中,先 将学习率从 10‒3 线性增长到 5×10‒3,之后通过 15 轮 训练将学习率以对数规律降为 5×10‒4 . 图 8 为本文算法在训练及测试集中的准确 率、损失率曲线图. 可以看到,在训练集上,15 轮 次左右训练后,准确率及损失率均有效收敛. 在测 试集上,由于数据特征更为集中,呈现了更快速的 收敛性. 90 80 70 60 50 40 30 0 40 20 60 Epoch [Epoch: 88,90.23] (a) Accuracy/% 80 100 20 2.00 1.75 1.50 1.25 1.00 0.75 0.50 0.25 0 40 20 60 Epoch [Epoch: 93,0.172] (b) Loss 80 100 90 80 70 60 50 40 0 40 20 60 Epoch [Epoch: 53,92.857] (c) Accuracy/% 80 100 1.6 1.4 1.2 1.0 0.6 0.8 0.4 0.2 0 20 60 40 Epoch [Epoch: 23,0.18063] (d) Loss 80 100 图 8 算法训练/测试准确率及损失率曲线. (a)训练集准确率曲线图;(b)训练集损失率曲线图;(c)测试集准确率曲线图;(d)测试集损失率曲线图 Fig.8 Algorithm training/test accuracy and loss rate curve: (a) training set accuracy curve; (b) training set loss curve; (c) test set accuracy curve; (d) test set loss curve · 386 · 工程科学学报,第 42 卷,第 3 期
周珂等:复杂环境下一种基于SiamMask的时空预测移动目标跟踪算法 387· 2.2算法应用效果测试 2.3算法时间成本 22.1测试指标设计 由于本文算法必须满足智能安全识别系统实 本文采用图像检测中常用的标准性能度量参 时、高效、可靠的要求,因此在实际使用环境中测 数IoU(Intersection over union)进行检测判断.当检 试其综合时间成本 测到的目标位置与真实目标位置相交的重叠部分 为了检验效果,用外接矩形框对目标跟踪轮 为0时为失败,即1oU=0认定为跟踪失败.通过式 廓边界进行了包围,如图9(a)所示.可以看到,经 (10)统计第i段视频误检帧所占的比例. 过算法校正,背景中的噪声轮廓得到了大幅度去 M 除,保留得到的头部轮廓是大面积连通域的外轮 0:7 (10) 廓.对于头发轮廓的边界点坐标以向量的形式进 行存储,即获取到视频序列中人员头发的位置坐 式中,M为视频总帧数;为判断因子,当该帧中 标,为后续头发目标是否进入危险区的判定提供 IoU=0时,=1,其余情况k=0. 基础. 1 设计统计指标:Q= (11) 如图9(a)中所示,较大蓝色矩形框代表二级 危险区,较小绿色矩形框代表一级危险区.对于危 式中,M为视频个数.Q为所有视频片段的错误率 险区的位置信息记录如下,二级危险区的具体设 的均值 计为:左上角顶点像素位置坐标为(418,274),宽度 2.2.2测试数据对比 为164个像素,高度为147个像素.一级危险区的 为保证对比测试的初始区域一致性,SiamMask 具体设计为:左上角顶点像素位置坐标为(471,311), 模型与本文所提算法均采用被测视频的初始帧人 宽度为107个像素,高度为93个像素.在图9(b) 脸区域分割结果.通过对7段测试视频进行统计, 中设计了四种报警级别的区域范围,分别是预警 得到前文表1及下文表2的数值. Ⅱ级、预警I级、危险、非常危险 从表1中视频的测试数据可计算得知 对于两组坐标进行比对判别,判断头发目标 Q=34.29%,即算法误识别的平均可能性为34.29%. 进入危险区的程度以触发不同类别的报警.得到 从表2数据可计算得知Q=0.156%,本文提出的算 结果如图10所示,图10(b)左上角为具体文字报 法误识别率有较大降低 警内容 表2基于SiamMask模型的时空预测算法目标跟踪效果统计 Table 2 Statistics of the target tracking effect of the spatiotemporal prediction algorithms based on the SiamMask model Video No.Frame number of false detection Analysis on the causes of false inspection Total frames Failure rate/% 1 0 Little change in this movement 361 0 2 0 Misidentified as dark cloth 288 0 Part of the face is blocked by the hair 192 0.52 2 Initialization offset,screen will pop up in recognition 1380 0.15 The target moves out of the screen slightly and the recognition is lost 240 0.42 6 0 Large proportion of face selection in initialization area 1360 0 > 0 Accurate initialization and small action range 241 0 (b) Hair outline box l-WarningⅡleve 2-Warning I leve 3-Dangerous 4-Very dangerous x 图9固定危险区划分示意图.()视频危险区划分图:(b)危险级别划分示意图 Fig.9 Fixed danger zone division diagram:(a)video dangerous zone division map;(b)diagram of hazard classification
2.2 算法应用效果测试 2.2.1 测试指标设计 本文采用图像检测中常用的标准性能度量参 数 IoU(Intersection over union)进行检测判断. 当检 测到的目标位置与真实目标位置相交的重叠部分 为 0 时为失败,即 IoU=0 认定为跟踪失败. 通过式 (10)统计第 i 段视频误检帧所占的比例. Qi = 1 Ms ∑ Ms k=1 Φk (10) Ms Φk Φk = 1 Φk = 0 式中, 为视频总帧数; 为判断因子,当该帧中 IoU=0 时, ,其余情况 . 设计统计指标 : Q = 1 M ∑ M i=1 Qi (11) 式中,M 为视频个数. Q 为所有视频片段的错误率 的均值. 2.2.2 测试数据对比 为保证对比测试的初始区域一致性,SiamMask 模型与本文所提算法均采用被测视频的初始帧人 脸区域分割结果. 通过对 7 段测试视频进行统计, 得到前文表 1 及下文表 2 的数值. 从 表 1 中 视 频 的 测 试 数 据 可 计 算 得 知 Q=34.29%,即算法误识别的平均可能性为 34.29%. 从表 2 数据可计算得知 Q=0.156%,本文提出的算 法误识别率有较大降低. 2.3 算法时间成本 由于本文算法必须满足智能安全识别系统实 时、高效、可靠的要求,因此在实际使用环境中测 试其综合时间成本. 为了检验效果,用外接矩形框对目标跟踪轮 廓边界进行了包围,如图 9(a)所示. 可以看到,经 过算法校正,背景中的噪声轮廓得到了大幅度去 除,保留得到的头部轮廓是大面积连通域的外轮 廓. 对于头发轮廓的边界点坐标以向量的形式进 行存储,即获取到视频序列中人员头发的位置坐 标,为后续头发目标是否进入危险区的判定提供 基础. 如图 9(a)中所示,较大蓝色矩形框代表二级 危险区,较小绿色矩形框代表一级危险区. 对于危 险区的位置信息记录如下,二级危险区的具体设 计为:左上角顶点像素位置坐标为(418, 274),宽度 为 164 个像素,高度为 147 个像素. 一级危险区的 具体设计为:左上角顶点像素位置坐标为(471, 311), 宽度为 107 个像素,高度为 93 个像素. 在图 9(b) 中设计了四种报警级别的区域范围,分别是预警 II 级、预警 I 级、危险、非常危险. 对于两组坐标进行比对判别,判断头发目标 进入危险区的程度以触发不同类别的报警. 得到 结果如图 10 所示,图 10(b)左上角为具体文字报 警内容. 表 2 基于 SiamMask 模型的时空预测算法目标跟踪效果统计 Table 2 Statistics of the target tracking effect of the spatiotemporal prediction algorithms based on the SiamMask model Video No. Frame number of false detection Analysis on the causes of false inspection Total frames Failure rate/% 1 0 Little change in this movement 361 0 2 0 Misidentified as dark cloth 288 0 3 1 Part of the face is blocked by the hair 192 0.52 4 2 Initialization offset, screen will pop up in recognition 1380 0.15 5 1 The target moves out of the screen slightly and the recognition is lost 240 0.42 6 0 Large proportion of face selection in initialization area 1360 0 7 0 Accurate initialization and small action range 241 0 (a) (b) Hair outline box y x C o 1 1—Warning Ⅱ leve 2—Warning Ⅰ leve 3—Dangerous 4—Very dangerous 3 4 2 图 9 固定危险区划分示意图. (a)视频危险区划分图;(b)危险级别划分示意图 Fig.9 Fixed danger zone division diagram: (a) video dangerous zone division map; (b) diagram of hazard classification 周 珂等: 复杂环境下一种基于 SiamMask 的时空预测移动目标跟踪算法 · 387 ·
·388 工程科学学报,第42卷,第3期 图10头发目标跟踪报警结果.(a)第30帧:(b)第35帧:(c)第60帧:(d)第70帧:(e)第75帧:(f)第80帧 Fig.10 Hair target tracking alarm results:(a)frame 30;(b)frame 35;(c)frame 60;(d)frame 70;(e)frame 75;(f)frame 80 对于算法的处理时间进行统计,利用 参考文献 cvGetTickCount函数得到从操作系统启动到当前 [1]Xing J L,Ai H Z,Lao S H.Multiple human tracking based on 所经历的时钟周期数,利用cvGetTickFrequency函 multi-view upper-body detection and discriminative learning / 数返回每秒的计时周期数N.则程序运行时间 2010 20th International Conference on Pattern Recognition Istanbul,2010:1698 T可以通过式(12)计算得到. T=:~n [Liu L W,Xing JL Ai HZ.et al.Hand posture recognition using (12) finger geometric feature Proceedings of the 21st International 式中,n为当前时钟周期数,n为开始时钟周期数 Conference on Pattern Recognition (ICPR2012).Tsukuba,2012 565 测试视频的基本信息为:宽度816像素,高度 [3]Bertinetto L,Valmadre J.Henriques J F,et al.Fully-convolutional 536像素,总帧数3426帧,帧率为每秒30帧,图像 siamese networks for object tracking European Conference on 处理速度为每秒30帧.按照式(12)计算,处理时 Computer Vision.Cham:Springer,2016:850 间为0.137ms [4] Li B,Yan JJ,Wu W,et al.High performance visual tracking with 算法的计算效率比改进前的SiamMask模型 siamese region proposal network Proceedings of the IEEE 图像处理速度每秒提高3.2帧,算法效率提高约 Conference on Computer Vision and Pattern Recognition.2018: 11.94%,可以满足智能安全预警系统的实时快速 8971 性要求 [5] Wang Q,Zhang L,Bertinetto L,et al.Fast online object tracking and segmentation:a unifying approach /Proceedings of the IEEE 3结论 Conference on Computer Vision and Pattern Recognition.2019 1328 (I)基于PyTorch深度学习框架的SiamMask [6] Li J Y,Zhao Y K,Xue Z E,et al.A survey of model compression 模型单目标跟踪算法,引入ROI检测及STC时空 for deep neural networks.Chin J Eng,2019,41(10):1229 上下文目标跟踪算法,结合时间与空间信息,根据 (李江昀,赵义凯,薛卓尔,等.深度神经网络模型压缩综述,工 对头发目标时空关系的在线学习预测新的目标位 程科学学报,2019,41(10)1229) 置,对SiamMask模型进行了算法校正, [7]Shen LL.Hang N.No-reference image quality assessment using (2)提出的算法应用于复杂环境中头发目标 joint multiple edge detection.Chin/Eng,2018,40(8):996 视频图像识别.研究结果表明:所提算法能够克服 (沈丽丽,杭宁.联合多种边缘检测算子的无参考质量评价算法 环境干扰、目标遮挡对跟踪效果的影响,将目标跟 工程科学学报,2018,40(8:996) [8]Wang X,Tang Z M.An improved camshaft-based particle filter 踪误识别率降低至0.156%. algorithm for real-time target tracking.J Image Graph,2010, (3)其计算时间成本为每秒30帧,比改进前 15(10):1507 的SiamMask模型帧率每秒提高3.2帧,算法效率 (王鑫,王振民.一种改进的基于Camshift的粒子滤波实时目标 提高约11.94%,可以满足智能安全预警系统的实 跟踪算法.中国图像图形学报,2010,15(10):1507) 时快速性要求 [9]Chu H X,Xie Z Y,Wang K J.An improved camshift target
对 于 算 法 的 处 理 时 间 进 行 统 计 . 利 用 cvGetTickCount 函数得到从操作系统启动到当前 所经历的时钟周期数,利用 cvGetTickFrequency 函 数返回每秒的计时周期数 N. 则程序运行时间 T 可以通过式 (12) 计算得到. τ = nr −ns N (12) 式中,nr 为当前时钟周期数,ns 为开始时钟周期数. 测试视频的基本信息为:宽度 816 像素,高度 536 像素,总帧数 3426 帧,帧率为每秒 30 帧,图像 处理速度为每秒 30 帧. 按照式(12)计算,处理时 间为 0.137 ms. 算法的计算效率比改进前的 SiamMask 模型 图像处理速度每秒提高 3.2 帧,算法效率提高约 11.94%,可以满足智能安全预警系统的实时快速 性要求. 3 结论 ( 1)基于 PyTorch 深度学习框架的 SiamMask 模型单目标跟踪算法,引入 ROI 检测及 STC 时空 上下文目标跟踪算法,结合时间与空间信息,根据 对头发目标时空关系的在线学习预测新的目标位 置,对 SiamMask 模型进行了算法校正. (2)提出的算法应用于复杂环境中头发目标 视频图像识别. 研究结果表明:所提算法能够克服 环境干扰、目标遮挡对跟踪效果的影响,将目标跟 踪误识别率降低至 0.156%. (3)其计算时间成本为每秒 30 帧,比改进前 的 SiamMask 模型帧率每秒提高 3.2 帧,算法效率 提高约 11.94%,可以满足智能安全预警系统的实 时快速性要求. 参 考 文 献 Xing J L, Ai H Z, Lao S H. Multiple human tracking based on multi-view upper-body detection and discriminative learning // 2010 20th International Conference on Pattern Recognition. Istanbul, 2010: 1698 [1] Liu L W, Xing J L, Ai H Z, et al. Hand posture recognition using finger geometric feature // Proceedings of the 21st International Conference on Pattern Recognition (ICPR2012). Tsukuba, 2012: 565 [2] Bertinetto L, Valmadre J, Henriques J F, et al. Fully-convolutional siamese networks for object tracking // European Conference on Computer Vision. Cham: Springer, 2016: 850 [3] Li B, Yan J J, Wu W, et al. High performance visual tracking with siamese region proposal network // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 8971 [4] Wang Q, Zhang L, Bertinetto L, et al. Fast online object tracking and segmentation: a unifying approach // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019: 1328 [5] Li J Y, Zhao Y K, Xue Z E, et al. A survey of model compression for deep neural networks. Chin J Eng, 2019, 41(10): 1229 (李江昀, 赵义凯, 薛卓尔, 等. 深度神经网络模型压缩综述. 工 程科学学报, 2019, 41(10): 1229) [6] Shen L L, Hang N. No-reference image quality assessment using joint multiple edge detection. Chin J Eng, 2018, 40(8): 996 (沈丽丽, 杭宁. 联合多种边缘检测算子的无参考质量评价算法. 工程科学学报, 2018, 40(8): 996) [7] Wang X, Tang Z M. An improved camshaft-based particle filter algorithm for real-time target tracking. J Image Graph, 2010, 15(10): 1507 (王鑫, 王振民. 一种改进的基于Camshift的粒子滤波实时目标 跟踪算法. 中国图像图形学报, 2010, 15(10):1507) [8] [9] Chu H X, Xie Z Y, Wang K J. An improved camshift target (a) (b) (c) (d) (e) (f) 图 10 头发目标跟踪报警结果. (a)第 30 帧;(b)第 35 帧;(c) 第 60 帧;(d)第 70 帧;(e)第 75 帧;(f)第 80 帧 Fig.10 Hair target tracking alarm results: (a) frame 30; (b) frame 35; (c) frame 60; (d) frame 70; (e) frame 75; (f) frame 80 · 388 · 工程科学学报,第 42 卷,第 3 期
周珂等:复杂环境下一种基于SiamMask的时空预测移动目标跟踪算法 389. tracking algorithm based on joint color-texture histogram.Xi'an [15]Qiang Wang.Li Zhang,Luca Bertinetto,et al.Torr.SiamMask Jiaotong Univ,.2018,52(3):145 Hithub (2019-5-5)[2019-6-51.https://github.com/foolwood/Siam- (初红霞,谢忠玉,王科俊.一种结合颜色纹理直方图的改进型 Mask Camshift目标跟踪算法.西安交通大学学报,2018,52(3):145) [16]Zhang L,Suganthan P N.Robust visual tracking via co-trained [10]Yacoob Y,Davis L S.Detection and analysis of hair.IEEE Trans kemelized correlation filters.Pattern Recognit,2017,69:82 Pattern Anal Mach Intell,2006,28(7):1164 [17]Chen C,Wu Z X,Jiang Y G.Emotion in context:Deep semantic [11]Fu W L,Hu F Q.Hair detection with mean shift.Microcomput feature fusion for video emotion recognition /Proceedings of the 4ppl,2010,26(9):62 24th ACM International Conference on Multimedia.New York (傅文林,胡福乔.基于mean shift的头发自动检测.微型电脑应 2016:127 用,2010,26(9):62) [18]Huang Y,Huang X,Li S G,et al.Compensation method for a [12]Wang Z Y,Yang D L.Research on detection method of hair robot vision system with an occluded camera field.ChinJ Eng. occlusion in face recognition.Microcomput Its Appl,2016,35(2): 2018,40(3381 (黄煜,黄翔,李泷杲,等.存在视场丢失的机器视觉精度补偿方 (王志一,杨大利.人脸识别中发型遮挡检测方法研究.微型机 法,工程科学学报,2018,40(3:381) 与应用,2016,35(2):32) [19]Zhang J,Wang X,Fan H B.Spatio temporal context target [13]Ding C J,Yan B.Target tracking algorithm combines STC with tracking algorithm of self-adaption leaming.Comput Eng,2018, CamShift.Transduc Microsyst Technol,2018,37(5):108 44(6):294 (丁承君,闫彬.时空上下文与CamShift相结合的目标跟踪算法. (张品,王旭,范洪博.自适应学习的时空上下文目标跟踪算法. 传感器与微系统,2018,37(5):108) 计算机工程,2018,44(6):294) [14]Eriksson D,Bindel D,Shoemaker C.Surrogate Optimization [20]Pont-Tuset J,Perazzi F,Caelles S,et al.The 2017 Davis Challenge Toolbox Hithub (2019-1-5)[2019-6-5].https://github.com/dme65/ on Video Object Segmentation (2017-4-3)[2019-6-5].https://arxiv. PySOT org/abs/1704.00675
tracking algorithm based on joint color-texture histogram. J Xi’an Jiaotong Univ, 2018, 52(3): 145 (初红霞, 谢忠玉, 王科俊. 一种结合颜色纹理直方图的改进型 Camshift目标跟踪算法. 西安交通大学学报, 2018, 52(3):145) Yacoob Y, Davis L S. Detection and analysis of hair. IEEE Trans Pattern Anal Mach Intell, 2006, 28(7): 1164 [10] Fu W L, Hu F Q. Hair detection with mean shift. Microcomput Appl, 2010, 26(9): 62 (傅文林, 胡福乔. 基于mean shift的头发自动检测. 微型电脑应 用, 2010, 26(9):62) [11] Wang Z Y, Yang D L. Research on detection method of hairocclusion in face recognition. Microcomput Its Appl, 2016, 35(2): 32 (王志一, 杨大利. 人脸识别中发型遮挡检测方法研究. 微型机 与应用, 2016, 35(2):32) [12] Ding C J, Yan B. Target tracking algorithm combines STC with CamShift. Transduc Microsyst Technol, 2018, 37(5): 108 (丁承君, 闫彬. 时空上下文与CamShift相结合的目标跟踪算法. 传感器与微系统, 2018, 37(5):108) [13] Eriksson D, Bindel D, Shoemaker C. Surrogate Optimization Toolbox Hithub (2019-1-5)[2019-6-5]. https://github.com/dme65/ pySOT [14] Qiang Wang, Li Zhang, Luca Bertinetto, et al. Torr. SiamMask Hithub (2019-5-5)[2019-6-5]. https://github.com/foolwood/SiamMask [15] Zhang L, Suganthan P N. Robust visual tracking via co-trained kernelized correlation filters. Pattern Recognit, 2017, 69: 82 [16] Chen C, Wu Z X, Jiang Y G. Emotion in context: Deep semantic feature fusion for video emotion recognition // Proceedings of the 24th ACM International Conference on Multimedia. New York, 2016: 127 [17] Huang Y, Huang X, Li S G, et al. Compensation method for a robot vision system with an occluded camera field. Chin J Eng, 2018, 40(3): 381 (黄煜, 黄翔, 李泷杲, 等. 存在视场丢失的机器视觉精度补偿方 法, 工程科学学报, 2018, 40(3): 381) [18] Zhang J, Wang X, Fan H B. Spatio temporal context target tracking algorithm of self-adaption learning. Comput Eng, 2018, 44(6): 294 (张晶, 王旭, 范洪博. 自适应学习的时空上下文目标跟踪算法. 计算机工程, 2018, 44(6):294) [19] Pont-Tuset J, Perazzi F, Caelles S, et al. The 2017 Davis Challenge on Video Object Segmentation (2017-4-3)[2019-6-5]. https://arxiv. org/abs/1704.00675 [20] 周 珂等: 复杂环境下一种基于 SiamMask 的时空预测移动目标跟踪算法 · 389 ·