复杂环境下一种基于SiamMask的时空预测移动目标跟踪算法

随着无人工厂、智能安监等技术在制造业领域的深入应用，以视觉识别预警系统为代表的复杂环境下动态识别技术成为智能工业领域的重要研究内容之一。在本文所述的工业级视觉识别预警系统中，操作人员头发区域由于其具有移动形态非规则性、运动无规律性的特点，在动态图像中的实时分割较为困难。针对此问题，提出一种基于SiamMask模型的时空预测移动目标跟踪算法。该算法将基于PyTorch深度学习框架的SiamMask单目标跟踪算法与ROI检测及STC时空上下文预测算法相融合，根据目标时空关系的在线学习，预测新的目标位置并对SiamMask模型进行算法校正，实现视频序列中的目标快速识别。实验结果表明，所提出的算法能够克服环境干扰、目标遮挡对跟踪效果的影响，将目标跟踪误识别率降低至0.156%。该算法计算时间成本为每秒30帧，比改进前的SiamMask模型帧率每秒提高3.2帧，算法效率提高11.94%。该算法达到视觉识别预警系统准确性、实时性的要求，对移动目标识别算法模型的复杂环境应用具有借鉴意义。

团购合买资源类别：文库，文档格式：PDF，文档页数：9，文件大小：1.21MB

工程科学学报.第42卷，第3期：381-389.2020年3月 Chinese Journal of Engineering,Vol.42,No.3:381-389,March 2020 https://doi.org/10.13374/j.issn2095-9389.2019.06.06.005;http://cje.ustb.edu.cn 复杂环境下一种基于SiamMask的时空预测移动目标跟踪算法周珂”，张浩博2)区，付冬梅，赵志毅)，曾惠2) 1)北京科技大学高等工程师学院，北京1000832)北京科技大学自动化学院，北京100083 ☒通信作者，E-mail:cocofay126@126.com 摘要随着无人工厂、智能安监等技术在制造业领域的深人应用，以视觉识别预警系统为代表的复杂环境下动态识别技术成为智能工业领域的重要研究内容之一，在本文所述的工业级视觉识别预警系统中，操作人员头发区域由于其具有移动形态非规则性、运动无规律性的特点，在动态图像中的实时分割较为困难.针对此问题，提出一种基于SiamMask模型的时空预测移动目标跟踪算法.该算法将基于PyTorch深度学习框架的SiamMask单目标跟踪算法与ROI检测及STC时空上下文预测算法相融合，根据目标时空关系的在线学习，预测新的目标位置并对SiamMask模型进行算法校正，实现视频序列中的目标快速识别.实验结果表明，所提出的算法能够克服环境干扰、目标遮挡对跟踪效果的影响，将目标跟踪误识别率降低至 0.156%.该算法计算时间成本为每秒30帧，比改进前的SiamMask模型帧率每秒提高3.2帧.算法效率提高11.94%.该算法达到视觉识别预警系统准确性、实时性的要求，对移动目标识别算法模型的复杂环境应用具有借鉴意义关键词深度学习：复杂环境：移动目标识别：SiamMask:STC 分类号TG142.71 Design and implementation of multi-feature fusion moving target detection algorithms in a complex environment based on SiamMask ZHOU Ke,ZHANG Hao-bo2,FU Dong-me),ZHAO Zhi-yi,ZENG Hup) 1)School of Advanced Engineering,University of Science and Technology Beijing,Beijing 100083,China 2)School of Automation and Electrical Engineering,University of Science and Technology Beijing,Beijing 100083,China Corresponding author,E-mail:cocofay126@126.com ABSTRACT Moving target recognition in a complex environment is recently an important research direction in the field of image recognition.The current research focus is how to track moving objects online in complex scenes to meet the real-time and reliability requirements of image tracking and subsequent processing.With the in-depth application of unmanned factory,intelligent safety supervision and other technologies in the field of manufacturing industry,dynamic recognition technology in the complex environment represented by a visual recognition warning system has become an important research in the field of intelligent industry,and the detection requirements of high reliability and real-time for mobile target detection have been identified.In the industrial level vision recognition warning system described in this paper,the hair area of operators was difficult to be segmented in real time because of its irregular movement.To solve this problem,a space-time predictive moving target tracking algorithm was proposed based on the SiamMask model.This algorithm combined the SiamMask single target tracking algorithm based on the PyTorch deep learning framework with ROI detection and STC spatiotemporal context prediction algorithm.According to the online learning of the spatiotemporal relationship of the target,it predicted the new target location and corrected the algorithm of the SiamMask model to 收稿日期：2019-06-06 基金项目：国家自然科学基金资助项目(61375010：北京科技大学基本科研业务费资助项目(FRF-0T-18-020SY)

复杂环境下一种基于 SiamMask 的时空预测移动目标跟踪算法周珂1)，张浩博2) 苣，付冬梅2)，赵志毅1)，曾惠2) 1) 北京科技大学高等工程师学院，北京 100083 2) 北京科技大学自动化学院，北京 100083 苣通信作者，E-mail: cocofay126@126.com 摘要随着无人工厂、智能安监等技术在制造业领域的深入应用，以视觉识别预警系统为代表的复杂环境下动态识别技术成为智能工业领域的重要研究内容之一. 在本文所述的工业级视觉识别预警系统中，操作人员头发区域由于其具有移动形态非规则性、运动无规律性的特点，在动态图像中的实时分割较为困难. 针对此问题，提出一种基于 SiamMask 模型的时空预测移动目标跟踪算法. 该算法将基于 PyTorch 深度学习框架的 SiamMask 单目标跟踪算法与 ROI 检测及 STC 时空上下文预测算法相融合，根据目标时空关系的在线学习，预测新的目标位置并对 SiamMask 模型进行算法校正，实现视频序列中的目标快速识别. 实验结果表明，所提出的算法能够克服环境干扰、目标遮挡对跟踪效果的影响，将目标跟踪误识别率降低至 0.156%. 该算法计算时间成本为每秒 30 帧，比改进前的 SiamMask 模型帧率每秒提高 3.2 帧，算法效率提高 11.94%. 该算法达到视觉识别预警系统准确性、实时性的要求，对移动目标识别算法模型的复杂环境应用具有借鉴意义. 关键词深度学习；复杂环境；移动目标识别；SiamMask；STC 分类号 TG142.71 Design and implementation of multi-feature fusion moving target detection algorithms in a complex environment based on SiamMask ZHOU Ke1) ，ZHANG Hao-bo2) 苣，FU Dong-mei2) ，ZHAO Zhi-yi1) ，ZENG Hui2) 1) School of Advanced Engineering, University of Science and Technology Beijing, Beijing 100083, China 2) School of Automation and Electrical Engineering, University of Science and Technology Beijing, Beijing 100083, China 苣 Corresponding author, E-mail: cocofay126@126.com ABSTRACT Moving target recognition in a complex environment is recently an important research direction in the field of image recognition. The current research focus is how to track moving objects online in complex scenes to meet the real-time and reliability requirements of image tracking and subsequent processing. With the in-depth application of unmanned factory, intelligent safety supervision and other technologies in the field of manufacturing industry, dynamic recognition technology in the complex environment represented by a visual recognition warning system has become an important research in the field of intelligent industry, and the detection requirements of high reliability and real-time for mobile target detection have been identified. In the industrial level vision recognition warning system described in this paper, the hair area of operators was difficult to be segmented in real time because of its irregular movement. To solve this problem, a space-time predictive moving target tracking algorithm was proposed based on the SiamMask model. This algorithm combined the SiamMask single target tracking algorithm based on the PyTorch deep learning framework with ROI detection and STC spatiotemporal context prediction algorithm. According to the online learning of the spatiotemporal relationship of the target, it predicted the new target location and corrected the algorithm of the SiamMask model to 收稿日期: 2019−06−06 基金项目: 国家自然科学基金资助项目 (61375010)；北京科技大学基本科研业务费资助项目 (FRF-OT-18-020SY) 工程科学学报，第 42 卷，第 3 期：381−389，2020 年 3 月 Chinese Journal of Engineering, Vol. 42, No. 3: 381−389, March 2020 https://doi.org/10.13374/j.issn2095-9389.2019.06.06.005; http://cje.ustb.edu.cn

382 工程科学学报，第42卷，第3期 realize the fast recognition of the target in the video sequence.The experimental results show that the proposed algorithm can overcome the influence of environmental interference and target occlusion on the tracking effect,reducing the target tracking error recognition rate to 0.156%.The computational time cost is 30 frames per second,which is 3.2 frames per second greater than the frame rate of the improved SiamMask model and 11.94%greater efficiency than that of the original SiamMask model.The algorithm meets the requirements of accuracy and real-time performance of the visual recognition and early warning system,and has reference significance for the application of the moving target recognition algorithm model in a complex environment. KEY WORDS deep learning;complex environment;moving target recognition;SiamMask;STC 视频图像的跟踪及特征分割，是视频应用中生产操作环节里，由于人的安全防护不符合规范，的一项基本任务，如自动监视山，车辆导航，视频标操作人员的头发往往是导致严重安全事故的隐患签，人机交互四和行为识别等，如何在使用场景之一.如女性操作车床时，若未扎好头发或未戴帽中，对视频流在线执行目标跟踪，满足图像跟踪及子，散落的发梢极易被卷进高速旋转的车床部件后续处理的实时性、可靠性需求，是目前图像识别中，带来严重的人身安全事故.随着数字化管理手领域的重要研究方向段的普及，操作环节的全时监控已在生产过程中 20l6年，Bertinetto等]提出SiamFC算法，利得到普遍应用，预警系统可通过监控视频的目标用CNN的全卷积(Fully-convolutional)神经网络进识别，达到对危险因素监测、预警的目的.然而头行实时图像的跟踪处理，克服了传统深度学习在发由于移动中的非规则性、运动无规律性，使得头实时视频图像处理中计算量大、效率过低的缺陷发区域在运动图像中的分割较为困难.常见的动 2018年，Li等结合了SiameseFC和Faster R- 态图像识别Camshift算法以颜色直方图为特征对 CNN中的RPN(Region proposal network),使得实目标进行跟踪8-，对刚性目标的跟踪具有较强的时图像的提取速度大大加快，同时也达到较高精鲁棒性.但当目标过于复杂、目标被遮挡或做加度效果，其目标跟踪算法的代码实现精度在速运动时，很容易发生目标跟丢的情况.目前国内 VOT2018排名第一，鲁棒性大大增强.2019年，中外头发区域分割多集中在二维图像中心四，对移科院Wang等提出新算法SiamMask,实时进行动目标的头发区域分割尚无工业实现的先例目标跟踪和半监督视频对象分割，采用基于数百本文的动态识别检测以北京科技大学工程训万视频帧上离线训练的全卷积网络Siamese,.缩小练中心金工实习车床加工环节为样本，其结果需任意目标跟踪与VOS之间的差距，在视频跟踪任满足生产环节的安全操作预警，要求较高的识别务上达到最优性能，并且在视频目标分割上取得准确性及算法效率.因此提出了一种基于PyTorch 了当前最快速度深度学习框架，将SiamMask单目标跟踪算法与上述算法在已有开源数据库的实时识别中均 ROI(Region of interest)检测及STC(Spatio-temporal 有出色表现，但在应用场景里，由于识别背景的复 context learning)时空上下文目标跟踪算法融合的杂性及遮挡性、目标特征的差异性、环境影响的方法)，满足实际场景中对人员头发区域动态分随机性等因素，会存在一定的目标误识别现象6刃割识别的任务需求针对如何在识别准确度要求较高的应用场景中 1.2基于SiamMask模型的面部动态检测实现 (如生产安全智能预警系统中的移动目标实时图动态视频检测的重要技术难题就是如何更像识别)，实现高效、快速的实时图像识别，开展了本文研快、更有效，本文基于2019年5月PySOT目标跟究内容.提出一种基于SiamMask的时空预测移动踪库l的最新成果SiamMask模型进行面部动态目标跟踪算法，克服环境干扰、目标遮挡对跟踪效检测).SiamMask是当前视频图像目标跟踪模型果的影响，实现视频序列中的目标快速识别，对移动中，最为出色的快速跟踪和分割方法.该算法基目标识别算法模型的复杂环境应用具有借鉴意义于PyTorch深度学习框架，实时进行目标跟踪和半监督视频对象分割，通过增加目标分割的损失，改基于SiamMask的时空预测移动目标跟进了全卷积网络Siamese跟踪方法的离线训练过踪算法设计程.经过训练，SiamMask完全依赖于初始化单个 1.1应用场景提出边界框并在线操作，产生类别未知的目标分割机床加工在工业生产中应用极为广泛，实际 Mask和实时每秒35帧的旋转边界框.在VOT-

realize the fast recognition of the target in the video sequence. The experimental results show that the proposed algorithm can overcome the influence of environmental interference and target occlusion on the tracking effect, reducing the target tracking error recognition rate to 0.156%. The computational time cost is 30 frames per second, which is 3.2 frames per second greater than the frame rate of the improved SiamMask model and 11.94% greater efficiency than that of the original SiamMask model. The algorithm meets the requirements of accuracy and real-time performance of the visual recognition and early warning system, and has reference significance for the application of the moving target recognition algorithm model in a complex environment. KEY WORDS deep learning；complex environment；moving target recognition；SiamMask；STC 视频图像的跟踪及特征分割，是视频应用中的一项基本任务，如自动监视[1] ，车辆导航，视频标签，人机交互[2] 和行为识别等. 如何在使用场景中，对视频流在线执行目标跟踪，满足图像跟踪及后续处理的实时性、可靠性需求，是目前图像识别领域的重要研究方向. 2016 年，Bertinetto 等[3] 提出 SiamFC 算法，利用 CNN 的全卷积（Fully-convolutional）神经网络进行实时图像的跟踪处理，克服了传统深度学习在实时视频图像处理中计算量大、效率过低的缺陷. 2018 年， Li 等 [4] 结合了 SiameseFC 和 Faster RCNN 中的 RPN（Region proposal network），使得实时图像的提取速度大大加快，同时也达到较高精度效果，其目标跟踪算法的代码实现精度在 VOT2018 排名第一，鲁棒性大大增强. 2019 年，中科院 Wang 等[5] 提出新算法 SiamMask，实时进行目标跟踪和半监督视频对象分割，采用基于数百万视频帧上离线训练的全卷积网络 Siamese，缩小任意目标跟踪与 VOS 之间的差距，在视频跟踪任务上达到最优性能，并且在视频目标分割上取得了当前最快速度. 上述算法在已有开源数据库的实时识别中均有出色表现，但在应用场景里，由于识别背景的复杂性及遮挡性、目标特征的差异性、环境影响的随机性等因素，会存在一定的目标误识别现象[6−7] . 针对如何在识别准确度要求较高的应用场景中（如生产安全智能预警系统中的移动目标实时图像识别），实现高效、快速的实时图像识别，开展了本文研究内容. 提出一种基于 SiamMask 的时空预测移动目标跟踪算法，克服环境干扰、目标遮挡对跟踪效果的影响，实现视频序列中的目标快速识别，对移动目标识别算法模型的复杂环境应用具有借鉴意义. 1 基于 SiamMask 的时空预测移动目标跟踪算法设计 1.1 应用场景提出机床加工在工业生产中应用极为广泛，实际生产操作环节里，由于人的安全防护不符合规范，操作人员的头发往往是导致严重安全事故的隐患之一. 如女性操作车床时，若未扎好头发或未戴帽子，散落的发梢极易被卷进高速旋转的车床部件中，带来严重的人身安全事故. 随着数字化管理手段的普及，操作环节的全时监控已在生产过程中得到普遍应用，预警系统可通过监控视频的目标识别，达到对危险因素监测、预警的目的. 然而头发由于移动中的非规则性、运动无规律性，使得头发区域在运动图像中的分割较为困难. 常见的动态图像识别 Camshift 算法以颜色直方图为特征对目标进行跟踪[8−9] ，对刚性目标的跟踪具有较强的鲁棒性. 但当目标过于复杂、目标被遮挡或做加速运动时，很容易发生目标跟丢的情况. 目前国内外头发区域分割多集中在二维图像中[10−12] ，对移动目标的头发区域分割尚无工业实现的先例. 本文的动态识别检测以北京科技大学工程训练中心金工实习车床加工环节为样本，其结果需满足生产环节的安全操作预警，要求较高的识别准确性及算法效率. 因此提出了一种基于 PyTorch 深度学习框架，将 SiamMask 单目标跟踪算法与 ROI（Region of interest）检测及 STC（Spatio-temporal context learning）时空上下文目标跟踪算法融合的方法[13] ，满足实际场景中对人员头发区域动态分割识别的任务需求. 1.2 基于 SiamMask 模型的面部动态检测实现动态视频检测的重要技术难题就是如何更快、更有效，本文基于 2019 年 5 月 PySOT 目标跟踪库[14] 的最新成果 SiamMask 模型进行面部动态检测[15] . SiamMask 是当前视频图像目标跟踪模型中，最为出色的快速跟踪和分割方法. 该算法基于 PyTorch 深度学习框架，实时进行目标跟踪和半监督视频对象分割，通过增加目标分割的损失，改进了全卷积网络 Siamese 跟踪方法的离线训练过程. 经过训练，SiamMask 完全依赖于初始化单个边界框并在线操作，产生类别未知的目标分割 Mask 和实时每秒 35 帧的旋转边界框. 在 VOT- · 382 · 工程科学学报，第 42 卷，第 3 期

周珂等：复杂环境下一种基于SiamMask的时空预测移动目标跟踪算法 383 2018、DAVIS-2016和DAVIS-.2017上均有极为出目标跟踪处理，具有非常强的实时性、便捷性、计色表现. 算低成本性.考虑应用场景对识别快速性的要求， 1.2.1算法移植测试优势采用SiamMask对图像进行初步处理.为更好的测如图1所示，Mask生成的网络采用的两层试算法可用性，算法处理环境为工业环境中易于 1*1卷积，分别是256通道和63*63通道数，并采实现的单GPU处理板用了Refinement module(微调模块)，这是一种不同图2为SiamMask模型在工业系统视频中的测分辨率的特征融合策略.在SiamFC和SiamRPN 试效果，对不同发型及尺寸视频目标的头部追踪，基础上分别加上目标分割分支网络，形成两分支该模块表现出较高的识别效率，平均识别速度可和三分支的SiamMask网络.图1左边是共享权值达每秒26.8帧的孪生网络，在对模板（上分支网络）和搜索区域 1.2.2算法移植测试误识别现象 (下分支网络输入)特征提取后，进行卷积生成与尽管算法识别效率高，但在环境嘈杂时，会出模板最相似的相应区域.图中，*d表示深度相关现跟踪误识别情况.如图3(a)、(b)所示，当追踪权重叠加，Row表示响应窗口，Mask表示视频目对象周围出现深色服装、肉色物体等干扰源时，算标物体，Box为预测盒，Score为预测得分.f、h。、法产生误识别现象；图3(c)为人脸被头发遮挡后， b。、S。P。分别为CNN、目标物体、预测盒、预测该模型失去跟踪目标.此外，在目标出画面之外再得分、响应窗口预测得分的处理函数进来的情况下，继续跟踪效果不佳 SiamMask模型通过大量的深度学习网络离线将SiamMask模型对7段测试视频的追踪效果训练，将在线学习工作量节约至最小状态，整个模进行统计，得到表1所列情况型通过初始帧跟踪目标设定即可完成整段视频的结合图3和表1数据可以看出，SiamMask网 (a) (b) 127#127*1 116 *17(630 Mask 127*127*3 1725 1*63*63) Ro:1*1*236 RW:1126 255◆255◆3 图1 SiamMask模型算法流程图阿.(a)三分支变型架构：(b)二分支变型架构核心 Fig.1 SiamMask model algorithmic flow chart!sl:(a)three-branch variant architecture;(b)two-branch variant head 图2 SiamMask模型面部检测效果.(a)束发头部跟踪；(b)长发头部跟踪I:(c)长发头部跟踪Ⅱ Fig.2 SiamMask model face detection effect:(a)bundle head tracking;(b)long hair head tracking I;(c)long hair head tracking II 图3 SiamMask模型测试误识别现象.(a)深色干扰源误识别：(b)肉色干扰误识别：(c)头发遮挡误识别 Fig.3 SiamMask model test misrecognition phenomenon:(a)misidentification of dark interference sources;(b)misidentification of flesh color interference;(c)misidentification of hair occlusion

2018、 DAVIS-2016 和 DAVIS-2017 上均有极为出色表现. 1.2.1 算法移植测试优势如图 1 所示， Mask 生成的网络采用的两层 1*1 卷积，分别是 256 通道和 63*63 通道数，并采用了 Refinement module（微调模块），这是一种不同分辨率的特征融合策略. 在 SiamFC 和 SiamRPN 基础上分别加上目标分割分支网络，形成两分支和三分支的 SiamMask 网络. 图 1 左边是共享权值的孪生网络，在对模板（上分支网络）和搜索区域（下分支网络输入）特征提取后，进行卷积生成与模板最相似的相应区域. 图中，★d 表示深度相关权重叠加，Row 表示响应窗口，Mask 表示视频目标物体，Box 为预测盒，Score 为预测得分. fθ、hϕ、 bσ、sφ、pω 分别为 CNN、目标物体、预测盒、预测得分、响应窗口预测得分的处理函数[5] . SiamMask 模型通过大量的深度学习网络离线训练，将在线学习工作量节约至最小状态，整个模型通过初始帧跟踪目标设定即可完成整段视频的目标跟踪处理，具有非常强的实时性、便捷性、计算低成本性. 考虑应用场景对识别快速性的要求，采用 SiamMask 对图像进行初步处理. 为更好的测试算法可用性，算法处理环境为工业环境中易于实现的单 GPU 处理板. 图 2 为 SiamMask 模型在工业系统视频中的测试效果，对不同发型及尺寸视频目标的头部追踪，该模块表现出较高的识别效率，平均识别速度可达每秒 26.8 帧. 1.2.2 算法移植测试误识别现象尽管算法识别效率高，但在环境嘈杂时，会出现跟踪误识别情况. 如图 3（a）、（b）所示，当追踪对象周围出现深色服装、肉色物体等干扰源时，算法产生误识别现象；图 3（c）为人脸被头发遮挡后，该模型失去跟踪目标. 此外，在目标出画面之外再进来的情况下，继续跟踪效果不佳. 将 SiamMask 模型对 7 段测试视频的追踪效果进行统计，得到表 1 所列情况. 结合图 3 和表 1 数据可以看出，SiamMask 网 127*127*3 15*15*256 17*17*256 *d (a) (b) bσ 17*17*4k sφ 17*17*4k 17*17*(63*63) 17*17*256 17*17*(63*63) 1*1*(63*63) 1*1*(63*63) RoW: 1*1*256 127*127*1 Mask Mask Box Score hϕ hϕ pω 17*17*1 Score RoW: 1*1*256 31*31*256 255*255*3 fθ fθ 图 1 SiamMask 模型算法流程图[5] . （a）三分支变型架构；（b）二分支变型架构核心 Fig.1 SiamMask model algorithmic flow chart[5] : (a) three-branch variant architecture; (b) two-branch variant head (a) (b) (c) 图 2 SiamMask 模型面部检测效果. （a）束发头部跟踪；（b）长发头部跟踪Ⅰ；（c）长发头部跟踪Ⅱ Fig.2 SiamMask model face detection effect: (a) bundle head tracking; (b) long hair head tracking I; (c) long hair head tracking II (a) (b) (c) 图 3 SiamMask 模型测试误识别现象. （a）深色干扰源误识别；（b）肉色干扰误识别；（c）头发遮挡误识别 Fig.3 SiamMask model test misrecognition phenomenon: (a) misidentification of dark interference sources; (b) misidentification of flesh color interference; (c) misidentification of hair occlusion 周珂等：复杂环境下一种基于 SiamMask 的时空预测移动目标跟踪算法 · 383 ·

384 工程科学学报，第42卷，第3期表1 SiamMask模型目标跟踪效果统计 Table 1 Statistics of target tracking effect of the SiamMask model Video No. Frame number of false detection Analysis on the causes of false inspection Total frames Failure rate/ 0 Little change in this movement 361 0 2 87 Misidentified as dark cloth 288 30.21 3 98 Part of the face is blocked by the hair 192 51.04 4 674 Initialization offset,screen will pop up in recognition 1380 48.84 5 131 The target moves out of the screen slightly and the recognition is lost 240 54.58 6 753 Large proportion of face selection in initialization area 1360 55.37 7 0 Accurate initialization and small action range 241 0 络模型会在以下情况产生误识别现象：与空间信息，根据对头发目标时空关系的在线学 1)初始化区域选定的面部比例较大时，效果习预测新的目标位置，并与SiamMask模型的跟踪存在较多误识别现象，结果进行匹配校正 2)干扰项出现时若产生误识别现象，在干扰 1.3.1工业视频ROI提取因素消失时，无法及时恢复目标跟踪.在本文的对本文所使用的视频来自于实际车工场地监控象视频中表现为，目标移出视频后再返回则不再镜头录制的彩色视频，分辨率为1920×1080，帧率跟踪.由图3所示，目标误识别后，即便目标仍在为每秒24帧，总帧数截取3427帧.从图5(a)可以同一区域，也难以校正看出，视频画面中包含多个机床工位，往来人员较 1.3 SiamMask模型的修正处理多，这给单个目标的跟踪、检测带来一定干扰.面针对SiamMask模型的应用不足，提出算法修对实际情况，针对单个车床目标，需要对获得的视正.对原始工业视频做ROI提取，并以STC时空频进行ROI提取操作.其中包括：视频ROI区域设上下文跟踪法6-7对视频序列进行匹配校正，从定、全图运动检测两部分而减少工业环境中的目标漏检、误检率，实现复杂 (1)ROI区域设定环境中头发区域的精准检测.算法框架图如图4 具体ROI提取步骤中有两个关键点：ROI区所示.图中，P:为第k帧图像，P为STC预测的第域起点位置、ROI区域的分辨率.应用先验知识， k帧图像，中为判断函数. 可以确定ROI区域左上角起点像素位置A(x,), 修正1：ROI区域提取.如上文所述，SiamMask ROI区域宽度为lw,高度为h,如式(1)所示：模型初始Mask对视频后序识别的误差具有积累 x=1w×0.268 性，因此在算法修正时首先对视频进行了识别目 y=×0.502 (1) 标与非相关性背景的分离预处理剧 lw=1v×0.426 修正2：STC匹配校正.STC模型是一种考量 h=%×0.497 了目标与背景相关性的算法理念，具有较高的目式中，为原画面宽度，为原画面高度标跟踪精度与速度.本文基于STC算法，结合时间通过自动获取原始视频的信息，按照式(1)进 ☆Judge Siam mask Video OI prpcessing deep learning sequence processunng P 图4基于SiamMask模型的时空预测移动目标跟踪算法框架图 Fig.4 Framework of spatiotemporal prediction moving target tracking algorithms based on the SiamMask Model

络模型会在以下情况产生误识别现象： 1）初始化区域选定的面部比例较大时，效果存在较多误识别现象. 2）干扰项出现时若产生误识别现象，在干扰因素消失时，无法及时恢复目标跟踪. 在本文的对象视频中表现为，目标移出视频后再返回则不再跟踪. 由图 3 所示，目标误识别后，即便目标仍在同一区域，也难以校正. 1.3 SiamMask 模型的修正处理针对 SiamMask 模型的应用不足，提出算法修正. 对原始工业视频做 ROI 提取，并以 STC 时空上下文跟踪法[16−17] 对视频序列进行匹配校正，从而减少工业环境中的目标漏检、误检率，实现复杂环境中头发区域的精准检测. 算法框架图如图 4 所示. 图中，Pk 为第 k 帧图像，Pk ’为 STC 预测的第 k 帧图像，Φ 为判断函数. 修正 1：ROI 区域提取. 如上文所述，SiamMask 模型初始 Mask 对视频后序识别的误差具有积累性，因此在算法修正时首先对视频进行了识别目标与非相关性背景的分离预处理[18] . 修正 2：STC 匹配校正. STC 模型是一种考量了目标与背景相关性的算法理念，具有较高的目标跟踪精度与速度. 本文基于 STC 算法，结合时间与空间信息，根据对头发目标时空关系的在线学习预测新的目标位置，并与 SiamMask 模型的跟踪结果进行匹配校正. 1.3.1 工业视频 ROI 提取本文所使用的视频来自于实际车工场地监控镜头录制的彩色视频，分辨率为 1920×1080，帧率为每秒 24 帧，总帧数截取 3427 帧. 从图 5（a）可以看出，视频画面中包含多个机床工位，往来人员较多，这给单个目标的跟踪、检测带来一定干扰. 面对实际情况，针对单个车床目标，需要对获得的视频进行 ROI 提取操作. 其中包括：视频 ROI 区域设定、全图运动检测两部分. （1）ROI 区域设定. 具体 ROI 提取步骤中有两个关键点：ROI 区域起点位置、ROI 区域的分辨率. 应用先验知识，可以确定 ROI 区域左上角起点像素位置 A(x,y)， ROI 区域宽度为 lw，高度为 lh，如式 (1) 所示： x = l ′ w ×0.268 y = l ′ h ×0.502 lw = l ′ w ×0.426 lh = l ′ h ×0.497 （1） l ′ w l ′ 式中，为原画面宽度， h 为原画面高度. 通过自动获取原始视频的信息，按照式（1）进表 1 SiamMask 模型目标跟踪效果统计 Table 1 Statistics of target tracking effect of the SiamMask model Video No. Frame number of false detection Analysis on the causes of false inspection Total frames Failure rate/% 1 0 Little change in this movement 361 0 2 87 Misidentified as dark cloth 288 30.21 3 98 Part of the face is blocked by the hair 192 51.04 4 674 Initialization offset, screen will pop up in recognition 1380 48.84 5 131 The target moves out of the screen slightly and the recognition is lost 240 54.58 6 753 Large proportion of face selection in initialization area 1360 55.37 7 0 Accurate initialization and small action range 241 0 Video sequence ROI prpcessing Siam mask deep learning processunng Pk−2 Pk−1 × P′ k Pk Pk P′ k Φ>1 Φ<1 ☆ΦJudge 图 4 基于 SiamMask 模型的时空预测移动目标跟踪算法框架图 Fig.4 Framework of spatiotemporal prediction moving target tracking algorithms based on the SiamMask Model · 384 · 工程科学学报，第 42 卷，第 3 期

周珂等：复杂环境下一种基于SiamMask的时空预测移动目标跟踪算法 385· b 图5车工监控视频ROI提取结果.(a)原始画面：(b)ROI提取画面 Fig.5 ROI extraction result of a locomotive monitoring video:(a)original picture;(b)ROI extraction picture 行相对比例的计算，处理结果如图5(b)所示，裁切志赋值.在训练中选取灰度差阈值△1=30. 得到的视频宽度为816个像素、高度为536个像步骤3：判断两个差值标志位逻辑结果同时为素、ROI左上角起点坐标像素为(516,541) 1时，代表三帧中有运动目标存在 (2)ROI全图运动检测及自动提取. 步骤4：对于输入的序列图像，按照时序统计步骤1：设e)为像素点(x)灰度值，对输每三帧之间的灰度变化像素点的个数，当运动目入视频相邻的三帧图像，进行像素点灰度值变化标出现时，灰度变化像素点个数成跳变趋势，从该计算时刻进行ROI区域的提取，即按照ROI区域先验步骤2：判断相邻帧之间灰度变化，对差值标设定尺寸进行裁切.如图6所示图6运动图像检测灰度图.()无运动目标时的原图/灰度图：(b)运动目标出现时的原图灰度图 Fig.6 Gray level image of moving image detection:(a)original image/gray level image without moving object.(b)original image/gray level image when moving object appears 1.3.2STC匹配校正由目标矩形确定的局部上下文区域的图像灰度与为了解决复杂环境、头发遮挡等对头部跟踪位置的统计建模，c()为置信图函数如图7所的影响，在深度学习框架后的滤波跟踪框架中融示，对灰度级图像进行阈值化处理，得到的二值化合了图像空间上下文信息，以实现对目标变化的图像可进一步排除背景冗余信息. 自适应调整.STC图像空间上下文算法通过贝叶设SiamMask模型第k帧追踪目标图像为Pk, 斯框架统计目标及其背景的相关性并进行置信图空间上下文预测第k帧目标图像为P.设计判断计算，根据置信图的似然概率最大位置预测新的函数中进行Pk与P中目标位置的相似度比对，根据目标位置比对结果进行更新校正，形成新的目标跟踪结果. 根据当前帧确定上下文特征集合：步骤1：计算k-1帧ROI区域置信图： T={ce=((e,∈2()片，其中，txy)是目标区 c-1(t)=>P(te(2).o)P(c(2)o) (2) 域中心，I)是目标区域像素z的灰度值，2()是 c(z)eTe a 图7图像灰度及國值化处理.()原始视频图像：(b)灰度化处理结果：(c)厨值化处理结果 Fig.7 Gray level and threshold processing of image:(a)original video image;(b)grayscale processing results,(c)threshold processing results

行相对比例的计算，处理结果如图 5（b）所示，裁切得到的视频宽度为 816 个像素、高度为 536 个像素、ROI 左上角起点坐标像素为（516，541）. （2）ROI 全图运动检测及自动提取. 步骤 1：设 Ik (z) 为像素点 z(xz ,yz ) 灰度值，对输入视频相邻的三帧图像，进行像素点灰度值变化计算. 步骤 2：判断相邻帧之间灰度变化，对差值标志赋值. 在训练中选取灰度差阈值 ΔIT=30. 步骤 3：判断两个差值标志位逻辑结果同时为 1 时，代表三帧中有运动目标存在. 步骤 4：对于输入的序列图像，按照时序统计每三帧之间的灰度变化像素点的个数，当运动目标出现时，灰度变化像素点个数成跳变趋势，从该时刻进行 ROI 区域的提取，即按照 ROI 区域先验设定尺寸进行裁切. 如图 6 所示. 1.3.2 STC 匹配校正为了解决复杂环境、头发遮挡等对头部跟踪的影响，在深度学习框架后的滤波跟踪框架中融合了图像空间上下文信息，以实现对目标变化的自适应调整. STC 图像空间上下文算法通过贝叶斯框架统计目标及其背景的相关性并进行置信图计算，根据置信图的似然概率最大位置预测新的目标位置. 根据当前帧确定上下文特征集合： T c={c(z)=(I(z)， z)|z∈Ωc (t * )}，其中， t * (xt ,yt ) 是目标区域中心，I(z) 是目标区域像素 z 的灰度值，Ωc (t * ) 是由目标矩形确定的局部上下文区域的图像灰度与位置的统计建模，c(z) 为置信图函数[19] . 如图 7 所示，对灰度级图像进行阈值化处理，得到的二值化图像可进一步排除背景冗余信息. P ′ k P ′ k 设 SiamMask 模型第 k 帧追踪目标图像为 Pk，空间上下文预测第 k 帧目标图像为 . 设计判断函数 Φ 进行 Pk 与中目标位置的相似度比对，根据比对结果进行更新校正，形成新的目标跟踪结果. 步骤 1：计算 k‒1 帧 ROI 区域置信图： ck−1(t) = ∑ c(z)∈T c P(t|c(z),o)P(c(z)|o) （2） (a) (b) 图 5 车工监控视频 ROI 提取结果. （a）原始画面；（b）ROI 提取画面 Fig.5 ROI extraction result of a locomotive monitoring video: (a) original picture; (b) ROI extraction picture (a) (b) 图 6 运动图像检测灰度图. （a）无运动目标时的原图/灰度图；（b）运动目标出现时的原图/灰度图 Fig.6 Gray level image of moving image detection: (a) original image / gray level image without moving object; (b) original image / gray level image when moving object appears (a) (b) (c) 图 7 图像灰度及阈值化处理. (a) 原始视频图像；(b) 灰度化处理结果；(c) 阈值化处理结果 Fig.7 Gray level and threshold processing of image: (a) original video image; (b) grayscale processing results; (c) threshold processing results 周珂等：复杂环境下一种基于 SiamMask 的时空预测移动目标跟踪算法 · 385 ·

386 工程科学学报，第42卷，第3期式中，o表示所跟踪目标，P为上下文先验模型将与SiamMask模型该帧目标位置t比对. P(c(2)lo)=Ig-1(2)@(z-t)=hi(t-2) (3) 设计判断函数中=候-)/(-1-k-2 式中，wr()=ae12是一个权重函数，其中，a是若Φ>1，则第k帧目标图像输出为P,第k帧归一化参数，取值为[0,1，σ是一个尺度参数，2为的目标位置输出更新为；若中<1，则追踪目标图高斯函数方差.h(t-)是时空上下文模型，是傅里像为Pk,第k帧的目标位置输出更新为叶变换后的频率域计算变形 2算法研究结果及分析步骤2：计算k-1帧2.()上下文区域的空间上下文模型： 2.1算法训练 0=FFb-err%f 与SiamMask!一样，使用Warmup预热学习 (4) F(I(t)wo(t-r) 率的方式，在Davis?2017201数据集中进行训练，并式中，b是归一化参数，α是尺度参数，B是目标形在机加工操作数据视频集中进行头部识别测试状参数其中，训练输人为图像尺寸127像素×127像素，步骤3：更新空间上下文c(x)模型： 255像素×255像素，数据增强采用随机抖动与搜 H)(t)=h(t) (5) 索策略，网络初始化权重采用SiamMask模型在 H()=(1-p)H10+ph10 (6) ImageNet--Ik Datasets上预训练的权重，梯度下降策式中，p为模型更新的学习率略采用SGD.训练时在开始进行的5轮训练中，先步骤4：在第k帧计算上下文先验模型及置信图：将学习率从103线性增长到5×10~3，之后通过15轮 P(c(z)o)=Ig(z)wo(z-1) (7) 训练将学习率以对数规律降为5×10 ck(t)=F-(F(He(t))I(t)@(z-1) (8) 图8为本文算法在训练及测试集中的准确率、损失率曲线图.可以看到，在训练集上，15轮步骤5：将第k帧得到的置信图极值点作为目次左右训练后，准确率及损失率均有效收敛.在测标在k帧的位置输出：试集上，由于数据特征更为集中，呈现了更快速的 =arg r c() (9) 收敛性 2.00 90(a) (b) 1.75 80 wwwwwwM [Epoch:88,90.23] 1.50 70 1.25 60 10 0.75 40 0.50 [Epoch:93,0.172] 0.25 AMwLKh 20 20 40 60 80 100 0 20 40 60 80100 Epoch Epoch 90 (c) (d) 1.6 [Epoch:53,92.85刀 1.4 1.2 70 60 0.8 0.6 50 0.4 [Epoch:23,0.18063] % 0.2 0 20 4060 80 100 0 20 4060 80100 Epoch Epoch 图8算法训练测试准确率及损失率曲线.(a)训练集准确率曲线图：(b)训练集损失率曲线图：(c)测试集准确率曲线图：()测试集损失率曲线图 Fig Algorithm training/test accuracy and loss rate curve:(a)training set accuracy curve;(b)training set loss curve;(c)test set accuracy curve (d)test set loss curve

式中，o 表示所跟踪目标，P 为上下文先验模型. P(c(z)|o) = Ik−1(z)ωσ(z−t ∗ ) = h sc k−1 (t−z) （3） ωσ(z) = a · e −z 2 /σ2 h sc(t−z) 式中，是一个权重函数，其中，a 是归一化参数，取值为 [0,1]，σ 是一个尺度参数，σ 2 为高斯函数方差. 是时空上下文模型，是傅里叶变换后的频率域计算变形. 步骤 2：计算 k‒1 帧 Ωc (t * ) 上下文区域的空间上下文模型： h sc k−1 (t) = F −1 ( F(b · e − (t−t ∗ )⧸α β ) F(I(t)ωσ(t−t ∗ )) ) （4）式中，b 是归一化参数，α 是尺度参数，β 是目标形状参数. h sc 步骤 3：更新空间上下文 (x) 模型： H sc 2 (t) = h sc 1 (t) （5） H sc k (t) = (1−ρ)H sc k−1 (t)+ρh sc k−1 (t) （6）式中，ρ 为模型更新的学习率. 步骤 4：在第 k 帧计算上下文先验模型及置信图： P(c(z)|o) = Ik(z)ωσ(z−t ∗ k−1 ) （7） ck(t) = F −1 (F(H sc k (t))⊙ Ik(t)ωσ(z−t ∗ k−1 ) （8）步骤 5：将第 k 帧得到的置信图极值点作为目标在 k 帧的位置输出： t ∗ k = arg max x∈Ω(t ∗ ) ck(t) （9） t ∗ k t k Φ= (t ∗ k −tk)/(tk−1 −tk−2) 将与 SiamMask 模型该帧目标位置比对 . 设计判断函数 . Φ > 1 P ′ k t ∗ k Φ < 1 Pk tk 若，则第 k 帧目标图像输出为，第 k 帧的目标位置输出更新为；若，则追踪目标图像为，第 k 帧的目标位置输出更新为 . 2 算法研究结果及分析 2.1 算法训练与 SiamMask[15] 一样，使用 Warmup 预热学习率的方式，在 Davis2017[20] 数据集中进行训练，并在机加工操作数据视频集中进行头部识别测试. 其中，训练输入为图像尺寸 127 像素×127 像素， 255 像素×255 像素，数据增强采用随机抖动与搜索策略，网络初始化权重采用 SiamMask 模型在 ImageNet-1k Datasets 上预训练的权重，梯度下降策略采用 SGD. 训练时在开始进行的 5 轮训练中，先将学习率从 10‒3 线性增长到 5×10‒3，之后通过 15 轮训练将学习率以对数规律降为 5×10‒4 . 图 8 为本文算法在训练及测试集中的准确率、损失率曲线图. 可以看到，在训练集上，15 轮次左右训练后，准确率及损失率均有效收敛. 在测试集上，由于数据特征更为集中，呈现了更快速的收敛性. 90 80 70 60 50 40 30 0 40 20 60 Epoch [Epoch: 88,90.23] (a) Accuracy/% 80 100 20 2.00 1.75 1.50 1.25 1.00 0.75 0.50 0.25 0 40 20 60 Epoch [Epoch: 93,0.172] (b) Loss 80 100 90 80 70 60 50 40 0 40 20 60 Epoch [Epoch: 53,92.857] (c) Accuracy/% 80 100 1.6 1.4 1.2 1.0 0.6 0.8 0.4 0.2 0 20 60 40 Epoch [Epoch: 23,0.18063] (d) Loss 80 100 图 8 算法训练/测试准确率及损失率曲线. （a）训练集准确率曲线图；（b）训练集损失率曲线图；（c）测试集准确率曲线图；（d）测试集损失率曲线图 Fig.8 Algorithm training/test accuracy and loss rate curve: (a) training set accuracy curve; (b) training set loss curve; (c) test set accuracy curve; (d) test set loss curve · 386 · 工程科学学报，第 42 卷，第 3 期

周珂等：复杂环境下一种基于SiamMask的时空预测移动目标跟踪算法 387· 2.2算法应用效果测试 2.3算法时间成本 22.1测试指标设计由于本文算法必须满足智能安全识别系统实本文采用图像检测中常用的标准性能度量参时、高效、可靠的要求，因此在实际使用环境中测数IoU(Intersection over union)进行检测判断.当检试其综合时间成本测到的目标位置与真实目标位置相交的重叠部分为了检验效果，用外接矩形框对目标跟踪轮为0时为失败，即1oU=0认定为跟踪失败.通过式廓边界进行了包围，如图9(a)所示.可以看到，经 (10)统计第i段视频误检帧所占的比例. 过算法校正，背景中的噪声轮廓得到了大幅度去 M 除，保留得到的头部轮廓是大面积连通域的外轮 0:7 (10) 廓.对于头发轮廓的边界点坐标以向量的形式进行存储，即获取到视频序列中人员头发的位置坐式中，M为视频总帧数；为判断因子，当该帧中标，为后续头发目标是否进入危险区的判定提供 IoU=0时，=1，其余情况k=0. 基础. 1 设计统计指标：Q= (11) 如图9(a)中所示，较大蓝色矩形框代表二级危险区，较小绿色矩形框代表一级危险区.对于危式中，M为视频个数.Q为所有视频片段的错误率险区的位置信息记录如下，二级危险区的具体设的均值计为：左上角顶点像素位置坐标为(418,274)，宽度 2.2.2测试数据对比为164个像素，高度为147个像素.一级危险区的为保证对比测试的初始区域一致性，SiamMask 具体设计为：左上角顶点像素位置坐标为(471,311)，模型与本文所提算法均采用被测视频的初始帧人宽度为107个像素，高度为93个像素.在图9(b) 脸区域分割结果.通过对7段测试视频进行统计，中设计了四种报警级别的区域范围，分别是预警得到前文表1及下文表2的数值. Ⅱ级、预警I级、危险、非常危险从表1中视频的测试数据可计算得知对于两组坐标进行比对判别，判断头发目标 Q=34.29%,即算法误识别的平均可能性为34.29%. 进入危险区的程度以触发不同类别的报警.得到从表2数据可计算得知Q=0.156%,本文提出的算结果如图10所示，图10(b)左上角为具体文字报法误识别率有较大降低警内容表2基于SiamMask模型的时空预测算法目标跟踪效果统计 Table 2 Statistics of the target tracking effect of the spatiotemporal prediction algorithms based on the SiamMask model Video No.Frame number of false detection Analysis on the causes of false inspection Total frames Failure rate/% 1 0 Little change in this movement 361 0 2 0 Misidentified as dark cloth 288 0 Part of the face is blocked by the hair 192 0.52 2 Initialization offset,screen will pop up in recognition 1380 0.15 The target moves out of the screen slightly and the recognition is lost 240 0.42 6 0 Large proportion of face selection in initialization area 1360 0 > 0 Accurate initialization and small action range 241 0 (b) Hair outline box l-WarningⅡleve 2-Warning I leve 3-Dangerous 4-Very dangerous x 图9固定危险区划分示意图.()视频危险区划分图：(b)危险级别划分示意图 Fig.9 Fixed danger zone division diagram:(a)video dangerous zone division map;(b)diagram of hazard classification

2.2 算法应用效果测试 2.2.1 测试指标设计本文采用图像检测中常用的标准性能度量参数 IoU（Intersection over union）进行检测判断. 当检测到的目标位置与真实目标位置相交的重叠部分为 0 时为失败，即 IoU=0 认定为跟踪失败. 通过式（10）统计第 i 段视频误检帧所占的比例. Qi = 1 Ms ∑ Ms k=1 Φk （10） Ms Φk Φk = 1 Φk = 0 式中，为视频总帧数；为判断因子，当该帧中 IoU=0 时，，其余情况 . 设计统计指标 : Q = 1 M ∑ M i=1 Qi （11）式中，M 为视频个数. Q 为所有视频片段的错误率的均值. 2.2.2 测试数据对比为保证对比测试的初始区域一致性，SiamMask 模型与本文所提算法均采用被测视频的初始帧人脸区域分割结果. 通过对 7 段测试视频进行统计，得到前文表 1 及下文表 2 的数值. 从表 1 中视频的测试数据可计算得知 Q=34.29%，即算法误识别的平均可能性为 34.29%. 从表 2 数据可计算得知 Q=0.156%，本文提出的算法误识别率有较大降低. 2.3 算法时间成本由于本文算法必须满足智能安全识别系统实时、高效、可靠的要求，因此在实际使用环境中测试其综合时间成本. 为了检验效果，用外接矩形框对目标跟踪轮廓边界进行了包围，如图 9（a）所示. 可以看到，经过算法校正，背景中的噪声轮廓得到了大幅度去除，保留得到的头部轮廓是大面积连通域的外轮廓. 对于头发轮廓的边界点坐标以向量的形式进行存储，即获取到视频序列中人员头发的位置坐标，为后续头发目标是否进入危险区的判定提供基础. 如图 9（a）中所示，较大蓝色矩形框代表二级危险区，较小绿色矩形框代表一级危险区. 对于危险区的位置信息记录如下，二级危险区的具体设计为：左上角顶点像素位置坐标为（418, 274），宽度为 164 个像素，高度为 147 个像素. 一级危险区的具体设计为：左上角顶点像素位置坐标为（471, 311），宽度为 107 个像素，高度为 93 个像素. 在图 9（b）中设计了四种报警级别的区域范围，分别是预警 II 级、预警 I 级、危险、非常危险. 对于两组坐标进行比对判别，判断头发目标进入危险区的程度以触发不同类别的报警. 得到结果如图 10 所示，图 10（b）左上角为具体文字报警内容. 表 2 基于 SiamMask 模型的时空预测算法目标跟踪效果统计 Table 2 Statistics of the target tracking effect of the spatiotemporal prediction algorithms based on the SiamMask model Video No. Frame number of false detection Analysis on the causes of false inspection Total frames Failure rate/% 1 0 Little change in this movement 361 0 2 0 Misidentified as dark cloth 288 0 3 1 Part of the face is blocked by the hair 192 0.52 4 2 Initialization offset, screen will pop up in recognition 1380 0.15 5 1 The target moves out of the screen slightly and the recognition is lost 240 0.42 6 0 Large proportion of face selection in initialization area 1360 0 7 0 Accurate initialization and small action range 241 0 (a) (b) Hair outline box y x C o 1 1—Warning Ⅱ leve 2—Warning Ⅰ leve 3—Dangerous 4—Very dangerous 3 4 2 图 9 固定危险区划分示意图. （a）视频危险区划分图；（b）危险级别划分示意图 Fig.9 Fixed danger zone division diagram: (a) video dangerous zone division map; (b) diagram of hazard classification 周珂等：复杂环境下一种基于 SiamMask 的时空预测移动目标跟踪算法 · 387 ·

·388 工程科学学报，第42卷，第3期图10头发目标跟踪报警结果.(a)第30帧：(b)第35帧：(c)第60帧：(d)第70帧：(e)第75帧：(f)第80帧 Fig.10 Hair target tracking alarm results:(a)frame 30;(b)frame 35;(c)frame 60;(d)frame 70;(e)frame 75;(f)frame 80 对于算法的处理时间进行统计，利用参考文献 cvGetTickCount函数得到从操作系统启动到当前 [1]Xing J L,Ai H Z,Lao S H.Multiple human tracking based on 所经历的时钟周期数，利用cvGetTickFrequency函 multi-view upper-body detection and discriminative learning / 数返回每秒的计时周期数N.则程序运行时间 2010 20th International Conference on Pattern Recognition Istanbul,2010:1698 T可以通过式(12)计算得到. T=:~n [Liu L W,Xing JL Ai HZ.et al.Hand posture recognition using (12) finger geometric feature Proceedings of the 21st International 式中，n为当前时钟周期数，n为开始时钟周期数 Conference on Pattern Recognition (ICPR2012).Tsukuba,2012 565 测试视频的基本信息为：宽度816像素，高度 [3]Bertinetto L,Valmadre J.Henriques J F,et al.Fully-convolutional 536像素，总帧数3426帧，帧率为每秒30帧，图像 siamese networks for object tracking European Conference on 处理速度为每秒30帧.按照式(12)计算，处理时 Computer Vision.Cham:Springer,2016:850 间为0.137ms [4] Li B,Yan JJ,Wu W,et al.High performance visual tracking with 算法的计算效率比改进前的SiamMask模型 siamese region proposal network Proceedings of the IEEE 图像处理速度每秒提高3.2帧，算法效率提高约 Conference on Computer Vision and Pattern Recognition.2018: 11.94%,可以满足智能安全预警系统的实时快速 8971 性要求 [5] Wang Q,Zhang L,Bertinetto L,et al.Fast online object tracking and segmentation:a unifying approach /Proceedings of the IEEE 3结论 Conference on Computer Vision and Pattern Recognition.2019 1328 (I)基于PyTorch深度学习框架的SiamMask [6] Li J Y,Zhao Y K,Xue Z E,et al.A survey of model compression 模型单目标跟踪算法，引入ROI检测及STC时空 for deep neural networks.Chin J Eng,2019,41(10):1229 上下文目标跟踪算法，结合时间与空间信息，根据 (李江昀，赵义凯，薛卓尔，等.深度神经网络模型压缩综述，工对头发目标时空关系的在线学习预测新的目标位程科学学报，2019,41(10)1229) 置，对SiamMask模型进行了算法校正， [7]Shen LL.Hang N.No-reference image quality assessment using (2)提出的算法应用于复杂环境中头发目标 joint multiple edge detection.Chin/Eng,2018,40(8):996 视频图像识别.研究结果表明：所提算法能够克服 (沈丽丽，杭宁.联合多种边缘检测算子的无参考质量评价算法环境干扰、目标遮挡对跟踪效果的影响，将目标跟工程科学学报，2018,40(8：996) [8]Wang X,Tang Z M.An improved camshaft-based particle filter 踪误识别率降低至0.156%. algorithm for real-time target tracking.J Image Graph,2010, (3)其计算时间成本为每秒30帧，比改进前 15(10):1507 的SiamMask模型帧率每秒提高3.2帧，算法效率 (王鑫，王振民.一种改进的基于Camshift的粒子滤波实时目标提高约11.94%，可以满足智能安全预警系统的实跟踪算法.中国图像图形学报，2010,15(10)：1507) 时快速性要求 [9]Chu H X,Xie Z Y,Wang K J.An improved camshift target

对于算法的处理时间进行统计 . 利用 cvGetTickCount 函数得到从操作系统启动到当前所经历的时钟周期数，利用 cvGetTickFrequency 函数返回每秒的计时周期数 N. 则程序运行时间 T 可以通过式 (12) 计算得到. τ = nr −ns N （12）式中，nr 为当前时钟周期数，ns 为开始时钟周期数. 测试视频的基本信息为：宽度 816 像素，高度 536 像素，总帧数 3426 帧，帧率为每秒 30 帧，图像处理速度为每秒 30 帧. 按照式（12）计算，处理时间为 0.137 ms. 算法的计算效率比改进前的 SiamMask 模型图像处理速度每秒提高 3.2 帧，算法效率提高约 11.94%，可以满足智能安全预警系统的实时快速性要求. 3 结论（ 1）基于 PyTorch 深度学习框架的 SiamMask 模型单目标跟踪算法，引入 ROI 检测及 STC 时空上下文目标跟踪算法，结合时间与空间信息，根据对头发目标时空关系的在线学习预测新的目标位置，对 SiamMask 模型进行了算法校正. （2）提出的算法应用于复杂环境中头发目标视频图像识别. 研究结果表明：所提算法能够克服环境干扰、目标遮挡对跟踪效果的影响，将目标跟踪误识别率降低至 0.156%. （3）其计算时间成本为每秒 30 帧，比改进前的 SiamMask 模型帧率每秒提高 3.2 帧，算法效率提高约 11.94%，可以满足智能安全预警系统的实时快速性要求. 参考文献 Xing J L, Ai H Z, Lao S H. Multiple human tracking based on multi-view upper-body detection and discriminative learning // 2010 20th International Conference on Pattern Recognition. Istanbul, 2010: 1698 [1] Liu L W, Xing J L, Ai H Z, et al. Hand posture recognition using finger geometric feature // Proceedings of the 21st International Conference on Pattern Recognition (ICPR2012). Tsukuba, 2012: 565 [2] Bertinetto L, Valmadre J, Henriques J F, et al. Fully-convolutional siamese networks for object tracking // European Conference on Computer Vision. Cham: Springer, 2016: 850 [3] Li B, Yan J J, Wu W, et al. High performance visual tracking with siamese region proposal network // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 8971 [4] Wang Q, Zhang L, Bertinetto L, et al. Fast online object tracking and segmentation: a unifying approach // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019: 1328 [5] Li J Y, Zhao Y K, Xue Z E, et al. A survey of model compression for deep neural networks. Chin J Eng, 2019, 41(10): 1229 （李江昀, 赵义凯, 薛卓尔, 等. 深度神经网络模型压缩综述. 工程科学学报, 2019, 41(10): 1229） [6] Shen L L, Hang N. No-reference image quality assessment using joint multiple edge detection. Chin J Eng, 2018, 40(8): 996 （沈丽丽, 杭宁. 联合多种边缘检测算子的无参考质量评价算法. 工程科学学报, 2018, 40(8): 996） [7] Wang X, Tang Z M. An improved camshaft-based particle filter algorithm for real-time target tracking. J Image Graph, 2010, 15（10）: 1507 （王鑫, 王振民. 一种改进的基于Camshift的粒子滤波实时目标跟踪算法. 中国图像图形学报, 2010, 15（10）：1507） [8] [9] Chu H X, Xie Z Y, Wang K J. An improved camshift target (a) (b) (c) (d) (e) (f) 图 10 头发目标跟踪报警结果. （a）第 30 帧；（b）第 35 帧；(c) 第 60 帧；（d）第 70 帧；（e）第 75 帧；（f）第 80 帧 Fig.10 Hair target tracking alarm results: (a) frame 30; (b) frame 35; (c) frame 60; (d) frame 70; (e) frame 75; (f) frame 80 · 388 · 工程科学学报，第 42 卷，第 3 期

周珂等：复杂环境下一种基于SiamMask的时空预测移动目标跟踪算法 389. tracking algorithm based on joint color-texture histogram.Xi'an [15]Qiang Wang.Li Zhang,Luca Bertinetto,et al.Torr.SiamMask Jiaotong Univ,.2018,52(3):145 Hithub (2019-5-5)[2019-6-51.https://github.com/foolwood/Siam- (初红霞，谢忠玉，王科俊.一种结合颜色纹理直方图的改进型 Mask Camshift目标跟踪算法.西安交通大学学报，2018,52(3)：145) [16]Zhang L,Suganthan P N.Robust visual tracking via co-trained [10]Yacoob Y,Davis L S.Detection and analysis of hair.IEEE Trans kemelized correlation filters.Pattern Recognit,2017,69:82 Pattern Anal Mach Intell,2006,28(7):1164 [17]Chen C,Wu Z X,Jiang Y G.Emotion in context:Deep semantic [11]Fu W L,Hu F Q.Hair detection with mean shift.Microcomput feature fusion for video emotion recognition /Proceedings of the 4ppl,2010,26(9):62 24th ACM International Conference on Multimedia.New York (傅文林，胡福乔.基于mean shift的头发自动检测.微型电脑应 2016:127 用，2010,26(9)：62) [18]Huang Y,Huang X,Li S G,et al.Compensation method for a [12]Wang Z Y,Yang D L.Research on detection method of hair robot vision system with an occluded camera field.ChinJ Eng. occlusion in face recognition.Microcomput Its Appl,2016,35(2): 2018,40(3381 (黄煜，黄翔，李泷杲，等.存在视场丢失的机器视觉精度补偿方 (王志一，杨大利.人脸识别中发型遮挡检测方法研究.微型机法，工程科学学报，2018,40(3：381) 与应用，2016,35(2)：32) [19]Zhang J,Wang X,Fan H B.Spatio temporal context target [13]Ding C J,Yan B.Target tracking algorithm combines STC with tracking algorithm of self-adaption leaming.Comput Eng,2018, CamShift.Transduc Microsyst Technol,2018,37(5):108 44(6):294 (丁承君，闫彬.时空上下文与CamShift相结合的目标跟踪算法. (张品，王旭，范洪博.自适应学习的时空上下文目标跟踪算法. 传感器与微系统，2018,37(5)：108) 计算机工程，2018,44(6)：294) [14]Eriksson D,Bindel D,Shoemaker C.Surrogate Optimization [20]Pont-Tuset J,Perazzi F,Caelles S,et al.The 2017 Davis Challenge Toolbox Hithub (2019-1-5)[2019-6-5].https://github.com/dme65/ on Video Object Segmentation (2017-4-3)[2019-6-5].https://arxiv. PySOT org/abs/1704.00675

tracking algorithm based on joint color-texture histogram. J Xi’an Jiaotong Univ, 2018, 52（3）: 145 （初红霞, 谢忠玉, 王科俊. 一种结合颜色纹理直方图的改进型 Camshift目标跟踪算法. 西安交通大学学报, 2018, 52（3）：145） Yacoob Y, Davis L S. Detection and analysis of hair. IEEE Trans Pattern Anal Mach Intell, 2006, 28（7）: 1164 [10] Fu W L, Hu F Q. Hair detection with mean shift. Microcomput Appl, 2010, 26（9）: 62 （傅文林, 胡福乔. 基于mean shift的头发自动检测. 微型电脑应用, 2010, 26（9）：62） [11] Wang Z Y, Yang D L. Research on detection method of hairocclusion in face recognition. Microcomput Its Appl, 2016, 35（2）: 32 （王志一, 杨大利. 人脸识别中发型遮挡检测方法研究. 微型机与应用, 2016, 35（2）：32） [12] Ding C J, Yan B. Target tracking algorithm combines STC with CamShift. Transduc Microsyst Technol, 2018, 37（5）: 108 （丁承君, 闫彬. 时空上下文与CamShift相结合的目标跟踪算法. 传感器与微系统, 2018, 37（5）：108） [13] Eriksson D, Bindel D, Shoemaker C. Surrogate Optimization Toolbox Hithub (2019-1-5)[2019-6-5]. https://github.com/dme65/ pySOT [14] Qiang Wang, Li Zhang, Luca Bertinetto, et al. Torr. SiamMask Hithub (2019-5-5)[2019-6-5]. https://github.com/foolwood/SiamMask [15] Zhang L, Suganthan P N. Robust visual tracking via co-trained kernelized correlation filters. Pattern Recognit, 2017, 69: 82 [16] Chen C, Wu Z X, Jiang Y G. Emotion in context: Deep semantic feature fusion for video emotion recognition // Proceedings of the 24th ACM International Conference on Multimedia. New York, 2016: 127 [17] Huang Y, Huang X, Li S G, et al. Compensation method for a robot vision system with an occluded camera field. Chin J Eng, 2018, 40(3): 381 （黄煜, 黄翔, 李泷杲, 等. 存在视场丢失的机器视觉精度补偿方法, 工程科学学报, 2018, 40(3): 381） [18] Zhang J, Wang X, Fan H B. Spatio temporal context target tracking algorithm of self-adaption learning. Comput Eng, 2018, 44（6）: 294 （张晶, 王旭, 范洪博. 自适应学习的时空上下文目标跟踪算法. 计算机工程, 2018, 44（6）：294） [19] Pont-Tuset J, Perazzi F, Caelles S, et al. The 2017 Davis Challenge on Video Object Segmentation (2017-4-3)[2019-6-5]. https://arxiv. org/abs/1704.00675 [20] 周珂等：复杂环境下一种基于 SiamMask 的时空预测移动目标跟踪算法 · 389 ·

点击进入文档下载页（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录