第16卷第1期 智能系统学报 Vol.16 No.1 2021年1月 CAAI Transactions on Intelligent Systems Jan.2021 D0:10.11992/tis.202010003 多视角数据融合的特征平衡YOLO3行人检测研究 陈丽,马楠2,逢桂林3,高跃,李佳洪2,张国平,吴祉璇',姚永强 (1.北京联合大学北京市信息服务工程重点实验室,北京100101;2.北京联合大学机器人学院,北京100101; 3.北京交通大学计算机与信息技术学院,北京100044,4.清华大学软件学院,北京100085) 摘要:针对复杂场景下行人发生遮挡检测困难以及远距离行人检测精确度低的问题,本文提出一种多视角数 据融合的特征平衡YOLOv3行人检测模型(MVBYOLO),包括2部分:自监督学习的多视角特征点融合模型 (Self-MVFM)和特征平衡YOLOv3网络(BYOLO)。Self-MVFM对输入的2个及以上的视角数据进行自监督学 习特征,通过特征点的匹配实现多视角信息融合,在融合时使用加权平滑算法解决产生的色差问题;BYOLO使 用相同分辨率融合高层语义特征和低层细节特征,得到平衡的语义增强多层级特征,提高复杂场景下车辆前方 行人检测的精确度。为了验证所提出方法的有效性,在VOC数据集上进行对比实验,最终AP值达到80.14%。 与原YOLOv3网络相比.本文提出的MVBYOLO模型精度提高了2.89%。 关键词:多视数据;自监督学习;特征点匹配:特征融合;YOLOv3网络;平衡特征;复杂场景;行人检测 中图分类号:TP391 文献标志码:A文章编号:1673-4785(2021)01-0057-09 中文引用格式:陈丽,马楠,逢桂林,等.多视角数据融合的特征平衡Y0L0v3行人检测研究J八.智能系统学报,2021,16(1): 57-65. 英文引用格式:CHEN Li,MA Nan,.PANG Guilin,etal.Research on multi-view data fusion and balanced YOLOv3 for pedestrian detection[Jl.CAAI transactions on intelligent systems,2021,16(1):57-65. Research on multi-view data fusion and balanced YOLOv3 for pedestrian detection CHEN Li',MA Nan2,PANG Guilin',GAO Yue',LI Jiahong'2, ZHANG Guoping',WU Zhixuan',YAO Yongqiang (1.Beijing Key Laboratory of Information Service Engineering,Beijing Union University,Beijing 100101,China;2.College of Ro- botics,Beijing Union University,Beijing 100101,China;3.School of Computer and Information Technology,Beijing Jiaotong Uni- versity,Beijing 100044:4.School of Software,Tsinghua University,Beijing 100085) Abstract:Because of the occlusion and low accuracy of long-distance detection,pedestrian detection in complex scenes is difficult.Therefore,a pedestrian detection method based on multi-view data fusion and balanced YOLOv3(MVBY- OLO)is proposed,including the self-supervised network for multi-view fusion model(Self-MVFM)and balanced YOLOv3 network(BYOLO).Self-MVFM fuses two or more input perspective data through a self-supervised network and incorporates a weighted smoothing algorithm to solve the color difference problem during the fusion;BYOLO uses the same resolution to fuse high-and low-level semantic features to obtain balanced semantic information,thereby en- hancing multi-level features and improving the accuracy of pedestrian detection in front of vehicles in complex scenes. A comparative experiment is conducted on the VOC dataset to verify the effectiveness of the proposed method.The fi- nal AP value reaches 80.14%.The experimental results indicate that compared with the original YOLOv3 network,the accuracy of the MVBYOLO is increased by 2.89%. Keywords:multi-view data;self-supervised learning;feature point matching;feature fusion;YOLOv3 network;bal- anced feature;complex scene;pedestrian detection 安全性是无人驾驶技术研究成果落地应用的 收稿日期:2020-10-07. 基金项目:国家自然科学基金项目(61871038,61931012 重要需求。无人驾驶技术需要与周围环境形成良 9手季名哭共胶林司 好的交互山。无人驾驶需要具备认知能力,才能 领军计划(BPHR2020AZ02:北京联合大学研究生科 更好地学习。对周围环境的感知、主动学习是无 研创新资助项目(YZ2020K001). 通信作者:马楠.E-mail:xxtmanan@buu.edu.cn 人驾驶技术必须攻克的一个难点。其中,行人
DOI: 10.11992/tis.202010003 多视角数据融合的特征平衡 YOLOv3 行人检测研究 陈丽1 ,马楠1,2,逄桂林3 ,高跃4 ,李佳洪1,2,张国平1 ,吴祉璇1 ,姚永强1 (1. 北京联合大学 北京市信息服务工程重点实验室,北京 100101; 2. 北京联合大学 机器人学院,北京 100101; 3. 北京交通大学 计算机与信息技术学院,北京 100044; 4. 清华大学 软件学院,北京 100085) 摘 要:针对复杂场景下行人发生遮挡检测困难以及远距离行人检测精确度低的问题,本文提出一种多视角数 据融合的特征平衡 YOLOv3 行人检测模型 (MVBYOLO),包括 2 部分:自监督学习的多视角特征点融合模型 (Self-MVFM) 和特征平衡 YOLOv3 网络 (BYOLO)。Self-MVFM 对输入的 2 个及以上的视角数据进行自监督学 习特征,通过特征点的匹配实现多视角信息融合,在融合时使用加权平滑算法解决产生的色差问题;BYOLO 使 用相同分辨率融合高层语义特征和低层细节特征,得到平衡的语义增强多层级特征,提高复杂场景下车辆前方 行人检测的精确度。为了验证所提出方法的有效性,在 VOC 数据集上进行对比实验,最终 AP 值达到 80.14%。 与原 YOLOv3 网络相比,本文提出的 MVBYOLO 模型精度提高了 2.89%。 关键词:多视数据;自监督学习;特征点匹配;特征融合;YOLOv3 网络;平衡特征;复杂场景;行人检测 中图分类号:TP391 文献标志码:A 文章编号:1673−4785(2021)01−0057−09 中文引用格式:陈丽, 马楠, 逄桂林, 等. 多视角数据融合的特征平衡 YOLOv3 行人检测研究 [J]. 智能系统学报, 2021, 16(1): 57–65. 英文引用格式:CHEN Li, MA Nan, PANG Guilin, et al. Research on multi-view data fusion and balanced YOLOv3 for pedestrian detection[J]. CAAI transactions on intelligent systems, 2021, 16(1): 57–65. Research on multi-view data fusion and balanced YOLOv3 for pedestrian detection CHEN Li1 ,MA Nan1,2 ,PANG Guilin3 ,GAO Yue4 ,LI Jiahong1,2 , ZHANG Guoping1 ,WU Zhixuan1 ,YAO Yongqiang1 (1. Beijing Key Laboratory of Information Service Engineering, Beijing Union University, Beijing 100101, China; 2. College of Robotics, Beijing Union University, Beijing 100101, China; 3. School of Computer and Information Technology, Beijing Jiaotong University, Beijing 100044; 4. School of Software, Tsinghua University, Beijing 100085) Abstract: Because of the occlusion and low accuracy of long-distance detection, pedestrian detection in complex scenes is difficult. Therefore, a pedestrian detection method based on multi-view data fusion and balanced YOLOv3 (MVBYOLO) is proposed, including the self-supervised network for multi-view fusion model (Self-MVFM) and balanced YOLOv3 network (BYOLO). Self-MVFM fuses two or more input perspective data through a self-supervised network and incorporates a weighted smoothing algorithm to solve the color difference problem during the fusion; BYOLO uses the same resolution to fuse high- and low-level semantic features to obtain balanced semantic information, thereby enhancing multi-level features and improving the accuracy of pedestrian detection in front of vehicles in complex scenes. A comparative experiment is conducted on the VOC dataset to verify the effectiveness of the proposed method. The final AP value reaches 80.14%. The experimental results indicate that compared with the original YOLOv3 network, the accuracy of the MVBYOLO is increased by 2.89%. Keywords: multi-view data; self- supervised learning; feature point matching; feature fusion; YOLOv3 network; balanced feature; complex scene; pedestrian detection 安全性是无人驾驶技术研究成果落地应用的 重要需求。无人驾驶技术需要与周围环境形成良 好的交互[1]。无人驾驶需要具备认知能力,才能 更好地学习。对周围环境的感知、主动学习是无 人驾驶技术必须攻克的一个难点[2]。其中,行人 收稿日期:2020−10−07. 基金项目:国家自然科学基金项 目 (61871038, 61931012, 6183034);军委装备发展部共性预研计划项 目 (41412040302);北京联合大学“人才强校优选计划” 领军计划 (BPHR2020AZ02);北京联合大学研究生科 研创新资助项目 (YZ2020K001). 通信作者:马楠. E-mail:xxtmanan@buu.edu.cn. 第 16 卷第 1 期 智 能 系 统 学 报 Vol.16 No.1 2021 年 1 月 CAAI Transactions on Intelligent Systems Jan. 2021
·58 智能系统学报 第16卷 检测就是无人驾驶进行环境认知的一个必备环 问题,一直受到研究者们的关注。Farenzena 节。行人检测工作主要是判别在输入的视频、图 等向提出了一种对称驱动的局部特征累积方法 像中是否含有行人并返回其位置。在无人驾驶场 该方法从结构元素成分分析模型)提取的行人轮 景下,一旦未能及时、准确地检测出行人,就会造 廓中找到垂直对称轴,然后根据像素的权重提取 成伤亡,后果不堪设想,所以无人驾驶条件下对 颜色和纹理特征。Wen等[提出从几张已知相 行人检测的准确性有极高的要求。因为行人存在 机位置的多视角彩色图片生成三角网格模型的网 不同的运动姿态、不同的穿衣风格,行人被别的 络结构,使用图卷积神经网络从多视角图片的交 障碍物遮挡以及行人之间互相遮挡),复杂交通 叉信息学习进一步提升形状质量。相比于直接建 场景下光线不统一等问题,行人检测一直是无人 立从图像到最终3D形状的映射,本文预测一系 驾驶领域重点研究的问题。 列形变,逐渐将由多视角图片生成的粗略形状精 复杂交通场景下的行人检测要求在发生部分 细化。Chen等9通过输入多张不同角度的图片, 遮挡时,仍能检测出行人,并且要求能快速有效 提取不同的点云特征,再进行融合,从而生成最 地检测出车辆前方远距离的小目标行人(小目标 终的点云。与基于代价体的同类网络相比,这种 指在整张图片中目标的像素点小于32×32,或者 基于点云的网络结构具有更高的准确性,更高的 目标尺寸低于原图像尺寸的10%。但是,在实 计算效率和更大的灵活性。Yi等0引入2种新 际实验中,依靠单一视角的数据,行人发生遮挡 颖的自适应视图融合(逐像素视图融合和体素视 时很难被检测到。 图融合),考虑在不同视角图像间多重匹配的不同 为了解决发生遮挡以及远距离行人检测困难 重要性,优化了代价体的计算方法并且引入了新 的问题,本文提出一种基于多视角数据融合的特 的深度图聚合结构,提高了3D点云重建的鲁棒 征平衡YOLOv3行人检测模型(multi-view data 性和完整性。旷世科技公司提出的双向网络, and balanced YOLOv3,MVBYOLO)。首先输入不 利用深度学习模型,对提取的空间信息特征和全 同视角的图像,使用自监督学习的多视角特征点 局语义特征进行融合,兼顾了语义分割任务的速 融合网络模型(self-supervised network for multi- 度与语义信息。Su等21提出多视角卷积网络 view fusion model,.Self-MVFM)对其进行特征点提 multi-view convolutio nal neu r a l 取与匹配,实现多视角图像融合。但是在实际问 networks,MVCNN),利用二维的CNN网络对多个 题中不同角度的摄像机采集的图像融后会产生色 视角的图像进行融合,实验结果显示比直接用 差。本文在多视角图像融合时引入改进的加权平 3D检测方法更好。Fcng等提出的组视图卷积 滑算法,有效解决不同视角图像融合时产生色差 网络框架,在MVCNN基础上增加分组模型,将 的问题。此外,为了提高复杂交通场景下车辆前 不同视角的信息根据相关性进行分组后,再进行 方远距离行人的检测精度,本文提出了一个特征 特征融合。Dong等在CVPR2019上提出一种 平衡的YOLOv3网络(balanced YOLOv3,BYOLO), 利用外观特征和几何约束相似性矩阵共同寻找各 在接收到经过Self-MVFM网络融合的多视角图 个视角中满足回路一致性的二维姿态匹配关系, 像后,用Darknet-53网络对图像进行特征提取,可 实现了较好的多视角下多人的三维姿态估计结 以获得分辨率不同的特征。分辨率高的低层特征 果。澳洲国立大学郑良老师实验室提出多视角检 包括行人的轮廓、衣着颜色、纹理等信息;分辨率 测模型联合考虑多个相机,利用特征图的投影 低的高层特征包括肢体、人脸等语义信息。对获 变换进行多相机信息融合,提高虚拟场景下行人 得的低层特征与高层特征进行采样,映射到中间 发生遮挡时的检测效率。 层级的分辨率进行特征融合、修正,再通过相反 1.2行人检测方法 的采样方式适配到原分辨率的特征图,与 行人检测是目标检测领域的一个重要分支, Darknet-53提取的原始特征进行融合,再利用融 其主要任务是找出输人的图像或视频帧中存在的 合后的特征预测行人。在公共数据集VOC上的 行人,并用矩形框输出行人位置和大小。然而行 实验结果表明,本文提出的MVBYOLO行人检测 人的着装风格、姿势、形状不同,并且面临被物体 模型可以有效提高复杂场景下的行人检测精度。 遮挡以及行人互相遮挡、拍摄光照不同、拍摄角 1基于多视角数据的行人检测研究 度不同等因素的影响,使得行人检测任务一直受 到视觉研究者们的关注。从研究历史来看,行人 1.1多视角数据融合算法 检测方法可以分为2个主要方向:基于传统算法 针对多角度、多尺度的特征如何进行融合的 的行人检测和基于深度学习的行人检测
检测就是无人驾驶进行环境认知的一个必备环 节。行人检测工作主要是判别在输入的视频、图 像中是否含有行人并返回其位置。在无人驾驶场 景下,一旦未能及时、准确地检测出行人,就会造 成伤亡,后果不堪设想,所以无人驾驶条件下对 行人检测的准确性有极高的要求。因为行人存在 不同的运动姿态、不同的穿衣风格,行人被别的 障碍物遮挡以及行人之间互相遮挡[3] ,复杂交通 场景下光线不统一等问题,行人检测一直是无人 驾驶领域重点研究的问题[4]。 32×32 复杂交通场景下的行人检测要求在发生部分 遮挡时,仍能检测出行人,并且要求能快速有效 地检测出车辆前方远距离的小目标行人 (小目标 指在整张图片中目标的像素点小于 ,或者 目标尺寸低于原图像尺寸的 10%[5] )。但是,在实 际实验中,依靠单一视角的数据,行人发生遮挡 时很难被检测到。 为了解决发生遮挡以及远距离行人检测困难 的问题,本文提出一种基于多视角数据融合的特 征平衡 YOLOv3 行人检测模型 (multi-view data and balanced YOLOv3, MVBYOLO)。首先输入不 同视角的图像,使用自监督学习的多视角特征点 融合网络模型 (self-supervised network for multiview fusion model, Self-MVFM) 对其进行特征点提 取与匹配,实现多视角图像融合。但是在实际问 题中不同角度的摄像机采集的图像融后会产生色 差。本文在多视角图像融合时引入改进的加权平 滑算法,有效解决不同视角图像融合时产生色差 的问题。此外,为了提高复杂交通场景下车辆前 方远距离行人的检测精度,本文提出了一个特征 平衡的 YOLOv3 网络 (balanced YOLOv3, BYOLO), 在接收到经过 Self-MVFM 网络融合的多视角图 像后,用 Darknet-53 网络对图像进行特征提取,可 以获得分辨率不同的特征。分辨率高的低层特征 包括行人的轮廓、衣着颜色、纹理等信息;分辨率 低的高层特征包括肢体、人脸等语义信息。对获 得的低层特征与高层特征进行采样,映射到中间 层级的分辨率进行特征融合、修正,再通过相反 的采样方式适配到原分辨率的特征图, 与 Darknet-53 提取的原始特征进行融合,再利用融 合后的特征预测行人。在公共数据集 VOC 上的 实验结果表明,本文提出的 MVBYOLO 行人检测 模型可以有效提高复杂场景下的行人检测精度。 1 基于多视角数据的行人检测研究 1.1 多视角数据融合算法 针对多角度、多尺度的特征如何进行融合的 问题,一直受到研究者们的关注。Farenzena 等 [6] 提出了一种对称驱动的局部特征累积方法, 该方法从结构元素成分分析模型[7] 提取的行人轮 廓中找到垂直对称轴,然后根据像素的权重提取 颜色和纹理特征。Wen 等 [8] 提出从几张已知相 机位置的多视角彩色图片生成三角网格模型的网 络结构,使用图卷积神经网络从多视角图片的交 叉信息学习进一步提升形状质量。相比于直接建 立从图像到最终 3D 形状的映射,本文预测一系 列形变,逐渐将由多视角图片生成的粗略形状精 细化。Chen 等 [9] 通过输入多张不同角度的图片, 提取不同的点云特征,再进行融合,从而生成最 终的点云。与基于代价体的同类网络相比,这种 基于点云的网络结构具有更高的准确性,更高的 计算效率和更大的灵活性。Yi 等 [10] 引入 2 种新 颖的自适应视图融合 (逐像素视图融合和体素视 图融合),考虑在不同视角图像间多重匹配的不同 重要性,优化了代价体的计算方法并且引入了新 的深度图聚合结构,提高了 3D 点云重建的鲁棒 性和完整性。旷世科技公司提出的双向网络[11] , 利用深度学习模型,对提取的空间信息特征和全 局语义特征进行融合,兼顾了语义分割任务的速 度与语义信息。Su 等 [ 1 2 ] 提出多视角卷积网络 ( multi-view convolutional neural networks,MVCNN),利用二维的 CNN 网络对多个 视角的图像进行融合,实验结果显示比直接用 3D 检测方法更好。Feng 等 [13] 提出的组视图卷积 网络框架,在 MVCNN 基础上增加分组模型,将 不同视角的信息根据相关性进行分组后,再进行 特征融合。Dong 等 [14] 在 CVPR2019 上提出一种 利用外观特征和几何约束相似性矩阵共同寻找各 个视角中满足回路一致性的二维姿态匹配关系, 实现了较好的多视角下多人的三维姿态估计结 果。澳洲国立大学郑良老师实验室提出多视角检 测模型[15] 联合考虑多个相机,利用特征图的投影 变换进行多相机信息融合,提高虚拟场景下行人 发生遮挡时的检测效率。 1.2 行人检测方法 行人检测是目标检测领域的一个重要分支, 其主要任务是找出输入的图像或视频帧中存在的 行人,并用矩形框输出行人位置和大小。然而行 人的着装风格、姿势、形状不同,并且面临被物体 遮挡以及行人互相遮挡、拍摄光照不同、拍摄角 度不同等因素的影响,使得行人检测任务一直受 到视觉研究者们的关注。从研究历史来看,行人 检测方法可以分为 2 个主要方向:基于传统算法 的行人检测和基于深度学习的行人检测。 ·58· 智 能 系 统 学 报 第 16 卷
第1期 陈丽,等:多视角数据融合的特征平衡YOLOv23行人检测研究 ·59· 1.2.1基于传统算法的行人检测 预测图像中的目标。以YOL0为代表的单阶段 传统算法的典型代表是利用方向梯度直方图 检测方法将目标检测任务转换为回归问题,是 (histogram of oriented gradient,.HOG)进行行人特 一种快速的行人检测方法。除了YOLO系列算 征提取,并利用支持向量机(support vector ma- 法,单阶段检测的模型还包括单次检测模型2”。 chine,SVM)算法进行分类u6。HOG是一种重要 Zhang等2提出基于单次精化神经网络的目标检 有效的图像局部纹理特征描述子。在深度学习特 测方法,结合单阶段检测速度快及双阶段检测准 征提取方法未普及之前,被研究者们广泛使用。 确率高的优点。方法包括锚窗精化模块和目标检 Girshick!等提出形变部件模型(deformable parts 测模块,2个模块互相连接,兼顾了检测的准确率 model,DPM)算法,使用HOG提取特征,并独立 与速度。 地对行人的不同部位进行建模,从而在一定程度 上解决了行人遮挡难以检测的问题。DPM中包 2多视角数据融合的特征平衡 含2个部分:根部模型和部位模型。根部模型主 本文提出的多视角数据融合的特征平衡YOLOv3 要是定位对象的潜在区域,找出可能存在物体对 行人检测网络MVBYOLO)包括2部分:1)自监 象的区域,再与部位模型进行确认,最终采用 督学习的多视角特征点融合网铬模型(Self-MVFM): SVM和AdaBoost进行分类。另外,也有部分学 2)特征平衡YOLOv3网络(BYOLO)。首先对输 者从运动特征角度进行研究。假设捕捉行人运动 入的多视角图像做特征匹配,融合成一个完备的 的摄像机是固定不动的,则使用背景建模算法提 图像,之后再利用目标检测网络对融合后的图像 取出运动的前景目标,再对前景目标进行分类。 做训练,提高遮挡及远距离小尺寸行人检测的精 背景建模算法的思路是:通过学习前一帧获得背 度。网络总体框架如图1所示。 景模型,把当前帧与背景帧数据进行对比,得到 Self-MVFM BYOLO 运动的目标,代表性方法是高斯混合模型11、视 「特征点匹配 l Darknet-53 频前景提取算法算法1叨、样本一致性建模算法2] 「左视角 基于像素的参数自适应算法P。 融合川 1.2.2基于深度学习的行人检测 基于传统算法的行人检测在一定条件下可以 特征点匹配 达到较好的检测效率或准确性,但仍不能满足实 际的应用需求。2012年Krizhevsky等22将深度 学习技术应用到图像分类并取得良好效果,研究 者们发现通过神经网络提取的特征具有很强的表 图1 MVBYOLO行人检测网络 达能力和鲁棒性,使计算机视觉的发展迈上了一 Fig.1 Multi-view data fusion and balanced YOLOv3 for pedestrian detection 个新台阶。因此,对于行人检测任务,基于深度 学习的方法受到越来越多研究者的青睐。 2.1自监督学习的多视角特征点融合网络模型 基于深度学习的行人检测又可分为双阶段检 自监督学习的多视角数据融合模型工作流程 测与单阶段检测。双阶段检测方法首先生成一组 如下:图像获取、自监督特征点与描述子提取、特 稀疏的目标候选框,然后对候选框进行分类和回 征匹配,最后进行多视角图像融合。本文提出自 归。Girshick等提出区域卷积神经网络(regions 监督学习的多视角特征点融合网络模型,网络结 with CNN features,.R-CNN),首次将CNN 构如图2所示。 用于目标检测,极大提高了目标检测的性能。后 2.11数据集自标注与模型训练 来Girshick在R-CNN基础上进行改进,提出了快 多视角数据融合过程中的数据集特征点提取 速区域卷积神经网络模型2,将感兴趣区域提取 任务很难利用人工标注。对于传统的检测、分割 与特征分类合并在同一个网络结构,提高了模型 任务的标注,给定一个图像,通过标注矩形框或 训练的速度和检测的准确率。Ren等在Fast R- 者标注物体的轮廓,可以得到确定的语义真值。 CNN上增加区域卷积网络来生成候选区域,构成 但是对于特征点检测任务,人工很难判断哪一个 一种更快的区域卷积神经网络模型,端到端的训 像素点可以作为特征点,因此本文利用仅包含简 练方式大大提高了运算速度。 单几何形状的基本数据集和自行采集数据集进行 单阶段的方法通过直接对图像中的不同位 数据集的自标注四,具体流程为 置,尺度和长宽比进行规则和密集采样,以此来 1)利用简单几何形状数据集进行模型的预
1.2.1 基于传统算法的行人检测 传统算法的典型代表是利用方向梯度直方图 (histogram of oriented gradient, HOG)进行行人特 征提取,并利用支持向量机(support vector machine,SVM)算法进行分类[16]。HOG是一种重要 有效的图像局部纹理特征描述子。在深度学习特 征提取方法未普及之前,被研究者们广泛使用。 Girshick[17] 等提出形变部件模型(deformable parts model, DPM)算法,使用 HOG 提取特征,并独立 地对行人的不同部位进行建模,从而在一定程度 上解决了行人遮挡难以检测的问题。DPM 中包 含 2 个部分:根部模型和部位模型。根部模型主 要是定位对象的潜在区域,找出可能存在物体对 象的区域,再与部位模型进行确认,最终采用 SVM 和 AdaBoost 进行分类。另外,也有部分学 者从运动特征角度进行研究。假设捕捉行人运动 的摄像机是固定不动的,则使用背景建模算法提 取出运动的前景目标,再对前景目标进行分类。 背景建模算法的思路是:通过学习前一帧获得背 景模型,把当前帧与背景帧数据进行对比,得到 运动的目标,代表性方法是高斯混合模型[18] 、视 频前景提取算法算法[19] 、样本一致性建模算法[20] 、 基于像素的参数自适应算法[21]。 1.2.2 基于深度学习的行人检测 基于传统算法的行人检测在一定条件下可以 达到较好的检测效率或准确性,但仍不能满足实 际的应用需求。2012 年 Krizhevsky 等 [22] 将深度 学习技术应用到图像分类并取得良好效果,研究 者们发现通过神经网络提取的特征具有很强的表 达能力和鲁棒性,使计算机视觉的发展迈上了一 个新台阶。因此,对于行人检测任务,基于深度 学习的方法受到越来越多研究者的青睐。 基于深度学习的行人检测又可分为双阶段检 测与单阶段检测。双阶段检测方法首先生成一组 稀疏的目标候选框,然后对候选框进行分类和回 归。Girshick[23] 等提出区域卷积神经网络(regions with CNN features, R-CNN),首次 将 CNN 用于目标检测,极大提高了目标检测的性能。后 来 Girshick 在 R-CNN 基础上进行改进,提出了快 速区域卷积神经网络模型[24] ,将感兴趣区域提取 与特征分类合并在同一个网络结构,提高了模型 训练的速度和检测的准确率。Ren 等 [25] 在 Fast RCNN 上增加区域卷积网络来生成候选区域,构成 一种更快的区域卷积神经网络模型,端到端的训 练方式大大提高了运算速度。 单阶段的方法通过直接对图像中的不同位 置,尺度和长宽比进行规则和密集采样,以此来 预测图像中的目标。以 YOLO[26] 为代表的单阶段 检测方法将目标检测任务转换为回归问题,是 一种快速的行人检测方法。除了 YOLO 系列算 法,单阶段检测的模型还包括单次检测模型[27]。 Zhang 等 [28] 提出基于单次精化神经网络的目标检 测方法,结合单阶段检测速度快及双阶段检测准 确率高的优点。方法包括锚窗精化模块和目标检 测模块,2 个模块互相连接,兼顾了检测的准确率 与速度。 2 多视角数据融合的特征平衡 本文提出的多视角数据融合的特征平衡 YOLOv3 行人检测网络 (MVBYOLO) 包括 2 部分:1) 自监 督学习的多视角特征点融合网络模型 (Self-MVFM); 2) 特征平衡 YOLOv3 网络 (BYOLO)。首先对输 入的多视角图像做特征匹配,融合成一个完备的 图像,之后再利用目标检测网络对融合后的图像 做训练,提高遮挡及远距离小尺寸行人检测的精 度。网络总体框架如图 1 所示。 Self-MVFM BYOLO 左视角 融合 多尺度融合 26×26 右视角 52×52 52×52 26×26 26×26 13×13 13×13 特征点匹配 特征点匹配 Darknet-53 图 1 MVBYOLO 行人检测网络 Fig. 1 Multi-view data fusion and balanced YOLOv3 for pedestrian detection 2.1 自监督学习的多视角特征点融合网络模型 自监督学习的多视角数据融合模型工作流程 如下:图像获取、自监督特征点与描述子提取、特 征匹配,最后进行多视角图像融合。本文提出自 监督学习的多视角特征点融合网络模型,网络结 构如图 2 所示。 2.1.1 数据集自标注与模型训练 多视角数据融合过程中的数据集特征点提取 任务很难利用人工标注。对于传统的检测、分割 任务的标注,给定一个图像,通过标注矩形框或 者标注物体的轮廓,可以得到确定的语义真值。 但是对于特征点检测任务,人工很难判断哪一个 像素点可以作为特征点,因此本文利用仅包含简 单几何形状的基本数据集和自行采集数据集进行 数据集的自标注[29] ,具体流程为 1) 利用简单几何形状数据集进行模型的预 第 1 期 陈丽,等:多视角数据融合的特征平衡 YOLOv3 行人检测研究 ·59·
·60· 智能系统学报 第16卷 训练 低。因此本文利用单应性适应变换和初级特征点 简单几何形状数据集是由一些线段、多边 检测网络训练得到新的模型,提升真实图像特征 形、立方体等特征点较为容易确定的图像构成 点提取的精度。 的。利用尺度不变特征变换等进行基本数据集的 2)自行采集图像自标注 特征点提取,可以得到数据集和特征点真值。因 利用多次复合几何变换对输入的图像进行处 为线段、三角形等基础几何形状图像的特征点是 理,本文设置超参数Nh=80;即N,是未经过复合 真实图像特征点的子集。利用标注好的简单几何 几何变换的原始图像,剩余的79帧图像是原始图 形状数据集对特征点检测网络进行训练,得到了 像经过随机生成的复合简单几何变换形成的图 一个初级特征点检测网络。与尺度不变特征变换 像。利用步骤1)中生成的初级特征点检测网络 等传统算法相比,在简单几何形状数据集训练得 对真实图像数据集伪特征点进行提取,将与源图 到的初级特征点检测网络在精度方面具有一定的 像对应的79帧图像映射回原图像的特征点累加 优势,但是在对真实图像数据集进行提取特征点 起来形成新的源图像特征点。至此本文完成了真 时会出现一些特征点的遗漏问题,检测精确度较 实图像数据集的特征点标注。 简单几何形状数据集 初级特征点检测网络 多视角图像融合网络 增强特征点检测网络 Prxel L Pixel R 图像L图像R Pixel L Pixel Fusion 图像L图像了 融合 Fusion 融合 增强特征点检测网络 跨色差特征融合 特 左视角 右视角 复合几何变换 无标注真实数据绨 图2 Self-MVFM网络模型 Fig.2 Self-supervised multi-view feature fusion model 在复合简单几何变换中,本文获取了79帧经 hoo ho2 过已知变换矩阵形成的源图像变换图像,因此获 =H hio hu h (1) 1 ha h2 得了源图像和其对应的79帧图像的79组已知位 式中:x,y)代表来自第一个视角的图片中的某 姿变换的图像对。这样就得到了原始图像与变换 一点;(2,y2)代表来自另一个视角图片中与(1y) 图像之间映射关系的真值。最终的自行采集数据 对应的某点。需要通过2张不同视角的照片计算 集包含特征点和特征点描述子真值,用于特征点 出复合几何变换矩阵H。 检测网络中特征点检测和描述子检测2个网络分 通过自监督学习到的复合简单几何变换矩阵 支的联合训练。 并非都是有用的,需要进行选择。为了选取表现 为了实现特征点检测子网络和描述子检测子 较好的复合简单几何变换矩阵,使用截断正态分 网络在初级特征点检测网络中的联合训练,将 布在预定范围内进行平移、缩放、平面内旋转和 2个检测子网络的损失函数值加权相加,得到统 对称透视变换采样。 一的损失函数。 2.1.3增强特征点检测网络 2.1.2复合几何变换 在获得数据集的原始图像与真实图像之间映 为了将不同视角的信息进行融合,需要先找 射关系的真值之后,就完成了真实数据集的自标 到不同视角的对应关系。利用自适应单应性变换 注,实现了难以人工进行标注的真实图像数据集 求解不同视角的对应关系矩阵H。单应性变换为 自标注。增强特征点检测网络用于训练前面
训练 简单几何形状数据集是由一些线段、多边 形、立方体等特征点较为容易确定的图像构成 的。利用尺度不变特征变换等进行基本数据集的 特征点提取,可以得到数据集和特征点真值。因 为线段、三角形等基础几何形状图像的特征点是 真实图像特征点的子集。利用标注好的简单几何 形状数据集对特征点检测网络进行训练,得到了 一个初级特征点检测网络。与尺度不变特征变换 等传统算法相比,在简单几何形状数据集训练得 到的初级特征点检测网络在精度方面具有一定的 优势,但是在对真实图像数据集进行提取特征点 时会出现一些特征点的遗漏问题,检测精确度较 低。因此本文利用单应性适应变换和初级特征点 检测网络训练得到新的模型,提升真实图像特征 点提取的精度。 2) 自行采集图像自标注 利用多次复合几何变换对输入的图像进行处 理,本文设置超参数 Nh=80;即 N1 是未经过复合 几何变换的原始图像,剩余的 79 帧图像是原始图 像经过随机生成的复合简单几何变换形成的图 像。利用步骤 1) 中生成的初级特征点检测网络 对真实图像数据集伪特征点进行提取,将与源图 像对应的 79 帧图像映射回原图像的特征点累加 起来形成新的源图像特征点。至此本文完成了真 实图像数据集的特征点标注。 简单几何形状数据集 训练 Pixel L Pixel R Fusion 图像 L图像 R 融合 Pixel L Pixel R Fusion 图像 L图像 R 融合 跨色差特征融合 复合几何变换 左视角 右视角 无标注真实数据集 增强特征点检测网络 增强特征点检测网络 特 征 点 描 述 子 特 征 点 描 述 子 初级特征点检测网络 多视角图像融合网络 图 2 Self-MVFM 网络模型 Fig. 2 Self-supervised multi-view feature fusion model 在复合简单几何变换中,本文获取了 79 帧经 过已知变换矩阵形成的源图像变换图像,因此获 得了源图像和其对应的 79 帧图像的 79 组已知位 姿变换的图像对。这样就得到了原始图像与变换 图像之间映射关系的真值。最终的自行采集数据 集包含特征点和特征点描述子真值,用于特征点 检测网络中特征点检测和描述子检测 2 个网络分 支的联合训练。 为了实现特征点检测子网络和描述子检测子 网络在初级特征点检测网络中的联合训练,将 2 个检测子网络的损失函数值加权相加,得到统 一的损失函数。 2.1.2 复合几何变换 为了将不同视角的信息进行融合,需要先找 到不同视角的对应关系。利用自适应单应性变换 求解不同视角的对应关系矩阵 H。单应性变换为 x1 y1 1 = H x2 y2 1 = h00 h01 h02 h10 h11 h12 h20 h21 h22 x2 y2 1 (1) (x1, y1) (x2, y2) (x1, y1) 式中: 代表来自第一个视角的图片中的某 一点; 代表来自另一个视角图片中与 对应的某点。需要通过 2 张不同视角的照片计算 出复合几何变换矩阵 H。 通过自监督学习到的复合简单几何变换矩阵 并非都是有用的,需要进行选择。为了选取表现 较好的复合简单几何变换矩阵,使用截断正态分 布在预定范围内进行平移、缩放、平面内旋转和 对称透视变换采样。 2.1.3 增强特征点检测网络 在获得数据集的原始图像与真实图像之间映 射关系的真值之后,就完成了真实数据集的自标 注,实现了难以人工进行标注的真实图像数据集 自标注。增强特征点检测网络[11] 用于训练前面 ·60· 智 能 系 统 学 报 第 16 卷
第1期 陈丽,等:多视角数据融合的特征平衡YOLOv3行人检测研究 ·61 获得的自标注图像数据集,以提高特征点提取的 准确性。增强特征点检测网络如图3所示。 合并 特征点检测 卷积+归一化 +Reu激活 全局池化 1×1卷积 p Relu活 1×1卷积 Sigmoid激活 描述子生成 ↓ (b)FN:融合网格 全局池化 图像 样 1×1卷积 HxW 1 HxWxD 批量归一化 Sigmoid激活 (a)总体结构 (c)AM:注意力模块 图3增强特征点检测网络结构 Fig.3 Enhanced feature point detection network 多层次编码器:为了兼顾实时性与精确性,增 注意力模块(attention model,AM):经过全局 强特征点检测网络被设计成2个分支,分别用来 池化之后,可以简单得到深层全局语义信息,并 处理不同的任务。上边的分支通过非对称的编码 通过1×1卷积操作平衡多层次编码器得到的不同 解码网络实现对原始图像进行深层特征点的提 特征图通道之间的差异。 取。对原始单视图像进行特征描述子的生成,通 2.1.4加权平滑算法 过多通道、低层次的编码器网络(图3的下方分 在实际应用中,自行采集的数据集由于相机 支),提取原始图像表层的特征描述。 的架设位置和光照条件变化原因,存在2个视角 特征点检测:在特征点检测网铬部分时,经过 点信息因光场变化产生的色差问题,影响后续融 深层、少通道、非对称的编码解码网络得到图像 合效果。因此,在融合时本文采用加权平滑算法 的特征点。 来解决存在的色差问题。加权平滑算法主要思 融合网络(fusion network,FN):由于网络的特 想:用f(x,y表示重叠区域融合后的图像,由2幅 征图并不具有相同的通道和尺寸,描述子生成网 待融合图像f和fR加权平均得到,即:f(x,y)= 络提取到的特征是浅层的,包含大量的位置信 a×f(xy)+(1-a)f(xy),其中a是可调因子。 息,而特征点检测网络经过多层编码器之后得到 一般情况下0<α<1,即在图像交叉区域中, 的是深层的特征点,包含胳膊、人脸等信息。为 沿视角1图像向视角2图像的方向,α由1渐变 了融合不同层级的特征,融合网络先通过Concat- 为0,从而实现交叉区域的平滑融合。为了给 enate操作实现不同层次特征图的简单融合。为 2幅图像建立更大的相关性,使用式(2)进行融合 了平衡不同尺寸的特征,在Concatenate之后使用 处理: 了BatchNorm操作。把相连接的特征经过全局池 (fL(x,y),(x,y)E fL 化、1×1卷积得到一个新的权重。这样做的目的 f(x,y)= a×f(x,y+(1-a)×fR(x,y,(x,y)∈fnfR 是对连接后的特征进行一个新的特征选择和结 fR(x,y),(x,y)∈fR (2) 合。至此,本文得到了W×H×D的描述子检测结 果,其中W是原始图像的宽、H是原始图像的长、 +店则1-as 令= d +店其中d、山分别 D是原始图像的通道。 表示交叉区域中的点到2个不同视角图像交叉区
获得的自标注图像数据集,以提高特征点提取的 准确性。增强特征点检测网络如图 3 所示。 特征点检测 描述子生成 AM FN 上 采 样 H×W×D 图像 H×W H×W×1 合并 全局池化 全局池化 1×1 卷积 1×1 卷积 1×1 卷积 批量归一化 Sigmoid 激活 Sigmoid 激活 相乘相乘 (b) FN: 融合网格 (c) AM: 注意力模块 (a) 总体结构 p Relu 激活 卷积+归一化 +Relu 激活 图 3 增强特征点检测网络结构 Fig. 3 Enhanced feature point detection network 多层次编码器:为了兼顾实时性与精确性,增 强特征点检测网络被设计成 2 个分支,分别用来 处理不同的任务。上边的分支通过非对称的编码 解码网络实现对原始图像进行深层特征点的提 取。对原始单视图像进行特征描述子的生成,通 过多通道、低层次的编码器网络 (图 3 的下方分 支),提取原始图像表层的特征描述。 特征点检测:在特征点检测网络部分时,经过 深层、少通道、非对称的编码解码网络得到图像 的特征点。 融合网络 (fusion network, FN): 由于网络的特 征图并不具有相同的通道和尺寸,描述子生成网 络提取到的特征是浅层的,包含大量的位置信 息,而特征点检测网络经过多层编码器之后得到 的是深层的特征点,包含胳膊、人脸等信息。为 了融合不同层级的特征,融合网络先通过 Concatenate 操作实现不同层次特征图的简单融合。为 了平衡不同尺寸的特征,在 Concatenate 之后使用 了 BatchNorm 操作。把相连接的特征经过全局池 化、1×1 卷积得到一个新的权重。这样做的目的 是对连接后的特征进行一个新的特征选择和结 合。至此,本文得到了 W×H×D 的描述子检测结 果,其中 W 是原始图像的宽、H 是原始图像的长、 D 是原始图像的通道。 注意力模块 (attention model, AM):经过全局 池化之后,可以简单得到深层全局语义信息,并 通过 1×1 卷积操作平衡多层次编码器得到的不同 特征图通道之间的差异。 2.1.4 加权平滑算法 f (x, y) fL fR f (x, y)= α× fL (x, y)+(1−α)fR (x, y) α 在实际应用中,自行采集的数据集由于相机 的架设位置和光照条件变化原因,存在 2 个视角 点信息因光场变化产生的色差问题,影响后续融 合效果。因此,在融合时本文采用加权平滑算法 来解决存在的色差问题。加权平滑算法主要思 想:用 表示重叠区域融合后的图像,由 2 幅 待融合图像 和 加权平均得到,即: ,其中 是可调因子。 0 < α < 1 α 一般情况下 ,即在图像交叉区域中, 沿视角 1 图像向视角 2 图像的方向, 由 1 渐变 为 0,从而实现交叉区域的平滑融合。为了给 2 幅图像建立更大的相关性,使用式 (2) 进行融合 处理: f(x, y) = fL(x, y), (x, y) ∈ fL α× fL(x, y)+(1−α)× fR(x, y), (x, y) ∈ fL ∩ fR fR(x, y), (x, y) ∈ fR (2) α= d 2 1 d 2 1 +d 2 2 1−α= d 2 2 d 2 1 +d 2 2 令 ,则 ,其中 d1、d2 分别 表示交叉区域中的点到 2 个不同视角图像交叉区 第 1 期 陈丽,等:多视角数据融合的特征平衡 YOLOv3 行人检测研究 ·61·
·62* 智能系统学报 第16卷 域的左边界和右边界的距离。 相比,处理速度快了1倍,所以Darknet-53是兼顾 2.2特征平衡的YOLOv3网络 速度与精度的特征提取网络架构。 YOLOv3网络是一种单阶段目标检测方法, 原YOLOv3网络中通过3种不同尺度的特征 与RCNN系列的目标检测框架不同,YOLOv3网 图直接做预测,不同尺度分别包括13×13、26×26 络不生成候选框,直接在输出层返回边界框的位 52×52。为了更好地使用深层特征与浅层特征进 置及其所属类别。YOLOv3借鉴残差网络(resid- 行小尺寸行人检测,本文提出一种特征平衡的YOLO3 ual network,ResNet)I3o、特征金字塔网络I3 网络结构,如图5所示。 网络的思想,添加跨层跳跃连接,融合粗细粒度 类型 卷积核数量卷积核大小步长输出特征图像素大小 的特征,能更好地实现检测任务。添加多尺度预 卷积 32 3×3 256×256 卷积 64 3×3 128×128 测,即在3个不同尺寸的特征图层进行预测,每种 卷积 32 I×1 卷积 A 3×3 尺度预测3个锚框。锚框的设计方式使用聚类, 残差链接 128×128 得到9个聚类中心,将其按照大小均分给3个特 卷积 128 3×3 2 64×64 卷积 64 1×1 征图层。尺寸分别为13×13、26×26、52×52。本 23 卷积 128 3×3 文将对3个不同尺寸的特征进行融合。 残差链接 64×64 卷 256 3x3 2 32×32 YOLOv3的特征提取网络为Darknet--53,其网 卷积 128 R 卷 256 1 络结构如图4所示。Darknet--53网络中的Convo- 残差链接 32×32 lutional代表一个激活函数(darknetconv2dBN 卷积 512 3×3 16×16 卷积 256 1×1 leaky,DBL)操作流程,包含卷积层、批量归一化 卷积 512 3×3 层(batch normalization,BN)和Leaky_Relu激活函 残差链接 16×16 装 1024 3×3 8×8 数。对于YOLOv23来说,BN层和Leaky_Relu是和 卷积 512 1×1 卷积层不可分离的部分,共同构成了最小组件。 卷积 1024 3×3 残差链接 8×8 此外,还包括Resn残差模块,图4中最左面的数 平均池化记 全局 全连接层 1000 字1、2、8、8、4表示残差单元的个数。 Softmax分类 Darknet-53加深了网络结构,处理速度为78张s, 图4 Darknet-.53网络结构 比Darknet--l9慢,但是与相同精度的ResNet-l52 Fig.4 Darknet-53 Network IDarknet-53 DBL残差块×2 残差块×8DBL残差块×8DBL残差块x4 2×5 DBL DBI DBL Conv BN Leaky Relu 下采样 上采样 多尺度 上采样 26×26 下采样 YOLO YOLO YOLO 图5特征平衡YOLO3网络结构 Fig.5 Architecture of balance YOLOv3 network 特征融合是将不同类型、不同尺度的特征进 和Concatenate2种。Add方式是特征图相加, 行整合,去除冗余信息,从而得到更好的特征表 从而增加描述图像特征的信息量,即图像本身的 达。在神经网络中直观的融合方式一般分为Add 维度没有增加,只是每一维下的信息量增加了,这
域的左边界和右边界的距离。 2.2 特征平衡的 YOLOv3 网络 13×13 26×26 52×52 YOLOv3 网络是一种单阶段目标检测方法, 与 RCNN 系列的目标检测框架不同,YOLOv3 网 络不生成候选框,直接在输出层返回边界框的位 置及其所属类别。YOLOv3 借鉴残差网络(residual network, ResNet) [ 3 0 ] 、特征金字塔网络[ 3 1 ] 网络的思想,添加跨层跳跃连接,融合粗细粒度 的特征,能更好地实现检测任务。添加多尺度预 测,即在 3 个不同尺寸的特征图层进行预测,每种 尺度预测 3 个锚框。锚框的设计方式使用聚类, 得到 9 个聚类中心,将其按照大小均分给 3 个特 征图层。尺寸分别为 、 、 。本 文将对 3 个不同尺寸的特征进行融合。 YOLOv3 的特征提取网络为 Darknet-53,其网 络结构如图 4 所示。Darknet-53 网络中的 Convolutional 代表一个激活函数 (darknetconv2d_BN_ leaky, DBL) 操作流程,包含卷积层、批量归一化 层(batch normalization, BN)和 Leaky_Relu 激活函 数。对于 YOLOv3来说,BN 层和 Leaky_Relu 是和 卷积层不可分离的部分,共同构成了最小组件。 此外,还包括 Resn残差模块,图 4 中最左面的数 字 1、2、8、8、4 表示残差单元的个数。 Darknet-53 加深了网络结构,处理速度为 78 张/s, 比 Darknet-19 慢,但是与相同精度的 ResNet-152 相比,处理速度快了 1 倍,所以 Darknet-53 是兼顾 速度与精度的特征提取网络架构。 13×13 26×26 52×52 原 YOLOv3 网络中通过 3 种不同尺度的特征 图直接做预测,不同尺度分别包括 、 、 。为了更好地使用深层特征与浅层特征进 行小尺寸行人检测,本文提出一种特征平衡的YOLOv3 网络结构,如图 5 所示。 类型 卷积核数量卷积核大小 步长输出特征图像素大小 卷积 卷积 卷积 卷积 卷积 卷积 卷积 卷积 卷积 卷积 卷积 卷积 卷积 卷积 卷积 卷积 32 3×3 1 256×256 128×128 128×128 64×64 64×64 32×32 32×32 16×16 16×16 8×8 8×8 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 3×3 3×3 3×3 1× 2× 8× 8× 4× 3×3 3×3 3×3 3×3 3×3 3×3 3×3 1×1 1×1 1×1 1×1 1×1 64 32 64 64 128 128 128 256 256 256 512 512 512 1 024 1 024 残差链接 残差链接 残差链接 残差链接 残差链接 平均池化 全局 全连接层 1 000 Softmax 分类 图 4 Darknet-53 网络结构 Fig. 4 Darknet-53 Network Darknet-53 DBL DBL Conv BN Leaky_Relu DBL DBL DBL 残差块×2 残差块×8 残差块 DBL DBL ×8 残差块×4 52×52 DBL×5 DBL×5 DBL×5 YOLO YOLO YOLO 下采样 下采样 上采样 上采样 多尺度 融合 26×26 26×26 13×13 图 5 特征平衡 YOLOv3 网络结构 Fig. 5 Architecture of balance YOLOv3 network 特征融合是将不同类型、不同尺度的特征进 行整合,去除冗余信息,从而得到更好的特征表 达。在神经网络中直观的融合方式一般分为 Add 和 Concatenate 2 种。Add 方式[32] 是特征图相加, 从而增加描述图像特征的信息量,即图像本身的 维度没有增加,只是每一维下的信息量增加了,这 ·62· 智 能 系 统 学 报 第 16 卷
第1期 陈丽,等:多视角数据融合的特征平衡YOLOv3行人检测研究 ·63· 样的融合方式有利于图像分类任务。Concaten- YOLOv3原模型进行训练。在相同实验环境以及 ate方式B]则是通道数的合并,也就是说描述图 实验参数下,对MVBYOLO网络进行训练。将得 像本身的特征增加了,而每一特征下的信息并没 到的检测结果与YOLOv3原模型进行对比,观察 有增加。深度网络中多层信息的直接拼接并不能 改进后的检测模型针对有遮挡远距离行人检测中 更好地利用特征之间的互补性,所以本文考虑将 存在的问题优化效果及性能。 特征采样到相同分辨率大小进行加权融合。 3.4实验评价指标及结果分析 神经网络提取的低层特征分辨率高,可以学 本文应用准确率(precision,P)、漏检率(re 习到一幅图像中的细节特征,高层特征分辨率 call,R)来衡量检测算法的性能。因为本算法只 低,可以学习到更好的语义特征。为了更好地结 检测行人,可以看做是一个二分类问题。为了计 合细节信息和语义信息的优势,本文采用对数据 算准确率和漏检率,引入以下定义: 相加取平均的方式来进行特征融合。假设C,代 I)True Pedetrian(TP):真实目标是行人且被 表不同层级的特征数据,则C:代表52×52的特 训练模型检测出来是行人 征,C2代表26×26特征数据,C3代表13×13的特 2)True N-Pedestrian(TN):真实目标不是行人 征。本文将3个分辨率的特征进行不同的采样方 且没有被训练模型错误检测为行人; 式统一到26×26的大小,再利用式(3)进行相加 3)False Pedestrian(FP):表示为真实目标不是 取平均,得到一个融合后的特征: 行人但被模型错误检测为行人(误检): c (3) 4)False N-Pedestrian(FN):表示真实目标是行 =1 人但是模型没有将其检测为行人(漏检)。 在进行尺度缩放的具体操作中,针对13×13 则评价的标准为 大小的特征图,对其进行2倍的上采样,对于52× TP TP 52大小的特征图,对其进行2倍的下采样,这样 P= TP+FP:R= TP+FN (4) 将原来不同尺度的特征图全部变成了26×26的 特征,可以直接进行加权求和。得到融合后的特 AP=P(r)dr 征C后,再通过与之前相反的采样操作,即对特 将本文提出的MVBYOLO模型与原来YOLOV2 征分别进行下采样与上采样的操作,还原成13×13、 和YOLOv3模型作对比,比较损失值下降趋势,PR 52×52的尺寸,再与原来Darknet-53网络提取的 曲线以及AP值。 第36、61与74层的原始特征进行融合,利用最终 从图6可以看出,本文MVBYOLO网络的训 得到的具有细节信息和语义信息的特征去做预测。 练损失值下降趋势基本与原YOLOv:3网络保持一 致,下降速度快于YOLOv2,经过相同的训练批 3实验结果与分析 次,MVBYOLO网络的损失值明显低于YOLOv2, 可以更快地收敛。 3.1实验环境 本实验平台为云服务器,操作系统为Ubuntu 103 Y883 16.04,显卡型号为GeForceGTX2080Ti,显存11GB,内 -MVBYOLO 存16GB,Cuda版本:10.0.130,OpenCV版本:3.2.0。 10 3.2实验数据集 本实验的训练与测试所使用的数据集全部来 101 自PASCAL VOC数据集。训练使用VOC2007 train、valid与VOC20l2 train、valid数据集,为了验 10 证算法的有效性,在VOC2007test数据集上做验 证。总训练数据共22136张图片,其中包含行人 10- 的图片为6496张;总验证数据共4952张图片, 其中包含行人的图片为2097张。 10- 025050075010001250150017502000 3.3实验参数设置 训练批次 本文只对行人这一类别做训练,输入的图片 图6不同网络的训练损失值 大小默认为416×416,输入通道数为3,本文设定 Fig.6 Train loss of different network 的迭代次数是50200,batchsize为64,学习率为 PR曲线与横纵坐标轴形成了一个平面,面积 0.001,在迭代到40000次的时候学习率更新为 越大,AP值越高。图7为不同模型的PR曲线, 0.01。将处理好的数据集在同一性能服务器下用 显示了本文的模型具有更高的检测精度
样的融合方式有利于图像分类任务。Concatenate 方式 [33] 则是通道数的合并,也就是说描述图 像本身的特征增加了,而每一特征下的信息并没 有增加。深度网络中多层信息的直接拼接并不能 更好地利用特征之间的互补性,所以本文考虑将 特征采样到相同分辨率大小进行加权融合。 Cl C1 52×52 C2 26×26 C3 13×13 26×26 神经网络提取的低层特征分辨率高,可以学 习到一幅图像中的细节特征,高层特征分辨率 低,可以学习到更好的语义特征。为了更好地结 合细节信息和语义信息的优势,本文采用对数据 相加取平均的方式来进行特征融合。假设 代 表不同层级的特征数据,则 代表 的特 征, 代表 特征数据, 代表 的特 征。本文将 3 个分辨率的特征进行不同的采样方 式统一到 的大小,再利用式 (3) 进行相加 取平均,得到一个融合后的特征: C = 1 3 ∑3 l=1 Cl (3) 13×13 52× 52 26×26 C 13×13 52×52 在进行尺度缩放的具体操作中,针对 大小的特征图,对其进行 2 倍的上采样,对于 大小的特征图,对其进行 2 倍的下采样,这样 将原来不同尺度的特征图全部变成了 的 特征,可以直接进行加权求和。得到融合后的特 征 后,再通过与之前相反的采样操作,即对特 征分别进行下采样与上采样的操作,还原成 、 的尺寸,再与原来 Darknet-53 网络提取的 第 36、61 与 74 层的原始特征进行融合,利用最终 得到的具有细节信息和语义信息的特征去做预测。 3 实验结果与分析 3.1 实验环境 本实验平台为云服务器,操作系统为 Ubuntu 16.04,显卡型号为 GeForce GTX 2080Ti,显存 11 GB,内 存 16 GB,Cuda 版本:10.0.130, OpenCV 版本:3.2.0。 3.2 实验数据集 本实验的训练与测试所使用的数据集全部来 自 PASCAL VOC 数据集。训练使用 VOC2007 train、valid 与 VOC2012 train、valid 数据集,为了验 证算法的有效性,在 VOC2007 test 数据集上做验 证。总训练数据共 22 136 张图片,其中包含行人 的图片为 6 496 张;总验证数据共 4 952 张图片, 其中包含行人的图片为 2 097 张。 3.3 实验参数设置 416×416 本文只对行人这一类别做训练,输入的图片 大小默认为 ,输入通道数为 3,本文设定 的迭代次数是 50 200,batchsize 为 64,学习率为 0.001,在迭代到 40 000 次的时候学习率更新为 0.01。将处理好的数据集在同一性能服务器下用 YOLOv3 原模型进行训练。在相同实验环境以及 实验参数下,对 MVBYOLO 网络进行训练。将得 到的检测结果与 YOLOv3 原模型进行对比,观察 改进后的检测模型针对有遮挡远距离行人检测中 存在的问题优化效果及性能。 3.4 实验评价指标及结果分析 本文应用准确率 (precision,P)、漏检率 (recall,R) 来衡量检测算法的性能。因为本算法只 检测行人,可以看做是一个二分类问题。为了计 算准确率和漏检率,引入以下定义: 1) True_Pedetrian(TP):真实目标是行人且被 训练模型检测出来是行人; 2) True_N-Pedestrian(TN):真实目标不是行人 且没有被训练模型错误检测为行人; 3) False_Pedestrian(FP):表示为真实目标不是 行人但被模型错误检测为行人 (误检); 4) False_N-Pedestrian(FN):表示真实目标是行 人 但是模型没有将其检测为行人 (漏检)。 则评价的标准为 P = TP TP+FP ,R = TP TP+FN AP = w 1 0 P(r)dr (4) 将本文提出的 MVBYOLO 模型与原来 YOLOv2 和 YOLOv3 模型作对比,比较损失值下降趋势,PR 曲线以及 AP 值。 从图 6 可以看出,本文 MVBYOLO 网络的训 练损失值下降趋势基本与原 YOLOv3 网络保持一 致,下降速度快于 YOLOv2,经过相同的训练批 次,MVBYOLO 网络的损失值明显低于 YOLOv2, 可以更快地收敛。 103 损失值 0 250 500 750 1 000 训练批次 1 250 1 500 1 750 2 000 YOLOv2 YOLOv3 MVBYOLO 102 101 100 10−1 10−2 图 6 不同网络的训练损失值 Fig. 6 Train loss of different network PR 曲线与横纵坐标轴形成了一个平面,面积 越大,AP 值越高。图 7 为不同模型的 PR 曲线, 显示了本文的模型具有更高的检测精度。 第 1 期 陈丽,等:多视角数据融合的特征平衡 YOLOv3 行人检测研究 ·63·
·64 智能系统学报 第16卷 1.0 Self-MVFM进行自监督多视角信息融合,之后利 0.8 用平衡的YOLOv3网络,准确地进行复杂场景下 车辆前方小尺寸行人检测,提高行人检测的效 06 率。本文在VOC2007test做测试,AP值达到 意 80.14,与原YOLOv3网络相比,检测精度提高了 0.4 2.89%,取得较好的实验结果。但检测性能还有待 02 优化。下一步研究工作主要针对2点:1)优化损 YOLOV2 失函数,使模型更快收敛;2)将多视角行人检测 0七 -MVBYOLO 1.0 模型作为动作识别的数据预处理模型,将预测的 0.2 0.4 0.6 0.8 召回率 行人检测框直接输入骨架提取网络,降低后续骨 图7不同网络的PR曲线 架提取任务的难度。 Fig.7 Precision of different network 参考文献: 从表1可以看出,本文提出的MVBYOLO的 2个模块Self-MVFM与BYOLO对行人检测的精 [1]马楠,高跃,李佳洪,等.自驾驶中的交互认知).中国科 学:信息科学,2018,48(8):1083-1096. 度均有贡献。结合提出的2个模块,行人检测的 MA Nan,GAO Yue,LI Jiahong,et al.Interactive cogni- 精度得到更好的提升,与YOLOv2相比,AP值提 tion in self-driving[J].Scientia sinca informationis,2018. 48(8):1083-1096. 高了3.34%,与YOLOv3相比,AP值提高了2.89%。 [2]LI Deyi,MA Nan,GAO Yue.Future vehicles:learnable 表1不同网络在VOC数据集上的AP值 wheeled robots[J].Science China information sciences, 2020,63(9):193201 Table 1 AP of different network in the VOC dataset [3]贲晛烨,徐森,王科俊.行人步态的特征表达及识别综 网络 AP值 述).模式识别与人工智能,2012,25(1)上71-81. BENXianye,XU Sen,WANG Kejun.Review on pedestri- Faster R-CNN 76.70 an gait feature expression and recognition[J].PR and Al, MR-CNNB41 76.40 2012,25(1):71-81 YOLOv2 76.80 [4]CHEN Li,MA Nan,WANG P,et al.Survey of pedestrian action recognition techniques for autonomous driving[J] YOLOv3 77.25 Tsinghua science and technology,2020,25(4):458-470. Self-MVFM+YOLOv3 79.03 [5]赵永强,饶元,董世鹏,等.深度学习目标检测方法综 BYOLO 78.96 述[).中国图象图形学报,2020,25(4):629-654. MVBYOLO 80.14 ZHAO Yongqiang,RAO Yuan,DONG Shipeng,et al.Sur- vey on deep learning object detection[J].Journal of image and graphics,2020,25(4):629-654. 本文网络在真实场景下采集的240张图像上 [6]FARENZENA M,BAZZANI L,PERINA A,et al.Person 进行了检测,从中挑选了在2种不同真实场景下 re-identification by symmetry-driven accumulation of loc- 拍摄的图像进行展示,图8为检测结果。 al features[C]//2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition.San Fran- 从图8可以看出,在相同场景下,与YOLOv3 cisco,USA,2010:2360-2367. 网络相比,本文能检测出更多的行人。 [7]ANDRILUKA M,ROTH S,SCHIELE B.Pictorial struc- tures revisited:people detection and articulated pose estim- ation[C]//2009 IEEE Conference on Computer Vision and Pattern Recognition.Miami,USA,2009:1014-1021. [8]WEN Chao,ZHANG Yinda,LI Zhuwen,et al. Pixel2Mesh++:multi-view 3D mesh generation via de- formation[Cl//Proceedings of the 2019 IEEE/CVF Interna- tional Conference on Computer Vision (ICCV).Seoul, Korea(South),2019:1042-1051. [9]CHEN Rui,HAN Songfang.XU Jing,et al.Point-based multi-view stereo network[C]//Proceedings of the 2019 IEEE/CVF International Conference on Computer Vision (ICCV).Seoul,Korea(South),2019:1538-1547. [10]YI Hongwei,WEI Zizhuang,DING Mingyu,et al.Pyr- (a)YOLOv3 (b)MVBYOLO amid multi-view stereo net with self-adaptive view ag- gregation[C]//16th European Conference on Computer 图8不同网络的行人检测结果 Vision.Glasgow,UK,2020:766-782. Fig.8 Pedestrian detection results for different network [11]YU Changqian,WANG Jingbo,PENG Chao,et al.Bisen- et:bilateral segmentation network for real-time semantic 4结束语 segmentation[C]//15th European Conference on Com- puter Vision.Munich,Germany,2018:334-349. [12]SU Hang,MAJI S,KALOGERAKIS E,et al.Multi-view 本文提出的MVBYOLO行人检测模型,通过 convolutional neural networks for 3D shape recognition[Cl/
0.8 1.0 0.2 0.4 0.6 0.8 1.0 召回率 精确率 YOLOv2 YOLOv3 MVBYOLO 0.6 0.4 0.2 0 图 7 不同网络的 PR 曲线 Fig. 7 Precision of different network 从表 1 可以看出,本文提出的 MVBYOLO 的 2 个模块 Self-MVFM 与 BYOLO 对行人检测的精 度均有贡献。结合提出的 2 个模块,行人检测的 精度得到更好的提升,与 YOLOv2 相比,AP 值提 高了 3.34%,与 YOLOv3 相比,AP 值提高了 2.89%。 表 1 不同网络在 VOC 数据集上的 AP 值 Table 1 AP of different network in the VOC dataset 网络 AP值 Faster R-CNN 76.70 MR-CNN[34] 76.40 YOLOv2 76.80 YOLOv3 77.25 Self-MVFM+YOLOv3 79.03 BYOLO 78.96 MVBYOLO 80.14 本文网络在真实场景下采集的 240 张图像上 进行了检测,从中挑选了在 2 种不同真实场景下 拍摄的图像进行展示,图 8 为检测结果。 从图 8 可以看出,在相同场景下,与 YOLOv3 网络相比,本文能检测出更多的行人。 (a) YOLOv3 (b) MVBYOLO 图 8 不同网络的行人检测结果 Fig. 8 Pedestrian detection results for different network 4 结束语 本文提出的 MVBYOLO 行人检测模型,通过 Self-MVFM 进行自监督多视角信息融合,之后利 用平衡的 YOLOv3 网络,准确地进行复杂场景下 车辆前方小尺寸行人检测,提高行人检测的效 率。本文在 VOC2007test 做测试, AP 值达到 80.14,与原 YOLOv3 网络相比,检测精度提高了 2.89%,取得较好的实验结果。但检测性能还有待 优化。下一步研究工作主要针对 2 点:1) 优化损 失函数,使模型更快收敛;2) 将多视角行人检测 模型作为动作识别的数据预处理模型,将预测的 行人检测框直接输入骨架提取网络,降低后续骨 架提取任务的难度。 参考文献: 马楠, 高跃, 李佳洪, 等. 自驾驶中的交互认知 [J]. 中国科 学: 信息科学, 2018, 48(8): 1083–1096. MA Nan, GAO Yue, LI Jiahong, et al. Interactive cognition in self-driving[J]. Scientia sinca informationis, 2018, 48(8): 1083–1096. [1] LI Deyi, MA Nan, GAO Yue. Future vehicles: learnable wheeled robots[J]. Science China information sciences, 2020, 63(9): 193201. [2] 贲晛烨, 徐森, 王科俊. 行人步态的特征表达及识别综 述 [J]. 模式识别与人工智能, 2012, 25(1): 71–81. BENXianye, XU Sen, WANG Kejun. Review on pedestrian gait feature expression and recognition[J]. PR and AI, 2012, 25(1): 71–81. [3] CHEN Li, MA Nan, WANG P, et al. Survey of pedestrian action recognition techniques for autonomous driving[J]. Tsinghua science and technology, 2020, 25(4): 458–470. [4] 赵永强, 饶元, 董世鹏, 等. 深度学习目标检测方法综 述 [J]. 中国图象图形学报, 2020, 25(4): 629–654. ZHAO Yongqiang, RAO Yuan, DONG Shipeng, et al. Survey on deep learning object detection[J]. Journal of image and graphics, 2020, 25(4): 629–654. [5] FARENZENA M, BAZZANI L, PERINA A, et al. Person re-identification by symmetry-driven accumulation of local features[C]//2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Francisco, USA, 2010: 2360–2367. [6] ANDRILUKA M, ROTH S, SCHIELE B. Pictorial structures revisited: people detection and articulated pose estimation[C]//2009 IEEE Conference on Computer Vision and Pattern Recognition. Miami, USA, 2009: 1014–1021. [7] WEN Chao, ZHANG Yinda, LI Zhuwen, et al. Pixel2Mesh++: multi-view 3D mesh generation via deformation[C]//Proceedings of the 2019 IEEE/CVF International Conference on Computer Vision (ICCV). Seoul, Korea (South), 2019: 1042–1051. [8] CHEN Rui, HAN Songfang, XU Jing, et al. Point-based multi-view stereo network[C]//Proceedings of the 2019 IEEE/CVF International Conference on Computer Vision (ICCV). Seoul, Korea (South), 2019: 1538–1547. [9] YI Hongwei, WEI Zizhuang, DING Mingyu, et al. Pyramid multi-view stereo net with self-adaptive view aggregation[C]//16th European Conference on Computer Vision. Glasgow, UK, 2020: 766–782. [10] YU Changqian, WANG Jingbo, PENG Chao, et al. Bisenet: bilateral segmentation network for real-time semantic segmentation[C]//15th European Conference on Computer Vision. Munich, Germany, 2018: 334–349. [11] SU Hang, MAJI S, KALOGERAKIS E, et al. Multi-view convolutional neural networks for 3D shape recognition[C]// [12] ·64· 智 能 系 统 学 报 第 16 卷
第1期 陈丽,等:多视角数据融合的特征平衡YOLOv3行人检测研究 ·65· 2015 IEEE International Conference on Computer Vision shot multibox detector[C]//14th European Conference on (ICCV).Santiago,Chile,2015:945-953. Computer Vision.Amsterdam,The Netherlands,2016: [13]FENG Yifan,ZHANG Zizhao,ZHAO Xibin,et al. 21-37. GVCNN:group-view convolutional neural networks for [28]ZHANG Shifeng,WEN Longyin,BIAN Xiao,et al. 3D shape recognition[C]//Proceedings of the 2018 Single-shot refinement neural network for object detec- IEEE/CVF Conference on Computer Vision and Pattern tion[Cl//2018 IEEE/CVF Conference on Computer Vis- Recognition.Salt Lake City,USA,2018:264-272 ion and Pattern Recognition.Salt Lake City,USA,2018: [14]DONG Junting,JIANG Wen,HUANG Qixing,et al.Fast 4203-4212. and robust multi-person 3D pose estimation from mul- [29]DETONE D,MALISIEWICZ T.RABINOVICH A.Su- tiple views[C]//2019 IEEE/CVF Conference on Com- perPoint:self-supervised interest point detection and de- puter Vision and Pattern Recognition(CVPR).Long scription[C]//2018 IEEE/CVF Conference on Computer Beach,USA,2019:7784-7793 Vision and Pattern Recognition Workshops(CVPRW). [15]HOU Yunzhong,ZHENG Liang,GOULD S.Multiview Salt Lake City,USA,2018:224-236. detection with feature perspective transformation[C //16th [30]HE Kaiming,ZHANG Xiangyu,REN Shaoqing,et al. European Conference on Computer Vision.Glasgow,UK. Deep residual learning for image recognition[C]//Proceed- 2020:1-18. ings of the 2016 IEEE Conference on Computer Vision [16]LIU Hong,XU Tao,WANG Xiangdong,et al.Related and Pattern Recognition(CVPR).Las Vegas,USA,2016: HOG features for human detection using cascaded ada- 770-778. boost and SVM classifiers[Cl//19th International Confer- [31]LIN T Y.DOLLAR P,GIRSHICK R,et al.Feature pyr- ence on Advances in Multimedia Modeling.Huangshan, amid networks for object detection[C]//Proceedings of the China.2013:345-355. 2017 IEEE Conference on Computer Vision and Pattern [17]FELZENSZWALB P F.GIRSHICK R B.MC- Recognition(CVPR).Honolulu.USA.2017:936-944. ALLESTER D,et al.Object detection with discriminat- [32]CAO Guimei,XIE Xuemei,YANG Wenzhe,et al.Fea- ively trained part-based models[J].IEEE transactions on ture-fused SSD:fast detection for small objects[C]//Pro- pattern analysis and machine intelligence,2009.32(9): ceedings Volume 10615,Ninth International Conference 1627-1645. on Graphic and Image Processing(ICGIP 2017).Qing- [18]KAEWTRAKULPONG P,BOWDEN R.An improved dao,China,2018:106151E. adaptive background mixture model for real-time track- [33]HUANG Gao,LIU Zhuang,VAN DER MAATEN L,et ing with shadow detection[M]//REMAGNINO P.JONES al.Densely connected convolutional networks[C]//Pro- G A,PARAGIOS N,et al.Video-Based Surveillance Sys- tems.Boston,MA:Springer,2002:135-144. ceedings of the 2017 IEEE Conference on Computer Vis- [19]BARNICH O,VAN DROOGENBROECK M.ViBe:a ion and Pattern Recognition(CVPR).Honolulu, USA,2017:2261-2269 universal background subtraction algorithm for video se- [34]HE Kaiming,GKIOXARI G,DOLLAR P,et al.Mask R- quences[J].IEEE transactions on image processing,2010 CNN[C]//Proceedings of the 2017 IEEE International 20(6):1709-1724. [20]WANG Hanzi,SUTER D.A consensus-based method for Conference on Computer Vision (ICCV).Venice. Italy,2017:2980-2988. tracking:modelling background scenario and foreground appearance[J].Pattern recognition,2007,40(3): 作者简介: 1091-1105. [21]HOFMANN M,TIEFENBACHER P,RIGOLL G.Back- 陈丽,硕士研究生,主要研究方向 ground segmentation with feedback:the pixel-based ad- 为多视角数据融合、行人动作识别。 aptive segmenter[C]//2012 IEEE Computer Society Con- ference on Computer Vision and Pattern Recognition Workshops.Providence,USA,2012:38-43 [22]KRIZHEVSKY A,SUTSKEVER I,Hinton G E.ImageN- et classification with deep convolutional neural networks[Cl Proceedings of the 25th International Conference on Neural Information Processing Systems.Lake Tahoe. USA.2012:1097-1105. 马楠,教授,博士,主要研究方向 [23]Girshick R,Donahue J,Darrell T,et al.Rich feature hier- 为交互认知、知识发现与智能系统,带 archies for accurate object detection and semantic segmenta- tion[C]//2014 IEEE Conference on Computer Vision and 领团队分别在2018,2019、2020WIC Pattern Recognition.Columbus.USA.2014:580-587. 世界无人驾驶挑战赛虚拟场景赛项获 [24]GIRSHICK R.Fast R-CNN[C]//2015 IEEE International 得冠军(领军奖)。授权发明专利 Conference on Computer Vision (ICCV).Santiago,Chile. 7项、软件著作权13项。发表学术论 2015:1440-1448. [25]REN Shaoqing,HE Kaiming,GIRSHICK R,et al.Faster 文50余篇,主编专著和教材3部。 R-CNN:towards real-time object detection with region proposal networks[C]//Proceedings of the 2015 Confer- 逢桂林,硕士研究生,主要研究方 ence and Workshop on Neural Information Processing 向为计算机视觉、车道线检测。 Systems.Montreal,Canada,2015:91-99. [26]REDMON J,DIVVALA S,GIRSHICK R.et al.You only look once:unified,real-time object detection[C]//2016 IEEE Conference on Computer Vision and Pattern Recog- nition(CVPR).Las Vegas,USA,2016:779-788. [27]LIU Wei,ANGUELOV D,ERHAN D,et al.SSD:single
2015 IEEE International Conference on Computer Vision (ICCV). Santiago, Chile, 2015: 945–953. FENG Yifan, ZHANG Zizhao, ZHAO Xibin, et al. GVCNN: group-view convolutional neural networks for 3D shape recognition[C]//Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA, 2018: 264–272. [13] DONG Junting, JIANG Wen, HUANG Qixing, et al. Fast and robust multi-person 3D pose estimation from multiple views[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach, USA, 2019: 7784–7793. [14] HOU Yunzhong, ZHENG Liang, GOULD S. Multiview detection with feature perspective transformation[C]//16th European Conference on Computer Vision. Glasgow, UK, 2020: 1–18. [15] LIU Hong, XU Tao, WANG Xiangdong, et al. Related HOG features for human detection using cascaded adaboost and SVM classifiers[C]//19th International Conference on Advances in Multimedia Modeling. Huangshan, China, 2013: 345–355. [16] FELZENSZWALB P F, GIRSHICK R B, MCALLESTER D, et al. Object detection with discriminatively trained part-based models[J]. IEEE transactions on pattern analysis and machine intelligence, 2009, 32(9): 1627–1645. [17] KAEWTRAKULPONG P, BOWDEN R. An improved adaptive background mixture model for real-time tracking with shadow detection[M]//REMAGNINO P, JONES G A, PARAGIOS N, et al. Video-Based Surveillance Systems. Boston, MA: Springer, 2002: 135–144. [18] BARNICH O, VAN DROOGENBROECK M. ViBe: a universal background subtraction algorithm for video sequences[J]. IEEE transactions on image processing, 2010, 20(6): 1709–1724. [19] WANG Hanzi, SUTER D. A consensus-based method for tracking: modelling background scenario and foreground appearance[J]. Pattern recognition, 2007, 40(3): 1091–1105. [20] HOFMANN M, TIEFENBACHER P, RIGOLL G. Background segmentation with feedback: the pixel-based adaptive segmenter[C]//2012 IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops. Providence, USA, 2012: 38–43. [21] KRIZHEVSKY A, SUTSKEVER I, Hinton G E. ImageNet classification with deep convolutional neural networks[C]// Proceedings of the 25th International Conference on Neural Information Processing Systems. Lake Tahoe, USA, 2012: 1097–1105. [22] Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, USA, 2014: 580–587. [23] GIRSHICK R. Fast R-CNN[C]//2015 IEEE International Conference on Computer Vision (ICCV). Santiago, Chile, 2015: 1440–1448. [24] REN Shaoqing, HE Kaiming, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[C]//Proceedings of the 2015 Conference and Workshop on Neural Information Processing Systems. Montreal, Canada, 2015: 91–99. [25] REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: unified, real-time object detection[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, USA, 2016: 779–788. [26] [27] LIU Wei, ANGUELOV D, ERHAN D, et al. SSD: single shot multibox detector[C]//14th European Conference on Computer Vision. Amsterdam, The Netherlands, 2016: 21–37. ZHANG Shifeng, WEN Longyin, BIAN Xiao, et al. Single-shot refinement neural network for object detection[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA, 2018: 4203–4212. [28] DETONE D, MALISIEWICZ T, RABINOVICH A. SuperPoint: self-supervised interest point detection and description[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). Salt Lake City, USA, 2018: 224–236. [29] HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al. Deep residual learning for image recognition[C]//Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, USA, 2016: 770–778. [30] LIN T Y, DOLLÁR P, GIRSHICK R, et al. Feature pyramid networks for object detection[C]//Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, USA, 2017: 936–944. [31] CAO Guimei, XIE Xuemei, YANG Wenzhe, et al. Feature-fused SSD: fast detection for small objects[C]//Proceedings Volume 10615, Ninth International Conference on Graphic and Image Processing (ICGIP 2017). Qingdao, China, 2018: 106151E. [32] HUANG Gao, LIU Zhuang, VAN DER MAATEN L, et al. Densely connected convolutional networks[C]//Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, USA, 2017: 2261–2269. [33] HE Kaiming, GKIOXARI G, DOLLÁR P, et al. Mask RCNN[C]//Proceedings of the 2017 IEEE International Conference on Computer Vision (ICCV). Venice, Italy, 2017: 2980–2988. [34] 作者简介: 陈丽,硕士研究生,主要研究方向 为多视角数据融合、行人动作识别。 马楠,教授,博士,主要研究方向 为交互认知、知识发现与智能系统,带 领团队分别在 2018、2019、2020WIC 世界无人驾驶挑战赛虚拟场景赛项获 得冠军 (领军奖)。授权发明专利 7 项、软件著作权 13 项。发表学术论 文 50 余篇,主编专著和教材 3 部。 逄桂林,硕士研究生,主要研究方 向为计算机视觉、车道线检测。 第 1 期 陈丽,等:多视角数据融合的特征平衡 YOLOv3 行人检测研究 ·65·