第13卷第1期 智能系统学报 Vol.13 No.I 2018年2月 CAAI Transactions on Intelligent Systems Feb.2018 D0:10.11992/tis.201707018 网络出版地址:http:/kns.cnki.net/kcms/detail/23.1538.TP.20180116.1749.002.html 一种多层特征融合的人脸检测方法 王成济2,罗志明2,钟准2,李绍滋2 (1.厦门大学智能科学与技术系,福建厦门361005;2.厦门大学福建省类脑计算技术及应用重,点实验室,福建厦门 361005) 摘要:由于姿态、光照、尺度等原因,卷积神经网络需要学习出具有强判别力的特征才能应对复杂场景下的人脸检 测问题。受卷积神经网络中特定特征层感受野大小限制,单独一层的特征无法应对多姿态多尺度的人脸,为此提出 了串联不同大小感受野的多层特征融合方法用于检测多元化的人脸:同时,通过引入加权降低得分的方法,改进了目 前常用的非极大值抑制算法,用于处理由于遮挡造成的相邻人脸的漏检问题。在FDDB和WiderFace两个数据集上 的实验结果显示,文中提出的多层特征融合方法能显著提升检测结果,改进后的非极大值抑制算法能够提升相邻人 脸之间的检测准确率。 关键词:人脸检测;多姿态;多尺度;遮挡:复杂场景;卷积神经网络:特征融合;非极大值抑制 中图分类号:TP391.41文献标志码:A文章编号:1673-4785(2018)01-0138-09 中文引用格式:王成济,罗志明,钟准,等.一种多层特征融合的人脸检测方法小.智能系统学报,2018,13(1):138-146. 英文引用格式:WANG Chengji,.LUO Zhiming,ZHONG Zhun,ctal.Face detection method fusing multi-layer features.CAAl transactions on intelligent systems,2018,13(1):138-146. Face detection method fusing multi-layer features WANG Chengji,LUO Zhiming 2,ZHONG Zhun'2,LI Shaozi (1.Intelligent Science&Technology Department,Xiamen University,Xiamen 361005,China;2.Fujian Key Laboratory of Brain-in- spired Computing Technique and Applications,Xiamen University,Xiamen 361005,China) Abstract:To address the issues of pose,lighting variation,and scales,convolutional neural networks(CNNs)need to learn features with strong discrimination handle the face detection problem in complex scenes.Owing to the size limita- tions of the specific feature layer's receptive field in convolutional neural networks,the features computed from a single layer of the CNNs are incapable of dealing with faces in multi poses and multi scales.Therefore,a multi-layer feature fusion method that is realized by fusing the different sizes of receptive fields is proposed to detect diversified faces. Moreover,via introducing the method of weighted score decrease,the present usual non-maximum suppression al- gorithm was improved to deal with the detection omission of neighboring faces caused by shielding.The experiment res- ults with the FDDB and WiderFace datasets demonstrated that the fusion method proposed in this study can signific- antly boost detection performance,while the improved non-maximum suppression algorithm can increase the detection accuracy between neighboring faces. Keywords:face detection;multi pose;multi scale;occlude;complex scenes;convolutional neural network;feature fu- sion;non-maximum suppression 人脸识别技术作为智能视频分析的一个关键环着广泛的应用。人脸检测是人脸识别的基础关键环 节,在视频监控、网上追逃、银行身份验证等方面有 节之一,在智能相机、人机交互等领域也有着广泛 收稿日期:2017-07-10.网络出版日期:2018-01-18. 的应用。人脸检测是在输入图像中判断是否存在人 基金项目:国家自然科学基金项目(61572409,61402386,81230087, 脸,同时确定人脸的具体大小、位置和姿态的过 61571188). 通信作者:李绍滋.E-mail:szig@xmu.edu.cn. 程。作为早期计算机视觉的应用之一,人脸检测的
DOI: 10.11992/tis.201707018 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20180116.1749.002.html 一种多层特征融合的人脸检测方法 王成济1,2,罗志明1,2,钟准1,2,李绍滋1,2 (1. 厦门大学 智能科学与技术系,福建 厦门 361005; 2. 厦门大学 福建省类脑计算技术及应用重点实验室,福建 厦门 361005) 摘 要:由于姿态、光照、尺度等原因,卷积神经网络需要学习出具有强判别力的特征才能应对复杂场景下的人脸检 测问题。受卷积神经网络中特定特征层感受野大小限制,单独一层的特征无法应对多姿态多尺度的人脸,为此提出 了串联不同大小感受野的多层特征融合方法用于检测多元化的人脸;同时,通过引入加权降低得分的方法,改进了目 前常用的非极大值抑制算法,用于处理由于遮挡造成的相邻人脸的漏检问题。在 FDDB 和 WiderFace 两个数据集上 的实验结果显示,文中提出的多层特征融合方法能显著提升检测结果,改进后的非极大值抑制算法能够提升相邻人 脸之间的检测准确率。 关键词:人脸检测;多姿态;多尺度;遮挡;复杂场景;卷积神经网络;特征融合;非极大值抑制 中图分类号:TP391.41 文献标志码:A 文章编号:1673−4785(2018)01−0138−09 中文引用格式:王成济, 罗志明, 钟准, 等. 一种多层特征融合的人脸检测方法[J]. 智能系统学报, 2018, 13(1): 138–146. 英文引用格式:WANG Chengji, LUO Zhiming, ZHONG Zhun, et al. Face detection method fusing multi-layer features[J]. CAAI transactions on intelligent systems, 2018, 13(1): 138–146. Face detection method fusing multi-layer features WANG Chengji1,2 ,LUO Zhiming1,2 ,ZHONG Zhun1,2 ,LI Shaozi1,2 (1. Intelligent Science & Technology Department, Xiamen University, Xiamen 361005, China; 2. Fujian Key Laboratory of Brain-inspired Computing Technique and Applications, Xiamen University, Xiamen 361005, China) Abstract: To address the issues of pose, lighting variation, and scales, convolutional neural networks (CNNs) need to learn features with strong discrimination handle the face detection problem in complex scenes. Owing to the size limitations of the specific feature layer’s receptive field in convolutional neural networks, the features computed from a single layer of the CNNs are incapable of dealing with faces in multi poses and multi scales. Therefore, a multi-layer feature fusion method that is realized by fusing the different sizes of receptive fields is proposed to detect diversified faces. Moreover, via introducing the method of weighted score decrease, the present usual non-maximum suppression algorithm was improved to deal with the detection omission of neighboring faces caused by shielding. The experiment results with the FDDB and WiderFace datasets demonstrated that the fusion method proposed in this study can significantly boost detection performance, while the improved non-maximum suppression algorithm can increase the detection accuracy between neighboring faces. Keywords: face detection; multi pose; multi scale; occlude; complex scenes; convolutional neural network; feature fusion; non-maximum suppression 人脸识别技术作为智能视频分析的一个关键环 节,在视频监控、网上追逃、银行身份验证等方面有 着广泛的应用。人脸检测是人脸识别的基础关键环 节之一,在智能相机、人机交互等领域也有着广泛 的应用。人脸检测是在输入图像中判断是否存在人 脸,同时确定人脸的具体大小、位置和姿态的过 程。作为早期计算机视觉的应用之一,人脸检测的 收稿日期:2017−07−10. 网络出版日期:2018−01−18. 基金项目:国家自然科学基金项目 (61572409, 61402386, 81230087, 61571188). 通信作者:李绍滋. E-mail:szlig@xmu.edu.cn. 第 13 卷第 1 期 智 能 系 统 学 报 Vol.13 No.1 2018 年 2 月 CAAI Transactions on Intelligent Systems Feb. 2018
第1期 王成济,等:一种多层特征融合的人脸检测方法 ·139· 相关研究可以追溯到1970年山。由于真实场景中 野过大的问题上,本文重新探索了不同卷积层在人 人脸的复杂性和背景的多样性,人脸检测技术在复 脸检测任务中的重要性,同比较不同大小感受野的 杂场景下还存在着许多挑战。 特征组合方法对准确率的影响,发现结合pool4层 近年来深度卷积神经网络(CNN)使图像识别 的特征和pool5层的特征能同时处理大人脸和小 目标检测等计算机视觉任务取得长足进步。目 人脸。 标检测问题可以看作两个子问题的组合:目标定位 问题和目标分类问题。目标定位问题主要确定物体 1相关工作 在图像中的具体位置,目标分类问题将确定目标相 人脸检测大致可以分为3个部分:候选框提 应的类别。受ren等提出的区域候选框提取网络 取、图像分类、边框坐标回归。传统方法采用滑动 (egion proposal network,RPN)的启发,Huang等 窗口提取候选框,然后使用Har例、SIFT、HOG 和Yu等认为用于解决图像分割问题的框架同样 等手工提取的特征结合SVM2、boosting!9,1]等机器 适用于目标检测问题,它们对于图片中的每一个像 学习算法对候选框进行分类。这种穷举的策略虽然 素点都判断该像素是否属于人脸区域以及当属于人 包含了目标所有可能出现的位置,但是缺点也是明 脸区域时相对于人脸区域边界坐标的偏移量(当前 显的:1)基于滑动窗口的区域选择策略没有针对 像素点与人脸边界在空间坐标上的相对偏移)。 性,时间复杂度高,窗口冗余;2)手工设计的特征对 UnitBox将用于图像分类的VGG16网络改造为 于多样性的变化并没有很好的鲁棒性。 全卷积神经网络(FCN)⑧,在pool4特征层的基础上 为了解决滑动窗口计算复杂度高的问题,出现 预测像素点的分类得分,在pool5特征层的基础上 了利用图像中的纹理、边缘、颜色等信息的基于区 预测人脸区域内像素点坐标的偏移量。UnitBox 域候选框的解决方案4,这种方案可以保证在选 首次使用重叠率评价人脸区域内像素点坐标偏移量 取较少窗口的情况下保持较高的召回率。这大大降 回归的好坏,重叠率损失函数将人脸区域内每个像 低了后续操作的时间复杂度,并且获取的候选窗口 素点的上下左右4个偏移量当作一个整体,利用了 要比滑动窗口的质量更高。Ross B.Girshick等提 这4个偏移量之间的关联性。Yu认为用于预测人 出的RCNN框架,使得目标检测的准确率取得极大 脸区域内像素点坐标偏移量的特征需要比预测人脸 提升,并开启了基于深度学习目标检测的热潮。Fast 分类的特征有更大的感受野,所以他们仅利用了 RCNN方法利用特征图提取候选框极大地降低了 pool5层特征预测坐标偏移量,在预测每一个像素 基于深度学习目标检测方法的时间复杂度。Faster 点的分类得分时UnitBox使用椭圆形的人脸区域的 R-CNN方法更进一步,首次提出了自动提取图片 标注,在测试时在分类得到的得分图上做椭圆检 中区域候选框的RPN网络,并将传统的提取候选框 测,然后提取检测出的椭圆的中心点对应的矩形框 的操作集成到特征学习网络中,使得目标检测问题 作为最终检测结果。在实验中我们发现在使用椭圆 可以达到end-to-end。CascadeCNN使用3个独立 标注训练得到的得分图像无法拟合出标准的椭圆, 的卷积神经网络分级过滤候选框。DDFD首次将 尤其当多个人脸区域有重叠时,无法分开多个人脸 全卷积神经网络成功地应用于人脸检测问题中。 区域。实验中还发现,使用pool5层的特征虽然有 很好的感受野但在处理小人脸时会因为感受野过大 2014年J.Long等提出全卷积神经网络(fully 造成小人脸区域内坐标偏移量回归不准确,影响最 convolution network,FCN)并成功地应用在图像分 终检测结果。 割任务中,直到现在FCN依然是图像分割的主流框 基于以上工作,本文使用矩形的人脸区域标注, 架。全卷积神经网络(FCN)与卷积神经网络(con- 摈弃了UnitBox后处理中的椭圆检测的部分,转而 volution neural network,CNN)的主要不同是FCN 使用非极大值抑制算法过滤大量重复的矩形框:当 将CNN中的全连接层通过卷积层实现,并使用反 两个人脸区域重叠率超过非极大值抑制算法的阈值 卷积操作得到与输入同样大小的输出,因此网络的 时,以前的非极大值抑制算法只能够保留一个人脸 输出由原始CNN的关于整张图像上的分类结果变 会造成漏检,为了避免这个问题,本文根据矩形框 成了FCN中关于整张图像的像素级的分类,也就是 的重叠率对预侧矩形框的得分加权降低非最大矩形 输入图像的每一个像素点都对应有一个分类的输出 框的置信度,然后使用置信度阈值来过滤矩形框, 结果。FCN是直接对像素点进行操作,在经过一系 这样当两个人脸检测出的矩形框重叠率大于制定阈 列的卷积和反卷积的操作后得到与原始输入图像同 值时也不会直接过滤掉,避免漏检。在特征的感受 样大小的中间结果,最后经过softmax操作输出类
相关研究可以追溯到 1970 年 [1]。由于真实场景中 人脸的复杂性和背景的多样性,人脸检测技术在复 杂场景下还存在着许多挑战。 近年来深度卷积神经网络 (CNN) 使图像识别、 目标检测等计算机视觉任务取得长足进步[2-4]。目 标检测问题可以看作两个子问题的组合:目标定位 问题和目标分类问题。目标定位问题主要确定物体 在图像中的具体位置,目标分类问题将确定目标相 应的类别。受 ren 等 [4]提出的区域候选框提取网络 (region proposal network, RPN) 的启发,Huang 等 [5] 和 Yu 等 [6]认为用于解决图像分割问题的框架同样 适用于目标检测问题,它们对于图片中的每一个像 素点都判断该像素是否属于人脸区域以及当属于人 脸区域时相对于人脸区域边界坐标的偏移量 (当前 像素点与人脸边界在空间坐标上的相对偏移)。 UnitBox[6]将用于图像分类的 VGG16[7]网络改造为 全卷积神经网络 (FCN)[8] ,在 pool4 特征层的基础上 预测像素点的分类得分,在 pool5 特征层的基础上 预测人脸区域内像素点坐标的偏移量。UnitBox[6] 首次使用重叠率评价人脸区域内像素点坐标偏移量 回归的好坏,重叠率损失函数将人脸区域内每个像 素点的上下左右 4 个偏移量当作一个整体,利用了 这 4 个偏移量之间的关联性。Yu[6]认为用于预测人 脸区域内像素点坐标偏移量的特征需要比预测人脸 分类的特征有更大的感受野,所以他们仅利用了 pool5 层特征预测坐标偏移量,在预测每一个像素 点的分类得分时 UnitBox 使用椭圆形的人脸区域的 标注,在测试时在分类得到的得分图上做椭圆检 测,然后提取检测出的椭圆的中心点对应的矩形框 作为最终检测结果。在实验中我们发现在使用椭圆 标注训练得到的得分图像无法拟合出标准的椭圆, 尤其当多个人脸区域有重叠时,无法分开多个人脸 区域。实验中还发现,使用 pool5 层的特征虽然有 很好的感受野但在处理小人脸时会因为感受野过大 造成小人脸区域内坐标偏移量回归不准确,影响最 终检测结果。 基于以上工作,本文使用矩形的人脸区域标注, 摈弃了 UnitBox[6]后处理中的椭圆检测的部分, 转而 使用非极大值抑制算法过滤大量重复的矩形框;当 两个人脸区域重叠率超过非极大值抑制算法的阈值 时,以前的非极大值抑制算法只能够保留一个人脸 会造成漏检,为了避免这个问题,本文根据矩形框 的重叠率对预测矩形框的得分加权降低非最大矩形 框的置信度,然后使用置信度阈值来过滤矩形框, 这样当两个人脸检测出的矩形框重叠率大于制定阈 值时也不会直接过滤掉, 避免漏检。在特征的感受 野过大的问题上,本文重新探索了不同卷积层在人 脸检测任务中的重要性,同比较不同大小感受野的 特征组合方法对准确率的影响, 发现结合 pool4 层 的特征和 pool5 层的特征能同时处理大人脸和小 人脸。 1 相关工作 人脸检测大致可以分为 3 个部分:候选框提 取、图像分类、边框坐标回归。传统方法采用滑动 窗口提取候选框,然后使用 Harr_[9] 、SIFT[10] 、HOG[11] 等手工提取的特征结合 SVM[12] 、boosting[9, 13]等机器 学习算法对候选框进行分类。这种穷举的策略虽然 包含了目标所有可能出现的位置,但是缺点也是明 显的:1) 基于滑动窗口的区域选择策略没有针对 性,时间复杂度高,窗口冗余;2) 手工设计的特征对 于多样性的变化并没有很好的鲁棒性。 为了解决滑动窗口计算复杂度高的问题,出现 了利用图像中的纹理、边缘、颜色等信息的基于区 域候选框的解决方案[14-15] ,这种方案可以保证在选 取较少窗口的情况下保持较高的召回率。这大大降 低了后续操作的时间复杂度,并且获取的候选窗口 要比滑动窗口的质量更高。Ross B. Girshick 等 [2]提 出的 RCNN 框架,使得目标检测的准确率取得极大 提升,并开启了基于深度学习目标检测的热潮。Fast RCNN[3]方法利用特征图提取候选框极大地降低了 基于深度学习目标检测方法的时间复杂度。Faster R-CNN[4]方法更进一步,首次提出了自动提取图片 中区域候选框的 RPN 网络,并将传统的提取候选框 的操作集成到特征学习网络中,使得目标检测问题 可以达到 end-to-end。CascadeCNN[16]使用 3 个独立 的卷积神经网络分级过滤候选框。DDFD[17]首次将 全卷积神经网络[8]成功地应用于人脸检测问题中。 2014 年 J. Long 等 [8]提出全卷积神经网络 (fully convolution network, FCN) 并成功地应用在图像分 割任务中,直到现在 FCN 依然是图像分割的主流框 架。全卷积神经网络 (FCN) 与卷积神经网络 (convolution neural network, CNN) 的主要不同是 FCN 将 CNN 中的全连接层通过卷积层实现,并使用反 卷积操作得到与输入同样大小的输出,因此网络的 输出由原始 CNN 的关于整张图像上的分类结果变 成了 FCN 中关于整张图像的像素级的分类,也就是 输入图像的每一个像素点都对应有一个分类的输出 结果。FCN 是直接对像素点进行操作,在经过一系 列的卷积和反卷积的操作后得到与原始输入图像同 样大小的中间结果,最后经过 softmax 操作输出类 第 1 期 王成济,等:一种多层特征融合的人脸检测方法 ·139·
·140· 智能系统学报 第13卷 别概率。FCN的主要网络是在现有的AlexNet!s 是像素级分类得分的概率图,判断该像素点是否属 VGGNet7和ResNet!例等用于图像分类的CNN网络 于某个人脸区域;另一个是1个4通道的像素点坐 模型上增加反卷积操作来实现的。DenseBox在文 标偏移图,4通道的像素点坐标偏移图中的4个通 献[15]基础上将人脸区域坐标回归问题视为在特征 道分别对应每一个像素值与离它最近的人脸区域的 图的每一个像素位置预测这个像素坐标相对于人脸 上下左右4个边框坐标的偏移量。最后使用交叉熵 区域边界坐标的偏移量的问题,然后使用类似图像 损失函数和重叠率损失函数指导网络训练,我们使 分割的方法来处理,并采用了2损失函数作为坐标 用联合训练。标签形式见2.1节,网络的具体细节 回归的损失函数,UnitBox认为同一个像素的4个 见2.2节。每一个像素都需要计算交叉熵损失,但 偏移量之间是相互关联的,为了体现这种关联性提 仅仅对包含在标注的人脸区域内的像素点计算重叠 出了使用重叠率损失函数,通过不断优化预测人脸 率损失。在测试阶段输入图片经过训练好的FCN 矩形框与真实人脸矩形框的重叠率,使得最终预测 模型输出每一个像素点的分类得分和人脸区域内像 的矩形框与真实矩形框的重叠率不断增加。 素点坐标偏移量,对每一个得分大于阈值的像素点 2算法框架 我们从对应四通道坐标偏移图取出该像素点相对于 离它最近的人脸区域边界坐标的偏移量,假设像素 本节主要介绍整体算法流程,如图1所示。在 点p(x,y)的预测得分s大于阈值且预测的坐标偏移 训练阶段有3个输入:RGB的训练图片、单通道的 为(d,dy,d,dy),则像素点p,y)的预测矩形框坐 区域像素分类标签和四通道的人脸区域内像素点坐 标为(x-dx,y-dy,+d,y+dy),使用NMS算 标偏移标签。经过FCN网络后有两个输出:第一个 法过滤重复检测的矩形框,得到最终检测结果。 训练阶段 测试阶段 原始输人图像 测试图像 FCN模型 FCN模型 像素点分类 人脸区域像 输出 得分标签 素点坐标偏 移标签 像素点分类得 分标签 损失函数计算 大于阙 输出对应像素 人脸区域像 值 坐标 素点坐标偏 移标签 背景(忽略) 输出检测结果 图1算法流程 Fig.1 Algorithm procedure 2.1训练标签的制作 每一个像素点的人脸置信度得分。假设像素点 训练标签如图2所示。 p(,)包含在某个人脸区域中,假设这个人脸区域 d 左上角坐标为p,(x,y,右下角坐标为P(xya),则像 素点p(x,)的标签向量形式:={,dr=-x, dy=y-yde=x-x,d山=y4-y%l。 2.2多级特征串联 网络模型结构如图3所示,使用的是去掉了全 (a)原始图像 (b)类别分类标签(©)坐标偏移标签 连接层和softmax层的VGG16网络作为模型共享 图2训练标签 的特征提取网络。在共享的特征提取网络的基础 Fig.2 Ground truth 上,在pool4特征层后添加了两个独立的卷积层sC 对于每一张训练的图像,将图像上每一个人脸 conv4和bbx conv44,每一个卷积层包括32个3×3 标注的矩形区域,以1填充,其他区域填充0,作为 的卷积核,并保持特征图分辨率大小不变,在pool5
别概率。FCN 的主要网络是在现有的 AlexNet[18] 、 VGGNet[7]和 ResNet[19]等用于图像分类的 CNN 网络 模型上增加反卷积操作来实现的。DenseBox[5]在文 献[15]基础上将人脸区域坐标回归问题视为在特征 图的每一个像素位置预测这个像素坐标相对于人脸 区域边界坐标的偏移量的问题,然后使用类似图像 分割的方法来处理,并采用了 l2 损失函数作为坐标 回归的损失函数,UnitBox[6]认为同一个像素的 4 个 偏移量之间是相互关联的,为了体现这种关联性提 出了使用重叠率损失函数,通过不断优化预测人脸 矩形框与真实人脸矩形框的重叠率,使得最终预测 的矩形框与真实矩形框的重叠率不断增加。 2 算法框架 本节主要介绍整体算法流程,如图 1 所示。在 训练阶段有 3 个输入:RGB 的训练图片、单通道的 区域像素分类标签和四通道的人脸区域内像素点坐 标偏移标签。经过 FCN 网络后有两个输出:第一个 p(xi , yi) si (dx t i ,dy t i ,dx b i ,dy b i ) p(xi , yi) (xi −dx t i , yi −dy t i , xi +dx b i , yi +dy b i ) 是像素级分类得分的概率图,判断该像素点是否属 于某个人脸区域;另一个是 1 个 4 通道的像素点坐 标偏移图,4 通道的像素点坐标偏移图中的 4 个通 道分别对应每一个像素值与离它最近的人脸区域的 上下左右 4 个边框坐标的偏移量。最后使用交叉熵 损失函数和重叠率损失函数指导网络训练,我们使 用联合训练。标签形式见 2.1 节,网络的具体细节 见 2.2 节。每一个像素都需要计算交叉熵损失,但 仅仅对包含在标注的人脸区域内的像素点计算重叠 率损失。在测试阶段输入图片经过训练好的 FCN 模型输出每一个像素点的分类得分和人脸区域内像 素点坐标偏移量,对每一个得分大于阈值的像素点 我们从对应四通道坐标偏移图取出该像素点相对于 离它最近的人脸区域边界坐标的偏移量,假设像素 点 的预测得分 大于阈值且预测的坐标偏移 为 ,则像素点 的预测矩形框坐 标为 ,使用 N M S 算 法过滤重复检测的矩形框,得到最终检测结果。 2.1 训练标签的制作 训练标签如图 2 所示。 对于每一张训练的图像,将图像上每一个人脸 标注的矩形区域,以 1 填充,其他区域填充 0,作为 sˆ p(xi , yi) pt(xt , yt) pb(xb, yb) p(xi , yi) tˆ i = { ⌢ si , ⌢ dx t = xi − xt , ⌢ dy t = yi −yt , ⌢ dx b = xi − xb , ⌢ dy b = yi −yb} 每一个像素点的人脸置信度得分 。假设像素点 包含在某个人脸区域中,假设这个人脸区域 左上角坐标为 ,右下角坐标为 ,则像 素 点 的标签向量形式: 。 2.2 多级特征串联 网络模型结构如图 3 所示,使用的是去掉了全 连接层和 softmax 层的 VGG16 网络[7]作为模型共享 的特征提取网络。在共享的特征提取网络的基础 上,在 pool4 特征层后添加了两个独立的卷积层 sc_ conv4 和 bbx_conv4,每一个卷积层包括 32 个 3×3 的卷积核,并保持特征图分辨率大小不变,在 pool5 䃙㏯䭢⃡ FCN Ὅಷ FCN Ὅಷ ܦ䒿 䒿ܦᄥᏀ㉌ ౼ᴳ gal≶ᷬܦ䒿 ᢋܩ䃍ッ ㉌◥ܲㆧᓃ ܲᴳオ ㉌◥ܲㆧ ᓃܲᴳオ ഋࡦϦ㙤 ㉌◥౼ᴳջ ⼧ᴳオ ഋࡦϦ㙤 ㉌◥౼ᴳջ ⼧ᴳオ పڑ䒿࣋ ≷䄁䭢⃡ 䄁ప≷ ๓κ䬴 ը Y N 㗸ᮛ喋ᔩ⪑喌 图 1 算法流程 Fig. 1 Algorithm procedure (a) ࣋ప) b) ㆧݗܲㆧᴳオ (c) ౼ᴳջ⼧ᴳオ S ^ dx t ^ dy t ^ dx b ^ dy b ^ 图 2 训练标签 Fig. 2 Ground truth ·140· 智 能 系 统 学 报 第 13 卷
第1期 王成济,等:一种多层特征融合的人脸检测方法 ·141· 特征层后同样添加了含有32个3×3的卷积核的卷 层输出的特征首先被放大16倍,输入到含有32个 积层bbx conv5。因为pool4特征层的分辨率是输 3×3卷积核的卷积层和1个卷积核大小为1×1的卷 入的1/16,为了得到与输入同样大小的输出,对sc 积层,最后输入到sigmoid激活函数得到每一个像 conv4和bbx_conv4分别做了步长为16的反卷积 素点的类别分类得分。为了得到预测的4维坐标偏 操作,将sc_conv4和bbx conv4两个特征层的分辨 移图,将反卷积后的bbx conva4和bbx_conv5两个 率放大16倍并保持特征维度不变,对bbx conv5使 特征层串联后经过连续两层含有32个3×3卷积核 用反卷积放大32倍使分辨率与输入相同。sc conv4 的卷积层得到4维人脸区域内的坐标偏移图。 1W16 w/16 /1 16 3(RGB)Conv1-conv3 conv4 conv5 w/16 /1 h/16 心卷积操作日反卷积操作 连接操作conca 图3模型结构 Fig.3 Model structure 在卷积神经网络中pooling层主要起降低分辨 面学习到的错误结果放大降低网络的性能,而使用 率的作用,越往后特征层的分辨率会越小,也越能 更多的卷积操作虽然会增加模型的表达能力但也会 够提取出抽象的语义信息,但越抽象的特征细节信 增加模型的时间复杂度。 息丢失越多,在处理像素级分类任务时仅使用高层 3损失函数设计 抽象的特征会导致边缘部分分类不准确。但是若完 全依靠前面层的特征,虽然能够提高对人脸区域边 人脸检测问题可以看作两个子问题的组合:人 缘的像素点的分类能力,但是由于浅层特征的抽象 脸区域定位问题和图像分类问题。图像分类是对整 能力不够使得整体上分类结果不准确。文献「8, 张输入图像分一个类别,而图像分割是标注图片每 20]的研究表明通过融合不同的特征层能够显著提 一个像素到对应类别的任务,本文将人脸检测问题 升网络的效果,FCN中的实验也证明融合不同特 中的图像分类问题看成人脸区域分割问题。当将图 征层特征的有效性,主要融合方式有FCN-32、FCN- 像中的每一个像素都分配一个对应的候选框,那么 16、FCN-8。UnitBox认为人脸区域边框回归需要 人脸检测问题可以分解为图像分割问题和候选框回 抽象的语义信息,所以仅使用了pool5层的特征用 归问题两个子问题,分别对应候选框得分和候选框 于处理边框回归任务,但实际实验中表明融合pool5 回归。每一个像素的分类得分也是这个像素对应预 和pool4两个特征层的特征能显著提升结果。 测矩形框的得分。本文使用多任务联合训练,主要 本文的模型共享特征层后对于不同的任务添加 包括人脸区域分割任务和人脸区域内像素点坐标偏 了多个3×3的独立卷积操作,像素级分类得分的标 移回归任务。针对分类任务我们使用的是交叉熵损 签是[0,1],而人脸区域内坐标偏移量的标签是[0, 失函数L,人脸区域的坐标偏移量回归使用重叠率 +w](这里的代表所有标注人脸区域的宽或高的最 损失函数Lu,为了使两个损失函数在训练的过程中 大值),pool5特征层的分辨率是输入的1/32,pool4 的梯度保持在同一个量级上,我们引入了一个权值 是输入的1/16,使用与输出同样数量的卷积操作会 入,使得最终的损失函数L为 丢失大量信息,不仅不会帮助模型训练反而会将前 L=λLee+Liou (1)
特征层后同样添加了含有 32 个 3×3 的卷积核的卷 积层 bbx_conv5。因为 pool4 特征层的分辨率是输 入的 1/16,为了得到与输入同样大小的输出,对 sc_ conv4 和 bbx_conv4 分别做了步长为 16 的反卷积 操作,将 sc_conv4 和 bbx_conv4两个特征层的分辨 率放大 16 倍并保持特征维度不变,对 bbx_conv5 使 用反卷积放大 32 倍使分辨率与输入相同。sc_conv4 层输出的特征首先被放大 16 倍,输入到含有 32 个 3×3 卷积核的卷积层和 1 个卷积核大小为 1×1 的卷 积层,最后输入到 sigmoid 激活函数得到每一个像 素点的类别分类得分。为了得到预测的 4 维坐标偏 移图,将反卷积后的 bbx_conv4 和 bbx_conv5 两个 特征层串联后经过连续两层含有 32 个 3×3 卷积核 的卷积层得到 4 维人脸区域内的坐标偏移图。 在卷积神经网络中 pooling 层主要起降低分辨 率的作用,越往后特征层的分辨率会越小,也越能 够提取出抽象的语义信息,但越抽象的特征细节信 息丢失越多,在处理像素级分类任务时仅使用高层 抽象的特征会导致边缘部分分类不准确。但是若完 全依靠前面层的特征,虽然能够提高对人脸区域边 缘的像素点的分类能力,但是由于浅层特征的抽象 能力不够使得整体上分类结果不准确。文献[8, 20]的研究表明通过融合不同的特征层能够显著提 升网络的效果,FCN[8]中的实验也证明融合不同特 征层特征的有效性,主要融合方式有 FCN-32、FCN- 16、FCN-8。UnitBox[6]认为人脸区域边框回归需要 抽象的语义信息,所以仅使用了 pool5 层的特征用 于处理边框回归任务,但实际实验中表明融合 pool5 和 pool4 两个特征层的特征能显著提升结果。 本文的模型共享特征层后对于不同的任务添加 了多个 3×3 的独立卷积操作,像素级分类得分的标 签是[0, 1],而人脸区域内坐标偏移量的标签是[0, +w](这里的 w 代表所有标注人脸区域的宽或高的最 大值),pool5 特征层的分辨率是输入的 1/32,pool4 是输入的 1/16,使用与输出同样数量的卷积操作会 丢失大量信息,不仅不会帮助模型训练反而会将前 面学习到的错误结果放大降低网络的性能,而使用 更多的卷积操作虽然会增加模型的表达能力但也会 增加模型的时间复杂度。 3 损失函数设计 LceLiou λ 人脸检测问题可以看作两个子问题的组合:人 脸区域定位问题和图像分类问题。图像分类是对整 张输入图像分一个类别,而图像分割是标注图片每 一个像素到对应类别的任务,本文将人脸检测问题 中的图像分类问题看成人脸区域分割问题。当将图 像中的每一个像素都分配一个对应的候选框,那么 人脸检测问题可以分解为图像分割问题和候选框回 归问题两个子问题,分别对应候选框得分和候选框 回归。每一个像素的分类得分也是这个像素对应预 测矩形框的得分。本文使用多任务联合训练,主要 包括人脸区域分割任务和人脸区域内像素点坐标偏 移回归任务。针对分类任务我们使用的是交叉熵损 失函数 ,人脸区域的坐标偏移量回归使用重叠率 损失函数 ,为了使两个损失函数在训练的过程中 的梯度保持在同一个量级上,我们引入了一个权值 ,使得最终的损失函数 L 为 L = λLce + Liou (1) DPODBU᧹҈䔊ᣑ⼛᧹҈ ࢣࣹ ҈᧹厶ࢣ h 3(RGB) Conv1-conv3 conv4 conv5 w w/16 w/16 w/16 w/16 w/16 h/16 h/16 h/16 h/32 h/32 w/32 w/32 h/16 h/16 h h h h h h h h h w w w w w w w w w 图 3 模型结构 Fig. 3 Model structure 第 1 期 王成济,等:一种多层特征融合的人脸检测方法 ·141·
·142· 智能系统学报 第13卷 3.1交叉熵损失函数 同一个目标检测出多个重叠率较高的框,需要使用 像素级分类问题是要得到每一个像素输入属于 NMS来选取重叠区域里分数最高的矩形框(人脸的 每个类别的概率,人脸检测问题是二分类问题,即 概率最大),非极大值抑制方法采用的是排序一遍历一 人脸与非人脸。本文使用sigmoid激活函数实现从 消除的过程,在这个过程中检测出来的矩形框的得 特征空间到[0,1]概率空间的映射,得到每一个像素 分不变,在一定程度上会影响算法性能。N.Bodla 分类得分的概率,然后使用交叉嫡损失函数指导网 等发现在排序阶段对重叠率高于阈值且得分较低 络训练。sigmoid激活函数为 的预测框的得分进行加权,再过滤掉得分低的矩形 1 f(x)=1+exp-(b) (2) 框能有效解决非极大值抑制算法导致的漏检问题。 受文献[21]的启发,我们在非极大值抑制的过 式中的wx+b,表示在激活函数前的卷积核大小为 程中使用两次遍历和消除过程,在第一次遍历过程 1×1的卷积层。假设像素点p(x,y)被预测为人脸的 中,当两个框的重叠率大于α时,将得分较低的窗口 概率为P,则非人脸的概率为1-P,若该像素点在人 脸区域内该像素点的标签g:=1,否则g:=0。具体的 的得分乘以一个权值,然后根据加权后的得分过滤 交叉嫡损失函数为 掉低于的窗口,完成后再次使用没有加权的非极 L=->g.In(Pr)+(1-g)In(1-pp) 大值抑制方法得到最终检测结果。在实验过程中, (3) 测试了两种不同的加权方法:线性加权和高斯加 3.2重叠率损失函数 权。两种加权方法的具体计算:当两个窗口交并比 之前的候选框坐标回归算法中常用的损失函数 小于a,则得分低的窗口的得分要乘以权值weight。 是L2,他们认为候选框的4个坐标是4个独立变 线性加权为 量可以分开处理,实际上候选框的4个坐标之间是 weight,=1-IoU, (7 有相互关联的,在训练过程中能够相互影响,提升最 高斯加权为 终的检测结果,所以UnitBox引入了重叠率损失函 IoU,2 weight;exp(- 数,使候选框坐标间的关联性体现在损失函数中指 (8) sigma 导网络训练。本文在训练候选框坐标偏移时同样也 是使用了UnitBox中提出的IOU损失函数。如图4 5实验与结果分析 所示,假设像素点x,y)人脸区域边框和预测矩形 为了验证方法的有效性,我们使用Wider Face 框分别是g:=(c,y,w,h,),g=(,m,h),则g与g的 数据集22的训练集训练,并在FDDB数据集2)和 重叠率1oU为 Wider Face数据集P的验证集上评测结果,并与当 IoU,=8ing (4) 前领先的算法进行比较,此外本文还比较了使用不 8:U8i 同加权方式的非极大值抑制方法的性能。 12损失函数为 5.1实验数据 La=-∑lg:-8 (5) FDDB人脸评测2平台的测试集有2845张图 片,共有5171张标注人脸,范围包括不同姿态、不 重叠率损失函数为 同分辨率、不同遮挡情况的图像。评测指标是检测 L=-∑In(U (6) 出的矩形区域和标注区域的重叠率,重叠率大于等 于0.5表示检测正确。 Wider Face数据集2a是由香港中文大学公开发 ☐标签:g=(cnw,h) ☐预测:=风m, 布的人脸检测基准数据集,包含训练集、验证集和 测试集3部分,是现有FDDB数据集中标注的图像 数量的10倍。共包含3.2万张图像,39.3万张手工 标注的人脸,平均每张图像有12个标注的人脸。 图4重叠率 Wider Face数据集中的人脸姿态、大小、遮挡情况 Fig.4 Intersection-over-union 变化多样,数据集以小人脸为主且人脸区域的分辨 4基于加权得分的非极大值抑制方法 率偏低。整个Wider Face数据集中的图像分为 61个事件类别,根据标注人脸的大小,数据集中的 非极大值抑制方法(non-maximum suppression,. 人脸检测任务分为3个难度等级Easy、Medium、 NMS)是目标检测中常用的后处理方法,当算法对 Hard,所以有3条评测曲线
3.1 交叉熵损失函数 像素级分类问题是要得到每一个像素输入属于 每个类别的概率,人脸检测问题是二分类问题,即 人脸与非人脸。本文使用 sigmoid 激活函数实现从 特征空间到[0, 1]概率空间的映射,得到每一个像素 分类得分的概率,然后使用交叉熵损失函数指导网 络训练。sigmoid 激活函数为 fi(x) = 1 1+exp−(wj x+bj) (2) wjx+bj p(xi , yi) pfi 1−pfi gi = 1 gi = 0 式中的 表示在激活函数前的卷积核大小为 1×1 的卷积层。假设像素点 被预测为人脸的 概率为 ,则非人脸的概率为 ,若该像素点在人 脸区域内该像素点的标签 ,否则 。具体的 交叉熵损失函数为 Lce = − ∑ i gi ln(pfi )+(1−gi)ln(1− pfi ) (3) 3.2 重叠率损失函数 L2loss p(xi , yi) gi = (xi , yi ,wi ,hi) gei = (exi ,eyi ,wei ,hei) gi gei 之前的候选框坐标回归算法中常用的损失函数 是 ,他们认为候选框的 4 个坐标是 4 个独立变 量可以分开处理,实际上候选框的 4 个坐标之间是 有相互关联的,在训练过程中能够相互影响, 提升最 终的检测结果,所以 UnitBox[6]引入了重叠率损失函 数,使候选框坐标间的关联性体现在损失函数中指 导网络训练。本文在训练候选框坐标偏移时同样也 是使用了 UnitBox 中提出的 IOU 损失函数。如图 4 所示,假设像素点 人脸区域边框和预测矩形 框分别是 , ,则 与 的 重叠率 IoU 为 IoUi = gi ∩gei gi ∪gei (4) l2 损失函数为 L2loss = − ∑ i ∥gi −gei∥ 2 (5) 重叠率损失函数为 Liou = − ∑ i ln(IoUi) (6) 4 基于加权得分的非极大值抑制方法 非极大值抑制方法 (non-maximum suppression, NMS) 是目标检测中常用的后处理方法,当算法对 同一个目标检测出多个重叠率较高的框,需要使用 NMS 来选取重叠区域里分数最高的矩形框 (人脸的 概率最大),非极大值抑制方法采用的是排序—遍历— 消除的过程,在这个过程中检测出来的矩形框的得 分不变,在一定程度上会影响算法性能。N.Bodla 等 [21]发现在排序阶段对重叠率高于阈值且得分较低 的预测框的得分进行加权,再过滤掉得分低的矩形 框能有效解决非极大值抑制算法导致的漏检问题。 α φ α 受文献[21]的启发,我们在非极大值抑制的过 程中使用两次遍历和消除过程,在第一次遍历过程 中,当两个框的重叠率大于 时,将得分较低的窗口 的得分乘以一个权值,然后根据加权后的得分过滤 掉低于 的窗口,完成后再次使用没有加权的非极 大值抑制方法得到最终检测结果。在实验过程中, 测试了两种不同的加权方法:线性加权和高斯加 权。两种加权方法的具体计算:当两个窗口交并比 小于 ,则得分低的窗口的得分要乘以权值 weight。 线性加权为 weighti = 1−IoUi (7) 高斯加权为 weighti = exp(− IoUi 2 sigma ) (8) 5 实验与结果分析 为了验证方法的有效性,我们使用 Wider Face 数据集[22]的训练集训练,并在 FDDB 数据集[23]和 Wider Face 数据集[22]的验证集上评测结果,并与当 前领先的算法进行比较,此外本文还比较了使用不 同加权方式的非极大值抑制方法的性能。 5.1 实验数据 FDDB 人脸评测[23]平台的测试集有 2 845 张图 片,共有 5 171 张标注人脸,范围包括不同姿态、不 同分辨率、不同遮挡情况的图像。评测指标是检测 出的矩形区域和标注区域的重叠率,重叠率大于等 于 0.5 表示检测正确。 Wider Face 数据集[22]是由香港中文大学公开发 布的人脸检测基准数据集,包含训练集、验证集和 测试集 3 部分,是现有 FDDB 数据集中标注的图像 数量的 10 倍。共包含 3.2 万张图像,39.3 万张手工 标注的人脸,平均每张图像有 12 个标注的人脸。 Wider Face 数据集中的人脸姿态、大小、遮挡情况 变化多样,数据集以小人脸为主且人脸区域的分辨 率偏低。整个 Wider Face 数据集中的图像分为 61 个事件类别,根据标注人脸的大小,数据集中的 人脸检测任务分为 3 个难度等级 Easy、Medium、 Hard,所以有 3 条评测曲线。 x y w h y h x ~ w ~ ~ ᴳオ喝gi = (xit, yit, wi , hi ) 䶰≷喝gi = (xit, yit, wi , hi ) ~ ~ ~ ~ ~ ~ 图 4 重叠率 Fig. 4 Intersection-over-union ·142· 智 能 系 统 学 报 第 13 卷
第1期 王成济,等:一种多层特征融合的人脸检测方法 ·143· 5.2实验设置与结果分析 在Easy难度上本文算法比LDCF+o高0.5个百分 本文使用的训练数据来自Wider Face2的训练 点,在UnitBox的基础上提高了9个百分点,在 集,总共有12880张图像,统一将训练图像的宽和 Medium难度上取得了0.737的检测结果,在Hard 高用ImageNet!21上的图像均值填充为32的倍数, 难度上比UnitBox提升了9.8个百分点。图7展 测试时同样对图像填充为32的倍数。训练是以标 示了本文算法的部分检测结果。 注的人脸区域中心周围占整个人脸区域3/5的区域 1.0f 为正样本,该区域关于标注的人脸区域中心对称。 0.9 其他像素点设为负样本。由于原始的UnitBox论 0.8 0.7 文没有公布测试模型和源代码,在本文中我们复现 1 了UnitBox!代码作为比较对象。在使用多任务联 袋06 知0.5 -Multitask Cascade CNN-0.848 合训练,由于人脸区域分类的损失和人脸区域边框 --0us-0.795 0.4 ..LDCF+.0.790 回归的损失函数不在同一个数量级上,本文对分类 0.3 ---Faceness-WIDER-0.713 0与0 02 9b0.659 损失赋权O.O01。训练是在WiderFacei训练集上训 0.1 unitbox-refine-0.653 练,每次使用一张图像,使用Adam算法2在整个数 00.10.20.30.40.50.60.70.80.91.0 查全率 据集上迭代训练30轮,本文使用加权的非极大值抑 (a)Easy 制算法做后处理。 1.02立 图5中比较了本文的算法与原始UnitBox!算 0.9 法在FDDB数据集上的性能,同时对比了另外7个 0.8 经典的人脸检测算法:DDFDU)、CascadeCNNI6 0.7 ACF-multiscale2o、Pico2、HeadHunter2sl、Joint- 6 0.5 -Multitask Cascade CNN-0.825 --LDCF+-0.769 Cascade2、Viola-Jones,实验表明本文的多级特征 04…0us-0.737 0.3 ---Faceness-WIDER-0.634 串联能明显提升算法性能。本文的方法在共享的卷 unitbox-0.633 0.2 ----unitbox-refine-0.597 积层和串联的特征层后都添加了卷积层,同时本文 ...ACF-WIDER-0.541 0.1 单独对pool5层的特征添加同样的卷积层作为对比 00.10.20.30.40.50.60.70.80.91.0 查全率 实验(UnitBox-.refine)。从图5中可以看出,仅仅在 (b)Medium pool5层输出的特征后添加卷积操作的结果为0.859, 1.0 而在结合pool4和pool5层特征后再添加卷积操作 09 的结果为0.906,说明仅仅对单层特征进行多次卷积 0.8 和池化操作不能有效提升检测结果。 0.7 0.6 0.95 将0.5 -Multitask Cascade CNN-0.598 0.90 --LDCF+-0.522 0.85 .4 …0us-0.4 03 WIDER-0.345 0.80 Ours 02 ----unitbox-refine-0.289 Ξ0.75 …ACF-WIDER-0.273 nter 0.1 00.10.20.30.40.50.60.70.80.910 0.70 UnitBo DFpultiscale 查全率 0.65 UnitBox-refine (c)Hard 0.60 Viola-Jones 图6 ViderFace验证集上的准确率-召回率曲线 0.55 01002003004005006007008009001000 Fig.6 Percision-recall curve on Wider Face Val set 假阳数 表1比较了加权得分的非极大值抑制方法和不 图5FDDB数据集ROC曲线 加权的极大值抑制方法的后处理结果,这里高斯加 Fig.5 ROC Curve on FDDB dataset 同样的,在WiderFace数据集的验证集上测试 权中使用的方差sigma=0.5。可以看出在FDDB数 比较了本文算法与其他领先算法的性能。图6展示 据集中使用高斯加权和线性加权获得的提升一样, 了本文算法在WiderFace验证集的Easy、Medium 在WiderFace数据中使用高斯加权的提升明显大于 和Hard三个难易程度上的性能曲线。还对比了多 线性加权,说明高斯加权的方法更适合于小人脸检 个先进的人脸检测算法:LDCF+Bo、Multiscale Cas- 测问题。在图8中我们展示了部分不同的NMS方 cade CNNI22)、Faceness-WIDERI3、ACF-WIDER2!a 法的处理结果
5.2 实验设置与结果分析 本文使用的训练数据来自 Wider Face[22]的训练 集,总共有 12 880 张图像,统一将训练图像的宽和 高用 ImageNet[24]上的图像均值填充为 32 的倍数, 测试时同样对图像填充为 32 的倍数。训练是以标 注的人脸区域中心周围占整个人脸区域 3/5 的区域 为正样本,该区域关于标注的人脸区域中心对称。 其他像素点设为负样本。由于原始的 UnitBox[6]论 文没有公布测试模型和源代码,在本文中我们复现 了 UnitBox[6]代码作为比较对象。在使用多任务联 合训练,由于人脸区域分类的损失和人脸区域边框 回归的损失函数不在同一个数量级上,本文对分类 损失赋权 0.001。训练是在 WiderFace训练集上训 练,每次使用一张图像,使用 Adam 算法[25]在整个数 据集上迭代训练 30 轮,本文使用加权的非极大值抑 制算法做后处理。 图 5 中比较了本文的算法与原始 UnitBox[6]算 法在 FDDB 数据集上的性能,同时对比了另外 7 个 经典的人脸检测算法:DDFD[17] 、CascadeCNN[16] 、 ACF-multiscale[26] 、Pico[27] 、HeadHunter[28] 、JointCascade[29] 、Viola-Jones[9] ,实验表明本文的多级特征 串联能明显提升算法性能。本文的方法在共享的卷 积层和串联的特征层后都添加了卷积层,同时本文 单独对 pool5 层的特征添加同样的卷积层作为对比 实验 (UnitBox-refine)。从图 5 中可以看出,仅仅在 pool5 层输出的特征后添加卷积操作的结果为 0.859, 而在结合 pool4 和 pool5 层特征后再添加卷积操作 的结果为 0.906,说明仅仅对单层特征进行多次卷积 和池化操作不能有效提升检测结果。 同样的,在 WiderFace 数据集的验证集上测试 比较了本文算法与其他领先算法的性能。图 6 展示 了本文算法在 WiderFace 验证集的 Easy、Medium 和 Hard 三个难易程度上的性能曲线。还对比了多 个先进的人脸检测算法:LDCF+[30] 、Multiscale Cascade CNN[22] 、Faceness-WIDER[31] 、ACF-WIDER[26] , 在 Easy 难度上本文算法比 LDCF+[30]高 0.5 个百分 点,在 UnitBox[6]的基础上提高了 9 个百分点,在 Medium 难度上取得了 0.737 的检测结果,在 Hard 难度上比 UnitBox[6]提升了 9.8 个百分点。图 7 展 示了本文算法的部分检测结果。 表 1 比较了加权得分的非极大值抑制方法和不 加权的极大值抑制方法的后处理结果,这里高斯加 权中使用的方差 sigma=0.5。可以看出在 FDDB 数 据集中使用高斯加权和线性加权获得的提升一样, 在 WiderFace 数据中使用高斯加权的提升明显大于 线性加权,说明高斯加权的方法更适合于小人脸检 测问题。在图 8 中我们展示了部分不同的 NMS 方 法的处理结果。 0 100 200 300 400 500 600 700 800 900 1 000 0.55 0.60 0.65 0.70 0.75 0.80 0.85 0.90 0.95 ճ䭟 ⱋ䭟⢳ Ours CascadeCNN Joint Cascade HeadHunter UnitBox ACF-multiscale DDFD UnitBox-refine Pico Viola-Jones 图 5 FDDB 数据集 ROC 曲线 Fig. 5 ROC Curve on FDDB dataset 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 0.1 ᴑڔ⢳ (a) Easy (b) Medium (c) Hard ᴑ۲⢳ 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 Multitask Cascade CNN-0.848 Ours-0.795 LDCF+-0.790 Faceness-WIDER-0.713 unitbox-0.705 ACF-WIDER-0.659 unitbox-refine-0.653 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 0.1 ᴑڔ⢳ ᴑ۲⢳ 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 Multitask Cascade CNN-0.825 LDCF+-0.769 Ours-0.737 Faceness-WIDER-0.634 unitbox-0.633 unitbox-refine-0.597 ACF-WIDER-0.541 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 0.1 ᴑڔ⢳ ᴑ۲⢳ 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 Multitask Cascade CNN-0.598 LDCF+-0.522 Ours-0.404 Faceness-WIDER-0.345 unitbox-0.306 unitbox-refine-0.289 ACF-WIDER-0.273 图 6 WiderFace 验证集上的准确率-召回率曲线 Fig. 6 Percision-recall curve on Wider Face Val set 第 1 期 王成济,等:一种多层特征融合的人脸检测方法 ·143·
·144· 智能系统学报 第13卷 (a)WiderFace数据集部分检测结果 (b)FDDB数据集部分检测结果 图7检测结果 Fig.7 Detection results 表1NMS对比实验准确率 Table 1 The accuracy of contrast experiment 数据集 方法 准确率% NMS 90.29 FDDB NMS-gaussian 90.62 NMS-linear 90.62 NMS 79.50 WiderFace-Easy NMS-gaussian 79.90 NMS-linear 79.80 (a)NMS (b)NMS-gaussian (c)NMS-linear NMS 73.70 图8不同NMS的后处理结果对比 WiderFace-Medium NMS-gaussian 74.10 Fig.8 The comparesion of NMS methods NMS-linear 73.90 NMS 40.40 6结束语 WiderFace-Hard NMS-gaussian 40.60 目标检测和图像分割问题是计算机视觉中两个 NMS-linear 40.50 重要的基本问题,本文的人脸检测方法试图将解决
6 结束语 目标检测和图像分割问题是计算机视觉中两个 重要的基本问题, 本文的人脸检测方法试图将解决 表 1 NMS 对比实验准确率 Table 1 The accuracy of contrast experiment 数据集 方法 准确率/% FDDB NMS 90.29 NMS-gaussian 90.62 NMS-linear 90.62 WiderFace-Easy NMS 79.50 NMS-gaussian 79.90 NMS-linear 79.80 WiderFace-Medium NMS 73.70 NMS-gaussian 74.10 NMS-linear 73.90 WiderFace-Hard NMS 40.40 NMS-gaussian 40.60 NMS-linear 40.50 (a) WiderFaceᢚ䯲䘔ܲᷬ≷㏿ (b) FDDB ᢚ䯲䘔ܲᷬ≷㏿ 图 7 检测结果 Fig. 7 Detection results (a) NMS (b) NMS-gaussian (c) NMS-linear 图 8 不同 NMS 的后处理结果对比 Fig. 8 The comparesion of NMS methods ·144· 智 能 系 统 学 报 第 13 卷
第1期 王成济,等:一种多层特征融合的人脸检测方法 ·145· 图像分割问题的算法框架尝试应用于人脸检测问 Recognition.Boston,MA,USA,2015:3431-3440 题。在前人的基础上本文探索了不同的特征串联方 [9]VIOLA P,JONES M.Rapid object detection using a boos- 法对人脸区域坐标回归的影响,通过实验发现并不 ted cascade of simple features[C]//Proceedings of the 2001 是特征组合得越多结果越好,本文使用p0ol4和 IEEE Computer Society Conference on Computer Vision pool5两个特征层的特征取得了很大的提升。在后 and Pattern Recognition.Kauai,HI,USA.2001.1:I-511-I- 518 处理阶段,本文通过比较分析不同的非极大值抑制 策略的性能,发现通常使用的不加权的非极大值抑 [10]LOWE D G.Distinctive image features from scale-invari- ant keypoints[J].International journal of computer vision, 制方法虽然高效,但会在一定程度上影响目标检测 2004,60(2):91-110. 方法的性能。本文在人脸区域分类问题和人脸区域 [11]DALAL N,TRIGGS B.Histograms of oriented gradients 内像素点坐标偏移量回归两个问题实际上是分开处 for human detection[C]//Proceedings of the 2005 IEEE 理,在今后的研究中如何发现并使用这两个问题之 Computer Society Conference on Computer Vision and 间的关联性是一个很重要的研究思路。本文虽然使 Pattern Recognition.San Diego,CA,USA,2005,1:886- 用加权得分的方法在一定程度上缓解了非极大值抑 893. 制方法检测算法的影响,但没有得出一般性的结 [12]OSUNA E,FREUND R,GIROSIT F.Training support 论,这个问题同样值得深入研究。 vector machines:an application to face detection[C]//Pro- 参考文献: ceedings of the 1997 IEEE Computer Society Conference on Computer Vision and Pattern Recognition.San Juan, [1]ZAFEIRIOU S,ZHANG Cha,ZHANG Zhengyou.A sur- Argentina,1997:130-136. vey on face detection in the wild:past,present and future [13]FRIEDMAN J,HASTIE T,TIBSHIRANI R.Additive lo- [J].Computer vision and image understanding,2015,138: gistic regression:a statistical view of boosting(with dis- 1-24. cussion and a rejoinder by the authors)[J].The annals of [2]GIRSHICK R,DONAHUE J,DARRELL T,et al.Rich fea- statistics,2000,29(5):337-407. ture hierarchies for accurate object detection and semantic [14]ZITNICK C L,DOLLAR P.Edge boxes:locating object segmentation[C]//Proceedings of the IEEE Conference on proposals from edges[Cl//Proceedings of the 13th European Computer Vision and Pattern Recognition.Columbus,OH, Conference on Computer Vision.Zurich,Switzerland, USA,2014:580-587. 2014:391-405. [3]GIRSHICK R.Fast R-CNN[C]//Proceedings of the IEEE In- [15]UIJLINGS JRR,VAN DE SANDE K E A,GEVERS T, ternational Conference on Computer Vision.Santiago, et al.Selective search for object recognition[J].Internation- Chile.2015:1440-1448 al journal of computer vision,2013,104(2):154-171. [4]REN Shaoqing,HE Kaiming,GIRSHICK R,et al.Faster R- [16]LI Haoxiang,LIN Zhe,SHEN Xiaohui,et al.A convolu- CNN:towards real-time object detection with region pro- tional neural network cascade for face detection[Cl//Pro- posal networks[C]//Proceedings of the 28th International ceedings of the IEEE Conference on Computer Vision and Conference on Neural Information Processing Systems. Pattern Recognition.Boston,MA,USA,2015:5325-5334 Montreal,Canada.2015.1:91-99. [17]FARFADE S S,SABERIAN M J,LI Lijia.Multi-view [5]HUANG Lichao,YANG Yi,DENG Yafeng,et al.Dense- face detection using deep convolutional neural networks[C]// Box:unifying landmark localization with end to end object Proceedings of the 5th ACM on International Conference detection[J].arXiv preprint arXiv:1509.04874,2015. on Multimedia Retrieval.Shanghai,China,2015:643-650 [6]YU Jiahui,JIANG Yuning,WANG Zhangyang,et al.Unit- [18]KRIZHEVSKY A,SUTSKEVER I,HINTON G E.Im- Box:An advanced object detection network[Cl//Proceed- ageNet classification with deep convolutional neural net- ings of the 2016 ACM on Multimedia Conference.Amster- works[C]//Proceedings of the 26th Annual Conference on dam,The Netherlands,2016:516-520. Neural Information Processing Systems 2012.Lake Tahoe, [7]SIMONYAN K,ZISSERMAN A.Very deep convolutional Nevada,USA,2012:1097-1105 networks for large-scale image recognition[C]//Proceedings [19]HE Kaiming,ZHANG Xiangyu,REN Shaoqing,et al. of the International Conference on Learning Representa- Deep residual learning for image recognition[C]//Proceed- tions.Oxford,USA.2015. ings of the IEEE Conference on Computer Vision and Pat- [8]LONG J,SHELHAMER E,DARRELL T.Fully convolu- tern Recognition.Las Vegas,NV,USA,2016:770-778. tional networks for semantic segmentation[C]//Proceedings [20]HARIHARAN B,ARBELAEZ P,GIRSHICK R,et al.Hy- of the IEEE Conference on Computer Vision and Pattern percolumns for object segmentation and fine-grained local-
图像分割问题的算法框架尝试应用于人脸检测问 题。在前人的基础上本文探索了不同的特征串联方 法对人脸区域坐标回归的影响,通过实验发现并不 是特征组合得越多结果越好,本文使用 pool4 和 pool5 两个特征层的特征取得了很大的提升。在后 处理阶段,本文通过比较分析不同的非极大值抑制 策略的性能,发现通常使用的不加权的非极大值抑 制方法虽然高效,但会在一定程度上影响目标检测 方法的性能。本文在人脸区域分类问题和人脸区域 内像素点坐标偏移量回归两个问题实际上是分开处 理,在今后的研究中如何发现并使用这两个问题之 间的关联性是一个很重要的研究思路。本文虽然使 用加权得分的方法在一定程度上缓解了非极大值抑 制方法检测算法的影响,但没有得出一般性的结 论,这个问题同样值得深入研究。 参考文献: ZAFEIRIOU S, ZHANG Cha, ZHANG Zhengyou. A survey on face detection in the wild: past, present and future [J]. Computer vision and image understanding, 2015, 138: 1–24. [1] GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Columbus, OH, USA, 2014: 580–587. [2] GIRSHICK R. Fast R-CNN[C]//Proceedings of the IEEE International Conference on Computer Vision. Santiago, Chile, 2015: 1440–1448. [3] REN Shaoqing, HE Kaiming, GIRSHICK R, et al. Faster RCNN: towards real-time object detection with region proposal networks[C]//Proceedings of the 28th International Conference on Neural Information Processing Systems. Montreal, Canada, 2015, 1: 91–99. [4] HUANG Lichao, YANG Yi, DENG Yafeng, et al. DenseBox: unifying landmark localization with end to end object detection[J]. arXiv preprint arXiv: 1509.04874, 2015. [5] YU Jiahui, JIANG Yuning, WANG Zhangyang, et al. UnitBox: An advanced object detection network[C]//Proceedings of the 2016 ACM on Multimedia Conference. Amsterdam, The Netherlands, 2016: 516–520. [6] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[C]//Proceedings of the International Conference on Learning Representations. Oxford, USA, 2015. [7] LONG J, SHELHAMER E, DARRELL T. Fully convolutional networks for semantic segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern [8] Recognition. Boston, MA, USA, 2015: 3431–3440. VIOLA P, JONES M. Rapid object detection using a boosted cascade of simple features[C]//Proceedings of the 2001 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Kauai, HI, USA, 2001, 1: I-511–I- 518. [9] LOWE D G. Distinctive image features from scale-invariant keypoints[J]. International journal of computer vision, 2004, 60(2): 91–110. [10] DALAL N, TRIGGS B. Histograms of oriented gradients for human detection[C]//Proceedings of the 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Diego, CA, USA, 2005, 1: 886– 893. [11] OSUNA E, FREUND R, GIROSIT F. Training support vector machines: an application to face detection[C]//Proceedings of the 1997 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Juan, Argentina, 1997: 130–136. [12] FRIEDMAN J, HASTIE T, TIBSHIRANI R. Additive logistic regression: a statistical view of boosting (with discussion and a rejoinder by the authors)[J]. The annals of statistics, 2000, 29(5): 337–407. [13] ZITNICK C L, DOLLÁR P. Edge boxes: locating object proposals from edges[C]//Proceedings of the 13th European Conference on Computer Vision. Zurich, Switzerland, 2014: 391–405. [14] UIJLINGS J R R, VAN DE SANDE K E A, GEVERS T, et al. Selective search for object recognition[J]. International journal of computer vision, 2013, 104(2): 154–171. [15] LI Haoxiang, LIN Zhe, SHEN Xiaohui, et al. A convolutional neural network cascade for face detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA, USA, 2015: 5325–5334. [16] FARFADE S S, SABERIAN M J, LI Lijia. Multi-view face detection using deep convolutional neural networks[C]// Proceedings of the 5th ACM on International Conference on Multimedia Retrieval. Shanghai, China, 2015: 643–650. [17] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[C]//Proceedings of the 26th Annual Conference on Neural Information Processing Systems 2012. Lake Tahoe, Nevada, USA, 2012: 1097–1105. [18] HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA, 2016: 770–778. [19] HARIHARAN B, ARBELÁEZ P, GIRSHICK R, et al. Hypercolumns for object segmentation and fine-grained local- [20] 第 1 期 王成济,等:一种多层特征融合的人脸检测方法 ·145·
·146· 智能系统学报 第13卷 ization[C]//Proceedings of the IEEE Conference on Com- cade face detection and alignment[C]//Proceedings of the puter Vision and Pattern Recognition.Boston,MA,USA, 13th European Conference on Computer Vision.Zurich, 2015:447-456. Switzerland,2014:109-122 [21]BODLA N,SINGH B,CHELLAPPA R,et al.Improving [30]OHN-BAR E,TRIVEDI MM.To boost or not to boost? object detection with one line of code[J].arXiv preprint On the limits of boosted trees for object detection[Cl//Pro- arXiv:1704.04503.2017. ceedings of the 23rd International Conference on Pattern [22]YANG Shuo,LUO Ping,LOY CC,et al.Wider Face:A Recognition (ICPR).Cancun,Mexico,2016:3350-3355. face detection benchmark[Cl//Proceedings of the IEEE [31]YANG Shuo,LUO Ping,LOY C C,et al.From facial parts Conference on Computer Vision and Pattern Recognition. responses to face detection:A deep learning approach[C]// Las Vegas,NV,USA,2016:5525-5533. Proceedings of the IEEE International Conference on Com- [23]JAIN V,LEARNED-MILLER E.FDDB:A benchmark for puter Vision.Santiago,Chile,2015:3676-3684. face detection in unconstrained settings[R].UMass Amh- 作者简介: erst Technical Report UMCS-2010-009.2010. 王成济,男,1993年生,硕士研究 [24]DENG Jia,DONG Wei,SOCHER R,et al.ImageNet:A 生,主要研究方向为视频目标检测和 large-scale hierarchical image database[C]//Proceedings of 图像分割。 the IEEE Conference on Computer Vision and Pattern Re- cognition.Miami,FL,USA,2009:248-255. [25]KINGMA D P,BA J L.Adam:A method for stochastic optimization[C]//Proceedings of International Conference on Learning Representations.Toronto,Canada,2015 罗志明,男,1989年生,博士研究 [26]YANG Bin,YAN Junjie,LEI Zhen,et al.Aggregate chan- 生,主要研究方向为图像分割、目标检 测、医学图像分析。发表学术论文 nel features for multi-view face detection[Cl//Proceedings 8篇。 of the 2014 IEEE International Joint Conference on Bio- metrics(IJCB).Clearwater,FL,USA,2014:1-8. [27]MARKUS N,FRLJAK M,PANDZIC I S,et al.A method for object detection based on pixel intensity comparisons organized in decision trees[J].CoRR,2014. 李绍滋,男,1963年生.教授,博 士生导师,主要研究方向为计算机视 [28]MATHIAS M,BENENSON R,PEDERSOLI M.et al. 觉、机器学习和数据挖掘。先后主持 Face detection without bells and whistles[C]//Proceedings 或参加过多项国家863项目、国家自 of the 13th European Conference on Computer Vision. 然科学基金项目、教育部博士点基金 Zurich,Switzerland,2014:720-735. 项目、省科技重点项目等多个项目的 [29]CHEN Dong,REN Shaoqing,WEI Yichen,et al.Joint cas- 研究,发表学术论文300多篇
ization[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA, USA, 2015: 447–456. BODLA N, SINGH B, CHELLAPPA R, et al. Improving object detection with one line of code[J]. arXiv preprint arXiv: 1704.04503, 2017. [21] YANG Shuo, LUO Ping, LOY C C, et al. Wider Face: A face detection benchmark[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA, 2016: 5525–5533. [22] JAIN V, LEARNED-MILLER E. FDDB: A benchmark for face detection in unconstrained settings[R]. UMass Amherst Technical Report UMCS-2010-009, 2010. [23] DENG Jia, DONG Wei, SOCHER R, et al. ImageNet: A large-scale hierarchical image database[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Miami, FL, USA, 2009: 248–255. [24] KINGMA D P, BA J L. Adam: A method for stochastic optimization[C]//Proceedings of International Conference on Learning Representations. Toronto, Canada, 2015. [25] YANG Bin, YAN Junjie, LEI Zhen, et al. Aggregate channel features for multi-view face detection[C]//Proceedings of the 2014 IEEE International Joint Conference on Biometrics (IJCB). Clearwater, FL, USA, 2014: 1–8. [26] MARKUS N, FRLJAK M, PANDZIC I S, et al. A method for object detection based on pixel intensity comparisons organized in decision trees[J]. CoRR, 2014. [27] MATHIAS M, BENENSON R, PEDERSOLI M, et al. Face detection without bells and whistles[C]//Proceedings of the 13th European Conference on Computer Vision. Zurich, Switzerland, 2014: 720–735. [28] [29] CHEN Dong, REN Shaoqing, WEI Yichen, et al. Joint cascade face detection and alignment[C]//Proceedings of the 13th European Conference on Computer Vision. Zurich, Switzerland, 2014: 109–122. OHN-BAR E, TRIVEDI M M. To boost or not to boost? On the limits of boosted trees for object detection[C]//Proceedings of the 23rd International Conference on Pattern Recognition (ICPR). Cancun, Mexico, 2016: 3350–3355. [30] YANG Shuo, LUO Ping, LOY C C, et al. From facial parts responses to face detection: A deep learning approach[C]// Proceedings of the IEEE International Conference on Computer Vision. Santiago, Chile, 2015: 3676–3684. [31] 作者简介: 王成济,男,1993 年生,硕士研究 生,主要研究方向为视频目标检测和 图像分割。 罗志明,男,1989 年生,博士研究 生,主要研究方向为图像分割、目标检 测、医学图像分析。发表学术论文 8 篇。 李绍滋,男,1963 年生,教授,博 士生导师,主要研究方向为计算机视 觉、机器学习和数据挖掘。先后主持 或参加过多项国家 863 项目、国家自 然科学基金项目、教育部博士点基金 项目、省科技重点项目等多个项目的 研究,发表学术论文 300 多篇。 ·146· 智 能 系 统 学 报 第 13 卷