第1期 王成济,等:一种多层特征融合的人脸检测方法 ·139· 相关研究可以追溯到1970年山。由于真实场景中 野过大的问题上,本文重新探索了不同卷积层在人 人脸的复杂性和背景的多样性,人脸检测技术在复 脸检测任务中的重要性,同比较不同大小感受野的 杂场景下还存在着许多挑战。 特征组合方法对准确率的影响,发现结合pool4层 近年来深度卷积神经网络(CNN)使图像识别 的特征和pool5层的特征能同时处理大人脸和小 目标检测等计算机视觉任务取得长足进步。目 人脸。 标检测问题可以看作两个子问题的组合:目标定位 问题和目标分类问题。目标定位问题主要确定物体 1相关工作 在图像中的具体位置,目标分类问题将确定目标相 人脸检测大致可以分为3个部分:候选框提 应的类别。受ren等提出的区域候选框提取网络 取、图像分类、边框坐标回归。传统方法采用滑动 (egion proposal network,RPN)的启发,Huang等 窗口提取候选框,然后使用Har例、SIFT、HOG 和Yu等认为用于解决图像分割问题的框架同样 等手工提取的特征结合SVM2、boosting!9,1]等机器 适用于目标检测问题,它们对于图片中的每一个像 学习算法对候选框进行分类。这种穷举的策略虽然 素点都判断该像素是否属于人脸区域以及当属于人 包含了目标所有可能出现的位置,但是缺点也是明 脸区域时相对于人脸区域边界坐标的偏移量(当前 显的:1)基于滑动窗口的区域选择策略没有针对 像素点与人脸边界在空间坐标上的相对偏移)。 性,时间复杂度高,窗口冗余;2)手工设计的特征对 UnitBox将用于图像分类的VGG16网络改造为 于多样性的变化并没有很好的鲁棒性。 全卷积神经网络(FCN)⑧,在pool4特征层的基础上 为了解决滑动窗口计算复杂度高的问题,出现 预测像素点的分类得分,在pool5特征层的基础上 了利用图像中的纹理、边缘、颜色等信息的基于区 预测人脸区域内像素点坐标的偏移量。UnitBox 域候选框的解决方案4,这种方案可以保证在选 首次使用重叠率评价人脸区域内像素点坐标偏移量 取较少窗口的情况下保持较高的召回率。这大大降 回归的好坏,重叠率损失函数将人脸区域内每个像 低了后续操作的时间复杂度,并且获取的候选窗口 素点的上下左右4个偏移量当作一个整体,利用了 要比滑动窗口的质量更高。Ross B.Girshick等提 这4个偏移量之间的关联性。Yu认为用于预测人 出的RCNN框架,使得目标检测的准确率取得极大 脸区域内像素点坐标偏移量的特征需要比预测人脸 提升,并开启了基于深度学习目标检测的热潮。Fast 分类的特征有更大的感受野,所以他们仅利用了 RCNN方法利用特征图提取候选框极大地降低了 pool5层特征预测坐标偏移量,在预测每一个像素 基于深度学习目标检测方法的时间复杂度。Faster 点的分类得分时UnitBox使用椭圆形的人脸区域的 R-CNN方法更进一步,首次提出了自动提取图片 标注,在测试时在分类得到的得分图上做椭圆检 中区域候选框的RPN网络,并将传统的提取候选框 测,然后提取检测出的椭圆的中心点对应的矩形框 的操作集成到特征学习网络中,使得目标检测问题 作为最终检测结果。在实验中我们发现在使用椭圆 可以达到end-to-end。CascadeCNN使用3个独立 标注训练得到的得分图像无法拟合出标准的椭圆, 的卷积神经网络分级过滤候选框。DDFD首次将 尤其当多个人脸区域有重叠时,无法分开多个人脸 全卷积神经网络成功地应用于人脸检测问题中。 区域。实验中还发现,使用pool5层的特征虽然有 很好的感受野但在处理小人脸时会因为感受野过大 2014年J.Long等提出全卷积神经网络(fully 造成小人脸区域内坐标偏移量回归不准确,影响最 convolution network,FCN)并成功地应用在图像分 终检测结果。 割任务中,直到现在FCN依然是图像分割的主流框 基于以上工作,本文使用矩形的人脸区域标注, 架。全卷积神经网络(FCN)与卷积神经网络(con- 摈弃了UnitBox后处理中的椭圆检测的部分,转而 volution neural network,CNN)的主要不同是FCN 使用非极大值抑制算法过滤大量重复的矩形框:当 将CNN中的全连接层通过卷积层实现,并使用反 两个人脸区域重叠率超过非极大值抑制算法的阈值 卷积操作得到与输入同样大小的输出,因此网络的 时,以前的非极大值抑制算法只能够保留一个人脸 输出由原始CNN的关于整张图像上的分类结果变 会造成漏检,为了避免这个问题,本文根据矩形框 成了FCN中关于整张图像的像素级的分类,也就是 的重叠率对预侧矩形框的得分加权降低非最大矩形 输入图像的每一个像素点都对应有一个分类的输出 框的置信度,然后使用置信度阈值来过滤矩形框, 结果。FCN是直接对像素点进行操作,在经过一系 这样当两个人脸检测出的矩形框重叠率大于制定阈 列的卷积和反卷积的操作后得到与原始输入图像同 值时也不会直接过滤掉,避免漏检。在特征的感受 样大小的中间结果,最后经过softmax操作输出类相关研究可以追溯到 1970 年 [1]。由于真实场景中 人脸的复杂性和背景的多样性,人脸检测技术在复 杂场景下还存在着许多挑战。 近年来深度卷积神经网络 (CNN) 使图像识别、 目标检测等计算机视觉任务取得长足进步[2-4]。目 标检测问题可以看作两个子问题的组合:目标定位 问题和目标分类问题。目标定位问题主要确定物体 在图像中的具体位置,目标分类问题将确定目标相 应的类别。受 ren 等 [4]提出的区域候选框提取网络 (region proposal network, RPN) 的启发,Huang 等 [5] 和 Yu 等 [6]认为用于解决图像分割问题的框架同样 适用于目标检测问题,它们对于图片中的每一个像 素点都判断该像素是否属于人脸区域以及当属于人 脸区域时相对于人脸区域边界坐标的偏移量 (当前 像素点与人脸边界在空间坐标上的相对偏移)。 UnitBox[6]将用于图像分类的 VGG16[7]网络改造为 全卷积神经网络 (FCN)[8] ,在 pool4 特征层的基础上 预测像素点的分类得分,在 pool5 特征层的基础上 预测人脸区域内像素点坐标的偏移量。UnitBox[6] 首次使用重叠率评价人脸区域内像素点坐标偏移量 回归的好坏,重叠率损失函数将人脸区域内每个像 素点的上下左右 4 个偏移量当作一个整体,利用了 这 4 个偏移量之间的关联性。Yu[6]认为用于预测人 脸区域内像素点坐标偏移量的特征需要比预测人脸 分类的特征有更大的感受野,所以他们仅利用了 pool5 层特征预测坐标偏移量,在预测每一个像素 点的分类得分时 UnitBox 使用椭圆形的人脸区域的 标注,在测试时在分类得到的得分图上做椭圆检 测,然后提取检测出的椭圆的中心点对应的矩形框 作为最终检测结果。在实验中我们发现在使用椭圆 标注训练得到的得分图像无法拟合出标准的椭圆, 尤其当多个人脸区域有重叠时,无法分开多个人脸 区域。实验中还发现,使用 pool5 层的特征虽然有 很好的感受野但在处理小人脸时会因为感受野过大 造成小人脸区域内坐标偏移量回归不准确,影响最 终检测结果。 基于以上工作,本文使用矩形的人脸区域标注, 摈弃了 UnitBox[6]后处理中的椭圆检测的部分, 转而 使用非极大值抑制算法过滤大量重复的矩形框;当 两个人脸区域重叠率超过非极大值抑制算法的阈值 时,以前的非极大值抑制算法只能够保留一个人脸 会造成漏检,为了避免这个问题,本文根据矩形框 的重叠率对预测矩形框的得分加权降低非最大矩形 框的置信度,然后使用置信度阈值来过滤矩形框, 这样当两个人脸检测出的矩形框重叠率大于制定阈 值时也不会直接过滤掉, 避免漏检。在特征的感受 野过大的问题上,本文重新探索了不同卷积层在人 脸检测任务中的重要性,同比较不同大小感受野的 特征组合方法对准确率的影响, 发现结合 pool4 层 的特征和 pool5 层的特征能同时处理大人脸和小 人脸。 1 相关工作 人脸检测大致可以分为 3 个部分:候选框提 取、图像分类、边框坐标回归。传统方法采用滑动 窗口提取候选框,然后使用 Harr_[9] 、SIFT[10] 、HOG[11] 等手工提取的特征结合 SVM[12] 、boosting[9, 13]等机器 学习算法对候选框进行分类。这种穷举的策略虽然 包含了目标所有可能出现的位置,但是缺点也是明 显的:1) 基于滑动窗口的区域选择策略没有针对 性,时间复杂度高,窗口冗余;2) 手工设计的特征对 于多样性的变化并没有很好的鲁棒性。 为了解决滑动窗口计算复杂度高的问题,出现 了利用图像中的纹理、边缘、颜色等信息的基于区 域候选框的解决方案[14-15] ,这种方案可以保证在选 取较少窗口的情况下保持较高的召回率。这大大降 低了后续操作的时间复杂度,并且获取的候选窗口 要比滑动窗口的质量更高。Ross B. Girshick 等 [2]提 出的 RCNN 框架,使得目标检测的准确率取得极大 提升,并开启了基于深度学习目标检测的热潮。Fast RCNN[3]方法利用特征图提取候选框极大地降低了 基于深度学习目标检测方法的时间复杂度。Faster R-CNN[4]方法更进一步,首次提出了自动提取图片 中区域候选框的 RPN 网络,并将传统的提取候选框 的操作集成到特征学习网络中,使得目标检测问题 可以达到 end-to-end。CascadeCNN[16]使用 3 个独立 的卷积神经网络分级过滤候选框。DDFD[17]首次将 全卷积神经网络[8]成功地应用于人脸检测问题中。 2014 年 J. Long 等 [8]提出全卷积神经网络 (fully convolution network, FCN) 并成功地应用在图像分 割任务中,直到现在 FCN 依然是图像分割的主流框 架。全卷积神经网络 (FCN) 与卷积神经网络 (convolution neural network, CNN) 的主要不同是 FCN 将 CNN 中的全连接层通过卷积层实现,并使用反 卷积操作得到与输入同样大小的输出,因此网络的 输出由原始 CNN 的关于整张图像上的分类结果变 成了 FCN 中关于整张图像的像素级的分类,也就是 输入图像的每一个像素点都对应有一个分类的输出 结果。FCN 是直接对像素点进行操作,在经过一系 列的卷积和反卷积的操作后得到与原始输入图像同 样大小的中间结果,最后经过 softmax 操作输出类 第 1 期 王成济,等:一种多层特征融合的人脸检测方法 ·139·