相关研究可以追溯到 1970 年 [1]。由于真实场景中人脸的复杂性和背

正在加载图片...

第1期王成济，等：一种多层特征融合的人脸检测方法 ·139· 相关研究可以追溯到1970年山。由于真实场景中野过大的问题上，本文重新探索了不同卷积层在人人脸的复杂性和背景的多样性，人脸检测技术在复脸检测任务中的重要性，同比较不同大小感受野的杂场景下还存在着许多挑战。特征组合方法对准确率的影响，发现结合pool4层近年来深度卷积神经网络(CNN)使图像识别的特征和pool5层的特征能同时处理大人脸和小目标检测等计算机视觉任务取得长足进步。目人脸。标检测问题可以看作两个子问题的组合：目标定位问题和目标分类问题。目标定位问题主要确定物体 1相关工作在图像中的具体位置，目标分类问题将确定目标相人脸检测大致可以分为3个部分：候选框提应的类别。受ren等提出的区域候选框提取网络取、图像分类、边框坐标回归。传统方法采用滑动 (egion proposal network,RPN)的启发，Huang等窗口提取候选框，然后使用Har例、SIFT、HOG 和Yu等认为用于解决图像分割问题的框架同样等手工提取的特征结合SVM2、boosting!9,1]等机器适用于目标检测问题，它们对于图片中的每一个像学习算法对候选框进行分类。这种穷举的策略虽然素点都判断该像素是否属于人脸区域以及当属于人包含了目标所有可能出现的位置，但是缺点也是明脸区域时相对于人脸区域边界坐标的偏移量（当前显的：1)基于滑动窗口的区域选择策略没有针对像素点与人脸边界在空间坐标上的相对偏移)。性，时间复杂度高，窗口冗余；2)手工设计的特征对 UnitBox将用于图像分类的VGG16网络改造为于多样性的变化并没有很好的鲁棒性。全卷积神经网络(FCN)⑧，在pool4特征层的基础上为了解决滑动窗口计算复杂度高的问题，出现预测像素点的分类得分，在pool5特征层的基础上了利用图像中的纹理、边缘、颜色等信息的基于区预测人脸区域内像素点坐标的偏移量。UnitBox 域候选框的解决方案4，这种方案可以保证在选首次使用重叠率评价人脸区域内像素点坐标偏移量取较少窗口的情况下保持较高的召回率。这大大降回归的好坏，重叠率损失函数将人脸区域内每个像低了后续操作的时间复杂度，并且获取的候选窗口素点的上下左右4个偏移量当作一个整体，利用了要比滑动窗口的质量更高。Ross B.Girshick等提这4个偏移量之间的关联性。Yu认为用于预测人出的RCNN框架，使得目标检测的准确率取得极大脸区域内像素点坐标偏移量的特征需要比预测人脸提升，并开启了基于深度学习目标检测的热潮。Fast 分类的特征有更大的感受野，所以他们仅利用了 RCNN方法利用特征图提取候选框极大地降低了 pool5层特征预测坐标偏移量，在预测每一个像素基于深度学习目标检测方法的时间复杂度。Faster 点的分类得分时UnitBox使用椭圆形的人脸区域的 R-CNN方法更进一步，首次提出了自动提取图片标注，在测试时在分类得到的得分图上做椭圆检中区域候选框的RPN网络，并将传统的提取候选框测，然后提取检测出的椭圆的中心点对应的矩形框的操作集成到特征学习网络中，使得目标检测问题作为最终检测结果。在实验中我们发现在使用椭圆可以达到end-to-end。CascadeCNN使用3个独立标注训练得到的得分图像无法拟合出标准的椭圆，的卷积神经网络分级过滤候选框。DDFD首次将尤其当多个人脸区域有重叠时，无法分开多个人脸全卷积神经网络成功地应用于人脸检测问题中。区域。实验中还发现，使用pool5层的特征虽然有很好的感受野但在处理小人脸时会因为感受野过大 2014年J.Long等提出全卷积神经网络(fully 造成小人脸区域内坐标偏移量回归不准确，影响最 convolution network,FCN)并成功地应用在图像分终检测结果。割任务中，直到现在FCN依然是图像分割的主流框基于以上工作，本文使用矩形的人脸区域标注，架。全卷积神经网络(FCN)与卷积神经网络(con- 摈弃了UnitBox后处理中的椭圆检测的部分，转而 volution neural network,CNN)的主要不同是FCN 使用非极大值抑制算法过滤大量重复的矩形框：当将CNN中的全连接层通过卷积层实现，并使用反两个人脸区域重叠率超过非极大值抑制算法的阈值卷积操作得到与输入同样大小的输出，因此网络的时，以前的非极大值抑制算法只能够保留一个人脸输出由原始CNN的关于整张图像上的分类结果变会造成漏检，为了避免这个问题，本文根据矩形框成了FCN中关于整张图像的像素级的分类，也就是的重叠率对预侧矩形框的得分加权降低非最大矩形输入图像的每一个像素点都对应有一个分类的输出框的置信度，然后使用置信度阈值来过滤矩形框，结果。FCN是直接对像素点进行操作，在经过一系这样当两个人脸检测出的矩形框重叠率大于制定阈列的卷积和反卷积的操作后得到与原始输入图像同值时也不会直接过滤掉，避免漏检。在特征的感受样大小的中间结果，最后经过softmax操作输出类相关研究可以追溯到 1970 年 [1]。由于真实场景中人脸的复杂性和背景的多样性，人脸检测技术在复杂场景下还存在着许多挑战。近年来深度卷积神经网络 (CNN) 使图像识别、目标检测等计算机视觉任务取得长足进步[2-4]。目标检测问题可以看作两个子问题的组合：目标定位问题和目标分类问题。目标定位问题主要确定物体在图像中的具体位置，目标分类问题将确定目标相应的类别。受 ren 等 [4]提出的区域候选框提取网络 (region proposal network, RPN) 的启发，Huang 等 [5] 和 Yu 等 [6]认为用于解决图像分割问题的框架同样适用于目标检测问题，它们对于图片中的每一个像素点都判断该像素是否属于人脸区域以及当属于人脸区域时相对于人脸区域边界坐标的偏移量 (当前像素点与人脸边界在空间坐标上的相对偏移)。 UnitBox[6]将用于图像分类的 VGG16[7]网络改造为全卷积神经网络 (FCN)[8] ，在 pool4 特征层的基础上预测像素点的分类得分，在 pool5 特征层的基础上预测人脸区域内像素点坐标的偏移量。UnitBox[6] 首次使用重叠率评价人脸区域内像素点坐标偏移量回归的好坏，重叠率损失函数将人脸区域内每个像素点的上下左右 4 个偏移量当作一个整体，利用了这 4 个偏移量之间的关联性。Yu[6]认为用于预测人脸区域内像素点坐标偏移量的特征需要比预测人脸分类的特征有更大的感受野，所以他们仅利用了 pool5 层特征预测坐标偏移量，在预测每一个像素点的分类得分时 UnitBox 使用椭圆形的人脸区域的标注，在测试时在分类得到的得分图上做椭圆检测，然后提取检测出的椭圆的中心点对应的矩形框作为最终检测结果。在实验中我们发现在使用椭圆标注训练得到的得分图像无法拟合出标准的椭圆，尤其当多个人脸区域有重叠时，无法分开多个人脸区域。实验中还发现，使用 pool5 层的特征虽然有很好的感受野但在处理小人脸时会因为感受野过大造成小人脸区域内坐标偏移量回归不准确，影响最终检测结果。基于以上工作，本文使用矩形的人脸区域标注，摈弃了 UnitBox[6]后处理中的椭圆检测的部分, 转而使用非极大值抑制算法过滤大量重复的矩形框；当两个人脸区域重叠率超过非极大值抑制算法的阈值时，以前的非极大值抑制算法只能够保留一个人脸会造成漏检，为了避免这个问题，本文根据矩形框的重叠率对预测矩形框的得分加权降低非最大矩形框的置信度，然后使用置信度阈值来过滤矩形框，这样当两个人脸检测出的矩形框重叠率大于制定阈值时也不会直接过滤掉, 避免漏检。在特征的感受野过大的问题上，本文重新探索了不同卷积层在人脸检测任务中的重要性，同比较不同大小感受野的特征组合方法对准确率的影响, 发现结合 pool4 层的特征和 pool5 层的特征能同时处理大人脸和小人脸。 1 相关工作人脸检测大致可以分为 3 个部分：候选框提取、图像分类、边框坐标回归。传统方法采用滑动窗口提取候选框，然后使用 Harr_[9] 、SIFT[10] 、HOG[11] 等手工提取的特征结合 SVM[12] 、boosting[9, 13]等机器学习算法对候选框进行分类。这种穷举的策略虽然包含了目标所有可能出现的位置，但是缺点也是明显的：1) 基于滑动窗口的区域选择策略没有针对性，时间复杂度高，窗口冗余；2) 手工设计的特征对于多样性的变化并没有很好的鲁棒性。为了解决滑动窗口计算复杂度高的问题，出现了利用图像中的纹理、边缘、颜色等信息的基于区域候选框的解决方案[14-15] ，这种方案可以保证在选取较少窗口的情况下保持较高的召回率。这大大降低了后续操作的时间复杂度，并且获取的候选窗口要比滑动窗口的质量更高。Ross B. Girshick 等 [2]提出的 RCNN 框架，使得目标检测的准确率取得极大提升，并开启了基于深度学习目标检测的热潮。Fast RCNN[3]方法利用特征图提取候选框极大地降低了基于深度学习目标检测方法的时间复杂度。Faster R-CNN[4]方法更进一步，首次提出了自动提取图片中区域候选框的 RPN 网络，并将传统的提取候选框的操作集成到特征学习网络中，使得目标检测问题可以达到 end-to-end。CascadeCNN[16]使用 3 个独立的卷积神经网络分级过滤候选框。DDFD[17]首次将全卷积神经网络[8]成功地应用于人脸检测问题中。 2014 年 J. Long 等 [8]提出全卷积神经网络 (fully convolution network, FCN) 并成功地应用在图像分割任务中，直到现在 FCN 依然是图像分割的主流框架。全卷积神经网络 (FCN) 与卷积神经网络 (convolution neural network, CNN) 的主要不同是 FCN 将 CNN 中的全连接层通过卷积层实现，并使用反卷积操作得到与输入同样大小的输出，因此网络的输出由原始 CNN 的关于整张图像上的分类结果变成了 FCN 中关于整张图像的像素级的分类，也就是输入图像的每一个像素点都对应有一个分类的输出结果。FCN 是直接对像素点进行操作，在经过一系列的卷积和反卷积的操作后得到与原始输入图像同样大小的中间结果，最后经过 softmax 操作输出类第 1 期王成济，等：一种多层特征融合的人脸检测方法 ·139·

<<向上翻页向下翻页>>

点击下载：【机器感知与模式识别】一种多层特征融合的人脸检测方法