正在加载图片...
第1期 王成济,等:一种多层特征融合的人脸检测方法 ·141· 特征层后同样添加了含有32个3×3的卷积核的卷 层输出的特征首先被放大16倍,输入到含有32个 积层bbx conv5。因为pool4特征层的分辨率是输 3×3卷积核的卷积层和1个卷积核大小为1×1的卷 入的1/16,为了得到与输入同样大小的输出,对sc 积层,最后输入到sigmoid激活函数得到每一个像 conv4和bbx_conv4分别做了步长为16的反卷积 素点的类别分类得分。为了得到预测的4维坐标偏 操作,将sc_conv4和bbx conv4两个特征层的分辨 移图,将反卷积后的bbx conva4和bbx_conv5两个 率放大16倍并保持特征维度不变,对bbx conv5使 特征层串联后经过连续两层含有32个3×3卷积核 用反卷积放大32倍使分辨率与输入相同。sc conv4 的卷积层得到4维人脸区域内的坐标偏移图。 1W16 w/16 /1 16 3(RGB)Conv1-conv3 conv4 conv5 w/16 /1 h/16 心卷积操作日反卷积操作 连接操作conca 图3模型结构 Fig.3 Model structure 在卷积神经网络中pooling层主要起降低分辨 面学习到的错误结果放大降低网络的性能,而使用 率的作用,越往后特征层的分辨率会越小,也越能 更多的卷积操作虽然会增加模型的表达能力但也会 够提取出抽象的语义信息,但越抽象的特征细节信 增加模型的时间复杂度。 息丢失越多,在处理像素级分类任务时仅使用高层 3损失函数设计 抽象的特征会导致边缘部分分类不准确。但是若完 全依靠前面层的特征,虽然能够提高对人脸区域边 人脸检测问题可以看作两个子问题的组合:人 缘的像素点的分类能力,但是由于浅层特征的抽象 脸区域定位问题和图像分类问题。图像分类是对整 能力不够使得整体上分类结果不准确。文献「8, 张输入图像分一个类别,而图像分割是标注图片每 20]的研究表明通过融合不同的特征层能够显著提 一个像素到对应类别的任务,本文将人脸检测问题 升网络的效果,FCN中的实验也证明融合不同特 中的图像分类问题看成人脸区域分割问题。当将图 征层特征的有效性,主要融合方式有FCN-32、FCN- 像中的每一个像素都分配一个对应的候选框,那么 16、FCN-8。UnitBox认为人脸区域边框回归需要 人脸检测问题可以分解为图像分割问题和候选框回 抽象的语义信息,所以仅使用了pool5层的特征用 归问题两个子问题,分别对应候选框得分和候选框 于处理边框回归任务,但实际实验中表明融合pool5 回归。每一个像素的分类得分也是这个像素对应预 和pool4两个特征层的特征能显著提升结果。 测矩形框的得分。本文使用多任务联合训练,主要 本文的模型共享特征层后对于不同的任务添加 包括人脸区域分割任务和人脸区域内像素点坐标偏 了多个3×3的独立卷积操作,像素级分类得分的标 移回归任务。针对分类任务我们使用的是交叉熵损 签是[0,1],而人脸区域内坐标偏移量的标签是[0, 失函数L,人脸区域的坐标偏移量回归使用重叠率 +w](这里的代表所有标注人脸区域的宽或高的最 损失函数Lu,为了使两个损失函数在训练的过程中 大值),pool5特征层的分辨率是输入的1/32,pool4 的梯度保持在同一个量级上,我们引入了一个权值 是输入的1/16,使用与输出同样数量的卷积操作会 入,使得最终的损失函数L为 丢失大量信息,不仅不会帮助模型训练反而会将前 L=λLee+Liou (1)特征层后同样添加了含有 32 个 3×3 的卷积核的卷 积层 bbx_conv5。因为 pool4 特征层的分辨率是输 入的 1/16,为了得到与输入同样大小的输出,对 sc_ conv4 和 bbx_conv4 分别做了步长为 16 的反卷积 操作,将 sc_conv4 和 bbx_conv4两个特征层的分辨 率放大 16 倍并保持特征维度不变,对 bbx_conv5 使 用反卷积放大 32 倍使分辨率与输入相同。sc_conv4 层输出的特征首先被放大 16 倍,输入到含有 32 个 3×3 卷积核的卷积层和 1 个卷积核大小为 1×1 的卷 积层,最后输入到 sigmoid 激活函数得到每一个像 素点的类别分类得分。为了得到预测的 4 维坐标偏 移图,将反卷积后的 bbx_conv4 和 bbx_conv5 两个 特征层串联后经过连续两层含有 32 个 3×3 卷积核 的卷积层得到 4 维人脸区域内的坐标偏移图。 在卷积神经网络中 pooling 层主要起降低分辨 率的作用,越往后特征层的分辨率会越小,也越能 够提取出抽象的语义信息,但越抽象的特征细节信 息丢失越多,在处理像素级分类任务时仅使用高层 抽象的特征会导致边缘部分分类不准确。但是若完 全依靠前面层的特征,虽然能够提高对人脸区域边 缘的像素点的分类能力,但是由于浅层特征的抽象 能力不够使得整体上分类结果不准确。文献[8, 20]的研究表明通过融合不同的特征层能够显著提 升网络的效果,FCN[8]中的实验也证明融合不同特 征层特征的有效性,主要融合方式有 FCN-32、FCN- 16、FCN-8。UnitBox[6]认为人脸区域边框回归需要 抽象的语义信息,所以仅使用了 pool5 层的特征用 于处理边框回归任务,但实际实验中表明融合 pool5 和 pool4 两个特征层的特征能显著提升结果。 本文的模型共享特征层后对于不同的任务添加 了多个 3×3 的独立卷积操作,像素级分类得分的标 签是[0, 1],而人脸区域内坐标偏移量的标签是[0, +w](这里的 w 代表所有标注人脸区域的宽或高的最 大值),pool5 特征层的分辨率是输入的 1/32,pool4 是输入的 1/16,使用与输出同样数量的卷积操作会 丢失大量信息,不仅不会帮助模型训练反而会将前 面学习到的错误结果放大降低网络的性能,而使用 更多的卷积操作虽然会增加模型的表达能力但也会 增加模型的时间复杂度。 3 损失函数设计 LceLiou λ 人脸检测问题可以看作两个子问题的组合:人 脸区域定位问题和图像分类问题。图像分类是对整 张输入图像分一个类别,而图像分割是标注图片每 一个像素到对应类别的任务,本文将人脸检测问题 中的图像分类问题看成人脸区域分割问题。当将图 像中的每一个像素都分配一个对应的候选框,那么 人脸检测问题可以分解为图像分割问题和候选框回 归问题两个子问题,分别对应候选框得分和候选框 回归。每一个像素的分类得分也是这个像素对应预 测矩形框的得分。本文使用多任务联合训练,主要 包括人脸区域分割任务和人脸区域内像素点坐标偏 移回归任务。针对分类任务我们使用的是交叉熵损 失函数 ,人脸区域的坐标偏移量回归使用重叠率 损失函数 ,为了使两个损失函数在训练的过程中 的梯度保持在同一个量级上,我们引入了一个权值 ,使得最终的损失函数 L 为 L = λLce + Liou (1) DPODBU᧹҈䔊ᣑ⼛᧹҈ ࢣࣹ ҈᧹厶ࢣ h 3(RGB) Conv1-conv3 conv4 conv5 w w/16 w/16 w/16 w/16 w/16 h/16 h/16 h/16 h/32 h/32 w/32 w/32 h/16 h/16 h h h h h h h h h w w w w w w w w w 图 3 模型结构 Fig. 3 Model structure 第 1 期 王成济,等:一种多层特征融合的人脸检测方法 ·141·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有