·142· 智能系统学报 第13卷 3.1交叉熵损失函数 同一个目标检测出多个重叠率较高的框,需要使用 像素级分类问题是要得到每一个像素输入属于 NMS来选取重叠区域里分数最高的矩形框(人脸的 每个类别的概率,人脸检测问题是二分类问题,即 概率最大),非极大值抑制方法采用的是排序一遍历一 人脸与非人脸。本文使用sigmoid激活函数实现从 消除的过程,在这个过程中检测出来的矩形框的得 特征空间到[0,1]概率空间的映射,得到每一个像素 分不变,在一定程度上会影响算法性能。N.Bodla 分类得分的概率,然后使用交叉嫡损失函数指导网 等发现在排序阶段对重叠率高于阈值且得分较低 络训练。sigmoid激活函数为 的预测框的得分进行加权,再过滤掉得分低的矩形 1 f(x)=1+exp-(b) (2) 框能有效解决非极大值抑制算法导致的漏检问题。 受文献[21]的启发,我们在非极大值抑制的过 式中的wx+b,表示在激活函数前的卷积核大小为 程中使用两次遍历和消除过程,在第一次遍历过程 1×1的卷积层。假设像素点p(x,y)被预测为人脸的 中,当两个框的重叠率大于α时,将得分较低的窗口 概率为P,则非人脸的概率为1-P,若该像素点在人 脸区域内该像素点的标签g:=1,否则g:=0。具体的 的得分乘以一个权值,然后根据加权后的得分过滤 交叉嫡损失函数为 掉低于的窗口,完成后再次使用没有加权的非极 L=->g.In(Pr)+(1-g)In(1-pp) 大值抑制方法得到最终检测结果。在实验过程中, (3) 测试了两种不同的加权方法:线性加权和高斯加 3.2重叠率损失函数 权。两种加权方法的具体计算:当两个窗口交并比 之前的候选框坐标回归算法中常用的损失函数 小于a,则得分低的窗口的得分要乘以权值weight。 是L2,他们认为候选框的4个坐标是4个独立变 线性加权为 量可以分开处理,实际上候选框的4个坐标之间是 weight,=1-IoU, (7 有相互关联的,在训练过程中能够相互影响,提升最 高斯加权为 终的检测结果,所以UnitBox引入了重叠率损失函 IoU,2 weight;exp(- 数,使候选框坐标间的关联性体现在损失函数中指 (8) sigma 导网络训练。本文在训练候选框坐标偏移时同样也 是使用了UnitBox中提出的IOU损失函数。如图4 5实验与结果分析 所示,假设像素点x,y)人脸区域边框和预测矩形 为了验证方法的有效性,我们使用Wider Face 框分别是g:=(c,y,w,h,),g=(,m,h),则g与g的 数据集22的训练集训练,并在FDDB数据集2)和 重叠率1oU为 Wider Face数据集P的验证集上评测结果,并与当 IoU,=8ing (4) 前领先的算法进行比较,此外本文还比较了使用不 8:U8i 同加权方式的非极大值抑制方法的性能。 12损失函数为 5.1实验数据 La=-∑lg:-8 (5) FDDB人脸评测2平台的测试集有2845张图 片,共有5171张标注人脸,范围包括不同姿态、不 重叠率损失函数为 同分辨率、不同遮挡情况的图像。评测指标是检测 L=-∑In(U (6) 出的矩形区域和标注区域的重叠率,重叠率大于等 于0.5表示检测正确。 Wider Face数据集2a是由香港中文大学公开发 ☐标签:g=(cnw,h) ☐预测:=风m, 布的人脸检测基准数据集,包含训练集、验证集和 测试集3部分,是现有FDDB数据集中标注的图像 数量的10倍。共包含3.2万张图像,39.3万张手工 标注的人脸,平均每张图像有12个标注的人脸。 图4重叠率 Wider Face数据集中的人脸姿态、大小、遮挡情况 Fig.4 Intersection-over-union 变化多样,数据集以小人脸为主且人脸区域的分辨 4基于加权得分的非极大值抑制方法 率偏低。整个Wider Face数据集中的图像分为 61个事件类别,根据标注人脸的大小,数据集中的 非极大值抑制方法(non-maximum suppression,. 人脸检测任务分为3个难度等级Easy、Medium、 NMS)是目标检测中常用的后处理方法,当算法对 Hard,所以有3条评测曲线。3.1 交叉熵损失函数 像素级分类问题是要得到每一个像素输入属于 每个类别的概率,人脸检测问题是二分类问题,即 人脸与非人脸。本文使用 sigmoid 激活函数实现从 特征空间到[0, 1]概率空间的映射,得到每一个像素 分类得分的概率,然后使用交叉熵损失函数指导网 络训练。sigmoid 激活函数为 fi(x) = 1 1+exp−(wj x+bj) (2) wjx+bj p(xi , yi) pfi 1−pfi gi = 1 gi = 0 式中的 表示在激活函数前的卷积核大小为 1×1 的卷积层。假设像素点 被预测为人脸的 概率为 ,则非人脸的概率为 ,若该像素点在人 脸区域内该像素点的标签 ,否则 。具体的 交叉熵损失函数为 Lce = − ∑ i gi ln(pfi )+(1−gi)ln(1− pfi ) (3) 3.2 重叠率损失函数 L2loss p(xi , yi) gi = (xi , yi ,wi ,hi) gei = (exi ,eyi ,wei ,hei) gi gei 之前的候选框坐标回归算法中常用的损失函数 是 ,他们认为候选框的 4 个坐标是 4 个独立变 量可以分开处理,实际上候选框的 4 个坐标之间是 有相互关联的,在训练过程中能够相互影响, 提升最 终的检测结果,所以 UnitBox[6]引入了重叠率损失函 数,使候选框坐标间的关联性体现在损失函数中指 导网络训练。本文在训练候选框坐标偏移时同样也 是使用了 UnitBox 中提出的 IOU 损失函数。如图 4 所示,假设像素点 人脸区域边框和预测矩形 框分别是 , ,则 与 的 重叠率 IoU 为 IoUi = gi ∩gei gi ∪gei (4) l2 损失函数为 L2loss = − ∑ i ∥gi −gei∥ 2 (5) 重叠率损失函数为 Liou = − ∑ i ln(IoUi) (6) 4 基于加权得分的非极大值抑制方法 非极大值抑制方法 (non-maximum suppression, NMS) 是目标检测中常用的后处理方法,当算法对 同一个目标检测出多个重叠率较高的框,需要使用 NMS 来选取重叠区域里分数最高的矩形框 (人脸的 概率最大),非极大值抑制方法采用的是排序—遍历— 消除的过程,在这个过程中检测出来的矩形框的得 分不变,在一定程度上会影响算法性能。N.Bodla 等 [21]发现在排序阶段对重叠率高于阈值且得分较低 的预测框的得分进行加权,再过滤掉得分低的矩形 框能有效解决非极大值抑制算法导致的漏检问题。 α φ α 受文献[21]的启发,我们在非极大值抑制的过 程中使用两次遍历和消除过程,在第一次遍历过程 中,当两个框的重叠率大于 时,将得分较低的窗口 的得分乘以一个权值,然后根据加权后的得分过滤 掉低于 的窗口,完成后再次使用没有加权的非极 大值抑制方法得到最终检测结果。在实验过程中, 测试了两种不同的加权方法:线性加权和高斯加 权。两种加权方法的具体计算:当两个窗口交并比 小于 ,则得分低的窗口的得分要乘以权值 weight。 线性加权为 weighti = 1−IoUi (7) 高斯加权为 weighti = exp(− IoUi 2 sigma ) (8) 5 实验与结果分析 为了验证方法的有效性,我们使用 Wider Face 数据集[22]的训练集训练,并在 FDDB 数据集[23]和 Wider Face 数据集[22]的验证集上评测结果,并与当 前领先的算法进行比较,此外本文还比较了使用不 同加权方式的非极大值抑制方法的性能。 5.1 实验数据 FDDB 人脸评测[23]平台的测试集有 2 845 张图 片,共有 5 171 张标注人脸,范围包括不同姿态、不 同分辨率、不同遮挡情况的图像。评测指标是检测 出的矩形区域和标注区域的重叠率,重叠率大于等 于 0.5 表示检测正确。 Wider Face 数据集[22]是由香港中文大学公开发 布的人脸检测基准数据集,包含训练集、验证集和 测试集 3 部分,是现有 FDDB 数据集中标注的图像 数量的 10 倍。共包含 3.2 万张图像,39.3 万张手工 标注的人脸,平均每张图像有 12 个标注的人脸。 Wider Face 数据集中的人脸姿态、大小、遮挡情况 变化多样,数据集以小人脸为主且人脸区域的分辨 率偏低。整个 Wider Face 数据集中的图像分为 61 个事件类别,根据标注人脸的大小,数据集中的 人脸检测任务分为 3 个难度等级 Easy、Medium、 Hard,所以有 3 条评测曲线。 x y w h y h x ~ w ~ ~ ᴳオ喝gi = (xit, yit, wi , hi ) 䶰≷喝gi = (xit, yit, wi , hi ) ~ ~ ~ ~ ~ ~ 图 4 重叠率 Fig. 4 Intersection-over-union ·142· 智 能 系 统 学 报 第 13 卷