第5期 夏洋洋,等:人脸识别背后的数据清理问题研究 ·619. 在求出标准模板之后,根据式(2)求出原图到 式(5)表明如何判断两个图像是否为同一 目标图像的仿射变换矩阵: 个人。 T=cp2tform(Opt,Cpt,'similarity')(2) 1, similarity(P:,P,)≥T 式中:Opt是原图像的5个特征点,Cpt是标准模板 Li= 0,similarity(P,P)<T'ij=L,2,…,n 的5个点,T是求得的变换矩阵,cp2fom是 (5) MATLAB的标准函数。 式中:P:、P,表示一类图像中的第i和j张图像的特 根据式(3)得出对齐之后的人脸图像: 征向量,L,表示第i和j张图像是否为同一个人。 crop imtransform(I,T,'XData',[1,imgsize(2)], 3)根据不相似的图像的比例确定是否清理 'YData',[1,imgsize(1)],'size',imgsize)(3) 根据式(6)统计同一个人的人脸图像C中每一 式中:I是原图像,imgsize是要对齐的图像尺寸,crop 张图像与其他图像不相似的数目。 是对齐之后的人脸图像,imtransform是MATLAB的 N:count(L=0),j=1,2,..,n (6) 标准函数。 式中:N:表示第i张图像与其他图像不相似的数 2)人脸特征提取与相似度计算 目,i=1,2,…,no 本文使用的网络结构来自于文献[17]在git山hub 最后,根据式(7)判断是否清理该图像。 上提供的开源文件,如图3所示。 delete,N:≥An C:卷积层 对于C P:池化层 hold,N,<n,i=1,2,…,n(7) LC:局 积 FC:全连接层 式中:n表示一类人脸所有图像数目:参数入的值需 Softmax @ 损失函数 要根据不同的数据库来确定,具体入值将在下一章 实验部分具体分析。 中心损 失函数 3 实验与分析 图3本文中人脸识别任务中使用的DCNN架构 Fig.3 The DCNN architecture used in face recognition 本节选取了CASIA-webface数据集、UMDface tasks in this article 数据集和MSceleb数据集作为实验数据库,并选取 Softmax损失函数和中心损失函数的联合监视. 公共权威人脸识别测试数据集LFW和Youtube face 可以训练足够强大的DCNN,并且能够得到两个关 作为测试数据集。 键学习目标的深层特征以及尽可能高的类间分散 LFW收集的数据集包含5749个不同的人,有 性和类内紧密性。这些特性对人脸识别来说至关 姿态、表情和光照的变化,总共13233个图像,旨在 重要。提取特征的模型也采用了文献[17]公布的 研究人脸图像数据库中的困难的人脸识别问题。根 网络模型,部分超参数设置由实际数据库来确定。 据LFW提供的测试方案一unrestricted with 对于特征提取,按照惯例在进入网络模型之 labeled outside data2】,我们测试了6000个人脸对, 前,RGB图像像素值将减去127.5,并将每个像素值 人脸如图4所示。 除以128。深度特征来自第一F℃层的输出,提取每 个图像的特征和翻转图像的特征,并将其作为特征 向量进行连接。在提取所有图像的特征之后,对从 两个不同图像提取的特征向量进行相似性计算。 所使用的度量是余弦距离,(4)式是两个特征向量 A和B的角度,直接计算余弦距离作为相似度S,即 AB (a)匹配的对 )不匹配的对 S(A,B)=cos(0)=AB (4) 图4LFW测试协议人脸对 使用等误差率(EER)作为判断是否为同一个 Fig.4 The LFW test protocol face pair 人的阈值。当相似度超过该阈值T时,认定为同一 Youtube脸(YTF)数据集包含3495个不同人 个人,小于阈值T时不为同一个人。对于每种图像, 的视频,平均每人2.15个视频。剪辑持续48~6070 进行相似度计算,1表示两个图像是同一个人,0表 帧,平均长度为181.3帧。它旨在研究视频下人脸 示两个图像不是一个人。 识别的问题。根据YT℉提供的测试协议在求出标准模板之后,根据式(2)求出原图到 目标图像的仿射变换矩阵: T = cp2tform(Opt,Cpt,′similarity′) (2) 式中:Opt 是原图像的 5 个特征点,Cpt 是标准模板 的 5 个 点, T 是 求 得 的 变 换 矩 阵, cp2tform 是 MATLAB 的标准函数。 根据式(3)得出对齐之后的人脸图像: crop = imtransform(I,T,′XData′,[1,imgsize(2)], ′YData′,[1,imgsize(1)],′size′,imgsize) (3) 式中:I 是原图像,imgsize 是要对齐的图像尺寸,crop 是对齐之后的人脸图像,imtransform 是 MATLAB 的 标准函数。 2)人脸特征提取与相似度计算 本文使用的网络结构来自于文献[17]在 github 上提供的开源文件,如图 3 所示。 图 3 本文中人脸识别任务中使用的 DCNN 架构 Fig.3 The DCNN architecture used in face recognition tasks in this article Softmax 损失函数和中心损失函数的联合监视, 可以训练足够强大的 DCNN,并且能够得到两个关 键学习目标的深层特征以及尽可能高的类间分散 性和类内紧密性。 这些特性对人脸识别来说至关 重要。 提取特征的模型也采用了文献[17] 公布的 网络模型,部分超参数设置由实际数据库来确定。 对于特征提取,按照惯例在进入网络模型之 前,RGB 图像像素值将减去 127.5,并将每个像素值 除以 128。 深度特征来自第一 FC 层的输出,提取每 个图像的特征和翻转图像的特征,并将其作为特征 向量进行连接。 在提取所有图像的特征之后,对从 两个不同图像提取的特征向量进行相似性计算。 所使用的度量是余弦距离,(4)式是两个特征向量 A 和 B 的角度,直接计算余弦距离作为相似度 S,即 S(A,B) = cos(θ) = AB A B (4) 使用等误差率(EER) 作为判断是否为同一个 人的阈值。 当相似度超过该阈值 T 时,认定为同一 个人,小于阈值 T 时不为同一个人。 对于每种图像, 进行相似度计算,1 表示两个图像是同一个人,0 表 示两个图像不是一个人。 式(5) 表 明 如 何 判 断 两 个 图 像 是 否 为 同 一 个人。 Lij = 1, similarity(Pi,Pj) ≥ T {0, similarity(Pi,Pj) < T , i,j = 1,2,…,n (5) 式中: Pi、Pj 表示一类图像中的第 i 和 j 张图像的特 征向量, Lij 表示第 i 和 j 张图像是否为同一个人。 3)根据不相似的图像的比例确定是否清理 根据式(6)统计同一个人的人脸图像 C 中每一 张图像与其他图像不相似的数目。 Ni = count(Lij = 0), j = 1,2,…,n (6) 式中: Ni 表示第 i 张图像与其他图像不相似的数 目, i = 1,2,…,n。 最后,根据式(7)判断是否清理该图像。 对于 C delete, Ni ≥ λn { hold, Ni < λn , i = 1,2,…,n (7) 式中:n 表示一类人脸所有图像数目;参数 λ 的值需 要根据不同的数据库来确定,具体 λ 值将在下一章 实验部分具体分析。 3 实验与分析 本节选取了 CASIA⁃webface 数据集、 UMDface 数据集和 MSceleb 数据集作为实验数据库,并选取 公共权威人脸识别测试数据集 LFW 和 Youtube face 作为测试数据集。 LFW 收集的数据集包含 5 749 个不同的人,有 姿态、表情和光照的变化,总共 13 233 个图像,旨在 研究人脸图像数据库中的困难的人脸识别问题。 根 据 LFW 提 供 的 测 试 方 案———unrestricted with labeled outside data [28] ,我们测试了 6 000 个人脸对, 人脸如图 4 所示。 图 4 LFW 测试协议人脸对 Fig.4 The LFW test protocol face pair Youtube 脸(YTF) 数据集包含 3 495 个不同人 的视频,平均每人 2.15 个视频。 剪辑持续 48~6 070 帧,平均长度为 181.3 帧。 它旨在研究视频下人脸 识别 的 问 题。 根 据 YTF 提 供 的 测 试 协 议——— 第 5 期 夏洋洋,等:人脸识别背后的数据清理问题研究 ·619·