·620 智能系统学报 第12卷 unrestricted with labeled outside data,测试5Ooo个视 使用UMDface数据库和Webface数据库,这两个数 频对,如图5所示。 据库在保证数据准确性的程度上表现出很大的区 别,UMDface的数据库精度由大量人工信息标注,并 且类别精确,Webface数据库则没有任何人脸标注 信息,很难保证数据的准确性。MSceleb的准确性 (a)匹配的对 由于规模庞大,更加难以保证数据准确性,3个数据 库的详细数据对比如表5所示。 8883888 表53个数据库的属性比较 (b)不匹配对 Table 5 Comparison of the properties of the three data sets 图5YTF测试协议人脸视频对 数据库 人数 图像总数 是否清理噪声规模 Fig.5 The YTF test protocol face video pair UMDface 8501 367920 是 极少 3.1训练细节 Webface 10575 494414 否 少量 1)预处理 CASIA-webface和MSceleb使用2.1节提出的人 MSceleb890768549824 否 大量 脸检测方法进行初步筛选,删除未检测到的人脸图 在表6中,EER是等错误率的准确率,这种 像,并使用2.2节步骤1提出的人脸对齐将所有的 精度是面部识别性能的重要指标。当FPR较小 人脸图像对齐成112×96的RGB图像。UMDface数 时,较大的TPR可以进一步解释模型的影响,应 据集是经过包括人工判断在内的深度清理过的人 用场景不同对FPR的要求也不一样。因此,从表 脸图像数据集,清理过程在文献[23]中具体描述, 6可以看出,UMDface以最小的规模实现了最高 提供了21个关键点的标注信息,我们选取了与 的精度,而MSceleb数据库规模最大,准确率也是 MTCNN算法检测相同的5个点作为UMDface原始 最低的,数据的准确性对训练的影响是非常大 图像的特征点,并使用2.2节步骤1提出的方法进 的,即使数据规模再大,无法保证较高的数据精 行人脸对齐。 度,也无法获得较高的准确率,说明进行数据库 2)数据集设置 清理是非常有必要的。 本文使用经过2.1节方式清理过的CASIA- 表6不同模型在LFW上的准确率 webface作为第1个数据集A,共有10575个人, Table 6 The accuracy of different models on LFW 491582张图像。使用UMDface数据集作为第2个 训练数据集 EER/% FPR=0.01 FPR=0.001 数据集B,共有8501个人,367919张图像。第3个 数据集C来自于2.2节得出最终清理的数据集。经 UMDface 99.07 99.02 96.10 过2.1节方式清理过的MSceleb数据集作为第4个 Webface 98.53 98.10 92.77 数据集D,共有近90000个人,8500000余张图像。 所有数据集按照11:1的比例分为训练集和验证集, MSceleb 98.43 97.80 90.90 至少使用一个图像作为验证集。 3.3参数入和一类图像的最小灵敏度 3)网络设置和参数 参数入在清理图像数量方面起着重要作用,这 本文使用的是windows环境下配置的caffe 可能会影响训练结果,某类图像的最小数量也可能 平台[2]来训练模型,本节中的所有CNN模型都 会影响训练。 是相同的架构,详细信息如图3所示。学习率从 在第1个实验中,入从0.1~1来完成数据集A 0.1开始,学习策略(learning policy)多步衰减,迭 的深度清理工作,并使用清理后的数据集来训练模 代次数到15000、24000、32000次时学习率分 型,这些模型在LFW数据集上的准确率如图6(a) 别除10,权重腐蚀(weight decay)为0.0005,记忆 所示。显然,不做任何清理入=1)准确率最差;正确 因子(momentum)为0.9。 选择入的值可以提高DCNN特征的准确率;进行不 3.2不同准确度数据库训练实验 同程度的清理(入不同)在一定范围内准确率保持 本实验是研究不同精度数据库对训练的影响, 稳定,清理过度会导准确率下降。本文建议将入的unrestricted with labeled outside data,测试 5 000 个视 频对,如图 5 所示。 图 5 YTF 测试协议人脸视频对 Fig.5 The YTF test protocol face video pair 3.1 训练细节 1)预处理 CASIA⁃webface 和 MSceleb 使用 2.1 节提出的人 脸检测方法进行初步筛选,删除未检测到的人脸图 像,并使用 2.2 节步骤 1 提出的人脸对齐将所有的 人脸图像对齐成 112×96 的 RGB 图像。 UMDface 数 据集是经过包括人工判断在内的深度清理过的人 脸图像数据集,清理过程在文献[23] 中具体描述, 提供了 21 个关键点的标注信息,我们选取了与 MTCNN 算法检测相同的 5 个点作为 UMDface 原始 图像的特征点,并使用 2.2 节步骤 1 提出的方法进 行人脸对齐。 2)数据集设置 本文使用经过 2. 1 节方式清理过的 CASIA⁃ webface 作为第 1 个数据集 A,共有 10 575 个人, 491 582张图像。 使用 UMDface 数据集作为第 2 个 数据集 B,共有 8 501 个人,367 919 张图像。 第 3 个 数据集 C 来自于 2.2 节得出最终清理的数据集。 经 过2.1节方式清理过的 MSceleb 数据集作为第 4 个 数据集 D,共有近 90 000 个人,8 500 000 余张图像。 所有数据集按照 11 ∶1的比例分为训练集和验证集, 至少使用一个图像作为验证集。 3)网络设置和参数 本文使 用 的 是 windows 环 境 下 配 置 的 caffe 平台[ 29] 来训练模型,本节中的所有 CNN 模型都 是相同的架构,详细信息如图 3 所示。 学习率从 0.1 开始,学习策略( learning policy) 多步衰减,迭 代次数到 15 000、24 000、32 000 次时学习率分 别除 10,权重腐蚀( weight decay)为0.000 5,记忆 因子( momentum)为 0.9。 3.2 不同准确度数据库训练实验 本实验是研究不同精度数据库对训练的影响, 使用 UMDface 数据库和 Webface 数据库,这两个数 据库在保证数据准确性的程度上表现出很大的区 别,UMDface 的数据库精度由大量人工信息标注,并 且类别精确,Webface 数据库则没有任何人脸标注 信息,很难保证数据的准确性。 MSceleb 的准确性 由于规模庞大,更加难以保证数据准确性,3 个数据 库的详细数据对比如表 5 所示。 表 5 3 个数据库的属性比较 Table 5 Comparison of the properties of the three data sets 数据库 人数 图像总数 是否清理 噪声规模 UMDface 8 501 367 920 是 极少 Webface 10 575 494 414 否 少量 MSceleb 89 076 8 549 824 否 大量 在表 6 中,EER 是等错误率的准确率,这种 精度是面部识别性能的重要指标。 当 FPR 较小 时,较大的 TPR 可以进一步解释模型的影响,应 用场景不同对 FPR 的要求也不一样。 因此,从表 6 可以看出,UMDface 以最小的规模实现了最高 的精度,而 MSceleb 数据库规模最大,准确率也是 最低的,数据的准确性对训练的影 响 是 非 常 大 的,即使数据规模再大,无法保证较高的数据精 度,也无法获得较高的准确率,说明进行数据库 清理是非常有必要的。 表 6 不同模型在 LFW 上的准确率 Table 6 The accuracy of different models on LFW 训练数据集 EER/ % FPR= 0.01 FPR= 0.001 UMDface 99.07 99.02 96.10 Webface 98.53 98.10 92.77 MSceleb 98.43 97.80 90.90 3.3 参数 λ 和一类图像的最小灵敏度 参数 λ 在清理图像数量方面起着重要作用,这 可能会影响训练结果,某类图像的最小数量也可能 会影响训练。 在第 1 个实验中,λ 从 0.1 ~ 1 来完成数据集 A 的深度清理工作,并使用清理后的数据集来训练模 型,这些模型在 LFW 数据集上的准确率如图 6( a) 所示。 显然,不做任何清理 λ = 1)准确率最差;正确 选择 λ 的值可以提高 DCNN 特征的准确率;进行不 同程度的清理(λ 不同) 在一定范围内准确率保持 稳定,清理过度会导准确率下降。 本文建议将 λ 的 ·620· 智 能 系 统 学 报 第 12 卷