第12卷第5期 智能系统学报 Vol.12 No.5 2017年10月 CAAI Transactions on Intelligent Systems 0ct.2017 D0I:10.11992/tis.201706025 网络出版地址:http:/kns.cmki.ne/kcms/detail/23.1538.TP.20171021.1350.012.html 人脸识别背后的数据清理问题研究 夏洋洋1,龚勋,洪西进12 (1.西南交通大学信息科学与技术学院,四川成都611756:2.台湾科技大学资讯工程系,台湾台北10607) 摘要:人脸识别技术在深度卷积神经网络(deep convolution neural networks,DCNN)的快速发展下取得了显著的成 就。这些成果主要体现在更深层次的DCNN架构和更大的训练数据库。然而,由大多数私人公司持有的大型数据 库(百万级)并不对外公开,即使当前部分开放的大型数据库,因为标注信息过少,无法保证精度,会影响DCNN的训 练。本文提出了一种易于使用的多角度清理图像方法来提高数据的准确性:通过人脸检测算法清除掉无法检测到 人脸的图像:在清理后的数据集上利用已有模型提取图像特征,并计算相似度,进而统计出一类人脸图像中每一张 图像与其他图像不相似的数目,根据改进参数清理数据。实验表明,清理后的数据库训练模型在LFW和Youu山 Face数据集上测试的精度得到了提升,使用较小规模数据集情况下,在LFW数据集上取得了99.17%的准确率,在 Youtube Face数据集也达到了93.53%的准确率。 关键词:深度卷积神经网络:DCNN;清理图像;人脸识别:大型数据库 中图分类号:TP391.4文献标志码:A文章编号:1673-4785(2017)05-0616-08 中文引用格式:夏洋洋,龚勋,洪西进.人脸识别背后的数据清理问题研究[J].智能系统学报,2017,12(5):616-623. 英文引用格式:XIA Yangyang,GONG Xun,HONG Xijin.Research on the data cleansing problem for face recognition technology [J].CAAI transactions on intelligent systems,2017,12(5):616-623. Research on the data cleansing problem for face recognition technology XIA Yangyang',GONG Xun',HONG Xijin'.2 (1.School of Information Science and Technology,Southwest Jiaotong University,Chengdu 611756.China;2.Department of Computer Science and Information Engineering,National Taiwan University of Science and Technology,Taipei 10607,China) Abstract:Face recognition technology has made a significant progress in the rapid development of deep convolution neural networks(DCNN).These developments are mainly focused toward a denser DCNN architecture and larger training database.However,DCNN training is affected because the large-scale database held by most private companies are not publically accessible.Moreover,current large-scale open databases are not accessible because of the slight availability of the labeled information and hard-to-guarantee accuracy.This study presents an easy-to-use image cleansing method to improve the accuracy of data from the following perspectives:First,deleting the face image that cannot be detected by face detection;second,using the existing model to extract the features of an image on the cleaned dataset and calculate the similarity;and finally,counting the number of images that are unlike the other images.The data were cleansed according to the improved parameters extracted from the abovementioned perspectives.The experimental results reveal that the cleansed database training model has improved the accuracy of face recognition in LFW(labeled faces in the wild)and You'Tube face database.In the case of using a small-scale dataset,an accuracy of 99.17%and 93.53%was achieved on the LFW and YouTube face datasets,respectively. Keywords:deep convolution neural network;DCNN;cleansing image;face recognition;large database 构建一个完整的人脸识别系统主要包括图像 识别,而特征提取则是人脸识别的重点关注 采集、人脸检测、人脸对齐、特征表示与分类识别等 点[1-3]。深度学习与传统人脸识别技术的主要区 步骤。人脸识别技术的核心在于特征提取和分类 别在于:深度学习是通过从海量数据中有监督的训 练学习来获取能够有效表示人脸信息的特征,不再 收稿日期:2017-06-08.网络出版日期:2017-10-21. 需要大量的人脸识别先验知识来设计特征,这种人 基金项目:国家自然科学基金项目(61202191):计算智能重庆市重点实 脸面部特征学习更具鲁棒性46)。深度卷积神经网 验室开放基金项目(CQ-LC-2013-06):国家重点研发计划项 目(2016YFC0802209). 络(DCNN)作为一种深度学习架构,已成功应用于 通信作者:龚勋.E-mail:xgong(@swju.cdu.cm 人脸识别和其他计算机视觉任务,并逐渐成为一种
第 12 卷第 5 期 智 能 系 统 学 报 Vol.12 №.5 2017 年 10 月 CAAI Transactions on Intelligent Systems Oct. 2017 DOI:10.11992 / tis.201706025 网络出版地址:http: / / kns.cnki.net / kcms/ detail / 23.1538.TP.20171021.1350.012.html 人脸识别背后的数据清理问题研究 夏洋洋1 ,龚勋1 ,洪西进1,2 (1.西南交通大学 信息科学与技术学院,四川 成都 611756; 2. 台湾科技大学 资讯工程系,台湾 台北 10607) 摘 要:人脸识别技术在深度卷积神经网络(deep convolution neural networks, DCNN)的快速发展下取得了显著的成 就。 这些成果主要体现在更深层次的 DCNN 架构和更大的训练数据库。 然而,由大多数私人公司持有的大型数据 库(百万级)并不对外公开,即使当前部分开放的大型数据库,因为标注信息过少,无法保证精度,会影响 DCNN 的训 练。 本文提出了一种易于使用的多角度清理图像方法来提高数据的准确性:通过人脸检测算法清除掉无法检测到 人脸的图像;在清理后的数据集上利用已有模型提取图像特征,并计算相似度,进而统计出一类人脸图像中每一张 图像与其他图像不相似的数目,根据改进参数清理数据。 实验表明,清理后的数据库训练模型在 LFW 和 Youtube Face 数据集上测试的精度得到了提升,使用较小规模数据集情况下,在 LFW 数据集上取得了 99.17%的准确率,在 Youtube Face 数据集也达到了 93.53%的准确率。 关键词:深度卷积神经网络;DCNN;清理图像;人脸识别;大型数据库 中图分类号:TP391.4 文献标志码:A 文章编号:1673-4785(2017)05-0616-08 中文引用格式:夏洋洋,龚勋,洪西进.人脸识别背后的数据清理问题研究[J]. 智能系统学报, 2017, 12(5): 616-623. 英文引用格式:XIA Yangyang, GONG Xun, HONG Xijin. Research on the data cleansing problem for face recognition technology [J]. CAAI transactions on intelligent systems, 2017, 12(5): 616-623. Research on the data cleansing problem for face recognition technology XIA Yangyang 1 , GONG Xun 1 , HONG Xijin 1,2 (1.School of Information Science and Technology, Southwest Jiaotong University,Chengdu 611756, China; 2. Department of Computer Science and Information Engineering, National Taiwan University of Science and Technology, Taipei 10607, China) Abstract:Face recognition technology has made a significant progress in the rapid development of deep convolution neural networks (DCNN). These developments are mainly focused toward a denser DCNN architecture and larger training database. However, DCNN training is affected because the large⁃scale database held by most private companies are not publically accessible. Moreover, current large⁃scale open databases are not accessible because of the slight availability of the labeled information and hard⁃to⁃guarantee accuracy. This study presents an easy⁃to⁃use image cleansing method to improve the accuracy of data from the following perspectives: First, deleting the face image that cannot be detected by face detection; second, using the existing model to extract the features of an image on the cleaned dataset and calculate the similarity; and finally, counting the number of images that are unlike the other images. The data were cleansed according to the improved parameters extracted from the abovementioned perspectives. The experimental results reveal that the cleansed database training model has improved the accuracy of face recognition in LFW(labeled faces in the wild) and YouTube face database. In the case of using a small⁃scale dataset, an accuracy of 99.17% and 93.53% was achieved on the LFW and YouTube face datasets, respectively. Keywords:deep convolution neural network; DCNN; cleansing image; face recognition; large database 收稿日期:2017-06-08. 网络出版日期:2017-10-21. 基金项目:国家自然科学基金项目(61202191);计算智能重庆市重点实 验室开放基金项目(CQ⁃LCI⁃2013⁃06);国家重点研发计划项 目(2016YFC0802209). 通信作者:龚勋.E⁃mail:xgong@ swjtu.edu.cn. 构建一个完整的人脸识别系统主要包括图像 采集、人脸检测、人脸对齐、特征表示与分类识别等 步骤。 人脸识别技术的核心在于特征提取和分类 识别, 而 特 征 提 取 则 是 人 脸 识 别 的 重 点 关 注 点[ 1 - 3 ] 。 深度学习与传统人脸识别技术的主要区 别在于:深度学习是通过从海量数据中有监督的训 练学习来获取能够有效表示人脸信息的特征,不再 需要大量的人脸识别先验知识来设计特征,这种人 脸面部特征学习更具鲁棒性[4-6] 。 深度卷积神经网 络(DCNN)作为一种深度学习架构,已成功应用于 人脸识别和其他计算机视觉任务,并逐渐成为一种
第5期 夏洋洋,等:人脸识别背后的数据清理问题研究 617 通用算法[1,45,-o)。虽然DCNN是通过从大量数据 没有公开发布。由于在获取大规模标注信息丰富、 中自动学习更具区分力的特征,人脸识别的主要目 准确度高的数据库方面遇到了较大的障碍,人脸识 的也是通过从海量数据中学习具有泛化能力的人 别技术在学术领域处于被动状态,甚至落后于工业 脸特征,但最大的挑战是如何训练更好的DCNN算 界。为了克服这个问题,越来越多的研究机构也相 法。目前可以通过以下两种方式进行提升:设计更 继发布了一些大型的、多样化的数据集。目前,表2 强表达能力的网络结构:使用规模更大的数据集, 是公开的一些大型人脸数据集及其标注信息,香港 对训练集进行更精确的预处理。 中文大学团队发布了CelebFaces+数据集,包含了大 1人脸识别技术与数据库现状 约10000个身份的20万张图像,标注信息丰富,身 份信息未划分,主要可以用来研究特征点定位和人 2009年发布的LFW数据库的样本图片来自于 脸属性学习。2014年中科院自动化研究所发布并 互联网名人图像,其中有5700余人13000多张图 建立了一个大规模的CASIA-webface人脸识别数据 像,采用十折平均精度作为人脸识别性能指标,是 集,包含了大约10500个身份的49万张图像,并表 在真实条件下最具权威的人脸识别数据库之一山。 示这个数据集是作为大规模训练集来使用。在文 有许多DCNN的开源实现已经公布,2014年 献[4]中,作者也公布了2622个身份的260万张图 Facebook[)和香港中文大学[a]使用DCNN技术在 像。MegaFace[2o数量大于CASIA,但是被设计为测 人脸识别中取得重大突破,分别在LFW上获得了 试集,每个人提供的图像很少,因此它从未用于训 97.35%和97.45%的平均分类精度。随后,在LFW 练DCNN系统。目前,这些数据集仍有很多噪声, 数据集上平均分类精度分别由VGGface、CaffeFace 身份标签错误,单张图像含有多个人脸等(图1)问 和Google FaceNet刷新到97.27%、99.28%和 题,这导致数据库的准确性很难得到保证。 99.63%,百度公司甚至得到99.77%的准确率]。 DCNN算法之所以需要大量的数据,主要原因 在于越大规模的数据越能够学习到更加抽象、更加 鲁棒的特征。表1中的数据充分体现了这一趋势: DeepID系列从20万~45万,Caffeface使用70万, 百度使用120万,DeepFace为4亿,VGGFace有260 万,谷歌达到2亿,Facebook使用超过10万人的50 亿图像数据库4。 表1几种经典的DCNN模型在LW数据集上的测试结果 Table 1 The test results of several classic DCNN models on the LFW data set 训练集 网络LFW平均 图1数据库存的问题示例 名称 年份 数据量/万 数量精度/% Fig.1 Examples of problems that exist with the database DeepFace(] 2014 400 97.35 表2人脸检测和识别数据集 DeepID[2) Table 2 Face Detection and Identification Data Set 2014 20 25 97.45 图像数 DeepID2 2014 20 25 99.15 数据集 人数 注释属性 量(万) DeepID2+[15] 2015 45 25 99.47 VGG Face[4] 260 2622 人脸边框和姿态 VGGFace[4] 2015 260 98.95 CASIA WebFace() 49 10575 FaceNet(1] 2015 20000 99.63 MSCeleb(21-2] 1000 100000 Caffeface( 2016 70 99.28 人脸边框,21特征点, Facebook(14] 2015 50000 98.00 UMDfaces[23) 31 8501 性别和3D姿态 FaceNet_centerloss[]2017 505 1 99.30 MegaFace(] 100 69052 人脸识别测集合 可以看出,DCNN需要大量数据进行训练,虽然 Youtube face[24] 3 425 videos 1 595 非限制场景、视频 很多数据可以从网络上抓取,但是没有组织,需要 Low-shot face 面部区域被 手动标注信息。可用性强并且标注信息丰富的大 recogntion[2s) 100-20021000 裁剪和对齐 规模数据库往往由Google、Facebook和百度这样的 人脸边框和 大型公司持有,但因为版权和隐私的问题,它们并 MF2 Training Dataset[) 470672000 68个特征点
通用算法[1,4-5,7-10] 。 虽然 DCNN 是通过从大量数据 中自动学习更具区分力的特征,人脸识别的主要目 的也是通过从海量数据中学习具有泛化能力的人 脸特征,但最大的挑战是如何训练更好的 DCNN 算 法。 目前可以通过以下两种方式进行提升:设计更 强表达能力的网络结构;使用规模更大的数据集, 对训练集进行更精确的预处理。 1 人脸识别技术与数据库现状 2009 年发布的 LFW 数据库的样本图片来自于 互联网名人图像,其中有 5 700 余人 13 000 多张图 像,采用十折平均精度作为人脸识别性能指标,是 在真实条件下最具权威的人脸识别数据库之一[11] 。 有许 多 DCNN 的 开 源 实 现 已 经 公 布, 2014 年 Facebook [9]和香港中文大学[12] 使用 DCNN 技术在 人脸识别中取得重大突破,分别在 LFW 上获得了 97.35%和 97.45%的平均分类精度。 随后,在 LFW 数据集上平均分类精度分别由 VGGface、CaffeFace 和 Google FaceNet 刷 新 到 97. 27%、 99.28% 和 99.63%,百度公司甚至得到 99.77%的准确率[13] 。 DCNN 算法之所以需要大量的数据,主要原因 在于越大规模的数据越能够学习到更加抽象、更加 鲁棒的特征。 表 1 中的数据充分体现了这一趋势: DeepID 系列从 20 万 ~ 45 万,Caffeface 使用 70 万, 百度使用 120 万,DeepFace 为 4 亿,VGGFace 有 260 万,谷歌达到 2 亿,Facebook 使用超过 10 万人的 50 亿图像数据库[14] 。 表 1 几种经典的 DCNN 模型在 LFW 数据集上的测试结果 Table 1 The test results of several classic DCNN models on the LFW data set 名称 年份 训练集 数据量/ 万 网络 数量 LFW 平均 精度/ % DeepFace [9] 2014 400 3 97.35 DeepID [2] 2014 20 25 97.45 DeepID2 [1] 2014 20 25 99.15 DeepID2+ [15] 2015 45 25 99.47 VGGFace [4] 2015 260 1 98.95 FaceNet [16] 2015 20 000 1 99.63 Caffeface [17] 2016 70 1 99.28 Facebook [14] 2015 50 000 - 98.00 FaceNet_centerloss [18] 2017 505 1 99.30 可以看出,DCNN 需要大量数据进行训练,虽然 很多数据可以从网络上抓取,但是没有组织,需要 手动标注信息。 可用性强并且标注信息丰富的大 规模数据库往往由 Google、Facebook 和百度这样的 大型公司持有,但因为版权和隐私的问题,它们并 没有公开发布。 由于在获取大规模标注信息丰富、 准确度高的数据库方面遇到了较大的障碍,人脸识 别技术在学术领域处于被动状态,甚至落后于工业 界。 为了克服这个问题,越来越多的研究机构也相 继发布了一些大型的、多样化的数据集。 目前,表 2 是公开的一些大型人脸数据集及其标注信息,香港 中文大学团队发布了 CelebFaces+数据集,包含了大 约 10 000 个身份的 20 万张图像,标注信息丰富,身 份信息未划分,主要可以用来研究特征点定位和人 脸属性学习。 2014 年中科院自动化研究所发布并 建立了一个大规模的 CASIA⁃webface 人脸识别数据 集,包含了大约 10 500 个身份的 49 万张图像,并表 示这个数据集是作为大规模训练集来使用。 在文 献[4]中,作者也公布了 2 622 个身份的 260 万张图 像。 MegaFace [20]数量大于 CASIA,但是被设计为测 试集,每个人提供的图像很少,因此它从未用于训 练 DCNN 系统。 目前,这些数据集仍有很多噪声, 身份标签错误,单张图像含有多个人脸等(图 1)问 题,这导致数据库的准确性很难得到保证。 图 1 数据库存的问题示例 Fig.1 Examples of problems that exist with the database 表 2 人脸检测和识别数据集 Table 2 Face Detection and Identification Data Set 数据集 图像数 量(万) 人数 注释属性 VGG Face [4] 260 2 622 人脸边框和姿态 CASIA WebFace [19] 49 10 575 — MSCeleb [21-22] 1 000 100 000 — UMDfaces [23] 37 8 501 人脸边框,21 特征点, 性别和 3D 姿态 MegaFace [20] 100 690 572 人脸识别测集合 Youtube face [24] 3 425 videos 1 595 非限制场景、视频 Low⁃shot face recogntion [25] 100-200 21 000 面部区域被 裁剪和对齐 MF2 Training Dataset [26] 470 672 000 人脸边框和 68 个特征点 第 5 期 夏洋洋,等:人脸识别背后的数据清理问题研究 ·617·
.618 智能系统学报 第12卷 DCNN的训练集通常需要进行大量的预处理工 2.1脸检测与特征点定位 作,包括图像反转、随机裁剪、多尺度、彩色渲染、标 人脸检测和人脸对齐已经成为独立的研究方 准化数据等。通过不同方式的预处理产生的结果 向,人脸特征提取的前提就需要对这些算法进行研 也是有很大偏差的,主要表现为人脸检测错误、特 究,其中必不可少的就是人脸检测。人脸对齐(校 征点定位错误、身份归类错误等,这些偏差会对训 准)或面部特征点定位主要是通过瞳孔、眉毛、嘴巴 练结果造成较大的影响。为了研究数据库准确性 等人脸上的面部特征点对人脸进行校准,以促进正 对DCNN训练的影响,本文提出了一种多角度评估 面特征提取,特别是对于局部关键特征提取。 数据清理方法,主要贡献总结包括:)从人脸检测、特 本节主要对香港中文大学DCNN Seetaface、中 征点定位和人脸相似性等方面对数据库进行了清理: 国科学院的面部检测算法和深圳先进学校MTCNN 2)验证清理图像数据库的有效性,以提高训练准确性。 算法[2通过比较分析实际面部检测表现,并针对接 2 多角度评价清理图像 下来的大规模脸数据集选择适当的人脸检测和关 键点检测算法,从不同角度对DCNN、Seetaface、 首先,采用当前主流的人脸检测和特征点定位 MTCNN这3种算法进行测试和分析,验证3种算法 算法对数据集进行清理。其次,利用公开的网络模 的性能。 型提取特征计算相似度,并使用相似度统计算法进 表3是3种算法在3个不同测试数据集上5个 行图像清理。如图2是数据清理的具体流程。 关键点的平均差、标准差和效率。从表3中可以看 人脸检测 原始数 清理未检 清理过后 流程1: 据集s 特征的 出,DCNN算法的标准差均小于Seetaface算法和 测到的 的数据集 定位 图像 MTCNN算法,MTCNN算法略好于Seetaface算法, 提取特征 在这3个小数据集的测试中DCNN算法的稳定性最 流程2: 清理后的 人脸对齐 数据集 归一化 计算相 似度 好,其次是MTCNN;从平均误差来说,表现最好的是 Seetaface算法,表明Seetaface算法可以适应更广泛 最终保留 根据缝法 统计图像 的数据集 清理图像 不相似的 的场景。 数量 通过比较人脸检测和特征点定位的时间效率 图2数据清理流程 可以看出,MTCNN检测的时间最短,DCNN算法检 Fig.2 Data cleansing process 测的时间最长。 表35个关键点的测试平均差、标准差和效率 Table 3 Five key points of the test mean difference,standard deviation and efficiency DCNN算法 Seetaface算法 MTCNN 算法 平均差 标准差 效率/f·s1 平均差 标准差 效率/f·s 平均差 标准差效率1·s HELEN 0.0432 0.0136 3.6 0.0362 0.0172 5.1 0.0421 0.0250 15.4 AFW 0.0680 0.0202 4.1 0.0555 0.0383 7.0 0.0629 0.0375 18.2 LFPW 0.0594 0.0156 3.9 0.0490 0.0226 6.5 0.0482 0.0182 17.5 在本文中训练深度卷积神经网络需要大规模 根据上述实际测试的数据,本文选择MTCNN 数据集预处理工作,因此需要考虑面部检测算法的 算法作为所有数据库的面部检测算法。 综合性能,主要包括效果和效率。表4进一步进行 2.2基于相似度统计的图像清理 了两次大规模数据集的测试,从表4可以看出, 基于相似度统计的图像清理算法的3个主要步 MTCNN算法对大数据的稳定性较好,CelebA共计 骤如下。 20多万图像,测试CelebA时MTCNN算法实际检测 1)人脸对齐 的面部图像为l82387张,Seetaface算法实际检测 所有的人脸区域都需要对齐到112×96的RGB 的脸部图像为1800O32张,MTCNN算法在大规模 图像,这里使用来自于文献[17]给出的对齐好的示例 数据集中具有较好的效果。 图像的5个关键点作为标准人脸模板,根据式(1)求 表4大规模数据集上5个特征点的比较 出5个关键点的平均值,:,其中,表示对应图 Table 4 Comparison of five feature points on large-scale data 像点的坐标,i=1,2,3,4,5分别表示这5个关键点, j表示第j张图像,n表示所有的示例图像。 评价指标 数据集 MTCNN Seetaface 平均误差 Lfpw_net 0.0492 0.0555 Lx/n CelebA 0.0488 0.0490 (1) 标准误差 Lfpw net 0.0251 0.0383 CelebA 0.0248 0.0326 j=i
DCNN 的训练集通常需要进行大量的预处理工 作,包括图像反转、随机裁剪、多尺度、彩色渲染、标 准化数据等。 通过不同方式的预处理产生的结果 也是有很大偏差的,主要表现为人脸检测错误、特 征点定位错误、身份归类错误等,这些偏差会对训 练结果造成较大的影响。 为了研究数据库准确性 对 DCNN 训练的影响,本文提出了一种多角度评估 数据清理方法,主要贡献总结包括:1)从人脸检测、特 征点定位和人脸相似性等方面对数据库进行了清理; 2)验证清理图像数据库的有效性,以提高训练准确性。 2 多角度评价清理图像 首先,采用当前主流的人脸检测和特征点定位 算法对数据集进行清理。 其次,利用公开的网络模 型提取特征计算相似度,并使用相似度统计算法进 行图像清理。 如图 2 是数据清理的具体流程。 图 2 数据清理流程 Fig.2 Data cleansing process 2.1 脸检测与特征点定位 人脸检测和人脸对齐已经成为独立的研究方 向,人脸特征提取的前提就需要对这些算法进行研 究,其中必不可少的就是人脸检测。 人脸对齐(校 准)或面部特征点定位主要是通过瞳孔、眉毛、嘴巴 等人脸上的面部特征点对人脸进行校准,以促进正 面特征提取,特别是对于局部关键特征提取。 本节主要对香港中文大学 DCNN Seetaface、中 国科学院的面部检测算法和深圳先进学校 MTCNN 算法[27]通过比较分析实际面部检测表现,并针对接 下来的大规模脸数据集选择适当的人脸检测和关 键点 检 测 算 法, 从 不 同 角 度 对 DCNN、 Seetaface、 MTCNN 这 3 种算法进行测试和分析,验证 3 种算法 的性能。 表 3 是 3 种算法在 3 个不同测试数据集上 5 个 关键点的平均差、标准差和效率。 从表 3 中可以看 出,DCNN 算法的标准差均小于 Seetaface 算法和 MTCNN 算法,MTCNN 算法略好于 Seetaface 算法, 在这 3 个小数据集的测试中 DCNN 算法的稳定性最 好,其次是 MTCNN;从平均误差来说,表现最好的是 Seetaface 算法,表明 Seetaface 算法可以适应更广泛 的场景。 通过比较人脸检测和特征点定位的时间效率 可以看出,MTCNN 检测的时间最短,DCNN 算法检 测的时间最长。 表 3 5 个关键点的测试平均差、标准差和效率 Table 3 Five key points of the test mean difference, standard deviation and efficiency 算法 DCNN 算法 Seetaface 算法 MTCNN 平均差 标准差 效率/ f·s -1 平均差 标准差 效率/ f·s -1 平均差 标准差 效率/ f·s -1 HELEN 0.043 2 0.013 6 3.6 0.036 2 0.017 2 5.1 0.042 1 0.025 0 15.4 AFW 0.068 0 0.020 2 4.1 0.055 5 0.038 3 7.0 0.062 9 0.037 5 18.2 LFPW 0.059 4 0.015 6 3.9 0.049 0 0.022 6 6.5 0.048 2 0.018 2 17.5 在本文中训练深度卷积神经网络需要大规模 数据集预处理工作,因此需要考虑面部检测算法的 综合性能,主要包括效果和效率。 表 4 进一步进行 了两次大规模数据集的测试,从表 4 可以看出, MTCNN 算法对大数据的稳定性较好,CelebA 共计 20 多万图像,测试 CelebA 时 MTCNN 算法实际检测 的面部图像为 182 387 张,Seetaface 算法实际检测 的脸部图像为 180 032 张 , MTCNN 算法在大规模 数据集中具有较好的效果。 表 4 大规模数据集上 5 个特征点的比较 Table 4 Comparison of five feature points on large⁃scale data 评价指标 数据集 MTCNN Seetaface 平均误差 Lfpw_net 0.049 2 0.055 5 CelebA 0.048 8 0.049 0 标准误差 Lfpw_net 0.025 1 0.038 3 CelebA 0.024 8 0.032 6 根据上述实际测试的数据,本文选择 MTCNN 算法作为所有数据库的面部检测算法。 2.2 基于相似度统计的图像清理 基于相似度统计的图像清理算法的 3 个主要步 骤如下。 1)人脸对齐 所有的人脸区域都需要对齐到 112×96 的 RGB 图像,这里使用来自于文献[17]给出的对齐好的示例 图像的 5 个关键点作为标准人脸模板,根据式(1)求 出 5 个关键点的平均值 x - i、y - i, 其中, x j i、y j i 表示对应图 像点的坐标, i = 1,2,3,4,5 分别表示这 5 个关键点, j 表示第 j 张图像,n 表示所有的示例图像。 x - i = ∑ n j = 1 x j i / n y - i = ∑ n j = 1 y j i / n ì î í ï ï ï ï (1) ·618· 智 能 系 统 学 报 第 12 卷
第5期 夏洋洋,等:人脸识别背后的数据清理问题研究 ·619. 在求出标准模板之后,根据式(2)求出原图到 式(5)表明如何判断两个图像是否为同一 目标图像的仿射变换矩阵: 个人。 T=cp2tform(Opt,Cpt,'similarity')(2) 1, similarity(P:,P,)≥T 式中:Opt是原图像的5个特征点,Cpt是标准模板 Li= 0,similarity(P,P)<T'ij=L,2,…,n 的5个点,T是求得的变换矩阵,cp2fom是 (5) MATLAB的标准函数。 式中:P:、P,表示一类图像中的第i和j张图像的特 根据式(3)得出对齐之后的人脸图像: 征向量,L,表示第i和j张图像是否为同一个人。 crop imtransform(I,T,'XData',[1,imgsize(2)], 3)根据不相似的图像的比例确定是否清理 'YData',[1,imgsize(1)],'size',imgsize)(3) 根据式(6)统计同一个人的人脸图像C中每一 式中:I是原图像,imgsize是要对齐的图像尺寸,crop 张图像与其他图像不相似的数目。 是对齐之后的人脸图像,imtransform是MATLAB的 N:count(L=0),j=1,2,..,n (6) 标准函数。 式中:N:表示第i张图像与其他图像不相似的数 2)人脸特征提取与相似度计算 目,i=1,2,…,no 本文使用的网络结构来自于文献[17]在git山hub 最后,根据式(7)判断是否清理该图像。 上提供的开源文件,如图3所示。 delete,N:≥An C:卷积层 对于C P:池化层 hold,N,<n,i=1,2,…,n(7) LC:局 积 FC:全连接层 式中:n表示一类人脸所有图像数目:参数入的值需 Softmax @ 损失函数 要根据不同的数据库来确定,具体入值将在下一章 实验部分具体分析。 中心损 失函数 3 实验与分析 图3本文中人脸识别任务中使用的DCNN架构 Fig.3 The DCNN architecture used in face recognition 本节选取了CASIA-webface数据集、UMDface tasks in this article 数据集和MSceleb数据集作为实验数据库,并选取 Softmax损失函数和中心损失函数的联合监视. 公共权威人脸识别测试数据集LFW和Youtube face 可以训练足够强大的DCNN,并且能够得到两个关 作为测试数据集。 键学习目标的深层特征以及尽可能高的类间分散 LFW收集的数据集包含5749个不同的人,有 性和类内紧密性。这些特性对人脸识别来说至关 姿态、表情和光照的变化,总共13233个图像,旨在 重要。提取特征的模型也采用了文献[17]公布的 研究人脸图像数据库中的困难的人脸识别问题。根 网络模型,部分超参数设置由实际数据库来确定。 据LFW提供的测试方案一unrestricted with 对于特征提取,按照惯例在进入网络模型之 labeled outside data2】,我们测试了6000个人脸对, 前,RGB图像像素值将减去127.5,并将每个像素值 人脸如图4所示。 除以128。深度特征来自第一F℃层的输出,提取每 个图像的特征和翻转图像的特征,并将其作为特征 向量进行连接。在提取所有图像的特征之后,对从 两个不同图像提取的特征向量进行相似性计算。 所使用的度量是余弦距离,(4)式是两个特征向量 A和B的角度,直接计算余弦距离作为相似度S,即 AB (a)匹配的对 )不匹配的对 S(A,B)=cos(0)=AB (4) 图4LFW测试协议人脸对 使用等误差率(EER)作为判断是否为同一个 Fig.4 The LFW test protocol face pair 人的阈值。当相似度超过该阈值T时,认定为同一 Youtube脸(YTF)数据集包含3495个不同人 个人,小于阈值T时不为同一个人。对于每种图像, 的视频,平均每人2.15个视频。剪辑持续48~6070 进行相似度计算,1表示两个图像是同一个人,0表 帧,平均长度为181.3帧。它旨在研究视频下人脸 示两个图像不是一个人。 识别的问题。根据YT℉提供的测试协议
在求出标准模板之后,根据式(2)求出原图到 目标图像的仿射变换矩阵: T = cp2tform(Opt,Cpt,′similarity′) (2) 式中:Opt 是原图像的 5 个特征点,Cpt 是标准模板 的 5 个 点, T 是 求 得 的 变 换 矩 阵, cp2tform 是 MATLAB 的标准函数。 根据式(3)得出对齐之后的人脸图像: crop = imtransform(I,T,′XData′,[1,imgsize(2)], ′YData′,[1,imgsize(1)],′size′,imgsize) (3) 式中:I 是原图像,imgsize 是要对齐的图像尺寸,crop 是对齐之后的人脸图像,imtransform 是 MATLAB 的 标准函数。 2)人脸特征提取与相似度计算 本文使用的网络结构来自于文献[17]在 github 上提供的开源文件,如图 3 所示。 图 3 本文中人脸识别任务中使用的 DCNN 架构 Fig.3 The DCNN architecture used in face recognition tasks in this article Softmax 损失函数和中心损失函数的联合监视, 可以训练足够强大的 DCNN,并且能够得到两个关 键学习目标的深层特征以及尽可能高的类间分散 性和类内紧密性。 这些特性对人脸识别来说至关 重要。 提取特征的模型也采用了文献[17] 公布的 网络模型,部分超参数设置由实际数据库来确定。 对于特征提取,按照惯例在进入网络模型之 前,RGB 图像像素值将减去 127.5,并将每个像素值 除以 128。 深度特征来自第一 FC 层的输出,提取每 个图像的特征和翻转图像的特征,并将其作为特征 向量进行连接。 在提取所有图像的特征之后,对从 两个不同图像提取的特征向量进行相似性计算。 所使用的度量是余弦距离,(4)式是两个特征向量 A 和 B 的角度,直接计算余弦距离作为相似度 S,即 S(A,B) = cos(θ) = AB A B (4) 使用等误差率(EER) 作为判断是否为同一个 人的阈值。 当相似度超过该阈值 T 时,认定为同一 个人,小于阈值 T 时不为同一个人。 对于每种图像, 进行相似度计算,1 表示两个图像是同一个人,0 表 示两个图像不是一个人。 式(5) 表 明 如 何 判 断 两 个 图 像 是 否 为 同 一 个人。 Lij = 1, similarity(Pi,Pj) ≥ T {0, similarity(Pi,Pj) < T , i,j = 1,2,…,n (5) 式中: Pi、Pj 表示一类图像中的第 i 和 j 张图像的特 征向量, Lij 表示第 i 和 j 张图像是否为同一个人。 3)根据不相似的图像的比例确定是否清理 根据式(6)统计同一个人的人脸图像 C 中每一 张图像与其他图像不相似的数目。 Ni = count(Lij = 0), j = 1,2,…,n (6) 式中: Ni 表示第 i 张图像与其他图像不相似的数 目, i = 1,2,…,n。 最后,根据式(7)判断是否清理该图像。 对于 C delete, Ni ≥ λn { hold, Ni < λn , i = 1,2,…,n (7) 式中:n 表示一类人脸所有图像数目;参数 λ 的值需 要根据不同的数据库来确定,具体 λ 值将在下一章 实验部分具体分析。 3 实验与分析 本节选取了 CASIA⁃webface 数据集、 UMDface 数据集和 MSceleb 数据集作为实验数据库,并选取 公共权威人脸识别测试数据集 LFW 和 Youtube face 作为测试数据集。 LFW 收集的数据集包含 5 749 个不同的人,有 姿态、表情和光照的变化,总共 13 233 个图像,旨在 研究人脸图像数据库中的困难的人脸识别问题。 根 据 LFW 提 供 的 测 试 方 案———unrestricted with labeled outside data [28] ,我们测试了 6 000 个人脸对, 人脸如图 4 所示。 图 4 LFW 测试协议人脸对 Fig.4 The LFW test protocol face pair Youtube 脸(YTF) 数据集包含 3 495 个不同人 的视频,平均每人 2.15 个视频。 剪辑持续 48~6 070 帧,平均长度为 181.3 帧。 它旨在研究视频下人脸 识别 的 问 题。 根 据 YTF 提 供 的 测 试 协 议——— 第 5 期 夏洋洋,等:人脸识别背后的数据清理问题研究 ·619·
·620 智能系统学报 第12卷 unrestricted with labeled outside data,测试5Ooo个视 使用UMDface数据库和Webface数据库,这两个数 频对,如图5所示。 据库在保证数据准确性的程度上表现出很大的区 别,UMDface的数据库精度由大量人工信息标注,并 且类别精确,Webface数据库则没有任何人脸标注 信息,很难保证数据的准确性。MSceleb的准确性 (a)匹配的对 由于规模庞大,更加难以保证数据准确性,3个数据 库的详细数据对比如表5所示。 8883888 表53个数据库的属性比较 (b)不匹配对 Table 5 Comparison of the properties of the three data sets 图5YTF测试协议人脸视频对 数据库 人数 图像总数 是否清理噪声规模 Fig.5 The YTF test protocol face video pair UMDface 8501 367920 是 极少 3.1训练细节 Webface 10575 494414 否 少量 1)预处理 CASIA-webface和MSceleb使用2.1节提出的人 MSceleb890768549824 否 大量 脸检测方法进行初步筛选,删除未检测到的人脸图 在表6中,EER是等错误率的准确率,这种 像,并使用2.2节步骤1提出的人脸对齐将所有的 精度是面部识别性能的重要指标。当FPR较小 人脸图像对齐成112×96的RGB图像。UMDface数 时,较大的TPR可以进一步解释模型的影响,应 据集是经过包括人工判断在内的深度清理过的人 用场景不同对FPR的要求也不一样。因此,从表 脸图像数据集,清理过程在文献[23]中具体描述, 6可以看出,UMDface以最小的规模实现了最高 提供了21个关键点的标注信息,我们选取了与 的精度,而MSceleb数据库规模最大,准确率也是 MTCNN算法检测相同的5个点作为UMDface原始 最低的,数据的准确性对训练的影响是非常大 图像的特征点,并使用2.2节步骤1提出的方法进 的,即使数据规模再大,无法保证较高的数据精 行人脸对齐。 度,也无法获得较高的准确率,说明进行数据库 2)数据集设置 清理是非常有必要的。 本文使用经过2.1节方式清理过的CASIA- 表6不同模型在LFW上的准确率 webface作为第1个数据集A,共有10575个人, Table 6 The accuracy of different models on LFW 491582张图像。使用UMDface数据集作为第2个 训练数据集 EER/% FPR=0.01 FPR=0.001 数据集B,共有8501个人,367919张图像。第3个 数据集C来自于2.2节得出最终清理的数据集。经 UMDface 99.07 99.02 96.10 过2.1节方式清理过的MSceleb数据集作为第4个 Webface 98.53 98.10 92.77 数据集D,共有近90000个人,8500000余张图像。 所有数据集按照11:1的比例分为训练集和验证集, MSceleb 98.43 97.80 90.90 至少使用一个图像作为验证集。 3.3参数入和一类图像的最小灵敏度 3)网络设置和参数 参数入在清理图像数量方面起着重要作用,这 本文使用的是windows环境下配置的caffe 可能会影响训练结果,某类图像的最小数量也可能 平台[2]来训练模型,本节中的所有CNN模型都 会影响训练。 是相同的架构,详细信息如图3所示。学习率从 在第1个实验中,入从0.1~1来完成数据集A 0.1开始,学习策略(learning policy)多步衰减,迭 的深度清理工作,并使用清理后的数据集来训练模 代次数到15000、24000、32000次时学习率分 型,这些模型在LFW数据集上的准确率如图6(a) 别除10,权重腐蚀(weight decay)为0.0005,记忆 所示。显然,不做任何清理入=1)准确率最差;正确 因子(momentum)为0.9。 选择入的值可以提高DCNN特征的准确率;进行不 3.2不同准确度数据库训练实验 同程度的清理(入不同)在一定范围内准确率保持 本实验是研究不同精度数据库对训练的影响, 稳定,清理过度会导准确率下降。本文建议将入的
unrestricted with labeled outside data,测试 5 000 个视 频对,如图 5 所示。 图 5 YTF 测试协议人脸视频对 Fig.5 The YTF test protocol face video pair 3.1 训练细节 1)预处理 CASIA⁃webface 和 MSceleb 使用 2.1 节提出的人 脸检测方法进行初步筛选,删除未检测到的人脸图 像,并使用 2.2 节步骤 1 提出的人脸对齐将所有的 人脸图像对齐成 112×96 的 RGB 图像。 UMDface 数 据集是经过包括人工判断在内的深度清理过的人 脸图像数据集,清理过程在文献[23] 中具体描述, 提供了 21 个关键点的标注信息,我们选取了与 MTCNN 算法检测相同的 5 个点作为 UMDface 原始 图像的特征点,并使用 2.2 节步骤 1 提出的方法进 行人脸对齐。 2)数据集设置 本文使用经过 2. 1 节方式清理过的 CASIA⁃ webface 作为第 1 个数据集 A,共有 10 575 个人, 491 582张图像。 使用 UMDface 数据集作为第 2 个 数据集 B,共有 8 501 个人,367 919 张图像。 第 3 个 数据集 C 来自于 2.2 节得出最终清理的数据集。 经 过2.1节方式清理过的 MSceleb 数据集作为第 4 个 数据集 D,共有近 90 000 个人,8 500 000 余张图像。 所有数据集按照 11 ∶1的比例分为训练集和验证集, 至少使用一个图像作为验证集。 3)网络设置和参数 本文使 用 的 是 windows 环 境 下 配 置 的 caffe 平台[ 29] 来训练模型,本节中的所有 CNN 模型都 是相同的架构,详细信息如图 3 所示。 学习率从 0.1 开始,学习策略( learning policy) 多步衰减,迭 代次数到 15 000、24 000、32 000 次时学习率分 别除 10,权重腐蚀( weight decay)为0.000 5,记忆 因子( momentum)为 0.9。 3.2 不同准确度数据库训练实验 本实验是研究不同精度数据库对训练的影响, 使用 UMDface 数据库和 Webface 数据库,这两个数 据库在保证数据准确性的程度上表现出很大的区 别,UMDface 的数据库精度由大量人工信息标注,并 且类别精确,Webface 数据库则没有任何人脸标注 信息,很难保证数据的准确性。 MSceleb 的准确性 由于规模庞大,更加难以保证数据准确性,3 个数据 库的详细数据对比如表 5 所示。 表 5 3 个数据库的属性比较 Table 5 Comparison of the properties of the three data sets 数据库 人数 图像总数 是否清理 噪声规模 UMDface 8 501 367 920 是 极少 Webface 10 575 494 414 否 少量 MSceleb 89 076 8 549 824 否 大量 在表 6 中,EER 是等错误率的准确率,这种 精度是面部识别性能的重要指标。 当 FPR 较小 时,较大的 TPR 可以进一步解释模型的影响,应 用场景不同对 FPR 的要求也不一样。 因此,从表 6 可以看出,UMDface 以最小的规模实现了最高 的精度,而 MSceleb 数据库规模最大,准确率也是 最低的,数据的准确性对训练的影 响 是 非 常 大 的,即使数据规模再大,无法保证较高的数据精 度,也无法获得较高的准确率,说明进行数据库 清理是非常有必要的。 表 6 不同模型在 LFW 上的准确率 Table 6 The accuracy of different models on LFW 训练数据集 EER/ % FPR= 0.01 FPR= 0.001 UMDface 99.07 99.02 96.10 Webface 98.53 98.10 92.77 MSceleb 98.43 97.80 90.90 3.3 参数 λ 和一类图像的最小灵敏度 参数 λ 在清理图像数量方面起着重要作用,这 可能会影响训练结果,某类图像的最小数量也可能 会影响训练。 在第 1 个实验中,λ 从 0.1 ~ 1 来完成数据集 A 的深度清理工作,并使用清理后的数据集来训练模 型,这些模型在 LFW 数据集上的准确率如图 6( a) 所示。 显然,不做任何清理 λ = 1)准确率最差;正确 选择 λ 的值可以提高 DCNN 特征的准确率;进行不 同程度的清理(λ 不同) 在一定范围内准确率保持 稳定,清理过度会导准确率下降。 本文建议将 λ 的 ·620· 智 能 系 统 学 报 第 12 卷
第5期 夏洋洋,等:人脸识别青后的数据清理问题研究 621· 值设定在0.3~0.6,然后使用不同程度的清理数据 也是本文的2倍,而在测试时,Caffeface的结果是经 集进行训练,并选取最佳入值。 过特征提取后的PCA处理,本文的结果未被PCA 在第2个实验中,将入值设为0.4,再继续清理 处理,也与原来的结果非常接近,进一步证明了数 掉某些类图像数目少于一定值(从10到20)的类, 据清理的有效性。 然后使用清理后的数据集来训练模型,这些模型在 表7LFW上的人脸验证结果 LFW数据集上的准确率如图6(b)所示。同样,这 Table 7 Face verification results on LFW 种模式的准确性在一定范围内可以稳定,最好的结 方法 数据是 训练 训练 网络 LFW 果是每个类别中不少于15个人,参数入=0.4,清理 名称 否清理人数 数量/万 个数 准确率% 后的CASIA-webface数据集有9240个人,一共 DeepID是(人工)10177 场 子 97.45 400000张图像作为数据集C。 99.5 DeeplD2是(人工)10177 20 25 99.15 99.0 Deepface 是 4030 400 97.35 98.5 Caffeface 是 17189 70 99.28 98.0 模型A 否 10575 49 1 98.47 97.5 模型B 是 8501 36 1 99.07 97.0 模型C 是 9240 40 99.17 96.5 00.10.20.30.40.50.60.70.80.91.0 模型A模型C DeeplD DeepID2 DeepFace (a)不同的入模型 1.0 模型B 99.5 99.0 0.9 40ey 98.5 98.0 97.5 0.8 97.0 96.5 1011121314151617181920 0.7 最少图像数目 0 0.1 假正率0.2 0.3 (b)A=0.4不同的最少图像数目模型 (a)假正率0-0.3的R0C曲线 图6LFW数据集上验证准确率 1.00 模型C DeeplD2 Fig.6 Verification accuracy on LFW datasets 3.4在LFW和Youtube face上的测试结果 0.99 模型B 表7是在LFW上的测试结果和其他算法结果 的对比,模型A是由数据集A作为训练集训练出来 0.98 模型A 的模型,模型B是由数据集B作为训练集训练出来 0.97 DeepFace 的模型,模型C是由数据集C作为训练集训练出来 的模型。 0.96 图7显示了不同方法的0C曲线,我们可以从 表7和图7的测试结果中得出以下结论:首先,模型 0.95 0 0.01 0.020.030.040.05 C在3个实验模型中达到了最高的精度,模型B精 假正率 度高于模型A,表明数据清理明显提高了人脸识别 (b)假正率0-0.05的R0C曲线 训练模型的准确性;其次,原来的Caffeface训练所 图7LFW上不同方法的ROC曲线 使用的数据集包含其他数据集,数据量更大,类别 Fig.7 ROC curves of different methods on LFW
值设定在 0.3 ~ 0.6,然后使用不同程度的清理数据 集进行训练,并选取最佳 λ 值。 在第 2 个实验中,将 λ 值设为 0.4,再继续清理 掉某些类图像数目少于一定值(从 10 到 20)的类, 然后使用清理后的数据集来训练模型,这些模型在 LFW 数据集上的准确率如图 6( b) 所示。 同样,这 种模式的准确性在一定范围内可以稳定,最好的结 果是每个类别中不少于 15 个人,参数 λ = 0.4,清理 后的 CASIA⁃webface 数 据 集 有 9 240 个 人, 一 共 400 000张图像作为数据集 C。 (a)不同的 λ 模型 (b)λ= 0.4 不同的最少图像数目模型 图 6 LFW 数据集上验证准确率 Fig.6 Verification accuracy on LFW datasets 3.4 在 LFW 和 Youtube face 上的测试结果 表 7 是在 LFW 上的测试结果和其他算法结果 的对比,模型 A 是由数据集 A 作为训练集训练出来 的模型,模型 B 是由数据集 B 作为训练集训练出来 的模型,模型 C 是由数据集 C 作为训练集训练出来 的模型。 图 7 显示了不同方法的 ROC 曲线,我们可以从 表 7 和图 7 的测试结果中得出以下结论:首先,模型 C 在 3 个实验模型中达到了最高的精度,模型 B 精 度高于模型 A,表明数据清理明显提高了人脸识别 训练模型的准确性;其次,原来的 Caffeface 训练所 使用的数据集包含其他数据集,数据量更大,类别 也是本文的 2 倍,而在测试时,Caffeface 的结果是经 过特征提取后的 PCA 处理, 本文的结果未被 PCA 处理,也与原来的结果非常接近,进一步证明了数 据清理的有效性。 表 7 LFW 上的人脸验证结果 Table 7 Face verification results on LFW 方法 名称 数据是 否清理 训练 人数 训练 数量/ 万 网络 个数 LFW 准确率% DeepID 是(人工) 10 177 20 25 97.45 DeepID2 是(人工) 10 177 20 25 99.15 Deepface 是 4 030 400 3 97.35 Caffeface 是 17 189 70 1 99.28 模型 A 否 10 575 49 1 98.47 模型 B 是 8 501 36 1 99.07 模型 C 是 9 240 40 1 99.17 (a)假正率 0~ 0.3 的 ROC 曲线 (b)假正率 0~ 0.05 的 ROC 曲线 图 7 LFW 上不同方法的 ROC 曲线 Fig.7 ROC curves of different methods on LFW 第 5 期 夏洋洋,等:人脸识别背后的数据清理问题研究 ·621·
·622. 智能系统学报 第12卷 表8是在Youtube face数据集上本文得出的测 试结果和其他算法结果的对比,测试协议按照3.1 4 结束语 节对Youtube face数据库的描述进行。 深度卷积神经网络的发展得益于大数据,因为 表8 Youtube face上的人脸验证结果 数据量够大,计算机够强大,机器本身才能学习出 Table 8 Face verification results on Youtube face 各种复杂的特征。而数据的准确性,也就是数据标 方法 是否训练 训练 网络 签、标注信息、类别等的准确性,也会对训练的模型 准确率/% 名称 清理人数 数量/万 个数 结果造成一定的影响,因此本文对数据库清理方面 CNN-3DMM (0] 否10575 49 1 88.80 做了研究。本文提出将数据库进行多角度清理后 DeeplD2+ 是 10177 45 25 93.20 再训练的方法,通过与未清理和其他方法的比较发 Deepface 是 4030 400 3 91.40 现,清理后的数据库在训练上结果更精确。实验证 Caffeface 是17189 70 1 94.90 明,清理后的数据集能够提高网络识别率。 模型A 否10575 49 1 90.80 目前,大多数公开的数据集仍含有很多噪声, 模型B 是8501 36 1 92.50 模型C 是9240 40 93.54 大规模数据去除噪声仍是一个值得重视的问题。 1 本文数据清理方法是否对所有数据库具有普适性, 图8显示了不同方法的R0C曲线,我们还可以 是否已经存在更高效更准确的数据清理方法需要 从表8和图8的测试结果中得出以下结论:模型C 进一步探究。下一步的工作可以考虑将多个清理 在3个模型中已经达到了最高的准确度,远远超过 其他两个模型的ROC曲线,在非限制条件下的视频 后的数据集进行合并来扩大数据量。 场景中,数据清理仍然会提高人脸识别精度。在目 参考文献: 前的主流人脸识别算法中,模型C也显示出显著的 成果,比3DMM算法、DeepID2+算法、Deepface算 [1]SUN Y,WANG X,TANG X.Deep learning face representation by joint identification-verification[J]. 法,以及Caffeface算法训练的效果好。图像清理后, Advances in neural information processing systems,2014, 对数据集进行训练,干扰因子较小,对于基于深卷 27:1988-1996. 积神经网络的人脸识别非常有用。 [2]SUN Y,WANG X.TANG X.Deep learning face 1.0 模型B representation from predicting 10,000 classes[C]//IEEE 模型C Conference on Computer Vision and Pattern Recognition Boston,USA,2014:1891-1898. 0.9 Deepface 3DMM CNN [3]王晓刚,孙袆,汤晓鸥.从统一子空间分析到联合深度学 习:人脸识别的十年历程[J].中国计算机学会通讯, 2015,11(4):8-15. 模型A WANG Xiaogang,SUN Hui,TANG Xiaoou.From unified subspace analysis to joint depth learning:ten years of face recognition[].China computer society newsletter,2015, 0.1 0.2 0.3 假正率 11(4):8-15 (a)假正率0-0.3的R0C曲线 [4]PARKHI O M,VEDALDI A,ZISSERMAN A.Deep face 0.95 recognition[C]//British Machine Vision.London,Britain, 0.94 2015:411-4112. 0.93 Deepface [5]SCHROFF F,KALENICHENKO D,PHILBIN J.FaceNet: 0.92 模型C 0.91 A unified embedding for face recognition and clustering 0.90 [C]//IEEE Conference on Computer Vision and Pattern 0.89 3DMM CNN Recognition.Boston,USA,2015:815-823. 0.88 模型A [6]DING C.TAO D.A comprehensive survey on pose-invariant 0.87 模型B 0.86 face recognition[].Acm transactions on intelligent systems 0.85 and technology,2015,7(3):37. 00.010.020.030.040.050.060.070.080.090.10 [7]SUN Y,LIANG D,WANG X,et al.DeepID3:face 假正率 recognition with very deep neural networks[C]//IEEE (b)假正率0-0.1的R0C曲线 Conference on Computer Vision and Pattern Recognition. 图8 Youtube face上不同方法的ROC曲线 Boston,USA,2015:963-971. Fig.8 ROC curves of different methods on Youtube face [8]SUN Y,WANG X,TANG X.Hybrid deep learning for face
表 8 是在 Youtube face 数据集上本文得出的测 试结果和其他算法结果的对比,测试协议按照 3.1 节对 Youtube face 数据库的描述进行。 表 8 Youtube face 上的人脸验证结果 Table 8 Face verification results on Youtube face 方法 名称 是否 清理 训练 人数 训练 数量/ 万 网络 个数 准确率/ % CNN⁃3DMM [30] 否 10 575 49 1 88.80 DeepID2+ 是 10 177 45 25 93.20 Deepface 是 4 030 400 3 91.40 Caffeface 是 17 189 70 1 94.90 模型 A 否 10 575 49 1 90.80 模型 B 是 8 501 36 1 92.50 模型 C 是 9 240 40 1 93.54 图 8 显示了不同方法的 ROC 曲线,我们还可以 从表 8 和图 8 的测试结果中得出以下结论:模型 C 在 3 个模型中已经达到了最高的准确度,远远超过 其他两个模型的 ROC 曲线,在非限制条件下的视频 场景中,数据清理仍然会提高人脸识别精度。 在目 前的主流人脸识别算法中,模型 C 也显示出显著的 成果,比 3DMM 算法、DeepID2 +算法、Deepface 算 法,以及 Caffeface 算法训练的效果好。 图像清理后, 对数据集进行训练,干扰因子较小,对于基于深卷 积神经网络的人脸识别非常有用。 (a)假正率 0~ 0.3 的 ROC 曲线 (b)假正率 0~ 0.1 的 ROC 曲线 图 8 Youtube face 上不同方法的 ROC 曲线 Fig.8 ROC curves of different methods on Youtube face 4 结束语 深度卷积神经网络的发展得益于大数据,因为 数据量够大,计算机够强大,机器本身才能学习出 各种复杂的特征。 而数据的准确性,也就是数据标 签、标注信息、类别等的准确性,也会对训练的模型 结果造成一定的影响,因此本文对数据库清理方面 做了研究。 本文提出将数据库进行多角度清理后 再训练的方法,通过与未清理和其他方法的比较发 现,清理后的数据库在训练上结果更精确。 实验证 明,清理后的数据集能够提高网络识别率。 目前,大多数公开的数据集仍含有很多噪声, 大规模数据去除噪声仍是一个值得重视的问题。 本文数据清理方法是否对所有数据库具有普适性, 是否已经存在更高效更准确的数据清理方法需要 进一步探究。 下一步的工作可以考虑将多个清理 后的数据集进行合并来扩大数据量。 参考文献: [ 1 ] SUN Y, WANG X, TANG X. Deep learning face representation by joint identification⁃verification[J]. Advances in neural information processing systems, 2014, 27: 1988-1996. [ 2 ] SUN Y, WANG X, TANG X. Deep learning face representation from predicting 10,000 classes[C] / / IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA, 2014: 1891-1898. [3]王晓刚,孙袆,汤晓鸥. 从统一子空间分析到联合深度学 习: 人脸识别的十年历程[ J]. 中国计算机学会通讯, 2015, 11(4): 8-15 . WANG Xiaogang, SUN Hui, TANG Xiaoou. From unified subspace analysis to joint depth learning: ten years of face recognition[ J]. China computer society newsletter, 2015, 11(4): 8-15. [4]PARKHI O M, VEDALDI A, ZISSERMAN A. Deep face recognition[C] / / British Machine Vision. London, Britain, 2015: 411-4112. [5]SCHROFF F, KALENICHENKO D, PHILBIN J. FaceNet: A unified embedding for face recognition and clustering [C] / / IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA, 2015: 815-823. [6]DING C, TAO D. A comprehensive survey on pose⁃invariant face recognition[J]. Acm transactions on intelligent systems and technology, 2015, 7(3): 37. [7 ] SUN Y, LIANG D, WANG X, et al. DeepID3: face recognition with very deep neural networks[C] / / IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA, 2015: 963-971. [8]SUN Y, WANG X, TANG X. Hybrid deep learning for face ·622· 智 能 系 统 学 报 第 12 卷
第5期 夏洋洋,等:人脸识别背后的数据清理问题研究 .623· verification[J].IEEE transactions on pattern analysis and [22]GUO Y,ZHANG L,HU Y,et al.MS-celeb-1M:a dataset machine intelligence,2016,38(10):1997-2009. and benchmark for large-scale face recognition[C]//IEEE [9]TAIGMAN Y,YANG M,RANZATO M,et al.Deepface: Conference on Computer Vision and Pattern Recognition. closing the gap to human-level performance in face Las Vegas,USA,2016:113-124. verification[C]//IEEE Conference on Computer Vision and [23]BANSAL A,NANDURI A,CASTILLO C,et al.UMDFaces: Pattern Recognition.Columbia,American, 2014: an annotated face dataset for training deep networks[C]/ 1701-1708. IEEE Conference on Computer Vision and Pattern [10]WEN Y,ZHANG K,LI Z,et al.A discriminative feature Recognition.Las Vegas,USA,2016:976-984. learning approach for deep face recognition C]//ECCV [24]WOLF L,HASSENER T,MAOZ I.Face recognition in Conference on Computer Vision.Amsterdam,Holand, unconstrained videos with matched background similarity 2016:499-515. [C]//Computer Vision and Pattern Recognition.Colorado [11]HUANG G B,MATTAR M,BERG T,et al.Labeled faces Springs,USA,2011:529-534. in the wild:a database for studying face recognition in [25 GUO Y,ZHANG L.One-shot face recognition by unconstrained environments[J].Month,2007. promoting underrepresented classes[].Computer vision [12 SUN Y,WANG X,TANG X.Deep learning face and pattern recognition,arxiv:1707.05574,2017. representation from predicting 10,000 classes[C]//IEEE [26]NECH A,Kemelmachershlizerman I.Level playing field Conference on Computer Vision and Pattern Recognition. for million scale face recognition[.Computer vision and Hawaii,USA,2014:1891-1898. pattern recognition,arxiv:1705.00393,2017. [13]LIU J,DENG Y,BAI T,et al.Targeting ultimate [27]ZHANG K,ZHANG Z,LI Z,et al.Joint face detection and accuracy:face recognition via deep embedding [C]/ alignment using multitask cascaded convolutional networks[J] European Conference on Computer Vision.Amsterdam, IEEE signal processing letters,2016,23(10):1499-1503. Netherlands,2016:499-515. [28]HUANG G.B,LEARNED-MILLER E.Labeled faces in the [14]TAIGMAN Y.YANG M,RANZATO M,et al.Web-scale wild:updates and new reporting procedures[R].Technical training for face identification[C]//Computer Vision and report UM-CS-2014-003. Pattern Recognition.Columbus,USA,2014:2746-2754. [29]JIA Y,SHELHAMER E,DONAHUE J,et al.Caffe: [15 SUN Y,WANG X,TANG X.Deeply learned face convolutional architecture for fast feature embedding [J]. representations are sparse,selective,and robust[C]// Eprint arxiv,2014:675-678. Computer Vision and Pattern Recognition.Boston,USA, [30]LIU F,ZENG D,ZHAO Q,et al.Joint face alignment and 2015:2892-2900. 3D face reconstruction C]//European Conference on [16]SCHROFF F,KALENICHENKO D,PHILBIN J.Facenet: Computer Vision.Amsterdam,Netherlands,2016:545-560. a unified embedding for face recognition and clustering 作者简介: [C]//IEEE Conference on Computer Vision and Pattern 夏洋洋,男,1990年生,硕士研究 Recognition.Boston,USA,2015:815-823. 生,主要研究方向为深度学习、图像处 [17]WEN Y,ZHANG K,LI Z,et al.A discriminative feature 理、人脸识别。 learning approach for deep face recognition[C]//European Conference on Computer Vision.Amsterdam,Netherlands, 2016:499-515. [18]SEITZ S M,MILLER D,et al.The megaface benchmark: 1 million faces for recognition at scale[C]//Computer 龚勋,男,1980年生,副教授,博士, Vision and Pattern Recognition.Las Vegas,USA,2016: 主要研究方向为图像处理及模式识别、 4873-4882 三维人脸建模、人脸图像分析及识别。 [19]BORJI A,IZADI S,ITTI L.iLab-20M:a large-scale 获国家发明专利2项,发表学术论文30 controlled object dataset to investigate deep learning[Cl// 余篇,出版专著1部。 IEEE Conference on Computer Vision and Pattern Recognition.Las Vegas,USA,2016:2221-2230. [20]KEMELMACHERSHLIZERMAN I.SEITZ S M.MILLER D,et al.The megaface benchmark:I million faces for 洪西进,男,1957年生,特聘教授 recognition at scale C]//Computer Vision and Pattern 博士,主要研究方向为信息安全、生物 Recognition.Las Vegas,USA,2016:4873-4882. 辨识、云计算与大数据、智能图像处理。 [21]GUO Y,ZHANG L,HU Y,et al.MS-Celeb-1M:challenge 发明专利13项,发表SC期刊学术论 of recognizing one million celebrities in the real world[C/ 文80余篇,国际学术会议论文110 Electronic imaging.San Francisco,USA,2016:1-6. 余篇
verification[ J]. IEEE transactions on pattern analysis and machine intelligence, 2016, 38(10): 1997-2009. [9] TAIGMAN Y, YANG M, RANZATO M, et al. Deepface: closing the gap to human⁃level performance in face verification[C] / / IEEE Conference on Computer Vision and Pattern Recognition. Columbia, American, 2014: 1701-1708. [10]WEN Y, ZHANG K, LI Z, et al. A discriminative feature learning approach for deep face recognition [ C] / / ECCV Conference on Computer Vision. Amsterdam, Holand, 2016: 499-515. [11]HUANG G B,MATTAR M, BERG T, et al. Labeled faces in the wild: a database for studying face recognition in unconstrained environments[J].Month, 2007. [ 12 ] SUN Y, WANG X, TANG X. Deep learning face representation from predicting 10,000 classes[C] / / IEEE Conference on Computer Vision and Pattern Recognition. Hawaii, USA, 2014: 1891-1898. [ 13 ] LIU J, DENG Y, BAI T, et al. Targeting ultimate accuracy: face recognition via deep embedding [ C ] / / European Conference on Computer Vision. Amsterdam, Netherlands, 2016: 499-515. [14]TAIGMAN Y, YANG M, RANZATO M, et al. Web⁃scale training for face identification[C] / / Computer Vision and Pattern Recognition.Columbus, USA, 2014: 2746-2754. [15 ] SUN Y, WANG X, TANG X. Deeply learned face representations are sparse, selective, and robust [ C] / / Computer Vision and Pattern Recognition. Boston, USA, 2015: 2892-2900. [16]SCHROFF F, KALENICHENKO D, PHILBIN J. Facenet: a unified embedding for face recognition and clustering [C] / / IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA, 2015: 815-823. [17]WEN Y, ZHANG K, LI Z, et al. A discriminative feature learning approach for deep face recognition[C] / / European Conference on Computer Vision. Amsterdam, Netherlands, 2016: 499-515. [18]SEITZ S M, MILLER D, et al.The megaface benchmark: 1 million faces for recognition at scale [ C] / / Computer Vision and Pattern Recognition. Las Vegas, USA, 2016: 4873-4882. [ 19] BORJI A, IZADI S, ITTI L. iLab⁃20M: a large⁃scale controlled object dataset to investigate deep learning[C] / / IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA, 2016: 2221-2230. [20]KEMELMACHERSHLIZERMAN I, SEITZ S M, MILLER D, et al. The megaface benchmark: 1 million faces for recognition at scale [ C] / / Computer Vision and Pattern Recognition. Las Vegas, USA, 2016:4873-4882. [21]GUO Y, ZHANG L, HU Y, et al. MS⁃Celeb⁃1M: challenge of recognizing one million celebrities in the real world[C] / / Electronic imaging. San Francisco,USA,2016: 1-6. [22]GUO Y, ZHANG L, HU Y, et al. MS⁃celeb⁃1M: a dataset and benchmark for large⁃scale face recognition[C] / / IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA, 2016: 113-124. [23]BANSAL A, NANDURI A, CASTILLO C, et al. UMDFaces: an annotated face dataset for training deep networks[C] / / IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA, 2016: 976-984. [24] WOLF L, HASSENER T, MAOZ I. Face recognition in unconstrained videos with matched background similarity [C] / / Computer Vision and Pattern Recognition. Colorado Springs, USA, 2011:529-534. [ 25 ] GUO Y, ZHANG L. One⁃shot face recognition by promoting underrepresented classes [ J]. Computer vision and pattern recognition, arxiv:1707.05574,2017. [26] NECH A, Kemelmachershlizerman I. Level playing field for million scale face recognition[ J]. Computer vision and pattern recognition, arxiv:1705.00393,2017. [27] ZHANG K, ZHANG Z, LI Z, et al. Joint face detection and alignment using multitask cascaded convolutional networks[J]. IEEE signal processing letters, 2016, 23(10):1499-1503. [ 28]HUANG G.B, LEARNED⁃MILLER E. Labeled faces in the wild: updates and new reporting procedures[R]. Technical report UM⁃CS⁃2014-003. [29] JIA Y, SHELHAMER E, DONAHUE J, et al. Caffe: convolutional architecture for fast feature embedding [ J]. Eprint arxiv, 2014:675-678. [ 30]LIU F, ZENG D, ZHAO Q, et al. Joint face alignment and 3D face reconstruction [ C ] / / European Conference on Computer Vision. Amsterdam,Netherlands, 2016: 545-560. 作者简介: 夏洋洋,男, 1990 年生,硕士研究 生,主要研究方向为深度学习、图像处 理、人脸识别。 龚勋,男,1980 年生,副教授,博士, 主要研究方向为图像处理及模式识别、 三维人脸建模、人脸图像分析及识别。 获国家发明专利 2 项,发表学术论文 30 余篇,出版专著 1 部。 洪西进,男,1957 年生,特聘教授, 博士,主要研究方向为信息安全、生物 辨识、云计算与大数据、智能图像处理。 发明专利 13 项,发表 SCI 期刊学术论 文 80 余 篇, 国 际 学 术 会 议 论 文 110 余篇。 第 5 期 夏洋洋,等:人脸识别背后的数据清理问题研究 ·623·