第5期 夏洋洋,等:人脸识别背后的数据清理问题研究 617 通用算法[1,45,-o)。虽然DCNN是通过从大量数据 没有公开发布。由于在获取大规模标注信息丰富、 中自动学习更具区分力的特征,人脸识别的主要目 准确度高的数据库方面遇到了较大的障碍,人脸识 的也是通过从海量数据中学习具有泛化能力的人 别技术在学术领域处于被动状态,甚至落后于工业 脸特征,但最大的挑战是如何训练更好的DCNN算 界。为了克服这个问题,越来越多的研究机构也相 法。目前可以通过以下两种方式进行提升:设计更 继发布了一些大型的、多样化的数据集。目前,表2 强表达能力的网络结构:使用规模更大的数据集, 是公开的一些大型人脸数据集及其标注信息,香港 对训练集进行更精确的预处理。 中文大学团队发布了CelebFaces+数据集,包含了大 1人脸识别技术与数据库现状 约10000个身份的20万张图像,标注信息丰富,身 份信息未划分,主要可以用来研究特征点定位和人 2009年发布的LFW数据库的样本图片来自于 脸属性学习。2014年中科院自动化研究所发布并 互联网名人图像,其中有5700余人13000多张图 建立了一个大规模的CASIA-webface人脸识别数据 像,采用十折平均精度作为人脸识别性能指标,是 集,包含了大约10500个身份的49万张图像,并表 在真实条件下最具权威的人脸识别数据库之一山。 示这个数据集是作为大规模训练集来使用。在文 有许多DCNN的开源实现已经公布,2014年 献[4]中,作者也公布了2622个身份的260万张图 Facebook[)和香港中文大学[a]使用DCNN技术在 像。MegaFace[2o数量大于CASIA,但是被设计为测 人脸识别中取得重大突破,分别在LFW上获得了 试集,每个人提供的图像很少,因此它从未用于训 97.35%和97.45%的平均分类精度。随后,在LFW 练DCNN系统。目前,这些数据集仍有很多噪声, 数据集上平均分类精度分别由VGGface、CaffeFace 身份标签错误,单张图像含有多个人脸等(图1)问 和Google FaceNet刷新到97.27%、99.28%和 题,这导致数据库的准确性很难得到保证。 99.63%,百度公司甚至得到99.77%的准确率]。 DCNN算法之所以需要大量的数据,主要原因 在于越大规模的数据越能够学习到更加抽象、更加 鲁棒的特征。表1中的数据充分体现了这一趋势: DeepID系列从20万~45万,Caffeface使用70万, 百度使用120万,DeepFace为4亿,VGGFace有260 万,谷歌达到2亿,Facebook使用超过10万人的50 亿图像数据库4。 表1几种经典的DCNN模型在LW数据集上的测试结果 Table 1 The test results of several classic DCNN models on the LFW data set 训练集 网络LFW平均 图1数据库存的问题示例 名称 年份 数据量/万 数量精度/% Fig.1 Examples of problems that exist with the database DeepFace(] 2014 400 97.35 表2人脸检测和识别数据集 DeepID[2) Table 2 Face Detection and Identification Data Set 2014 20 25 97.45 图像数 DeepID2 2014 20 25 99.15 数据集 人数 注释属性 量(万) DeepID2+[15] 2015 45 25 99.47 VGG Face[4] 260 2622 人脸边框和姿态 VGGFace[4] 2015 260 98.95 CASIA WebFace() 49 10575 FaceNet(1] 2015 20000 99.63 MSCeleb(21-2] 1000 100000 Caffeface( 2016 70 99.28 人脸边框,21特征点, Facebook(14] 2015 50000 98.00 UMDfaces[23) 31 8501 性别和3D姿态 FaceNet_centerloss[]2017 505 1 99.30 MegaFace(] 100 69052 人脸识别测集合 可以看出,DCNN需要大量数据进行训练,虽然 Youtube face[24] 3 425 videos 1 595 非限制场景、视频 很多数据可以从网络上抓取,但是没有组织,需要 Low-shot face 面部区域被 手动标注信息。可用性强并且标注信息丰富的大 recogntion[2s) 100-20021000 裁剪和对齐 规模数据库往往由Google、Facebook和百度这样的 人脸边框和 大型公司持有,但因为版权和隐私的问题,它们并 MF2 Training Dataset[) 470672000 68个特征点通用算法[1,4-5,7-10] 。 虽然 DCNN 是通过从大量数据 中自动学习更具区分力的特征,人脸识别的主要目 的也是通过从海量数据中学习具有泛化能力的人 脸特征,但最大的挑战是如何训练更好的 DCNN 算 法。 目前可以通过以下两种方式进行提升:设计更 强表达能力的网络结构;使用规模更大的数据集, 对训练集进行更精确的预处理。 1 人脸识别技术与数据库现状 2009 年发布的 LFW 数据库的样本图片来自于 互联网名人图像,其中有 5 700 余人 13 000 多张图 像,采用十折平均精度作为人脸识别性能指标,是 在真实条件下最具权威的人脸识别数据库之一[11] 。 有许 多 DCNN 的 开 源 实 现 已 经 公 布, 2014 年 Facebook [9]和香港中文大学[12] 使用 DCNN 技术在 人脸识别中取得重大突破,分别在 LFW 上获得了 97.35%和 97.45%的平均分类精度。 随后,在 LFW 数据集上平均分类精度分别由 VGGface、CaffeFace 和 Google FaceNet 刷 新 到 97. 27%、 99.28% 和 99.63%,百度公司甚至得到 99.77%的准确率[13] 。 DCNN 算法之所以需要大量的数据,主要原因 在于越大规模的数据越能够学习到更加抽象、更加 鲁棒的特征。 表 1 中的数据充分体现了这一趋势: DeepID 系列从 20 万 ~ 45 万,Caffeface 使用 70 万, 百度使用 120 万,DeepFace 为 4 亿,VGGFace 有 260 万,谷歌达到 2 亿,Facebook 使用超过 10 万人的 50 亿图像数据库[14] 。 表 1 几种经典的 DCNN 模型在 LFW 数据集上的测试结果 Table 1 The test results of several classic DCNN models on the LFW data set 名称 年份 训练集 数据量/ 万 网络 数量 LFW 平均 精度/ % DeepFace [9] 2014 400 3 97.35 DeepID [2] 2014 20 25 97.45 DeepID2 [1] 2014 20 25 99.15 DeepID2+ [15] 2015 45 25 99.47 VGGFace [4] 2015 260 1 98.95 FaceNet [16] 2015 20 000 1 99.63 Caffeface [17] 2016 70 1 99.28 Facebook [14] 2015 50 000 - 98.00 FaceNet_centerloss [18] 2017 505 1 99.30 可以看出,DCNN 需要大量数据进行训练,虽然 很多数据可以从网络上抓取,但是没有组织,需要 手动标注信息。 可用性强并且标注信息丰富的大 规模数据库往往由 Google、Facebook 和百度这样的 大型公司持有,但因为版权和隐私的问题,它们并 没有公开发布。 由于在获取大规模标注信息丰富、 准确度高的数据库方面遇到了较大的障碍,人脸识 别技术在学术领域处于被动状态,甚至落后于工业 界。 为了克服这个问题,越来越多的研究机构也相 继发布了一些大型的、多样化的数据集。 目前,表 2 是公开的一些大型人脸数据集及其标注信息,香港 中文大学团队发布了 CelebFaces+数据集,包含了大 约 10 000 个身份的 20 万张图像,标注信息丰富,身 份信息未划分,主要可以用来研究特征点定位和人 脸属性学习。 2014 年中科院自动化研究所发布并 建立了一个大规模的 CASIA⁃webface 人脸识别数据 集,包含了大约 10 500 个身份的 49 万张图像,并表 示这个数据集是作为大规模训练集来使用。 在文 献[4]中,作者也公布了 2 622 个身份的 260 万张图 像。 MegaFace [20]数量大于 CASIA,但是被设计为测 试集,每个人提供的图像很少,因此它从未用于训 练 DCNN 系统。 目前,这些数据集仍有很多噪声, 身份标签错误,单张图像含有多个人脸等(图 1)问 题,这导致数据库的准确性很难得到保证。 图 1 数据库存的问题示例 Fig.1 Examples of problems that exist with the database 表 2 人脸检测和识别数据集 Table 2 Face Detection and Identification Data Set 数据集 图像数 量(万) 人数 注释属性 VGG Face [4] 260 2 622 人脸边框和姿态 CASIA WebFace [19] 49 10 575 — MSCeleb [21-22] 1 000 100 000 — UMDfaces [23] 37 8 501 人脸边框,21 特征点, 性别和 3D 姿态 MegaFace [20] 100 690 572 人脸识别测集合 Youtube face [24] 3 425 videos 1 595 非限制场景、视频 Low⁃shot face recogntion [25] 100-200 21 000 面部区域被 裁剪和对齐 MF2 Training Dataset [26] 470 672 000 人脸边框和 68 个特征点 第 5 期 夏洋洋,等:人脸识别背后的数据清理问题研究 ·617·