通用算法［１，４－５，７－１０］。虽然ＤＣＮＮ是通过从大量数据中

正在加载图片...

第5期夏洋洋，等：人脸识别背后的数据清理问题研究 617 通用算法[1,45，-o)。虽然DCNN是通过从大量数据没有公开发布。由于在获取大规模标注信息丰富、中自动学习更具区分力的特征，人脸识别的主要目准确度高的数据库方面遇到了较大的障碍，人脸识的也是通过从海量数据中学习具有泛化能力的人别技术在学术领域处于被动状态，甚至落后于工业脸特征，但最大的挑战是如何训练更好的DCNN算界。为了克服这个问题，越来越多的研究机构也相法。目前可以通过以下两种方式进行提升：设计更继发布了一些大型的、多样化的数据集。目前，表2 强表达能力的网络结构：使用规模更大的数据集，是公开的一些大型人脸数据集及其标注信息，香港对训练集进行更精确的预处理。中文大学团队发布了CelebFaces+数据集，包含了大 1人脸识别技术与数据库现状约10000个身份的20万张图像，标注信息丰富，身份信息未划分，主要可以用来研究特征点定位和人 2009年发布的LFW数据库的样本图片来自于脸属性学习。2014年中科院自动化研究所发布并互联网名人图像，其中有5700余人13000多张图建立了一个大规模的CASIA-webface人脸识别数据像，采用十折平均精度作为人脸识别性能指标，是集，包含了大约10500个身份的49万张图像，并表在真实条件下最具权威的人脸识别数据库之一山。示这个数据集是作为大规模训练集来使用。在文有许多DCNN的开源实现已经公布，2014年献[4]中，作者也公布了2622个身份的260万张图 Facebook[)和香港中文大学[a]使用DCNN技术在像。MegaFace[2o数量大于CASIA,但是被设计为测人脸识别中取得重大突破，分别在LFW上获得了试集，每个人提供的图像很少，因此它从未用于训 97.35%和97.45%的平均分类精度。随后，在LFW 练DCNN系统。目前，这些数据集仍有很多噪声，数据集上平均分类精度分别由VGGface、CaffeFace 身份标签错误，单张图像含有多个人脸等（图1）问和Google FaceNet刷新到97.27%、99.28%和题，这导致数据库的准确性很难得到保证。 99.63%,百度公司甚至得到99.77%的准确率]。 DCNN算法之所以需要大量的数据，主要原因在于越大规模的数据越能够学习到更加抽象、更加鲁棒的特征。表1中的数据充分体现了这一趋势： DeepID系列从20万~45万，Caffeface使用70万，百度使用120万，DeepFace为4亿，VGGFace有260 万，谷歌达到2亿，Facebook使用超过10万人的50 亿图像数据库4。表1几种经典的DCNN模型在LW数据集上的测试结果 Table 1 The test results of several classic DCNN models on the LFW data set 训练集网络LFW平均图1数据库存的问题示例名称年份数据量/万数量精度/% Fig.1 Examples of problems that exist with the database DeepFace(] 2014 400 97.35 表2人脸检测和识别数据集 DeepID[2) Table 2 Face Detection and Identification Data Set 2014 20 25 97.45 图像数 DeepID2 2014 20 25 99.15 数据集人数注释属性量（万） DeepID2+[15] 2015 45 25 99.47 VGG Face[4] 260 2622 人脸边框和姿态 VGGFace[4] 2015 260 98.95 CASIA WebFace() 49 10575 FaceNet(1] 2015 20000 99.63 MSCeleb(21-2] 1000 100000 Caffeface( 2016 70 99.28 人脸边框，21特征点， Facebook(14] 2015 50000 98.00 UMDfaces[23) 31 8501 性别和3D姿态 FaceNet_centerloss[]2017 505 1 99.30 MegaFace(] 100 69052 人脸识别测集合可以看出，DCNN需要大量数据进行训练，虽然 Youtube face[24] 3 425 videos 1 595 非限制场景、视频很多数据可以从网络上抓取，但是没有组织，需要 Low-shot face 面部区域被手动标注信息。可用性强并且标注信息丰富的大 recogntion[2s) 100-20021000 裁剪和对齐规模数据库往往由Google、Facebook和百度这样的人脸边框和大型公司持有，但因为版权和隐私的问题，它们并 MF2 Training Dataset[) 470672000 68个特征点通用算法［１，４－５，７－１０］。虽然ＤＣＮＮ是通过从大量数据中自动学习更具区分力的特征，人脸识别的主要目的也是通过从海量数据中学习具有泛化能力的人脸特征，但最大的挑战是如何训练更好的ＤＣＮＮ算法。目前可以通过以下两种方式进行提升：设计更强表达能力的网络结构；使用规模更大的数据集，对训练集进行更精确的预处理。１人脸识别技术与数据库现状２００９年发布的ＬＦＷ数据库的样本图片来自于互联网名人图像，其中有５７００余人１３０００多张图像，采用十折平均精度作为人脸识别性能指标，是在真实条件下最具权威的人脸识别数据库之一［１１］。有许多ＤＣＮＮ的开源实现已经公布，２０１４年Ｆａｃｅｂｏｏｋ［９］和香港中文大学［１２］使用ＤＣＮＮ技术在人脸识别中取得重大突破，分别在ＬＦＷ上获得了９７．３５％和９７．４５％的平均分类精度。随后，在ＬＦＷ数据集上平均分类精度分别由ＶＧＧｆａｃｅ、ＣａｆｆｅＦａｃｅ和ＧｏｏｇｌｅＦａｃｅＮｅｔ刷新到９７．２７％、９９．２８％和９９．６３％，百度公司甚至得到９９．７７％的准确率［１３］。ＤＣＮＮ算法之所以需要大量的数据，主要原因在于越大规模的数据越能够学习到更加抽象、更加鲁棒的特征。表１中的数据充分体现了这一趋势：ＤｅｅｐＩＤ系列从２０万～４５万，Ｃａｆｆｅｆａｃｅ使用７０万，百度使用１２０万，ＤｅｅｐＦａｃｅ为４亿，ＶＧＧＦａｃｅ有２６０万，谷歌达到２亿，Ｆａｃｅｂｏｏｋ使用超过１０万人的５０亿图像数据库［１４］。表１几种经典的ＤＣＮＮ模型在ＬＦＷ数据集上的测试结果Ｔａｂｌｅ１ＴｈｅｔｅｓｔｒｅｓｕｌｔｓｏｆｓｅｖｅｒａｌｃｌａｓｓｉｃＤＣＮＮｍｏｄｅｌｓｏｎｔｈｅＬＦＷｄａｔａｓｅｔ名称年份训练集数据量／万网络数量ＬＦＷ平均精度／％ＤｅｅｐＦａｃｅ［９］２０１４４００３９７．３５ＤｅｅｐＩＤ［２］２０１４２０２５９７．４５ＤｅｅｐＩＤ２［１］２０１４２０２５９９．１５ＤｅｅｐＩＤ２＋［１５］２０１５４５２５９９．４７ＶＧＧＦａｃｅ［４］２０１５２６０１９８．９５ＦａｃｅＮｅｔ［１６］２０１５２００００１９９．６３Ｃａｆｆｅｆａｃｅ［１７］２０１６７０１９９．２８Ｆａｃｅｂｏｏｋ［１４］２０１５５００００－９８．００ＦａｃｅＮｅｔ＿ｃｅｎｔｅｒｌｏｓｓ［１８］２０１７５０５１９９．３０可以看出，ＤＣＮＮ需要大量数据进行训练，虽然很多数据可以从网络上抓取，但是没有组织，需要手动标注信息。可用性强并且标注信息丰富的大规模数据库往往由Ｇｏｏｇｌｅ、Ｆａｃｅｂｏｏｋ和百度这样的大型公司持有，但因为版权和隐私的问题，它们并没有公开发布。由于在获取大规模标注信息丰富、准确度高的数据库方面遇到了较大的障碍，人脸识别技术在学术领域处于被动状态，甚至落后于工业界。为了克服这个问题，越来越多的研究机构也相继发布了一些大型的、多样化的数据集。目前，表２是公开的一些大型人脸数据集及其标注信息，香港中文大学团队发布了ＣｅｌｅｂＦａｃｅｓ＋数据集，包含了大约１００００个身份的２０万张图像，标注信息丰富，身份信息未划分，主要可以用来研究特征点定位和人脸属性学习。２０１４年中科院自动化研究所发布并建立了一个大规模的ＣＡＳＩＡ⁃ｗｅｂｆａｃｅ人脸识别数据集，包含了大约１０５００个身份的４９万张图像，并表示这个数据集是作为大规模训练集来使用。在文献［４］中，作者也公布了２６２２个身份的２６０万张图像。ＭｅｇａＦａｃｅ［２０］数量大于ＣＡＳＩＡ，但是被设计为测试集，每个人提供的图像很少，因此它从未用于训练ＤＣＮＮ系统。目前，这些数据集仍有很多噪声，身份标签错误，单张图像含有多个人脸等（图１）问题，这导致数据库的准确性很难得到保证。图１数据库存的问题示例Ｆｉｇ．１Ｅｘａｍｐｌｅｓｏｆｐｒｏｂｌｅｍｓｔｈａｔｅｘｉｓｔｗｉｔｈｔｈｅｄａｔａｂａｓｅ表２人脸检测和识别数据集Ｔａｂｌｅ２ＦａｃｅＤｅｔｅｃｔｉｏｎａｎｄＩｄｅｎｔｉｆｉｃａｔｉｏｎＤａｔａＳｅｔ数据集图像数量（万）人数注释属性ＶＧＧＦａｃｅ［４］２６０２６２２人脸边框和姿态ＣＡＳＩＡＷｅｂＦａｃｅ［１９］４９１０５７５ — ＭＳＣｅｌｅｂ［２１－２２］１０００１０００００ — ＵＭＤｆａｃｅｓ［２３］３７８５０１人脸边框，２１特征点，性别和３Ｄ姿态ＭｅｇａＦａｃｅ［２０］１００６９０５７２人脸识别测集合Ｙｏｕｔｕｂｅｆａｃｅ［２４］３４２５ｖｉｄｅｏｓ１５９５非限制场景、视频Ｌｏｗ⁃ｓｈｏｔｆａｃｅｒｅｃｏｇｎｔｉｏｎ［２５］１００－２００２１０００面部区域被裁剪和对齐ＭＦ２ＴｒａｉｎｉｎｇＤａｔａｓｅｔ［２６］４７０６７２０００人脸边框和６８个特征点第５期夏洋洋，等：人脸识别背后的数据清理问题研究 ·６１７·

<<向上翻页向下翻页>>

点击下载：【机器感知与模式识别】人脸识别背后的数据清理问题研究