第12卷第5期 智能系统学报 Vol.12 No.5 2017年10月 CAAI Transactions on Intelligent Systems 0ct.2017 D0I:10.11992/tis.201706025 网络出版地址:http:/kns.cmki.ne/kcms/detail/23.1538.TP.20171021.1350.012.html 人脸识别背后的数据清理问题研究 夏洋洋1,龚勋,洪西进12 (1.西南交通大学信息科学与技术学院,四川成都611756:2.台湾科技大学资讯工程系,台湾台北10607) 摘要:人脸识别技术在深度卷积神经网络(deep convolution neural networks,DCNN)的快速发展下取得了显著的成 就。这些成果主要体现在更深层次的DCNN架构和更大的训练数据库。然而,由大多数私人公司持有的大型数据 库(百万级)并不对外公开,即使当前部分开放的大型数据库,因为标注信息过少,无法保证精度,会影响DCNN的训 练。本文提出了一种易于使用的多角度清理图像方法来提高数据的准确性:通过人脸检测算法清除掉无法检测到 人脸的图像:在清理后的数据集上利用已有模型提取图像特征,并计算相似度,进而统计出一类人脸图像中每一张 图像与其他图像不相似的数目,根据改进参数清理数据。实验表明,清理后的数据库训练模型在LFW和Youu山 Face数据集上测试的精度得到了提升,使用较小规模数据集情况下,在LFW数据集上取得了99.17%的准确率,在 Youtube Face数据集也达到了93.53%的准确率。 关键词:深度卷积神经网络:DCNN;清理图像;人脸识别:大型数据库 中图分类号:TP391.4文献标志码:A文章编号:1673-4785(2017)05-0616-08 中文引用格式:夏洋洋,龚勋,洪西进.人脸识别背后的数据清理问题研究[J].智能系统学报,2017,12(5):616-623. 英文引用格式:XIA Yangyang,GONG Xun,HONG Xijin.Research on the data cleansing problem for face recognition technology [J].CAAI transactions on intelligent systems,2017,12(5):616-623. Research on the data cleansing problem for face recognition technology XIA Yangyang',GONG Xun',HONG Xijin'.2 (1.School of Information Science and Technology,Southwest Jiaotong University,Chengdu 611756.China;2.Department of Computer Science and Information Engineering,National Taiwan University of Science and Technology,Taipei 10607,China) Abstract:Face recognition technology has made a significant progress in the rapid development of deep convolution neural networks(DCNN).These developments are mainly focused toward a denser DCNN architecture and larger training database.However,DCNN training is affected because the large-scale database held by most private companies are not publically accessible.Moreover,current large-scale open databases are not accessible because of the slight availability of the labeled information and hard-to-guarantee accuracy.This study presents an easy-to-use image cleansing method to improve the accuracy of data from the following perspectives:First,deleting the face image that cannot be detected by face detection;second,using the existing model to extract the features of an image on the cleaned dataset and calculate the similarity;and finally,counting the number of images that are unlike the other images.The data were cleansed according to the improved parameters extracted from the abovementioned perspectives.The experimental results reveal that the cleansed database training model has improved the accuracy of face recognition in LFW(labeled faces in the wild)and You'Tube face database.In the case of using a small-scale dataset,an accuracy of 99.17%and 93.53%was achieved on the LFW and YouTube face datasets,respectively. Keywords:deep convolution neural network;DCNN;cleansing image;face recognition;large database 构建一个完整的人脸识别系统主要包括图像 识别,而特征提取则是人脸识别的重点关注 采集、人脸检测、人脸对齐、特征表示与分类识别等 点[1-3]。深度学习与传统人脸识别技术的主要区 步骤。人脸识别技术的核心在于特征提取和分类 别在于:深度学习是通过从海量数据中有监督的训 练学习来获取能够有效表示人脸信息的特征,不再 收稿日期:2017-06-08.网络出版日期:2017-10-21. 需要大量的人脸识别先验知识来设计特征,这种人 基金项目:国家自然科学基金项目(61202191):计算智能重庆市重点实 脸面部特征学习更具鲁棒性46)。深度卷积神经网 验室开放基金项目(CQ-LC-2013-06):国家重点研发计划项 目(2016YFC0802209). 络(DCNN)作为一种深度学习架构,已成功应用于 通信作者:龚勋.E-mail:xgong(@swju.cdu.cm 人脸识别和其他计算机视觉任务,并逐渐成为一种第 12 卷第 5 期 智 能 系 统 学 报 Vol.12 №.5 2017 年 10 月 CAAI Transactions on Intelligent Systems Oct. 2017 DOI:10.11992 / tis.201706025 网络出版地址:http: / / kns.cnki.net / kcms/ detail / 23.1538.TP.20171021.1350.012.html 人脸识别背后的数据清理问题研究 夏洋洋1 ,龚勋1 ,洪西进1,2 (1.西南交通大学 信息科学与技术学院,四川 成都 611756; 2. 台湾科技大学 资讯工程系,台湾 台北 10607) 摘 要:人脸识别技术在深度卷积神经网络(deep convolution neural networks, DCNN)的快速发展下取得了显著的成 就。 这些成果主要体现在更深层次的 DCNN 架构和更大的训练数据库。 然而,由大多数私人公司持有的大型数据 库(百万级)并不对外公开,即使当前部分开放的大型数据库,因为标注信息过少,无法保证精度,会影响 DCNN 的训 练。 本文提出了一种易于使用的多角度清理图像方法来提高数据的准确性:通过人脸检测算法清除掉无法检测到 人脸的图像;在清理后的数据集上利用已有模型提取图像特征,并计算相似度,进而统计出一类人脸图像中每一张 图像与其他图像不相似的数目,根据改进参数清理数据。 实验表明,清理后的数据库训练模型在 LFW 和 Youtube Face 数据集上测试的精度得到了提升,使用较小规模数据集情况下,在 LFW 数据集上取得了 99.17%的准确率,在 Youtube Face 数据集也达到了 93.53%的准确率。 关键词:深度卷积神经网络;DCNN;清理图像;人脸识别;大型数据库 中图分类号:TP391.4 文献标志码:A 文章编号:1673-4785(2017)05-0616-08 中文引用格式:夏洋洋,龚勋,洪西进.人脸识别背后的数据清理问题研究[J]. 智能系统学报, 2017, 12(5): 616-623. 英文引用格式:XIA Yangyang, GONG Xun, HONG Xijin. Research on the data cleansing problem for face recognition technology [J]. CAAI transactions on intelligent systems, 2017, 12(5): 616-623. Research on the data cleansing problem for face recognition technology XIA Yangyang 1 , GONG Xun 1 , HONG Xijin 1,2 (1.School of Information Science and Technology, Southwest Jiaotong University,Chengdu 611756, China; 2. Department of Computer Science and Information Engineering, National Taiwan University of Science and Technology, Taipei 10607, China) Abstract:Face recognition technology has made a significant progress in the rapid development of deep convolution neural networks (DCNN). These developments are mainly focused toward a denser DCNN architecture and larger training database. However, DCNN training is affected because the large⁃scale database held by most private companies are not publically accessible. Moreover, current large⁃scale open databases are not accessible because of the slight availability of the labeled information and hard⁃to⁃guarantee accuracy. This study presents an easy⁃to⁃use image cleansing method to improve the accuracy of data from the following perspectives: First, deleting the face image that cannot be detected by face detection; second, using the existing model to extract the features of an image on the cleaned dataset and calculate the similarity; and finally, counting the number of images that are unlike the other images. The data were cleansed according to the improved parameters extracted from the abovementioned perspectives. The experimental results reveal that the cleansed database training model has improved the accuracy of face recognition in LFW(labeled faces in the wild) and YouTube face database. In the case of using a small⁃scale dataset, an accuracy of 99.17% and 93.53% was achieved on the LFW and YouTube face datasets, respectively. Keywords:deep convolution neural network; DCNN; cleansing image; face recognition; large database 收稿日期:2017-06-08. 网络出版日期:2017-10-21. 基金项目:国家自然科学基金项目(61202191);计算智能重庆市重点实 验室开放基金项目(CQ⁃LCI⁃2013⁃06);国家重点研发计划项 目(2016YFC0802209). 通信作者:龚勋.E⁃mail:xgong@ swjtu.edu.cn. 构建一个完整的人脸识别系统主要包括图像 采集、人脸检测、人脸对齐、特征表示与分类识别等 步骤。 人脸识别技术的核心在于特征提取和分类 识别, 而 特 征 提 取 则 是 人 脸 识 别 的 重 点 关 注 点[ 1 - 3 ] 。 深度学习与传统人脸识别技术的主要区 别在于:深度学习是通过从海量数据中有监督的训 练学习来获取能够有效表示人脸信息的特征,不再 需要大量的人脸识别先验知识来设计特征,这种人 脸面部特征学习更具鲁棒性[4-6] 。 深度卷积神经网 络(DCNN)作为一种深度学习架构,已成功应用于 人脸识别和其他计算机视觉任务,并逐渐成为一种