第１２卷第５期智能系统学报Ｖｏｌ．１２ №．５２０

正在加载图片...

第12卷第5期智能系统学报 Vol.12 No.5 2017年10月 CAAI Transactions on Intelligent Systems 0ct.2017 D0I:10.11992/tis.201706025 网络出版地址：http:/kns.cmki.ne/kcms/detail/23.1538.TP.20171021.1350.012.html 人脸识别背后的数据清理问题研究夏洋洋1，龚勋，洪西进12 (1.西南交通大学信息科学与技术学院，四川成都611756：2.台湾科技大学资讯工程系，台湾台北10607) 摘要：人脸识别技术在深度卷积神经网络(deep convolution neural networks,DCNN)的快速发展下取得了显著的成就。这些成果主要体现在更深层次的DCNN架构和更大的训练数据库。然而，由大多数私人公司持有的大型数据库（百万级）并不对外公开，即使当前部分开放的大型数据库，因为标注信息过少，无法保证精度，会影响DCNN的训练。本文提出了一种易于使用的多角度清理图像方法来提高数据的准确性：通过人脸检测算法清除掉无法检测到人脸的图像：在清理后的数据集上利用已有模型提取图像特征，并计算相似度，进而统计出一类人脸图像中每一张图像与其他图像不相似的数目，根据改进参数清理数据。实验表明，清理后的数据库训练模型在LFW和Youu山 Face数据集上测试的精度得到了提升，使用较小规模数据集情况下，在LFW数据集上取得了99.17%的准确率，在 Youtube Face数据集也达到了93.53%的准确率。关键词：深度卷积神经网络：DCNN;清理图像；人脸识别：大型数据库中图分类号：TP391.4文献标志码：A文章编号：1673-4785(2017)05-0616-08 中文引用格式：夏洋洋，龚勋，洪西进.人脸识别背后的数据清理问题研究[J].智能系统学报，2017,12(5)：616-623. 英文引用格式：XIA Yangyang,GONG Xun,HONG Xijin.Research on the data cleansing problem for face recognition technology [J].CAAI transactions on intelligent systems,2017,12(5):616-623. Research on the data cleansing problem for face recognition technology XIA Yangyang',GONG Xun',HONG Xijin'.2 (1.School of Information Science and Technology,Southwest Jiaotong University,Chengdu 611756.China;2.Department of Computer Science and Information Engineering,National Taiwan University of Science and Technology,Taipei 10607,China) Abstract:Face recognition technology has made a significant progress in the rapid development of deep convolution neural networks(DCNN).These developments are mainly focused toward a denser DCNN architecture and larger training database.However,DCNN training is affected because the large-scale database held by most private companies are not publically accessible.Moreover,current large-scale open databases are not accessible because of the slight availability of the labeled information and hard-to-guarantee accuracy.This study presents an easy-to-use image cleansing method to improve the accuracy of data from the following perspectives:First,deleting the face image that cannot be detected by face detection;second,using the existing model to extract the features of an image on the cleaned dataset and calculate the similarity;and finally,counting the number of images that are unlike the other images.The data were cleansed according to the improved parameters extracted from the abovementioned perspectives.The experimental results reveal that the cleansed database training model has improved the accuracy of face recognition in LFW(labeled faces in the wild)and You'Tube face database.In the case of using a small-scale dataset,an accuracy of 99.17%and 93.53%was achieved on the LFW and YouTube face datasets,respectively. Keywords:deep convolution neural network;DCNN;cleansing image;face recognition;large database 构建一个完整的人脸识别系统主要包括图像识别，而特征提取则是人脸识别的重点关注采集、人脸检测、人脸对齐、特征表示与分类识别等点[1-3]。深度学习与传统人脸识别技术的主要区步骤。人脸识别技术的核心在于特征提取和分类别在于：深度学习是通过从海量数据中有监督的训练学习来获取能够有效表示人脸信息的特征，不再收稿日期：2017-06-08.网络出版日期：2017-10-21. 需要大量的人脸识别先验知识来设计特征，这种人基金项目：国家自然科学基金项目(61202191)：计算智能重庆市重点实脸面部特征学习更具鲁棒性46)。深度卷积神经网验室开放基金项目(CQ-LC-2013-06):国家重点研发计划项目(2016YFC0802209). 络(DCNN)作为一种深度学习架构，已成功应用于通信作者：龚勋.E-mail:xgong(@swju.cdu.cm 人脸识别和其他计算机视觉任务，并逐渐成为一种第１２卷第５期智能系统学报Ｖｏｌ．１２ №．５２０１７年１０月ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓＯｃｔ．２０１７ＤＯＩ：１０．１１９９２／ｔｉｓ．２０１７０６０２５网络出版地址：ｈｔｔｐ：／／ｋｎｓ．ｃｎｋｉ．ｎｅｔ／ｋｃｍｓ／ｄｅｔａｉｌ／２３．１５３８．ＴＰ．２０１７１０２１．１３５０．０１２．ｈｔｍｌ人脸识别背后的数据清理问题研究夏洋洋１，龚勋１，洪西进１，２（１．西南交通大学信息科学与技术学院，四川成都６１１７５６；２．台湾科技大学资讯工程系，台湾台北１０６０７）摘要：人脸识别技术在深度卷积神经网络（ｄｅｅｐｃｏｎｖｏｌｕｔｉｏｎｎｅｕｒａｌｎｅｔｗｏｒｋｓ，ＤＣＮＮ）的快速发展下取得了显著的成就。这些成果主要体现在更深层次的ＤＣＮＮ架构和更大的训练数据库。然而，由大多数私人公司持有的大型数据库（百万级）并不对外公开，即使当前部分开放的大型数据库，因为标注信息过少，无法保证精度，会影响ＤＣＮＮ的训练。本文提出了一种易于使用的多角度清理图像方法来提高数据的准确性：通过人脸检测算法清除掉无法检测到人脸的图像；在清理后的数据集上利用已有模型提取图像特征，并计算相似度，进而统计出一类人脸图像中每一张图像与其他图像不相似的数目，根据改进参数清理数据。实验表明，清理后的数据库训练模型在ＬＦＷ和ＹｏｕｔｕｂｅＦａｃｅ数据集上测试的精度得到了提升，使用较小规模数据集情况下，在ＬＦＷ数据集上取得了９９．１７％的准确率，在ＹｏｕｔｕｂｅＦａｃｅ数据集也达到了９３．５３％的准确率。关键词：深度卷积神经网络；ＤＣＮＮ；清理图像；人脸识别；大型数据库中图分类号：ＴＰ３９１．４文献标志码：Ａ文章编号：１６７３－４７８５（２０１７）０５－０６１６－０８中文引用格式：夏洋洋，龚勋，洪西进．人脸识别背后的数据清理问题研究［Ｊ］．智能系统学报，２０１７，１２（５）：６１６－６２３．英文引用格式：ＸＩＡＹａｎｇｙａｎｇ，ＧＯＮＧＸｕｎ，ＨＯＮＧＸｉｊｉｎ．Ｒｅｓｅａｒｃｈｏｎｔｈｅｄａｔａｃｌｅａｎｓｉｎｇｐｒｏｂｌｅｍｆｏｒｆａｃｅｒｅｃｏｇｎｉｔｉｏｎｔｅｃｈｎｏｌｏｇｙ［Ｊ］．ＣＡＡＩｔｒａｎｓａｃｔｉｏｎｓｏｎｉｎｔｅｌｌｉｇｅｎｔｓｙｓｔｅｍｓ，２０１７，１２（５）：６１６－６２３．ＲｅｓｅａｒｃｈｏｎｔｈｅｄａｔａｃｌｅａｎｓｉｎｇｐｒｏｂｌｅｍｆｏｒｆａｃｅｒｅｃｏｇｎｉｔｉｏｎｔｅｃｈｎｏｌｏｇｙＸＩＡＹａｎｇｙａｎｇ１，ＧＯＮＧＸｕｎ１，ＨＯＮＧＸｉｊｉｎ１，２（１．ＳｃｈｏｏｌｏｆＩｎｆｏｒｍａｔｉｏｎＳｃｉｅｎｃｅａｎｄＴｅｃｈｎｏｌｏｇｙ，ＳｏｕｔｈｗｅｓｔＪｉａｏｔｏｎｇＵｎｉｖｅｒｓｉｔｙ，Ｃｈｅｎｇｄｕ６１１７５６，Ｃｈｉｎａ；２．ＤｅｐａｒｔｍｅｎｔｏｆＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅａｎｄＩｎｆｏｒｍａｔｉｏｎＥｎｇｉｎｅｅｒｉｎｇ，ＮａｔｉｏｎａｌＴａｉｗａｎＵｎｉｖｅｒｓｉｔｙｏｆＳｃｉｅｎｃｅａｎｄＴｅｃｈｎｏｌｏｇｙ，Ｔａｉｐｅｉ１０６０７，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：Ｆａｃｅｒｅｃｏｇｎｉｔｉｏｎｔｅｃｈｎｏｌｏｇｙｈａｓｍａｄｅａｓｉｇｎｉｆｉｃａｎｔｐｒｏｇｒｅｓｓｉｎｔｈｅｒａｐｉｄｄｅｖｅｌｏｐｍｅｎｔｏｆｄｅｅｐｃｏｎｖｏｌｕｔｉｏｎｎｅｕｒａｌｎｅｔｗｏｒｋｓ（ＤＣＮＮ）．ＴｈｅｓｅｄｅｖｅｌｏｐｍｅｎｔｓａｒｅｍａｉｎｌｙｆｏｃｕｓｅｄｔｏｗａｒｄａｄｅｎｓｅｒＤＣＮＮａｒｃｈｉｔｅｃｔｕｒｅａｎｄｌａｒｇｅｒｔｒａｉｎｉｎｇｄａｔａｂａｓｅ．Ｈｏｗｅｖｅｒ，ＤＣＮＮｔｒａｉｎｉｎｇｉｓａｆｆｅｃｔｅｄｂｅｃａｕｓｅｔｈｅｌａｒｇｅ⁃ｓｃａｌｅｄａｔａｂａｓｅｈｅｌｄｂｙｍｏｓｔｐｒｉｖａｔｅｃｏｍｐａｎｉｅｓａｒｅｎｏｔｐｕｂｌｉｃａｌｌｙａｃｃｅｓｓｉｂｌｅ．Ｍｏｒｅｏｖｅｒ，ｃｕｒｒｅｎｔｌａｒｇｅ⁃ｓｃａｌｅｏｐｅｎｄａｔａｂａｓｅｓａｒｅｎｏｔａｃｃｅｓｓｉｂｌｅｂｅｃａｕｓｅｏｆｔｈｅｓｌｉｇｈｔａｖａｉｌａｂｉｌｉｔｙｏｆｔｈｅｌａｂｅｌｅｄｉｎｆｏｒｍａｔｉｏｎａｎｄｈａｒｄ⁃ｔｏ⁃ｇｕａｒａｎｔｅｅａｃｃｕｒａｃｙ．Ｔｈｉｓｓｔｕｄｙｐｒｅｓｅｎｔｓａｎｅａｓｙ⁃ｔｏ⁃ｕｓｅｉｍａｇｅｃｌｅａｎｓｉｎｇｍｅｔｈｏｄｔｏｉｍｐｒｏｖｅｔｈｅａｃｃｕｒａｃｙｏｆｄａｔａｆｒｏｍｔｈｅｆｏｌｌｏｗｉｎｇｐｅｒｓｐｅｃｔｉｖｅｓ：Ｆｉｒｓｔ，ｄｅｌｅｔｉｎｇｔｈｅｆａｃｅｉｍａｇｅｔｈａｔｃａｎｎｏｔｂｅｄｅｔｅｃｔｅｄｂｙｆａｃｅｄｅｔｅｃｔｉｏｎ；ｓｅｃｏｎｄ，ｕｓｉｎｇｔｈｅｅｘｉｓｔｉｎｇｍｏｄｅｌｔｏｅｘｔｒａｃｔｔｈｅｆｅａｔｕｒｅｓｏｆａｎｉｍａｇｅｏｎｔｈｅｃｌｅａｎｅｄｄａｔａｓｅｔａｎｄｃａｌｃｕｌａｔｅｔｈｅｓｉｍｉｌａｒｉｔｙ；ａｎｄｆｉｎａｌｌｙ，ｃｏｕｎｔｉｎｇｔｈｅｎｕｍｂｅｒｏｆｉｍａｇｅｓｔｈａｔａｒｅｕｎｌｉｋｅｔｈｅｏｔｈｅｒｉｍａｇｅｓ．Ｔｈｅｄａｔａｗｅｒｅｃｌｅａｎｓｅｄａｃｃｏｒｄｉｎｇｔｏｔｈｅｉｍｐｒｏｖｅｄｐａｒａｍｅｔｅｒｓｅｘｔｒａｃｔｅｄｆｒｏｍｔｈｅａｂｏｖｅｍｅｎｔｉｏｎｅｄｐｅｒｓｐｅｃｔｉｖｅｓ．ＴｈｅｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｒｅｖｅａｌｔｈａｔｔｈｅｃｌｅａｎｓｅｄｄａｔａｂａｓｅｔｒａｉｎｉｎｇｍｏｄｅｌｈａｓｉｍｐｒｏｖｅｄｔｈｅａｃｃｕｒａｃｙｏｆｆａｃｅｒｅｃｏｇｎｉｔｉｏｎｉｎＬＦＷ（ｌａｂｅｌｅｄｆａｃｅｓｉｎｔｈｅｗｉｌｄ）ａｎｄＹｏｕＴｕｂｅｆａｃｅｄａｔａｂａｓｅ．Ｉｎｔｈｅｃａｓｅｏｆｕｓｉｎｇａｓｍａｌｌ⁃ｓｃａｌｅｄａｔａｓｅｔ，ａｎａｃｃｕｒａｃｙｏｆ９９．１７％ａｎｄ９３．５３％ｗａｓａｃｈｉｅｖｅｄｏｎｔｈｅＬＦＷａｎｄＹｏｕＴｕｂｅｆａｃｅｄａｔａｓｅｔｓ，ｒｅｓｐｅｃｔｉｖｅｌｙ．Ｋｅｙｗｏｒｄｓ：ｄｅｅｐｃｏｎｖｏｌｕｔｉｏｎｎｅｕｒａｌｎｅｔｗｏｒｋ；ＤＣＮＮ；ｃｌｅａｎｓｉｎｇｉｍａｇｅ；ｆａｃｅｒｅｃｏｇｎｉｔｉｏｎ；ｌａｒｇｅｄａｔａｂａｓｅ收稿日期：２０１７－０６－０８．网络出版日期：２０１７－１０－２１．基金项目：国家自然科学基金项目（６１２０２１９１）；计算智能重庆市重点实验室开放基金项目（ＣＱ⁃ＬＣＩ⁃２０１３⁃０６）；国家重点研发计划项目（２０１６ＹＦＣ０８０２２０９）．通信作者：龚勋．Ｅ⁃ｍａｉｌ：ｘｇｏｎｇ＠ｓｗｊｔｕ．ｅｄｕ．ｃｎ．构建一个完整的人脸识别系统主要包括图像采集、人脸检测、人脸对齐、特征表示与分类识别等步骤。人脸识别技术的核心在于特征提取和分类识别，而特征提取则是人脸识别的重点关注点［１－３］。深度学习与传统人脸识别技术的主要区别在于：深度学习是通过从海量数据中有监督的训练学习来获取能够有效表示人脸信息的特征，不再需要大量的人脸识别先验知识来设计特征，这种人脸面部特征学习更具鲁棒性［４－６］。深度卷积神经网络（ＤＣＮＮ）作为一种深度学习架构，已成功应用于人脸识别和其他计算机视觉任务，并逐渐成为一种

向下翻页>>

点击下载：【机器感知与模式识别】人脸识别背后的数据清理问题研究