第11卷第3期 智能系统学报 Vol.11 No.3 2016年6月 CAAI Transactions on Intelligent Systems Jun.2016 D0I:10.11992/is.2016030 网络出版地址:http://www.cnki.net/kcms/detail/23.1538.TP.20160513.0919.012.html 基于深度学习特征的稀疏表示的人脸识别方法 马晓12,张番栋12,封举富2 (1.北京大学信息科学技术学院,北京100871:2.北京大学机器感知与智能教育部重点实验室,北京100871) 摘要:本文针对传统的基于稀疏表示的人脸识别方法在小样本情况下对类内变化鲁棒性不强的问题,从特征的层 面入手,提出了基于深度学习特征的稀疏表示的人脸识别方法。本方法首先利用深度卷积神经网络提取对类内变 化不敏感的人脸特征,然后通过稀疏表示对所得人脸特征进行表达分类。本文通过实验,说明了深度学习得到的特 征也具有一定的子空间特性,符合基于稀疏表示的人脸识别方法对于子空间的假设条件。实验证明,基于深度学习 特征的稀疏表示的人脸识别方法具有较好的识别准确度,对类内变化具有很好的鲁棒性,特别在小样本问题中具有 尤为突出的优势。 关键词:机器学习:生物特征识别:深度学习:特征学习;子空间:小样本;稀疏表示;人脸识别 中图分类号:TP391.4文献标志码:A文章编号:1673-4785(2016)03-0279-08 中文引用格式:马晓,张番栋,封举富.基于深度学习特征的稀疏表示的人脸识别方法[J].智能系统学报,2016,11(3):279-286. 英文引用格式:MA xiao,ZHANG fandong,FENGJufu.Sparse representation via deep learning features based face recognition method[J].CAAI transactions on intelligent systems,2016,11(3):279-286. Sparse representation via deep learning features based face recognition method MA Xiao',ZHANG Fandong'2,FENG Jufu'2 (1.School of Electronics Engineering and Computer Science,Peking University,Beijing 100871,China;2.Key Laboratory of Machine Perception Ministry of Education)Department of Machine Intelligence,Peking University,Beijing 100871,China) Abstract:Focusing on the problems that the traditional sparse representation based face recognition methods are not quite robust to intra-class variations,a novel Sparse Representation via Deep Learning Features based Classification (SRDLFC)method is proposed in this paper,employing a deep convolutional neural network to extract facial fea- tures and a sparse representation based framework to make classification.Experimental results in this paper also ver- ifies the features extracted from deep convolutional network do satisfy the linear subspace assumption.The proposed SRDLFC proves to be quite effective and be robust to intra-class variations especially for under-sampled face recog- nition problems. Keywords:machine learning;biometric recognition;deep learning;feature learning;subspace;under-sampled recognition;sparse representation;face recognition 人脸识别是作为一项重要的生物识别技术,在 是在不可控的自然环境下进行的,人脸样本常常含 公安刑侦、企业管理、自助服务及互联网金融方面都 有诸如光照、姿态、遮挡、表情、噪声等类内变化。如 取得了广泛的应用。实际的人脸识别系统多遇到的 何在含有较大干扰的小样本人脸识别问题中取得鲁 是小样本的人脸识别问题,即在识别中可以采集到 棒的识别结果,便成了当前许多人脸识别方面的研 的每个人的人脸样本相对较少,而且采集环境通常 究工作所关心的问题。受稀疏编码]和子空间方 法[2-别的启发,John Wright等[提出了基于稀疏表 收稿日期:2016-03-16.网络出版日期:2016-05-13. 示的分类方法,在含遮挡、噪声、光照的复杂环境下 基金项目:国家自然科学基金项目(61333015):国家重点基础研究发 展计划(2011CB302400). 的人脸识别问题中取得了较好的效果。在John 通信作者:马晓.E-mail:maxiao2012@pku.cdu.cn Wright工作的基础上,一系列基于稀疏表示的分类
第 11 卷第 3 期 智 能 系 统 学 报 Vol.11 №.3 2016 年 6 月 CAAI Transactions on Intelligent Systems Jun. 2016 DOI:10.11992 / tis.2016030 网络出版地址:http: / / www.cnki.net / kcms/ detail / 23.1538.TP.20160513.0919.012.html 基于深度学习特征的稀疏表示的人脸识别方法 马晓1,2 ,张番栋1,2 ,封举富1,2 (1.北京大学 信息科学技术学院,北京 100871; 2.北京大学 机器感知与智能教育部重点实验室,北京 100871) 摘 要:本文针对传统的基于稀疏表示的人脸识别方法在小样本情况下对类内变化鲁棒性不强的问题,从特征的层 面入手,提出了基于深度学习特征的稀疏表示的人脸识别方法。 本方法首先利用深度卷积神经网络提取对类内变 化不敏感的人脸特征,然后通过稀疏表示对所得人脸特征进行表达分类。 本文通过实验,说明了深度学习得到的特 征也具有一定的子空间特性,符合基于稀疏表示的人脸识别方法对于子空间的假设条件。 实验证明,基于深度学习 特征的稀疏表示的人脸识别方法具有较好的识别准确度,对类内变化具有很好的鲁棒性,特别在小样本问题中具有 尤为突出的优势。 关键词:机器学习;生物特征识别;深度学习;特征学习;子空间;小样本;稀疏表示;人脸识别 中图分类号:TP391.4 文献标志码:A 文章编号:1673⁃4785(2016)03⁃0279⁃08 中文引用格式:马晓,张番栋,封举富.基于深度学习特征的稀疏表示的人脸识别方法[J]. 智能系统学报, 2016, 11(3): 279⁃286. 英文引用格式:MA xiao, ZHANG fandong, FENG Jufu. Sparse representation via deep learning features based face recognition method[J]. CAAI transactions on intelligent systems, 2016,11(3): 279⁃286. Sparse representation via deep learning features based face recognition method MA Xiao 1,2 , ZHANG Fandong 1,2 , FENG Jufu 1,2 (1. School of Electronics Engineering and Computer Science, Peking University, Beijing 100871, China; 2.Key Laboratory of Machine Perception (Ministry of Education) Department of Machine Intelligence, Peking University,Beijing 100871, China) Abstract:Focusing on the problems that the traditional sparse representation based face recognition methods are not quite robust to intra⁃class variations, a novel Sparse Representation via Deep Learning Features based Classification (SRDLFC) method is proposed in this paper, employing a deep convolutional neural network to extract facial fea⁃ tures and a sparse representation based framework to make classification. Experimental results in this paper also ver⁃ ifies the features extracted from deep convolutional network do satisfy the linear subspace assumption. The proposed SRDLFC proves to be quite effective and be robust to intra⁃class variations especially for under⁃sampled face recog⁃ nition problems. Keywords:machine learning; biometric recognition; deep learning; feature learning; subspace; under⁃sampled recognition; sparse representation; face recognition 收稿日期:2016⁃03⁃16. 网络出版日期:2016⁃05⁃13. 基金项目:国家自然科学基金项目(61333015); 国家重点基础研究发 展计划(2011CB302400). 通信作者:马晓. E⁃mail: maxiao2012@ pku.edu.cn. 人脸识别是作为一项重要的生物识别技术,在 公安刑侦、企业管理、自助服务及互联网金融方面都 取得了广泛的应用。 实际的人脸识别系统多遇到的 是小样本的人脸识别问题,即在识别中可以采集到 的每个人的人脸样本相对较少,而且采集环境通常 是在不可控的自然环境下进行的,人脸样本常常含 有诸如光照、姿态、遮挡、表情、噪声等类内变化。 如 何在含有较大干扰的小样本人脸识别问题中取得鲁 棒的识别结果,便成了当前许多人脸识别方面的研 究工作所关心的问题。 受稀疏编码[1] 和子空间方 法[2-3]的启发,John Wright 等[4] 提出了基于稀疏表 示的分类方法,在含遮挡、噪声、光照的复杂环境下 的人脸识别问题中取得了较好的效果。 在 John Wright 工作的基础上,一系列基于稀疏表示的分类
·280· 智能系统学报 第11卷 方法的研究取得了一定的进展,具有代表性的包括 便是SRC的工作原理。各步骤公式如下: 关于稀疏表示中字典学习的研究工作],稀硫表 SRC表示过程: 示的快速优化策略[0,和关于添加对表示系数的 a=arg min lly-Xal+入lai (1) 不同约束的工作-)。其中,Lei Zhang!14指出了在 SRC分类过程: 基于稀疏表示的分类方法中协同性机制的地位,并 identity argmin lly -X (2) 提出了使用更松弛的二范数来约束训练字典表示系 式中:X={X,X2,…,X,…,Xc}为训练样本(字 数的协同表示的分类方法。为了解决小样本情况下 典):X为第i类训练样本(字典)(i=1,2,…,C), 单类训练集字典对类内变化表达不充分的问题,文 其每一列对应该类的一个样本;y为测试样本;α= 献[1]创造性地将补偿字典引入了基于稀疏表示 {a1,a2,…,a,…,ac}为协同表示时各类对应的表 的人脸识别的方法中,在小样本的人脸识别问题中 示系数。 取得了一定的突破,但依然不能彻底分离训练集字 基于稀疏表示的分类方法能够有效利用人脸图 典中类内变化产生的干扰。 像的子空间特性,不需要大量样本进行分类器的学 传统的基于稀疏表示的方法本质上依然基于样 习,对噪声具有较好的鲁棒性。 本的灰度特征,利用稀疏线性表达来实现对类内变 基于稀疏表示的识别方法假设每类训练样本 化分量的分离。但对于实际问题,类内变化相对比 (字典)都必须是完备的,每类训练样本(字典)都有 较复杂,如姿态、表情、复杂的光照,简单依靠线性表 足够的表达能力。这一假设在具有较大干扰(如光 达很难将其分离出来。特别对于训练集字典极欠完 照、姿态、遮挡等)的小样本问题中一般是不成立 备的小样本问题,凭借有限的训练样本更难实现这 的。在小样本且具有较大干扰的人脸识别问题中, 一目标。为了解决这一问题,本文将人脸的灰度特 测试图片常常会被错分为具有相似类内变化的字典 征通过深度神经网络非线性映射到一个特征线性子 的类中,而不是具有相同外貌变化的类中。为了消 空间内,这一映射保留了样本分类相关的主要信息, 除小样本情况下类内变化的干扰,文献1s1]创造性 去除了类内变化信息的干扰,使得映射后的特征对 地将补偿字典引入了基于稀疏表示的人脸识别的方 类内变化具有不变性且更有可区分性。然后,将该 法中,在小样本的人脸识别问题中取得了一定的突 特征利用基于稀疏表示的分类方法进行表达和识 破,但依然不能彻底分离训练集字典中类内变化。 别。实验证明,本文方法在具有较大类内变化的小 1.2较大类内变化干扰下的小样本人脸识别问题 样本问题上效果尤其突出,且对于姿态、表情这类非 为了更好地分析子空间方法中类内变化带来的 线性叠加的类内变化具有更好的鲁棒性。 影响,Tang等[9提出了统一子空间的理论概念。统 本文提出了基于深度学习特征的稀疏表示的人 一子空间理论认为人脸图像由原型成分、类内变化 脸识别方法,将深度学习特征与稀疏表示相互结合, 成分和噪声成分线性组合而成。如式(3)和图1 充分发挥了深度学习在特征学习方面的优点和稀疏 所示。 表示在小样本识别上的优点。通过实验,在一定程 y=u+v +e (3) 度上说明了深度学习所得的特征具有线性子空间特 噪声子空间 性,并对深度学习所得特征进行了较为系统的分析。 人脸子空间 %5覆 1相关工作 酒 1.1基于稀疏表示的人脸识别方法 类内变化子空间 基于稀疏表示的分类方法(sparse representation 图图 based classification,SRC)I)假设人脸图像位于线性 原型子空间 面 t 子空间中,测试样本可以为所有类的训练样本(字 典)协同线性表达,而测试样本所属类别的字典可 以表示得更加稀疏(用较少的字典可以达到更好的 重构)。在对表示系数增加稀疏性的约束后,求解 图1统一人脸子空间示意 所得的稀疏表示系数中非零项应主要为测试样本所 Fig.1 The unified face subspace 属类别字典的对应项,因此便可以根据哪类字典可 式中:μ为与人脸相貌相关的原型成分,”为与人脸 以取得对测试样本更小的重构误差来进行分类,这 图像的类内变化成分(如光照、姿态、遮挡等),ε为
方法的研究取得了一定的进展,具有代表性的包括 关于稀疏表示中字典学习的研究工作[5⁃7] ,稀疏表 示的快速优化策略[8⁃10] ,和关于添加对表示系数的 不同约束的工作[11⁃13] 。 其中,Lei Zhang [14]指出了在 基于稀疏表示的分类方法中协同性机制的地位,并 提出了使用更松弛的二范数来约束训练字典表示系 数的协同表示的分类方法。 为了解决小样本情况下 单类训练集字典对类内变化表达不充分的问题,文 献[15⁃18]创造性地将补偿字典引入了基于稀疏表示 的人脸识别的方法中,在小样本的人脸识别问题中 取得了一定的突破,但依然不能彻底分离训练集字 典中类内变化产生的干扰。 传统的基于稀疏表示的方法本质上依然基于样 本的灰度特征,利用稀疏线性表达来实现对类内变 化分量的分离。 但对于实际问题,类内变化相对比 较复杂,如姿态、表情、复杂的光照,简单依靠线性表 达很难将其分离出来。 特别对于训练集字典极欠完 备的小样本问题,凭借有限的训练样本更难实现这 一目标。 为了解决这一问题,本文将人脸的灰度特 征通过深度神经网络非线性映射到一个特征线性子 空间内,这一映射保留了样本分类相关的主要信息, 去除了类内变化信息的干扰,使得映射后的特征对 类内变化具有不变性且更有可区分性。 然后,将该 特征利用基于稀疏表示的分类方法进行表达和识 别。 实验证明,本文方法在具有较大类内变化的小 样本问题上效果尤其突出,且对于姿态、表情这类非 线性叠加的类内变化具有更好的鲁棒性。 本文提出了基于深度学习特征的稀疏表示的人 脸识别方法,将深度学习特征与稀疏表示相互结合, 充分发挥了深度学习在特征学习方面的优点和稀疏 表示在小样本识别上的优点。 通过实验,在一定程 度上说明了深度学习所得的特征具有线性子空间特 性,并对深度学习所得特征进行了较为系统的分析。 1 相关工作 1.1 基于稀疏表示的人脸识别方法 基于稀疏表示的分类方法(sparse representation based classification, SRC) [4]假设人脸图像位于线性 子空间中,测试样本可以为所有类的训练样本(字 典)协同线性表达,而测试样本所属类别的字典可 以表示得更加稀疏(用较少的字典可以达到更好的 重构)。 在对表示系数增加稀疏性的约束后,求解 所得的稀疏表示系数中非零项应主要为测试样本所 属类别字典的对应项,因此便可以根据哪类字典可 以取得对测试样本更小的重构误差来进行分类,这 便是 SRC 的工作原理。 各步骤公式如下: SRC 表示过程: α^ = arg min α y - Xα 2 2 + λ α 1 (1) SRC 分类过程: identity = argmin i y - Xi α^ i 2 2 (2) 式中: X = X1 ,X2 ,…,XI,…,XC { } 为训练样本( 字 典);Xi 为第 i 类训练样本(字典) (i = 1,2,…,C) , 其每一列对应该类的一个样本;y 为测试样本;α = {α1 ,α2 ,…,αi,…,αC } 为协同表示时各类对应的表 示系数。 基于稀疏表示的分类方法能够有效利用人脸图 像的子空间特性,不需要大量样本进行分类器的学 习,对噪声具有较好的鲁棒性。 基于稀疏表示的识别方法假设每类训练样本 (字典)都必须是完备的,每类训练样本(字典)都有 足够的表达能力。 这一假设在具有较大干扰(如光 照、姿态、遮挡等) 的小样本问题中一般是不成立 的。 在小样本且具有较大干扰的人脸识别问题中, 测试图片常常会被错分为具有相似类内变化的字典 的类中,而不是具有相同外貌变化的类中。 为了消 除小样本情况下类内变化的干扰,文献[15⁃18] 创造性 地将补偿字典引入了基于稀疏表示的人脸识别的方 法中,在小样本的人脸识别问题中取得了一定的突 破,但依然不能彻底分离训练集字典中类内变化。 1.2 较大类内变化干扰下的小样本人脸识别问题 为了更好地分析子空间方法中类内变化带来的 影响,Tang 等[19]提出了统一子空间的理论概念。 统 一子空间理论认为人脸图像由原型成分、类内变化 成分和噪声成分线性组合而成。 如式( 3) 和图 1 所示。 y = μ + ν + ε (3) 图 1 统一人脸子空间示意 Fig.1 The unified face subspace 式中:μ 为与人脸相貌相关的原型成分,ν 为与人脸 图像的类内变化成分(如光照、姿态、遮挡等),ε 为 ·280· 智 能 系 统 学 报 第 11 卷
第3期 马晓,等:基于深度学习特征的稀疏表示的人脸识别方法 ·281· 噪声成分。在人脸识别中需要尽可能地将与分类无 法相结合。使用深度学习得到的特征被诸多实验证 关的成分μ和ε与分类相关的成分μ分离开来。但 明具有较好的可分性和迁移性,并对类内变化具有 通常,4、v和ε3个成分之间具有较强的相关性,很 较好的鲁棒性。但其是否具有子空间特性这一问题 难通过线性表示(即便是稀疏线性表示)将其有效 却很少被人关注。本文利用实验的方式,在一定程 地分离开来,或者将v和ε有效地去除掉。以人脸 度上证明了深度学习所得的人脸特征具有较好的子 的姿态变化为例,同类人脸在不同姿态下的类内差 空间特性,而且具有可迁移性和对类内变化的不 与不同人脸在统一姿态下的类内差十分接近(均在 变性。 外貌轮廓处有较大的响应),很难通过有限的样本 2基于深度学习特征的稀疏表示的 和稀疏线性表示去除姿态对人脸图像的影响。且这 一问题,在小样本的人脸图像识别的问题中,变得更 人脸识别方法 加棘手。 本文结合基于深度学习的特征提取方法和基于 本文将人脸样本从灰度空间投影到特征空间, 稀疏表示的人脸识别方法,提出了兼顾二者所长的 然后在特征空间使用基于稀疏表示的分类方法进行 基于深度学习特征的稀疏表示的人脸识别方法 识别。对于投影后的特征,需要满足如下2个条件: sparse representation via deep learning features based 1)投影后的特征需要满足线性子空间特性,这样才 classification,SRDLFC)。SRDLFC对于含较大类内 能符合基于稀疏表示的分类方法的基本前提:2)投 变化的小样本人脸识别问题具有较大的优势。 影后的特征对类内变化不敏感,或者消除了类内变 2.1 SRDLFC整体流程 化。为了有效解决小样本问题,我们同时期望特征 SRDLFC方法包括网络学习和样本识别两个过 的学习可以通过外部数据来完成,然后迁移到小样 程,样本识别过程包括特征提取和稀疏分类两个环 本的数据集上来。换句话说,也就要求所学得的特 节,其中特征提取所用的CNN网络需要通过外部数 征具有一定的可迁移性。 据进行有监督的学习和训练。整体流程如图2。 传统的特征如HOG、SIFT、LBP等不能很好地 保证人脸图像中的类内变化可以被有效地去除,特 外部数据 特征提取 网络训练 别对于诸如姿态、遮挡、表情等这类比较复杂的类内 特征提取网 变化,同时变化后的特征一般不具有子空间特性,很 特征空间 稀疏 利用残差 测试数据 特征提取 测试样本 表示 分类 难适用于基于稀疏表示的分类方法,使之发挥更大 别结果 的效能。 训练数据 特征提取 特征空间的训练集字典 1.3深度卷积神经网络 深度卷积神经网络(deep convolutional neural 图2 SRDLFC方法流程图 network,DCNN)是一种有监督的深度学习模型,已 Fig.2 The process of SRDLFC method 成为当前语音分析和图像识别领域的研究热点。 基于深度学习特征的稀疏表示的人脸识别方法 Lecun等早在I998年就提出了经典的LeNet网 (SRDLFC)如下。 络[2o],Hinton等使用的大规模深度CNN[2]在Ima- 1)网络学习过程: genet这样10O0类的分类问题上取得了非常好的 ①利用外部数据学习特征提取的CNN网络 结果。文献[22-25]利用CNN网络在人脸识别领域 f(y). 取得了较大的突破,成为目前工业界和学术界的主 ②对于训练集样本X={X,X2,…,X,…,Xc}, 流算法。卷积网络的核心思想是局部感受野、权值 经映射X'=代X,),得到特征空间的训练集字典X'= 共享(或者权值复制)以及时间或空间亚采样。 {X',X2',…,X',…,Xe'}。 CNN通常使用最后一层全连接隐层的值作为对输 2)样本识别过程: 入样本所提取的特征,通过外部数据进行的有监督 ①对于测试样本y,通过特征提取网络提取深 学习,CNN可以保证所得的特征具有较好的对类内 度学习特征y=f八y)。 变化的不变性。 ②对y用特征空间的训练集字典X'进行稀疏 为了更有效地解决复杂类内变化条件下的小样 表示,得表示系数a': 本人脸识别问题,本文结合近年来被深入研究和广 a'=argmin lly'-X'a'l+入‖a'l 泛应用到各类视觉问题的深度卷积网络,使用深度 学习的方法来提取特征,然后与基于稀疏表示的方 ③通过训练集字典对测试样本的表示残差进行
噪声成分。 在人脸识别中需要尽可能地将与分类无 关的成分 μ 和 ε 与分类相关的成分 μ 分离开来。 但 通常,μ、ν 和 ε 3 个成分之间具有较强的相关性,很 难通过线性表示(即便是稀疏线性表示)将其有效 地分离开来,或者将 v 和 ε 有效地去除掉。 以人脸 的姿态变化为例,同类人脸在不同姿态下的类内差 与不同人脸在统一姿态下的类内差十分接近(均在 外貌轮廓处有较大的响应),很难通过有限的样本 和稀疏线性表示去除姿态对人脸图像的影响。 且这 一问题,在小样本的人脸图像识别的问题中,变得更 加棘手。 本文将人脸样本从灰度空间投影到特征空间, 然后在特征空间使用基于稀疏表示的分类方法进行 识别。 对于投影后的特征,需要满足如下 2 个条件: 1)投影后的特征需要满足线性子空间特性,这样才 能符合基于稀疏表示的分类方法的基本前提;2)投 影后的特征对类内变化不敏感,或者消除了类内变 化。 为了有效解决小样本问题,我们同时期望特征 的学习可以通过外部数据来完成,然后迁移到小样 本的数据集上来。 换句话说,也就要求所学得的特 征具有一定的可迁移性。 传统的特征如 HOG、SIFT、LBP 等不能很好地 保证人脸图像中的类内变化可以被有效地去除,特 别对于诸如姿态、遮挡、表情等这类比较复杂的类内 变化,同时变化后的特征一般不具有子空间特性,很 难适用于基于稀疏表示的分类方法,使之发挥更大 的效能。 1.3 深度卷积神经网络 深度卷积神经网络 ( deep convolutional neural network, DCNN)是一种有监督的深度学习模型,已 成为当前语音分析和图像识别领域的研究热点。 Lecun 等早在 1998 年就提出了经典的 LeNet 网 络[20] , Hinton 等使用的大规模深度 CNN [21] 在 Ima⁃ genet 这样 1 000 类的分类问题上取得了非常好的 结果。 文献[22⁃25]利用 CNN 网络在人脸识别领域 取得了较大的突破,成为目前工业界和学术界的主 流算法。 卷积网络的核心思想是局部感受野、权值 共享 ( 或者权值复制) 以及时间或空间亚采样。 CNN 通常使用最后一层全连接隐层的值作为对输 入样本所提取的特征,通过外部数据进行的有监督 学习,CNN 可以保证所得的特征具有较好的对类内 变化的不变性。 为了更有效地解决复杂类内变化条件下的小样 本人脸识别问题,本文结合近年来被深入研究和广 泛应用到各类视觉问题的深度卷积网络,使用深度 学习的方法来提取特征,然后与基于稀疏表示的方 法相结合。 使用深度学习得到的特征被诸多实验证 明具有较好的可分性和迁移性,并对类内变化具有 较好的鲁棒性。 但其是否具有子空间特性这一问题 却很少被人关注。 本文利用实验的方式,在一定程 度上证明了深度学习所得的人脸特征具有较好的子 空间特性,而且具有可迁移性和对类内变化的不 变性。 2 基于深度学习特征的稀疏表示的 人脸识别方法 本文结合基于深度学习的特征提取方法和基于 稀疏表示的人脸识别方法,提出了兼顾二者所长的 基于深度学习特征的稀疏表示的人脸识别方法 (sparse representation via deep learning features based classification,SRDLFC) 。 SRDLFC 对于含较大类内 变化的小样本人脸识别问题具有较大的优势。 2.1 SRDLFC 整体流程 SRDLFC 方法包括网络学习和样本识别两个过 程,样本识别过程包括特征提取和稀疏分类两个环 节,其中特征提取所用的 CNN 网络需要通过外部数 据进行有监督的学习和训练。 整体流程如图 2。 图 2 SRDLFC 方法流程图 Fig.2 The process of SRDLFC method 基于深度学习特征的稀疏表示的人脸识别方法 (SRDLFC)如下。 1)网络学习过程: ①利用外部数据学习特征提取的 CNN 网络 f(y). ②对于训练集样本 X = X1 ,X2 ,…,XI,…,XC { } , 经映射 Xi ′= f(Xi),得到特征空间的训练集字典X′= X1 ′,X2 ′,…,Xi ′,…,XC { ′} 。 2)样本识别过程: ①对于测试样本 y,通过特征提取网络提取深 度学习特征 y′= f(y)。 ②对 y′用特征空间的训练集字典 X′进行稀疏 表示,得表示系数 α′: α^ ′ = argmin α′ y′ - X′α′ 2 2 + λ α′ 1 ③通过训练集字典对测试样本的表示残差进行 第 3 期 马晓,等:基于深度学习特征的稀疏表示的人脸识别方法 ·281·
·282· 智能系统学报 第11卷 分类: 3 基于深度学习的人脸特征分析 identity argmin lly'-X'a' 2.2基于深度学习的特征提取方法 在基于深度学习特征的稀疏表示的人脸识别方 SRDLFC方法的特征提取过程是通过深度卷积 法SRDLFC中,要求特征满足线性子空间特性,且具 神经网络完成的,本文所用的CNN网络结构如图3 有对类内变化的不变性、较好的迁移性和可分性。 所示。 下面对SRDLFC中所提取的深度学习特征进行分析 和讨论。 3.1深度学习特征对类内变化的不变性与可区分性 SRDLFC中特征提取CNN网络的各层卷积核 Covl ov2,3,4,5Cov6,7,8.9Cov10,1l, MP3 12.13 SRPFC Softmax 如图4所示。 Input MP MP2 图3 SRDLFC特征提取网络结构 Fig.3 The structure of SRDLFC's feature extraction network 网络各层具体参数如表1所示。 图4 SRDLFC特征提取网络的第一层卷积核示意 表1 SRDLFC特征提取网络具体结构 Fig.4 The first level's convolutional filters of Table 1 The structure of SRDLFCs feature extraction network SRDLFC's feature extraction network 网络层数 说明 参数 从图4可以看出,CNN底层主要提取一些与边 Input 输入层 200×200大小的人脸灰度图像 缘、角度、轮廓相关信息,具有一定的通用性。CNN Covl 卷积层 64个9×9卷积核步据为2个像素 高层逐渐提取出一些图像结构的信息。 最大值 MP1 5×5大小的范围步据为1个像素 以AR数据集的人脸图像为例,将10类人脸样 池化层 本的深度学习特征进行可视化,如图5所示(每一 Cov2 卷积层128个2×2卷积核步据为2个像素 Cov3,4,5 卷积层 128个2×2卷积核步据为1个像素 列代表一个样本的特征,每张子图对应一类人脸)。 最大值 同一类的样本,在经过多层卷积和池化后,得到的特 MP2 池化层 2×2大小的范围步据为1个像素 征图是相似的,各个子图有明显的横线纹理(说明 Cov6 卷积层256个2×2卷积核步据为2个像素 同类对应项上的特征值比较相似),说明深度学习 Cov7,8.9 卷积层256个2×2卷积核步据为1个像素 特征具有对类变化较好的不变性。而不同类的样本 最大值 MP3 2×2大小的范围步据为1个像素 的特征图明显差异很大,这在一定程度上说明了 池化层 CNN所提取的特征具有较好的可分性。 Cov10 卷积层 512个2×2卷积核步据为2个像素 Cv11,12,13卷积层512个2×2卷积核步据为1个像素 空间金字塔 SPP 输出大小{6,3,2,1} 池化层 FCI 全连接 512维,用于做特征 Softmax Softmax层 7000 该网络训练中使用的Dropout概率为50%,激 活函数为Relu。 本文使用CASIA数据集[26]进行训练,数据集 为不受控环境下采集到的人脸图像,包含光照、遮 挡、姿态。我们选用前7000类约39万人脸图像作 为数据进行有监督学习,监督学习中输出为各类的 标签。图像使用DLB开源库)定位68个特征点, 图5人脸图像的深度学习特征可视化图 然后进行人脸对齐。我们使用FC1层作为人脸特 Fig.5 The visualization deep learning face features 征,使用cosine距离作为人脸特征的相似度度量,在 3.2深度学习特征的子空间特性 LFW数据库上测试得到了96.75%±0.57%人脸认证 SRDLFC将深度学习的特征与基于稀疏表示的 准确率,充分证明网络学到的特征不仅拥有极强的 人脸识别方法相结合,要求特征空间满足人脸线性 判别性,而且具有良好的迁移性。 子空间的假设。CNN特征提取网络实现了人脸灰
分类: identity = argmin i y′ - Xi ′α^ i ′ 2 2 2.2 基于深度学习的特征提取方法 SRDLFC 方法的特征提取过程是通过深度卷积 神经网络完成的,本文所用的 CNN 网络结构如图 3 所示。 图 3 SRDLFC 特征提取网络结构 Fig.3 The structure of SRDLFCs feature extraction network 网络各层具体参数如表 1 所示。 表 1 SRDLFC 特征提取网络具体结构 Table 1 The structure of SRDLFCs feature extraction network 网络层数 说明 参数 Input 输入层 200×200 大小的人脸灰度图像 Cov1 卷积层 64 个 9×9 卷积核 步据为 2 个像素 MP1 最大值 池化层 5×5 大小的范围 步据为 1 个像素 Cov2 卷积层 128 个 2×2 卷积核 步据为 2 个像素 Cov3,4,5 卷积层 128 个 2×2 卷积核 步据为 1 个像素 MP2 最大值 池化层 2×2 大小的范围 步据为 1 个像素 Cov6 卷积层 256 个 2×2 卷积核 步据为 2 个像素 Cov7,8,9 卷积层 256 个 2×2 卷积核 步据为 1 个像素 MP3 最大值 池化层 2×2 大小的范围 步据为 1 个像素 Cov10 卷积层 512 个 2×2 卷积核 步据为 2 个像素 Cov11,12,13 卷积层 512 个 2×2 卷积核 步据为 1 个像素 SPP 空间金字塔 池化层 输出大小{6, 3, 2, 1} FC1 全连接 512 维,用于做特征 Softmax Softmax 层 7 000 该网络训练中使用的 Dropout 概率为 50%,激 活函数为 Relu。 本文使用 CASIA 数据集[26] 进行训练, 数据集 为不受控环境下采集到的人脸图像,包含光照、遮 挡、姿态。 我们选用前 7 000 类约 39 万人脸图像作 为数据进行有监督学习,监督学习中输出为各类的 标签。 图像使用 DLIB 开源库[27]定位 68 个特征点, 然后进行人脸对齐。 我们使用 FC1 层作为人脸特 征,使用 cosine 距离作为人脸特征的相似度度量,在 LFW 数据库上测试得到了 96.75%±0.57%人脸认证 准确率,充分证明网络学到的特征不仅拥有极强的 判别性,而且具有良好的迁移性。 3 基于深度学习的人脸特征分析 在基于深度学习特征的稀疏表示的人脸识别方 法 SRDLFC 中,要求特征满足线性子空间特性,且具 有对类内变化的不变性、较好的迁移性和可分性。 下面对 SRDLFC 中所提取的深度学习特征进行分析 和讨论。 3.1 深度学习特征对类内变化的不变性与可区分性 SRDLFC 中特征提取 CNN 网络的各层卷积核 如图 4 所示。 图 4 SRDLFC 特征提取网络的第一层卷积核示意 Fig.4 The first levels convolutional filters of SRDLFCs feature extraction network 从图 4 可以看出,CNN 底层主要提取一些与边 缘、角度、轮廓相关信息,具有一定的通用性。 CNN 高层逐渐提取出一些图像结构的信息。 以 AR 数据集的人脸图像为例,将 10 类人脸样 本的深度学习特征进行可视化,如图 5 所示(每一 列代表一个样本的特征,每张子图对应一类人脸)。 同一类的样本,在经过多层卷积和池化后,得到的特 征图是相似的,各个子图有明显的横线纹理(说明 同类对应项上的特征值比较相似),说明深度学习 特征具有对类变化较好的不变性。 而不同类的样本 的特征图明显差异很大,这在一定程度上说明了 CNN 所提取的特征具有较好的可分性。 图 5 人脸图像的深度学习特征可视化图 Fig.5 The visualization deep learning face features 3.2 深度学习特征的子空间特性 SRDLFC 将深度学习的特征与基于稀疏表示的 人脸识别方法相结合,要求特征空间满足人脸线性 子空间的假设。 CNN 特征提取网络实现了人脸灰 ·282· 智 能 系 统 学 报 第 11 卷
第3期 马晓,等:基于深度学习特征的稀疏表示的人脸识别方法 .283. 度空间到深度学习特征空间的非线性映射,不一定 样本做稀疏线性表达,记录重构误差所占样本能量 能保证所得特征满足人脸子空间假设。为了验证这 的百分比:对特征空间中任一人脸样本,将其用所有 一问题,本文进行如下说明实验。 类的特征空间内的人脸样本做稀疏线性表达,记录 选择AR中图像作为测试样本,对特征空间中 重构误差所占样本能量的百分比。训练集字典大小 任一个人脸样本,将其用同类的特征空间内的人脸 为每类20项。实验统计结果如表2所示。 表2深度学习特征的类内差类间差分布 Table 2 The intra-class and inter-class differences of SRDLFC's features 用所有类样本的灰度用同类样本的深度学用所有类样本的深度 用同类样本的灰度特 特征进行稀疏线性表 习特征进行稀疏线性 学习特征进行稀疏线 征进行稀疏线性表达 达 表达 性表达 重构误差占原样本 94.12 97.33 97.43 98.15 的能量比/% 在SRDLFC的稀疏线性表示的过程中得到的表 0.8 示系数示例如图6。 0.7 0.6 0.6 0 04 0.4 」 0.3 0.2 0.2 04wp44my 0.1 0.1 ×10 04 00.20.40.60.81.01.21.41.61.82.0 字典对应项 -0.1 ×10 00.20.40.60.81.0121.41.61.82.0 (d)示例样本4 字典对应项 图6 SRDLFC在稀疏表示过程中的表示系数示例 (a)示例样本1 Fig.6 The represent coefficients in SRDLFC's repre- 0.45 sentation process 0.40 0.35 根据表2和图6,可以看到在特征空间内的人脸样 0.30 本可以很好地被本来样本线性表达,满足子空间的 0.25 0.20 条件。且其在被其他类样本协同线性表达过程中, 0.15 表达是稀疏的,且同类样本表达更加稀疏,符合稀疏 0.10 0.05 表示分类方法的适用条件。实验说明,深度学习特 征具有一定的线性子空间特性。多层卷积和池化的 -0.05 00.20.40.60.81.01.21.41.61.82.0 非线性操作也有助于将人脸样本投影到一个更好的 字典对应项 线性子空间中。在这样的线性特征子空间中,使用 (b)示例样本2 基于稀疏表示的分类方法进行分类识别,具有更高 0.6 的鲁棒性和更好的识别效果。 4实验结果及分析 0.4 0.3 本文选择AR和CMU PIE人脸数据库进行识 02 别实验,对应不同类内变化环境下的人脸识别情况。 0.1 4.1AR人脸数据库识别实验 AR数据库包含大约100人的彩色图像(每人 0.1L ×10 00.20.40.60.81.01.21.41.61.82.0 约50张),含有光照、遮挡、表情的类内变化的干 字典对应项 扰。图像使用DLLB开源库进行人脸对齐。本文 (c)示例样本3 随机选择每类1~25张人脸图像作为训练集字典, 其余图像做测试集,10次实验取平均值。对比方法 为灰度特征+最近邻分类(Pixel+NN)、灰度特征+
度空间到深度学习特征空间的非线性映射,不一定 能保证所得特征满足人脸子空间假设。 为了验证这 一问题,本文进行如下说明实验。 选择 AR 中图像作为测试样本,对特征空间中 任一个人脸样本,将其用同类的特征空间内的人脸 样本做稀疏线性表达,记录重构误差所占样本能量 的百分比;对特征空间中任一人脸样本,将其用所有 类的特征空间内的人脸样本做稀疏线性表达,记录 重构误差所占样本能量的百分比。 训练集字典大小 为每类 20 项。 实验统计结果如表 2 所示。 表 2 深度学习特征的类内差类间差分布 Table 2 The intra⁃class and inter⁃class differences of SRDLFCs features 用同类样本的灰度特 征进行稀疏线性表达 用所有类样本的灰度 特征进行稀疏线性表 达 用同类样本的深度学 习特征进行稀疏线性 表达 用所有类样本的深度 学习特征进行稀疏线 性表达 重构误差占原样本 的能量比 / % 94.12 97.33 97.43 98.15 在 SRDLFC 的稀疏线性表示的过程中得到的表 示系数示例如图 6。 (a)示例样本 1 (b)示例样本 2 (c)示例样本 3 (d)示例样本 4 图 6 SRDLFC 在稀疏表示过程中的表示系数示例 Fig.6 The represent coefficients in SRDLFC’ s repre⁃ sentation process 根据表 2 和图 6,可以看到在特征空间内的人脸样 本可以很好地被本来样本线性表达,满足子空间的 条件。 且其在被其他类样本协同线性表达过程中, 表达是稀疏的,且同类样本表达更加稀疏,符合稀疏 表示分类方法的适用条件。 实验说明,深度学习特 征具有一定的线性子空间特性。 多层卷积和池化的 非线性操作也有助于将人脸样本投影到一个更好的 线性子空间中。 在这样的线性特征子空间中,使用 基于稀疏表示的分类方法进行分类识别,具有更高 的鲁棒性和更好的识别效果。 4 实验结果及分析 本文选择 AR 和 CMU PIE 人脸数据库进行识 别实验,对应不同类内变化环境下的人脸识别情况。 4.1 AR 人脸数据库识别实验 AR 数据库包含大约 100 人的彩色图像(每人 约 50 张),含有光照、遮挡、表情的类内变化的干 扰。 图像使用 DLLIB 开源库进行人脸对齐。 本文 随机选择每类 1 ~ 25 张人脸图像作为训练集字典, 其余图像做测试集,10 次实验取平均值。 对比方法 为灰度特征+最近邻分类( Pixel+NN)、灰度特征+ 第 3 期 马晓,等:基于深度学习特征的稀疏表示的人脸识别方法 ·283·
.284. 智能系统学报 第11卷 Bayesian方法(Pixel+Bayesian)、灰度特征+稀疏表 Bayesian)、深度学习特征+稀疏表示分类方法(DL+ 示分类方法(Pixl+SRC)、深度学习特征+最近邻分 SRC,SRDLFC)。所得识别率结果如表3和图7所 类(DL+NN)、深度学习特征+Bayesian方法(DL+ 示。 表3AR数据库中人脸识别结果(每类字典数1-7) Table 3 Under-sampled Face Recognition Results in AR (Training samples per class:1-7)】 /% 各方法识别率 2 5 6 7 Pixel+NN 7.64 11.68 14.93 17.92 20.76 23.52 26.37 Pixel+Bayesian 15.59 23.04 28.53 33.00 36.94 40.78 44.12 Pixel+SRC 16.34 29.39 39.84 48.01 54.40 59.58 64.03 DL+NN 31.02 41.38 49.18 55.15 60.30 64.97 68.85 DL+Bayesian 34.88 48.29 56.57 65.00 70.62 74.45 77.89 DL+SRC 41.16 58.71 67.78 75.68 80.76 84.30 86.26 DL-SBC DL-Bayesian 4.2 CMU PIE人脸数据库识别实验 100 DL-NN CMU-PIE数据库包含68人的41368张彩色图 90 广 80 Pixel-SRC 像(每人约50张),含有13种姿态、43种光照、4种 70 Pixel-Bayes 60 表情的类内变化的干扰。图像使用DLIB开源库进 50 40 行人脸对齐。 30 .0" Pixel-NN 20 本文随机选择每类1-25张人脸图像作为训练 135791113151719212325 集字典,其余图像做测试集,10次实验取平均值。 每类字典数 对比方法同4.1章节。所得识别率结果如表4和图 图7AR数据库中人脸识别结果 8所示。 Fig.7 Recognition results in AR 表4 CMU PIE数据库中人脸识别结果(每类字典数1~7) Table 4 Under-sampled Face Recognition Results in CMU PIE(Training samples per class:1~7) /% 每类字典数 1 2 3 4 5 6 7 Pixel+NN 17.63 27.09 34.18 39.12 42.85 45.97 48.64 Pixel+Bayesian 15.33 29.93 35.85 42.43 47.22 50.70 54.01 Pixel+SRC 24.94 38.74 47.65 54.81 58.99 62.58 65.82 DL+NN 55.85 71.89 79.64 82.85 85.40 86.92 88.37 DL+Bayesian 53.23 68.96 74.13 77.91 81.29 83.68 85.77 DL+SRC 59.05 77.76 83.43 85.62 88.46 90.70 91.99 100 DL-NN DL-Bayesian DL-SBC 方法在较大类内变化干扰的环境下均能有较大的提 90 升,特别是本文提出的基于深度学习特征的稀疏表 80 Pixel-SRC +++ 70 示的人脸识别方法,取得了较各类方法更加优越的 60 效果。SRDLFC较传统的各类方法能够提升6%~ 50 Pixel-Bayesian 40 Pixel-NN 60%,尤其在小样本情况下更为明显,体现了稀疏表 30 示的特征具有较好的子空间特性、可分性、可迁移性 20 1 及对类内变化的不变性。而基于稀疏表示分类框架 135791113151719212325 每类字典数 的应用,更加有助于提升深度学习特征的分类准确 率,在较大类内变化的小样本的人脸识别问题中具 图8 CMU PIE数据库中人脸识别结果 有更大的优势。 Fig.8 Recognition results in CMU PIE 通过实验可以看到,基于深度学习特征的各类
Bayesian 方法( Pixel+Bayesian)、灰度特征+稀疏表 示分类方法(Pixel+SRC)、深度学习特征+最近邻分 类(DL+NN)、深度学习特征+Bayesian 方法(DL + Bayesian)、深度学习特征+稀疏表示分类方法(DL + SRC,SRDLFC)。 所得识别率结果如表 3 和图 7 所 示。 表 3 AR 数据库中人脸识别结果 (每类字典数 1~ 7) Table 3 Under⁃sampled Face Recognition Results in AR (Training samples per class: 1~ 7) / % 各方法识别率 1 2 3 4 5 6 7 Pixel+NN 7.64 11.68 14.93 17.92 20.76 23.52 26.37 Pixel+Bayesian 15.59 23.04 28.53 33.00 36.94 40.78 44.12 Pixel+SRC 16.34 29.39 39.84 48.01 54.40 59.58 64.03 DL+NN 31.02 41.38 49.18 55.15 60.30 64.97 68.85 DL+Bayesian 34.88 48.29 56.57 65.00 70.62 74.45 77.89 DL+SRC 41.16 58.71 67.78 75.68 80.76 84.30 86.26 图 7 AR 数据库中人脸识别结果 Fig.7 Recognition results in AR 4.2 CMU PIE 人脸数据库识别实验 CMU⁃PIE 数据库包含 68 人的 41368 张彩色图 像(每人约 50 张),含有 13 种姿态、43 种光照、4 种 表情的类内变化的干扰。 图像使用 DLIB 开源库进 行人脸对齐。 本文随机选择每类 1-25 张人脸图像作为训练 集字典,其余图像做测试集,10 次实验取平均值。 对比方法同 4.1 章节。 所得识别率结果如表 4 和图 8 所示。 表 4 CMU PIE 数据库中人脸识别结果 (每类字典数 1~ 7) Table 4 Under⁃sampled Face Recognition Results in CMU PIE (Training samples per class: 1~ 7) / % 每类字典数 1 2 3 4 5 6 7 Pixel+NN 17.63 27.09 34.18 39.12 42.85 45.97 48.64 Pixel+Bayesian 15.33 29.93 35.85 42.43 47.22 50.70 54.01 Pixel+SRC 24.94 38.74 47.65 54.81 58.99 62.58 65.82 DL+NN 55.85 71.89 79.64 82.85 85.40 86.92 88.37 DL+Bayesian 53.23 68.96 74.13 77.91 81.29 83.68 85.77 DL+SRC 59.05 77.76 83.43 85.62 88.46 90.70 91.99 图 8 CMU PIE 数据库中人脸识别结果 Fig.8 Recognition results in CMU PIE 通过实验可以看到,基于深度学习特征的各类 方法在较大类内变化干扰的环境下均能有较大的提 升,特别是本文提出的基于深度学习特征的稀疏表 示的人脸识别方法,取得了较各类方法更加优越的 效果。 SRDLFC 较传统的各类方法能够提升 6% ~ 60%,尤其在小样本情况下更为明显,体现了稀疏表 示的特征具有较好的子空间特性、可分性、可迁移性 及对类内变化的不变性。 而基于稀疏表示分类框架 的应用,更加有助于提升深度学习特征的分类准确 率,在较大类内变化的小样本的人脸识别问题中具 有更大的优势。 ·284· 智 能 系 统 学 报 第 11 卷
第3期 马晓,等:基于深度学习特征的稀疏表示的人脸识别方法 ·285. topy continuation for sparse signal representation C//Pro- 5 结束语 ceedings of the IEEE International Conference on Acoustics, 本文针对较大类内变化干扰下的人脸识别问 Speech,and Signal Processing,Philadelphia,USA,2005: 题,提出了基于深度学习特征稀疏表示的人脸识别 733-736. 方法SRDLFC。本文充分分析论证了基于深度学习 [10]KOH K,KIM S J,BOYD S P.An interior-point method for large-scale 11-regularized logistic regression J.Jour- 所提取的人脸特征基本满足线性子空间假设,并具 nal of machine learning research,2007,8(8):1519- 有较好的可分性、可迁移性及对类内变化的不变性。 1555. 本文将基于深度学习的特征应用到稀疏表示的分类 [11 LIU Y,WU F,ZHANG Z.Sparse representation using 框架中,充分发挥两者优点,实现识别率的提升。本 nonnegative curds and whey [C]//Proceedings of the 文提出的SRDLFC算法,可以有效地应对光照、姿 IEEE International Conference on Computer Vision and 态、表情、遮挡等类内变化带来的干扰,且在小样本 Pattern Recognition.San Francisco,USA,2010,119 问题中具有较大的优势。未来的研究工作将进一步 (5):3578-3585. 对深度学习特征进行研究分析,通过改进网络结构 [12]GAO S,TSANG I W,Chia L,et al.Local features are not 和损失函数,使网络所得特征更加满足线性子空间 lonely-laplacian sparse coding for image classification 约束,进一步提升SRDLFC的识别效果,并尝试做一 [C]//Proceedings of the IEEE International Conference on Computer Vision and Pattern Recognition,San Francis- 些理论上的推导工作。满足线性子空间约束,进一 co,USA,2010,23(3):3555-3561. 步提升SRDLFC的识别效果,并尝试做一些理论上 [13]FISER J,BERKES P,WHITE B.No evidence for active 的推导工作。 sparsification in the visual cortex[C]//Advances in Neu- 参考文献: ral Information Processing Systems,Vancouver,B.C., Canada,2009:108-116. [1]DONOHO D L.Compressed sensing[J].Information theory. [14]ZHANG D,YANG M,FENG X.Sparse representation or 2006,52(4):1289-1306. collaborative representation:which helps face recognition? [2]LEE K C,HO J,KRIEGMAN D.Acquiring linear sub- [C]//Proceedings of the IEEE International Conference spaces for face recognition under variable lighting[J].Pat- on Computer Vision.Barcelona,Spain,2011,6669(5): tern analysis and machine intelligence,2005,27(5):684- 471-478. 698. [15]DENG W,HU J,GUO J.Extended SRC:undersampled [3]NASEEM I,TOGNERI R,BENNAMOUN M.Linear regres- face recognition via intraclass variant dictionary[J].Pat- sion for face recognition[].Pattern analysis and machine tern analysis and machine intelligence,IEEE transactions intelligence,2010,32(11):2106-2112. om,2012,34(9):1864-1870. [4]WRIGHT J.YANG A Y,GANESH A,et al.Robust face [16]GUO J.In defense of sparsity based face recognition[C]/ recognition via sparse representation[J].Pattern analysis Proceedings of the IEEE International Conference on Com- and machine intelligence,2009,31(2):210-227. puter Vision.Sydney,NSW,Australia,2013,9(4):399- [5]AHARON M,ELAD M,BRUCKSTEIN A.K-SVD:an al- 406. gorithm for designing overcomplete dictionaries for sparse [17]SU Y,SHAN S,CHEN X,et al.Adaptive generic learn- representation [J].Signal processing,2006,54(11): ing for face recognition from a single sample per person 4311-4322. [C]//Proceedings of the IEEE International Conference [6]YANG M,ZHANG L,YANG J,et al.Metaface learning for on Computer Vision and Pattern Recognition.San Francis- sparse representation based face recognition[C]//Proceed- co,USA,2010:2699-2706. ings of the IEEE International Conference on Image Process- [18]WEI C,WANG Y-F.Learning auxiliary dictionaries for ing,Hong Kong,China,.2010,119(5):1601-1604. undersampled face recognition [C]//Proceedings of the [7]YANG M,ZHANG D,FENG X,et al.Fisher discrimina- IEEE International Conference on Multimedia and Expo. tion dictionary learning for sparse representation[C]//Pro- San Jose,California,USA,2013,2013:1-6. ceedings of the IEEE International Conference on Computer [19]WANG X,TANG X.Unified subspace analysis for face Vision.Barcelona,Spain,2011,24(4):543-550. recognition[C]//null.Proceedings of the IEEE Interna- [8]YANG J,ZHANG Y.Alternating direction algorithms for 11- tional Conference on Computer Vision.Nice,France, problems in compressive sensing J].arXiv:0912.1185, 2003:679-686. 2009,(1):250-278. [20]LECUN Y L,BOTTOU L,BENGIO Y,et al.Gradient- [9]UJDAT D M,MALIOUTOV D M,CETIN M,et al.Homo- based learning applied to document recognition.Proc IEEE
5 结束语 本文针对较大类内变化干扰下的人脸识别问 题,提出了基于深度学习特征稀疏表示的人脸识别 方法 SRDLFC。 本文充分分析论证了基于深度学习 所提取的人脸特征基本满足线性子空间假设,并具 有较好的可分性、可迁移性及对类内变化的不变性。 本文将基于深度学习的特征应用到稀疏表示的分类 框架中,充分发挥两者优点,实现识别率的提升。 本 文提出的 SRDLFC 算法,可以有效地应对光照、姿 态、表情、遮挡等类内变化带来的干扰,且在小样本 问题中具有较大的优势。 未来的研究工作将进一步 对深度学习特征进行研究分析,通过改进网络结构 和损失函数,使网络所得特征更加满足线性子空间 约束,进一步提升 SRDLFC 的识别效果,并尝试做一 些理论上的推导工作。 满足线性子空间约束,进一 步提升 SRDLFC 的识别效果,并尝试做一些理论上 的推导工作。 参考文献: [1]DONOHO D L. Compressed sensing[J]. Information theory, 2006, 52(4): 1289⁃1306. [2] LEE K C, HO J, KRIEGMAN D. Acquiring linear sub⁃ spaces for face recognition under variable lighting[ J]. Pat⁃ tern analysis and machine intelligence, 2005, 27(5): 684⁃ 698. [3]NASEEM I, TOGNERI R, BENNAMOUN M. Linear regres⁃ sion for face recognition[ J]. Pattern analysis and machine intelligence, 2010, 32(11): 2106⁃2112. [4]WRIGHT J, YANG A Y, GANESH A, et al. Robust face recognition via sparse representation [ J]. Pattern analysis and machine intelligence, 2009, 31(2): 210⁃227. [5]AHARON M, ELAD M, BRUCKSTEIN A. K⁃SVD: an al⁃ gorithm for designing overcomplete dictionaries for sparse representation [ J ]. Signal processing, 2006, 54 ( 11 ): 4311⁃4322. [6]YANG M, ZHANG L, YANG J, et al. Metaface learning for sparse representation based face recognition[C] / / Proceed⁃ ings of the IEEE International Conference on Image Process⁃ ing, Hong Kong, China, 2010, 119(5):1601⁃1604. [7]YANG M, ZHANG D, FENG X, et al. Fisher discrimina⁃ tion dictionary learning for sparse representation[C] / / Pro⁃ ceedings of the IEEE International Conference on Computer Vision. Barcelona, Spain, 2011, 24(4):543⁃550. [8]YANG J, ZHANG Y. Alternating direction algorithms for l1⁃ problems in compressive sensing [ J]. arXiv: 0912. 1185, 2009, (1):250⁃278. [9]UJDAT D M, MALIOUTOV D M, ÇETIN M, et al. Homo⁃ topy continuation for sparse signal representation[C] / / Pro⁃ ceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing,Philadelphia, USA, 2005: 733⁃736. [10]KOH K, KIM S J, BOYD S P. An interior⁃point method for large⁃scale l1⁃regularized logistic regression[ J]. Jour⁃ nal of machine learning research, 2007, 8 ( 8): 1519⁃ 1555. [11] LIU Y, WU F, ZHANG Z. Sparse representation using nonnegative curds and whey [ C] / / Proceedings of the IEEE International Conference on Computer Vision and Pattern Recognition. San Francisco, USA, 2010, 119 (5):3578⁃3585. [12]GAO S, TSANG I W, Chia L, et al. Local features are not lonely⁃laplacian sparse coding for image classification [C] / / Proceedings of the IEEE International Conference on Computer Vision and Pattern Recognition, San Francis⁃ co, USA, 2010, 23(3):3555⁃3561. [13]FISER J, BERKES P, WHITE B. No evidence for active sparsification in the visual cortex[C] / / Advances in Neu⁃ ral Information Processing Systems, Vancouver, B. C., Canada, 2009: 108⁃116. [14]ZHANG D, YANG M, FENG X. Sparse representation or collaborative representation: which helps face recognition? [C] / / Proceedings of the IEEE International Conference on Computer Vision. Barcelona, Spain, 2011, 6669(5): 471⁃478. [15] DENG W, HU J, GUO J. Extended SRC: undersampled face recognition via intraclass variant dictionary[ J]. Pat⁃ tern analysis and machine intelligence, IEEE transactions on, 2012, 34(9): 1864⁃1870. [16]GUO J. In defense of sparsity based face recognition[C] / / Proceedings of the IEEE International Conference on Com⁃ puter Vision. Sydney, NSW, Australia, 2013, 9(4):399⁃ 406. [17]SU Y, SHAN S, CHEN X, et al. Adaptive generic learn⁃ ing for face recognition from a single sample per person [C] / / Proceedings of the IEEE International Conference on Computer Vision and Pattern Recognition. San Francis⁃ co, USA, 2010: 2699⁃2706. [18] WEI C, WANG Y⁃F. Learning auxiliary dictionaries for undersampled face recognition [ C] / / Proceedings of the IEEE International Conference on Multimedia and Expo. San Jose, California, USA, 2013, 2013:1⁃6. [19] WANG X, TANG X. Unified subspace analysis for face recognition[C] / / null. Proceedings of the IEEE Interna⁃ tional Conference on Computer Vision. Nice, France, 2003:679⁃686. [20] LECUN Y L, BOTTOU L, BENGIO Y, et al. Gradient⁃ based learning applied to document recognition. Proc IEEE 第 3 期 马晓,等:基于深度学习特征的稀疏表示的人脸识别方法 ·285·
·286· 智能系统学报 第11卷 [J].Proceedings of the IEEE,1998,8(11):2278- ceedings of the IEEE International Conference on Computer 2324. Vision and Pattern Recognition.Columbus,OH,USA, [21]KRIZHEVSKY A,SUTSKEVER I,HINTON G E.Ima- 2014:1867-1874. geNet classification with deep convolutional neural net- 作者简介: works[C]//Advances in Neural Information Processing 马晓,男,1990年生,博士研究生, Systems.Lake Tahoe,Nevada,USA,2012,25:2012. 主要研究方向为机器学习、模式识别和 [22]TAIGMAN Y,YANG M,RANZATO M A,et al.Deep- 子空间理论。 face:Closing the gap to human-level performance in face verification[C]//Proceedings of the IEEE International Conference on Computer Vision and Pattern Recognition. Columbus,0H,USA,2014:1701-1708. [23]SUN Y,WANG X,TANG X.Deeply learned face repre- 张番栋,男,1991年生,博士研究 生,主要研究方向为机器学习和生物特 sentations are sparse,selective,and robust[J].arXiv: 征识别。 1412.1265,2014. [24]SZEGEDY C.LIU W,JIA Y,ET AL.Going deeper with convolutions[J].arXiv:1409.4842,2014. [25]SCHROFF F,KALENICHENKO D,PHILBIN J.FaceNet: 封举富,男,1967年生,教授,博士 A unified embedding for face recognition and clustering 生导师,博士,主要研究方向为图像处 [J].arXiv preprint arXiv:1503.03832,2015. [26]YI D,LEI Z,LIAO S,ET AL.Learning face representa- 理、模式识别、机器学习和生物特征识 别。主持参与国家自然科学基金、“十 tion from scratch []]arXiv preprint arXiv:1411.7923. 一五”国家科技支撑计划课题、973计 2014. 划等多项项目。曾获中国高校科技二等 [27]V.KAZEMI AND J.SULLIVAN.One millisecond face a- 奖等多项奖励。 lignment with an ensemble of regression trees[C]//Pro- 2016第八届智能人机系统与控制论国际会议 2016 8th International Conference on Intelligent Human-Machine Systems and Cybernetics As a continuation of IHMSC 2009 to IHMSC 2015,which were held successfully in Hangzhou,Nanjing,and Nanchang etc.,the 8th International Conference on Intelligent Human-Machine Systems and Cybernetics (IHMSC 2016)will take place at Zhejiang University in Hangzhou,China,between 27-28 August,2016.The aim of this conference is to provide a forum for exchanges of research results,ideas for and experience of application among researchers and practitioners involved with all aspects of Human-Machine Systems and Cybernet- ics. Human-Machine Systems: 1)Agents and agent-based systems; 15)Human-machine interfaces; 2)Artificial Immune Systems: 16)Human-robot interaction: 3)Artificial Life; 17)Unmanned systems; 4)Biologically inspired systems; 18)Image Processing; 5)Bioinformatics/Collective robotics; 19)Pattern Recognition; 6)Computational Intelligence; 20)Intelligent systems; 7)Cybernetics for Informatics; 21)Interactive and Digital Media; 8)Decentralized systems; 22)Interactive Design; 9)Distributed systems; 23)Intelligent Internet Systems; 10)Embedded intelligence; 24)Kansei (sense/emotion)Engineering; 11)Evolutionary robotics; 25)Knowledge Discovery and Data Mining; 12)Fuzzy Systems and Their applications; 26)Machine Learning; 13)Genetic and evolutionary computation; 27)Machine Vision. 14)Heuristic Algorithms; Website:http://ihmsc.zju.edu.cn/
[J]. Proceedings of the IEEE, 1998, 86 ( 11): 2278⁃ 2324. [21] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. Ima⁃ geNet classification with deep convolutional neural net⁃ works[ C] / / Advances in Neural Information Processing Systems.Lake Tahoe, Nevada, USA, 2012, 25:2012. [22]TAIGMAN Y, YANG M, RANZATO M A, et al. Deep⁃ face: Closing the gap to human⁃level performance in face verification[ C] / / Proceedings of the IEEE International Conference on Computer Vision and Pattern Recognition. Columbus, OH, USA, 2014: 1701⁃1708. [23]SUN Y, WANG X, TANG X. Deeply learned face repre⁃ sentations are sparse, selective, and robust [ J]. arXiv: 1412.1265, 2014. [24]SZEGEDY C, LIU W, JIA Y, ET AL. Going deeper with convolutions[J]. arXiv: 1409.4842, 2014. [25]SCHROFF F, KALENICHENKO D, PHILBIN J. FaceNet: A unified embedding for face recognition and clustering [J]. arXiv preprint arXiv:1503.03832, 2015. [26]YI D, LEI Z, LIAO S, ET AL. Learning face representa⁃ tion from scratch [ J]. arXiv preprint arXiv: 1411. 7923. 2014. [27]V. KAZEMI AND J. SULLIVAN. One millisecond face a⁃ lignment with an ensemble of regression trees[C] / / Pro⁃ ceedings of the IEEE International Conference on Computer Vision and Pattern Recognition. Columbus, OH, USA, 2014:1867⁃1874. 作者简介: 马晓,男,1990 年生,博士研究生, 主要研究方向为机器学习、模式识别和 子空间理论。 张番栋,男,1991 年生,博士研究 生,主要研究方向为机器学习和生物特 征识别。 封举富,男,1967 年生,教授,博士 生导师,博士,主要研究方向为图像处 理、模式识别、机器学习和生物特征识 别。 主持参与国家自然科学基金、 “十 一五”国家科技支撑计划课题、 973 计 划等多项项目。 曾获中国高校科技二等 2016 第八届智能人机系统与控制论国际会议 2016 8th International Conference on Intelligent Human⁃Machine Systems and Cybernetics As a continuation of IHMSC 2009 to IHMSC 2015, which were held successfully in Hangzhou, Nanjing, and Nanchang etc., the 8th International Conference on Intelligent Human⁃Machine Systems and Cybernetics (IHMSC 2016) will take place at Zhejiang University in Hangzhou, China, between 27⁃28 August, 2016. The aim of this conference is to provide a forum for exchanges of research results, ideas for and experience of application among researchers and practitioners involved with all aspects of Human⁃Machine Systems and Cybernet⁃ ics. Human⁃Machine Systems: 1)Agents and agent⁃based systems; 2)Artificial Immune Systems; 3)Artificial Life; 4)Biologically inspired systems; 5)Bioinformatics/ Collective robotics; 6)Computational Intelligence; 7)Cybernetics for Informatics; 8)Decentralized systems; 9)Distributed systems; 10)Embedded intelligence; 11)Evolutionary robotics; 12)Fuzzy Systems and Their applications; 13)Genetic and evolutionary computation; 14)Heuristic Algorithms; 15)Human⁃machine interfaces; 16)Human⁃robot interaction; 17)Unmanned systems; 18)Image Processing; 19)Pattern Recognition; 20)Intelligent systems; 21)Interactive and Digital Media; 22)Interactive Design; 23)Intelligent Internet Systems; 24)Kansei (sense / emotion) Engineering; 25)Knowledge Discovery and Data Mining; 26)Machine Learning; 27)Machine Vision. Website: http:/ / ihmsc.zju.edu.cn / ·286· 智 能 系 统 学 报 第 11 卷 奖等多项奖励