第10卷第2期 智能系统学报 Vol.10 No.2 2015年4月 CAAI Transactions on Intelligent Systems Apr.2015 D0:10.3969/j.issn.1673-4785.201405060 网络出版地址:http://www.enki..net/kcms/detail/23.1538.TP.20150326.1015.003.html 深度信念网络的二代身份证异构人脸核实算法 张媛媛,霍静,杨婉琪,高阳,史颖欢 (南京大学计算机软件新技术国家重点实验室,江苏南京210023) 摘要:二代身份证人脸核实问题是指判断二代身份证人像和身份证使用者当前头像是否为同一人。具体来说,即 将二代身份证模糊人像和实际在光照、背景等因素不可控环境下拍摄的若干张二代证使用者的视频人像作匹配,判 断是否为同一个人。由于低分辨率模糊图像和清晰视频图像属于2种不同的图像模态,因此该问题属于异构人脸 识别问题。考虑到跨模态人脸图像的差异,传统的特征抽取方法很难抽取判别性特征来描述不同模态图像,使得传 统方法难以达到精准辨别。针对这个问题,提出了一种新的基于深度学习的解决方法,其基本思想是通过深度信念 网络(DBN)的非监督贪心逐层训练来提取人脸图像的高层特征,结合传统的图像预处理和相似性度量技术,达到人 脸核实的目的。通过在256人的真实二代证数据集上和传统特征降维方法PCA,LDA进行比较,证实了所提出方法 在准确率上相比PCA有约12%的提升,相比LDA有约8%的提升。实验同时表明,针对数据量增大的情况,基于深 度学习的解决方法要优于传统的人脸识别方法。 关键词:人脸核实;多模态;深度学习;深度信念网络 中图分类号:TP391文献标志码:A文章编号:1673-4785(2015)02-0193-08 中文引用格式:张媛媛,霍静,杨婉琪,等.深度信念网络的二代身份证异构人脸核实算法[J].智能系统学报,2015,10(2):193 200. 英文引用格式:ZHANG Yuanyuan,HUO Jing,YANG Wangi,etal.A deep belief network-based heterogeneous face verification method for the second-generation identity card[J].CAAI Transactions on Intelligent Systems,2015,10(2):193-200. A deep belief network-based heterogeneous face verification method for the second-generation identity card ZHANG Yuanyuan,HUO Jing,YANG Wanqi,GAO Yang,SHI Yinghuan (State Key Laboratory for Software Technology,Nanjing University,Nanjing 210023,China) Abstract:The objective of the face verification method for the second-generation identity card is to determine whether the original head-photo stored in the corresponding identity card image and the currently captured head photo of the card-holder by using a video camera image actually belongs to the same person or not.To obtain a good verification result for the heterogeneous face verification method is a very challenging task because the two different types of ima- ges belong to two different modalities (e.g.,different image resolutions,different illumination conditions).Consider- ing the difference of trans-modal face images,it is hard to use traditional feature extraction methods to extract dis- criminative feature for description of images with different modes.Traditional feature extraction methods cannot distin- guish images exactly.In this paper,a deep learning-based face verification method is proposed.The proposed deep learning-based face verification method integrates the deep belief network (DBN),which employs unsupervised greedy layer-by-layer training for high-level feature extraction of face photo and combines the popularly used image preprocessing and similarity measurement technologies to realize the purpose of face verification.The results were e- valuated on a real dataset with two different modalities of 256 different people.This method outperforms the traditional principal component analysis(PCA)and linear discriminant analysis (LDA)methods with 12%and 8%improve- ments in terms of the verification accuracy,respectively.The results validated the advantage of the proposed method, especially when the amount of entries increases. Keywords:face recognition;multimodes;deep learning;deep belief network 收稿日期:2014-05-28.网络出版日期:2015-03-26. 目前,中国公民广泛使用第2代身份证作为身 基金项目:国家自然科学基金资助项目(61035003,61175042). 通信作者:张媛媛.E-mail:zhangyuanyuan2013nju@gmail..com. 份识别的手段。然而,随着近年来社会对于治安监
第 10 卷第 2 期 智 能 系 统 学 报 Vol.10 №.2 2015 年 4 月 CAAI Transactions on Intelligent Systems Apr. 2015 DOI:10.3969 / j.issn.1673⁃4785.201405060 网络出版地址:http: / / www.cnki.net / kcms/ detail / 23.1538.TP.20150326.1015.003.html 深度信念网络的二代身份证异构人脸核实算法 张媛媛,霍静,杨婉琪,高阳,史颖欢 (南京大学 计算机软件新技术国家重点实验室 ,江苏 南京 210023) 摘 要:二代身份证人脸核实问题是指判断二代身份证人像和身份证使用者当前头像是否为同一人。 具体来说,即 将二代身份证模糊人像和实际在光照、背景等因素不可控环境下拍摄的若干张二代证使用者的视频人像作匹配,判 断是否为同一个人。 由于低分辨率模糊图像和清晰视频图像属于 2 种不同的图像模态,因此该问题属于异构人脸 识别问题。 考虑到跨模态人脸图像的差异,传统的特征抽取方法很难抽取判别性特征来描述不同模态图像,使得传 统方法难以达到精准辨别。 针对这个问题,提出了一种新的基于深度学习的解决方法,其基本思想是通过深度信念 网络(DBN)的非监督贪心逐层训练来提取人脸图像的高层特征,结合传统的图像预处理和相似性度量技术,达到人 脸核实的目的。 通过在 256 人的真实二代证数据集上和传统特征降维方法 PCA、LDA 进行比较,证实了所提出方法 在准确率上相比 PCA 有约 12%的提升,相比 LDA 有约 8%的提升。 实验同时表明,针对数据量增大的情况,基于深 度学习的解决方法要优于传统的人脸识别方法。 关键词:人脸核实;多模态;深度学习;深度信念网络 中图分类号:TP391 文献标志码:A 文章编号:1673⁃4785(2015)02⁃0193⁃08 中文引用格式:张媛媛,霍静,杨婉琪,等. 深度信念网络的二代身份证异构人脸核实算法[ J]. 智能系统学报, 2015, 10( 2): 193⁃ 200. 英文引用格式:ZHANG Yuanyuan, HUO Jing, YANG Wanqi, et al. A deep belief network⁃based heterogeneous face verification method for the second⁃generation identity card[J]. CAAI Transactions on Intelligent Systems, 2015, 10(2): 193⁃200. A deep belief network⁃based heterogeneous face verification method for the second⁃generation identity card ZHANG Yuanyuan, HUO Jing, YANG Wanqi, GAO Yang, SHI Yinghuan (State Key Laboratory for Software Technology, Nanjing University, Nanjing 210023, China) Abstract:The objective of the face verification method for the second⁃generation identity card is to determine whether the original head⁃photo stored in the corresponding identity card image and the currently captured head photo of the card⁃holder by using a video camera image actually belongs to the same person or not. To obtain a good verification result for the heterogeneous face verification method is a very challenging task because the two different types of ima⁃ ges belong to two different modalities (e.g., different image resolutions, different illumination conditions). Consider⁃ ing the difference of trans⁃modal face images, it is hard to use traditional feature extraction methods to extract dis⁃ criminative feature for description of images with different modes. Traditional feature extraction methods cannot distin⁃ guish images exactly. In this paper, a deep learning⁃based face verification method is proposed. The proposed deep learning⁃based face verification method integrates the deep belief network (DBN), which employs unsupervised greedy layer⁃by⁃layer training for high⁃level feature extraction of face photo and combines the popularly used image preprocessing and similarity measurement technologies to realize the purpose of face verification. The results were e⁃ valuated on a real dataset with two different modalities of 256 different people. This method outperforms the traditional principal component analysis (PCA) and linear discriminant analysis (LDA) methods with 12% and 8% improve⁃ ments in terms of the verification accuracy, respectively. The results validated the advantage of the proposed method, especially when the amount of entries increases. Keywords:face recognition;multimodes; deep learning; deep belief network 收稿日期:2014⁃05⁃28. 网络出版日期:2015⁃03⁃26. 基金项目:国家自然科学基金资助项目(61035003,61175042). 通信作者:张媛媛.E⁃mail:zhangyuanyuan2013nju@ gmail.com. 目前,中国公民广泛使用第 2 代身份证作为身 份识别的手段。 然而,随着近年来社会对于治安监
·194 智能系统学报 第10卷 控的逐步重视,基于计算机辅助的面向第2代身份 过降维的方法来提取人脸图像特征,包括主成分分 证的人脸核实问题成为许多研究者关注的问题。 析(PCA)[4、线性判别分析(LDA)[O、局部保持投 早期的人脸核实研究大都针对受控环境下的人 影(locality preserving projection,LPP)I]等,然而上 脸识别问题,该问题目前已经可以被较好地解决。 述方法皆属于浅层学习模型8】,其局限性在于有限 但在拍照环境不确定、用户不配合、年龄更替等不可 样本和计算单元情况下对复杂分类问题的函数表示 控环境下,人脸核实的正确率急剧下降。因此,目前 能力有限,难以发现最具有判别能力的特征。此外, 大部分的研究开始关注不受控环境下的人脸核实问 对于异构人脸核实问题,图像模态导致的差异通常 题,该问题的主要难点在于环境、光照、姿态、年龄更 伴随个体不同导致的人像差异,大部分传统方法无 替等因素引起的人脸外观急剧变化,从而导致识别 法考虑模态的差异进行特征提取,从而在此应用上 困难2。 会失效[)」 1 相关工作 近年来,随着深度学习概念的提出,以深度信念 网络(deep belief networks,DBN)为代表的深度神经 本文重点研究了二代身份证的人脸核实问题, 网络模型,以其揭示数据中所隐藏的有用信息,而受 该问题属于不受控环境下的人脸核实问题。如图 到研究者们广泛的关注【山」 1,判断二代身份证的模糊人脸图像和二代身份证使 DBN模型是一种逐层贪婪预训练的深层神经 用者的清晰视频人脸图像是否属于同一个人。在这 网络模型,它克服了传统神经网络在训练上的难度, 个问题中,影响核实系统性能的因素主要有: 通过多层来获得更加抽象的特征表达,挖掘隐藏在 1)模态差异。二代身份证上人像属于低分辨 图像的像素特征之上的高维抽象特征。因此,针对 率图像模态,而现实情境下的视频人像属于清晰图 二代身份证的人脸核实问题,在特征抽取部分首次 像模态; 使用了基于DBN的非监督贪心逐层预训练的方法 2)人脸内部变化。年龄增长导致的面部变化、 进行权值初始化,结合传统的图像预处理和相似性 人脸的表情变化和装饰物等; 度量技术,通过深层模型的特征抽取,学习到对数据 3)外在环境因素。如拍摄地点不同而造成的 有更本质的刻画的特征,继而提升人脸核实问题的 光照问题、角度问题等。 准确性。 不同于已有的不受控环境下的人脸核实问题, 传统的人脸识别方法关注解决受控环境下的人 二代身份证的人脸核实问题由于涉及到匹配清晰和 脸识别,近年来,研究者们更多地关注不受控环境下 模糊2种不同模态的人像,该问题属于异构的人脸 的人脸识别问题24。其中,异构人脸识别问题是 核实问题。由于模态不同导致的人脸图像之间的差 一个研究热点。 异通常很大,因此对于异构人脸核实问题,想要达到 一般来说,针对异构人脸图像的识别技术通常 精确判别十分困难。 分为2类:1)通过某种方法将由视图导致的人像特 征差异减小,如针对近红外异构人脸数据集,Klare 等5)提出了对红外线人像(NR)和可见光人像 (VIS)进行随机子空间投影和稀疏表示来进行匹配 的方法,Yi等[6]提出典型相关分析方法来学习NIR 和VIS人像间的相似性:2)通过将其中一种模态的 (a)视频图像 (b)二代证图像 人像转化为其他模态的人像,再进行匹配,如针对近 图1异构情境下的人脸核实 红外异构人脸数据集,Wang等I]提出了合成和分 Fig.1 Heterogeneous face verification 析的方法将NIR人像转变为合成的VIS人像,Chen 对于传统的人脸核实算法,其基本假设是在进 等[8]使用局部线性嵌入算法将NIR人像转变为 行人脸区域提取后,同一个个体内部的人像差异小 VIS人像。 于不同个体间的人像差异),其解决手段主要为通 深度学习是基于Hubel-Wiesel仿生学模型,通
控的逐步重视,基于计算机辅助的面向第 2 代身份 证的人脸核实问题成为许多研究者关注的问题。 早期的人脸核实研究大都针对受控环境下的人 脸识别问题,该问题目前已经可以被较好地解决。 但在拍照环境不确定、用户不配合、年龄更替等不可 控环境下,人脸核实的正确率急剧下降。 因此,目前 大部分的研究开始关注不受控环境下的人脸核实问 题,该问题的主要难点在于环境、光照、姿态、年龄更 替等因素引起的人脸外观急剧变化,从而导致识别 困难[1⁃2] 。 1 相关工作 本文重点研究了二代身份证的人脸核实问题, 该问题属于不受控环境下的人脸核实问题。 如图 1,判断二代身份证的模糊人脸图像和二代身份证使 用者的清晰视频人脸图像是否属于同一个人。 在这 个问题中,影响核实系统性能的因素主要有: 1)模态差异。 二代身份证上人像属于低分辨 率图像模态,而现实情境下的视频人像属于清晰图 像模态; 2)人脸内部变化。 年龄增长导致的面部变化、 人脸的表情变化和装饰物等; 3)外在环境因素。 如拍摄地点不同而造成的 光照问题、角度问题等。 不同于已有的不受控环境下的人脸核实问题, 二代身份证的人脸核实问题由于涉及到匹配清晰和 模糊 2 种不同模态的人像,该问题属于异构的人脸 核实问题。 由于模态不同导致的人脸图像之间的差 异通常很大,因此对于异构人脸核实问题,想要达到 精确判别十分困难。 图 1 异构情境下的人脸核实 Fig.1 Heterogeneous face verification 对于传统的人脸核实算法,其基本假设是在进 行人脸区域提取后,同一个个体内部的人像差异小 于不同个体间的人像差异[3] ,其解决手段主要为通 过降维的方法来提取人脸图像特征,包括主成分分 析(PCA) [4⁃5] 、线性判别分析(LDA) [6] 、局部保持投 影( locality preserving projection,LPP) [7] 等,然而上 述方法皆属于浅层学习模型[8] ,其局限性在于有限 样本和计算单元情况下对复杂分类问题的函数表示 能力有限,难以发现最具有判别能力的特征。 此外, 对于异构人脸核实问题,图像模态导致的差异通常 伴随个体不同导致的人像差异,大部分传统方法无 法考虑模态的差异进行特征提取,从而在此应用上 会失效[9] 。 近年来,随着深度学习概念的提出,以深度信念 网络(deep belief networks,DBN)为代表的深度神经 网络模型,以其揭示数据中所隐藏的有用信息,而受 到研究者们广泛的关注[10⁃11] 。 DBN 模型是一种逐层贪婪预训练的深层神经 网络模型,它克服了传统神经网络在训练上的难度, 通过多层来获得更加抽象的特征表达,挖掘隐藏在 图像的像素特征之上的高维抽象特征。 因此,针对 二代身份证的人脸核实问题,在特征抽取部分首次 使用了基于 DBN 的非监督贪心逐层预训练的方法 进行权值初始化,结合传统的图像预处理和相似性 度量技术,通过深层模型的特征抽取,学习到对数据 有更本质的刻画的特征,继而提升人脸核实问题的 准确性。 传统的人脸识别方法关注解决受控环境下的人 脸识别,近年来,研究者们更多地关注不受控环境下 的人脸识别问题[12⁃14] 。 其中,异构人脸识别问题是 一个研究热点。 一般来说,针对异构人脸图像的识别技术通常 分为 2 类:1)通过某种方法将由视图导致的人像特 征差异减小,如针对近红外异构人脸数据集,Klare 等[15]提出了对红外线人像 ( NIR) 和可见光人像 (VIS)进行随机子空间投影和稀疏表示来进行匹配 的方法,Yi 等[16]提出典型相关分析方法来学习 NIR 和 VIS 人像间的相似性;2)通过将其中一种模态的 人像转化为其他模态的人像,再进行匹配,如针对近 红外异构人脸数据集,Wang 等[17] 提出了合成和分 析的方法将 NIR 人像转变为合成的 VIS 人像,Chen 等[18]使用局部线性嵌入算法将 NIR 人像转变为 VIS 人像。 深度学习是基于 Hubel⁃Wiesel 仿生学模型,通 ·194· 智 能 系 统 学 报 第 10 卷
第2期 张媛媛,等:深度信念网络的二代身份证异构人脸核实算法 ·195· 过“逐层初始化”建立的多层人工神经网络模型。 p(v,h)= 深度学习的实质是通过构建具有很多隐层的机器学 习模型和海量的训练数据,来学习更有用的特征。 式中:Z=∑e,为能量函数的指数函数的和。 e,h 区别于浅层学习,深度学习的不同在于:1)强调了 有了联合概率,很容易得到 模型结构的深度,通常有4层、5层甚至10层的隐 藏层节点;2)明确了特征学习的重要性,即通过逐 ∑ew p()= 层特征变换,将样本在原始空间的特征表示变换到 ∑e 一个新的特征空间,从而使分类或者预测更加容易。 p(h)= ∑eo 在人脸核实问题上,Sun等鬥提出将卷积神经网络 (convolutional neural networks,CNN)和限制性玻尔 ∑eow e-E(e,h) 兹曼机(restricted Boltzmann machines,RBM)相堆 p(vh)= 叠,利用CNN的二维特征提取和RBM的一维特征 ∑.e 抽象的特性,在LFW(labeled faces in the wild e8(,i) p(hv)= (1) home)[2o0)数据集上用以自然环境下的人脸核实问 ∑e时 题,核实结果准确率为86.88%的。本文相对于以往 此外,从统计学的概念出发,定义自由能量函数: 工作的主要创新是首次将深度学习引入到异构人脸 FreeEnergy(o)=-ln∑.e- (2) 核实问题上,解决了判别性特征难以提取的问题。 自由能量函数是描述整个系统状态的一种测 2 DBN的基本原理 度。系统越有序或者概率分布越集中,每个训练样 本经过RBM网络编码到隐藏节点的取值概率也越 2.1RBM模型 集中,系统的能量就越小,此时RBM系统能够更好 RBM是一个层内节点相互独立,层间节点的联 地拟合数据分布。 合概率分布满足Boltzmann分布的二部图模型。如图 联合(1)、(2)可以得出 2,下层是可视层,即输入数据层,可视节点用v∈R Inp(v)=-FreeEnergy(v)-In Z (3) 表示,其偏置为b∈R',上层是隐藏层,隐藏节点用h 式(3)两边做个累加,可得 ∈R表示,其偏置为c∈R,可视层和隐藏层之间的 ∑.lnp(u)=-∑FreeEnergy(u)-∑,lnZ 连接权值用W∈R“表示。对于图像而言,像素层对 应于可视层,特征描述子对应于隐藏层2。 可看出一个系统自由能量的总和最小的时候, 隐藏变量 正是ΠⅡp()最大的时候,也就是说,用极大似然 估计去求得∏p()的参数能让RBM系统的自由 能量总和达到最小,此时RBM系统能够最好地拟合 数据分布。 可视变量 定义Πp()的似然函数为 图2RBM模型 Fig.2 RBM model L(0)= 六2gpe9 受统计学中能量泛函的启发,RBM模型引入了 式中:N为节点的个数,0={W,b,c}为RBM模型 能量函数,可视节点和隐藏节点的联合组态(v,h) 的参数。 的能量函数为 用极大似然估计去求参数,可得到 E(w,h)=- aL(-Eh]-Enh aw 依据Boltzmann分布,可视节点和隐藏节点的 式中:Epa[h,]为独立数据期望,Ep[,h:]为模 联合概率分布为 型期望。其中,模型期望的获得是十分困难的,其时
过“逐层初始化” 建立的多层人工神经网络模型。 深度学习的实质是通过构建具有很多隐层的机器学 习模型和海量的训练数据,来学习更有用的特征。 区别于浅层学习,深度学习的不同在于:1) 强调了 模型结构的深度,通常有 4 层、5 层甚至 10 层的隐 藏层节点;2) 明确了特征学习的重要性,即通过逐 层特征变换,将样本在原始空间的特征表示变换到 一个新的特征空间,从而使分类或者预测更加容易。 在人脸核实问题上,Sun 等[19] 提出将卷积神经网络 (convolutional neural networks,CNN) 和限制性玻尔 兹曼机 ( restricted Boltzmann machines,RBM) 相堆 叠,利用 CNN 的二维特征提取和 RBM 的一维特征 抽象 的 特 性, 在 LFW ( labeled faces in the wild home) [20]数据集上用以自然环境下的人脸核实问 题,核实结果准确率为 86.88%的。 本文相对于以往 工作的主要创新是首次将深度学习引入到异构人脸 核实问题上,解决了判别性特征难以提取的问题。 2 DBN 的基本原理 2.1 RBM 模型 RBM 是一个层内节点相互独立,层间节点的联 合概率分布满足 Boltzmann 分布的二部图模型。 如图 2,下层是可视层,即输入数据层,可视节点用 v ∈ R l 表示,其偏置为 b ∈ R l ,上层是隐藏层,隐藏节点用 h ∈ R s 表示,其偏置为 c ∈R s ,可视层和隐藏层之间的 连接权值用 W∈R l×s 表示。 对于图像而言,像素层对 应于可视层,特征描述子对应于隐藏层[21] 。 图 2 RBM 模型 Fig.2 RBM model 受统计学中能量泛函的启发,RBM 模型引入了 能量函数,可视节点和隐藏节点的联合组态 (v,h) 的能量函数为 E(v,h) = - ∑ l j = 1 bj vj - ∑ s i = 1 cihi - ∑ l j = 1 ∑ s i = 1 vjhiwij 依据 Boltzmann 分布,可视节点和隐藏节点的 联合概率分布为 p(v,h) = 1 Z e -E(v,h) 式中: Z = ∑v,h e -E(v,h) ,为能量函数的指数函数的和。 有了联合概率,很容易得到 p(v) = ∑h e -E(v,h) ∑v,h e -E(v,h) p(h) = ∑v e -E(v,h) ∑v,h e -E(v,h) p(v h) = e -E(v,h) ∑v e -E(v,h) p(h v) = e -E(v,h) ∑h e -E(v,h) (1) 此外,从统计学的概念出发,定义自由能量函数: FreeEnergy(v) = - ln∑h e -E(v,h) (2) 自由能量函数是描述整个系统状态的一种测 度。 系统越有序或者概率分布越集中,每个训练样 本经过 RBM 网络编码到隐藏节点的取值概率也越 集中,系统的能量就越小,此时 RBM 系统能够更好 地拟合数据分布。 联合(1)、(2)可以得出 lnp(v) = - FreeEnergy(v) - ln Z (3) 式(3)两边做个累加,可得 ∑v ln p(v) = - ∑v FreeEnergy(v) - ∑v ln Z 可看出一个系统自由能量的总和最小的时候, 正是 ∏v p(v) 最大的时候,也就是说,用极大似然 估计去求得 ∏v p(v) 的参数能让 RBM 系统的自由 能量总和达到最小,此时 RBM 系统能够最好地拟合 数据分布。 定义 ∏v p(v) 的似然函数为 L(θ) = 1 N∑ N n = 1 log pθ(v (n) ) 式中: N 为节点的个数, θ = {W,b,c} 为 RBM 模型 的参数。 用极大似然估计去求参数,可得到 ∂L(θ) ∂Wij = EPdata [vjhi] - EPθ [vjhi] 式中: EPdata [vjhi] 为独立数据期望, EPθ [vjhi] 为模 型期望。 其中,模型期望的获得是十分困难的,其时 第 2 期 张媛媛,等:深度信念网络的二代身份证异构人脸核实算法 ·195·
·196 智能系统学报 第10卷 间与隐藏节点个数成指数关系。因此,Hinton等[2) 2.2RBM学习算法 提出了CD,(contrastive divergence)方法来模拟梯度 整个RBM的训练过程如下,这里用到了CD1。 的计算,整个算法过程如图3。 一层的RBM模型训练完毕后,固定其权值W 负例样本对和正例样本对 及偏置值b、c:,隐藏层的输出h:作为原输入信息 负例样本对和正例样本对 负例样本对 的第1个表达,将隐藏层的输出h,作为其上层RBM 负例样本对 的输入,同样训练RBM模型,就会得到第2层的参 ,:+■ 阈值theta 正例样本对 数及其输出,其输出就作为原输入信息的第2个表 正例样本对 红 达a]。如此不断往上叠加RBM,就得到了DBN的 相似性度量 预处理i 初步模型。 特征表示 正例样本对 以上在DBN模型的构建中统称为预训练阶段。 IFr18 工红幻 IEEEEEEE1E I,幻 预训练将网络参数训练到一组合适的初始值,从这 正例样本对 0上:0卫 组初始值出发会令代价函数达到一个更低的值2。 1 、”I8010 DBN模型 经过这种方式的训练后,再根据重构误差,使用传统 的全局学习算法,比如BP算法对整个模型进行微 预训练 BP微调 DBN 调,从而使模型收敛到局部最优点。 模型 RBM训练算法符号说明:可视节点j,可视节点 预处理 50张视屏图像+ 的偏置b,可视节点值为1的条件概率 1张二代证图像 P(x2=1h,),sign为S型函数,W为连接权值, 隐藏节点i,隐藏节点的偏置c:,隐藏节点值为1的 条件概率Q(h:=1x,)、Q(h2=1x2)。 图3系统框架 算法过程 Fig.3 System framework 输入:可视节点值x1, 实验证明,CD,是一种很好的求解对数似然函 输出:隐藏节点值h2o 数关于未知参数梯度的近似的方法。 for所有隐藏节点ido CDk算法 1)计算Q(h.=1x,)(若为二值单元,则Q值 输人:RBM(V1,2,…,VmH1,2,…,Hn), 输出:梯度估计△w,.△b,△c:。 即为sign(c:+∑,Wrxy) forj=1,2,…,m,i=1,2,…,n, 2)从Q(h:lx,)中采样h:∈{0,1 初始化△0g=Ab,=△c:=0forj=1,2,…,m, end for i=1,2,…,n。 for所有可视节点jdo for所有的vdo 3)计算P(xg=1h,)(若为二值单元,则Q值 (o)←U 即为sign(6,+∑,Wgh)) for t=0,...-1do 4)从P(x=1h)中采样x2∈{0,1} fori=1,2,…,ndo采样h(t) end for p(h:v) for所有隐藏节点ido forj=1,2,…,mdo采样“)~p(yh0) 5)计算Q(h2=1x2)(若为二值单元,则Q值 forj=1,2,…,m,i=1,2,…,ndo 即为sign(c:+∑W*)) △0g←-△wg+p(h:-1o)o-p(h,= end for 1) 6)W←-W+E(h1x1'-Q(h2=1x2)x2') 46,←46+@- 7)b←-b+ε(x1-x2) △c:←△c:+p(h=1vo)-p(h,=1v) 8)c←-c+e(h1-Q(h2=1x2))
间与隐藏节点个数成指数关系。 因此,Hinton 等[22] 提出了 CDk (contrastive divergence)方法来模拟梯度 的计算,整个算法过程如图 3。 图 3 系统框架 Fig.3 System framework 实验证明, CDk 是一种很好的求解对数似然函 数关于未知参数梯度的近似的方法。 CDk 算法 输入: RBM (V1 ,2,…,Vm,H1 ,2,…,Hn ), 输出: 梯度估计 Δwij,Δbj,Δci 。 for j = 1,2,…,m,i = 1,2,…,n, 初始化 Δwij = Δbj = Δci = 0 for j = 1,2,…,m, i =1,2,…,n。 for 所有的 v do v (0) ← v for t = 0,...k - 1do for i = 1,2,…,n do 采 样 hi (t) ~ p(hi v (t) ) for j = 1,2,…,m do 采样 v (t+1) j ~ p(vj h (t) ) for j = 1,2,…,m , i = 1,2,…,n do Δwij ← Δwij + p(hi = 1 v (0) )v (0) j - p(hi = 1 v (k) )v (k) j Δbj ← Δbj + v (0) j - v (k) j Δci ←Δci + p(hi = 1 v (0) ) - p(hi = 1 v (k) ) 2.2 RBM 学习算法 整个 RBM 的训练过程如下,这里用到了 CD1 。 一层的 RBM 模型训练完毕后,固定其权值 Wij 及偏置值 bj 、 ci ,隐藏层的输出 hi 作为原输入信息 的第 1 个表达,将隐藏层的输出 hi 作为其上层 RBM 的输入,同样训练 RBM 模型,就会得到第 2 层的参 数及其输出,其输出就作为原输入信息的第 2 个表 达[23] 。 如此不断往上叠加 RBM,就得到了 DBN 的 初步模型。 以上在 DBN 模型的构建中统称为预训练阶段。 预训练将网络参数训练到一组合适的初始值,从这 组初始值出发会令代价函数达到一个更低的值[24] 。 经过这种方式的训练后,再根据重构误差,使用传统 的全局学习算法,比如 BP 算法对整个模型进行微 调,从而使模型收敛到局部最优点。 RBM 训练算法符号说明:可视节点 j ,可视节点 的 偏 置 bj , 可 视 节 点 值 为 1 的 条 件 概 率 P(x2j = 1 h1 ) , sign 为 S 型函数, Wij 为连接权值, 隐藏节点 i ,隐藏节点的偏置 ci ,隐藏节点值为 1 的 条件概率 Q(h1i = 1 x1 ) 、 Q(h2i = 1 x2 ) 。 算法过程 输入: 可视节点值 x1 , 输出: 隐藏节点值 h2 。 for 所有隐藏节点 i do 1)计算 Q(h1i = 1 x1 ) (若为二值单元,则 Q 值 即为 sign ( ci + ∑j Wij x1j )) 2)从 Q(h1i x1 ) 中采样 h1i ∈ {0,1} end for for 所有可视节点 j do 3)计算 P(x2j = 1 h1 ) (若为二值单元,则 Q 值 即为 sign (bj + ∑j Wijh1i) ) 4)从 P(x2j = 1 h1 ) 中采样 x2j ∈ {0,1} end for for 所有隐藏节点 i do 5)计算 Q(h2i = 1 x2 ) (若为二值单元,则 Q 值 即为 sign(ci + ∑j Wij x2j) ) end for 6) W ← W + ε(h1 x1 ′ - Q(h2 = 1 x2 )x2 ′) 7) b ← b + ε(x1 - x2 ) 8) c ← c + ε(h1 - Q(h2 = 1 x2 )) ·196· 智 能 系 统 学 报 第 10 卷
第2期 张媛媛,等:深度信念网络的二代身份证异构人脸核实算法 ·197. 2)根据重构误差采用BP算法对整个模型进行 3人脸核实问题的解决方案 反向调节。 人脸核实问题的解决算法流程如图3,实线箭 整个深度学习模型可以看成是一个特征抽象的 头部分为系统训练,虚线箭头部分为系统测试: 过程,即将原来40×40的图像经过一系列抽象,摒 1)图像预处理 除无用信息,保留高维特征。 对收集到的数据集采用Adaboost算法[2s]和主 3)模型测试。将测试样本的数据均按照1)所 动形状模型(acitve shape model,ASM)[2进行人脸 述进行预处理,进行高斯处理后再输入到2)训练出 检测和关键点定位,再按照瞳孔坐标位置进行归一 的DBN模型中去,最高层的500个节点值作为图像 化,如图4,可以看到对齐后的效果。将归一化后的 最终的抽象特征向量。 视频图像进行模糊化,最后对所有的图像进行Quo 4)相似性度量。将50个视频图像的特征向量 tient Image方法去除光照千扰。 和1个二代证图像的特征向量构成50个(矿∫2) 2)DBN模型训练 对,其中∫,表示视频图像特征向量,∫2表示二代证 将按照上述预处理后得到的图片进行高斯处 图像特征向量,计算向量的余弦距离,得到50个相 理,使得均值为1,方差为0,如图5,打乱训练样本 似度数值,得到最大的相似度数值作为50张视频图 图片,再将每张40×40的图片拉成一维行向量作为 像和一张二代证图像之间的相似度。对上述的相似 整个DBN模型的输入。 度数值设置阈值,如果高于一个阈值则视频图像和 二代证图像中是同一个人,否则不是同一个人。 DBN模型:预训练+反向微调 ●0▣500 反向传播 RBM第4层a云 ▣1000 W. 微调 (a)视频图像 ●●●●●●☑2000 (b)二代证图像 RBM第3层O。 微调 图4归一化效果图 I ☐400( RBM第2层 微调 Fig.4 Normalization 000●● ●●●●●☐1600 第1层 RBM 「输入图像40×40 图6深度学习模型DBN Fig.6 DBN model 4 图5高斯处理后的效果图 实验结果与分析 Fig.5 Face pictures after Gaussian processing 4.1实验设置 用于二代证人脸核实问题上的DBN模型如图 实验用到的数据集为采集的二代身份证的 6,第1层以1张分辨率为40×40的图像作为输入, 人像数据集,具体包括:1)第1批采集的98人的 即包含1600个实值节点的可视层,第2层以及第3 二代身份证图像和视频图像(数据集1);2)256 层均为二值隐藏层,分别包含4000,2000个节点, 个人(第1批98个人+第2批158个人)的二代 最后一层为实值隐含层,也为输出层,共包含500个 身份证图像和视频图像(数据集2)。这2个数 节点。 据集均是在特定的采集环境中采集,涵盖年龄、 整个DBN模型的训练过程为: 光照、姿态、表情等主要变化条件,每个人的数据 1)预训练。逐层叠加训练RBM模型,直至最 为51张图像,包含二代身份证模糊照片1张和 高层。此时,整个模型网络参数的初始值在代价函 视频拍摄图像50张。 数最优解附近,很大程度上避免了反向调节时BP 实验采用了2种方案进行:1)十折交叉验 算法陷入局部最优
3 人脸核实问题的解决方案 人脸核实问题的解决算法流程如图 3,实线箭 头部分为系统训练,虚线箭头部分为系统测试: 1)图像预处理 对收集到的数据集采用 Adaboost 算法[25] 和主 动形状模型(acitve shape model,ASM) [26] 进行人脸 检测和关键点定位,再按照瞳孔坐标位置进行归一 化,如图 4,可以看到对齐后的效果。 将归一化后的 视频图像进行模糊化,最后对所有的图像进行 Quo⁃ tient Image 方法去除光照干扰。 2)DBN 模型训练 将按照上述预处理后得到的图片进行高斯处 理,使得均值为 1,方差为 0,如图 5,打乱训练样本 图片,再将每张 40 × 40 的图片拉成一维行向量作为 整个 DBN 模型的输入。 图 4 归一化效果图 Fig.4 Normalization 图 5 高斯处理后的效果图 Fig.5 Face pictures after Gaussian processing 用于二代证人脸核实问题上的 DBN 模型如图 6,第 1 层以 1 张分辨率为 40 × 40 的图像作为输入, 即包含 1 600 个实值节点的可视层,第 2 层以及第 3 层均为二值隐藏层,分别包含 4 000,2 000 个节点, 最后一层为实值隐含层,也为输出层,共包含 500 个 节点。 整个 DBN 模型的训练过程为: 1)预训练。 逐层叠加训练 RBM 模型,直至最 高层。 此时,整个模型网络参数的初始值在代价函 数最优解附近,很大程度上避免了反向调节时 BP 算法陷入局部最优。 2)根据重构误差采用 BP 算法对整个模型进行 反向调节。 整个深度学习模型可以看成是一个特征抽象的 过程,即将原来 40 × 40 的图像经过一系列抽象,摒 除无用信息,保留高维特征。 3)模型测试。 将测试样本的数据均按照 1)所 述进行预处理,进行高斯处理后再输入到 2)训练出 的 DBN 模型中去,最高层的 500 个节点值作为图像 最终的抽象特征向量。 4)相似性度量。 将 50 个视频图像的特征向量 和 1 个二代证图像的特征向量构成 50 个 (f1 ,f2 ) 对,其中 f1 表示视频图像特征向量, f2 表示二代证 图像特征向量,计算向量的余弦距离,得到 50 个相 似度数值,得到最大的相似度数值作为 50 张视频图 像和一张二代证图像之间的相似度。 对上述的相似 度数值设置阈值,如果高于一个阈值则视频图像和 二代证图像中是同一个人,否则不是同一个人。 图 6 深度学习模型 DBN Fig.6 DBN model 4 实验结果与分析 4.1 实验设置 实验用到的数据集为采集的二代身份证的 人像数据集,具体包括:1) 第 1 批采集的 98 人的 二代身份证图像和视频图像( 数据集 1) ;2) 256 个人(第 1 批 98 个人+第 2 批 158 个人) 的二代 身份证图像和视频图像( 数据集 2) 。 这 2 个数 据集均是在特定的采集环境中采集,涵盖年龄、 光照、姿态、表情等主要变化条件,每个人的数据 为 51 张图像,包含二代身份证模糊照片 1 张和 视频拍摄图像 50 张。 实验采用了 2 种 方 案 进 行: 1 ) 十 折 交 叉 验 第 2 期 张媛媛,等:深度信念网络的二代身份证异构人脸核实算法 ·197·
·198 智能系统学报 第10卷 证,以数据集2为例,即将256人的数据随机分 成10份,训练模型使用其中的9份,测试使用其 中的1份:2)非十折交叉,在数据集1上,训练模 型使用38个人的数据,测试部分使用60人的数 据:在数据集2上,训练模型使用98人的数据, (a)原图像 测试部分使用158人的数据。 测试中使用的反例为十重交叉验证中一份数据 中不同人的视频人像和二代证人像的组合。测试的 准确率是正确判别的准确率(同一个人的图像分类 (b)重构图像 为同一个人,不同的人的图像分类为不同的准确率; 图7数据集1中训练样本和测试样本的原图像和重构图像 且阈值的选取为使得正确分类正例和正确分类反例 Fig.7 The original pictures and constructed pictures of 的准确率相同时的值)。 training set and test set in dataset 1 4.2深度学习核实结果 通过DBN深度学习模型的特征抽取,2个数据 集的人脸核实准确率结果如表1。 表12个数据集上的正确率比较 Table 1 Accuracy rate on two datasets 图8数据集2中训练样本和测试样本的原图像和重构图像 Fig.8 The original pictures and constructed pictures of 数据集/人 十折交叉/% 非十折交叉/% training set and test set in dataset_2 98 61.89±0.7 51.20±0.4 表2与传统方法的正确率比较 256 66.62±1.1 62.41±0.9 Table 2 Compare with some traditional ways 从表1可以看出,采用十折交叉的数据集2的 方法 数据集1/% 数据集2/% 效果最好,最高可以达到67.60%的准确率。从数据 PCA 55.33 55.50 集1和数据集2的对比结果可知,训练数据越多,深 LDA 59.94 59.92 度学习越能充分挖掘海量数据中隐藏的丰富信息。 DBN模型 61.89 67.60 而数据集1的非十折交叉准确率仅有51.21%,相当 于一个弱分类器的效果。为了可视化地说明RBM 4.4层数对核实结果的影响 用于特征描述的表现能力,给出数据集1和数据集 此外,还对DBN模型深度的设计做了相应的实 2上的人脸图像及其经过DBN非监督贪心逐层训 验,如表3所示,以数据集2的非十折交叉为例,第 练得到的特征的重构图像示例,如图7、8。由于训 1层到第4层逐层叠加之后的核实准确率是逐渐提 练样本过少,如图9,测试样本图像与其重构结果相 升的,这表明此时的深度是有益的,而第5层时的准 差较大,说明模型过拟合现象较为严重。将数据集 确率未有明显提升,表明模型的深度4已经足够。 表3DBN模型对应的每层表现 2的十折交叉的测试结果也可视化,如图8,可看出 Table 3 Accuracy rate for every level of DBN model 重构结果比图7(b)更具有区分能力。 4.3和传统方法的对比结果 层数 准确率/% 将深度学习模型和传统的特征降维PCA、LDA 1层 58.23±0.4 方法在二代证人脸核实上的准确率进行对比,以十 2层 60.47±0.7 折交叉的方案为例,如表2可看出,深度学习模型的 3层 61.39±0.6 解决方法在准确率上优于传统特征降维方法;应用 4层 62.41±0.9 问题数据量越大,深度模型越能充分挖掘更多有价 5层 61.16±0.7 值的信息和知识,效果越好,而传统方法则不然。 从以上结果和分析中可以看出,深度学习模型 的实质是通过构建具有一定深度的机器学习模型和
证,以数据集 2 为例,即将 256 人的数据随机分 成 10 份,训练模型使用其中的 9 份,测试使用其 中的 1 份;2)非十折交叉,在数据集 1 上,训练模 型使用 38 个人的数据,测试部分使用 60 人的数 据;在数据集 2 上,训练模型使用 98 人的数据, 测试部分使用 158 人的数据。 测试中使用的反例为十重交叉验证中一份数据 中不同人的视频人像和二代证人像的组合。 测试的 准确率是正确判别的准确率(同一个人的图像分类 为同一个人,不同的人的图像分类为不同的准确率; 且阈值的选取为使得正确分类正例和正确分类反例 的准确率相同时的值)。 4.2 深度学习核实结果 通过 DBN 深度学习模型的特征抽取,2 个数据 集的人脸核实准确率结果如表 1。 表 1 2 个数据集上的正确率比较 Table 1 Accuracy rate on two datasets 数据集/ 人 十折交叉/ % 非十折交叉/ % 98 61.89 ± 0.7 51.20 ± 0.4 256 66.62 ± 1.1 62.41 ± 0.9 从表 1 可以看出,采用十折交叉的数据集 2 的 效果最好,最高可以达到67.60%的准确率。 从数据 集 1 和数据集 2 的对比结果可知,训练数据越多,深 度学习越能充分挖掘海量数据中隐藏的丰富信息。 而数据集 1 的非十折交叉准确率仅有 51.21%,相当 于一个弱分类器的效果。 为了可视化地说明 RBM 用于特征描述的表现能力,给出数据集 1 和数据集 2 上的人脸图像及其经过 DBN 非监督贪心逐层训 练得到的特征的重构图像示例,如图 7、8。 由于训 练样本过少,如图 9,测试样本图像与其重构结果相 差较大,说明模型过拟合现象较为严重。 将数据集 2 的十折交叉的测试结果也可视化,如图 8,可看出 重构结果比图 7(b)更具有区分能力。 4.3 和传统方法的对比结果 将深度学习模型和传统的特征降维 PCA、LDA 方法在二代证人脸核实上的准确率进行对比,以十 折交叉的方案为例,如表 2 可看出,深度学习模型的 解决方法在准确率上优于传统特征降维方法;应用 问题数据量越大,深度模型越能充分挖掘更多有价 值的信息和知识,效果越好,而传统方法则不然。 (a)原图像 (b)重构图像 图 7 数据集 1 中训练样本和测试样本的原图像和重构图像 Fig.7 The original pictures and constructed pictures of training set and test set in dataset_1 图 8 数据集 2 中训练样本和测试样本的原图像和重构图像 Fig.8 The original pictures and constructed pictures of training set and test set in dataset_2 表 2 与传统方法的正确率比较 Table 2 Compare with some traditional ways 方法 数据集 1 / % 数据集 2 / % PCA 55.33 55.50 LDA 59.94 59.92 DBN 模型 61.89 67.60 4.4 层数对核实结果的影响 此外,还对 DBN 模型深度的设计做了相应的实 验,如表 3 所示,以数据集 2 的非十折交叉为例,第 1 层到第 4 层逐层叠加之后的核实准确率是逐渐提 升的,这表明此时的深度是有益的,而第 5 层时的准 确率未有明显提升,表明模型的深度 4 已经足够。 表 3 DBN 模型对应的每层表现 Table 3 Accuracy rate for every level of DBN model 层数 准确率/ % 1 层 58.23 ± 0.4 2 层 60.47 ± 0.7 3 层 61.39 ± 0.6 4 层 62.41 ± 0.9 5 层 61.16 ± 0.7 从以上结果和分析中可以看出,深度学习模型 的实质是通过构建具有一定深度的机器学习模型和 ·198· 智 能 系 统 学 报 第 10 卷
第2期 张媛媛,等:深度信念网络的二代身份证异构人脸核实算法 ·199· 海量的训练数据,来学习更有价值的特征,从而提升 cal Society of America,1987,4(3):519-524 问题的准确性。所以,“深度模型”是手段,“特征学 [5]TURK M A,PENTLAND A P.Face recognition using 习”是目的[2列。 eigenfaces[C]//Computer Vision and Pattern Recognition. 当然,DBN模型也有其局限性,首先,其训练时 [S.1],1991:586-591. [6]SCHOLKOPFT B,MULLERT K R.Fisher discriminant a- 间较长;其次,高分辨率图像必须经过压缩才能用于 nalysis with kernels C//Proc of IEEE International Work- DBN模型:最后,DBN只关注图像的一维像素特征 shop on Neural Networks for Signal Processing.Madison, 而忽略了图像本身固有的二维特性,诸如局部平移 USA,1999:41-48. 不变性等等,这些问题都有待进一步解决。 [7]HE X,NIYOGI P.Locality preserving projections [C]// 5结束语 Annual Conference on Neural Information Processing Sys- tems.British Columbia,Canada,2003,16:234-241. 本文结合传统的图像预处理和相似性度量技 [8]BENGIO Y,LAMBLIN P,POPOVICI D,et al.Greedy lay- 术,把基于DBN的非监督贪心逐层训练的方法用于 er-wise training of deep networks[C]//Neural Information 特征提取和降维,将深度学习运用在公安监控二代 Processing Systems.Vancouver,Canada,2007,19:153- 证核实问题上,提出的方法取得了相比传统方法更 160. 高的准确率。它为异构人脸核实和深度学习相结合 [9]LIN D,TANG X.Inter-modality face recognition[J].European 的问题的研究提供了新的思路。而如何更加有效地 Conference on Computer Vision,2006,3954(4):13-26. [10]HINTON G E,OSINDERO S,TEH Y W,et al.A fast 深度挖掘图像的抽象特性,是一个值得深度研究的 learning algorithm for deep belief nets[J].Neural Compu- 课题。一方面可以借鉴文献[】,将RBM进行Con tation,2006.18(7):1527-1554. volution和Pooling操作,构成CDBN(convolutional [11]HINTON G E.Leaming multiple layers of representation[J]. deep belief networks)模型,另一方面也可借鉴文献 Trends in Cognitive Sciences,2007,11(10):428-434. [19],将CNN和RBM2种基本模型层层堆叠成一 [12]BARKAN O,WEILL J,WOLF L.et al.Fast high dimen- 个深度模型,此外,还可以结合二代证人脸核实问题 sional vector multiplication face recognition [C]//The 的特殊性,即异构特征,针对不同模态下的人脸图像 IEEE International Conference on Computer Vision.Syd- 设计出不同的深度学习模型,用其他学习策略,如度 ney,Australia,2013:1-8. 量方法,学习不同模型之间的相似性等等,这方面的 [13]SIMONYAN K,PARKHI O M,VEDALDI A,et al.Fish- 问题都有待于进一步研究。 er vector faces in the wild[C]//Proc British Machine Vi- sion Conference.Bristol,UK,2013:1-12. 参考文献: [14]CUI Z,LI W,XU D,et al.Fusing robust face region de- scriptors via multiple metric learning for face recognition in [1]CHAN C H,TAHIR M A,KITTLER J,et al.Multiscale the wild[C]//Computer Vision and Pattern Recognition. local phase quantization for robust component-based face Portland,Oregon,2013:3554-3561. recognition using kernel fusion of multiple descriptors[]. [15]KLARE B,JAIN A K.Heterogeneous face recognition: Pattern Analysis and Machine Intelligence,2013,35(5): matching NIR to visible light images [C ]//International 1164-1177 Conference on Pattern Recognition.Istanbul,Turkey, [2]LIAO S,JAIN A K,LI S Z,et al.Partial face recognition: 2010:1513-1516. alignment-free approach[]].Pattern Analysis and Machine [16]YI D,LIU R,CHU R,et al.Face matching between near ntelligence,2013,35(5):1193-1205. infrared and visible light images[J].Advances in Biomet- [3]CAO X,WIPF D,WEN F,et al.A practical transfer learn- ics,2007,4642:523-530. ing algorithm for face verification [C]//The IEEE Interna- [17]WANG R,YANG J,YI D,et al.An analysis-by-synthesis tional Conference on Computer Vision.Sydney,Australia, method for heterogeneous face biometrics[J].Advances in 2013:3208-3215. Biometrics,2009,5558:319-326. [4]SIROVICH L,KIRBY M.Low-dimensional procedure for [18]CHEN J,YI D,YANG J,et al.Learning mappings for the characterization of human faces[J].Journal of the Opti- face synthesis from near infrared to visual light images
海量的训练数据,来学习更有价值的特征,从而提升 问题的准确性。 所以,“深度模型”是手段,“特征学 习”是目的[27] 。 当然,DBN 模型也有其局限性,首先,其训练时 间较长;其次,高分辨率图像必须经过压缩才能用于 DBN 模型;最后,DBN 只关注图像的一维像素特征 而忽略了图像本身固有的二维特性,诸如局部平移 不变性等等,这些问题都有待进一步解决。 5 结束语 本文结合传统的图像预处理和相似性度量技 术,把基于 DBN 的非监督贪心逐层训练的方法用于 特征提取和降维,将深度学习运用在公安监控二代 证核实问题上,提出的方法取得了相比传统方法更 高的准确率。 它为异构人脸核实和深度学习相结合 的问题的研究提供了新的思路。 而如何更加有效地 深度挖掘图像的抽象特性,是一个值得深度研究的 课题。 一方面可以借鉴文献[28] ,将 RBM 进行 Con⁃ volution 和 Pooling 操作,构成 CDBN ( convolutional deep belief networks) 模型,另一方面也可借鉴文献 [19],将 CNN 和 RBM 2 种基本模型层层堆叠成一 个深度模型,此外,还可以结合二代证人脸核实问题 的特殊性,即异构特征,针对不同模态下的人脸图像 设计出不同的深度学习模型,用其他学习策略,如度 量方法,学习不同模型之间的相似性等等,这方面的 问题都有待于进一步研究。 参考文献: [1]CHAN C H, TAHIR M A, KITTLER J, et al. Multiscale local phase quantization for robust component⁃based face recognition using kernel fusion of multiple descriptors [ J]. Pattern Analysis and Machine Intelligence, 2013, 35( 5): 1164⁃1177. [2]LIAO S, JAIN A K, LI S Z, et al. Partial face recognition: alignment⁃free approach[ J]. Pattern Analysis and Machine Intelligence, 2013, 35(5): 1193⁃1205. [3]CAO X, WIPF D, WEN F, et al. A practical transfer learn⁃ ing algorithm for face verification[C] / / The IEEE Interna⁃ tional Conference on Computer Vision. Sydney, Australia, 2013: 3208⁃3215. [4] SIROVICH L, KIRBY M. Low⁃dimensional procedure for the characterization of human faces[J]. Journal of the Opti⁃ cal Society of America, 1987, 4(3): 519⁃524. [5] TURK M A, PENTLAND A P. Face recognition using eigenfaces[C] / / Computer Vision and Pattern Recognition. [S.l.], 1991: 586⁃591. [6] SCHOLKOPFT B, MULLERT K R. Fisher discriminant a⁃ nalysis with kernels[C] / / Proc of IEEE International Work⁃ shop on Neural Networks for Signal Processing. Madison, USA, 1999: 41⁃48. [ 7] HE X, NIYOGI P. Locality preserving projections [ C] / / Annual Conference on Neural Information Processing Sys⁃ tems. British Columbia, Canada, 2003, 16: 234⁃241. [ 8]BENGIO Y, LAMBLIN P, POPOVICI D, et al. Greedy lay⁃ er⁃wise training of deep networks[ C] / / Neural Information Processing Systems. Vancouver, Canada, 2007, 19: 153⁃ 160. [9]LIN D, TANG X. Inter⁃modality face recognition[J]. European Conference on Computer Vision, 2006, 3954(4): 13⁃26. [10]HINTON G E, OSINDERO S, TEH Y W, et al. A fast learning algorithm for deep belief nets[ J]. Neural Compu⁃ tation, 2006, 18(7): 1527⁃1554. [11]HINTON G E. Learning multiple layers of representation[J]. Trends in Cognitive Sciences, 2007, 11(10): 428⁃434. [12]BARKAN O, WEILL J, WOLF L, et al. Fast high dimen⁃ sional vector multiplication face recognition [ C ] / / The IEEE International Conference on Computer Vision. Syd⁃ ney, Australia, 2013: 1⁃8. [13]SIMONYAN K, PARKHI O M, VEDALDI A, et al. Fish⁃ er vector faces in the wild[C] / / Proc British Machine Vi⁃ sion Conference. Bristol, UK, 2013: 1⁃12. [14]CUI Z, LI W, XU D, et al. Fusing robust face region de⁃ scriptors via multiple metric learning for face recognition in the wild [ C] / / Computer Vision and Pattern Recognition. Portland, Oregon, 2013: 3554⁃3561. [15] KLARE B, JAIN A K. Heterogeneous face recognition: matching NIR to visible light images [ C] / / International Conference on Pattern Recognition. Istanbul, Turkey, 2010: 1513⁃1516. [16]YI D, LIU R, CHU R, et al. Face matching between near infrared and visible light images[ J]. Advances in Biomet⁃ rics, 2007, 4642: 523⁃530. [17]WANG R, YANG J, YI D, et al. An analysis⁃by⁃synthesis method for heterogeneous face biometrics[J]. Advances in Biometrics, 2009, 5558: 319⁃326. [18]CHEN J, YI D, YANG J, et al. Learning mappings for face synthesis from near infrared to visual light images 第 2 期 张媛媛,等:深度信念网络的二代身份证异构人脸核实算法 ·199·
.200· 智能系统学报 第10卷 [C]//Computer Vision and Pattern Recognition.Fla, USA,2009:156-163. YU Kai,JIA Lei,CHEN Yuqiang,et al.Yesterday,today [19]SUN Y,WANG X,TANG X,et al.Hybrid deep learning and tomorrow for deep learning[J].Journal of Computer Re- for face verification [C]//IEEE International Conference search and Development,2013,50(9):1799-1804. on Computer Vision.Sydney,Australia,2013:1489-1496. [28]HUANG G B,LEE H,LEARNED-MILLER E,et al. [20]HUANG G B,RAMESH M,BERG T,et al.Labeled faces Learning hierarchical representations for face verification in the wild:a database for studying face recognition in un- with convolutional deep belief networks[C]//Computer constrained environments[R].Massachusetts,Amherst, Vision and Pattern Recognition.Newport,USA,2012: 2007:07-49. 2518-2525. [21]HINTON G.A practical guide to training restricted Boltz- 作者简介: mann machines[J.Momentum,2010,9(1):599-619. 张媛媛,女,1991年生,硕士研究 [22]HINTON G.Training products of experts by minimizing 生,主要研究方向为机器视觉、机器学 contrastive divergence[J].Neural Computation,2002,14 习等。 (8):1771-1800. [23]HINTON G.Learning multiple layers of representation[J]. Trends in Cognitive Sciences,2007,11(10):428-434. [24]HINTON G.Reducing the dimensionality of data with neu- 杨婉琪,女,1988年生,博士研究 ral networks[J].Science,2006,313(5786):504-507. 生,主要研究方向为机器学习、机器视 [25]EDWARDS G J,COOTES T F,TAYLOR C J,et al.Face 觉等。 recognition using active appearance models[].Computer Vision--(ECCV).1998,1407:581-595. [26]VIOLA P,JONES M.Fast and robust classification using asymmetric adaboost and a detector cascade[C]//Neural 高阳,男,1972年生,教授,博士生 Information Processing Systems.Vancouver,Canada, 导师,主要研究方向为强化学习、智能 2002:1311-1318. agent、智能应用等。 [27]余凯,贾磊,陈雨强,等.深度学习的昨天,今天和明天 [J].计算机研究与发展[J],2013,50(9):1799-1804
[ C ] / / Computer Vision and Pattern Recognition. Fla, USA, 2009: 156⁃163. [19]SUN Y, WANG X, TANG X, et al. Hybrid deep learning for face verification [ C] / / IEEE International Conference on Computer Vision. Sydney, Australia, 2013: 1489⁃1496. [20]HUANG G B, RAMESH M, BERG T, et al. Labeled faces in the wild: a database for studying face recognition in un⁃ constrained environments [ R]. Massachusetts, Amherst, 2007: 07⁃49. [21]HINTON G. A practical guide to training restricted Boltz⁃ mann machines[J]. Momentum, 2010, 9(1): 599⁃619. [22] HINTON G. Training products of experts by minimizing contrastive divergence[J]. Neural Computation, 2002,14 (8): 1771⁃1800. [23]HINTON G. Learning multiple layers of representation[J]. Trends in Cognitive Sciences, 2007, 11(10): 428⁃434. [24]HINTON G. Reducing the dimensionality of data with neu⁃ ral networks[J]. Science, 2006, 313(5786): 504⁃507. [25]EDWARDS G J, COOTES T F, TAYLOR C J, et al. Face recognition using active appearance models[ J]. Computer Vision—(ECCV). 1998,1407: 581⁃595. [26]VIOLA P, JONES M. Fast and robust classification using asymmetric adaboost and a detector cascade[C] / / Neural Information Processing Systems. Vancouver, Canada, 2002: 1311⁃1318. [27]余凯, 贾磊, 陈雨强, 等. 深度学习的昨天, 今天和明天 [J]. 计算机研究与发展[J], 2013,50(9): 1799⁃1804. YU Kai, JIA Lei, CHEN Yuqiang, et al. Yesterday, today and tomorrow for deep learning[J]. Journal of Computer Re⁃ search and Development, 2013, 50(9): 1799⁃1804. [28] HUANG G B, LEE H, LEARNED⁃MILLER E, et al. Learning hierarchical representations for face verification with convolutional deep belief networks [ C] / / Computer Vision and Pattern Recognition. Newport, USA, 2012: 2518⁃2525. 作者简介: 张媛媛,女, 1991 年生,硕士研究 生,主要研究方向为机器视觉、机器学 习等。 杨婉琪,女, 1988 年生,博士研究 生,主要研究方向为机器学习、机器视 觉等。 高阳,男,1972 年生,教授,博士生 导师,主要研究方向为强化学习、智能 agent、智能应用等。 ·200· 智 能 系 统 学 报 第 10 卷