第13卷第2期 智能系统学报 Vol.13 No.2 2018年4月 CAAI Transactions on Intelligent Systems Apr.2018 D0:10.11992/tis.201609002 网络出版地址:http:/kns.cnki.net/kcms/detail/23.1538.TP.20170317.1937.002.html 鲁棒的正则化编码随机遮挡表情识别 刘帅师,郭文燕,张言,程曦 (长春工业大学电气与电子工程学院,吉林长春130000) 摘要:为了提高随机遮挡下人脸表情的识别率,提出一种新的人脸表示模型,即鲁棒的正则化编码,通过正则回归 系数对给定信号进行鲁棒回归。首先,为了诚少遮挡对人脸表情识别系统的影响,待识别表情图像的每个像素点将 被分配不同的权重:然后,由于被遮挡部分像素点应分配较小的值,通过连续迭代直到权重收敛于设定的权重阈值; 最后,待测图像的稀疏表示将通过最优权重矩阵计算,且待测表情图像分类结果由训练样本逼近待测图像的最小残 差决定。应用该方法在日本的JAFFE表情数据库和Cohn-Kanade数据库上取得较理想的结果,且实验结果表明该 方法对随机遮挡表情识别具有鲁棒性。 关键词:随机遮挡:正则化编码:自动更新权重:表情识别 中图分类号:TP391.4文献标志码:A文章编号:1673-4785(2018)02-0261-08 中文引用格式:刘帅师,郭文燕,张言,等.鲁棒的正则化编码随机遮挡表情识别.智能系统学报,2018,13(2):261-268 英文引用格式:LIU Shuaishi,GUO Wenyan,ZHANG Yan,.etal.Recognition of facial expression in case of random shielding based on robust regularized coding Jl.CAAI transactions on intelligent systems,2018,13(2):261-268. Recognition of facial expression in case of random shielding based on ro- bust regularized coding LIU Shuaishi,GUO Wenyan,ZHANG Yan,CHENG Xi (College of Electrical and Electronic Engineering,Changchun University of Technology,Changchun 130000,China) Abstract:In order to improve facial expression recognition rate under the random shielding,a new face representation model was proposed:robust regularized coding.Regularized regression coefficients are used for carrying out robust re- gression for the given signals.Firstly,in order to reduce the influence of shielding on facial expression identification system,all pixels of the expression image to be identified will be assigned with different weights;then,because the oc- cluded pixels should have lower weight values,hence,successive iteration is applied until the weight converges to the set weight threshold;finally,the sparse representation of image to be tested can be calculated by using the optimal weight matrix,in addition,the classified results of the expression image to be tested are determined by the minimal re- sidual that the training samples approximate to the test image.The proposed method achieved an ideal performance in Japanese JAFFE expression database and Cohn-Kanade database,in addition,the experimental results show that the method is robust for the recognition of the facial expression randomly shielded. Keywords:random shielding:regularized coding;automatic update of weight;recognition of facial expression 人脸表情识别技术是生理学、心理学、图像处条件下进行实验和研究四。然而,人脸遮挡在现实 理、模式识别和计算机视觉等领域的一个具有挑战生活中很常见,例如,太阳镜可以遮挡眼睛区域、一 性的交叉学科山。为了确保信息的完整性,研究人 条围巾或外科口罩遮挡嘴部区。因此,在人脸存 员们使用不存在遮挡人脸表情图像在受控的实验室 在遮挡的表情识别仍然是人脸表情识别系统在实际 应用中最重要的瓶颈之一。 收稿日期:2016-09-06.网络出版日期:2017-03-17. 基金项目:吉林省教育厅“十三五”科学技术项目(JKH20170571K). 近年来,针对部分遮挡人脸表情识别,研究人 通信作者:刘帅师.E-mail:liu-shuaishi(@126.com 员已经提出了许多方法来减少遮挡对表情识别的影
DOI: 10.11992/tis.201609002 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20170317.1937.002.html 鲁棒的正则化编码随机遮挡表情识别 刘帅师,郭文燕,张言,程曦 (长春工业大学 电气与电子工程学院,吉林 长春 130000) 摘 要:为了提高随机遮挡下人脸表情的识别率,提出一种新的人脸表示模型,即鲁棒的正则化编码,通过正则回归 系数对给定信号进行鲁棒回归。首先,为了减少遮挡对人脸表情识别系统的影响,待识别表情图像的每个像素点将 被分配不同的权重;然后,由于被遮挡部分像素点应分配较小的值,通过连续迭代直到权重收敛于设定的权重阈值; 最后,待测图像的稀疏表示将通过最优权重矩阵计算,且待测表情图像分类结果由训练样本逼近待测图像的最小残 差决定。应用该方法在日本的 JAFFE 表情数据库和 Cohn-Kanade 数据库上取得较理想的结果,且实验结果表明该 方法对随机遮挡表情识别具有鲁棒性。 关键词:随机遮挡;正则化编码;自动更新权重;表情识别 中图分类号:TP391.4 文献标志码:A 文章编号:1673−4785(2018)02−0261−08 中文引用格式:刘帅师, 郭文燕, 张言, 等. 鲁棒的正则化编码随机遮挡表情识别[J]. 智能系统学报, 2018, 13(2): 261–268. 英文引用格式:LIU Shuaishi, GUO Wenyan, ZHANG Yan, et al. Recognition of facial expression in case of random shielding based on robust regularized coding[J]. CAAI transactions on intelligent systems, 2018, 13(2): 261–268. Recognition of facial expression in case of random shielding based on robust regularized coding LIU Shuaishi,GUO Wenyan,ZHANG Yan,CHENG Xi (College of Electrical and Electronic Engineering, Changchun University of Technology, Changchun 130000, China) Abstract: In order to improve facial expression recognition rate under the random shielding, a new face representation model was proposed: robust regularized coding. Regularized regression coefficients are used for carrying out robust regression for the given signals. Firstly, in order to reduce the influence of shielding on facial expression identification system, all pixels of the expression image to be identified will be assigned with different weights; then, because the occluded pixels should have lower weight values, hence, successive iteration is applied until the weight converges to the set weight threshold; finally, the sparse representation of image to be tested can be calculated by using the optimal weight matrix, in addition, the classified results of the expression image to be tested are determined by the minimal residual that the training samples approximate to the test image. The proposed method achieved an ideal performance in Japanese JAFFE expression database and Cohn-Kanade database, in addition, the experimental results show that the method is robust for the recognition of the facial expression randomly shielded. Keywords: random shielding; regularized coding; automatic update of weight; recognition of facial expression 人脸表情识别技术是生理学、心理学、图像处 理、模式识别和计算机视觉等领域的一个具有挑战 性的交叉学科[1]。为了确保信息的完整性,研究人 员们使用不存在遮挡人脸表情图像在受控的实验室 条件下进行实验和研究[2]。然而,人脸遮挡在现实 生活中很常见,例如,太阳镜可以遮挡眼睛区域、一 条围巾或外科口罩遮挡嘴部区[3]。因此,在人脸存 在遮挡的表情识别仍然是人脸表情识别系统在实际 应用中最重要的瓶颈之一。 近年来,针对部分遮挡人脸表情识别,研究人 员已经提出了许多方法来减少遮挡对表情识别的影 收稿日期:2016−09−06. 网络出版日期:2017−03−17. 基金项目:吉林省教育厅“十三五”科学技术项目 (JJKH20170571KJ). 通信作者:刘帅师. E-mail: liu-shuaishi@126.com. 第 13 卷第 2 期 智 能 系 统 学 报 Vol.13 No.2 2018 年 4 月 CAAI Transactions on Intelligent Systems Apr. 2018
·262· 智能系统学报 第13卷 响。Kotsia等受Fisher的线性判别分析和支持向 法对随机遮挡表情识别的鲁棒性进行了验证,取得 量机(support vector machine,SVM)的启发,提出了 了较理想的识别效果。 一种新颖的最小类内方差的多类分类器来研究在不 同人脸器官遮挡的情况下对人脸表情识别的影响。 1鲁棒的正则化编码 Tarres等Il提出了基于PCA(principal component 通常情况下,稀疏编码问题可以定义为 analysis)和LDA((linear discriminant analysis),并结 argminllall s.t.lly-Tal 0。保真项定义为心y-Ta匠。 理特征,利用监督的判别非负矩阵因子分解(dis 如果事先假设编码残差e=y-Tα服从高斯分 criminant non-negative matrix factorization,DNMF) 布,式(I)的解将变成最大似然估计的解,如果e服 进行图像分解,再采用基于模型的方法来描述特定 从拉普拉斯分布,I,稀疏限制的最大似然估计解变 面部特征的几何位移来完成遮挡图像的特征表征。 为a=arg minllals.tdl心y-Tall≤e。 Zhang等m利用蒙特卡罗算法对表情图像提取Gabor 其实,a=arg minllas.ty-Tal,≤e是式(1)的 特征,并遍历表情图像的每个区域进行模板匹配以 另一种表现形式,因为它们都具有相同的拉格朗日 产生对遮挡具有鲁棒性的特征向量。Wang等利 公式:argmin{lal,+y-Tal,}o 用改进的中心对称局部二值模式和梯度中心对称局 在实际应用中这种假设是不成立的,尤其是当 部方向模式GCS-LDP,利用卡方距离求取测试集图 人脸表情图像y被遮挡时。为了构建一个鲁棒性更 像与训练集图像特征直方图之间的距离。但是,上 强的人脸表情图像的稀疏编码模型,本文提出了一 述方法主要研究眼部遮挡和嘴部遮挡对人脸表情识 个更通用的而且效率更高的鲁棒正则化编码模型。 别效果的影响,没有充分考虑遮挡在现实生活中出 1.1鲁棒的正则化编码模型 现的特点,对随机遮挡情况的适应性较弱。人脸遮 贝叶斯估计的观,点确切地说是从最大后验概率 挡的特点是遮挡可以在人脸的任何地方发生,并且 估计观,点考虑人脸表示的问题。通过字典T对待测 遮挡范围的大小和遮挡的形状都是未知的,没有任 表情图像y进行编码,编码向量α的最大后验概率估 何关于它的先验知识。因此,不能只考虑脸部某 计变成在=argmaxInP(aly)。利用贝叶斯公式得 个区域对人脸表情识别的影响情况,应该根据遮挡 &argmax (In P(yl a)+In P(a)} (2) 的特点来展开研究,并提出一些可以克服这个问题 将式(I)中的字典T改写成T=[r;r2;…;rJ,其 的方法。Wright等ol采用稀疏编码方法完成人脸识 中,r,表示T的第i列,而且e=y-Ta=[e1;e2;…;enJ, 别任务,并提出使用已知类别的训练人脸图像对测 其中,e=y:-ra,i=l,2,…,n。假设元素e是独立同 试人脸图像进行稀疏表示的方法,在随机遮挡人脸 识别系统中取得了较为理想的识别效果。MZhu等四 分布的,并且概率密度函数为f(e,而且P(yla)= Π6 利用稀疏分解求出待测图像的稀疏表示系数,并在 (yi-ria)o 待测图像所在的子空间内实现表情类别判断,该方 与此同时,假设编码向量a=[a1:2;…;am]中的 法使待测图像的分解系数变得更稀疏,同时避免身 元素aj=1,2,…,m是独立同分布的并且概率密度 份特征对表情分类的干扰。 函数为6(a),而且P(a)= 6(a)。从而式(2)中 为了提高稀疏表示的鲁棒性和有效性,本文提 出了基于鲁棒的正则化编码和自动更新权重的随机 α的最大后验概率估计为 遮挡表情识别方法。受鲁棒回归理论的启发,即 d arg ma 通过自适应地不断迭代的方法来给残差分配不同的 o.-rayf1 权重,直到估计过程收敛。本文通过假设编码残差 令pa(e)=-lnf(e)和po(a)=-lnf6(a)式(3)转成: 和编码系数分别是独立同分布的,并基于最大后验 估计的原则来对给定的信号进行鲁棒回归,为了方 arg min 2p,-r+∑na} (4 便实现,正则化编码的最小化问题将转换成一个自 本文把式(4)的模型称为鲁棒的正则编码,由 动更新权重的问题,通过设计合理的权重函数可以 于保真项p%y,-r,a)对遮挡造成的异常值具有鲁棒 鲁棒地识别出遮挡部分从而减小它们对编码过程的 影响。在JAFFE和Cohn-Kanade数据库上,本文方 性,且根据先验概率P(a), ∑P(a,)是正则化项
响。Kotsia 等 [4]受 Fisher 的线性判别分析和支持向 量机 (support vector machine,SVM) 的启发,提出了 一种新颖的最小类内方差的多类分类器来研究在不 同人脸器官遮挡的情况下对人脸表情识别的影响。 Tarrés 等 [5]提出了基于 PCA(principal component analysis) 和 LDA(linear discriminant analysis),并结 合直方图均衡化和均值、方差归一化预处理的方 法,减少了遮挡部分对人脸识别过程的影响。Kotsia 等 [6]对遮挡的人脸图像进行 Gabor 小波滤波提取纹 理特征,利用监督的判别非负矩阵因子分解 (discriminant non-negative matrix factorization,DNMF) 进行图像分解,再采用基于模型的方法来描述特定 面部特征的几何位移来完成遮挡图像的特征表征。 Zhang 等 [7]利用蒙特卡罗算法对表情图像提取 Gabor 特征,并遍历表情图像的每个区域进行模板匹配以 产生对遮挡具有鲁棒性的特征向量。Wang 等 [8]利 用改进的中心对称局部二值模式和梯度中心对称局 部方向模式 GCS-LDP,利用卡方距离求取测试集图 像与训练集图像特征直方图之间的距离。但是,上 述方法主要研究眼部遮挡和嘴部遮挡对人脸表情识 别效果的影响,没有充分考虑遮挡在现实生活中出 现的特点,对随机遮挡情况的适应性较弱。人脸遮 挡的特点是遮挡可以在人脸的任何地方发生,并且 遮挡范围的大小和遮挡的形状都是未知的,没有任 何关于它的先验知识[9]。因此,不能只考虑脸部某 个区域对人脸表情识别的影响情况,应该根据遮挡 的特点来展开研究,并提出一些可以克服这个问题 的方法。Wright 等 [10]采用稀疏编码方法完成人脸识 别任务,并提出使用已知类别的训练人脸图像对测 试人脸图像进行稀疏表示的方法,在随机遮挡人脸 识别系统中取得了较为理想的识别效果。M. Zhu 等 [11] 利用稀疏分解求出待测图像的稀疏表示系数,并在 待测图像所在的子空间内实现表情类别判断,该方 法使待测图像的分解系数变得更稀疏,同时避免身 份特征对表情分类的干扰。 为了提高稀疏表示的鲁棒性和有效性,本文提 出了基于鲁棒的正则化编码和自动更新权重的随机 遮挡表情识别方法。受鲁棒回归理论的启发[10] ,即 通过自适应地不断迭代的方法来给残差分配不同的 权重,直到估计过程收敛。本文通过假设编码残差 和编码系数分别是独立同分布的,并基于最大后验 估计的原则来对给定的信号进行鲁棒回归,为了方 便实现,正则化编码的最小化问题将转换成一个自 动更新权重的问题,通过设计合理的权重函数可以 鲁棒地识别出遮挡部分从而减小它们对编码过程的 影响。在 JAFFE 和 Cohn-Kanade 数据库上,本文方 法对随机遮挡表情识别的鲁棒性进行了验证,取得 了较理想的识别效果。 1 鲁棒的正则化编码 通常情况下,稀疏编码问题可以定义为 αˆ = argmin∥α∥1 s.t.∥y−Tα∥ 2 2 ⩽ ε (1) y T α y T ∥y−Tα∥ 2 2 式中: 是待测的表情图像, 是训练表情图像字典, 是待测的表情图像 在训练表情图像字典 上的编 码向量,并且 ε>0。保真项定义为 。 e = y−Tα e αˆ = argmin∥α∥1 s.t.∥y−Tα∥1 ⩽ ε 如果事先假设编码残差 服从高斯分 布,式 (1) 的解将变成最大似然估计的解,如果 服 从拉普拉斯分布,l1 稀疏限制的最大似然估计解变 为 。 αˆ = argmin∥α∥1 s.t.∥y−Tα∥1 ⩽ ε argmin{ ∥α∥1 +λ∥y−Tα∥1 } 其实, 是式 (1) 的 另一种表现形式,因为它们都具有相同的拉格朗日 公式: 。 y 在实际应用中这种假设是不成立的,尤其是当 人脸表情图像 被遮挡时。为了构建一个鲁棒性更 强的人脸表情图像的稀疏编码模型,本文提出了一 个更通用的而且效率更高的鲁棒正则化编码模型。 1.1 鲁棒的正则化编码模型 T y α αˆ = argmaxlnP(α| y) 贝叶斯估计的观点确切地说是从最大后验概率 估计观点考虑人脸表示的问题。通过字典 对待测 表情图像 进行编码,编码向量 的最大后验概率估 计变成 。利用贝叶斯公式得 αˆ = argmax{lnP(y| α)+lnP(α)} (2) T T = [r1;r2;··· ;rn] ri T i e = y−Tα = [e1; e2;··· ; en] ei = yi − riα,i = 1,2,··· ,n ei fθ (ei) P(y| α) = ∏n i=1 fθ · (yi − riα) 将式 (1) 中的字典 改写成 ,其 中, 表示 的第 列,而且 , 其中, 。假设元素 是独立同 分布的,并且概率密度函数为 ,而且 。 α = [α1;α2;··· ;αm] αj , j = 1,2,··· ,m f0 ( αj ) P(α) = ∏m j=1 f0 ( αj ) α 与此同时,假设编码向量 中的 元素 是独立同分布的并且概率密度 函数为 ,而且 。从而式 (2) 中 的最大后验概率估计为 αˆ = argmax ∏n i=1 fθ (yi − riα)+ ∏m j=1 f0 ( αj ) (3) ρθ (e) = −ln f 令 θ (e) 和 ρ0 (α) = −ln f0 (α) 式 (3) 转成: αˆ = argmin ∑n i=1 ρθ (yi − riα)+ ∑m j=1 ρ0 ( αj ) (4) ρθ (yi − riα) P(α) ∑m j=1 ρ0 ( αj ) 本文把式 (4) 的模型称为鲁棒的正则编码,由 于保真项 对遮挡造成的异常值具有鲁棒 性,且根据先验概率 , 是正则化项。 ·262· 智 能 系 统 学 报 第 13 卷
第2期 刘帅师,等:鲁棒的正则化编码随机遮挡表情识别 ·263· 因此当a,服从拉普拉斯分布的时候有:P(a)= 量常量。不考虑b,式(4)模型可近似为式(8): exp(-le,/o)/2c;∑1o(a,)将变成稀疏限制 =argmin 2WG-Ta+p(a) (8) 范数。对于分类问题,理想的结果是只有待测表 =1 情图像与训练样本组成的完备字典中对应的目标类 虽然,式(8)是式(4)的局部近似值,但是这样 做可以将鲁棒的正则化编码模型的最小化问题通过 别的表示系数有很大的绝对值。由于事先不知道待 迭代再加权重12正则编码来解决,也就是通过式 测图像属于哪个类别,可以进行一个合理的推理, (7)不断更新权重W。这样最小化问题转变成了如 是只有很少一部分的稀疏表示系数具有显著值。因 何计算对角权重矩阵W。 此,假设稀疏表示系数服从高斯分布,则有: 1.3权重W f(a/)=Bexp-(laJ/o.Y/(2o.r(1/B) (5) W表示分配给待测表情图像y每个像素点的 式中了表示伽马函数。 权值。从人的感官认识出发,被遮挡部分的像素点 由于表情图像的变化多样性,很难预先确定稀 应该具有较低的权重,这样可以减少它们对编码过 疏表示残差的分布。通常,假设概率密度函数 程的影响。由于完备字典是由非遮挡的人脸表情图 fa(e)是对称的、单调并且可微的。因此,pu(e)具有以 像构成的,可以很好地表征人脸表情,然而遮挡部 下性质: 分像素造成的异常值将具有较大的编码残差,因 I)Pa(O)是pa(e)的局部最小值: 此,这些具有较大的编码残差像素点应具有较小的 2)对称性:po(e)=pa(-e: 权重。通过观察式(7)可以得到W与e成反比,与 3)单调性:当leil>ez时,pa(e1)>pa(e2)。不失一 P%(e,)成正比。由于pg可微、对称、单调并且在原点 般性,令P(O)=0o 取得最小值,可以假设W:是连续且对称的,与e成反 鲁棒的正则化编码模型需要解决的两个关键问 比而且有界。不失一般性,令W∈[0,1],综合多方 题:如何确定(或者f)的分布和最小化能量函数。 面的考虑,逻辑函数是权重函数的最好选择。本文 如果只是简单的使f服从高斯分布或者拉普拉斯分 选用与逻辑函数具有相似性质的SVM hinge loss 布并且。服从拉普拉斯分布,本文提出的模型将退 函数作为权重函数。 化成式(1)所示的传统的稀疏表示问题。为了解决 初值对人脸表情识别取得较理想的识别效果至 这两个问题并更有效地获得鲁棒的正则化编码模型 关重要。为了对待测表情图像y设置初值,首先应该 的最大后验概率,本文将式(4)的最小化问题转换 初始化y的编码残差e。本文对e初始化为e=y-Tao; 成迭代权重正则编码问题。 是初始编码向量。由于待测表情图像y所属类别 1.2迭代权重优化鲁棒的正则化编码模型 事先未知,因此ao的合理初始编码向量可以设置为 定义Fa(e)=∑1Pa(e)。F(e)在定义域内某点 e处的一阶泰勒展开公式: m'm :m这样1α表示的就是所有训练 表情图像的平均表情图像。 Fo(e)=Fo(eo)+(e-eo)TFo(eo)+Ri(e) (6) 通过不断迭代优化更新权重W,直到权重收敛 式中:Fa(e)是Fa(e)的一阶导数,R(e)是F(e)的高阶 为止,即相邻迭代权重之间的差异足够小。具体来 导数的余项式。定义p%是P的一阶导数,并且有: Fg(eo)=p',(eoi)p'g(eo2);p',(ean】;ear是eo的第 说,应当式(9)成立时停止迭代: i个元素。使Fa(e)严格显凸性便于最小化,近似余 wo-w-L/w-D<y (9) 项为R(e)≈(e-eo)TW(e-eo)其中,W是对角矩阵,使 式中:y是较小的正数.本文迭代15次权重就趋于 收敛。得到收敛后的权重矩阵W后,最优的稀疏表 e中的元素独立且在F。(e)中e,和e,i≠)没有交叉项。 示d可以通过式(8)计算得到。最后,通过式(10)计 F。(e)在e=0取得最小值的同时,它的近似值 算每类训练表情图像逼近待测表情图像y的逼近 Fa(e)在e=0也应取得最小值。令F(O)=0,可以得 到W的对角元素如式(7): 残差。 y)=W0y-T6,(a)l2,i=1,2,…,k (10) Wii=pa(eoi)/eo.i (7) 根据pg的性质,pg(e)和e,符号相同,所以W是 式中:6,(@)是d第i类训练样本空间最终编码向量, 非负的标量。因此进一步,从而F(e)可以写成 W是最终的权重矩阵,k表示表情类别数。 Fo(e)=WiPe+b..o 根据最小逼近残差的准则公式(11),待测表情 式中:么.=(-p,eucu/2是由,决定的标 图像y最终将被分类到训练表情图像逼近待测表情 图像残差最小的类别。可由式(11)进行判断: 1
αj P(α) = ∏m j=1 exp( − αj 1 /σα ) /2σα ∑m j=1 ρ0 ( αj ) αj 因此当 服从拉普拉斯分布的时候有: ; 将变成稀疏限制 l1 范数。对于分类问题,理想的结果是只有待测表 情图像与训练样本组成的完备字典中对应的目标类 别的表示系数有很大的绝对值。由于事先不知道待 测图像属于哪个类别,可以进行一个合理的推理, 是只有很少一部分的稀疏表示系数具有显著值。因 此,假设稀疏表示系数 服从高斯分布,则有: f0 ( αj ) = βexp{ − ( αj /σα )β } / (2σαΓ(1/β)) (5) 式中 Γ 表示伽马函数。 fθ (e) ρθ (e) 由于表情图像的变化多样性,很难预先确定稀 疏表示残差的分布。通常,假设概率密度函数 是对称的、单调并且可微的。因此, 具有以 下性质: 1) ρθ (0) 是 ρθ (e) 的局部最小值; 2) 对称性: ρθ (ei) = ρθ (−ei) ; |e1| > |e2| ρθ (e1) > ρθ (e2) ρθ (0) = 0 3) 单调性:当 时, 。不失一 般性,令 。 ρθ fθ fθ fo 鲁棒的正则化编码模型需要解决的两个关键问 题:如何确定 (或者 ) 的分布和最小化能量函数。 如果只是简单的使 服从高斯分布或者拉普拉斯分 布并且 服从拉普拉斯分布,本文提出的模型将退 化成式 (1) 所示的传统的稀疏表示问题。为了解决 这两个问题并更有效地获得鲁棒的正则化编码模型 的最大后验概率,本文将式 (4) 的最小化问题转换 成迭代权重正则编码问题。 1.2 迭代权重优化鲁棒的正则化编码模型 Fθ (e) = ∑n i=1 ρθ (ei) Fθ (e) e0 定义 。 在定义域内某点 处的一阶泰勒展开公式: F˜ θ (e) = Fθ (e0)+(e−e0) TF ′ θ (e0)+R1 (e) (6) F ′ θ (e) Fθ (e) R1 (e) Fθ (e) ρ ′ θ ρθ F ′ θ (e0) = [ ρ ′ θ ( e0,1 ) ;ρ ′ θ ( e0,2 ) ;···ρ ′ θ ( e0,n )] e0,i e0 F ′ θ (e) R1 (e) ≈ 1 2 (e−e0) TW (e−e0) W e Fθ (e) ei ej(i , j) 式中: 是 的一阶导数, 是 的高阶 导数的余项式。定义 是 的一阶导数,并且有: ; 是 的 第 i 个元素。使 严格显凸性便于最小化,近似余 项为 其中, 是对角矩阵,使 中的元素独立且在 中 和 没有交叉项。 Fθ (e) e = 0 F˜ θ (e) e = 0 F ′ θ (0) = 0 W 在 取得最小值的同时,它的近似值 在 也应取得最小值。令 ,可以得 到 的对角元素如式 (7): Wi,i = ρ ′ θ ( e0,i ) /e0,i (7) ρ ′ θ (ei) ei Wi,i F˜ θ (e) F˜ θ (e) = 1 2 W1/2 e 2 2 +beo 根据 ρθ 的性质, 和 符号相同,所以 是 非负的标量。因此进一步,从而 可以写成 。 beo = ∑n i=1 ( ρθ ( e0,i ) −ρ ′ θ ( e0,i ) e0,i/2 ) 式中: 是由 e0决定的标 量常量。不考虑 beo,式 (4) 模型可近似为式 (8): αˆ = argmin 1 2 W1/2 (y−Tα) 2 2 + ∑m j=1 ρ0 ( αj ) (8) W W 虽然,式 (8) 是式 (4) 的局部近似值,但是这样 做可以将鲁棒的正则化编码模型的最小化问题通过 迭代再加权重 l2 正则编码来解决,也就是通过式 (7) 不断更新权重 。这样最小化问题转变成了如 何计算对角权重矩阵 。 1.3 权重 W Wi,i y i Wi,i ei ρ ′ θ (ei) Wi,i ei Wi,i ∈ [0,1] 表示分配给待测表情图像 每个像素点 的 权值。从人的感官认识出发,被遮挡部分的像素点 应该具有较低的权重,这样可以减少它们对编码过 程的影响。由于完备字典是由非遮挡的人脸表情图 像构成的,可以很好地表征人脸表情,然而遮挡部 分像素造成的异常值将具有较大的编码残差,因 此,这些具有较大的编码残差像素点应具有较小的 权重。通过观察式 (7) 可以得到 与 成反比,与 成正比。由于 ρθ 可微、对称、单调并且在原点 取得最小值,可以假设 是连续且对称的,与 成反 比而且有界。不失一般性,令 ,综合多方 面的考虑,逻辑函数是权重函数的最好选择。本文 选用与逻辑函数具有相似性质的 SVM hinge loss 函数[12]作为权重函数。 y y e e e= y−Tαˆ (0) α (0) y α (0) α (0) = [ 1 m ; 1 m ;··· ; 1 m ] Tα (0) 初值对人脸表情识别取得较理想的识别效果至 关重要。为了对待测表情图像 设置初值,首先应该 初始化 的编码残差 。本文对 初始化为 ; 是初始编码向量。由于待测表情图像 所属类别 事先未知,因此 的合理初始编码向量可以设置为 。这样 表示的就是所有训练 表情图像的平均表情图像。 通过不断迭代优化更新权重 W ,直到权重收敛 为止, 即相邻迭代权重之间的差异足够小。具体来 说,应当式 (9) 成立时停止迭代: W(t) −W(t−1) 2 / W(t−1) 2 < γ (9) γ W αˆ y 式中: 是较小的正数. 本文迭代 15 次权重就趋于 收敛。得到收敛后的权重矩阵 后,最优的稀疏表 示 可以通过式 (8) 计算得到。最后, 通过式 (10) 计 算每类训练表情图像逼近待测表情图像 的逼近 残差。 ri(y) = W 1/2 final(y−Tδi(αˆ)) 2 ,i = 1,2,··· , k (10) δi(αˆ) αˆ Wfinal k 式中: 是 第 i 类训练样本空间最终编码向量, 是最终的权重矩阵, 表示表情类别数。 y 根据最小逼近残差的准则公式 (11),待测表情 图像 最终将被分类到训练表情图像逼近待测表情 图像残差最小的类别。可由式 (11) 进行判断: 第 2 期 刘帅师,等:鲁棒的正则化编码随机遮挡表情识别 ·263·
·264· 智能系统学报 第13卷 identity()=arg.G》 (11) 逼近待测表情图像最小逼近残差所对应的类别。每 因此,本文方法的流程如图1所示。首先,待 类训练表情图像逼近待测表情图像的逼近残差如 测的人脸表情图像的每个像素点赋予不同的权重。 图3所示。为了减少原始表情特性的特征维数,本 其次,通过连续迭代得到收敛的权重矩阵。权重随 文应用PCA的方法对特征进行降维处理,Eigen- 着每次迭代的收敛曲线如图2所示。然后,得到收 face特征应用到与本文方法进行对比的其他算法 敛的权重矩阵W后,待测表情图像的最优稀疏表示 中。定义P为PCA的投影矩阵,那么,式(8)将变为 也可以通过计算得到。最后,计算每类训练表情图 像逼近待测表情图像y的编码残差,并根据最小逼近 arg min (12) 残差的准则将待测表情图像y分类到训练表情图像 权重分布 迭代权重 重构 最小残差准则 图像处理 初始权重图像 收敛后权重图像 稀疏表示 图1本文方法的流程 Fig.1 The structure of our method 1.0f 和有效性。JAFFE数据库包含10个女性共213张 人脸表情图像,并且每个人都有7种表情,每种表 0.8 情有3或4张表情图像样本。实验时选用10个人 10.6 共137表情图像作为训练样本,其中(高兴-19,惊 0.4 讶-20,悲伤-20,恐惧-20,厌恶-18,愤怒-20和中性- 20)。其余的76张人脸表情图像作为测试样本。基 于JAFFE数据库的表情图像数量少,实验将遍历 -++上+女 15 3种情况来取得平均识别率。而Cohn-Kanade人脸 10 迭代次数 表情数据库是由100名大学生按照指定的方式来从 图2权重收敛曲线 中性表情呈现23幅表情序列,这些人都来自18~ Fig.2 The convergence curve of the weigh 30岁的大学心理系的学生。其中15%为欧洲人(包 括黑种人和白种人),3%为亚洲人或拉丁人种, ×10 2.0 65%为女性。该数据库也包含与JAFFE数据库一 样的7种表情类别。对于Cohn-Kanade数据库,选 用10个人7种表情(高兴-6,惊讶-6,悲伤-6,恐惧- 6,厌恶-6,愤怒-6和中性-6)共420张表情序列进行 1.0 实验。其中,10个人7种表情共210张表情图像作 0.5 为训练样本,其余的作为测试样本。为了验证算法 在Cohn-Kanade数据库的泛化性能实验遍历6种情 6 况来取得平均识别率。 表情类别 2.1实验描述 图3不同类别训练图像逼近待测图像的残差图 由于JAFFE数据库和Cohn-Kanade数据库中 Fig.3 The residual of each training class approximates the 的表情图像稍有头部倾斜和尺寸大小不一,需要经 test image 过预处理来消除这些差异。本文采用类似文献[12] 2实验描述与结果分析 的预处理方法:通过旋转使眼睛水平面对准,并根 据两眼间的距离来从原始的表情图像裁剪出实验用 实验采用日本女性表情图像JAFFE数据库和 的只含正面人脸表情的矩形区域。JAFFE数据库 Cohn-Kanade数据库来验证本文所提方法的可行性 中的原始人脸表情图像的尺寸为256×256,Cohn-Kanade
identity(y) = arg min i∈(1,2,···,k) (ri(y)) (11) W y y 因此,本文方法的流程如图 1 所示。首先,待 测的人脸表情图像的每个像素点赋予不同的权重。 其次,通过连续迭代得到收敛的权重矩阵。权重随 着每次迭代的收敛曲线如图 2 所示。然后, 得到收 敛的权重矩阵 后,待测表情图像的最优稀疏表示 也可以通过计算得到。最后,计算每类训练表情图 像逼近待测表情图像 的编码残差,并根据最小逼近 残差的准则将待测表情图像 分类到训练表情图像 P 逼近待测表情图像最小逼近残差所对应的类别。每 类训练表情图像逼近待测表情图像的逼近残差如 图 3 所示。为了减少原始表情特性的特征维数,本 文应用 PCA 的方法对特征进行降维处理,Eigenface 特征应用到与本文方法进行对比的其他算法 中。定义 为 PCA 的投影矩阵,那么,式 (8) 将变为 αˆ = argmin 1 2 PW1/2 (y−Tα) 2 2 + ∑m j=1 ρ0 ( αj ) (12) పะ⤲ ݉ᱯ䛹పᩢ ᪇ऺᱯ䛹ప⪼屮 㶔 ᱯ䛹ܲጯ 䔙Џᱯ䛹 䛹Ჰ ᰬᄻ₷ጚ۲݅ ܲ ㆧ 图 1 本文方法的流程 Fig. 1 The structure of our method Ⱔ䗧䔙Џᱯ䛹ͷ䬠⮰ጚᐮ 䔙Џ⁍ 1.0 0.8 0.6 0.4 0.2 0 5 10 15 图 2 权重收敛曲线 Fig. 2 The convergence curve of the weigh Ⱔ䕨䓽ㆧ㶔ᗱ⮰₷ጚ ݗ㶔ᗱㆧ 2.0 ×108 1.5 1.0 0.5 1 2 4 3 5 7 6 0 图 3 不同类别训练图像逼近待测图像的残差图 Fig. 3 The residual of each training class approximates the test image 2 实验描述与结果分析 实验采用日本女性表情图像 JAFFE 数据库和 Cohn-Kanade 数据库来验证本文所提方法的可行性 和有效性。JAFFE 数据库包含 10 个女性共 213 张 人脸表情图像,并且每个人都有 7 种表情,每种表 情有 3 或 4 张表情图像样本。实验时选用 10 个人 共 137 表情图像作为训练样本,其中 (高兴-19,惊 讶-20,悲伤-20,恐惧-20,厌恶-18,愤怒-20 和中性- 20)。其余的 76 张人脸表情图像作为测试样本。基 于 JAFFE 数据库的表情图像数量少,实验将遍历 3 种情况来取得平均识别率。而 Cohn-Kanade 人脸 表情数据库是由 100 名大学生按照指定的方式来从 中性表情呈现 23 幅表情序列,这些人都来自 18~ 30 岁的大学心理系的学生。其中 15% 为欧洲人 (包 括黑种人和白种人),3% 为亚洲人或拉丁人种, 65% 为女性。该数据库也包含与 JAFFE 数据库一 样的 7 种表情类别。对于 Cohn-Kanade 数据库,选 用 10 个人 7 种表情 (高兴-6,惊讶-6,悲伤-6,恐惧- 6,厌恶-6,愤怒-6 和中性-6) 共 420 张表情序列进行 实验。其中,10 个人 7 种表情共 210 张表情图像作 为训练样本,其余的作为测试样本。为了验证算法 在 Cohn-Kanade 数据库的泛化性能实验遍历 6 种情 况来取得平均识别率。 2.1 实验描述 由于 JAFFE 数据库和 Cohn-Kanade 数据库中 的表情图像稍有头部倾斜和尺寸大小不一,需要经 过预处理来消除这些差异。本文采用类似文献[12] 的预处理方法:通过旋转使眼睛水平面对准,并根 据两眼间的距离来从原始的表情图像裁剪出实验用 的只含正面人脸表情的矩形区域。JAFFE 数据库 中的原始人脸表情图像的尺寸为 256×256,Cohn-Kanade ·264· 智 能 系 统 学 报 第 13 卷
第2期 刘帅师,等:鲁棒的正则化编码随机遮挡表情识别 ·265· 数据库中的原始人脸表情图像尺寸为640×490。两 KNNU4(K-nearest neighbor)、SVMs1、SRCo 数据库中的表情图像进行尺寸归一化128×104,利 (sparse representation-based classifier)GSRCI6 用直方图均衡化来增强表情图像某些区域的局部对 (gabor feature based sparse representation)与本文方 比度,如图4所示。 法在以下两种数据库进行对比。 2.2结果分析 表1和表2分别表示的是本文提出的方法与其 他方法分别在JAFFE数据库上和在Cohn-Kanade 数据库上对应不同遮挡级别的平均识别率。 表1不同方法在JAFFE数据库上的识别率 Table 1 The accuracies of different methods on JAFFE 遮挡级别 本文方法 KNN SVM SRC GSRC 0 96.05 85.57 89.47 90.79 92.11 0.1 96.05 84.2688.1690.79 91.52 0.2 94.47 81.5886.84 88.16 89.47 (a)JAFFE 0.3 93.25 80.5583.6786.8488.16 0.4 90.06 84.2688.1690.79 91.52 0.5 89.57 80.5583.67 86.84 88.16 0.6 85.53 75.00 77.32 79.78 81.58 0.7 61.84 57.43 58.82 59.23 60.32 0.8 53.33 47.2348.6449.42 51.67 0.9 22.81 18.1419.3220.43 21.76 表2不同方法在Cohn-Kanade数据库上的识别率 Table 2 The accuracies of different methods on Cohn-Ka- nade % (b)Cohn-Kanade 遮挡级别 本文方法KNN SVM SRC GSRC 图4实验用的两数据库中的部分随机遮挡表情图像 0 98.10 86.8491.2392.79 93.21 Fig.4 Some samples of occluded facial images in two data- bases 0.1 98.10 84.35 89.32 90.23 92.79 与其他的影响因素不同,如姿势的变化,它的 0.2 97.62 82.12 85.93 88.69 89.23 变化特点是可以事先预测判别出来的。然而,面部 0.3 96.19 79.9884.13 85.97 88.69 遮挡是特别难以处理的,因为它具有随机性的特 0.4 94.29 86.8491.23 92.79 93.21 点,也就是说,遮挡可以发生在人脸表情图像的任 0.5 93.33 75.21 79.87 82.46 84.27 意位置并且大小也是任意的。我们对于遮挡发生的 位置和遮挡面积的大小没有任何明确的先验知识。 0.6 92.86 73.87 74.97 76.78 78.87 关于遮挡唯一有的先验信息就是遮挡毁坏的像素点 0.7 70.48 68.1268.9469.23 69.98 可能是彼此相邻的,就是说某个区域的像素点可能 0.8 32.86 27.6428.3229.43 30.76 是连续毁坏。图4表示的两个表情数据中一些在不 0.9 18.10 15.3316.9217.2317.89 同遮挡程度块遮挡级别下的人脸表情图像。遮挡级 别表示的是遮挡的部分占整个人脸表情图像的百分 从表1和表2可看出,随遮挡级别增大人脸表 比是多少。所以遮挡级别是正数并且处于[0,1],遮 情的识别率逐渐减小,符合人们的感性认识。表情 挡级别为0表示图像没有被遮挡,1表示图像全部 识别方法在遮挡级别为0.1~0.5会取得较理想的识 被遮挡,例如:遮挡级别0.1表示图像的10%被遮挡。 别效果。由于训练样本和测试样本用自身像素值不 基于稀疏表示的人脸表情识别方法最重要特点是对 需特征提取过程,KNN和SVM方法在遮挡级别 于人脸遮挡具有鲁棒性。为更好地验证本文提出的 很大时没有很好的识别效果。且这两种方法要结合 方法对于随机遮挡的鲁棒性,采用表情识别方法: 提取较好区分性特征的提取方法才可发挥较好的分
数据库中的原始人脸表情图像尺寸为 640×490。两 数据库中的表情图像进行尺寸归一化 128×104,利 用直方图均衡化来增强表情图像某些区域的局部对 比度,如图 4 所示。 (a) JAFFE (b) Cohn-Kanade 图 4 实验用的两数据库中的部分随机遮挡表情图像 Fig. 4 Some samples of occluded facial images in two databases 与其他的影响因素不同,如姿势的变化,它的 变化特点是可以事先预测判别出来的。然而,面部 遮挡是特别难以处理的,因为它具有随机性的特 点,也就是说,遮挡可以发生在人脸表情图像的任 意位置并且大小也是任意的。我们对于遮挡发生的 位置和遮挡面积的大小没有任何明确的先验知识。 关于遮挡唯一有的先验信息就是遮挡毁坏的像素点 可能是彼此相邻的,就是说某个区域的像素点可能 是连续毁坏。图 4 表示的两个表情数据中一些在不 同遮挡程度块遮挡级别下的人脸表情图像。遮挡级 别表示的是遮挡的部分占整个人脸表情图像的百分 比是多少。所以遮挡级别是正数并且处于[0,1],遮 挡级别为 0 表示图像没有被遮挡,1 表示图像全部 被遮挡,例如:遮挡级别 0.1 表示图像的 10% 被遮挡。 基于稀疏表示的人脸表情识别方法最重要特点是对 于人脸遮挡具有鲁棒性。为更好地验证本文提出的 方法对于随机遮挡的鲁棒性,采用表情识别方法: KNN[ 1 4 ] (K-nearest neighbor)、SVM[ 1 5 ] 、SRC[ 1 0 ] (sparse representation-based classifier)、GSRC[16] (gabor feature based sparse representation) 与本文方 法在以下两种数据库进行对比。 2.2 结果分析 表 1 和表 2 分别表示的是本文提出的方法与其 他方法分别在 JAFFE 数据库上和在 Cohn-Kanade 数据库上对应不同遮挡级别的平均识别率。 表 1 不同方法在 JAFFE 数据库上的识别率 Table 1 The accuracies of different methods on JAFFE % 遮挡级别 本文方法 KNN SVM SRC GSRC 0 96.05 85.57 89.47 90.79 92.11 0.1 96.05 84.26 88.16 90.79 91.52 0.2 94.47 81.58 86.84 88.16 89.47 0.3 93.25 80.55 83.67 86.84 88.16 0.4 90.06 84.26 88.16 90.79 91.52 0.5 89.57 80.55 83.67 86.84 88.16 0.6 85.53 75.00 77.32 79.78 81.58 0.7 61.84 57.43 58.82 59.23 60.32 0.8 53.33 47.23 48.64 49.42 51.67 0.9 22.81 18.14 19.32 20.43 21.76 表 2 不同方法在 Cohn-Kanade 数据库上的识别率 Table 2 The accuracies of different methods on Cohn-Kanade % 遮挡级别 本文方法 KNN SVM SRC GSRC 0 98.10 86.84 91.23 92.79 93.21 0.1 98.10 84.35 89.32 90.23 92.79 0.2 97.62 82.12 85.93 88.69 89.23 0.3 96.19 79.98 84.13 85.97 88.69 0.4 94.29 86.84 91.23 92.79 93.21 0.5 93.33 75.21 79.87 82.46 84.27 0.6 92.86 73.87 74.97 76.78 78.87 0.7 70.48 68.12 68.94 69.23 69.98 0.8 32.86 27.64 28.32 29.43 30.76 0.9 18.10 15.33 16.92 17.23 17.89 从表 1 和表 2 可看出,随遮挡级别增大人脸表 情的识别率逐渐减小,符合人们的感性认识。表情 识别方法在遮挡级别为 0.1~0.5 会取得较理想的识 别效果。由于训练样本和测试样本用自身像素值不 需特征提取过程,KNN[16]和 SVM[17]方法在遮挡级别 很大时没有很好的识别效果。且这两种方法要结合 提取较好区分性特征的提取方法才可发挥较好的分 第 2 期 刘帅师,等:鲁棒的正则化编码随机遮挡表情识别 ·265·
·266· 智能系统学报 第13卷 类效果,可看出本文的方法比SRCO和GSRCU2I表 挡级别较小,这些表情图像的决策信息缺失的少。 情识别率略高。 在这两种数据库上所有表情只有惊讶表情的识别效 本方法在随机遮挡的情况下取得比其他方法较 果在遮挡级别为0.2时受到了影响,其他表情都没 为理想的识别效果,接下来分析本文在不同遮挡级 有受到影响。当图像遮挡级别为03时,在这两种 别对于每种表情识别的影响大小。两种数据库不 数据库上所有表情只有生气、悲伤和惊讶表情识别 同遮挡级别对每种表情的遮挡情况如表3和表4。 效果受到了影响。当图像遮挡级别为0.40.5,在 表3每种表情在JAFFE数据库不同遮挡级别的识别率 JAFFE数据库上高兴和中性表情取得了较好的识 Table 3 The accuracies of each expression on JAFFE in dif- 别效果,在图像遮挡级别为0.6时中性表情取得了 ferent levels of block occlusions 较好的识别效果。然而在Cohn-Kanade数据库上, 遮挡级别 生气厌恶 恐惧高兴中性悲伤惊讶 当图像遮挡级别为0.4~0.6时,恐惧和中性表情取 0 90 81.82 100 100 100 100100 得了较好的识别效果。当图像遮挡级别为0.7~0.9时, 所有的表情的识别率(除了中性表情外)都受到了 0.1 90 81.82 100 100 100 100 100 较为严重的影响。 0.2 90 81.82 100 100 100 100 90 从两表中可以看出中性表情识别率在不同的图 0.3 90 81.82 100 100 10090.91 像遮挡级别下都可以保持了较高的识别率。即使在 遮挡级别为0.9的JAFFE数据库上,中性表情的识 0.4 90 81.8291.67 100 10090.91 90 别率仍为60%。这是由于本文在赋予编码残差e的 0.5 90 81.82 83.33 100 10081.82 90 初值时,选用的是所有训练表情图像的平均表情作 0.6 81.82 75.0091.6710081.8290 为e的初值,中性表情和平均人脸表情很相似。因 0.7 60 63.6458.3341.67 90 72.7350 此,即使在遮挡级别很大是,中性表情也较其他表 情更容易更有效地识别。 0.8 60 45.4541.67 41.67 80 54.55 50 图5表示的是JAFFE数据库上所有测试的中 0.9 20 18.1816.6716.67 60 18.18 10 性表情图像和所有训练表情图像的平均表情图像。 表4每种表情在Cohn-Kanade数据库不同遮挡级别的识 虽然在JAFFE数据库上中性表情的识别效果在遮 别率 挡级别很高的时候也能取得较好识别效果,但是在 Table 4 The accuracies of each expression on Cohn-Kanade Cohn-Kanade数据库上这种现象表现的并不是十分 in different levels of block occlusions % 明显。在遮挡级别为0.9时的中性表情识别率为 遮挡级别生气厌恶恐惧高兴中性悲伤惊讶 46.67%。尽管中性表情的识别率较其他的表情识 0 96.67 90 100 100 100 100 100 别率高,但是与在JAFFE数据上的识别率相比还是 0.1 96.67 90 100 100 100 100 100 相差较大。这是由于JAFFE数据库上的人脸表情 图像都是女性,并且都属于同一国家的。 0.2 96.67 90 100 100 100 10096.67 0.3 93.33 90 100 100 100 93.3396.67 0.4 93.33 90 100 96.67 100 % 90 0.5 86.67 96.67 100 90 0.6 86.67 90 100 93.33 100 90 90 0.7 63.33 50 70 76.6786.6776.67 70 b)平均人验 0.8 33.3323.3323.3336.67 60 20 33.33 (a)部分中性表情 表情图像 0.9 1016.673.3323.3346.676.67 20 图5 JAFFE数据库 Fig.5 JAFFE 从表3和表4可以看出,随着表中给出的人脸 而Cohn-Kanade数据库中的人脸表情图像是来 表情图像的随机遮挡级别的增大,两种数据库上不 自不同的国籍和不同性别的。这将造成如图6所示 同的人脸表情识别率随之降低。在两种数据库中, 的中性表情和平均人脸表情之间的相似性较小。因 生气、高兴、中性、悲伤和惊讶表情在图像遮挡级别 此,当遮挡级别为0.7~0.9时,在Cohn-Kanade数据 为0~0.1取得了较为理想的识别效果。这是由于遮 库上的中性表情较JAFFE上的中性表情的识别率
类效果,可看出本文的方法比 SRC[10]和 GSRC[12]表 情识别率略高。 本方法在随机遮挡的情况下取得比其他方法较 为理想的识别效果,接下来分析本文在不同遮挡级 别对于每种表情识别的影响大小。两种数据库不 同遮挡级别对每种表情的遮挡情况如表 3 和表 4。 表 3 每种表情在 JAFFE 数据库不同遮挡级别的识别率 Table 3 The accuracies of each expression on JAFFE in different levels of block occlusions % 遮挡级别 生气 厌恶 恐惧 高兴 中性 悲伤 惊讶 0 90 81.82 100 100 100 100 100 0.1 90 81.82 100 100 100 100 100 0.2 90 81.82 100 100 100 100 90 0.3 90 81.82 100 100 100 90.91 90 0.4 90 81.82 91.67 100 100 90.91 90 0.5 90 81.82 83.33 100 100 81.82 90 0.6 90 81.82 75.00 91.67 100 81.82 90 0.7 60 63.64 58.33 41.67 90 72.73 50 0.8 60 45.45 41.67 41.67 80 54.55 50 0.9 20 18.18 16.67 16.67 60 18.18 10 表 4 每种表情在 Cohn-Kanade 数据库不同遮挡级别的识 别率 Table 4 The accuracies of each expression on Cohn-Kanade in different levels of block occlusions % 遮挡级别 生气 厌恶 恐惧 高兴 中性 悲伤 惊讶 0 96.67 90 100 100 100 100 100 0.1 96.67 90 100 100 100 100 100 0.2 96.67 90 100 100 100 100 96.67 0.3 93.33 90 100 100 100 93.33 96.67 0.4 93.33 90 100 96.67 100 90 90 0.5 86.67 90 100 96.67 100 90 90 0.6 86.67 90 100 93.33 100 90 90 0.7 63.33 50 70 76.67 86.67 76.67 70 0.8 33.33 23.33 23.33 36.67 60 20 33.33 0.9 10 16.67 3.33 23.33 46.67 6.67 20 从表 3 和表 4 可以看出,随着表中给出的人脸 表情图像的随机遮挡级别的增大,两种数据库上不 同的人脸表情识别率随之降低。在两种数据库中, 生气、高兴、中性、悲伤和惊讶表情在图像遮挡级别 为 0~0.1 取得了较为理想的识别效果。这是由于遮 挡级别较小,这些表情图像的决策信息缺失的少。 在这两种数据库上所有表情只有惊讶表情的识别效 果在遮挡级别为 0.2 时受到了影响,其他表情都没 有受到影响。当图像遮挡级别为 0.3 时,在这两种 数据库上所有表情只有生气、悲伤和惊讶表情识别 效果受到了影响。当图像遮挡级别为 0.4~0.5,在 JAFFE 数据库上高兴和中性表情取得了较好的识 别效果,在图像遮挡级别为 0.6 时中性表情取得了 较好的识别效果。然而在 Cohn-Kanade 数据库上, 当图像遮挡级别为 0.4~0.6 时,恐惧和中性表情取 得了较好的识别效果。当图像遮挡级别为 0.7~0.9 时, 所有的表情的识别率 (除了中性表情外) 都受到了 较为严重的影响。 e e 从两表中可以看出中性表情识别率在不同的图 像遮挡级别下都可以保持了较高的识别率。即使在 遮挡级别为 0.9 的 JAFFE 数据库上,中性表情的识 别率仍为 60%。这是由于本文在赋予编码残差 的 初值时,选用的是所有训练表情图像的平均表情作 为 的初值,中性表情和平均人脸表情很相似。因 此,即使在遮挡级别很大是,中性表情也较其他表 情更容易更有效地识别。 图 5 表示的是 JAFFE 数据库上所有测试的中 性表情图像和所有训练表情图像的平均表情图像。 虽然在 JAFFE 数据库上中性表情的识别效果在遮 挡级别很高的时候也能取得较好识别效果,但是在 Cohn-Kanade 数据库上这种现象表现的并不是十分 明显。在遮挡级别为 0.9 时的中性表情识别率为 46.67%。尽管中性表情的识别率较其他的表情识 别率高,但是与在 JAFFE 数据上的识别率相比还是 相差较大。这是由于 JAFFE 数据库上的人脸表情 图像都是女性,并且都属于同一国家的。 (a) 䘔͙ܲᕓ㶔ᗱ (b) Ϧ㙤 㶔ᗱప 图 5 JAFFE 数据库 Fig. 5 JAFFE 而 Cohn-Kanade 数据库中的人脸表情图像是来 自不同的国籍和不同性别的。这将造成如图 6 所示 的中性表情和平均人脸表情之间的相似性较小。因 此,当遮挡级别为 0.7~0.9 时,在 Cohn-Kanade 数据 库上的中性表情较 JAFFE 上的中性表情的识别率 ·266· 智 能 系 统 学 报 第 13 卷
第2期 刘帅师,等:鲁棒的正则化编码随机遮挡表情识别 ·267· 低。尽管,中性表情的识别率在两种表情数据库上 university of posts and telecommuncaitions:natual science 相差较大,但是Cohn-Kanade数据库中的表情图像 edtion,.2016,28(6):844-848. 来自不同的国籍和性别更符合实际情况,在该数据 [4]KOTSIA I,PITAS I,ZAFEIRIOU S,et al.Novel multi- 库上进行实验更有利于算法的推广和实际应用。 class classifiers based on the minimization of the within- class variance[J].IEEE transactions on neural networks. 2009,20(1):14-34 [5]TARRES F,RAMA A,TORRES L.A novel method for face recognition under partial occlusion or facial expression variations[C]//Proceedings of the 47th International Sym- posium ELMAR.Zadar,Croatia,2005:163-166 [6]KOTSIA I,BUCIU I,PITAS I.An analysis of facial expres- b)平均人脸 (a)部分中性表情 sion recognition under partial facial image occlusion[J].Im- 表情图像 age and vision computing,2008,26(7):1052-1067 图6Cohn-Kanade数据库 [7]ZHANG Ligang,TJONDRONEGORO D,CHANDRAN V. Fig.6 Cohn-Kanade 3结束语 Toward a more robust facial expression recognition in oc- cluded images using randomly sampled Gabor based tem- 本文提出了基于鲁棒的正则化编码模型和自动 plates[Cl//Proceedings of 2011 IEEE International Confer- 更新权重的随机遮挡表情识别方法。根据人脸表情 ence on Multimedia and Expo.Barcelona,Spain,2011:1-6. [8]王晓华,李瑞静,胡敏,等.融合局部特征的面部遮挡表情识 遮挡随机性的特点,提高了稀疏表示的鲁棒性和有 别[.中国图象图形学报,2016,21(11)少:1473-1482 效性并且减少随机遮挡部分对人脸表情识别的影 WANG Xiaohua,LI Ruijing,HU Min,et al.Occluded fa- 响。本文方法使用原始图像数据(像素点)即可不 cial expression recognition based on the fusion of local fea- 需要采用特征降维、特征提取、综合训练样本和特 tures[J].Journal of image and graphics,2016,21(11): 定领域信息等,通过求取编码问题的最大后验概 1473-1482 率,从而来实现对遮挡的鲁棒性。根据编码残差来 [9]WRIGHT J,YANG A Y,GANESH A,et al.Robust face re- 对待测图像的所有像素点自适应的分配和反复迭代 cognition via sparse representation[J].IEEE transactions on 权重,这样可以鲁棒地辨别出遮挡造成的奇异值并 pattern analysis and machine intelligence,2009,31(2): 减少它们对编码过程的影响。在JAFFE数据库和 210-227. Cohn-Kanade数据库上与其他几种方法进行了不同 [10]朱明旱,李树涛,叶华.基于稀疏表示的遮挡人脸表情识 别方法J.模式识别与人工智能,2014,27(8):708-712. 遮挡级别情况下识别率的对比实验,由结果可以看 ZHU Minghui,LI Shutao,YE hua.An occluded facial ex- 出本文提出的方法取得了较好的识别效果,较其他 pression recognition method based on sparse representa- 几种方法有效并对随机遮挡具有较强的鲁棒性。 tion[J].Pattern recognition and artificial intelligence,2014. 参考文献: 27(8):708-712 [11]WRIGHT J,YANG A Y,GANESH A,et al.Robust face [1]MERY D,BOWYER K.Face recognition via adaptive recognition via sparse representation[J].IEEE transactions sparse representations of random patches[Cl//IEEE Interna- on pattern analysis and machine intelligence,2009,31(2): tional Workshop on Information Forensics and Security. 210-227. London.UK.2015:13-18. [12]CAO J,ZHANG K,LUO M,et al.Extreme learning ma- chine and adaptive sparse representation for image classi- [2]WANG J,LU C,WANG M,et al.Robust face recognition fication[J].Neural networks the official journal of the inter- via adaptive sparse representation[J].IEEE transactions on national neural network society,2016,81(c):91. cybernetics,.2014,44(12):2368. [13]ZHANG Jian,JIN Rong,YANG Yiming.Modified logist- [3]赵军,赵艳,杨勇,等基于降维的堆积降噪自动编码机的 ic regression:an approximation to SVM and its applica- 表情识别方法).重庆邮电大学学报:自然科学版,2016, tions in large-scale text categorization[C]//Procee-dings of 28(6):844848 the Twentieth International Conference on Machine Learn- ZHAO Jun,ZHAO Yan,YANG Yong,et al.Facial expres- ing.Washington,DC,USA,2003:888-895. sion recognition method based on stacked denoising auto- [14]LIU Shuaishi,ZHANG Yan,LIU Keping,et al.Facial ex- encoders and feature reduction[J].Journal of Chongqing pression recognition under partial occlusion based on
低。尽管,中性表情的识别率在两种表情数据库上 相差较大,但是 Cohn-Kanade 数据库中的表情图像 来自不同的国籍和性别更符合实际情况,在该数据 库上进行实验更有利于算法的推广和实际应用。 (a) 䘔͙ܲᕓ㶔ᗱ (b) Ϧ㙤 㶔ᗱప 图 6 Cohn-Kanade 数据库 Fig. 6 Cohn-Kanade 3 结束语 本文提出了基于鲁棒的正则化编码模型和自动 更新权重的随机遮挡表情识别方法。根据人脸表情 遮挡随机性的特点,提高了稀疏表示的鲁棒性和有 效性并且减少随机遮挡部分对人脸表情识别的影 响。本文方法使用原始图像数据 (像素点) 即可不 需要采用特征降维、特征提取、综合训练样本和特 定领域信息等,通过求取编码问题的最大后验概 率,从而来实现对遮挡的鲁棒性。根据编码残差来 对待测图像的所有像素点自适应的分配和反复迭代 权重,这样可以鲁棒地辨别出遮挡造成的奇异值并 减少它们对编码过程的影响。在 JAFFE 数据库和 Cohn-Kanade 数据库上与其他几种方法进行了不同 遮挡级别情况下识别率的对比实验,由结果可以看 出本文提出的方法取得了较好的识别效果,较其他 几种方法有效并对随机遮挡具有较强的鲁棒性。 参考文献: MERY D, BOWYER K. Face recognition via adaptive sparse representations of random patches[C]//IEEE International Workshop on Information Forensics and Security. London, UK, 2015: 13–18. [1] WANG J, LU C, WANG M, et al. Robust face recognition via adaptive sparse representation[J]. IEEE transactions on cybernetics, 2014, 44(12): 2368. [2] 赵军, 赵艳, 杨勇,等. 基于降维的堆积降噪自动编码机的 表情识别方法[J]. 重庆邮电大学学报: 自然科学版, 2016, 28(6): 844–848. ZHAO Jun, ZHAO Yan, YANG Yong, et al. Facial expression recognition method based on stacked denoising autoencoders and feature reduction[J]. Journal of Chongqing [3] university of posts and telecommuncaitions: natual science edtion, 2016, 28(6): 844–848. KOTSIA I, PITAS I, ZAFEIRIOU S, et al. Novel multiclass classifiers based on the minimization of the withinclass variance[J]. IEEE transactions on neural networks, 2009, 20(1): 14–34. [4] TARRÉS F, RAMA A, TORRES L. A novel method for face recognition under partial occlusion or facial expression variations[C]//Proceedings of the 47th International Symposium ELMAR. Zadar, Croatia, 2005: 163–166. [5] KOTSIA I, BUCIU I, PITAS I. An analysis of facial expression recognition under partial facial image occlusion[J]. Image and vision computing, 2008, 26(7): 1052–1067. [6] ZHANG Ligang, TJONDRONEGORO D, CHANDRAN V. Toward a more robust facial expression recognition in occluded images using randomly sampled Gabor based templates[C]//Proceedings of 2011 IEEE International Conference on Multimedia and Expo. Barcelona, Spain, 2011: 1–6. [7] 王晓华,李瑞静,胡敏,等. 融合局部特征的面部遮挡表情识 别[J]. 中国图象图形学报, 2016, 21(11): 1473–1482. WANG Xiaohua, LI Ruijing, HU Min, et al. Occluded facial expression recognition based on the fusion of local features[J]. Journal of image and graphics, 2016, 21(11): 1473–1482. [8] WRIGHT J, YANG A Y, GANESH A, et al. Robust face recognition via sparse representation[J]. IEEE transactions on pattern analysis and machine intelligence, 2009, 31(2): 210–227. [9] 朱明旱, 李树涛, 叶华. 基于稀疏表示的遮挡人脸表情识 别方法[J]. 模式识别与人工智能, 2014, 27(8): 708–712. ZHU Minghui, LI Shutao, YE hua. An occluded facial expression recognition method based on sparse representation[J]. Pattern recognition and artificial intelligence, 2014, 27(8): 708–712. [10] WRIGHT J, YANG A Y, GANESH A, et al. Robust face recognition via sparse representation[J]. IEEE transactions on pattern analysis and machine intelligence, 2009, 31(2): 210–227. [11] CAO J, ZHANG K, LUO M, et al. Extreme learning machine and adaptive sparse representation for image classification[J]. Neural networks the official journal of the international neural network society, 2016, 81(c): 91. [12] ZHANG Jian, JIN Rong, YANG Yiming. Modified logistic regression: an approximation to SVM and its applications in large-scale text categorization[C]//Procee-dings of the Twentieth International Conference on Machine Learning. Washington, DC, USA, 2003: 888–895. [13] LIU Shuaishi, ZHANG Yan, LIU Keping, et al. Facial expression recognition under partial occlusion based on [14] 第 2 期 刘帅师,等:鲁棒的正则化编码随机遮挡表情识别 ·267·
·268· 智能系统学报 第13卷 Gabor multi-orientation features fusion and local Gabor 作者简介: binary pattern histogram sequence[C]//Proceedings of the 刘帅师,女,1981年生.副教授 9th International Conference on Intelligent Information 博土,主要研究方向为模式识别、计算 Hiding and Multimedia Signal Processing.Beijing,China, 机视觉。 2013:218-222 [15]LIU Licheng,CHEN Long,CHEN C L.Weighted joint sparse representation for removing mixed noise in image [J].IEEE transactions on cybernetics includes computa- tional approaches to the field of cybernetics,2016:1-12. 郭文燕,女,1991年生,硕士研究 [16]YANG M,SONG T,LIU F,et al.Structured regularized 生,主要研究方向为模式识别、机器 robust coding for face recognition[J].IEEE transactions on 学习。 image processing a publication of the IEEE signal pro- cessing s0 ciety,2013,22(5):1753-1766. [17刀罗元,吴彩明,张毅.基于PCA与SVM结合的面部表情 识别的智能轮椅控制).计算机应用研究,2012,29(8): 3166-3168. 张言,男,1989年生,硕土研究 生,主要研究方向为模式识别、机器 LUO Yuan,WU Caiming,ZHANG Yi,et al.Facial expres- 学习。 sion recognition based on principal component analysis and support vector machine applied in intelligent wheelchair[J]. The research and application of computer,2012,29(8): 3166-3168. 2018年第三届智能机器人系统亚太会议(ACIRS2018) 2018 3rd Asia-Pacific Conference on Intelligent Robot Systems (ACIRS 2018) 2018 3rd Asia-Pacific Conference on Intelligent Robot Systems(ACIRS 2018)will be held during July 21-23, 2018 in Singapore. ACIRS 2018 provides a forum for scientific advances in the theory and practice of Intelligent Robot Systems.It is a highly selective,single-track meeting that will be soliciting submissions presenting significant,original,and previously unpublished research.ACIRS 2018 aims to be one of the leading international conferences in the Asia Pacific region, and will provide an exciting environment for researchers to present and discuss the latest technologies,algorithms,sys- tem architectures,and applications. All full paper submissions will also be peer reviewed and evaluated based on originality,technical and/or research content/depth,correctness,relevance to conference,contributions,and readability.The full paper submissions will be chosen based on technical merit,interest,applicability,and how well they fit a coherent and balanced technical program. Accepted papers of ACIRS 2018 will be published in Conference Proceedings and will be submitted to EI Compen- dex and Scopus
Gabor multi-orientation features fusion and local Gabor binary pattern histogram sequence[C]//Proceedings of the 9th International Conference on Intelligent Information Hiding and Multimedia Signal Processing. Beijing, China, 2013: 218–222. LIU Licheng, CHEN Long, CHEN C L. Weighted joint sparse representation for removing mixed noise in image [J]. IEEE transactions on cybernetics includes computational approaches to the field of cybernetics, 2016: 1–12. [15] YANG M, SONG T, LIU F, et al. Structured regularized robust coding for face recognition[J]. IEEE transactions on image processing a publication of the IEEE signal processing society, 2013, 22(5): 1753–1766. [16] 罗元, 吴彩明, 张毅. 基于 PCA 与 SVM 结合的面部表情 识别的智能轮椅控制[J]. 计算机应用研究, 2012, 29(8): 3166–3168. LUO Yuan, WU Caiming, ZHANG Yi, et al. Facial expression recognition based on principal component analysis and support vector machine applied in intelligent wheelchair[J]. The research and application of computer, 2012, 29(8): 3166–3168. [17] 作者简介: 刘帅师,女,1981 年生,副教授, 博士,主要研究方向为模式识别、计算 机视觉。 郭文燕,女,1991 年生,硕士研究 生,主要研究方向为模式识别、机器 学习。 张言,男,1989 年生,硕士研究 生,主要研究方向为模式识别、机器 学习。 2018 年第三届智能机器人系统亚太会议(ACIRS 2018) 2018 3rd Asia-Pacific Conference on Intelligent Robot Systems (ACIRS 2018) 2018 3rd Asia-Pacific Conference on Intelligent Robot Systems (ACIRS 2018) will be held during July 21-23, 2018 in Singapore. ACIRS 2018 provides a forum for scientific advances in the theory and practice of Intelligent Robot Systems. It is a highly selective, single-track meeting that will be soliciting submissions presenting significant, original, and previously unpublished research. ACIRS 2018 aims to be one of the leading international conferences in the Asia Pacific region, and will provide an exciting environment for researchers to present and discuss the latest technologies, algorithms, system architectures, and applications. All full paper submissions will also be peer reviewed and evaluated based on originality, technical and/or research content/depth, correctness, relevance to conference, contributions, and readability. The full paper submissions will be chosen based on technical merit, interest, applicability, and how well they fit a coherent and balanced technical program. Accepted papers of ACIRS 2018 will be published in Conference Proceedings and will be submitted to EI Compendex and Scopus. ·268· 智 能 系 统 学 报 第 13 卷