第11卷第10期 中国图象图形学报 Vol ll. No 10 2006年10月 Joumal of Image and graphics Oct,2006 人脸表情识别研究的新进展 刘晓旻谭华春章毓晋 (清华大学电子工程系,北京100084) 摘要人脸表情识别( fac ial exp reason recogniton,简称FR)作为智能化人机交互技术中的一个重要组成部分 近年来得到了广泛的关注,涌现出许多新方法。本文综述了国内外近4年人脸表情识别(FE)技术的最新发展 首先,介绍了FFR系统的组成:人脸检测表情特征提取和表情分类,并详细叙述了其中表情特征提取和表情分类 的方法。然后,对目前广泛应用的人脸表情数据库进行了介绍,并在此基础上对当前一些FER系统的性能进行了 比较分析。最后,对FER领域的研究现状和挑战给予了评述,对FER可能的发展方向进行了讨论。 关键词人脸表情识别表情特征提取表情分类人脸表情数据库 中图法分类号:TP39141文献标识码:A文章编号:1006-8961(2006)10-1359-10 New Research advances in Fac al Expression Recogn ition LU Xiom in, TAN Hua-chun, ZHANG Yu-jin (Deparm ent of Electron ic Engineering. Tsinghua Universit, Beijing 100084) Abstract As an mportant part of the technobgy for humanmachine interface, fac ial exp ressin recognition( FEr)have drawn much attenton recently and numerous methods have been poposed h this paper, we present the up b date levebpment of this area in recent years First, the three steps of the FER system are introduced: face detecton exp reasonal feature extracton and exp ressin classificaton Second, the methods of feature extracton and exp ressin classificaton are detailed in different categories Then, we also introduce the fac al exp ression databases which are widely used at present Based on these databases, a camparison of the perfomances of several FER systm s is presented At last, we demonstrate the state of the FER techn ique and the possible challenges, and p ovide some advice about the current of FER devebpment Keywords facial exp reason recogniton, exp ressinal feature extractin, exp ression classificaton, facial exp ressin 人脸表情识别(FER)所要研究的就是如何自 1引言 动、可靠、高效地利用人脸表情所传达的信息。 人们对表情识别的研究可以追溯到20世纪70 表情是人类用来表达情绪的一种基本方式,是年代,早期主要集中在从心理学和生物学方面进行 非语言交流中的一种有效手段。人们可通过表情准研究和分析。Dain121首先揭示了表情在不同性 确而微妙地表达自己的思想感情,也可通过表情辨别,不同种族的人群中的一致性。 Ekman和 认对方的态度和内心世界。关于表情传递信息的作 Frisen3!提出面部表情编码系统(HACS),用44个运 用心理学家 Mehrabian给出了一个公式 动单元(AU)来描述人脸表情变化,并定义了6种基 感情表露=7%的言词+38%的声音+55%的本情感类别:惊奇、恐惧、厌恶、愤怒、高兴、悲伤。这 面部表情。 系统得到了广泛的认同,并成为后来很多表情识 基金项目:教育部高等学校博士学科点专项科研基金项目(RFDP20020003011);国家自然科学基金项目(NNSF60573148) 收稿日期:2005-09-07;改回日期:2005-11 第一作者简介:刘晓旻(1981~),女。200年于清华大学电子工程系获硕士学位,现在美国攻读博士学位。主要研究方向为图像分析 Email liuxiaam in99@mails tsinghua edu 201994-2007ChinaAcademicJournalElectronicPublishingHouse.Allrightsreservedhttp://www.cnki.net
第 11卷 第 10期 2006年 10月 中国图象图形学报 Journal of Image and Graphics Vol. 11, No. 10 Oct. , 2006 基金项目 :教育部高等学校博士学科点专项科研基金项目 (RFDP220020003011) ;国家自然科学基金项目 (NNSF60573148) 收稿日期 : 2005209207;改回日期 : 2005211201 第一作者简介 :刘晓 (1981~ ) ,女。2006年于清华大学电子工程系获硕士学位 ,现在美国攻读博士学位。主要研究方向为图像分析。 E2mail: liuxiaomin99@mails. tsinghua. edu. cn 人脸表情识别研究的新进展 刘晓 谭华春 章毓晋 (清华大学电子工程系 ,北京 100084) 摘 要 人脸表情识别 (facial exp ression recognition,简称 FER)作为智能化人机交互技术中的一个重要组成部分 , 近年来得到了广泛的关注 ,涌现出许多新方法。本文综述了国内外近 4年人脸表情识别 ( FER)技术的最新发展。 首先 ,介绍了 FER系统的组成 :人脸检测、表情特征提取和表情分类 ,并详细叙述了其中表情特征提取和表情分类 的方法。然后 ,对目前广泛应用的人脸表情数据库进行了介绍 ,并在此基础上对当前一些 FER系统的性能进行了 比较分析。最后 ,对 FER领域的研究现状和挑战给予了评述 ,对 FER可能的发展方向进行了讨论。 关键词 人脸表情识别 表情特征提取 表情分类 人脸表情数据库 中图法分类号 : TP391. 41 文献标识码 : A 文章编号 : 100628961 (2006) 1021359210 New Research Advances in Fac ia l Expression Recogn ition L IU Xiao2m in, TAN Hua2chun, ZHANG Yu2jin (Departm ent of Electronic Engineering, Tsinghua University, B eijing 100084) Abstract A s an important part of the technology for human2machine interface, facial exp ression recognition ( FER) have drawn much attention recently and numerous methods have been p roposed. In this paper, we p resent the up to date development of this area in recent years. First, the three step s of the FER system are introduced: face detection, exp ressional feature extraction and exp ression classification. Second, the methods of feature extraction and exp ression classification are detailed in different categories. Then, we also introduce the facial exp ression databases which are widely used at p resent. Based on these databases, a comparison of the performances of several FER system s is p resented. A t last, we demonstrate the state of the FER technique and the possible challenges, and p rovide some advice about the current of FER development. Keywords facial exp ression recognition, exp ressional feature extraction, exp ression classification, facial exp ression database 1 引 言 表情是人类用来表达情绪的一种基本方式 ,是 非语言交流中的一种有效手段。人们可通过表情准 确而微妙地表达自己的思想感情 ,也可通过表情辨 认对方的态度和内心世界。关于表情传递信息的作 用 ,心理学家 Mehrabian [ 1 ]给出了一个公式 : 感情表露 = 7%的言词 + 38%的声音 + 55%的 面部表情。 人脸表情识别 (FER)所要研究的就是如何自 动、可靠、高效地利用人脸表情所传达的信息。 人们对表情识别的研究可以追溯到 20世纪 70 年代 ,早期主要集中在从心理学和生物学方面进行 研究和分析。Darwin [ 2 ]首先揭示了表情在不同性 别 , 不 同 种 族 的 人 群 中 的 一 致 性。 Ekman 和 Frisen [ 3 ]提出面部表情编码系统 (FACS) ,用 44个运 动单元 (AU)来描述人脸表情变化 ,并定义了 6种基 本情感类别 :惊奇、恐惧、厌恶、愤怒、高兴、悲伤。这 一系统得到了广泛的认同 ,并成为后来很多表情识
中国图象图形学报 别研究工作的基础。人脸表情识别有广泛的应用前 景例如在多模式人机交互界面MHCD中,表情2人脸表情识别的系统概述 与声音、视线、体态等结合起来可以获得更高效、更 人性化的人机交流。另外,在如面部神经瘫痪诊断 个人脸表情识别系统一般包括3个环节,即 人脸图像实时传输,人脸图像合成与动画,智能机器人脸检测、特征提取、表情分类,如图1所示。建立 人智能监控等多个领域,表情识别都有着广泛的一个FER系统,第1步需要对人脸进行检测与定 应用。 位,这一环节的研究实际上已成为一个独立的方向, 在已有的文献中, Pantic和Fae的综述分读者可见文献[6]第2步从人脸图像或图像序列 别从不同的角度,系统地总结了2002年之前的FER中提取能够表征输入表情本质的信息,在提取特征 技术和方法。本文主要针对2002年以后FER研究数据的过程中,为了避免维数危机,可能还需要特征 的进展,对诸多的研究工作和热点进行总结和归纳,降维、特征分解等进一步处理;第3步分析特征之间 为前述两篇综述提供一些新的补充,并使读者了解的关系,将输入的人脸表情分类到相应的类别,如 到FER技术目前的发展趋势与方向。 AU组合或基本情感类别。 人脸检测与定位 表情特征原始特征 和取特征分解 人脸表情分类 图1人脸表情识别系统 Fig 1 Facial exp ression recogniton system 分性。 3表情特征提取的方法 要得到满足这些条件的表情特征,特征提取的 过程可能需要数个步骤来完成。首先,利用某种形 表情特征提取是FR系统中最重要的部分,有式的信息来获得表情的原始特征,如特征形状与几 效的表情特征提取工作将使识别的性能大大提高。何关系,局部纹理,光流场等,这一步骤称为原始特 通过对大量文献的总结,可知好的表情特征提取结征获取。然而,这些原始特征一般都存在信息冗余 果应该具备以下几个条件 维数过高,区分性不够等问题。为了能够更有效地 (1)完整的表示出人脸表情的本质特征; 表征输入人脸表情的本质,需要对原始特征数据进 (2)去除噪声、光照及其他与表情无关的干扰行一些后处理,如特征降维和提取,特征分解等,以 信息 降低维数,去除干扰因素,得到对分类更为有利的特 (3)数据表示形式紧凑避免过高的维数; 征数据。一些原始特征获取,特征降维和特征分解 (4)不同类别表情的特征之间有较好的区的方法如表1所示 表1表情特征提取的3个步骤及方法例举 Tah 1 The three steps of expressiona I fea ture ex traction and exam pls of m ethods 原始特征生成 特征降维和提取 特征分解 几何特征:基准点17 混合特征:AAM2-3 7. HLAC6 外貌特征: gabor PCA9I LDA[I9. A[2I.CDA 排序PCA+LDA01 高阶奇异值分解 MPPCA(251 双线性分解[26 序列特征:光流[33,运动单元461 31原始特征生成的方法 Pantic在以前工作的基础上改进并完善了 3.1.1针对静态图像 种自动提取脸部器官和轮廓基准点的方法。采用 (1)基于几何特征的方法 多检测器的方法,从正面人脸提取19个特征点,从 201994-2007ChinaAcademicjOurnalElectronicPublishingHouse.alLrightsreservedhttp://www.cnki.net
1360 中国图象图形学报 第 11卷 别研究工作的基础。人脸表情识别有广泛的应用前 景 ,例如在多模式人机交互界面 (MMHCI)中 ,表情 与声音、视线、体态等结合起来可以获得更高效、更 人性化的人机交流。另外 ,在如面部神经瘫痪诊断 , 人脸图像实时传输 ,人脸图像合成与动画 ,智能机器 人 ,智能监控等多个领域 ,表情识别都有着广泛的 应用。 在已有的文献中 , Pantic [ 4 ]和 Fasel [ 5 ]的综述分 别从不同的角度 ,系统地总结了 2002年之前的 FER 技术和方法。本文主要针对 2002年以后 FER研究 的进展 ,对诸多的研究工作和热点进行总结和归纳 , 为前述两篇综述提供一些新的补充 ,并使读者了解 到 FER技术目前的发展趋势与方向。 2 人脸表情识别的系统概述 一个人脸表情识别系统一般包括 3个环节 ,即 人脸检测、特征提取、表情分类 ,如图 1所示。建立 一个 FER 系统 ,第 1步需要对人脸进行检测与定 位 ,这一环节的研究实际上已成为一个独立的方向 , 读者可见文献 [ 6 ];第 2步从人脸图像或图像序列 中提取能够表征输入表情本质的信息 ,在提取特征 数据的过程中 ,为了避免维数危机 ,可能还需要特征 降维、特征分解等进一步处理 ;第 3步分析特征之间 的关系 ,将输入的人脸表情分类到相应的类别 ,如 AU组合或基本情感类别。 图 1 人脸表情识别系统 Fig. 1 Facial exp ression recognition system 3 表情特征提取的方法 表情特征提取是 FER系统中最重要的部分 ,有 效的表情特征提取工作将使识别的性能大大提高。 通过对大量文献的总结 ,可知好的表情特征提取结 果应该具备以下几个条件 : (1)完整的表示出人脸表情的本质特征 ; (2)去除噪声、光照及其他与表情无关的干扰 信息 ; (3)数据表示形式紧凑 ,避免过高的维数 ; (4)不同类别表情的特征之间有较好的区 分性。 要得到满足这些条件的表情特征 ,特征提取的 过程可能需要数个步骤来完成。首先 ,利用某种形 式的信息来获得表情的原始特征 ,如特征形状与几 何关系 ,局部纹理 ,光流场等 ,这一步骤称为原始特 征获取。然而 ,这些原始特征一般都存在信息冗余 , 维数过高 ,区分性不够等问题。为了能够更有效地 表征输入人脸表情的本质 ,需要对原始特征数据进 行一些后处理 ,如特征降维和提取 ,特征分解等 ,以 降低维数 ,去除干扰因素 ,得到对分类更为有利的特 征数据。一些原始特征获取 ,特征降维和特征分解 的方法如表 1所示。 表 1 表情特征提取的 3个步骤及方法例举 Tab. 1 The three steps of expressiona l fea ture extraction and exam ples of m ethods 原始特征生成 特征降维和提取 特征分解 几何特征 :基准点 [ 7, 8 ] 外貌特征 : Gabor [ 13, 14, 48 ] , HLAC [ 16 ] , LBP [ 17 ] 混合特征 : AAM [ 24~26 ] 序列特征 :光流 [ 34, 35 ] ,运动单元 [ 46 ] PCA [ 9 ] ,LDA [ 19 ] , ICA [ 12 ] , CDA [ 39 ] 排序 PCA +LDA [ 40 ] MPPCA [ 25 ] 高阶奇异值分解 [ 24 ] 双线性分解 [ 26 ] 3. 1 原始特征生成的方法 3. 1. 1 针对静态图像 (1) 基于几何特征的方法 Pantic [ 7 ]在以前工作 [ 8 ]的基础上改进并完善了 一种自动提取脸部器官和轮廓基准点的方法。采用 多检测器的方法 ,从正面人脸提取 19个特征点 ,从
刘晓文等:人脸表情识别研究的新进展 1361 侧面人脸提取10个特征点。通过一致性检验为每缘方向的相似性组成所谓的不对称脸( asymmetry 个提取的点赋予一个确定性因子CF( certa inty face),并认为这一脸部的不对称性在表情识别中也 factor),比较CF来从多个检测器的信息中选择最精具有很强的区分能力。zhu120定义了包含脸部重要 确的检测结果。 特征的7个区域,然后对每个区域计算4种改进的 几何特征的识别效果对基准点提取的准确性要不变矩,并定义一个尺度因子a来调节和平衡各个 求较高,在图像质量低和背景复杂的情况下难以实区域的特征值强度。 现。同时几何特征的提取忽略了脸部其他部分的信 (3)基于混合特征的方法 息如皮肤的纹理变化等,因此在识别细微变化的表 几何特征能够简洁地表示出人脸宏观的结构变 情时区分性不够高。 化,而另一方面外貌特征侧重于提取局部的细微变 (2)基于外貌特征的方法 化,一些研究者将两者结合起来用混合的特征进行 外貌( appearance)特征泛指使用全部人脸图像表情识别。如文献[13J、[14中将几何特征与局 像素的特征,反映了人脸图像底层的信息。基于灰部点或局部区域的 Gabor小波系数结合起来作为表 度图像的方法最简单,由于灰度像素受到光照和噪情特征。 Zhang2提出用多种特征融合的方法进行 声影响较大,因此需要较好的预处理方法,同时结合表情识别,所使用的特征提取方法包括基于特征点 PCA和DCT变换等方法进行进一步提取9.01 的几何特征提取,法令纹( naso lab ial fold)检测,前额 外貌特征提取最主要的方法是基于局部特征的区域边缘检测,后两者均为脸部瞬时变化出现的特 方法,利用一组滤波器对图像进行滤波,结果可以反征,如图2所示。 映局部像素之间的关系(梯度、相关性、纹理等) 近来,基于 Gabor小波的方法被广泛应用于人脸表 情的特征提取",它能够检测多尺度、多方向的 纹理变化,同时受光照变化影响较小, Donato2曾 比较了几种方法识别脸部AU的性能,结果表明 Gabor CA优于其他的方法。Wen在一系列手工 标定的局部小区域提取平均 Gabor小波系数作为纹 理特征,同时引入了一种在人脸合成中使用的基于 比例图的方法来对纹理提取区域进行预处理,以降 低不同人脸差异和光照变化引起的人脸反照度不均 的影响。另外,种类似Ha小波的矩形特征也被 图2特征点的几何关系(方形区域表示皱纹) 应用于表情特征的提取,它可以对整幅图像进行 Fig 2 The geometrical relatonshp of feature points 快捷的计算,从而获得较好的实时效果。局部特征 (where the rec tangles rep resent the furIos and wrinkle) 提取方法还有基于边缘,高阶局部自相关(HAC) 局部二元模式等。 Shinohara46对人脸图像提取共 基于混合特征的一类重要方法是基于模型的方 35种主要的高阶局部自相关特征,同时与 Fisher加法。这类方法用模型的方式来描述人脸的结构,几 权映射的方法相结合,从而增强一些重要特征区域,何模型(点模型)也是一类简单的模型方法。活跃 削弱不重要区域。Feng使用局部二元模式外貌模型(AM)42是目前广泛应用的一种人脸特 (LBP)来提取脸部图像的纹理特征,对脸部区域分征提取的方法1-AAM方法结合形状和纹理信 块计算LBP直方图,并连结起来作为表情识别的特息建立对人脸的参数化描述,然后再用PCA进行降 征。Buci4.用非负矩阵分解和局部非负矩阵分维。 Chang使用Hu提出的活跃小波网络 解来提取图像特征,并得出局部非负矩阵分解的识(AWN)进行人脸的对准。与AAM中的纹理模型不 别结果优于PCA方法的结论 同,AWN使用 Gabor小波网络的表示方法来对纹理 其他可归为外貌特征的方法还有:基于脸部不的变化进行建模,这一方法对部分阻挡和一些光照 对称性的方法1,基于不变矩的方法0 的变化有较好的鲁棒性。相对于基于外貌特征的方 Mia1对左右两边人脸图像提取密度的差异和边法,基于模型的方法可以得到更为可靠的人脸特征 201994-2007ChinaaCademieJournalElectronicPublishingHouse.Allrightsreservedhttp:/www.cnki.net
第 10期 刘晓 等 :人脸表情识别研究的新进展 1361 侧面人脸提取 10个特征点。通过一致性检验为每 个提取的 点赋予一 个 确 定 性 因 子 CF ( certainty factor) ,比较 CF来从多个检测器的信息中选择最精 确的检测结果。 几何特征的识别效果对基准点提取的准确性要 求较高 ,在图像质量低和背景复杂的情况下难以实 现。同时几何特征的提取忽略了脸部其他部分的信 息如皮肤的纹理变化等 ,因此在识别细微变化的表 情时区分性不够高。 (2)基于外貌特征的方法 外貌 ( appearance)特征泛指使用全部人脸图像 像素的特征 ,反映了人脸图像底层的信息。基于灰 度图像的方法最简单 ,由于灰度像素受到光照和噪 声影响较大 ,因此需要较好的预处理方法 ,同时结合 PCA和 DCT变换等方法进行进一步提取 [ 9, 10 ]。 外貌特征提取最主要的方法是基于局部特征的 方法 ,利用一组滤波器对图像进行滤波 ,结果可以反 映局部像素之间的关系 (梯度、相关性、纹理等 )。 近来 ,基于 Gabor小波的方法被广泛应用于人脸表 情的特征提取 [ 11~14 ] ,它能够检测多尺度、多方向的 纹理变化 ,同时受光照变化影响较小 , Donato [ 12 ]曾 比较了几种方法识别脸部 AU 的性能 ,结果表明 Gabor、ICA优于其他的方法。W en [ 14 ]在一系列手工 标定的局部小区域提取平均 Gabor小波系数作为纹 理特征 ,同时引入了一种在人脸合成中使用的基于 比例图的方法来对纹理提取区域进行预处理 ,以降 低不同人脸差异和光照变化引起的人脸反照度不均 的影响。另外 ,一种类似 Harr小波的矩形特征也被 应用于表情特征的提取 [ 15 ] ,它可以对整幅图像进行 快捷的计算 ,从而获得较好的实时效果。局部特征 提取方法还有基于边缘 ,高阶局部自相关 (HLAC) , 局部二元模式等。Shinohara [ 16 ]对人脸图像提取共 35种主要的高阶局部自相关特征 ,同时与 Fisher加 权映射的方法相结合 ,从而增强一些重要特征区域 , 削弱 不 重 要 区 域。 Feng [ 17 ] 使 用 局 部 二 元 模 式 (LBP)来提取脸部图像的纹理特征 ,对脸部区域分 块计算 LBP直方图 ,并连结起来作为表情识别的特 征。Buciu [ 18 ]采用非负矩阵分解和局部非负矩阵分 解来提取图像特征 ,并得出局部非负矩阵分解的识 别结果优于 PCA方法的结论。 其他可归为外貌特征的方法还有 :基于脸部不 对称 性 的 方 法 [ 19 ] , 基 于 不 变 矩 的 方 法 [ 20, 21 ]。 M itra [ 19 ]对左右两边人脸图像提取密度的差异和边 缘方向的相似性组成所谓的不对称脸 ( asymmetry face) ,并认为这一脸部的不对称性在表情识别中也 具有很强的区分能力。Zhu [ 20 ]定义了包含脸部重要 特征的 7个区域 ,然后对每个区域计算 4种改进的 不变矩 ,并定义一个尺度因子 α来调节和平衡各个 区域的特征值强度。 (3)基于混合特征的方法 几何特征能够简洁地表示出人脸宏观的结构变 化 ,而另一方面外貌特征侧重于提取局部的细微变 化 ,一些研究者将两者结合起来 ,用混合的特征进行 表情识别。如文献 [ 13 ]、[ 14 ]中将几何特征与局 部点或局部区域的 Gabor小波系数结合起来作为表 情特征。Zhang [ 22 ]提出用多种特征融合的方法进行 表情识别 ,所使用的特征提取方法包括 :基于特征点 的几何特征提取 ,法令纹 ( nasolabial fold)检测 ,前额 区域边缘检测 ,后两者均为脸部瞬时变化出现的特 征 ,如图 2所示。 图 2 特征点的几何关系 (方形区域表示皱纹 ) Fig. 2 The geometrical relationship of feature points (where the rectangles rep resent the furrows and wrinkle) 基于混合特征的一类重要方法是基于模型的方 法。这类方法用模型的方式来描述人脸的结构 ,几 何模型 (点模型 )也是一类简单的模型方法。活跃 外貌模型 (AAM) [ 23 ]是目前广泛应用的一种人脸特 征提取的方法 [ 24~27 ]。AAM方法结合形状和纹理信 息建立对人脸的参数化描述 ,然后再用 PCA进行降 维。Chang [ 28 ] 使 用 Hu [ 29 ] 提 出 的 活 跃 小 波 网 络 (AWN)进行人脸的对准。与 AAM中的纹理模型不 同 ,AWN使用 Gabor小波网络的表示方法来对纹理 的变化进行建模 ,这一方法对部分阻挡和一些光照 的变化有较好的鲁棒性。相对于基于外貌特征的方 法 ,基于模型的方法可以得到更为可靠的人脸特征
1362 中国图象图形学报 参数,但同时它也有计算较为复杂,而且初始点获取响特征提取的结果。金辉等人在人脸面部物理 困难等缺点。 几何结构模型的基础上,提取面部表情特征区域,通 3.1.2针对图像序列 过光流估计计算其运动场,进而计算特征流向量,然 基于图像序列的表情特征提取有两类方法 后把一组图像序列的运动向量组成运动特征序列 类仅利用帧间信息进行特征的跟踪和定位,可称为对表情的运动进行分析 基于帧内特征的方法,另一类不仅需要跟踪和定位 ②基于模型的方法 而且还利用帧间信息来作为表情识别的特征,可称 这类方法采用模型来跟踪人脸,并根据跟踪得 为基于序列特征的方法 到的模型参数和一些前后帧的信息来表示人脸的运 (1)基于帧内特征的方法 动。Tao和 Huang提出一种基于 Bezier volume的 在帧内提取特征的方法与静态图像使用的方法跟踪系统,在第1帧用交互式的方法确定眼角和嘴 大致相同,因此主要讨论特征跟踪的方法 角等标志性特征的位置,然后调整网状的3维模型 基于特征点跟踪的方法 来匹配选定的特征位置。在跟踪之后,用一些定义 基于特征点的跟踪通常只将特征点选在灰度变好的脸部运动单元( mo tron unit来表示运动特征 化较大的区域,例如眼角点,嘴角点等。这些点便于这些运动单元不仅表示了人脸区域的运动有无,还 跟踪,从而可以进一步得到脸部特征的位移或形变表示了运动的方向和强度。应用这一模型及运动单 信息。 Zhang2分别结合 Kaman滤波和红外(R)元来提取特征的方法有文献[14]、[461、[54 设备定位瞳孔两种方法来决定预测的特征位置,然Gok山u3使用3维的可变形人脸模型来进行人脸 后在预测位置附近匹配两点之间 Gabor核的相似度跟踪,然后用得出的形状向量及其在帧间的差异来 以检测特征的位置。由于R设备的引入,该方法对作为表情识别的特征 大的头部运动也能得到鲁棒的跟踪结果。Boue132特征降维和提取的方法 手工选择12个特征点并进行跟踪然后用基于状态 由于特征表示方法尤其是外貌特征的空间维数 的特征选择方法来提取表情特征。 Pandas提出通常非常巨大,因此需要通过一些映射或变换将它 种基于活跃轮廓的跟踪方法,可以提取人脸的特们转换到低维的子空间来表示。这样不仅可以使特 征并转换为MPEG编码方案中的人脸动画参数征的维数明显降低,同时这些低维空间特征的有效 (FAPs)。 性也将得到提高。常用的特征降维及提取的方法有 ②基于模型跟踪的方法 主元分析(PCA),线性判别分析(LDA),CA等。这 不同于特征点的跟踪,基于模型的跟踪针对整些方法在进行特征提取时各有优势,如PCA提取了 个人脸。这里模型可以是2维或3维的,但大多数最有代表性的特征,可以有效地消除冗余,降低维 模型都需要较复杂的计算。 Braathen用3维模型数,但它没有考虑不同类别数据之间的区分性。而 跟踪自然场景中头部的转动,然后将人脸图像用3LDA则通过最大化数据的类间离散度和最小化类 维变形的方法转换到规范的姿势,从而更方便地进内离散度来选择合适的投影方向,侧重于寻找具有 行表情识别。 最大分辨力的方向。近来,关于特征降维和提取的 Huang3使用多分辨率的3维可变形人脸模型方法,也有一些新的研究。 来对人脸建模,并采用了多层次的跟踪方法。全局 Chen在LDA的基础上提出一种基于聚类的 形变的跟踪由底层的数千个节点来完成,对于局部判别分析,针对类内存在多种子类的情况,首先使用 的纹理变化,用非刚性形状配准方法来进行获取。模糊C均值的方法进行聚类,然后以分离不同类的 该方法适用于3维人脸深度扫描数据,可以对细微子类为目标,寻找最佳的投影方向。该方法对同 的表情细节进行提取和跟踪。 表情由于光照等变化产生类内多种聚类的情况,有 (2)基于序列特征的方法 较好的识别效果。 ①基于光流的方法 Aubusson10首先对特征用PCA方法进行分 光流反映了帧间运动的重要信息,在表情的动析,然后按照主元对某一识别任务的重要性将它们 态分析中有较多的应用。基于光流方法的缺进行排列,采用前向逐步选择的方法选择和保留最 点在于,光照不均和脸部非刚性运动等因素将会影有区分性的k个主元方向,最后使用LDA对排列后 201994-2007ChinaAcademicJournalElectronicPublishingHouse.Allrightsreservedhttp://www.cnki.net
1362 中国图象图形学报 第 11卷 参数 ,但同时它也有计算较为复杂 ,而且初始点获取 困难等缺点。 3. 1. 2 针对图像序列 基于图像序列的表情特征提取有两类方法 ,一 类仅利用帧间信息进行特征的跟踪和定位 ,可称为 基于帧内特征的方法 ,另一类不仅需要跟踪和定位 , 而且还利用帧间信息来作为表情识别的特征 ,可称 为基于序列特征的方法。 (1)基于帧内特征的方法 在帧内提取特征的方法与静态图像使用的方法 大致相同 ,因此主要讨论特征跟踪的方法。 ①基于特征点跟踪的方法 基于特征点的跟踪通常只将特征点选在灰度变 化较大的区域 ,例如眼角点 ,嘴角点等。这些点便于 跟踪 ,从而可以进一步得到脸部特征的位移或形变 信息。Zhang [ 22 ]分别结合 Kalman滤波和红外 ( IR) 设备定位瞳孔两种方法来决定预测的特征位置 ,然 后在预测位置附近匹配两点之间 Gabor核的相似度 以检测特征的位置。由于 IR设备的引入 ,该方法对 大的头部运动也能得到鲁棒的跟踪结果。Bourel [ 30 ] 手工选择 12个特征点并进行跟踪 ,然后用基于状态 的特征选择方法来提取表情特征。 Pardàs [ 31 ]提出 一种基于活跃轮廓的跟踪方法 ,可以提取人脸的特 征并转换为 MPEG编码方案中的人脸动画参数 (FAPs)。 ②基于模型跟踪的方法 不同于特征点的跟踪 ,基于模型的跟踪针对整 个人脸。这里模型可以是 2维或 3维的 ,但大多数 模型都需要较复杂的计算。Braathen [ 32 ]用 3维模型 跟踪自然场景中头部的转动 ,然后将人脸图像用 3 维变形的方法转换到规范的姿势 ,从而更方便地进 行表情识别。 Huang [ 33 ]使用多分辨率的 3维可变形人脸模型 来对人脸建模 ,并采用了多层次的跟踪方法。全局 形变的跟踪由底层的数千个节点来完成 ,对于局部 的纹理变化 ,用非刚性形状配准方法来进行获取。 该方法适用于 3维人脸深度扫描数据 ,可以对细微 的表情细节进行提取和跟踪。 (2)基于序列特征的方法 ①基于光流的方法 光流反映了帧间运动的重要信息 ,在表情的动 态分析中有较多的应用 [ 34~36 ]。基于光流方法的缺 点在于 ,光照不均和脸部非刚性运动等因素将会影 响特征提取的结果。金辉等人 [ 34 ]在人脸面部物理 2 几何结构模型的基础上 ,提取面部表情特征区域 ,通 过光流估计计算其运动场 ,进而计算特征流向量 ,然 后把一组图像序列的运动向量组成运动特征序列 , 对表情的运动进行分析。 ②基于模型的方法 这类方法采用模型来跟踪人脸 ,并根据跟踪得 到的模型参数和一些前后帧的信息来表示人脸的运 动。Tao和 Huang [ 37 ]提出一种基于 BezierVolume的 跟踪系统 ,在第 1帧用交互式的方法确定眼角和嘴 角等标志性特征的位置 ,然后调整网状的 3维模型 来匹配选定的特征位置。在跟踪之后 ,用一些定义 好的脸部运动单元 (motion unit)来表示运动特征。 这些运动单元不仅表示了人脸区域的运动有无 ,还 表示了运动的方向和强度。应用这一模型及运动单 元来提取特征的方法有文献 [ 14 ]、[ 46 ]、[ 54 ]。 Gokturk [ 38 ]使用 3维的可变形人脸模型来进行人脸 跟踪 ,然后用得出的形状向量及其在帧间的差异来 作为表情识别的特征。 3. 2 特征降维和提取的方法 由于特征表示方法尤其是外貌特征的空间维数 通常非常巨大 ,因此需要通过一些映射或变换将它 们转换到低维的子空间来表示。这样不仅可以使特 征的维数明显降低 ,同时这些低维空间特征的有效 性也将得到提高。常用的特征降维及提取的方法有 主元分析 (PCA) ,线性判别分析 (LDA) , ICA等。这 些方法在进行特征提取时各有优势 ,如 PCA提取了 最有代表性的特征 ,可以有效地消除冗余 ,降低维 数 ,但它没有考虑不同类别数据之间的区分性。而 LDA则通过最大化数据的类间离散度和最小化类 内离散度来选择合适的投影方向 ,侧重于寻找具有 最大分辨力的方向。近来 ,关于特征降维和提取的 方法 ,也有一些新的研究。 Chen [ 39 ]在 LDA的基础上提出一种基于聚类的 判别分析 ,针对类内存在多种子类的情况 ,首先使用 模糊 C均值的方法进行聚类 ,然后以分离不同类的 子类为目标 ,寻找最佳的投影方向。该方法对同一 表情由于光照等变化产生类内多种聚类的情况 ,有 较好的识别效果。 Dubussion [ 40 ]首先对特征用 PCA 方法进行分 析 ,然后按照主元对某一识别任务的重要性将它们 进行排列 ,采用前向逐步选择的方法选择和保留最 有区分性的 k个主元方向 ,最后使用 LDA对排列后
刘晓文等:人脸表情识别研究的新进展 的子空间进行计算,产生C-1维C是分类的类别个 数)的判别子空间进行分类。该方法称为排序 特征子空间= PCA+LDA方法,可以对不同的识别任务建立最优 的子空间。 表情子空间 Zalewsk31l引入了混合概率PCA的方法,与传 统的PCA方法不同,概率PCA为PCA定义了一个 个体 概率模型,对于主元方向以外的信息并不是直接丢 弃,而是作为高斯噪声进行估计,通过最大似然解方 法来估计模型参数而得到最佳概率模型。该方法可 初始张量 个体子空间 以解决较大姿态变化带来的特征空间中非线性的分 布,并可以结合贝叶斯判别方法进行表情识别 33特征分解的方法 人脸图像包含了丰富的信息,对不同的识别任 图3脸部表情分解到人脸子空间表情子空间和特征子空间 务来说,所利用的信息也各不相同。人脸检测寻找 Fig 3 Facial exp lesson decomposition b person subspace. exp reason subspace, feature subspace 的是人脸图像共有的一致性,人脸识别需要利用表 示人脸个体差异的信息,而表情识别则需要表示各应的表情分量,计算测试样本表情分量与该训练样 种表情之间差异的信息,对一种识别任务有利的信本表情分量的相似性(如余弦距离或欧式距离),对 息有可能反而对其他识别任务造成干扰。近来 所有训练个体重复这一过程,最终将测试人脸分类 种新的解决思路是把人脸不同的因素如表情因素和到最相近的表情类别 个体因素分离开来,使得识别能够在相应的子空间 中进行,避免其他因素的干扰 4表情分类方法 A bboud3提出用双线性模型的方法来进行人 脸的外貌分解,首先使用AAM的方法获取人脸的 表情分类指定义一组类别,并设计相应的分类 特征参数,然后通过双线性分解模型的方法将人脸机制对表情进行识别,归入相应类别。如按照脸部 特征参数分解为与个体无关的表情分量以及与个体动作分类(HACS),将脸部的动作分类到44个AUs 相关的线性映射的乘积。实验结果表明,该方法在( acton units);或按照感情分类,将表情分类到 训练样本数较少的情况下识别结果优于LDA方法。 Ekman和 Friesen定义的6种基本感情。根据是否 Wang2将高阶奇异值分解(HosD)的方法用利用时间信息来进行分析,人脸表情分类的方法可 于脸部表情的分解。与双线性方法不同,HOSD是分为基于空间分析的方法和空时结合的方法两类。 种多因素的分析方法,在人脸识别和运动分析中41空间分析方法 都有应用。该方法将不同人、不同表情的图像用 41.1基于专家规则( Expert rules)的方法 个3阶的张量来表示,3阶分别表示个体、表情和特 这类方法从人的观察角度出发来制定一些规 征(AAM提取特征)。对张量用 HOSVD方法进则,对特征提取得出的参数,判断它符合哪一类规 行分解,得到个体子空间表情子空间和特征子空则将其归入相应的类别。Pant8用AU编码 间如图3所示。训练时从包含7种表情的图像集来描述输入的表情,然后与每一种表情类别的AU 合中得到人的个体子空间和表情子空间模型。这类编码描述进行比较,将其分类到最相近的一类基本 方法由于分解了人脸各种不同的因素,不仅可以较表情中。使用这类方法的还有文献[41l[42]。基 好地应用于表情识别,也可以方便地进行人脸表情于专家规则的方法可以更精确地描述人脸表情,从 的合成,甚至增加新的因素来满足不同光照和不同而更好地识别混合表情,同时由于它对表情进行了 角度的合成要求。 编码,因此便于进行人脸表情的合成。 基于特征分解的方法在分类过程中需要对已知412基于机器学习的方法 表情类别的样本库进行遍历搜索。首先假设测试样 (1)人工神经网 本的个体因素来自第1个训练的个体,分解得到相 人工神经网络在静态图像的人脸表情识别中有 201994-2007ChinaAcademicJournalElectronicPublishingHouse.Allrightsreservedhttp://www.cnki.net
第 10期 刘晓 等 :人脸表情识别研究的新进展 1363 的子空间进行计算 ,产生 C21维 (C是分类的类别个 数 ) 的判别子空间进行分类。该方法称为排序 PCA +LDA方法 ,可以对不同的识别任务建立最优 的子空间。 Zalewski [ 25 ]引入了混合概率 PCA的方法 ,与传 统的 PCA方法不同 ,概率 PCA为 PCA 定义了一个 概率模型 ,对于主元方向以外的信息并不是直接丢 弃 ,而是作为高斯噪声进行估计 ,通过最大似然解方 法来估计模型参数而得到最佳概率模型。该方法可 以解决较大姿态变化带来的特征空间中非线性的分 布 ,并可以结合贝叶斯判别方法进行表情识别。 3. 3 特征分解的方法 人脸图像包含了丰富的信息 ,对不同的识别任 务来说 ,所利用的信息也各不相同。人脸检测寻找 的是人脸图像共有的一致性 ,人脸识别需要利用表 示人脸个体差异的信息 ,而表情识别则需要表示各 种表情之间差异的信息 ,对一种识别任务有利的信 息有可能反而对其他识别任务造成干扰。近来 ,一 种新的解决思路是把人脸不同的因素如表情因素和 个体因素分离开来 ,使得识别能够在相应的子空间 中进行 ,避免其他因素的干扰。 Abboud [ 26 ]提出用双线性模型的方法来进行人 脸的外貌分解 ,首先使用 AAM 的方法获取人脸的 特征参数 ,然后通过双线性分解模型的方法将人脸 特征参数分解为与个体无关的表情分量以及与个体 相关的线性映射的乘积。实验结果表明 ,该方法在 训练样本数较少的情况下识别结果优于 LDA方法。 W ang [ 24 ]将高阶奇异值分解 (HOSVD)的方法用 于脸部表情的分解。与双线性方法不同 , HOSVD是 一种多因素的分析方法 ,在人脸识别和运动分析中 都有应用。该方法将不同人、不同表情的图像用一 个 3阶的张量来表示 , 3阶分别表示个体、表情和特 征 (用 AAM提取特征 )。对张量用 HOSVD方法进 行分解 ,得到个体子空间、表情子空间和特征子空 间 ,如图 3所示。训练时从包含 7种表情的图像集 合中得到人的个体子空间和表情子空间模型。这类 方法由于分解了人脸各种不同的因素 ,不仅可以较 好地应用于表情识别 ,也可以方便地进行人脸表情 的合成 ,甚至增加新的因素来满足不同光照和不同 角度的合成要求。 基于特征分解的方法在分类过程中需要对已知 表情类别的样本库进行遍历搜索。首先假设测试样 本的个体因素来自第 1个训练的个体 ,分解得到相 图 3 脸部表情分解到人脸子空间、表情子空间和特征子空间 Fig. 3 Facial exp ression decomposition to person subspace, exp ression subspace, feature subspace 应的表情分量 ,计算测试样本表情分量与该训练样 本表情分量的相似性 (如余弦距离或欧式距离 ) ,对 所有训练个体重复这一过程 ,最终将测试人脸分类 到最相近的表情类别。 4 表情分类方法 表情分类指定义一组类别 ,并设计相应的分类 机制对表情进行识别 ,归入相应类别。如按照脸部 动作分类 (FACS) ,将脸部的动作分类到 44个 AU s ( action units) ; 或按照感情分类 , 将表情分类到 Ekman和 Friesen定义的 6种基本感情。根据是否 利用时间信息来进行分析 ,人脸表情分类的方法可 分为基于空间分析的方法和空时结合的方法两类。 4. 1 空间分析方法 4. 1. 1 基于专家规则 (Expert rules)的方法 这类方法从人的观察角度出发来制定一些规 则 ,对特征提取得出的参数 ,判断它符合哪一类规 则 ,将其归入相应的类别。Pantic [ 7, 8 ]利用 AU 编码 来描述输入的表情 ,然后与每一种表情类别的 AU 编码描述进行比较 ,将其分类到最相近的一类基本 表情中。使用这类方法的还有文献 [ 41 ]、[ 42 ]。基 于专家规则的方法可以更精确地描述人脸表情 ,从 而更好地识别混合表情 ,同时由于它对表情进行了 编码 ,因此便于进行人脸表情的合成。 4. 1. 2 基于机器学习的方法 (1)人工神经网 人工神经网络在静态图像的人脸表情识别中有
1364 中国图象图形学报 很多运用1.4,。 georgieva4使用多层感知的而特征选择则通过限制分类面法向量的分量个数来 神经网络来进行表情识别,训练并测试了4种网络,完成。在实验中该方法可以用很少的特征数目达到 得出S形函数和径向基函数的神经单元混合能较好接近于SWM的识别正确率 地适合于前馈神经网络的结论。Ma°在全脸图像42空时分析的方法 中用2维离散余弦变换进行特征检测,然后用一个 在以前的文献中,空时结合的分析方法还包括 结构性单隐层的前馈神经网络作为表情分类器,效基于规则的推理以及循环神经网络等,但近几年的 果比传统的神经网络好。神经网络方法的缺点在文献中,只有隐马尔科夫模型( Hidden markov 于,当识别很多无限制的混合表情时,对分类器的训Mode被普遍采用20.23.46021 练将会比较困难 Mule3运用伪3维的隐马尔可夫模型 (2)贝叶斯分类 (P3 DHMMS)进行动态人脸表情的分析。对序列中 Sebe4首先使用朴素( Naive)贝叶斯分类器进的每一幅图像用一个伪2维的隐马尔可夫模型 行表情的识别,并证明将特征分布的假设由高斯分( P2DHMM)进行建模,再用IDMM对时间状态进 布改为柯西分布可以提高分类的性能。朴素贝叶斯行建模,最后得到表示完整表情动作的 P3DHMM 分类器的缺点在于,它假设特征之间是相互独立的, Yeasin1提出两步分析法,首先将一系列线性分类 而事实上人脸的表情发生过程中,各特征的变化并器用于 frame level,每次观察结果结合起来产生时 不是完全独立的,而是存在着相互制约的关系。间信号,然后用这一时间信号作为训练数据训练离 Cohen4在柯西分布的贝叶斯分类器基础上,使用散HMMs 高斯树状分类器对特征之间的从属性进行建模。并 用HM方法进行识别需要确定其初始和结東 且讨论了如何使用无标签的样本来训练贝叶斯网络的状态,因此一般用于单独的表情序列或分割好的表 分类器,从而在有标签样本数较少的情况下提高分情序列。 Cohen“提出多层次的HM第1层为分 类器的性能。 zhang21采用一个3层的贝叶斯别针对6种表情的6个HM模型第2层为表示6 网络对脸部表情和脸部AU之间的因果关系进行建种表情之间状态变化的 Markov模型。将单个表情 模,底层为可观察数据层,包括一些基本的特征数HMM的状态输出联合起来作为高层 Markov模型的 据,如眼、鼻、嘴、皱纹等等,中间层(即隐含层)为输入,并通过训练得到6种表情之间的转移概率,从 AU层,上层为表情层。同时结合HM,从时间和而可以自动将视频分割为不同的表情段进行分析。 空间关系上同时对表情进行建模。 (3)其他 5人脸表情数据库及算法比较 支持向量机是在统计学习理论的基础上发展起 来的一种分类方法,在解决小样本、非线性和高维问 目前在人脸表情识别研究中使用最广泛的是 题上有很多优势。目前支持向量机是机器学习中应MU的Cohm- Kanade数据库5,在很多研究中被列 用最多的分类器之一,近年来也被应用于表情识别为算法比较的标准。Cohn- Kanade数据库是基于 中4。 a daboost方法将多个弱分类器结合起来AU编码的数据库,含有210个对象的大约2000个 训练形成强分类器,不同分类器针对不同的特征,通图像序列,每个人有一系列的脸部活动,包括单个 过训练可以达到特征选择的目的,在模式识别领域AU或者AU组合。其次,日本ATR的女性表情数 如图像检索和人脸检测中都有成功的应用。据库( JAFFE)也得到较多使用。JAFE是以 Bartlett“使用 adaboost选择特征与SM分类相结种基本表情为基础的数据库,包括10位日本女性 合的 adaSA方法进行分类,取得较好的识别结果。每种表情有大约3、4幅图像,总共213幅图像。此 Wang用 A st/法训练查找表型的弱分类器外,还有一些数据库也可应用于人脸表情识别,如 进行表情识别,在自己收集的数据库上的测试结果 km an和 Friesen的人脸表情数据库,Yale人脸数据 略优于SMM。 库, Purdue的AR人脸数据库,CMU的P正数据 Guo4提出特征选择线性规划的方法,将模式库等。 分类的问题转化为最小化平均分类错误的1范数 随着人脸表情识别研究的深入,出现了一些比 的问题,从而可以用线性规划的方法来进行求解。较各种人脸表情识别算法的文献 例如 201994-2007ChinaAcademicJournalElectronicPublishingHouse.Allrightsreservedhttp://www.cnki.net
1364 中国图象图形学报 第 11卷 很多运用 [ 9, 13, 43, 44 ]。Gueorguieva [ 43 ]使用多层感知的 神经网络来进行表情识别 ,训练并测试了 4种网络 , 得出 S形函数和径向基函数的神经单元混合能较好 地适合于前馈神经网络的结论。Ma [ 9 ]在全脸图像 中用 2维离散余弦变换进行特征检测 ,然后用一个 结构性单隐层的前馈神经网络作为表情分类器 ,效 果比传统的神经网络好。神经网络方法的缺点在 于 ,当识别很多无限制的混合表情时 ,对分类器的训 练将会比较困难。 (2)贝叶斯分类 Sebe [ 45 ]首先使用朴素 (Naive)贝叶斯分类器进 行表情的识别 ,并证明将特征分布的假设由高斯分 布改为柯西分布可以提高分类的性能。朴素贝叶斯 分类器的缺点在于 ,它假设特征之间是相互独立的 , 而事实上人脸的表情发生过程中 ,各特征的变化并 不是完全独立的 ,而是存在着相互制约的关系。 Cohen [ 46 ]在柯西分布的贝叶斯分类器基础上 ,使用 高斯树状分类器对特征之间的从属性进行建模。并 且讨论了如何使用无标签的样本来训练贝叶斯网络 分类器 ,从而在有标签样本数较少的情况下提高分 类器的性能 [ 47 ]。Zhang [ 22 ]采用一个 3层的贝叶斯 网络对脸部表情和脸部 AU之间的因果关系进行建 模 ,底层为可观察数据层 ,包括一些基本的特征数 据 ,如眼、鼻、嘴、皱纹等等 ,中间层 (即隐含层 )为 AU层 ,上层为表情层。同时结合 HMM,从时间和 空间关系上同时对表情进行建模。 (3)其他 支持向量机是在统计学习理论的基础上发展起 来的一种分类方法 ,在解决小样本、非线性和高维问 题上有很多优势。目前支持向量机是机器学习中应 用最多的分类器之一 ,近年来也被应用于表情识别 中 [ 10, 48 ]。Adaboost方法将多个弱分类器结合起来 训练形成强分类器 ,不同分类器针对不同的特征 ,通 过训练可以达到特征选择的目的 ,在模式识别领域 如图 像 检 索 和 人 脸 检 测 中 都 有 成 功 的 应 用。 Bartlett [ 48 ]使用 Adaboost选择特征与 SVM分类相结 合的 AdaSVM方法进行分类 ,取得较好的识别结果。 Wang [ 15 ]用 Adaboost方法训练查找表型的弱分类器 进行表情识别 ,在自己收集的数据库上的测试结果 略优于 SVM。 Guo [ 49 ]提出特征选择线性规划的方法 ,将模式 分类的问题转化为最小化平均分类错误的 12范数 的问题 ,从而可以用线性规划的方法来进行求解。 而特征选择则通过限制分类面法向量的分量个数来 完成。在实验中该方法可以用很少的特征数目达到 接近于 SVM的识别正确率。 4. 2 空时分析的方法 在以前的文献中 ,空时结合的分析方法还包括 基于规则的推理以及循环神经网络等 ,但近几年的 文献 中 , 只 有 隐 马 尔 科 夫 模 型 ( H idden Markov Model)被普遍采用 [ 20, 32, 35, 46, 50~52 ]。 Muller [ 51 ]运 用 伪 3 维 的 隐 马 尔 可 夫 模 型 (P3DHMM s)进行动态人脸表情的分析。对序列中 的每一幅图像用一个伪 2 维的隐马尔可夫模型 (P2DHMM)进行建模 ,再用 1D2HMM对时间状态进 行建模 ,最后得到表示完整表情动作的 P3DHMM。 Yeasin [ 52 ]提出两步分析法 ,首先将一系列线性分类 器用于 frame level,每次观察结果结合起来产生时 间信号 ,然后用这一时间信号作为训练数据训练离 散 HMM s。 用 HMM方法进行识别需要确定其初始和结束 的状态 ,因此一般用于单独的表情序列或分割好的表 情序列。Cohen [ 46 ]提出多层次的 HMM,第 1层为分 别针对 6种表情的 6个 HMM模型 ;第 2层为表示 6 种表情之间状态变化的 Markov模型。将单个表情 HMM的状态输出联合起来作为高层 Markov模型的 输入 ,并通过训练得到 6种表情之间的转移概率 ,从 而可以自动将视频分割为不同的表情段进行分析。 5 人脸表情数据库及算法比较 目前在人脸表情识别研究中使用最广泛的是 CMU的 Cohn2Kanade数据库 [ 53 ] ,在很多研究中被列 为算法比较的标准。Cohn2Kanade 数据库是基于 AU编码的数据库 ,含有 210个对象的大约 2 000个 图像序列 ,每个人有一系列的脸部活动 ,包括单个 AU或者 AU组合。其次 ,日本 ATR的女性表情数 据库 (JAFFE) [ 11 ]也得到较多使用。JAFFE是以 7 种基本表情为基础的数据库 ,包括 10位日本女性 , 每种表情有大约 3、4幅图像 ,总共 213幅图像。此 外 ,还有一些数据库也可应用于人脸表情识别 ,如 Ekman和 Friesen的人脸表情数据库 , Yale人脸数据 库 , Purdue 的 AR 人脸数据库 , CMU 的 PIE 数据 库等。 随着人脸表情识别研究的深入 ,出现了一些比 较各种人脸表情识别算法的文献 [ 54, 55 ]。例如
刘晓文等:人脸表情识别研究的新进展 Sebe建立了一种在自然环境下的真实人脸表情因此,对哪个系统更为优越,很难给出一个统一的评 数据库,然后测试并比较了一系列基于机器学习理价。表2给出了使用Cohn- Kanade数据库和 JAFFE 论的分类器,如贝叶斯分类器,决策树,SWM,KN数据库的一些算法及其结果,对每一种算法列出了 等。结果表明KNN的识别效果最好,但同时具有计相应的识别任务(AU或基本表情等),数据类型(静 算速度较慢并且空间复杂度较高的缺点。态、序列或序列中抽取若干帧),数据量,以及训练 L ittlewort3系统比较了几种表情识别中的机器学测试比等实验的客观条件。测试结果中①表示该实 习的方法,包括SWM, adaboost,LDA,获得最佳识别验的测试集中的人不在训练集中出现,②则表示该 效果的方法为基于 Gabor小波特征的 a daboo st与实验测试集中的人可能在训练集中出现。为了对近 SWM结合的方法。 年来识别方法的进展提供一个纵向的比较,表中也 由于目前很多的人脸表情识别系统所报告的成列出了一些经典的方法以及他们的测试结果参见文 果都是在不同的数据库、不同的实验设置上进行的,献[351、[1l 表2一些FER系统及其识别结果列举 Tah 2 Several exam ples of FER system s and the ir recogn ition results 识别任务 测试结果(%) 数据库 特征提取方法 分类方法 数据类型 数据量/训练 光流、特征点跟踪、 3种上部AU 序列 HMM 100~27058~ 边缘检测3种方法[35 7种下部AU 序列 8l~92 序列 45 红外照相机检测虹膜, 恢复眼眉区域形状参数0 sM分类器 5种上部AU 不详 81.22 25人 241 和中性 法定位特征 7种上部AU 每序列抽取二1929 SM分类器 帧:开始,峰仁 人 提取Gabo幅值1551 625韩 7种表情 l上 93.3 HVD跟踪人脸,提取运动 Cohn-单元 Motion Units)[461 贝叶斯网络 7种表情 静态逐帧 73.22 53人1a重复 HVD跟踪人脸险提取几何混合高斯模型(M)在 ,①6a 特征+局部纹理特征41线的基于B的适应算法 4种表情 静态逐帧75482629帧②13 局部脸部不对称性的有序前向特征选择算法|3种表情(高兴、每序列抽取3帧:NR36 表示·不对称脸11与线性判别分析DA)愤怒沮丧)开始中间蜂值FRL8 55人65重复 6种表情 ACM跟踪,转换为 FAPslSII 半连续HMM 已分割序列 90人8:重复 6种表情+“说话 连续序列 图像序列的光流{2 两步法:NN+HMMs 6种表情 序列 488序列 手工标定34个点+18个 6种基本表情+ Gabor滤波器l 静态显著表情 93帧 ②8 HOLA特征+ Fisher Fihe线性判别 6种基本表情+ 静态显著表情694 加权映射s 9个人8重复 中性 JAFFE 局部二元模式BP1改进的模版匹配法,6种基本表情+静态显著表情7 两步分类 中性 9个人82重复 18个Gabo滤波器11特征选择线性规翅法6种基本表情+ 手工标定的34个特征点+ 静态显著表情-91010个人9重复 201994-2007ChinaAcademicJournalElectronicPublishingHouse.Allrightsreservedhttp://www.cnki.net
第 10期 刘晓 等 :人脸表情识别研究的新进展 1365 Sebe [ 54 ]建立了一种在自然环境下的真实人脸表情 数据库 ,然后测试并比较了一系列基于机器学习理 论的分类器 ,如贝叶斯分类器 ,决策树 , SVM, KNN 等。结果表明 KNN的识别效果最好 ,但同时具有计 算速 度 较 慢 并 且 空 间 复 杂 度 较 高 的 缺 点。 Littlewort [ 55 ]系统比较了几种表情识别中的机器学 习的方法 ,包括 SVM, Adaboost, LDA,获得最佳识别 效果的方法为基于 Gabor小波特征的 Adaboost与 SVM结合的方法。 由于目前很多的人脸表情识别系统所报告的成 果都是在不同的数据库、不同的实验设置上进行的 , 因此 ,对哪个系统更为优越 ,很难给出一个统一的评 价。表 2给出了使用 Cohn2Kanade数据库和 JAFFE 数据库的一些算法及其结果 ,对每一种算法列出了 相应的识别任务 (AU或基本表情等 ) ,数据类型 (静 态、序列或序列中抽取若干帧 ) ,数据量 ,以及训练 / 测试比等实验的客观条件。测试结果中 ①表示该实 验的测试集中的人不在训练集中出现 , ②则表示该 实验测试集中的人可能在训练集中出现。为了对近 年来识别方法的进展提供一个纵向的比较 ,表中也 列出了一些经典的方法以及他们的测试结果参见文 献 [ 35 ]、[ 11 ]。 表 2 一些 FER系统及其识别结果列举 Tab. 2 Severa l exam ples of FER system s and the ir recogn ition results 数据库 特征提取方法 分类方法 识别任务 数据类型 测试结果 ( % ) ① ② 数据量 训练 /测 试比 Cohn2 Kanade 光流、特征点跟踪、 边缘检测 3种方法 [ 35 ] HMM 3种上部 AU 序列 85~92 — 7种下部 AU 序列 81~92 — 100~270 序列 5∶8~ 4∶5 红外照相机检测虹膜 , 恢复眼眉区域形状参数 [ 10 ] SVM分类器 5种上部 AU 和中性 不详 81. 22 — 25人 24∶1 Boosting方法定位特征 , 提取 Gabor幅值 [ 55 ] SVM分类器 7种上部 AU 每序列抽取二 帧 :开始 ,峰值 92. 9 — 7种表情 同上 93. 3 — 90人 , 625帧 — PBVD跟踪人脸 ,提取运动 单元 (Motion Units) [ 46 ] 贝叶斯网络 7种表情 静态逐帧 73. 22 — 53人 1∶4重复 PBVD跟踪人脸;提取几何 特征 +局部纹理特征 [ 14 ] 混合高斯模型 (GMM) ,在 线的基于 EM的适应算法 4种表情 静态逐帧 75. 4 87. 6 47人 , 2981帧 ① 6∶4 ② 1∶1 局部脸部不对称性的 表示 - 不对称脸 [ 19 ] 有序前向特征选择算法 与线性判别分析 (LDA) 3种表情 (高兴、 愤怒、沮丧 ) 每序列抽取 3帧: 开始,中间,峰值 FNR 3. 6 FPR 1. 8 — 55人 6∶5重复 ACM跟踪 ,转换为 FAPs [ 31 ] 半连续 HMM 6种表情 序列 84 — 6种表情 +“说话” 已分割序列 81 — 连续序列 64 — 90人 89∶1重复 图像序列的光流 [ 52 ] 两步法 : kNN + HMM s 6种表情 序列 90. 9 — 97人 , 488序列 — JAFFE 手工标定 34个点 + 18个 Gabor滤波器 [ 11 ] LDA 6种基本表情 + 中性 静态显著表情 75 92 9个人 , 193帧 ① 9∶1 ② 8∶1 HOLA特征 + Fisher 加权映射 [ 16 ] Fisher线性判别 6种基本表情 + 中性 静态显著表情 69. 4 — 9个人 8∶1重复 局部二元模式 (LBP) [ 17 ] 改进的模版匹配法 , 两步分类 6种基本表情 + 中性 静态显著表情 77 — 9个人 8∶1重复 手工标定的 34个特征点 + 18个 Gabor滤波器 [ 49 ] 特征选择线性规划法 6种基本表情 + 中性 静态显著表情 — 91. 0 10个人 9∶1重复
1366 中国图象图形学报 的表情。对混和表情、表情的强度方面,目前的研究 6讨论与总结 还非常的缺乏。已经有研究针对表情的强度方面做 了一些尝试,但研究仍然处于初级阶段 通过前面几节的介绍,可以看出人脸表情识别 (5)人脸表情会受到多种因素的影响,如光照、 方面的研究取得了很多进展,但从识别系统的性能姿态变化,脸部阻挡等。针对脸部出现阻挡的情况 来看,与实用化还有一定的距离。目前看来,FER有一些初步的研究12.5,但与实际情况还有一定距 系统的性能主要受到以下几个方面的限制 离。在目前的研究中,针对光照和姿势的变化,一般 (1)特征提取的方法存在一些缺陷,很多模型都采用3维人脸建模的方法来解决。但目前3维人 的方法需要手工介入来标定一些点或区域,外貌特脸建模的技术尚不能达到自动建模的要求。同时 征的方法不需要手工帮助,但提取出的信息往往不精度也受到一定的限制。另外,特征分解是解决这 够可靠而且易受干扰; 类问题的一种新方法,但这方面的研究刚刚出现,有 (2)某些表情易于识别,而某些表情不易识别,待进一步发展。 心理学方面的研究认为,最容易辨认的表情是快乐、 痛苦,较难辨认的是恐惧、悲哀,更难辨认的是怀疑、 参考文献( References) 怜悯,在FER系统中也面临着对某些类别的表情识1 Mehrabian A. Communicaton without words[ J Psychobgy Today 别率偏低的情况 1968,2(4):53~56 (3)目前的研究大多数都针对特定条件下采集 2 Darwin C. The Exp ression of the moons in Man and Anmals[M I 的图像或者图像序列。但要做到对任意采集的图像 London: J. Murray, 1872 3 Ekman P, Friesen w V. Facial Acton Coding System: A Technique 或图像序列都适应,还需要人脸检测等其他领域的 for the Measurement of Facial Movement[M). Pab Alt: Consulting 发展。 Psychologists Press, 1978 虽然受到一些限制因素的影响,国内外研究者4 Pantic M, RothkrantzL. Autmatic analysis of fac al exp ressons the 们仍提出了很多思路,力图在这些方面有所突破 state of the art [J]. IEEE Transactins on Pattem Analysis and 对本文介绍的一些方法进行总结,可以得出近来 Mach ne In telligence,2000,22(12):1424~1445 5 Fasel B, Luettin J. Autmatic facil exp ression analysis A survey FER研究的几个热点,也是未来可能的发展方向 [J]. Pattem Recogniton, 2003, 36(1): 259-275 (1)由于人脸表情变化表现在图像上会产生多6 Yang M, Kriegman D J, Ahuja N. Detecting faces in mages A 种不同的变化,如五官位置、形状,以及细微的皮肤 survey[J]. IEEE Transactons on Pattem Analysis and Machine 纹理、阴影等,因此将多种特征混合起来,可以最大 telligence,200.24(1:34~58 限度地利用表情变化产生的信息,更完整地表示表 7 Pantic M, Rothkrantz L Facal action recogniton for fac ial 情,混合法将成为特征获取中的一个重点 exp ression analysis fiom static face mages[J]. EEE Transactons on Systems, Man and Cybemetics-Part B, 2004, 34 (3):1449-1461. (2)由于模型的方法往往需要手工的帮助,因 8 Pantic M, RothkrantzL Expert system for automatic analysis of fac ial 此外貌特征就被较多地应用于自动的FER系统 exp ression[J]. mage V isin Camputing, 2000, 18(11):881 由此带来的问题是特征维数可能很高,而且特征的 有效性不高。因此特征降维、提取和选择等方法的9MaL, Khorasani K Facial exp lesson recogniton using constructive 研究也成为一个重点; feedfoward neural neworks[J]. IEEE Transactons on Systems, Man and Cybemetics, Part B, 2004, 34(3): 1588-1595. (3)近年随着机器学习领域的发展,越来越多10K0rA,QiY, Picard W. Fully automatic upper facial action 的机器学习方法被用于表情的识别和分类,并取得 ognition[A). h: Proceedings EEE htematonal Workshop on 了较好的结果,这也应是未来识别方法的主流。但 Analysis and Modeling of Faces and GesturesIC], Nice, France, 同时人的表情是有一定的心理学规律可循的,是否 2003:195~202 可以将心理学和生物学知识与机器学习的方法相结1mM, Budynek J, Akamastu S Automatic classificaton of single 合来提高分类的性能,这是有待研究的问题 fac ial mages [J]. EEE Transactons on Pattem Analysis and (4)在目前的人脸表情识别系统中,往往是对 Mach ine Intelligence, 1999, 21(12): 1357--1362 12 Donat G, Bartlett S, Hager C, et al Classify ing facil actons[) 比较夸张的表情进行分析和识别。但在实际的生活 IEEE Transactions on pattem analysis and Mach ine Intelligence 中,很多表情可能是混和的表情,或者并不是很夸张 1999,21(10):974~989 201994-2007ChinaAcademicJournalElectronicpUblishingHouse.Allrightsreservedhttp://www.cnki.net
1366 中国图象图形学报 第 11卷 6 讨论与总结 通过前面几节的介绍 ,可以看出人脸表情识别 方面的研究取得了很多进展 ,但从识别系统的性能 来看 ,与实用化还有一定的距离。目前看来 , FER 系统的性能主要受到以下几个方面的限制 : (1) 特征提取的方法存在一些缺陷 ,很多模型 的方法需要手工介入来标定一些点或区域 ,外貌特 征的方法不需要手工帮助 ,但提取出的信息往往不 够可靠而且易受干扰 ; (2)某些表情易于识别 ,而某些表情不易识别 , 心理学方面的研究认为 ,最容易辨认的表情是快乐、 痛苦 ,较难辨认的是恐惧、悲哀 ,更难辨认的是怀疑、 怜悯 ,在 FER系统中也面临着对某些类别的表情识 别率偏低的情况 ; (3)目前的研究大多数都针对特定条件下采集 的图像或者图像序列。但要做到对任意采集的图像 或图像序列都适应 ,还需要人脸检测等其他领域的 发展。 虽然受到一些限制因素的影响 ,国内外研究者 们仍提出了很多思路 ,力图在这些方面有所突破。 对本文介绍的一些方法进行总结 ,可以得出近来 FER研究的几个热点 ,也是未来可能的发展方向 : (1)由于人脸表情变化表现在图像上会产生多 种不同的变化 ,如五官位置、形状 ,以及细微的皮肤 纹理、阴影等 ,因此将多种特征混合起来 ,可以最大 限度地利用表情变化产生的信息 ,更完整地表示表 情 ,混合法将成为特征获取中的一个重点 ; (2)由于模型的方法往往需要手工的帮助 ,因 此外貌特征就被较多地应用于自动的 FER 系统。 由此带来的问题是特征维数可能很高 ,而且特征的 有效性不高。因此特征降维、提取和选择等方法的 研究也成为一个重点 ; (3)近年随着机器学习领域的发展 ,越来越多 的机器学习方法被用于表情的识别和分类 ,并取得 了较好的结果 ,这也应是未来识别方法的主流。但 同时人的表情是有一定的心理学规律可循的 ,是否 可以将心理学和生物学知识与机器学习的方法相结 合来提高分类的性能 ,这是有待研究的问题 ; (4)在目前的人脸表情识别系统中 ,往往是对 比较夸张的表情进行分析和识别。但在实际的生活 中 ,很多表情可能是混和的表情 ,或者并不是很夸张 的表情。对混和表情、表情的强度方面 ,目前的研究 还非常的缺乏。已经有研究针对表情的强度方面做 了一些尝试 ,但研究仍然处于初级阶段 ; (5)人脸表情会受到多种因素的影响 ,如光照、 姿态变化 ,脸部阻挡等。针对脸部出现阻挡的情况 , 有一些初步的研究 [ 22, 56 ] ,但与实际情况还有一定距 离。在目前的研究中 ,针对光照和姿势的变化 ,一般 都采用 3维人脸建模的方法来解决。但目前 3维人 脸建模的技术尚不能达到自动建模的要求。同时 , 精度也受到一定的限制。另外 ,特征分解是解决这 类问题的一种新方法 ,但这方面的研究刚刚出现 ,有 待进一步发展。 参考文献 ( References) 1 Mehrabian A. Communication without words[J ]. Psychology Today, 1968, 2 (4) : 53~56. 2 Darwin C. The Exp ression of the Emotions inMan and Animals[M ]. London: J. Murray, 1872. 3 Ekman P, Friesen W V. Facial Action Coding System: A Technique for the Measurement of Facial Movement[M ]. Palo A lto: Consulting Psychologists Press, 1978. 4 Pantic M, RothkrantzL. Automatic analysis of facial exp ressions: the state of the art [ J ]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2000, 22 (12) : 1424~1445. 5 Fasel B, Luettin J. Automatic facial exp ression analysis: A survey [J ]. Pattern Recognition, 2003, 36 (1) : 259~275. 6 YangM, Kriegman D J, Ahuja N. Detecting faces in images: A survey [ J ]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002, 24 (1) : 34~58. 7 Pantic M, Rothkrantz L. Facial action recognition for facial exp ression analysis from static face images[J ]. IEEE Transactions on Systems, Man and Cybernetics2Part B, 2004, 34 (3) : 1449~1461. 8 Pantic M, RothkrantzL. Expert system for automatic analysis of facial exp ression[J ]. Image V ision Computing, 2000, 18 ( 11 ) : 881 ~ 905. 9 Ma L, Khorasani K. Facial exp ression recognition using constructive feedforward neural networks[J ]. IEEE Transactions on Systems, Man and Cybernetics, Part B, 2004, 34 (3) : 1588~1595. 10 Kapoor A, Q i Y, Picard R W. Fully automatic upper facial action recognition [A ]. In: Proceedings IEEE International Workshop on. Analysis and Modeling of Faces and Gestures[ C ] , N ice, France, 2003: 195~202. 11 LyonsM, Budynek J, Akamastu S. Automatic classification of single facial images [ J ]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1999, 21 (12) : 1357~1362. 12 Donato G, Bartlett S, Hager C, et al. Classifying facial actions[J ]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1999, 21 (10) : 974~989
刘晓文等:人脸表情识别研究的新进展 1367 13 Tian Y. Kanade T. Cohn J. Evaluaton of Gabor wave let-based facial UK,2004,4:163~166 acton unit recogniton n mage sequences of increasing camp lexity 27 Zuo Kun-bng, L iu Wen-yan Fac ial exp ressin recognition using [A]. I: Piceedngs of IEEE htematinal Conference on Autmatic active appearance models [J] Joumal of Op electronics Laser, Face and Gesture Recogniton[C], Washngtn, DC, USA, 2002: 2004,15(7):853~857[左坤隆,刘文耀 动外观模型 26~30 的人脸表情分析与识别[J]光电子激光,2004,15(7):853 14 Wen Z, Huang T Cap turing subtle facial motions n 3d face track ing 857. 1. I: Proceed ings of IEEE htematinal Conference on Ce 28 Chang Y, Hu C, Turk M Probabilistic exp ression analysis on visn[C].Nce, france,2003,2:1343~1350 manifolds[A. I: Proceed ings of htematonal Conference on 15 Wang Y, AiH, wuB, et al Real tme fac al exp lesson recogniti Camputer Vision and Pattem Recogniton [C), washington DC, nal Conference on Pattem Recognition[C], Cambridge, UK, 2004, 3: 926-929 29 Hu C, FerisR, Turk M. Realtime view-based face aligment using 16 Shinohara Y, Otsu N. Facal exp ression recognition using fisher active wavelet neworks[A). In: PRoceedings of IEEE htematinal Workshop on Analysis and Modeling of Faces and Gestures[C] Face and Gesture Recogniton[C], SeouL, Korea, 2004: 499-504 France,2003:215~221 17 Feng X Facial expresson recogniton based on bcal binary pattems 30 Bourel F, Chibelushi CC, Low AA. Robust fac ial exp ression and coarse-b-fine classificaton[A]. h: PROceed ings of Intemational recognition using a state-based model of spatally-bocalized facial Conference on Camputer and Infomaton Technobgy [C], wuhan, dynam s[A]. I: Proceed ings of IEEE Intemational Conference on Chma,2004:178~183 Autmatic Face and Gesture Recogniton [C ], Washington, DC, 18 Buciu L Pitas I Application of non-negative and bcal nonnegative UsA,2002:106~11l matrix facbrvation b facial exp resson recogniton [A- h: 31 Pardas M, Bonatonte A, Landabaso JL Emoton recognitin based on MPEG facial an matin parameters[A]. h: Proceed ings of IEEE Acoustics, Speech, and Signal Pocessing[ C], Orlando, F, U 19 Mitra S, Liu Y Local facial asymmetry fr exp resson classificaton 2002,4:3624~3627 [A]. I: PRoceedings of IEEE Conference on Camputer V ison and 32 Braathen B, Bartlett M S, Littlewort G, et al An app roach b Pattem Recognitin [C], Washington, DC, USA, 200 automatic recognitin of spontaneous facial actions [A)hn 2:889~894 Proceedings of IEEE Intemational Conference on Automatic Face and 20 Zhu Y. DeSilva L C. KoCC Using mament invariants and HMM in Gesture Recognition[C], washington, DC, USA, 2002: 231-235. facial expresson recogniton[J). Pattem Recogniton Letters, 2002, 33 Huang X, Zhang S, WangY, et al A hierarchical framework br 23(1-3):83~9 high resoluton facal exp lesson tracking[a). h: Proceedings of 21 J iang Lu, Zhang Pinzheng, Shu Huazhong Mament application b IEEE Conference on Camputer Vison and Pattem Recognitio human facial exp ressin recognition [J]. Joumal of Southeast Workshop[C], Washington, DC, USA, 2004: 22-22 University(Natural Science Edition), 2004, 34(4): 557-560 [E 34 Jin Hui, Gao Wen Analysis and applicatin of the facial expression 璐,章品正,舒华忠.矩在面部表情识别中的应用[J]东南大 eigen-flow [J J 学学报,2004,34(4):557~560 14(12):2098~2105[金辉,高文.基于特征流的面部表情运动 22 Zhang Y, Ji Q Active and dynam ic infomation fuson for facial 分析及应用[J]软件学报,2003,14(12):2098-2105 expresson understanding fiom mage sequences [J]. IEEE 35 L ien J. Automatic Recogniton of Fac al Exp resson Using Hidden Transactons on Pattem Analysis and Machine Inte lligence, 2005, Markov Models and Estmaton of Exp ressin ntensity [D] 27(5):699~714 Pittsburgh: The Robotics Istitute, (MU, 1998 23 Cootes T F, Edwards G J, Taybor C J. Active appearance models 36 M inam itani H, Hoshino Y, Hashmob H, et al Computerized [A]. h: Proceedings of the 5 th Euopean Conference on Camputer diagnosis of facial nerve palsy based on optical flow analysis of fac ial V ison[C], Freiburg, Gemany, 1998, 2: 484--498 exp ressions [A h: Proceedings of the IEEE Intematinal 24 Wang H, Ahua N. Facial exp resson decomposition [A]. h: Conference of Engineering in Medicine and B obgy Society IC] Proceedings of IEEE htematonal Conference on Camputer Vison rance.,2003,2:958~965 37 Tao H, Huang T Exp lanation-based facal moton track ing using a 25 ZalewskiL, Gong S Synthesis and recogniton of fac ial exp ressons piecewise Bezier wolume defomation model[A ). h: Proceedings of viewsIA. I: P gs of EEE 6 th Intemational IEEE Camputer Society Conference on Camputer V ison and Pattem Conference on Autmatic Face and Gesture Recogniton[C], SeouL Recogniton[C], Collins, CO, USA, 1999: 23-25 Korea,2004:493~498 38 Gokturk S B, Bouguet J Y, Tamasi C, et al Model-based 6 Abboud B, Dawoime F. Appearance factorization based facial tracking for view-independent fac ial exp lesson recogniton[A H exp ression recognition and synthesis[A) In: PRoceedings of Proceedings of IEEE Intemational Conference on Automatic Face and intemational Conference on Pattem Recogniton [C), Cambridge, Gesture Recogniton[C], Washington, DC, USA, 2002: 272-278 201994-2007ChinaAcademicJournalElectronicPublishingHouse.Allrightsreservedhttp:/www.cnki.net
第 10期 刘晓 等 :人脸表情识别研究的新进展 1367 13 Tian Y, Kanade T, Cohn J. Evaluation of Gaborwavelet2based facial action unit recognition in image sequences of increasing comp lexity [A ]. In: Proceedings of IEEE International Conference on Automatic Face and Gesture Recognition [ C ] , Washington, DC, USA, 2002: 26~30. 14 Wen Z, Huang T. Cap turing subtle facial motions in 3d face tracking [A ]. In: Proceedings of IEEE International Conference on Computer V ision[C ] , N ice, France, 2003, 2: 1343~1350. 15 Wang Y, A i H, Wu B, et al. Real time facial exp ression recognition with adaboost[ A ]. In: Proceedings of International Conference on Pattern Recognition[ C ] , Cambridge, UK, 2004, 3: 926~929. 16 Shinohara Y, O tsu N. Facial exp ression recognition using fisher weight map s[A ]. In: Proceedings of IEEE Conference on Automatic Face and Gesture Recognition[ C ] , Seoul, Korea, 2004: 499~504. 17 Feng X. Facial exp ression recognition based on local binary patterns and coarse2to2fine classification[A ]. In: Proceedings of International Conference on Computer and Information Technology [ C ] , Wuhan, China, 2004: 178~183. 18 Buciu I, Pitas I. App lication of non2negative and local nonnegative matrix factorization to facial exp ression recognition [ A ]. In: Proceedings of International Conference on Pattern Recognition [ C ] , Cambridge, UK, 2004, 1: 288~291. 19 M itra S, Liu Y. Local facial asymmetry for exp ression classification [A ]. In: Proceedings of IEEE Conference on Computer V ision and Pattern Recognition [ C ] , Washington, DC, USA, 2004, 2: 889~894. 20 Zhu Y, DeSilva L C, Ko C C. U singmoment invariants and HMM in facial exp ression recognition[J ]. Pattern Recognition Letters, 2002, 23 (123) : 83~91. 21 Jiang Lu, Zhang Pin2zheng, Shu Hua2zhong. Moment app lication to human facial exp ression recognition [ J ]. Journal of Southeast University(Natural Science Edition) , 2004, 34 (4) : 557~560. [姜 璐 , 章品正 , 舒华忠. 矩在面部表情识别中的应用 [J ]. 东南大 学学报 , 2004, 34 (4) : 557~560. ] 22 Zhang Y, Ji Q. Active and dynamic information fusion for facial exp ression understanding from image sequences [ J ]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2005, 27 (5) : 699~714. 23 Cootes T F, Edwards G J, Taylor C J. Active appearance models [A ]. In: Proceedings of the 5 th European Conference on Computer V ision[C ] , Freiburg, Germany, 1998, 2: 484~498. 24 Wang H, Ahuja N. Facial exp ression decomposition [ A ]. In: Proceedings of IEEE International Conference on Computer V ision [C ], N ice, France, 2003, 2: 958~965. 25 Zalewski L, Gong S. Synthesis and recognition of facial. exp ressions in virtual 3D views[A ]. In: Proceedings of IEEE 6 th International Conference on Automatic Face and Gesture Recognition [ C ], Seoul, Korea, 2004: 493~498. 26 Abboud B, Davoine F. Appearance factorization based facial exp ression recognition and synthesis [ A ]. In: Proceedings of International Conference on Pattern Recognition [ C ] , Cambridge, UK, 2004, 4: 163~166. 27 Zuo Kun2long, Liu Wen2yao. Facial exp ression recognition using active appearance models [ J ]. Journal of Op toelectronics Laser, 2004, 15 (7) : 853~857. [左坤隆 , 刘文耀. 基于活动外观模型 的人脸表情分析与识别 [ J ]. 光电子激光 , 2004, 15 ( 7) : 853~ 857. ] 28 Chang Y, Hu C, Turk M. Probabilistic exp ression analysis on manifolds [ A ]. In: Proceedings of International Conference on Computer V ision and Pattern Recognition [ C ], Washington DC, USA, 2004, 2: 520 ~527. 29 Hu C, Feris R, Turk M. Real2time view2based face alignment using active wavelet networks[ A ]. In: Proceedings of IEEE International Workshop on Analysis and Modeling of Faces and Gestures [ C ] , N ice, France, 2003: 215~221. 30 Bourel F, Chibelushi C C, Low A A. Robust facial exp ression eecognition using a state2based model of spatially2localized facial dynamics[A ]. In: Proceedings of IEEE International Conference on Automatic Face and Gesture Recognition [ C ], Washington, DC, USA, 2002: 106~111. 31 PardàsM, Bonafonte A, Landabaso J L. Emotion. recognition based onMPEG4 facial animation parameters[A ]. In: Proceedings of IEEE Acoustics, Speech, and Signal Processing[ C ] , O rlando, FL, USA, 2002, 4: 3624~3627. 32 Braathen B, Bartlett M S, Littlewort G, et al. An app roach to automatic recognition of spontaneous facial actions [ A ]. In: Proceedings of IEEE International Conference on Automatic Face and Gesture Recognition[ C ], Washington, DC, USA, 2002: 231~235. 33 Huang X, Zhang S, Wang Y, et al. A hierarchical framework for high resolution facial exp ression tracking [ A ]. In: Proceedings of IEEE Conference on Computer V ision and Pattern Recognition Workshop [ C ] , Washington, DC, USA, 2004: 22~22. 34 Jin Hui, Gao Wen. Analysis and app lication of the facial exp ression motions based on eigen2flow [ J ]. Journal of Software, 2003, 14 (12) : 2098~2105. [金辉 , 高文. 基于特征流的面部表情运动 分析及应用 [J ]. 软件学报 , 2003, 14 (12) : 2098~2105. ] 35 Lien J. Automatic Recognition of Facial Exp ression U sing Hidden Markov Models and Estimation of Exp ression Intensity [ D ]. Pittsburgh: The Robotics Institute, CMU, 1998. 36 M inamitani H, Hoshino Y, Hashimoto H, et al. Computerized diagnosis of facial nerve palsy based on op tical flow analysis of facial exp ressions [ A ]. In: Proceedings of the IEEE International Conference of Engineering in Medicine and Biology Society [ C ] , Cancun, Mexico, 2003: 663~666. 37 Tao H, Huang T. Exp lanation2based facial motion tracking using a p iecewise Bezier volume deformation model[A ]. In: Proceedings of IEEE Computer Society Conference on Computer V ision and Pattern Recognition[C ], Collins, CO, USA, 1999: 23~25. 38 Gokturk S B, Bouguet J Y, Tomasi C, et al. Model2based face tracking for view2independent facial exp ression recognition [ A ]. In: Proceedings of IEEE International Conference on Automatic Face and Gesture Recognition[ C ], Washington, DC, USA, 2002: 272~278
1368 第11卷 39 Chen X, Huang I Fac ial exp ression recognition: a clustering based [A. I: PRoceedings of IEEE Camputer Society Conference on app mach [J] Pattem Recogniton Letters, 2003, 24(9-10) Camputer Vision and Pattem Recognition [C], San Degp, CA 1295~1302 UsA,2005,2:568~573 40 Dubuisson S, Devo ine F, Masson M A luton for facial exp ression 49 Guo G D, Dyer C R. Leaming fiom examples in the mall sample representation and recogniton[J Signal Processing mage case: face exp ressin recogniton[J]. IEEE Transactons on System %订+ exp reason recogniton with obust face detecton using a convolutional 50 Jin Hui, Gao Wen Analysis and recogniton of facial exp ression neural newwork[ J]. Neural Neworks, 2003, 16(56): 555-559 mage sequences based on HMM [J]. Acta Autmatica Sinica, 2002 42 Haneda K, Muraguchi T, Nakam ura O. The recognition of facial 28(4):646~650[金辉,高文.基于HM的面部表情图像序 exp ressons using expert system [A. I: Proceed ings of IEEE 列的分析与识别[J]自动化学报,2002,28(4):646~650 Canad an Conference on Electrical and Camputer EngineeringIC], 51 Muller S, wallhoff F, Hulsken F, et al Facial exp resson recognitio treal, Canada,2003,2:1195~1198 using pseudo 3D hidden Markov models[A) h: PRoceed ngs of 43 Gueorguieva N, Georgiev G, Vabva I Fac ial exp lesson recogniti htematonal Conference on Pattem Recognition[C], Quebec City. using feedward neural networks [A] In: Proceedings of the a,2002,2:32~35 Intemational Conference on Artificial telligence [C], Las Vegas, 52 Yeasin M, Bulbt B, Shama R. Frm facial exp lesson b level of Nv,UsA,2003:285~291 interest a spati-temporal appoach [A). h: Proceedings of 44 Seyedarabi H, Aghagpbzadeh A, Kharmohammadi S, et al htematinal Conference on Camputer V ision and Pattem Recogniti Recogniton of six basic fac al exp ressons by feature points tracking shington,DC,UsA,2004,2:922~927 using RBF neural network and fuzzy inference system [A]. h: 53 Kanade T, Cohn J F, Tian Y. Camp rehensive database for facial Proceed ings of EEE Intemational Confe on multmed ia and exp ression analysis[A]. h: Proceedings of the Fourth htematonal Expo[C], Tapei, TaNan, China, 2004: 1219-1222 Conference of Face and Gesture Recogniton[C], Grenoble, France, 45 Sebe N, Cohen L Garg A, et al Emotion recogniton using a Cauchy 2000:46~53 naive Bayes Classifier [A h: Proceedings of Intemational 54 Sebe N, Lew M, Cohen L et aI Authentic facial exp ression analysis Conference on Pattem Recognition [C], Quebec City, Canada, [A. I: Pceed ings of Intemational Conference on Automatic Face and Gesture Recognition[ C], Seoul, Korea, 2004: 517-522 46 Cohen L Sebe N, Garg A, et al Facial exp ression recogniton from 55 L ittlewort G, BartlettM, Fasel L et al Dynam ics of facal expression video sequences Temporal and static modeling[ J]. Computer Vison extracted automatically fiom video(A). h: Proceedings of IEEE and mage Understand ing 2003, 91(1-2): 160-187 Conference on Camputer Vision and Pattem Recognition, Workshop 47 Cohen L Sebe N, Cozman F G, et al Leaming bayesian nework on Face PRcessing in Video[C], Washington DC, USA, 2004 classifiers br fac ial expresson ition with both labeled and 80~80 labeled data[AI h: Proceed ings of htematonal Conference on 56 Buciu L, Kotsa L Pitas I Fac ial exp reason analysis under partial Camputer V isin and Pattem Recognition[C, Madison, W isconsn, occlusion(A). In: Proceed ings of IEEE Intemational Conference on UsA,2003,1:595~604 Acoustics, Speech, and Signal Processing[C], Philadelpha, PA 48 Bartlett M S, Littlewort G, Frank M, et al Recognizing facial UsA,2005,5:453~456 expression: machine leaming and applicaton b spontaneous behavor 201994-2007chinaAcademicJournalElectronicPublishingHouse.Allrightsreservedhttp://www.cnki.net
1368 中国图象图形学报 第 11卷 39 Chen X, Huang T. Facial exp ression recognition: a clustering based app roach [ J ]. Pattern Recognition Letters, 2003, 24 ( 9210 ) : 1295~1302. 40 Dubuisson S, Devoine F, Masson M. A solution for facial exp ression rep resentation and recognition [ J ]. Signal Processing: Image Communication, 2002, 17 (9) : 657~673. 41 Matsugu M, Mori K, M itari Y, et al. Subject independent facial exp ression recognition with robust face detection using a convolutional neural network[J ]. Neural Networks, 2003, 16 (526) : 555~559. 42 Haneda K, Muraguchi T, Nakamura O. The recognition of facial exp ressions using expert system [ A ]. In: Proceedings of IEEE Canadian Conference on Electrical and Computer Engineering [ C ] , Montreal, Canada, 2003, 2: 1195~1198. 43 Gueorguieva N, Georgiev G, Valova I. Facial exp ression recognition using feedforward neural networks [ A ]. In: Proceedings of the International Conference on A rtificial Intelligence [ C ] , Las Vegas, NV, USA, 2003: 285~291. 44 Seyedarabi H, Aghagolzadeh A, Khanmohammadi S, et al. Recognition of six basic facial exp ressions by feature2points tracking using RBF neural network and fuzzy inference system [ A ]. In: Proceedings of IEEE International Conference on Multimedia and Expo[ C ] , Taipei, Taiwan, China, 2004: 1219~1222. 45 Sebe N, Cohen I, Garg A, et al. Emotion recognition using a Cauchy naive Bayes Classifier [ A ]. In: Proceedings of International Conference on Pattern Recognition [ C ] , Québec City, Canada, 2002, 1: 17~20. 46 Cohen I, Sebe N, Garg A, et al. Facial exp ression recognition from video sequences: Temporal and static modeling[J ]. ComputerV ision and Image Understanding, 2003, 91 (122) : 160~187. 47 Cohen I, Sebe N, Cozman F G, et al. Learning bayesian network classifiers for facial exp ression. recognition with both labeled and unlabeled data[A ]. In: Proceedings of International Conference on Computer V ision and Pattern Recognition[ C ] , Madison, W isconsin, USA, 2003, 1: 595~604. 48 Bartlett M S, Littlewort G, Frank M, et al. Recognizing facial exp ression: machine learning and app lication to spontaneous behavior [A ]. In: Proceedings of IEEE Computer Society Conference on Computer V ision and Pattern Recognition [ C ] , San D iego, CA, USA, 2005, 2: 568~573. 49 Guo G D, Dyer C R. Learning from examp les in the small samp le case: face exp ression recognition[J ]. IEEE Transactions on System, Man and Cybernetics2Part B, Special Issue on Learning in Computer V ision and Pattern Recognition, 2005, 35 (3) : 477~488. 50 Jin Hui, Gao Wen. Analysis and recognition of facial exp ression image sequences based on HMM [J ]. Acta Automatica Sinica, 2002, 28 (4) : 646~650. [金辉 , 高文. 基于 HMM 的面部表情图像序 列的分析与识别 [J ]. 自动化学报 , 2002, 28 (4) : 646~650. ] 51 Muller S, Wallhoff F, Hulsken F, et al. Facial exp ression recognition using p seudo 32D hidden Markov models[ A ]. In: Proceedings of International Conference on Pattern Recognition [ C ] , Québec City, Canada, 2002, 2: 32~35. 52 Yeasin M, Bullot B, Sharma R. From facial exp ression to level of interest: a spatio2temporal app roach [ A ]. In: Proceedings of International Conference on Computer V ision and Pattern Recognition [ C ] , Washington, DC, USA, 2004, 2: 922~927. 53 Kanade T, Cohn J F, Tian Y. Comp rehensive database for facial exp ression analysis[A ]. In: Proceedings of the Fourth International Conference of Face and Gesture Recognition[ C ] , Grenoble, France, 2000: 46~53. 54 Sebe N, Lew M, Cohen I, et al. Authentic facial exp ression analysis [A ]. In: Proceedings of International Conference on Automatic Face and Gesture Recognition[ C ] , Seoul, Korea, 2004: 517~522. 55 Littlewort G, BartlettM, Fasel I, et al. Dynamics of facial exp ression extracted automatically from video [ A ]. In: Proceedings of IEEE Conference on Computer V ision and Pattern Recognition, Workshop on Face Processing in V ideo [ C ] , Washington DC, USA, 2004: 80~80. 56 Buciu L, Kotsia I, Pitas I. Facial exp ression analysis under partial occlusion[A ]. In: Proceedings of IEEE International Conference on Acoustics, Speech, and Signal Processing [ C ] , Philadelphia, PA, USA, 2005, 5: 453~456