工程科学学报 Chinese Journal of Engineering 基于S-LRCN的微表情识别算法 李学翰胡四泉石志国张明 Micro-expression recognition algorithm based on separate long-term recurrent convolutional network LI Xue-han,HU Si-quan,SHI Zhi-guo,ZHANG Ming 引用本文: 李学翰,胡四泉,石志国,张明.基于S-LRCN的微表情识别算法[J.工程科学学报,2022,44(1):104-113.doi: 10.13374j.issn2095-9389.2020.06.15.006 LI Xue-han,HU Si-quan,SHI Zhi-guo,ZHANG Ming.Micro-expression recognition algorithm based on separate long-term recurrent convolutional network [J].Chinese Journal of Engineering,2022,44(1):104-113.doi:10.13374/j.issn2095- 9389.2020.06.15.006 在线阅读View online:https::/doi.org10.13374j.issn2095-9389.2020.06.15.006 您可能感兴趣的其他文章 Articles you may be interested in 基于卷积神经网络的反无人机系统声音识别方法 Sound recognition method of an anti-UAV system based on a convolutional neural network 工程科学学报.2020,42(11):1516 https:/doi.org/10.13374.issn2095-9389.2020.06.30.008 基于光流方向信息嫡统计的微表情捕捉 Capture of microexpressions based on the entropy of oriented optical flow 工程科学学报.2017,3911):1727htps:1doi.org/10.13374.issn2095-9389.2017.11.016 基于BiLSTM的公共安全事件触发词识别 Public security event trigger identification based on Bidirectional LSTM 工程科学学报.2019,41(9:外1201 https:/1doi.org10.13374j.issn2095-9389.2019.09.012 基于数控机床设备故障领域的命名实体识别 Named entity recognition based on equipment and fault field of CNC machine tools 工程科学学报.2020,42(4:476 https:/1doi.org10.13374j.issn2095-9389.2019.09.17.002 基于DL-T及迁移学习的语音识别研究 Research on automatic speech recognition based on a DLT and transfer learning 工程科学学报.2021,43(3):433htps:/oi.org10.13374.issn2095-9389.2020.01.12.001 基于深度学习的高效火车号识别 Efficient wagon number recognition based on deep learning 工程科学学报.2020,42(11:1525 https:/doi.org10.13374.issn2095-9389.2019.12.05.001
基于S-LRCN的微表情识别算法 李学翰 胡四泉 石志国 张明 Micro-expression recognition algorithm based on separate long-term recurrent convolutional network LI Xue-han, HU Si-quan, SHI Zhi-guo, ZHANG Ming 引用本文: 李学翰, 胡四泉, 石志国, 张明. 基于S-LRCN的微表情识别算法[J]. 工程科学学报, 2022, 44(1): 104-113. doi: 10.13374/j.issn2095-9389.2020.06.15.006 LI Xue-han, HU Si-quan, SHI Zhi-guo, ZHANG Ming. Micro-expression recognition algorithm based on separate long-term recurrent convolutional network [J]. Chinese Journal of Engineering, 2022, 44(1): 104-113. doi: 10.13374/j.issn2095- 9389.2020.06.15.006 在线阅读 View online: https://doi.org/10.13374/j.issn2095-9389.2020.06.15.006 您可能感兴趣的其他文章 Articles you may be interested in 基于卷积神经网络的反无人机系统声音识别方法 Sound recognition method of an anti-UAV system based on a convolutional neural network 工程科学学报. 2020, 42(11): 1516 https://doi.org/10.13374/j.issn2095-9389.2020.06.30.008 基于光流方向信息熵统计的微表情捕捉 Capture of microexpressions based on the entropy of oriented optical flow 工程科学学报. 2017, 39(11): 1727 https://doi.org/10.13374/j.issn2095-9389.2017.11.016 基于BiLSTM的公共安全事件触发词识别 Public security event trigger identification based on Bidirectional LSTM 工程科学学报. 2019, 41(9): 1201 https://doi.org/10.13374/j.issn2095-9389.2019.09.012 基于数控机床设备故障领域的命名实体识别 Named entity recognition based on equipment and fault field of CNC machine tools 工程科学学报. 2020, 42(4): 476 https://doi.org/10.13374/j.issn2095-9389.2019.09.17.002 基于DL-T及迁移学习的语音识别研究 Research on automatic speech recognition based on a DLT and transfer learning 工程科学学报. 2021, 43(3): 433 https://doi.org/10.13374/j.issn2095-9389.2020.01.12.001 基于深度学习的高效火车号识别 Efficient wagon number recognition based on deep learning 工程科学学报. 2020, 42(11): 1525 https://doi.org/10.13374/j.issn2095-9389.2019.12.05.001
工程科学学报.第44卷.第1期:104-113.2022年1月 Chinese Journal of Engineering,Vol.44,No.1:104-113,January 2022 https://doi.org/10.13374/j.issn2095-9389.2020.06.15.006;http://cje.ustb.edu.cn 基于S-LRCN的微表情识别算法 李学翰),胡四泉2)四,石志国12,),张明 1)北京科技大学计算机与通信工程学院,北京1000832)北京科技大学顺德研究生院.佛山5283993)北京市大数据中心,北京100101 4)电子科技大学通信与信息工程学院,成都611731 ☒通信作者,E-mail:husiquan@ustb.edu.cn 摘要基于面部动态表情序列,针对静态表情缺少时间信息等问题,将空间特征与时间特征融合,利用神经网络在图像分 类领域良好的特征,对需要进行细节分析的表情序列进行处理,提出基于分离式长期循环卷积网络(Separate long-term recurrent convolutional networks,S-LRCN)的微表情识别方法.首先选取微表情数据集提取面部图像序列,引入迁移学习的方 法,通过预训练的卷积神经网络模型提取表情帧的空间特征,降低网络训练中过拟合的危险,并将视频序列的提取特征输入 长短期记忆网络(Long short--team memory,LSTM)处理时域特征.最后建立学习者表情序列小型数据库,将该方法用于辅助 教学评价. 关键词微表情识别:时空特征:长期递归卷积网络:长短期记忆网络:教学评价 分类号TP391.4 Micro-expression recognition algorithm based on separate long-term recurrent convolutional network LI Xue-han,HU Si-quan2,SHI Zhi-guo 2),ZHANG Ming 1)School of Computer and Communication Engineering.University of Science and Technology Beijing,Beijing 00083,China 2)Shunde Graduate School,University of Science and Technology Beijing,Foshan 528399,China 3)Beijing Big Data Center,Beijing 100101,China 4)School of Information and Communication Engineering,University of Electronic Science and Technology of China,Chengdu 611731,China Corresponding author,E-mail:husiquan@ustb.edu.cn ABSTRACT With the rapid development of machine learning and deep neural network and the popularization of intelligent devices, face recognition technology has rapidly developed.At present,the accuracy of face recognition has exceeded that of the human eyes. Moreover,the software and hardware conditions of large-scale popularization are available,and the application fields are widely distributed.As an important part of face recognition technology,facial expression recognition has been a widely studied subject in the fields of artificial intelligence,security,automation,medical treatment,and driving in recent years.Expression recognition,an active research area in human-computer interaction,involves informatics and psychology and has good research prospect in teaching evaluation.Micro-expression,which has great research significance,is a kind of short-lived facial expression that humans unconsciously make when trying to hide some emotion.Different from the general static facial expression recognition,to realize micro-expression recognition,besides extracting the spatial feature information of facial expression deformation in the image,the temporal-motion information of the continuous image sequence also needs to be considered.In this study,given that static expression features lack temporal information,so that the subtle changes in expression cannot be fully reflected,facial dynamic expression sequences were used 收稿日期:2020-06-15 基金项目:国家自然科学基金资助项目(61977005):四川省科技计划资助项目(2018 GZDZX0034):北京科技大学顺德研究生院科技创新 专项资助项目(BK19CF003):北京市科技计划资助项目(Z201100004220010)
基于 S-LRCN 的微表情识别算法 李学翰1),胡四泉1,2) 苣,石志国1,2,3),张 明4) 1) 北京科技大学计算机与通信工程学院,北京 100083 2) 北京科技大学顺德研究生院,佛山 528399 3) 北京市大数据中心,北京 100101 4) 电子科技大学通信与信息工程学院,成都 611731 苣通信作者, E-mail: husiquan@ustb.edu.cn 摘 要 基于面部动态表情序列,针对静态表情缺少时间信息等问题,将空间特征与时间特征融合,利用神经网络在图像分 类领域良好的特征,对需要进行细节分析的表情序列进行处理,提出基于分离式长期循环卷积网络 (Separate long-term recurrent convolutional networks, S-LRCN) 的微表情识别方法. 首先选取微表情数据集提取面部图像序列,引入迁移学习的方 法,通过预训练的卷积神经网络模型提取表情帧的空间特征,降低网络训练中过拟合的危险,并将视频序列的提取特征输入 长短期记忆网络 (Long short-team memory, LSTM) 处理时域特征. 最后建立学习者表情序列小型数据库,将该方法用于辅助 教学评价. 关键词 微表情识别;时空特征;长期递归卷积网络;长短期记忆网络;教学评价 分类号 TP391.4 Micro-expression recognition algorithm based on separate long-term recurrent convolutional network LI Xue-han1) ,HU Si-quan1,2) 苣 ,SHI Zhi-guo1,2,3) ,ZHANG Ming4) 1) School of Computer and Communication Engineering, University of Science and Technology Beijing, Beijing 100083, China 2) Shunde Graduate School, University of Science and Technology Beijing, Foshan 528399, China 3) Beijing Big Data Center, Beijing 100101, China 4) School of Information and Communication Engineering, University of Electronic Science and Technology of China, Chengdu 611731, China 苣 Corresponding author, E-mail: husiquan@ustb.edu.cn ABSTRACT With the rapid development of machine learning and deep neural network and the popularization of intelligent devices, face recognition technology has rapidly developed. At present, the accuracy of face recognition has exceeded that of the human eyes. Moreover, the software and hardware conditions of large-scale popularization are available, and the application fields are widely distributed. As an important part of face recognition technology, facial expression recognition has been a widely studied subject in the fields of artificial intelligence, security, automation, medical treatment, and driving in recent years. Expression recognition, an active research area in human –computer interaction, involves informatics and psychology and has good research prospect in teaching evaluation. Micro-expression, which has great research significance, is a kind of short-lived facial expression that humans unconsciously make when trying to hide some emotion. Different from the general static facial expression recognition, to realize micro-expression recognition, besides extracting the spatial feature information of facial expression deformation in the image, the temporal-motion information of the continuous image sequence also needs to be considered. In this study, given that static expression features lack temporal information, so that the subtle changes in expression cannot be fully reflected, facial dynamic expression sequences were used 收稿日期: 2020−06−15 基金项目: 国家自然科学基金资助项目(61977005);四川省科技计划资助项目(2018GZDZX0034);北京科技大学顺德研究生院科技创新 专项资助项目(BK19CF003);北京市科技计划资助项目(Z201100004220010) 工程科学学报,第 44 卷,第 1 期:104−113,2022 年 1 月 Chinese Journal of Engineering, Vol. 44, No. 1: 104−113, January 2022 https://doi.org/10.13374/j.issn2095-9389.2020.06.15.006; http://cje.ustb.edu.cn
李学翰等:基于S-LRCN的微表情识别算法 ·105· to fuse spatial features and temporal features,and neural networks were used to provide good features in the field of image classification. Expression sequences were processed,and a micro-expression recognition method based on separate long-term recurrent convolutional network(S-LRCN)was proposed.First,the micro-expression data set was selected to extract the facial image sequence,and the transfer learning method was introduced to extract the spatial features of the expression frame through the pre-trained convolution neural network model,to reduce the risk of overfitting in the network training,and the extracted features of the video sequence were inputted into long short-term memory (LSTM)to process the temporal-domain features.Finally,a small database of learners'expression sequences was established,and the method was used to assist teaching evaluation. KEY WORDS micro-expression recognition;spatial-temporal features;LRCN:;LSTM;education evaluation 人脸表情反映了人类的真实情绪,心理学家 用场景,将教学评价与表情分析结合,通过采集学 Albert Mehrabian指出“情感表达=7%语言+38%声 生面部表情来分析其学习状态,本文采用分心 音+55%面部表情”.面部表情作为情感和心理 (Distraction)、专注(Focus)、疲劳(Tired)3种分类方 的研究载体,在人类情感判断中具有重要的地位 式建立小型数据库,最后通过改进的S-LRCN方法 根据Ekman的基本情绪理论,表情包含了大量的 对3种状态分类 情感语义,一般分为高兴、厌恶、愤怒、悲伤、恐 1 惧、和惊讶6种但是,情感通常是连续的、时序 相关工作 上下文相关的,具有不同的强弱表达关系,基本的 1.1表情识别 情绪理论仍然具有一定的局限性,与普通表情不 Ekman等图于1976年提出了面部表情编码系 同,微表情是在主观情绪影响下产生的一种自发 统(Facial action coding system,FACS).FACS将人 式表情微表情具有持续时间短(1/25~1/3s)、 脸区域划分成44个运动单元(Action unit,.AU).并 动作幅度小等特点,给微表情识别带来了很大的 将不同的AU进行组合形成FACS码,每一种 难度. FACS码对应着一种面部表情.并在此基础上,经 在以往的微表情识别中通过特征提取的方法 过对大量表情图片的分析,开发出了面部情感编 对微表情进行分析,但是由于底层特征由人工提 码系统(Emotion FACS)9MIT实验室训练稀疏码 取等原因造成特征提取不足,导致微表情识别准 本进行微表情的情感分析,通过利用微小时间运 确率低阿.近年来,深度学习算法表现出强大的优 动模式的稀疏性,短时间段内在面部和身体区域 势,尤其是在图像特征提取方面表现突出,准确率 上提取局部时空特征,从数据中学习微表情码 远超于传统的特征提取方法6因此采用深度学习 本,并以稀疏方式对特征进行编码,在AVEC 算法来对微表情进行更有效的特征提取以提高识 2012数据集上的实验表明,这种方式具有很好的 别效果.此外,传统方法受限于计算能力和表情视 性能. 频数据的规模,通常使用静态表情或者单表情进 1.2表情特征提取 行分析,忽略了表情周期性的问题.表情的产生是 表情特征的提取方法分为基于静态图像与基 一个随时间变化的过程,动态表情更自然地表达 于动态图像两类.其中基于动态特征的提取主要 了表情变化,而单帧的表情并不能反映表情的整 集中在人脸的形变和面部区域的肌肉运动上,基 体信息,所以基于动态表情序列进行分析更有助 于动态特征提取的代表方法有光流法山、运动模 于微表情的识别 型、几何法和特征点跟踪方法等 本文基于动态多表情序列,将空间特征和空间 Polikovsky等I通过3D直方图的方法,通过 时间相结合,提出一种分离式长期循环卷积网络 关联帧之间的梯度关系进行微表情检测识别 (Separate long-term recurrent convolutional networks, Shreve等]通过光流法使用应变模式处理长视 S-LRCN)模型,首先将卷积神经网络用于深层特 频,通过在人脸部划分几个特定子区域(如嘴部,眼 征视觉提取器来提取图像中的微表情静态特征可, 睛)分割面部表情,进而识别微表情.Pfister等l4 并将从视频序列中提取的特征提供给由长短期记 使用三维正交平面局部二值法(Local binary patterns 忆网络(Long short-team memory,.LSTM)单元组成 from three orthogonal planes,LBP-TOP)算法提取微 的双向循环神经网络,得到时序的输出,来提高微 表情图像序列的特征,该方法通过二维到三维的 表情识别的准确率.并且研究表情序列的实际使 扩展提取时域和空域方向上的动态局部纹理特征
to fuse spatial features and temporal features, and neural networks were used to provide good features in the field of image classification. Expression sequences were processed, and a micro-expression recognition method based on separate long-term recurrent convolutional network (S-LRCN) was proposed. First, the micro-expression data set was selected to extract the facial image sequence, and the transfer learning method was introduced to extract the spatial features of the expression frame through the pre-trained convolution neural network model, to reduce the risk of overfitting in the network training, and the extracted features of the video sequence were inputted into long short-term memory (LSTM) to process the temporal-domain features. Finally, a small database of learners ’ expression sequences was established, and the method was used to assist teaching evaluation. KEY WORDS micro-expression recognition;spatial-temporal features;LRCN;LSTM;education evaluation 人脸表情反映了人类的真实情绪,心理学家 Albert Mehrabian 指出“情感表达=7% 语言+38% 声 音+55% 面部表情” [1] . 面部表情作为情感和心理 的研究载体,在人类情感判断中具有重要的地位. 根据 Ekman 的基本情绪理论,表情包含了大量的 情感语义,一般分为高兴、厌恶、愤怒、悲伤、恐 惧、和惊讶 6 种[2] . 但是,情感通常是连续的、时序 上下文相关的,具有不同的强弱表达关系,基本的 情绪理论仍然具有一定的局限性. 与普通表情不 同,微表情是在主观情绪影响下产生的一种自发 式表情[3] . 微表情具有持续时间短 (1/25~1/3 s)、 动作幅度小等特点[4] ,给微表情识别带来了很大的 难度. 在以往的微表情识别中通过特征提取的方法 对微表情进行分析,但是由于底层特征由人工提 取等原因造成特征提取不足,导致微表情识别准 确率低[5] . 近年来,深度学习算法表现出强大的优 势,尤其是在图像特征提取方面表现突出,准确率 远超于传统的特征提取方法[6] . 因此采用深度学习 算法来对微表情进行更有效的特征提取以提高识 别效果. 此外,传统方法受限于计算能力和表情视 频数据的规模,通常使用静态表情或者单表情进 行分析,忽略了表情周期性的问题. 表情的产生是 一个随时间变化的过程,动态表情更自然地表达 了表情变化,而单帧的表情并不能反映表情的整 体信息,所以基于动态表情序列进行分析更有助 于微表情的识别. 本文基于动态多表情序列,将空间特征和空间 时间相结合,提出一种分离式长期循环卷积网络 (Separate long-term recurrent convolutional networks, S-LRCN) 模型,首先将卷积神经网络用于深层特 征视觉提取器来提取图像中的微表情静态特征[7] , 并将从视频序列中提取的特征提供给由长短期记 忆网络 (Long short-team memory, LSTM) 单元组成 的双向循环神经网络,得到时序的输出,来提高微 表情识别的准确率. 并且研究表情序列的实际使 用场景,将教学评价与表情分析结合,通过采集学 生面部表情来分析其学习状态 ,本文采用分心 (Distraction)、专注 (Focus)、疲劳 (Tired) 3 种分类方 式建立小型数据库,最后通过改进的 S-LRCN 方法 对 3 种状态分类. 1 相关工作 1.1 表情识别 Ekman 等[8] 于 1976 年提出了面部表情编码系 统 (Facial action coding system,FACS). FACS 将人 脸区域划分成 44 个运动单元 (Action unit,AU),并 将 不 同 的 AU 进 行 组 合 形 成 FACS 码 , 每 一 种 FACS 码对应着一种面部表情. 并在此基础上,经 过对大量表情图片的分析,开发出了面部情感编 码系统 (Emotion FACS)[9] . MIT 实验室训练稀疏码 本进行微表情的情感分析,通过利用微小时间运 动模式的稀疏性,短时间段内在面部和身体区域 上提取局部时空特征[10] ,从数据中学习微表情码 本 ,并以稀疏方式对特征进行编码 , 在 AVEC 2012 数据集上的实验表明,这种方式具有很好的 性能. 1.2 表情特征提取 表情特征的提取方法分为基于静态图像与基 于动态图像两类. 其中基于动态特征的提取主要 集中在人脸的形变和面部区域的肌肉运动上,基 于动态特征提取的代表方法有光流法[11]、运动模 型、几何法和特征点跟踪方法等. Polikovsky 等[12] 通过 3D 直方图的方法,通过 关联帧之间的梯度关系进行微表情检测识别. Shreve 等[13] 通过光流法使用应变模式处理长视 频,通过在人脸部划分几个特定子区域 (如嘴部,眼 睛) 分割面部表情,进而识别微表情. Pfister 等[14] 使用三维正交平面局部二值法 (Local binary patterns from three orthogonal planes, LBP-TOP) 算法提取微 表情图像序列的特征,该方法通过二维到三维的 扩展提取时域和空域方向上的动态局部纹理特征 李学翰等: 基于 S-LRCN 的微表情识别算法 · 105 ·
106 工程科学学报,第44卷,第1期 进行识别.梁静等建立CASME数据库,应用 据集样本量过小,训练中容易产生过拟合现象,影 Gabor滤波提取微表情序列的特征值,并使用平滑 响网络的识别准确率.Kim等四使用卷积神经网 式自适应增强算法结合支持向量机的方法 络对处于不同表情状态的微表情的空间特征进行 (Support vector machines based on gentle adaptive 编码,将具有表达状态约束的空间特征转移到微 boosting,.GentleS VM)建立分类器进行分类识别. 表情的时间特征,使用LSTM网络对微表达式不 Wang等s提出利用6交点局部二值方法(Local 同状态的时间特征进行编码.Khor等四提出一种 binary patterns with six intersection points,LBP-SIP) 丰富的长期递归卷积网络,对数据集提取光流特 对微表情进行识别,该方法减少了LBP-TOP方法 征以丰富每个时间步或给定时间长度的输入,该 中特征的维度,提高了微表情特征提取的效率. 网络通过包括提取空间深层特征和表征时间变化 在基于时空域运动信息描述的微表情识别方 的动态时序模型.Verburg与Menkovskil2通过在 面,Liong等7通过利用面部光学应变构造光学应 微表情图像序列的光流特征上使用递归神经网 变特征和光学应变加权特征来检测和识别微表 络,提取定向光流直方图(Histogram of oriented 情.Le Ngo等us采用欧拉影像放大分析图像频域 optical flow,HOOF)特征来编码所选面部区域的时 中的相位以及时域中的幅值,放大微表情的运动 间变化,然后将其传递给由LSTM模块以进行检 信息,消除无关的微表情面部动态,并利用LBP 测任务 TOP算法进行特征提取.Xu等咧提出了一种面部 2微表情识别方法 动态映射(Facial dynamics map,FDM)的方法来表 征微表情序列,该方法通过计算微表情序列的光 微表情识别通过人脸检测算法从复杂场景 流信息然后进行在光流域上的精准对齐 下获取人脸位置,检测并分割出人脸轮廓以对其 1.3深度学习与微表情识别 进行微表情的特征提取,并建立识别分类模型, 区别于传统的机器学习算法,深度学习突出 其基本步骤包括:(1)人脸表情图像、表情序列的 了特征学习的重要性,通过逐层的特征映射,将原 获取与处理;(2)从人脸表情序列中提取微表情 数据空间的特征映射到一个新的特征空间中,使 特征,去除特征之间的冗余以降低特征维度:(3) 得分类和预测更加容易.深度学习可以利用数据 基于长期递归网络,微表情特征作为时序模型的 提取符合要求的特征,克服了人工特征不可扩展 输人,用于学习时变输出序列的动态过程;(4)建 的缺陷.Patel等2o在微表情识别中引入深度学习 立动态预测模型,对人脸微表情分类识别.如图1 的方法,通过特征选择提取微表情特征,但由于数 所示 Feature extraction Video LBP、EOH、CNN、HOG Segmentation Detection pretreatment LBP.TOP、LPO-TOP、 LGBP.TOP、EOH+MHH Micro-expression tagging Result Static prediction model Dynamic prediction model: SVR,CNN、PLS LSTM-RNN、GMM-HMM、 LSTM-RNNOA、CNN+RNN RVM LSTM-DRNN 图1 动态表情识别流程 Fig.1 Dynamic expression-recognition process 本文方法基于长期循环卷积网络(Long-term 神经网络(Convolutional neural networks,.CNN)和 recurrent convolutional networks,LRCN)W架构,并 LSTM的部分微调,提出S-LRCN的方法,结合卷 对该模型进行改进使其更适应微表情视频片段的 积神经网络和长期递归网络,通过两个独立的模 识别,面对微表情数据集通常存在数据量小的问 块获取空间域特征,并对时间域特征分类,首先使 题,采用迁移学习的方式避免网络过拟合,将卷积 用预训练的CNN模型提取每一张微表情图片帧
进行识别. 梁静等[15] 建立 CASME 数据库,应用 Gabor 滤波提取微表情序列的特征值,并使用平滑 式 自 适 应 增 强 算 法 结 合 支 持 向 量 机 的 方 法 (Support vector machines based on gentle adaptive boosting, GentleSVM) 建立分类器进行分类识别. Wang 等[16] 提出利用 6 交点局部二值方法 (Local binary patterns with six intersection points, LBP-SIP) 对微表情进行识别,该方法减少了 LBP-TOP 方法 中特征的维度,提高了微表情特征提取的效率. 在基于时空域运动信息描述的微表情识别方 面,Liong 等[17] 通过利用面部光学应变构造光学应 变特征和光学应变加权特征来检测和识别微表 情. Le Ngo 等[18] 采用欧拉影像放大分析图像频域 中的相位以及时域中的幅值,放大微表情的运动 信息,消除无关的微表情面部动态,并利用 LBPTOP 算法进行特征提取. Xu 等[19] 提出了一种面部 动态映射 (Facial dynamics map, FDM) 的方法来表 征微表情序列,该方法通过计算微表情序列的光 流信息然后进行在光流域上的精准对齐. 1.3 深度学习与微表情识别 区别于传统的机器学习算法,深度学习突出 了特征学习的重要性,通过逐层的特征映射,将原 数据空间的特征映射到一个新的特征空间中,使 得分类和预测更加容易. 深度学习可以利用数据 提取符合要求的特征,克服了人工特征不可扩展 的缺陷. Patel 等[20] 在微表情识别中引入深度学习 的方法,通过特征选择提取微表情特征,但由于数 据集样本量过小,训练中容易产生过拟合现象,影 响网络的识别准确率. Kim 等[21] 使用卷积神经网 络对处于不同表情状态的微表情的空间特征进行 编码,将具有表达状态约束的空间特征转移到微 表情的时间特征,使用 LSTM 网络对微表达式不 同状态的时间特征进行编码. Khor 等[22] 提出一种 丰富的长期递归卷积网络,对数据集提取光流特 征以丰富每个时间步或给定时间长度的输入,该 网络通过包括提取空间深层特征和表征时间变化 的动态时序模型. Verburg 与 Menkovski[23] 通过在 微表情图像序列的光流特征上使用递归神经网 络 ,提取定向光流直方 图 (Histogram of oriented optical flow, HOOF) 特征来编码所选面部区域的时 间变化,然后将其传递给由 LSTM 模块以进行检 测任务. 2 微表情识别方法 微表情识别通过人脸检测算法从复杂场景 下获取人脸位置,检测并分割出人脸轮廓以对其 进行微表情的特征提取,并建立识别分类模型, 其基本步骤包括:(1)人脸表情图像、表情序列的 获取与处理;(2)从人脸表情序列中提取微表情 特征,去除特征之间的冗余以降低特征维度;(3) 基于长期递归网络,微表情特征作为时序模型的 输入,用于学习时变输出序列的动态过程;(4)建 立动态预测模型,对人脸微表情分类识别. 如图 1 所示. Segmentation Detection pretreatment Micro-expression tagging Feature extraction LBP、EOH、CNN、HOG、 LBP-TOP、LPO-TOP、 LGBP-TOP、EOH+MHH Dynamic prediction model: LSTM-RNN、GMM-HMM、 LSTM-RNNOA、CNN+RNN、 LSTM-DRNN Static prediction model: SVR、CNN、PLS、 RVM Result Disgust Happiness Others Repression Surprise Video 图 1 动态表情识别流程 Fig.1 Dynamic expression-recognition process 本文方法基于长期循环卷积网络 (Long-term recurrent convolutional networks, LRCN)[7] 架构 ,并 对该模型进行改进使其更适应微表情视频片段的 识别,面对微表情数据集通常存在数据量小的问 题,采用迁移学习的方式避免网络过拟合,将卷积 神经网 络 (Convolutional neural networks, CNN) 和 LSTM 的部分微调,提出 S-LRCN 的方法,结合卷 积神经网络和长期递归网络,通过两个独立的模 块获取空间域特征,并对时间域特征分类,首先使 用预训练的 CNN 模型提取每一张微表情图片帧 · 106 · 工程科学学报,第 44 卷,第 1 期
李学翰等:基于S-LRCN的微表情识别算法 107 的特征向量组成特征序列,然后将具备时序关联 向视觉的行为活动预测,以任意长度T的视频作为 的特征序列输入到LSTM网络中,并得到时序的 输入,预测行为对应标签 输出.通过这种方法,可以对CNN网络的结构及 2.固定输入,顺序输出:x→y1,2,…,T小.面 输出微调,使其分类的准确率更高,并且有利于在 向图像描述问题,以固定图像作为输入,输出任意 小规模数据集上的学习 长度的描述标签 2.1LRCN网络 3.顺序输入和输出:[x1,x2,…,x]→y1y2,…,T] LRCN是一种结合传统CNN网络和LSTM的 面向视频描述,输入和输出都是顺序的 循环卷积结构),该网络同时具备处理时序视频输 通过实验结果,LRCN是一种结合空间和时间 入或单帧图片的能力,同时也具备输出单值预测 深度的模型,可以应用于涉及不同维度输入和输 或序列预测的能力,同时适用于大规模的可视学 出的各种视觉任务,在视频序列分析中具有很好 习,LRCN模型将长期递归网络与卷积神经网络直 的效果 接连接,以同时进行卷积感知和时间动态学习. 2.2S-LRCN网络 该模型结合深度分层视觉特征提取模型可以 由于微表情是关于视频的帧序列,实现微表 学习识别和序列化时空动态任务,包括序列数据 情空间域与时间域的特征提取显得尤为重要,所 (输入、输出)视频,描述等,如图2所示.时刻,通 以基于LRCN“双重深度”序列模型在行为识别中 过参数化的特征变换将传递给每一个视觉输入 的优势,将LRCN用于微表情序列分类,提出一种 ,(单一图像或视频帧)来产生一个固定长度的矢 S-LRCN模型.该方法包含3个部分:预处理,微表 量l∈R表示,其中,Rd表示d维的实数集,建立视 情特征提取和特征序列分类,其中预处理包括面 频输人序列的特征空间表示[1,l2,…,1,然后输入 部裁剪对齐,提取面部关键区域24:特征提取包括 到序列模型中 图片帧预训练面向人脸的CNN模型,建立特征 Visual Input Sequence 集;序列分类将视频序列的特征集提供给由LSTM Output features learning 网络,然后分类给定序列是否包含相关的微变化 该方法具有以下优点: CNN LSTM L.基于LRCN,结构简单,需要较少的输人预 Frames CNN 处理和手工特性设计,减少中间环节: 2.适合用于微表情数据集数据量不足的情 况,通过迁移学习提取面部微观特征,避免训练过 CNN LSTM 程中过拟合; 3.训练过程可视化,便于修改模型,对参数及 图2LRCN结构 特征调优 Fig.2 LRCN structure S-LRCN在训练过程中包括两个环节,其中CNN 在通常形式下,由序列模型将输入x和前一个 用作特征提取器提取表情帧的图像特征,LSTM用 时间步的隐藏状态h-映射到输出z,和更新后的隐 作时序分类器分析特征在时间维度上的关联性 藏状态h,依次计算h1=fw(x1,ho,h2=fw(r2,hI), 2.2.1CNN作为特征提取器 最后得到h,其中W为权值参数.在时间步t预测分 CNN作为一种深度学习模型,更适用于提取 布Py)的最后一步是在顺序模型的输出z上取一 图像的基础特征并降低模型复杂度,因此采用 个softmax逻辑回归函数,将一个向量映射为一个 CNN来提取微表情序列的特征向量,在不同环境 概率分布,产生一个可能的每步时间空间C的分 下的适应性更强,特征表现力更好.对于微表情识 布,表示有C种结果,y,=c表示第c类结果的概率, 别而言,数据集样本量很小,在网络训练中会出现 W为第c类权重向量: 过拟合的现象,直接从微表情数据训练CNN模型 eWez 是不可行的,为了减少在微表情数据集上训练深 P(y,=c)=softmax(Wz,)= (1) ∑ceceW..a 度学习网络时的过度拟合,使用基于对象和人脸 其中,LRCN针对3种主要的视觉问题(行为识别、 的CNN模型进行迁移学习,使用特征选择来提取 图像描述和视频描述),实例化的学习任务如下: 与任务相关的深层特征 1.顺序输入,固定输出:[x1,x2,…,xT]→y.面 Wang等阿在微表情识别中基于迁移学习使
的特征向量组成特征序列,然后将具备时序关联 的特征序列输入到 LSTM 网络中,并得到时序的 输出. 通过这种方法,可以对 CNN 网络的结构及 输出微调,使其分类的准确率更高,并且有利于在 小规模数据集上的学习. 2.1 LRCN 网络 LRCN 是一种结合传统 CNN 网络和 LSTM 的 循环卷积结构[7] ,该网络同时具备处理时序视频输 入或单帧图片的能力,同时也具备输出单值预测 或序列预测的能力,同时适用于大规模的可视学 习,LRCN 模型将长期递归网络与卷积神经网络直 接连接,以同时进行卷积感知和时间动态学习. t vt lt ∈ R d R d d [l1, l2,··· , l3] 该模型结合深度分层视觉特征提取模型可以 学习识别和序列化时空动态任务,包括序列数据 (输入、输出)视频,描述等,如图 2 所示. 时刻,通 过参数化的特征变换将传递给每一个视觉输入 (单一图像或视频帧)来产生一个固定长度的矢 量 表示,其中, 表示 维的实数集,建立视 频输入序列的特征空间表示 ,然后输入 到序列模型中. Frames frame CNN CNN … … … CNN LSTM LSTM LSTM Input Visual features Sequence learning Output y1 y2 yT 图 2 LRCN 结构 Fig.2 LRCN structure xt ht−1 zt ht h1 = fW (x1,h0) h2 = fW (x2,h1) ht W t P(yt) zt softmax yt = c Wc 在通常形式下,由序列模型将输入 和前一个 时间步的隐藏状态 映射到输出 和更新后的隐 藏状态 ,依次计算 , , 最后得到 ,其中 为权值参数. 在时间步 预测分 布 的最后一步是在顺序模型的输出 上取一 个 逻辑回归函数,将一个向量映射为一个 概率分布,产生一个可能的每步时间空间 C 的分 布,表示有 C 种结果, 表示第 c 类结果的概率, 为第 c 类权重向量: P(yt = c) = softmax(Wc zt) = e Wc zt ∑ c∈C eWc zt (1) 其中,LRCN 针对 3 种主要的视觉问题(行为识别、 图像描述和视频描述),实例化的学习任务如下: 1. 顺序输入,固定输出: [x1, x2,··· , xT ] → y. 面 向视觉的行为活动预测,以任意长度 T 的视频作为 输入,预测行为对应标签. x → [ y1, y2,··· , yT ] 2. 固定输入,顺序输出: . 面 向图像描述问题,以固定图像作为输入,输出任意 长度的描述标签. [x1, x2,··· , xT ] → [ y1, y2,··· , yT ] 3. 顺序输入和输出: . 面向视频描述,输入和输出都是顺序的. 通过实验结果,LRCN 是一种结合空间和时间 深度的模型,可以应用于涉及不同维度输入和输 出的各种视觉任务,在视频序列分析中具有很好 的效果. 2.2 S-LRCN 网络 由于微表情是关于视频的帧序列,实现微表 情空间域与时间域的特征提取显得尤为重要,所 以基于 LRCN“双重深度”序列模型在行为识别中 的优势,将 LRCN 用于微表情序列分类,提出一种 S-LRCN 模型. 该方法包含 3 个部分:预处理,微表 情特征提取和特征序列分类,其中预处理包括面 部裁剪对齐,提取面部关键区域[24] ;特征提取包括 图片帧预训练面向人脸的 CNN 模型,建立特征 集;序列分类将视频序列的特征集提供给由 LSTM 网络,然后分类给定序列是否包含相关的微变化. 该方法具有以下优点: 1. 基于 LRCN,结构简单,需要较少的输入预 处理和手工特性设计,减少中间环节; 2. 适合用于微表情数据集数据量不足的情 况,通过迁移学习提取面部微观特征,避免训练过 程中过拟合; 3. 训练过程可视化,便于修改模型,对参数及 特征调优. S-LRCN 在训练过程中包括两个环节,其中 CNN 用作特征提取器提取表情帧的图像特征,LSTM 用 作时序分类器分析特征在时间维度上的关联性. 2.2.1 CNN 作为特征提取器 CNN 作为一种深度学习模型,更适用于提取 图像的基础特征并降低模型复杂度 ,因此采用 CNN 来提取微表情序列的特征向量,在不同环境 下的适应性更强,特征表现力更好. 对于微表情识 别而言,数据集样本量很小,在网络训练中会出现 过拟合的现象,直接从微表情数据训练 CNN 模型 是不可行的,为了减少在微表情数据集上训练深 度学习网络时的过度拟合,使用基于对象和人脸 的 CNN 模型进行迁移学习,使用特征选择来提取 与任务相关的深层特征. Wang 等[25] 在微表情识别中基于迁移学习使 李学翰等: 基于 S-LRCN 的微表情识别算法 · 107 ·
108 工程科学学报,第44卷,第1期 用ImageNet数据库初始化残差网络,并在儿种宏 2.2.2LSTM构建序列分类器 观表情数据库上进行进一步的预训练,最后使用 由于微表情变化是在连续时间内发生的,如 微表情数据集对残差网络和微表情单元进行微 果没有利用微表情在时间上的信息的话,很难对 调.但是通常情况下,宏观表情数据库中的表情变 微表情变化准确识别.因此为了利用表情序列在 化较大,具有很明显的表情特征,而微表情变化幅 时间上的变化信息,使用循环神经网络来处理任 度小,更接近没有变化的人脸图像.因此使用面向 意时序的输入序列,可以更容易地处理时间维度 人脸识别的VGGFace模型2]作为微表情帧的特 信息,采用LSTM节点双向循环神经网络模型处 征提取器,可以从不同环境、人群中提取细微特征, 理时序数据,构建长期递归卷积网络,对给定序列 本文采用的VGGFace模型基于通道模型依赖网 是否包含相关的微表情判断分类 络(Squeeze-.and-excitation networks,SENet)架构P7, 定义双向LSTM模型的表情特征输人序列 并在VGGFace2:人脸数据库上训练2 1.SENet通过 MicroE_Features=(xI,…,xr),前项传播隐变量序列 在残差网络(Residual network,ResNet)2中嵌人 方=(宝,…,方7小反向传播隐变量序列听=(仿1,…,方7) SENt结构增强了网络的自适应性,利用全局信息 和输出序列y=Oy1,…yT),则输出序列y的更新方 增强有益特征通道并抑制无用特征通道,通过特 式为: 征通道之间的关系提升网络性能.如图3所示 方,=Hw云+W方1+b) (6) ×1×C mm"-mim 瓦,=HW方+W五1+b行) (7) =W,,+W5,方+b。 (8) 困3 SENet模块 式中,W为双向LSTM模型权重,b为偏置项,偏置 Fig.3 SENet 项,H(x)表示激活函数,使用长短时记忆神经元进 如图3,Fr:X→U,U=1,2,…,k,…,cT的实 行计算,双向LSTM和记忆神经元如图4和5所示 现过程为: 其中图5中的,和0分别表示遗忘门、输入门和 4=X=∑.k=1C 输出门,C表示记忆单元(Cel)在t时刻的状态 (2) Output… 其中=哈…,]x=[K,2,…,],其中 是二维空间核,表示第k个卷积核,表示第1个 Backword 输入,经过上述卷积操作后得到特征U,为W×H×C layer 大小的特征图.特征压缩将W×H×C的输入转化 为1×1×C的输出z∈RC,计算如下: Forword layer 4=Fg=月-w∑a∑l4.k=l (3) nputs… Xr 特征激发过程得到的特征S=[s1,52,…,5C]的 图4双向循环网络 维度是1×1×C,主要用来刻画特征U中C个特征图 Fig.4 Bidirectional LSTM 的权重,即: Sk=Fex(⑦k,W)=σ(g(zk,W)=σ(W26(W1k),k=1,·,C (4) Input(i Output (o, gate gate 式中,W1∈R×C为全连接层的降维操作,W2∈RCx Cell 为全连接层的升维操作,对特征重定向: Fscale (uk,Sk)=Skuk (5) 特征提取通过在全局平均池化层(Global 、Forget gate average pooling,.GAP)微调进行特征压缩,利用两 个全连接层去建模通道间的相关性,并通过减少 图5LSTM神经元 模型中的参数量和计算量来最小化过度拟合 Fig.5 LSTM neurons
用 ImageNet 数据库初始化残差网络,并在几种宏 观表情数据库上进行进一步的预训练,最后使用 微表情数据集对残差网络和微表情单元进行微 调. 但是通常情况下,宏观表情数据库中的表情变 化较大,具有很明显的表情特征,而微表情变化幅 度小,更接近没有变化的人脸图像. 因此使用面向 人脸识别的 VGGFace 模型[26] 作为微表情帧的特 征提取器,可以从不同环境、人群中提取细微特征, 本文采用的 VGGFace 模型基于通道模型依赖网 络 (Squeeze-and-excitation networks, SENet) 架构[27] , 并在 VGGFace2 人脸数据库上训练[28] . SENet 通过 在残差网 络 (Residual network, ResNet)[29] 中 嵌 入 SENet 结构增强了网络的自适应性,利用全局信息 增强有益特征通道并抑制无用特征通道,通过特 征通道之间的关系提升网络性能. 如图 3 所示. 1×1×C 1×1×C C W H C′ H′ W′ C W H X U X ~ Ftr Fsq Fex Fscale 图 3 SENet 模块 Fig.3 SENet Ftr : X → U,U = [u1,u2,··· ,uk,··· ,uC] 如图 T 3, 的实 现过程为: uk = vkX = ∑C ′ i=1 v i k x i , k = 1,...,C (2) vk = [ v 1 k , v 2 k ,··· , v C ′ k ] ,X = [ x 1 , x 2 ,··· , x C ′ ]T v i k vk x i U W × H ×C W × H ×C 1×1×C z ∈ R C 其 中 ,其中 是二维空间核, 表示第 k 个卷积核, 表示第 i 个 输入,经过上述卷积操作后得到特征 ,为 大小的特征图. 特征压缩将 的输入转化 为 的输出 ,计算如下: zk = Fsq (uk) = 1 H · W ∑H i=1 ∑W j=1 uk (i, j), k = 1,...,C (3) S = [s1,s2,··· ,sC] 1×1×C U C 特征激发过程得到的特征 的 维度是 ,主要用来刻画特征 中 个特征图 的权重,即: sk = Fex (zk,W) =σ(g(zk,W)) =σ(W2δ(W1zk)), k = 1,··· ,C (4) W1 ∈ R C r ×C W2 ∈ R C× C 式中, 为全连接层的降维操作, r 为全连接层的升维操作,对特征重定向: Fscale (uk,sk) = skuk (5) 特 征 提 取 通 过 在 全 局 平 均 池 化 层 (Global average pooling, GAP) 微调进行特征压缩,利用两 个全连接层去建模通道间的相关性,并通过减少 模型中的参数量和计算量来最小化过度拟合. 2.2.2 LSTM 构建序列分类器 由于微表情变化是在连续时间内发生的,如 果没有利用微表情在时间上的信息的话,很难对 微表情变化准确识别. 因此为了利用表情序列在 时间上的变化信息,使用循环神经网络来处理任 意时序的输入序列,可以更容易地处理时间维度 信息,采用 LSTM 节点双向循环神经网络模型处 理时序数据,构建长期递归卷积网络,对给定序列 是否包含相关的微表情判断分类. MicroE_Features = (x1,··· , xT ) −→h = ( −→h 1,··· , −→h T ) ←−h = ( ←−h 1,··· , ←−h T ) y = (y1,··· , yT ) y 定义双向 LSTM 模型的表情特征输入序列 ,前项传播隐变量序列 ,反向传播隐变量序列 和输出序列 ,则输出序列 的更新方 式为: −→h t = H(Wx −→h xt +W−→h −→h −→h t−1 + b−→h ) (6) ←−h t = H(Wx ←−h xt +W←−h ←−h ←−h t+1 + b←−h ) (7) yt = W−→h y −→h t +W←−h y ←−h t + bo (8) W b H (x) ft it ot Ct t 式中, 为双向 LSTM 模型权重, 为偏置项,偏置 项, 表示激活函数,使用长短时记忆神经元进 行计算,双向 LSTM 和记忆神经元如图 4 和 5 所示. 其中图 5 中的 , 和 分别表示遗忘门、输入门和 输出门, 表示记忆单元 (Cell) 在 时刻的状态. xt−1 xt xt+1 yt−1 yt yt+1 ← ht−1 ← ht ← ht+1 → ht−1 → ht → ht+1 Output Backword layer Forword layer Inputs … … … … 图 4 双向循环网络 Fig.4 Bidirectional LSTM Ct ht xt xt xt xt Input gate Forget gate Output gate Cell it ft ot 图 5 LSTM 神经元 Fig.5 LSTM neurons · 108 · 工程科学学报,第 44 卷,第 1 期
李学翰等:基于S-LRCN的微表情识别算法 109· LSTM的输人是使用预训练模型从所有序列 权重提取面部特征,并对VGGFace的预训练权重 帧中提取的空间特征,本文采用单层的双向 进行微调,以使模型更有效地适应微表情表达加 LSTM结构,其中包含一个512个节点的隐藏层, 快收敛,网络输入为大小224×224×3的人脸表情 在LSTM隐藏层和全连接层之间使用Dropout层 图像,输出为全局平均池化层之后的全连接层得 以一定概率随机屏蔽神经元,减少神经元间的共 到的2048长度特征向量x: 适关系,增强网络节点的鲁棒性 x=[,m2,…,mnJ,n=2048 (9) 2.3S-LRCN用于微表情识别 式(9)中,m:∈R”,将提取器最后输出的特征向量 基于以上改进的方法,对于给定的微表情序 x进行L2归一化得到: 列,本文实现微表情识别的步骤如下: : 元= (10) (1)载入微表情视频文件,建立序列集 V∑=1m,2 VXTx X=(X,x2,X,…,X),以及其对应的标签集 Y=(Y,2,3,…,Y),表示集合中第个微表情 将最后得到的特征保存到数据集X= 序列即X=(,,,…,),表示第个微表情序 {X,X2,X,…XW,建立特征集,这时X表示集合中 列中的第张图片,n;表示第个微表情序列的长 第个提取到的特征序列即=(,写,…,) 度,表示集合中的第个标签 即针对一个序列生成的T×2048的向量,x表示第 (2)载入微表情视频文件,首先对序列长度归 个特征序列的第个特征.将产生的特征向量传递 化,即输入LSTM网络的时间步长设定一个固 到随后的循环网络中 定值T,得到X=(,…,)依次对序列归一 (4)由于微表情图像序列具有的动态时域 化的视频序列图片进行人脸检测提取人脸部分, 特征,各帧之间包含时域相关性,在完成对微表 将截取的有效图片尺寸归一化,进而得到处理后 情单帧图片的空间特征提取之后,利用双向 的数据集X=(X,X2,X3,…,XW),此步骤使输入视 LSTM网络前项序列和反向序列五传播过程进 频序列适合于输入到CNN网络 行训练,获得表情时序特征空间,表情视频序列 由于采集的微表情序列含有大量噪声和冗余 的每帧人脸图像的表情特征为,∈R”,设定表情 信息,因此需要去除图像中的无关区域并消除数 变化时序t∈T,T为表情帧长度,则表情特征时序 据噪声,对数据集中的微表情序列进行人脸对齐 矩阵为: 和人脸剪裁.使用Haar人脸检测器Bo检测人脸, Z=[…] (11) 利用主动外观模型(Active appearance model,.AAM) 建立顺序输入,固定输出的预测时间分布 算法将每个微表情采样序列的中性表情状态下 [X1,x2,…,xT]→y: 人脸的特征点提取出来,根据特征点坐标裁剪出 y=F(W.Z) (12) 人脸轮廓,将图像归一化为224×224×3,避免尺寸 式中,F为激活函数,W为双向LSTM的判决参数 差异影响结果 模型,y是多分类的预测结果 (3)利用迁移学习和VGGFace模型的预训练 实现步骤如图6所示 Process Input Visual GAP equence Output teatures earning Face detection GGFace Face Frames clipping VGGFace Alignment ROI VGGFace LSTM 224×224×3 T×2048 困6实现方法 Fig.6 Implementation method
LSTM 的输入是使用预训练模型从所有序列 帧 中 提 取 的 空 间 特 征 , 本 文 采 用 单 层 的 双 向 LSTM 结构,其中包含一个 512 个节点的隐藏层, 在 LSTM 隐藏层和全连接层之间使用 Dropout 层 以一定概率随机屏蔽神经元,减少神经元间的共 适关系,增强网络节点的鲁棒性. 2.3 S-LRCN 用于微表情识别 基于以上改进的方法,对于给定的微表情序 列,本文实现微表情识别的步骤如下: X = ( X 1 ,X 2 ,X 3 ,··· ,X N ) Y = ( Y 1 ,Y 2 ,Y 3 ,··· ,Y N ) X i i X i = ( x i 1 , x i 2 , x i 3 ,··· , x i ni ) x i j i j ni i Y i i ( 1) 载 入 微 表 情 视 频 文 件 , 建 立 序 列 集 , 以 及 其 对 应 的 标 签 集 , 表示集合中第 个微表情 序列即 , 表示第 个微表情序 列中的第 张图片, 表示第 个微表情序列的长 度, 表示集合中的第 个标签. T X i = ( x i 1 , x i 2 , x i 3 ,··· , x i T ) X = ( X 1 ,X 2 ,X 3 ,···,X N ) (2)载入微表情视频文件,首先对序列长度归 一化,即输入 LSTM 网络的时间步长设定一个固 定值 ,得到 . 依次对序列归一 化的视频序列图片进行人脸检测提取人脸部分, 将截取的有效图片尺寸归一化,进而得到处理后 的数据集 ,此步骤使输入视 频序列适合于输入到 CNN 网络. 224×224×3 由于采集的微表情序列含有大量噪声和冗余 信息,因此需要去除图像中的无关区域并消除数 据噪声,对数据集中的微表情序列进行人脸对齐 和人脸剪裁. 使用 Haar 人脸检测器[30] 检测人脸, 利用主动外观模型 (Active appearance model, AAM) 算法[31] 将每个微表情采样序列的中性表情状态下 人脸的特征点提取出来,根据特征点坐标裁剪出 人脸轮廓,将图像归一化为 ,避免尺寸 差异影响结果. (3)利用迁移学习和 VGGFace 模型的预训练 224×224×3 x 权重提取面部特征,并对 VGGFace 的预训练权重 进行微调,以使模型更有效地适应微表情表达加 快收敛,网络输入为大小 的人脸表情 图像,输出为全局平均池化层之后的全连接层得 到的 2048 长度特征向量 : x = [m1,m2,···,mn],n = 2048 (9) mi ∈ R n x x¯ 式(9)中, ,将提取器最后输出的特征向量 进行 L2 归一化得到 : x¯ = mi √∑n i=1 mi 2 = mi √ x Tx (10) X = { X 1 ,X 2 ,X 3 ,···,X N } X i i X i = ( x i 1 , x i 2 , x i 3 ,··· , x i T ) T ×2048 x i t i t 将 最 后 得 到 的 特 征 保 存 到 数 据 集 ,建立特征集,这时 表示集合中 第 个提取到的特征序列即 , 即针对一个序列生成的 的向量, 表示第 个特征序列的第 个特征. 将产生的特征向量传递 到随后的循环网络中. −→h ←−h xt ∈ R n t ∈ T T ( 4)由于微表情图像序列具有的动态时域 特征,各帧之间包含时域相关性,在完成对微表 情单帧图片的空间特征提取之后 ,利用双 向 LSTM 网络前项序列 和反向序列 传播过程进 行训练,获得表情时序特征空间,表情视频序列 的每帧人脸图像的表情特征为 ,设定表情 变化时序 , 为表情帧长度,则表情特征时序 矩阵为: Z = [ xt ··· xt ] (11) [x1, x2,··· , xT ] → y 建立顺序输入 ,固定输出的预测时间分布 : y = F (W, Z) (12) F W y 式中, 为激活函数, 为双向 LSTM 的判决参数 模型, 是多分类的预测结果. 实现步骤如图 6 所示.Softmax … … … frame frame Frames VGGFace VGGFace VGGFace LSTM LSTM LSTM Input Visual features Sequence learning Output predication Process Face detection Face clipping Alignment ROI GAPFinetuning 224×224×3 T×2048 图 6 实现方法 Fig.6 Implementation method 李学翰等: 基于 S-LRCN 的微表情识别算法 · 109 ·
110 工程科学学报,第44卷,第1期 3实验结果 由于微表情数据样本数据量较小,因此对数 据集进行扩充,本文采取镜像模式对数据集进行 为了验证本文提出的微表情识别方法的性能 扩充,将数据集中的样本逐一进行图片水平镜像, 和准确率,采用CASME-Ⅱ数据集进行训练.首先 扩充数据集样本 按照本文的方法训练网络模型,验证该方法的有 3.3实验结果 效性,并研究时间序列长度即LSTM步长(Timestep) 实验利用5折交叉验证的策略,将数据集随机 以及LSTM的深度对模型效果的影响 分为5等份,每一次将其中4份作为实验的训练 3.1数据集选择 集,输入到模型中,另1份作为测试集,用来验证 采用CASME-Ⅱ数据集进行实验B四CASME- 分类的准确率.网络训练使用早期停止法,其中将 Ⅱ是由中科院心理傅小兰团队所建立的自然诱发 训练集按照4:1的比例随机划分为训练集和验证 的微表情数据库,包含来自26个平均年龄为22岁 集.使用自适应矩估计(Adam)优化器,其中学习 的亚洲参与者的255个微表情采样,视频片段帧 率设置为为10-3,衰减为10-5,网络训练为40个周 数不等.该数据集在适当的照明条件以及严格的 期,批尺寸为16 实验环境下采集得到,图像的分辨率为640像 选取其中一组训练结果,当训练趋于稳定时, 素×480像素.该数据库样本标有起始帧和结束帧 自动停止当前训练,最后得到训练过程中训练集 和与之对应的微表情标签,提供了高兴、厌恶、压 与验证集准确率变化情况,如图7所示. 抑、惊讶、害怕、伤心及其他情绪分类(Happiness,. surprise,disgust,fear,sadness,repression,others), 80 据库中捕捉到的微观表情相对纯粹而清晰,没有 诸如头部动作和不相关的面部动作的噪音.本文 至60 数据集划分为5类,如表1所示 50 麦1划分情祝 0 Table 1 Dataset classification 一Acc:65% Classify CASME-II Samples 0 5 0 152025303540 Epoch Happiness Happiness(32) 32 图7训练曲线 Surprise Surprise(28) 28 Fig.7 Training curve Disgust Disgust(63) 63 5组训练结果如表2所示,得到5折交叉验证 Repression Repression(27) 27 平均准确率为65.7%.最后的分类结果如图8所 Others(99) 示,从图中可知,预测结果在“其他”附近分布比较 Others Sadness(4) 105 多,这是由于CASME-Ⅱ中将一些无法确定的表情 Fear(2) 归类到“其他”,并且此部分数据量相比其他类别 3.2 数据集预处理 较大,同时实验中将“悲伤”和“害怕”划分到该类 为了减小不同个体和不同微表情之间的差 表情中,所以错误的预测结果大多集中在“其他” 异,首先要对数据集中的微表情序列预处理以进 部分.如果不考虑“其他”类,对其他4类表情分类 行面部对齐,裁剪得到面部表情区域,并将图像帧 会具有更高的准确率 的分辨率统一调整为224像素×224像素,以便输 表2训练结果 入空间维度与VGGFace网络模型的匹配.由于数 Table 2 Training results % 据集中的微表情序列帧数不统一,针对微表情序 Testl Test2 Test3 Test4 Test5 列通过时间插值模型插值(Temporal interpolation 64.9 66.2 65.2 65.8 66.4 model,TIM))的方法,将数据集样本每一个图像 序列插值为20帧,得到固定长度为20的帧序列, 3.4 数据分析 并将20帧的序列拆分为两个10帧的时间序列,随 几种微表情识别算法LBP-TOPB、时空完全 后把10帧的样本拼接并保存为训练数据,通过对 局部量化模型(Spatiotemporal completed local quanti- ·段视频的处理获取到两组数据 zation patterns,.STCLQP)351、CNN+LSTM、HOOF+
3 实验结果 为了验证本文提出的微表情识别方法的性能 和准确率,采用 CASME-Ⅱ数据集进行训练. 首先 按照本文的方法训练网络模型,验证该方法的有 效性,并研究时间序列长度即 LSTM 步长 (Timestep) 以及 LSTM 的深度对模型效果的影响. 3.1 数据集选择 采用 CASME-Ⅱ数据集进行实验[32] . CASME- Ⅱ是由中科院心理傅小兰团队所建立的自然诱发 的微表情数据库,包含来自 26 个平均年龄为 22 岁 的亚洲参与者的 255 个微表情采样,视频片段帧 数不等. 该数据集在适当的照明条件以及严格的 实验环境下采集得到 ,图像的分辨率 为 640 像 素×480 像素. 该数据库样本标有起始帧和结束帧 和与之对应的微表情标签,提供了高兴、厌恶、压 抑、惊讶、害怕、伤心及其他情绪分类 (Happiness, surprise, disgust, fear, sadness, repression, others),数 据库中捕捉到的微观表情相对纯粹而清晰,没有 诸如头部动作和不相关的面部动作的噪音. 本文 数据集划分为 5 类,如表 1 所示. 表 1 划分情况 Table 1 Dataset classification Classify CASME-Ⅱ Samples Happiness Happiness (32) 32 Surprise Surprise (28) 28 Disgust Disgust (63) 63 Repression Repression (27) 27 Others Others (99) Sadness (4) 105 Fear (2) 3.2 数据集预处理 为了减小不同个体和不同微表情之间的差 异,首先要对数据集中的微表情序列预处理以进 行面部对齐,裁剪得到面部表情区域,并将图像帧 的分辨率统一调整为 224 像素×224 像素,以便输 入空间维度与 VGGFace 网络模型的匹配. 由于数 据集中的微表情序列帧数不统一,针对微表情序 列通过时间插值模型插值 (Temporal interpolation model,TIM)[33] 的方法,将数据集样本每一个图像 序列插值为 20 帧,得到固定长度为 20 的帧序列, 并将 20 帧的序列拆分为两个 10 帧的时间序列,随 后把 10 帧的样本拼接并保存为训练数据,通过对 一段视频的处理获取到两组数据. 由于微表情数据样本数据量较小,因此对数 据集进行扩充,本文采取镜像模式对数据集进行 扩充,将数据集中的样本逐一进行图片水平镜像, 扩充数据集样本. 3.3 实验结果 10−3 10−5 实验利用 5 折交叉验证的策略,将数据集随机 分为 5 等份,每一次将其中 4 份作为实验的训练 集,输入到模型中,另 1 份作为测试集,用来验证 分类的准确率. 网络训练使用早期停止法,其中将 训练集按照 4∶1 的比例随机划分为训练集和验证 集. 使用自适应矩估计 (Adam) 优化器,其中学习 率设置为为 ,衰减为 ,网络训练为 40 个周 期,批尺寸为 16 选取其中一组训练结果,当训练趋于稳定时, 自动停止当前训练,最后得到训练过程中训练集 与验证集准确率变化情况,如图 7 所示. 0 5 10 15 20 25 30 35 40 Epoch 30 40 50 60 70 80 Train Val Acc: 65% Accuracy/ % 图 7 训练曲线 Fig.7 Training curve 5 组训练结果如表 2 所示,得到 5 折交叉验证 平均准确率为 65.7%. 最后的分类结果如图 8 所 示,从图中可知,预测结果在“其他”附近分布比较 多,这是由于 CASME-Ⅱ中将一些无法确定的表情 归类到“其他”,并且此部分数据量相比其他类别 较大,同时实验中将“悲伤”和“害怕”划分到该类 表情中,所以错误的预测结果大多集中在“其他” 部分. 如果不考虑“其他”类,对其他 4 类表情分类 会具有更高的准确率. 表 2 训练结果 Table 2 Training results % Test1 Test2 Test3 Test4 Test5 64.9 66.2 65.2 65.8 66.4 3.4 数据分析 几种微表情识别算法 LBP-TOP[34]、时空完全 局部量化模型 (Spatiotemporal completed local quantization patterns,STCLQP)[35]、CNN+LSTM[21]、HOOF+ · 110 · 工程科学学报,第 44 卷,第 1 期
李学翰等:基于S-LRCN的微表情识别算法 .111 Accuracy/ 表4不同序列长度实验效果 0.7 Disgust 0.61 0.0 0.34 0.02 0.03 Table 4 Experimental results of different sequence lengths 0.6 F1-Score/% Happiness 0.01 0.64 0.27 0.01 0.07 Sequence length Accuracy/% 0.5 6 62.0 56.6 Others 0.09 0.03 0.74 0.09 0.05 0.4 10 65.7 60.8 0.3 公 63.1 58.6 Repression 0.01 0.04 0.36 059 0.0 02 30 56.5 49.6 Surprise 0.1 0.03 0.05 0.25 0.04 0.63 ☐0 高为65.7%,序列长度为6和15时,准确率分别为 62%和63.1%.序列长度为30帧时准确率降低到 56.5%,这是由于微表情通常持续时间很短,使用 Predicted 短序列可以更快捕捉面部表情的变化情况 图85种表情分类结果 (2)固定序列长度为10,分别建立双向LSTM Fig.8 Classification results of five expressions (512节点的隐藏层),2层双向LSTM模型(2个 512节点的隐藏层),单层LSTM,多层感知器 LSTM1及本文研究的S-LRCN,采用五折交叉验 证的识别准确率对比如表3所示,其中微表情识 (Multi-layer perceptron,.MLP),研究不同LSTM模型 对识别率的影响如图9所示 别算法的数据集采用本文在CASME-Ⅱ下的分类 方法.通过对比可知,本文改进的算法对比以往算 80 Accuracy 法识别精度更高,表示本文算法的可行性.与传统 ☐Fl-score 70 65.79% 的机器视觉算法LBP-TOP、STCLOP相比,本文采 62.7% 64% 63.5% 60.8% 58.5% 60.5% ☐59.6% 用深度学习模型在准确率方面提高明显,并且引 入LSTM神经元考虑表情变化在时序上的关联特 性具有更高的精度;与CNN、HOOF结合LSTM的 算法相比,本文通过预训练的卷积神经网络模型 提取特征,采用迁移学习避免网络训练中过拟合 Bi-LSTM Bi-LSTM LSTM MLP 的问题,准确率也有了一定的提高 (512) (512-512) (512) (512) Model 表3不同算法识别准确率 图9不同LSTM模型实验结果 Fig.9 Experimental results of different LSTM models Table 3 Recognition accuracy of different algorithms Methods Accuracy/% F1-Score/% 由图9可知,使用单层的LSTM网络时,具有 LBP-TOP 52.6 42.6 更高的精度,双向LSTM为65.7%,单向LSTM为 STCLOP 58.6 58.0 64%,双向LSTM识别率更高;增加隐藏层层数时 CNN+LSTM 61.0 58.5 准确率降低为62.7%,这是由于数据量过小,加深 HOOF+LSTM 59.8 56.0 网络深度会导致时间相关性降低;使用MLP网络 S-LRCN 65.7 60.8 时训练速度较快,但是会丢失一些时序特性,准确 率为63.5%. 基于本文改进的算法,分别从序列长度、不同 实验结果表明,微表情识别准确率受到序列 LSTM模型两个方面来判断这些参数对于LSTM 长度和LSTM网络结构的影响,只有充分考虑网 模型识别率的影响: 络模型空间特性和时间特性之间的相互关系才能 (1)不同长度的微表情序列对识别率的影响, 取得更好的效果 针对数据集分布采用长度为6,10,15,30的TIM 3.5实验扩展 插值算法,选择将不同序列的数据输入到单层的 表情分析用途广泛,将表情识别技术用于教 双向LSTM网络,实验结果如表4所示 育领域,通过观察学习者面部表情变化,分析学习 由表4可知,当序列长度较小时,训练的模型 者的心理状态,从而进一步分析学习者对知识点 具有更高的准确率,序列长度为10时,准确率最 的理解度及兴趣度等信息,便于提高教学质量
LSTM[23] 及本文研究的 S-LRCN,采用五折交叉验 证的识别准确率对比如表 3 所示,其中微表情识 别算法的数据集采用本文在 CASME-Ⅱ下的分类 方法. 通过对比可知,本文改进的算法对比以往算 法识别精度更高,表示本文算法的可行性. 与传统 的机器视觉算法 LBP-TOP、STCLQP 相比,本文采 用深度学习模型在准确率方面提高明显,并且引 入 LSTM 神经元考虑表情变化在时序上的关联特 性具有更高的精度;与 CNN、HOOF 结合 LSTM 的 算法相比,本文通过预训练的卷积神经网络模型 提取特征,采用迁移学习避免网络训练中过拟合 的问题,准确率也有了一定的提高. 表 3 不同算法识别准确率 Table 3 Recognition accuracy of different algorithms Methods Accuracy/% F1-Score/% LBP-TOP 52.6 42.6 STCLQP 58.6 58.0 CNN+LSTM 61.0 58.5 HOOF+LSTM 59.8 56.0 S-LRCN 65.7 60.8 基于本文改进的算法,分别从序列长度、不同 LSTM 模型两个方面来判断这些参数对于 LSTM 模型识别率的影响: (1)不同长度的微表情序列对识别率的影响, 针对数据集分布采用长度为 6,10, 15,30 的 TIM 插值算法,选择将不同序列的数据输入到单层的 双向 LSTM 网络,实验结果如表 4 所示. 由表 4 可知,当序列长度较小时,训练的模型 具有更高的准确率,序列长度为 10 时,准确率最 高为 65.7%,序列长度为 6 和 15 时,准确率分别为 62% 和 63.1%. 序列长度为 30 帧时准确率降低到 56.5%,这是由于微表情通常持续时间很短,使用 短序列可以更快捕捉面部表情的变化情况. (2)固定序列长度为 10,分别建立双向 LSTM ( 512 节点的隐藏层), 2 层双向 LSTM 模型( 2 个 512 节 点 的 隐 藏 层 ) , 单 层 LSTM, 多 层 感 知 器 (Multi-layer perceptron, MLP),研究不同 LSTM 模型 对识别率的影响如图 9 所示. 65.7% 62.7% 64% 63.5% 60.8% 58.5% 60.5% 59.6% Bi-LSTM (512) Bi-LSTM (512-512) LSTM (512) MLP (512) 30 40 50 60 70 80 Accuracy F1-score Model Accuracy, F1-score/ % 图 9 不同 LSTM 模型实验结果 Fig.9 Experimental results of different LSTM models 由图 9 可知,使用单层的 LSTM 网络时,具有 更高的精度,双向 LSTM 为 65.7%,单向 LSTM 为 64%,双向 LSTM 识别率更高;增加隐藏层层数时 准确率降低为 62.7%,这是由于数据量过小,加深 网络深度会导致时间相关性降低;使用 MLP 网络 时训练速度较快,但是会丢失一些时序特性,准确 率为 63.5%. 实验结果表明,微表情识别准确率受到序列 长度和 LSTM 网络结构的影响,只有充分考虑网 络模型空间特性和时间特性之间的相互关系才能 取得更好的效果. 3.5 实验扩展 表情分析用途广泛,将表情识别技术用于教 育领域,通过观察学习者面部表情变化,分析学习 者的心理状态,从而进一步分析学习者对知识点 的理解度及兴趣度等信息,便于提高教学质量. Accuracy/% 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 Disgust Happiness Others Repression Predicted True Surprise Disgust Happiness Others Repression Surprise 图 8 5 种表情分类结果 Fig.8 Classification results of five expressions 表 4 不同序列长度实验效果 Table 4 Experimental results of different sequence lengths Sequence length Accuracy/% F1-Score/% 6 62.0 56.6 10 65.7 60.8 15 63.1 58.6 30 56.5 49.6 李学翰等: 基于 S-LRCN 的微表情识别算法 · 111 ·
112 工程科学学报,第44卷,第1期 基于本文的方法对学习者学习状态进行评价, Accuracy/% 采用CASME-Ⅱ对微表情分类识别,CASME-Ⅱ使 0.6 Distraction 0.6 0.13 027 用具有情感价值的视频短片来诱发情感表达,参 0.5 与者要求在屏幕前观看视频短片,过程中避免身 0.4 体运动,并且在观看短片时保持中立的面部表情 Focus 0.14 0.54 032 试图抑制自己的表情.由于该数据集在实验室环 0.3 境下采集,不易受外界因素干扰,且视频序列变化 0.2 微小并不适用于实际的教学场景,所以建立面向 Tired 0.04 0.31 0.65 0.1 教学评价的小型数据集用于对学习者学习状态的 Distraction Focus Tired 初步评判 Predicted 建立模拟教学场景采集人员表情变化,具体 图11实验结果 方法如下: Fig.11 Experimental result 1)选择30~45min的课程视频片段诱发学习 对该方法改进提出一种S-LRCN的方法,该方法更 者表情状态,参与者须观看完整课程视频,并录制 适合用于微表情这种小规模数据集中.采用迁移 采集视频; 学习的方法,通过预训练的VGGFace模型提取表 2)参与者观看过程中按一般的上课状态,头 情帧的特征集合以减少数据量过小在训练深度网 部、肢体动作不做要求; 络中过拟合的风险;将特征集合输入双向LSTM 3)取得的原始数据由参与者去除不相关内容, 网络以考虑微表情变化持续时间短,具有时间相 筛选表情样本并分类,表情持续片段为“平静-高 关性的特点.实现表明,该方法具有较高的准确 峰-平静”的变化区间: 性.但是已标记微表情数据量不够,各类数据分配 4)筛选的样本由其他参与者对分类结果二次 不均匀以及微表情表现强度普遍较弱仍然是导致 验证,建立标签 识别率低的主要原因,在以后的研究中还需要进 数据集通过模拟教学场景对参与人员表情变 一步完善数据集,以促进微表情识别的进展 化采集,参与人员共6位,包含215个视频序列,序 此外,将表情识别用于学习场景是构建新型 列长度为60~90帧,面部表情标签包括分心、专 课堂的一种趋势,基于信息学、心理学和教育学的 注和疲惫(Distraction、focus、tired),如图I0所示. 相关研究基础,可以通过表情分析研究学习者学 习状态.本文建立了一个包含3个类别的小型数 据库,来对教学场景下的表情分类.今后的工作还 要进一步丰富数据,基于动态表情序列分析学习 者情感,建立心理特征模型,研究学习过程中学习 状态与情感变化的对应关系 Distraction Focus Tired 参考文献 图10数据分类 Fig.10 Data classification [1]Mehrabian A.Nomverbal Communication.New York:Routledge, 2017 针对建立的教学评价数据集,采用本文微表 [2]Ekman P.Facial expression and emotion.Am Psychol,1993, 中微表情识别方法对学习者学习状态分析,通过 48(4):384 相同的方法建立网络模型,处理图片序列并划分 [3]Ekman P,Friesen W V.Nonverbal leakage and clues to deception 数据集,采用五折交叉验证的方法,验证分类结果 Psychiatr,1969,32(1):88 的有效性,取平均值后识别结果如图11所示 [4] Yan W J,Wang S J,Liu Y J,et al.For micro-expression recognition:Database and suggestions.Neurocomputing,2014, 4结论 136(136):82 [5]Wang S Y.CNN-RNN Based Micro-Expression Recognition 针对目前微表情识别研究中普遍存在的问题 [Dissertation].Harbin:Harbin Engineering University,2018 展开研究,通过深度学习来实现对微表情序列的 (王思宇.基于CNN-RNN的微表情识别[学位论文].哈尔滨:哈 识别分类.基于LRCN在行为识别中优异的性能, 尔滨工程大学,2018)
基于本文的方法对学习者学习状态进行评价, 采用 CASME-Ⅱ对微表情分类识别,CASME-Ⅱ使 用具有情感价值的视频短片来诱发情感表达,参 与者要求在屏幕前观看视频短片,过程中避免身 体运动,并且在观看短片时保持中立的面部表情 试图抑制自己的表情. 由于该数据集在实验室环 境下采集,不易受外界因素干扰,且视频序列变化 微小并不适用于实际的教学场景,所以建立面向 教学评价的小型数据集用于对学习者学习状态的 初步评判. 建立模拟教学场景采集人员表情变化,具体 方法如下: 1)选择 30~45 min 的课程视频片段诱发学习 者表情状态,参与者须观看完整课程视频,并录制 采集视频; 2)参与者观看过程中按一般的上课状态,头 部、肢体动作不做要求; 3)取得的原始数据由参与者去除不相关内容, 筛选表情样本并分类,表情持续片段为“平静−高 峰−平静”的变化区间; 4)筛选的样本由其他参与者对分类结果二次 验证,建立标签. 数据集通过模拟教学场景对参与人员表情变 化采集,参与人员共 6 位,包含 215 个视频序列,序 列长度为 60~90 帧,面部表情标签包括分心、专 注和疲惫 (Distraction、focus、tired),如图 10 所示. Distraction Focus Tired 图 10 数据分类 Fig.10 Data classification 针对建立的教学评价数据集,采用本文微表 中微表情识别方法对学习者学习状态分析,通过 相同的方法建立网络模型,处理图片序列并划分 数据集,采用五折交叉验证的方法,验证分类结果 的有效性,取平均值后识别结果如图 11 所示. 4 结论 针对目前微表情识别研究中普遍存在的问题 展开研究,通过深度学习来实现对微表情序列的 识别分类. 基于 LRCN 在行为识别中优异的性能, 对该方法改进提出一种 S-LRCN 的方法,该方法更 适合用于微表情这种小规模数据集中. 采用迁移 学习的方法,通过预训练的 VGGFace 模型提取表 情帧的特征集合以减少数据量过小在训练深度网 络中过拟合的风险;将特征集合输入双向 LSTM 网络以考虑微表情变化持续时间短,具有时间相 关性的特点. 实现表明,该方法具有较高的准确 性. 但是已标记微表情数据量不够,各类数据分配 不均匀以及微表情表现强度普遍较弱仍然是导致 识别率低的主要原因,在以后的研究中还需要进 一步完善数据集,以促进微表情识别的进展. 此外,将表情识别用于学习场景是构建新型 课堂的一种趋势,基于信息学、心理学和教育学的 相关研究基础,可以通过表情分析研究学习者学 习状态. 本文建立了一个包含 3 个类别的小型数 据库,来对教学场景下的表情分类. 今后的工作还 要进一步丰富数据,基于动态表情序列分析学习 者情感,建立心理特征模型,研究学习过程中学习 状态与情感变化的对应关系. 参 考 文 献 Mehrabian A. Nonverbal Communication. New York: Routledge, 2017 [1] Ekman P. Facial expression and emotion. Am Psychol, 1993, 48(4): 384 [2] Ekman P, Friesen W V. Nonverbal leakage and clues to deception. Psychiatry, 1969, 32(1): 88 [3] Yan W J, Wang S J, Liu Y J, et al. For micro-expression recognition: Database and suggestions. Neurocomputing, 2014, 136(136): 82 [4] Wang S Y. CNN-RNN Based Micro-Expression Recognition [Dissertation]. Harbin: Harbin Engineering University, 2018 ( 王思宇. 基于CNN-RNN的微表情识别[学位论文]. 哈尔滨: 哈 尔滨工程大学, 2018) [5] Accuracy/% 0.6 0.5 0.4 0.3 0.2 0.1 Distraction Focus Predicted True Tired Distraction Focus Tired 图 11 实验结果 Fig.11 Experimental result · 112 · 工程科学学报,第 44 卷,第 1 期