基于S-LRCN的微表情识别算法

基于面部动态表情序列，针对静态表情缺少时间信息等问题，将空间特征与时间特征融合，利用神经网络在图像分类领域良好的特征，对需要进行细节分析的表情序列进行处理，提出基于分离式长期循环卷积网络(Separate long-term recurrent convolutional networks, S-LRCN)的微表情识别方法。首先选取微表情数据集提取面部图像序列，引入迁移学习的方法，通过预训练的卷积神经网络模型提取表情帧的空间特征，降低网络训练中过拟合的危险，并将视频序列的提取特征输入长短期记忆网络(Long short-team memory, LSTM)处理时域特征。最后建立学习者表情序列小型数据库，将该方法用于辅助教学评价。

团购合买资源类别：文库，文档格式：PDF，文档页数：11，文件大小：1.33MB

工程科学学报 Chinese Journal of Engineering 基于S-LRCN的微表情识别算法李学翰胡四泉石志国张明 Micro-expression recognition algorithm based on separate long-term recurrent convolutional network LI Xue-han,HU Si-quan,SHI Zhi-guo,ZHANG Ming 引用本文：李学翰，胡四泉，石志国，张明.基于S-LRCN的微表情识别算法[J.工程科学学报，2022,44(1)：104-113.doi: 10.13374j.issn2095-9389.2020.06.15.006 LI Xue-han,HU Si-quan,SHI Zhi-guo,ZHANG Ming.Micro-expression recognition algorithm based on separate long-term recurrent convolutional network [J].Chinese Journal of Engineering,2022,44(1):104-113.doi:10.13374/j.issn2095- 9389.2020.06.15.006 在线阅读View online:https::/doi.org10.13374j.issn2095-9389.2020.06.15.006 您可能感兴趣的其他文章 Articles you may be interested in 基于卷积神经网络的反无人机系统声音识别方法 Sound recognition method of an anti-UAV system based on a convolutional neural network 工程科学学报.2020,42(11)：1516 https:/doi.org/10.13374.issn2095-9389.2020.06.30.008 基于光流方向信息嫡统计的微表情捕捉 Capture of microexpressions based on the entropy of oriented optical flow 工程科学学报.2017,3911)：1727htps:1doi.org/10.13374.issn2095-9389.2017.11.016 基于BiLSTM的公共安全事件触发词识别 Public security event trigger identification based on Bidirectional LSTM 工程科学学报.2019,41(9：外1201 https:/1doi.org10.13374j.issn2095-9389.2019.09.012 基于数控机床设备故障领域的命名实体识别 Named entity recognition based on equipment and fault field of CNC machine tools 工程科学学报.2020,42(4：476 https:/1doi.org10.13374j.issn2095-9389.2019.09.17.002 基于DL-T及迁移学习的语音识别研究 Research on automatic speech recognition based on a DLT and transfer learning 工程科学学报.2021,43(3)：433htps:/oi.org10.13374.issn2095-9389.2020.01.12.001 基于深度学习的高效火车号识别 Efficient wagon number recognition based on deep learning 工程科学学报.2020,42(11：1525 https:/doi.org10.13374.issn2095-9389.2019.12.05.001

基于S-LRCN的微表情识别算法李学翰胡四泉石志国张明 Micro-expression recognition algorithm based on separate long-term recurrent convolutional network LI Xue-han, HU Si-quan, SHI Zhi-guo, ZHANG Ming 引用本文: 李学翰, 胡四泉, 石志国, 张明. 基于S-LRCN的微表情识别算法[J]. 工程科学学报, 2022, 44(1): 104-113. doi: 10.13374/j.issn2095-9389.2020.06.15.006 LI Xue-han, HU Si-quan, SHI Zhi-guo, ZHANG Ming. Micro-expression recognition algorithm based on separate long-term recurrent convolutional network [J]. Chinese Journal of Engineering, 2022, 44(1): 104-113. doi: 10.13374/j.issn2095- 9389.2020.06.15.006 在线阅读 View online: https://doi.org/10.13374/j.issn2095-9389.2020.06.15.006 您可能感兴趣的其他文章 Articles you may be interested in 基于卷积神经网络的反无人机系统声音识别方法 Sound recognition method of an anti-UAV system based on a convolutional neural network 工程科学学报. 2020, 42(11): 1516 https://doi.org/10.13374/j.issn2095-9389.2020.06.30.008 基于光流方向信息熵统计的微表情捕捉 Capture of microexpressions based on the entropy of oriented optical flow 工程科学学报. 2017, 39(11): 1727 https://doi.org/10.13374/j.issn2095-9389.2017.11.016 基于BiLSTM的公共安全事件触发词识别 Public security event trigger identification based on Bidirectional LSTM 工程科学学报. 2019, 41(9): 1201 https://doi.org/10.13374/j.issn2095-9389.2019.09.012 基于数控机床设备故障领域的命名实体识别 Named entity recognition based on equipment and fault field of CNC machine tools 工程科学学报. 2020, 42(4): 476 https://doi.org/10.13374/j.issn2095-9389.2019.09.17.002 基于DL-T及迁移学习的语音识别研究 Research on automatic speech recognition based on a DLT and transfer learning 工程科学学报. 2021, 43(3): 433 https://doi.org/10.13374/j.issn2095-9389.2020.01.12.001 基于深度学习的高效火车号识别 Efficient wagon number recognition based on deep learning 工程科学学报. 2020, 42(11): 1525 https://doi.org/10.13374/j.issn2095-9389.2019.12.05.001

工程科学学报.第44卷.第1期：104-113.2022年1月 Chinese Journal of Engineering,Vol.44,No.1:104-113,January 2022 https://doi.org/10.13374/j.issn2095-9389.2020.06.15.006;http://cje.ustb.edu.cn 基于S-LRCN的微表情识别算法李学翰)，胡四泉2)四，石志国12，)，张明 1)北京科技大学计算机与通信工程学院，北京1000832)北京科技大学顺德研究生院.佛山5283993)北京市大数据中心，北京100101 4)电子科技大学通信与信息工程学院，成都611731 ☒通信作者，E-mail:husiquan@ustb.edu.cn 摘要基于面部动态表情序列，针对静态表情缺少时间信息等问题，将空间特征与时间特征融合，利用神经网络在图像分类领域良好的特征，对需要进行细节分析的表情序列进行处理，提出基于分离式长期循环卷积网络(Separate long-term recurrent convolutional networks,S-LRCN)的微表情识别方法.首先选取微表情数据集提取面部图像序列，引入迁移学习的方法，通过预训练的卷积神经网络模型提取表情帧的空间特征，降低网络训练中过拟合的危险，并将视频序列的提取特征输入长短期记忆网络(Long short--team memory,LSTM)处理时域特征.最后建立学习者表情序列小型数据库，将该方法用于辅助教学评价. 关键词微表情识别：时空特征：长期递归卷积网络：长短期记忆网络：教学评价分类号TP391.4 Micro-expression recognition algorithm based on separate long-term recurrent convolutional network LI Xue-han,HU Si-quan2,SHI Zhi-guo 2),ZHANG Ming 1)School of Computer and Communication Engineering.University of Science and Technology Beijing,Beijing 00083,China 2)Shunde Graduate School,University of Science and Technology Beijing,Foshan 528399,China 3)Beijing Big Data Center,Beijing 100101,China 4)School of Information and Communication Engineering,University of Electronic Science and Technology of China,Chengdu 611731,China Corresponding author,E-mail:husiquan@ustb.edu.cn ABSTRACT With the rapid development of machine learning and deep neural network and the popularization of intelligent devices, face recognition technology has rapidly developed.At present,the accuracy of face recognition has exceeded that of the human eyes. Moreover,the software and hardware conditions of large-scale popularization are available,and the application fields are widely distributed.As an important part of face recognition technology,facial expression recognition has been a widely studied subject in the fields of artificial intelligence,security,automation,medical treatment,and driving in recent years.Expression recognition,an active research area in human-computer interaction,involves informatics and psychology and has good research prospect in teaching evaluation.Micro-expression,which has great research significance,is a kind of short-lived facial expression that humans unconsciously make when trying to hide some emotion.Different from the general static facial expression recognition,to realize micro-expression recognition,besides extracting the spatial feature information of facial expression deformation in the image,the temporal-motion information of the continuous image sequence also needs to be considered.In this study,given that static expression features lack temporal information,so that the subtle changes in expression cannot be fully reflected,facial dynamic expression sequences were used 收稿日期：2020-06-15 基金项目：国家自然科学基金资助项目(61977005)：四川省科技计划资助项目(2018 GZDZX0034):北京科技大学顺德研究生院科技创新专项资助项目(BK19CF003):北京市科技计划资助项目(Z201100004220010)

基于 S-LRCN 的微表情识别算法李学翰1)，胡四泉1,2) 苣，石志国1,2,3)，张明4) 1) 北京科技大学计算机与通信工程学院，北京 100083 2) 北京科技大学顺德研究生院，佛山 528399 3) 北京市大数据中心，北京 100101 4) 电子科技大学通信与信息工程学院，成都 611731 苣通信作者， E-mail: husiquan@ustb.edu.cn 摘要基于面部动态表情序列，针对静态表情缺少时间信息等问题，将空间特征与时间特征融合，利用神经网络在图像分类领域良好的特征，对需要进行细节分析的表情序列进行处理，提出基于分离式长期循环卷积网络 (Separate long-term recurrent convolutional networks, S-LRCN) 的微表情识别方法. 首先选取微表情数据集提取面部图像序列，引入迁移学习的方法，通过预训练的卷积神经网络模型提取表情帧的空间特征，降低网络训练中过拟合的危险，并将视频序列的提取特征输入长短期记忆网络 (Long short-team memory, LSTM) 处理时域特征. 最后建立学习者表情序列小型数据库，将该方法用于辅助教学评价. 关键词微表情识别；时空特征；长期递归卷积网络；长短期记忆网络；教学评价分类号 TP391.4 Micro-expression recognition algorithm based on separate long-term recurrent convolutional network LI Xue-han1) ，HU Si-quan1,2) 苣，SHI Zhi-guo1,2,3) ，ZHANG Ming4) 1) School of Computer and Communication Engineering, University of Science and Technology Beijing, Beijing 100083, China 2) Shunde Graduate School, University of Science and Technology Beijing, Foshan 528399, China 3) Beijing Big Data Center, Beijing 100101, China 4) School of Information and Communication Engineering, University of Electronic Science and Technology of China, Chengdu 611731, China 苣 Corresponding author, E-mail: husiquan@ustb.edu.cn ABSTRACT With the rapid development of machine learning and deep neural network and the popularization of intelligent devices, face recognition technology has rapidly developed. At present, the accuracy of face recognition has exceeded that of the human eyes. Moreover, the software and hardware conditions of large-scale popularization are available, and the application fields are widely distributed. As an important part of face recognition technology, facial expression recognition has been a widely studied subject in the fields of artificial intelligence, security, automation, medical treatment, and driving in recent years. Expression recognition, an active research area in human –computer interaction, involves informatics and psychology and has good research prospect in teaching evaluation. Micro-expression, which has great research significance, is a kind of short-lived facial expression that humans unconsciously make when trying to hide some emotion. Different from the general static facial expression recognition, to realize micro-expression recognition, besides extracting the spatial feature information of facial expression deformation in the image, the temporal-motion information of the continuous image sequence also needs to be considered. In this study, given that static expression features lack temporal information, so that the subtle changes in expression cannot be fully reflected, facial dynamic expression sequences were used 收稿日期: 2020−06−15 基金项目: 国家自然科学基金资助项目（61977005）；四川省科技计划资助项目（2018GZDZX0034）；北京科技大学顺德研究生院科技创新专项资助项目（BK19CF003）；北京市科技计划资助项目（Z201100004220010）工程科学学报，第 44 卷，第 1 期：104−113，2022 年 1 月 Chinese Journal of Engineering, Vol. 44, No. 1: 104−113, January 2022 https://doi.org/10.13374/j.issn2095-9389.2020.06.15.006; http://cje.ustb.edu.cn

李学翰等：基于S-LRCN的微表情识别算法 ·105· to fuse spatial features and temporal features,and neural networks were used to provide good features in the field of image classification. Expression sequences were processed,and a micro-expression recognition method based on separate long-term recurrent convolutional network(S-LRCN)was proposed.First,the micro-expression data set was selected to extract the facial image sequence,and the transfer learning method was introduced to extract the spatial features of the expression frame through the pre-trained convolution neural network model,to reduce the risk of overfitting in the network training,and the extracted features of the video sequence were inputted into long short-term memory (LSTM)to process the temporal-domain features.Finally,a small database of learners'expression sequences was established,and the method was used to assist teaching evaluation. KEY WORDS micro-expression recognition;spatial-temporal features;LRCN:;LSTM;education evaluation 人脸表情反映了人类的真实情绪，心理学家用场景，将教学评价与表情分析结合，通过采集学 Albert Mehrabian指出“情感表达=7%语言+38%声生面部表情来分析其学习状态，本文采用分心音+55%面部表情”.面部表情作为情感和心理 (Distraction)、专注(Focus)、疲劳(Tired)3种分类方的研究载体，在人类情感判断中具有重要的地位式建立小型数据库，最后通过改进的S-LRCN方法根据Ekman的基本情绪理论，表情包含了大量的对3种状态分类情感语义，一般分为高兴、厌恶、愤怒、悲伤、恐 1 惧、和惊讶6种但是，情感通常是连续的、时序相关工作上下文相关的，具有不同的强弱表达关系，基本的 1.1表情识别情绪理论仍然具有一定的局限性，与普通表情不 Ekman等图于1976年提出了面部表情编码系同，微表情是在主观情绪影响下产生的一种自发统(Facial action coding system,FACS).FACS将人式表情微表情具有持续时间短(1/25~1/3s)、脸区域划分成44个运动单元(Action unit,.AU).并动作幅度小等特点，给微表情识别带来了很大的将不同的AU进行组合形成FACS码，每一种难度. FACS码对应着一种面部表情.并在此基础上，经在以往的微表情识别中通过特征提取的方法过对大量表情图片的分析，开发出了面部情感编对微表情进行分析，但是由于底层特征由人工提码系统(Emotion FACS)9MIT实验室训练稀疏码取等原因造成特征提取不足，导致微表情识别准本进行微表情的情感分析，通过利用微小时间运确率低阿.近年来，深度学习算法表现出强大的优动模式的稀疏性，短时间段内在面部和身体区域势，尤其是在图像特征提取方面表现突出，准确率上提取局部时空特征，从数据中学习微表情码远超于传统的特征提取方法6因此采用深度学习本，并以稀疏方式对特征进行编码，在AVEC 算法来对微表情进行更有效的特征提取以提高识 2012数据集上的实验表明，这种方式具有很好的别效果.此外，传统方法受限于计算能力和表情视性能. 频数据的规模，通常使用静态表情或者单表情进 1.2表情特征提取行分析，忽略了表情周期性的问题.表情的产生是表情特征的提取方法分为基于静态图像与基一个随时间变化的过程，动态表情更自然地表达于动态图像两类.其中基于动态特征的提取主要了表情变化，而单帧的表情并不能反映表情的整集中在人脸的形变和面部区域的肌肉运动上，基体信息，所以基于动态表情序列进行分析更有助于动态特征提取的代表方法有光流法山、运动模于微表情的识别型、几何法和特征点跟踪方法等本文基于动态多表情序列，将空间特征和空间 Polikovsky等I通过3D直方图的方法，通过时间相结合，提出一种分离式长期循环卷积网络关联帧之间的梯度关系进行微表情检测识别 (Separate long-term recurrent convolutional networks, Shreve等]通过光流法使用应变模式处理长视 S-LRCN)模型，首先将卷积神经网络用于深层特频，通过在人脸部划分几个特定子区域（如嘴部，眼征视觉提取器来提取图像中的微表情静态特征可，睛)分割面部表情，进而识别微表情.Pfister等l4 并将从视频序列中提取的特征提供给由长短期记使用三维正交平面局部二值法(Local binary patterns 忆网络(Long short-team memory,.LSTM)单元组成 from three orthogonal planes,LBP-TOP)算法提取微的双向循环神经网络，得到时序的输出，来提高微表情图像序列的特征，该方法通过二维到三维的表情识别的准确率.并且研究表情序列的实际使扩展提取时域和空域方向上的动态局部纹理特征

to fuse spatial features and temporal features, and neural networks were used to provide good features in the field of image classification. Expression sequences were processed, and a micro-expression recognition method based on separate long-term recurrent convolutional network (S-LRCN) was proposed. First, the micro-expression data set was selected to extract the facial image sequence, and the transfer learning method was introduced to extract the spatial features of the expression frame through the pre-trained convolution neural network model, to reduce the risk of overfitting in the network training, and the extracted features of the video sequence were inputted into long short-term memory (LSTM) to process the temporal-domain features. Finally, a small database of learners ’ expression sequences was established, and the method was used to assist teaching evaluation. KEY WORDS micro-expression recognition；spatial-temporal features；LRCN；LSTM；education evaluation 人脸表情反映了人类的真实情绪，心理学家 Albert Mehrabian 指出“情感表达=7% 语言+38% 声音+55% 面部表情” [1] . 面部表情作为情感和心理的研究载体，在人类情感判断中具有重要的地位. 根据 Ekman 的基本情绪理论，表情包含了大量的情感语义，一般分为高兴、厌恶、愤怒、悲伤、恐惧、和惊讶 6 种[2] . 但是，情感通常是连续的、时序上下文相关的，具有不同的强弱表达关系，基本的情绪理论仍然具有一定的局限性. 与普通表情不同，微表情是在主观情绪影响下产生的一种自发式表情[3] . 微表情具有持续时间短 (1/25～1/3 s)、动作幅度小等特点[4] ，给微表情识别带来了很大的难度. 在以往的微表情识别中通过特征提取的方法对微表情进行分析，但是由于底层特征由人工提取等原因造成特征提取不足，导致微表情识别准确率低[5] . 近年来，深度学习算法表现出强大的优势，尤其是在图像特征提取方面表现突出，准确率远超于传统的特征提取方法[6] . 因此采用深度学习算法来对微表情进行更有效的特征提取以提高识别效果. 此外，传统方法受限于计算能力和表情视频数据的规模，通常使用静态表情或者单表情进行分析，忽略了表情周期性的问题. 表情的产生是一个随时间变化的过程，动态表情更自然地表达了表情变化，而单帧的表情并不能反映表情的整体信息，所以基于动态表情序列进行分析更有助于微表情的识别. 本文基于动态多表情序列，将空间特征和空间时间相结合，提出一种分离式长期循环卷积网络 (Separate long-term recurrent convolutional networks, S-LRCN) 模型，首先将卷积神经网络用于深层特征视觉提取器来提取图像中的微表情静态特征[7] ，并将从视频序列中提取的特征提供给由长短期记忆网络 (Long short-team memory, LSTM) 单元组成的双向循环神经网络，得到时序的输出，来提高微表情识别的准确率. 并且研究表情序列的实际使用场景，将教学评价与表情分析结合，通过采集学生面部表情来分析其学习状态，本文采用分心 (Distraction)、专注 (Focus)、疲劳 (Tired) 3 种分类方式建立小型数据库，最后通过改进的 S-LRCN 方法对 3 种状态分类. 1 相关工作 1.1 表情识别 Ekman 等[8] 于 1976 年提出了面部表情编码系统 (Facial action coding system，FACS). FACS 将人脸区域划分成 44 个运动单元 (Action unit，AU)，并将不同的 AU 进行组合形成 FACS 码，每一种 FACS 码对应着一种面部表情. 并在此基础上，经过对大量表情图片的分析，开发出了面部情感编码系统 (Emotion FACS)[9] . MIT 实验室训练稀疏码本进行微表情的情感分析，通过利用微小时间运动模式的稀疏性，短时间段内在面部和身体区域上提取局部时空特征[10] ，从数据中学习微表情码本，并以稀疏方式对特征进行编码，在 AVEC 2012 数据集上的实验表明，这种方式具有很好的性能. 1.2 表情特征提取表情特征的提取方法分为基于静态图像与基于动态图像两类. 其中基于动态特征的提取主要集中在人脸的形变和面部区域的肌肉运动上，基于动态特征提取的代表方法有光流法[11]、运动模型、几何法和特征点跟踪方法等. Polikovsky 等[12] 通过 3D 直方图的方法，通过关联帧之间的梯度关系进行微表情检测识别. Shreve 等[13] 通过光流法使用应变模式处理长视频，通过在人脸部划分几个特定子区域 (如嘴部，眼睛) 分割面部表情，进而识别微表情. Pfister 等[14] 使用三维正交平面局部二值法 (Local binary patterns from three orthogonal planes, LBP-TOP) 算法提取微表情图像序列的特征，该方法通过二维到三维的扩展提取时域和空域方向上的动态局部纹理特征李学翰等：基于 S-LRCN 的微表情识别算法 · 105 ·

106 工程科学学报，第44卷，第1期进行识别.梁静等建立CASME数据库，应用据集样本量过小，训练中容易产生过拟合现象，影 Gabor滤波提取微表情序列的特征值，并使用平滑响网络的识别准确率.Kim等四使用卷积神经网式自适应增强算法结合支持向量机的方法络对处于不同表情状态的微表情的空间特征进行 (Support vector machines based on gentle adaptive 编码，将具有表达状态约束的空间特征转移到微 boosting,.GentleS VM)建立分类器进行分类识别. 表情的时间特征，使用LSTM网络对微表达式不 Wang等s提出利用6交点局部二值方法(Local 同状态的时间特征进行编码.Khor等四提出一种 binary patterns with six intersection points,LBP-SIP) 丰富的长期递归卷积网络，对数据集提取光流特对微表情进行识别，该方法减少了LBP-TOP方法征以丰富每个时间步或给定时间长度的输入，该中特征的维度，提高了微表情特征提取的效率. 网络通过包括提取空间深层特征和表征时间变化在基于时空域运动信息描述的微表情识别方的动态时序模型.Verburg与Menkovskil2通过在面，Liong等7通过利用面部光学应变构造光学应微表情图像序列的光流特征上使用递归神经网变特征和光学应变加权特征来检测和识别微表络，提取定向光流直方图(Histogram of oriented 情.Le Ngo等us采用欧拉影像放大分析图像频域 optical flow,HOOF)特征来编码所选面部区域的时中的相位以及时域中的幅值，放大微表情的运动间变化，然后将其传递给由LSTM模块以进行检信息，消除无关的微表情面部动态，并利用LBP 测任务 TOP算法进行特征提取.Xu等咧提出了一种面部 2微表情识别方法动态映射(Facial dynamics map,FDM)的方法来表征微表情序列，该方法通过计算微表情序列的光微表情识别通过人脸检测算法从复杂场景流信息然后进行在光流域上的精准对齐下获取人脸位置，检测并分割出人脸轮廓以对其 1.3深度学习与微表情识别进行微表情的特征提取，并建立识别分类模型，区别于传统的机器学习算法，深度学习突出其基本步骤包括：(1)人脸表情图像、表情序列的了特征学习的重要性，通过逐层的特征映射，将原获取与处理；(2)从人脸表情序列中提取微表情数据空间的特征映射到一个新的特征空间中，使特征，去除特征之间的冗余以降低特征维度：(3) 得分类和预测更加容易.深度学习可以利用数据基于长期递归网络，微表情特征作为时序模型的提取符合要求的特征，克服了人工特征不可扩展输人，用于学习时变输出序列的动态过程；(4)建的缺陷.Patel等2o在微表情识别中引入深度学习立动态预测模型，对人脸微表情分类识别.如图1 的方法，通过特征选择提取微表情特征，但由于数所示 Feature extraction Video LBP、EOH、CNN、HOG Segmentation Detection pretreatment LBP.TOP、LPO-TOP、 LGBP.TOP、EOH+MHH Micro-expression tagging Result Static prediction model Dynamic prediction model: SVR,CNN、PLS LSTM-RNN、GMM-HMM、 LSTM-RNNOA、CNN+RNN RVM LSTM-DRNN 图1 动态表情识别流程 Fig.1 Dynamic expression-recognition process 本文方法基于长期循环卷积网络(Long-term 神经网络(Convolutional neural networks,.CNN)和 recurrent convolutional networks,LRCN)W架构，并 LSTM的部分微调，提出S-LRCN的方法，结合卷对该模型进行改进使其更适应微表情视频片段的积神经网络和长期递归网络，通过两个独立的模识别，面对微表情数据集通常存在数据量小的问块获取空间域特征，并对时间域特征分类，首先使题，采用迁移学习的方式避免网络过拟合，将卷积用预训练的CNN模型提取每一张微表情图片帧

进行识别. 梁静等[15] 建立 CASME 数据库，应用 Gabor 滤波提取微表情序列的特征值，并使用平滑式自适应增强算法结合支持向量机的方法 (Support vector machines based on gentle adaptive boosting, GentleSVM) 建立分类器进行分类识别. Wang 等[16] 提出利用 6 交点局部二值方法 (Local binary patterns with six intersection points, LBP-SIP) 对微表情进行识别，该方法减少了 LBP-TOP 方法中特征的维度，提高了微表情特征提取的效率. 在基于时空域运动信息描述的微表情识别方面，Liong 等[17] 通过利用面部光学应变构造光学应变特征和光学应变加权特征来检测和识别微表情. Le Ngo 等[18] 采用欧拉影像放大分析图像频域中的相位以及时域中的幅值，放大微表情的运动信息，消除无关的微表情面部动态，并利用 LBPTOP 算法进行特征提取. Xu 等[19] 提出了一种面部动态映射 (Facial dynamics map, FDM) 的方法来表征微表情序列，该方法通过计算微表情序列的光流信息然后进行在光流域上的精准对齐. 1.3 深度学习与微表情识别区别于传统的机器学习算法，深度学习突出了特征学习的重要性，通过逐层的特征映射，将原数据空间的特征映射到一个新的特征空间中，使得分类和预测更加容易. 深度学习可以利用数据提取符合要求的特征，克服了人工特征不可扩展的缺陷. Patel 等[20] 在微表情识别中引入深度学习的方法，通过特征选择提取微表情特征，但由于数据集样本量过小，训练中容易产生过拟合现象，影响网络的识别准确率. Kim 等[21] 使用卷积神经网络对处于不同表情状态的微表情的空间特征进行编码，将具有表达状态约束的空间特征转移到微表情的时间特征，使用 LSTM 网络对微表达式不同状态的时间特征进行编码. Khor 等[22] 提出一种丰富的长期递归卷积网络，对数据集提取光流特征以丰富每个时间步或给定时间长度的输入，该网络通过包括提取空间深层特征和表征时间变化的动态时序模型. Verburg 与 Menkovski[23] 通过在微表情图像序列的光流特征上使用递归神经网络，提取定向光流直方图 (Histogram of oriented optical flow, HOOF) 特征来编码所选面部区域的时间变化，然后将其传递给由 LSTM 模块以进行检测任务. 2 微表情识别方法微表情识别通过人脸检测算法从复杂场景下获取人脸位置，检测并分割出人脸轮廓以对其进行微表情的特征提取，并建立识别分类模型，其基本步骤包括：（1）人脸表情图像、表情序列的获取与处理；（2）从人脸表情序列中提取微表情特征，去除特征之间的冗余以降低特征维度；（3）基于长期递归网络，微表情特征作为时序模型的输入，用于学习时变输出序列的动态过程；（4）建立动态预测模型，对人脸微表情分类识别. 如图 1 所示. Segmentation Detection pretreatment Micro-expression tagging Feature extraction LBP、EOH、CNN、HOG、 LBP-TOP、LPO-TOP、 LGBP-TOP、EOH+MHH Dynamic prediction model: LSTM-RNN、GMM-HMM、 LSTM-RNNOA、CNN+RNN、 LSTM-DRNN Static prediction model: SVR、CNN、PLS、 RVM Result Disgust Happiness Others Repression Surprise Video 图 1 动态表情识别流程 Fig.1 Dynamic expression-recognition process 本文方法基于长期循环卷积网络 (Long-term recurrent convolutional networks, LRCN)[7] 架构，并对该模型进行改进使其更适应微表情视频片段的识别，面对微表情数据集通常存在数据量小的问题，采用迁移学习的方式避免网络过拟合，将卷积神经网络 (Convolutional neural networks, CNN) 和 LSTM 的部分微调，提出 S-LRCN 的方法，结合卷积神经网络和长期递归网络，通过两个独立的模块获取空间域特征，并对时间域特征分类，首先使用预训练的 CNN 模型提取每一张微表情图片帧 · 106 · 工程科学学报，第 44 卷，第 1 期

李学翰等：基于S-LRCN的微表情识别算法 107 的特征向量组成特征序列，然后将具备时序关联向视觉的行为活动预测，以任意长度T的视频作为的特征序列输入到LSTM网络中，并得到时序的输入，预测行为对应标签输出.通过这种方法，可以对CNN网络的结构及 2.固定输入，顺序输出：x→y1,2,…,T小.面输出微调，使其分类的准确率更高，并且有利于在向图像描述问题，以固定图像作为输入，输出任意小规模数据集上的学习长度的描述标签 2.1LRCN网络 3.顺序输入和输出：[x1,x2,…,x]→y1y2,…,T] LRCN是一种结合传统CNN网络和LSTM的面向视频描述，输入和输出都是顺序的循环卷积结构)，该网络同时具备处理时序视频输通过实验结果，LRCN是一种结合空间和时间入或单帧图片的能力，同时也具备输出单值预测深度的模型，可以应用于涉及不同维度输入和输或序列预测的能力，同时适用于大规模的可视学出的各种视觉任务，在视频序列分析中具有很好习，LRCN模型将长期递归网络与卷积神经网络直的效果接连接，以同时进行卷积感知和时间动态学习. 2.2S-LRCN网络该模型结合深度分层视觉特征提取模型可以由于微表情是关于视频的帧序列，实现微表学习识别和序列化时空动态任务，包括序列数据情空间域与时间域的特征提取显得尤为重要，所 (输入、输出)视频，描述等，如图2所示.时刻，通以基于LRCN“双重深度”序列模型在行为识别中过参数化的特征变换将传递给每一个视觉输入的优势，将LRCN用于微表情序列分类，提出一种 ,(单一图像或视频帧)来产生一个固定长度的矢 S-LRCN模型.该方法包含3个部分：预处理，微表量l∈R表示，其中，Rd表示d维的实数集，建立视情特征提取和特征序列分类，其中预处理包括面频输人序列的特征空间表示[1，l2,…,1,然后输入部裁剪对齐，提取面部关键区域24：特征提取包括到序列模型中图片帧预训练面向人脸的CNN模型，建立特征 Visual Input Sequence 集；序列分类将视频序列的特征集提供给由LSTM Output features learning 网络，然后分类给定序列是否包含相关的微变化该方法具有以下优点： CNN LSTM L.基于LRCN,结构简单，需要较少的输人预 Frames CNN 处理和手工特性设计，减少中间环节： 2.适合用于微表情数据集数据量不足的情况，通过迁移学习提取面部微观特征，避免训练过 CNN LSTM 程中过拟合； 3.训练过程可视化，便于修改模型，对参数及图2LRCN结构特征调优 Fig.2 LRCN structure S-LRCN在训练过程中包括两个环节，其中CNN 在通常形式下，由序列模型将输入x和前一个用作特征提取器提取表情帧的图像特征，LSTM用时间步的隐藏状态h-映射到输出z,和更新后的隐作时序分类器分析特征在时间维度上的关联性藏状态h,依次计算h1=fw(x1,ho,h2=fw(r2,hI), 2.2.1CNN作为特征提取器最后得到h,其中W为权值参数.在时间步t预测分 CNN作为一种深度学习模型，更适用于提取布Py)的最后一步是在顺序模型的输出z上取一图像的基础特征并降低模型复杂度，因此采用个softmax逻辑回归函数，将一个向量映射为一个 CNN来提取微表情序列的特征向量，在不同环境概率分布，产生一个可能的每步时间空间C的分下的适应性更强，特征表现力更好.对于微表情识布，表示有C种结果，y,=c表示第c类结果的概率，别而言，数据集样本量很小，在网络训练中会出现 W为第c类权重向量：过拟合的现象，直接从微表情数据训练CNN模型 eWez 是不可行的，为了减少在微表情数据集上训练深 P(y,=c)=softmax(Wz,)= (1) ∑ceceW..a 度学习网络时的过度拟合，使用基于对象和人脸其中，LRCN针对3种主要的视觉问题（行为识别、的CNN模型进行迁移学习，使用特征选择来提取图像描述和视频描述)，实例化的学习任务如下：与任务相关的深层特征 1.顺序输入，固定输出：[x1,x2,…,xT]→y.面 Wang等阿在微表情识别中基于迁移学习使

的特征向量组成特征序列，然后将具备时序关联的特征序列输入到 LSTM 网络中，并得到时序的输出. 通过这种方法，可以对 CNN 网络的结构及输出微调，使其分类的准确率更高，并且有利于在小规模数据集上的学习. 2.1 LRCN 网络 LRCN 是一种结合传统 CNN 网络和 LSTM 的循环卷积结构[7] ，该网络同时具备处理时序视频输入或单帧图片的能力，同时也具备输出单值预测或序列预测的能力，同时适用于大规模的可视学习，LRCN 模型将长期递归网络与卷积神经网络直接连接，以同时进行卷积感知和时间动态学习. t vt lt ∈ R d R d d [l1, l2,··· , l3] 该模型结合深度分层视觉特征提取模型可以学习识别和序列化时空动态任务，包括序列数据（输入、输出）视频，描述等，如图 2 所示. 时刻，通过参数化的特征变换将传递给每一个视觉输入（单一图像或视频帧）来产生一个固定长度的矢量表示，其中，表示维的实数集，建立视频输入序列的特征空间表示，然后输入到序列模型中. Frames frame CNN CNN … … … CNN LSTM LSTM LSTM Input Visual features Sequence learning Output y1 y2 yT 图 2 LRCN 结构 Fig.2 LRCN structure xt ht−1 zt ht h1 = fW (x1,h0) h2 = fW (x2,h1) ht W t P(yt) zt softmax yt = c Wc 在通常形式下，由序列模型将输入和前一个时间步的隐藏状态映射到输出和更新后的隐藏状态，依次计算，，最后得到，其中为权值参数. 在时间步预测分布的最后一步是在顺序模型的输出上取一个逻辑回归函数，将一个向量映射为一个概率分布，产生一个可能的每步时间空间 C 的分布，表示有 C 种结果，表示第 c 类结果的概率，为第 c 类权重向量: P(yt = c) = softmax(Wc zt) = e Wc zt ∑ c∈C eWc zt （1）其中，LRCN 针对 3 种主要的视觉问题（行为识别、图像描述和视频描述），实例化的学习任务如下： 1. 顺序输入，固定输出： [x1, x2,··· , xT ] → y. 面向视觉的行为活动预测，以任意长度 T 的视频作为输入，预测行为对应标签. x → [ y1, y2,··· , yT ] 2. 固定输入，顺序输出： . 面向图像描述问题，以固定图像作为输入，输出任意长度的描述标签. [x1, x2,··· , xT ] → [ y1, y2,··· , yT ] 3. 顺序输入和输出： . 面向视频描述，输入和输出都是顺序的. 通过实验结果，LRCN 是一种结合空间和时间深度的模型，可以应用于涉及不同维度输入和输出的各种视觉任务，在视频序列分析中具有很好的效果. 2.2 S-LRCN 网络由于微表情是关于视频的帧序列，实现微表情空间域与时间域的特征提取显得尤为重要，所以基于 LRCN“双重深度”序列模型在行为识别中的优势，将 LRCN 用于微表情序列分类，提出一种 S-LRCN 模型. 该方法包含 3 个部分：预处理，微表情特征提取和特征序列分类，其中预处理包括面部裁剪对齐，提取面部关键区域[24] ；特征提取包括图片帧预训练面向人脸的 CNN 模型，建立特征集；序列分类将视频序列的特征集提供给由 LSTM 网络，然后分类给定序列是否包含相关的微变化. 该方法具有以下优点： 1. 基于 LRCN，结构简单，需要较少的输入预处理和手工特性设计，减少中间环节； 2. 适合用于微表情数据集数据量不足的情况，通过迁移学习提取面部微观特征，避免训练过程中过拟合； 3. 训练过程可视化，便于修改模型，对参数及特征调优. S-LRCN 在训练过程中包括两个环节，其中 CNN 用作特征提取器提取表情帧的图像特征，LSTM 用作时序分类器分析特征在时间维度上的关联性. 2.2.1 CNN 作为特征提取器 CNN 作为一种深度学习模型，更适用于提取图像的基础特征并降低模型复杂度，因此采用 CNN 来提取微表情序列的特征向量，在不同环境下的适应性更强，特征表现力更好. 对于微表情识别而言，数据集样本量很小，在网络训练中会出现过拟合的现象，直接从微表情数据训练 CNN 模型是不可行的，为了减少在微表情数据集上训练深度学习网络时的过度拟合，使用基于对象和人脸的 CNN 模型进行迁移学习，使用特征选择来提取与任务相关的深层特征. Wang 等[25] 在微表情识别中基于迁移学习使李学翰等：基于 S-LRCN 的微表情识别算法 · 107 ·

108 工程科学学报，第44卷，第1期用ImageNet数据库初始化残差网络，并在儿种宏 2.2.2LSTM构建序列分类器观表情数据库上进行进一步的预训练，最后使用由于微表情变化是在连续时间内发生的，如微表情数据集对残差网络和微表情单元进行微果没有利用微表情在时间上的信息的话，很难对调.但是通常情况下，宏观表情数据库中的表情变微表情变化准确识别.因此为了利用表情序列在化较大，具有很明显的表情特征，而微表情变化幅时间上的变化信息，使用循环神经网络来处理任度小，更接近没有变化的人脸图像.因此使用面向意时序的输入序列，可以更容易地处理时间维度人脸识别的VGGFace模型2]作为微表情帧的特信息，采用LSTM节点双向循环神经网络模型处征提取器，可以从不同环境、人群中提取细微特征，理时序数据，构建长期递归卷积网络，对给定序列本文采用的VGGFace模型基于通道模型依赖网是否包含相关的微表情判断分类络(Squeeze-.and-excitation networks,SENet)架构P7, 定义双向LSTM模型的表情特征输人序列并在VGGFace2:人脸数据库上训练2 1.SENet通过 MicroE_Features=(xI,…,xr),前项传播隐变量序列在残差网络(Residual network,ResNet)2中嵌人方=（宝，…，方7小反向传播隐变量序列听=（仿1，…，方7） SENt结构增强了网络的自适应性，利用全局信息和输出序列y=Oy1,…yT),则输出序列y的更新方增强有益特征通道并抑制无用特征通道，通过特式为：征通道之间的关系提升网络性能.如图3所示方，=Hw云+W方1+b) (6) ×1×C mm"-mim 瓦，=HW方+W五1+b行) (7) =W,,+W5,方+b。 (8) 困3 SENet模块式中，W为双向LSTM模型权重，b为偏置项，偏置 Fig.3 SENet 项，H(x)表示激活函数，使用长短时记忆神经元进如图3，Fr:X→U,U=1,2,…,k,…,cT的实行计算，双向LSTM和记忆神经元如图4和5所示现过程为：其中图5中的，和0分别表示遗忘门、输入门和 4=X=∑.k=1C 输出门，C表示记忆单元(Cel)在t时刻的状态 (2) Output… 其中=哈…，]x=[K,2,…,],其中是二维空间核，表示第k个卷积核，表示第1个 Backword 输入，经过上述卷积操作后得到特征U,为W×H×C layer 大小的特征图.特征压缩将W×H×C的输入转化为1×1×C的输出z∈RC,计算如下： Forword layer 4=Fg=月-w∑a∑l4.k=l (3) nputs… Xr 特征激发过程得到的特征S=[s1,52,…,5C]的图4双向循环网络维度是1×1×C,主要用来刻画特征U中C个特征图 Fig.4 Bidirectional LSTM 的权重，即： Sk=Fex(⑦k,W)=σ(g(zk,W)=σ(W26(W1k),k=1,·,C (4) Input(i Output (o, gate gate 式中，W1∈R×C为全连接层的降维操作，W2∈RCx Cell 为全连接层的升维操作，对特征重定向： Fscale (uk,Sk)=Skuk (5) 特征提取通过在全局平均池化层(Global 、Forget gate average pooling,.GAP)微调进行特征压缩，利用两个全连接层去建模通道间的相关性，并通过减少图5LSTM神经元模型中的参数量和计算量来最小化过度拟合 Fig.5 LSTM neurons

用 ImageNet 数据库初始化残差网络，并在几种宏观表情数据库上进行进一步的预训练，最后使用微表情数据集对残差网络和微表情单元进行微调. 但是通常情况下，宏观表情数据库中的表情变化较大，具有很明显的表情特征，而微表情变化幅度小，更接近没有变化的人脸图像. 因此使用面向人脸识别的 VGGFace 模型[26] 作为微表情帧的特征提取器，可以从不同环境、人群中提取细微特征，本文采用的 VGGFace 模型基于通道模型依赖网络 (Squeeze-and-excitation networks, SENet) 架构[27] ，并在 VGGFace2 人脸数据库上训练[28] . SENet 通过在残差网络 (Residual network, ResNet)[29] 中嵌入 SENet 结构增强了网络的自适应性，利用全局信息增强有益特征通道并抑制无用特征通道，通过特征通道之间的关系提升网络性能. 如图 3 所示. 1×1×C 1×1×C C W H C′ H′ W′ C W H X U X ~ Ftr Fsq Fex Fscale 图 3 SENet 模块 Fig.3 SENet Ftr : X → U,U = [u1,u2,··· ,uk,··· ,uC] 如图 T 3, 的实现过程为： uk = vkX = ∑C ′ i=1 v i k x i , k = 1,...,C （2） vk = [ v 1 k , v 2 k ,··· , v C ′ k ] ,X = [ x 1 , x 2 ,··· , x C ′ ]T v i k vk x i U W × H ×C W × H ×C 1×1×C z ∈ R C 其中，其中是二维空间核，表示第 k 个卷积核，表示第 i 个输入，经过上述卷积操作后得到特征，为大小的特征图. 特征压缩将的输入转化为的输出，计算如下： zk = Fsq (uk) = 1 H · W ∑H i=1 ∑W j=1 uk (i, j), k = 1,...,C （3） S = [s1,s2,··· ,sC] 1×1×C U C 特征激发过程得到的特征的维度是，主要用来刻画特征中个特征图的权重，即： sk = Fex (zk,W) =σ(g(zk,W)) =σ(W2δ(W1zk)), k = 1,··· ,C （4） W1 ∈ R C r ×C W2 ∈ R C× C 式中，为全连接层的降维操作， r 为全连接层的升维操作，对特征重定向： Fscale (uk,sk) = skuk （5）特征提取通过在全局平均池化层 (Global average pooling, GAP) 微调进行特征压缩，利用两个全连接层去建模通道间的相关性，并通过减少模型中的参数量和计算量来最小化过度拟合. 2.2.2 LSTM 构建序列分类器由于微表情变化是在连续时间内发生的，如果没有利用微表情在时间上的信息的话，很难对微表情变化准确识别. 因此为了利用表情序列在时间上的变化信息，使用循环神经网络来处理任意时序的输入序列，可以更容易地处理时间维度信息，采用 LSTM 节点双向循环神经网络模型处理时序数据，构建长期递归卷积网络，对给定序列是否包含相关的微表情判断分类. MicroE_Features = (x1,··· , xT ) −→h = ( −→h 1,··· , −→h T ) ←−h = ( ←−h 1,··· , ←−h T ) y = (y1,··· , yT ) y 定义双向 LSTM 模型的表情特征输入序列，前项传播隐变量序列，反向传播隐变量序列和输出序列，则输出序列的更新方式为： −→h t = H(Wx −→h xt +W−→h −→h −→h t−1 + b−→h ) （6） ←−h t = H(Wx ←−h xt +W←−h ←−h ←−h t+1 + b←−h ) （7） yt = W−→h y −→h t +W←−h y ←−h t + bo （8） W b H (x) ft it ot Ct t 式中，为双向 LSTM 模型权重，为偏置项，偏置项，表示激活函数，使用长短时记忆神经元进行计算，双向 LSTM 和记忆神经元如图 4 和 5 所示. 其中图 5 中的 , 和分别表示遗忘门、输入门和输出门，表示记忆单元 (Cell) 在时刻的状态. xt−1 xt xt+1 yt−1 yt yt+1 ← ht−1 ← ht ← ht+1 → ht−1 → ht → ht+1 Output Backword layer Forword layer Inputs … … … … 图 4 双向循环网络 Fig.4 Bidirectional LSTM Ct ht xt xt xt xt Input gate Forget gate Output gate Cell it ft ot 图 5 LSTM 神经元 Fig.5 LSTM neurons · 108 · 工程科学学报，第 44 卷，第 1 期

李学翰等：基于S-LRCN的微表情识别算法 109· LSTM的输人是使用预训练模型从所有序列权重提取面部特征，并对VGGFace的预训练权重帧中提取的空间特征，本文采用单层的双向进行微调，以使模型更有效地适应微表情表达加 LSTM结构，其中包含一个512个节点的隐藏层，快收敛，网络输入为大小224×224×3的人脸表情在LSTM隐藏层和全连接层之间使用Dropout层图像，输出为全局平均池化层之后的全连接层得以一定概率随机屏蔽神经元，减少神经元间的共到的2048长度特征向量x: 适关系，增强网络节点的鲁棒性 x=[,m2,…,mnJ,n=2048 (9) 2.3S-LRCN用于微表情识别式(9)中，m:∈R”,将提取器最后输出的特征向量基于以上改进的方法，对于给定的微表情序 x进行L2归一化得到：列，本文实现微表情识别的步骤如下： : 元= (10) (1)载入微表情视频文件，建立序列集 V∑=1m,2 VXTx X=(X,x2,X,…,X),以及其对应的标签集 Y=(Y,2,3,…,Y),表示集合中第个微表情将最后得到的特征保存到数据集X= 序列即X=(,,,…,),表示第个微表情序 {X,X2,X,…XW,建立特征集，这时X表示集合中列中的第张图片，n;表示第个微表情序列的长第个提取到的特征序列即=(，写，…，) 度，表示集合中的第个标签即针对一个序列生成的T×2048的向量，x表示第 (2)载入微表情视频文件，首先对序列长度归个特征序列的第个特征.将产生的特征向量传递化，即输入LSTM网络的时间步长设定一个固到随后的循环网络中定值T,得到X=（,…,)依次对序列归一 (4)由于微表情图像序列具有的动态时域化的视频序列图片进行人脸检测提取人脸部分，特征，各帧之间包含时域相关性，在完成对微表将截取的有效图片尺寸归一化，进而得到处理后情单帧图片的空间特征提取之后，利用双向的数据集X=(X,X2,X3,…,XW),此步骤使输入视 LSTM网络前项序列和反向序列五传播过程进频序列适合于输入到CNN网络行训练，获得表情时序特征空间，表情视频序列由于采集的微表情序列含有大量噪声和冗余的每帧人脸图像的表情特征为，∈R”,设定表情信息，因此需要去除图像中的无关区域并消除数变化时序t∈T,T为表情帧长度，则表情特征时序据噪声，对数据集中的微表情序列进行人脸对齐矩阵为：和人脸剪裁.使用Haar人脸检测器Bo检测人脸， Z=[…] (11) 利用主动外观模型(Active appearance model,.AAM) 建立顺序输入，固定输出的预测时间分布算法将每个微表情采样序列的中性表情状态下 [X1,x2,…,xT]→y: 人脸的特征点提取出来，根据特征点坐标裁剪出 y=F(W.Z) (12) 人脸轮廓，将图像归一化为224×224×3，避免尺寸式中，F为激活函数，W为双向LSTM的判决参数差异影响结果模型，y是多分类的预测结果 (3)利用迁移学习和VGGFace模型的预训练实现步骤如图6所示 Process Input Visual GAP equence Output teatures earning Face detection GGFace Face Frames clipping VGGFace Alignment ROI VGGFace LSTM 224×224×3 T×2048 困6实现方法 Fig.6 Implementation method

LSTM 的输入是使用预训练模型从所有序列帧中提取的空间特征，本文采用单层的双向 LSTM 结构，其中包含一个 512 个节点的隐藏层，在 LSTM 隐藏层和全连接层之间使用 Dropout 层以一定概率随机屏蔽神经元，减少神经元间的共适关系，增强网络节点的鲁棒性. 2.3 S-LRCN 用于微表情识别基于以上改进的方法，对于给定的微表情序列，本文实现微表情识别的步骤如下： X = ( X 1 ,X 2 ,X 3 ,··· ,X N ) Y = ( Y 1 ,Y 2 ,Y 3 ,··· ,Y N ) X i i X i = ( x i 1 , x i 2 , x i 3 ,··· , x i ni ) x i j i j ni i Y i i （ 1）载入微表情视频文件，建立序列集，以及其对应的标签集，表示集合中第个微表情序列即，表示第个微表情序列中的第张图片，表示第个微表情序列的长度，表示集合中的第个标签. T X i = ( x i 1 , x i 2 , x i 3 ,··· , x i T ) X = ( X 1 ,X 2 ,X 3 ,···,X N ) （2）载入微表情视频文件，首先对序列长度归一化，即输入 LSTM 网络的时间步长设定一个固定值，得到 . 依次对序列归一化的视频序列图片进行人脸检测提取人脸部分，将截取的有效图片尺寸归一化，进而得到处理后的数据集，此步骤使输入视频序列适合于输入到 CNN 网络. 224×224×3 由于采集的微表情序列含有大量噪声和冗余信息，因此需要去除图像中的无关区域并消除数据噪声，对数据集中的微表情序列进行人脸对齐和人脸剪裁. 使用 Haar 人脸检测器[30] 检测人脸，利用主动外观模型 (Active appearance model, AAM) 算法[31] 将每个微表情采样序列的中性表情状态下人脸的特征点提取出来，根据特征点坐标裁剪出人脸轮廓，将图像归一化为，避免尺寸差异影响结果. （3）利用迁移学习和 VGGFace 模型的预训练 224×224×3 x 权重提取面部特征，并对 VGGFace 的预训练权重进行微调，以使模型更有效地适应微表情表达加快收敛，网络输入为大小的人脸表情图像，输出为全局平均池化层之后的全连接层得到的 2048 长度特征向量 : x = [m1,m2,···,mn],n = 2048 （9） mi ∈ R n x x¯ 式（9）中，，将提取器最后输出的特征向量进行 L2 归一化得到 : x¯ = mi √∑n i=1 mi 2 = mi √ x Tx （10） X = { X 1 ,X 2 ,X 3 ,···,X N } X i i X i = ( x i 1 , x i 2 , x i 3 ,··· , x i T ) T ×2048 x i t i t 将最后得到的特征保存到数据集，建立特征集，这时表示集合中第个提取到的特征序列即，即针对一个序列生成的的向量，表示第个特征序列的第个特征. 将产生的特征向量传递到随后的循环网络中. −→h ←−h xt ∈ R n t ∈ T T （ 4）由于微表情图像序列具有的动态时域特征，各帧之间包含时域相关性，在完成对微表情单帧图片的空间特征提取之后，利用双向 LSTM 网络前项序列和反向序列传播过程进行训练，获得表情时序特征空间，表情视频序列的每帧人脸图像的表情特征为，设定表情变化时序，为表情帧长度，则表情特征时序矩阵为： Z = [ xt ··· xt ] （11） [x1, x2,··· , xT ] → y 建立顺序输入，固定输出的预测时间分布： y = F (W, Z) （12） F W y 式中，为激活函数，为双向 LSTM 的判决参数模型，是多分类的预测结果. 实现步骤如图 6 所示.Softmax … … … frame frame Frames VGGFace VGGFace VGGFace LSTM LSTM LSTM Input Visual features Sequence learning Output predication Process Face detection Face clipping Alignment ROI GAPFinetuning 224×224×3 T×2048 图 6 实现方法 Fig.6 Implementation method 李学翰等：基于 S-LRCN 的微表情识别算法 · 109 ·

110 工程科学学报，第44卷，第1期 3实验结果由于微表情数据样本数据量较小，因此对数据集进行扩充，本文采取镜像模式对数据集进行为了验证本文提出的微表情识别方法的性能扩充，将数据集中的样本逐一进行图片水平镜像，和准确率，采用CASME-Ⅱ数据集进行训练.首先扩充数据集样本按照本文的方法训练网络模型，验证该方法的有 3.3实验结果效性，并研究时间序列长度即LSTM步长(Timestep) 实验利用5折交叉验证的策略，将数据集随机以及LSTM的深度对模型效果的影响分为5等份，每一次将其中4份作为实验的训练 3.1数据集选择集，输入到模型中，另1份作为测试集，用来验证采用CASME-Ⅱ数据集进行实验B四CASME- 分类的准确率.网络训练使用早期停止法，其中将 Ⅱ是由中科院心理傅小兰团队所建立的自然诱发训练集按照4：1的比例随机划分为训练集和验证的微表情数据库，包含来自26个平均年龄为22岁集.使用自适应矩估计(Adam)优化器，其中学习的亚洲参与者的255个微表情采样，视频片段帧率设置为为10-3，衰减为10-5，网络训练为40个周数不等.该数据集在适当的照明条件以及严格的期，批尺寸为16 实验环境下采集得到，图像的分辨率为640像选取其中一组训练结果，当训练趋于稳定时，素×480像素.该数据库样本标有起始帧和结束帧自动停止当前训练，最后得到训练过程中训练集和与之对应的微表情标签，提供了高兴、厌恶、压与验证集准确率变化情况，如图7所示. 抑、惊讶、害怕、伤心及其他情绪分类(Happiness,. surprise,disgust,fear,sadness,repression,others), 80 据库中捕捉到的微观表情相对纯粹而清晰，没有诸如头部动作和不相关的面部动作的噪音.本文至60 数据集划分为5类，如表1所示 50 麦1划分情祝 0 Table 1 Dataset classification 一Acc:65% Classify CASME-II Samples 0 5 0 152025303540 Epoch Happiness Happiness(32) 32 图7训练曲线 Surprise Surprise(28) 28 Fig.7 Training curve Disgust Disgust(63) 63 5组训练结果如表2所示，得到5折交叉验证 Repression Repression(27) 27 平均准确率为65.7%.最后的分类结果如图8所 Others(99) 示，从图中可知，预测结果在“其他”附近分布比较 Others Sadness(4) 105 多，这是由于CASME-Ⅱ中将一些无法确定的表情 Fear(2) 归类到“其他”，并且此部分数据量相比其他类别 3.2 数据集预处理较大，同时实验中将“悲伤”和“害怕”划分到该类为了减小不同个体和不同微表情之间的差表情中，所以错误的预测结果大多集中在“其他” 异，首先要对数据集中的微表情序列预处理以进部分.如果不考虑“其他”类，对其他4类表情分类行面部对齐，裁剪得到面部表情区域，并将图像帧会具有更高的准确率的分辨率统一调整为224像素×224像素，以便输表2训练结果入空间维度与VGGFace网络模型的匹配.由于数 Table 2 Training results % 据集中的微表情序列帧数不统一，针对微表情序 Testl Test2 Test3 Test4 Test5 列通过时间插值模型插值(Temporal interpolation 64.9 66.2 65.2 65.8 66.4 model,TIM))的方法，将数据集样本每一个图像序列插值为20帧，得到固定长度为20的帧序列， 3.4 数据分析并将20帧的序列拆分为两个10帧的时间序列，随几种微表情识别算法LBP-TOPB、时空完全后把10帧的样本拼接并保存为训练数据，通过对局部量化模型(Spatiotemporal completed local quanti- ·段视频的处理获取到两组数据 zation patterns,.STCLQP)351、CNN+LSTM、HOOF+

3 实验结果为了验证本文提出的微表情识别方法的性能和准确率，采用 CASME-Ⅱ数据集进行训练. 首先按照本文的方法训练网络模型，验证该方法的有效性，并研究时间序列长度即 LSTM 步长 (Timestep) 以及 LSTM 的深度对模型效果的影响. 3.1 数据集选择采用 CASME-Ⅱ数据集进行实验[32] . CASME- Ⅱ是由中科院心理傅小兰团队所建立的自然诱发的微表情数据库，包含来自 26 个平均年龄为 22 岁的亚洲参与者的 255 个微表情采样，视频片段帧数不等. 该数据集在适当的照明条件以及严格的实验环境下采集得到，图像的分辨率为 640 像素×480 像素. 该数据库样本标有起始帧和结束帧和与之对应的微表情标签，提供了高兴、厌恶、压抑、惊讶、害怕、伤心及其他情绪分类 (Happiness， surprise， disgust， fear， sadness， repression， others)，数据库中捕捉到的微观表情相对纯粹而清晰，没有诸如头部动作和不相关的面部动作的噪音. 本文数据集划分为 5 类，如表 1 所示. 表 1 划分情况 Table 1 Dataset classification Classify CASME-Ⅱ Samples Happiness Happiness (32) 32 Surprise Surprise (28) 28 Disgust Disgust (63) 63 Repression Repression (27) 27 Others Others (99) Sadness (4) 105 Fear (2) 3.2 数据集预处理为了减小不同个体和不同微表情之间的差异，首先要对数据集中的微表情序列预处理以进行面部对齐，裁剪得到面部表情区域，并将图像帧的分辨率统一调整为 224 像素×224 像素，以便输入空间维度与 VGGFace 网络模型的匹配. 由于数据集中的微表情序列帧数不统一，针对微表情序列通过时间插值模型插值 (Temporal interpolation model，TIM)[33] 的方法，将数据集样本每一个图像序列插值为 20 帧，得到固定长度为 20 的帧序列，并将 20 帧的序列拆分为两个 10 帧的时间序列，随后把 10 帧的样本拼接并保存为训练数据，通过对一段视频的处理获取到两组数据. 由于微表情数据样本数据量较小，因此对数据集进行扩充，本文采取镜像模式对数据集进行扩充，将数据集中的样本逐一进行图片水平镜像，扩充数据集样本. 3.3 实验结果 10−3 10−5 实验利用 5 折交叉验证的策略，将数据集随机分为 5 等份，每一次将其中 4 份作为实验的训练集，输入到模型中，另 1 份作为测试集，用来验证分类的准确率. 网络训练使用早期停止法，其中将训练集按照 4∶1 的比例随机划分为训练集和验证集. 使用自适应矩估计 (Adam) 优化器，其中学习率设置为为，衰减为，网络训练为 40 个周期，批尺寸为 16 选取其中一组训练结果，当训练趋于稳定时，自动停止当前训练，最后得到训练过程中训练集与验证集准确率变化情况，如图 7 所示. 0 5 10 15 20 25 30 35 40 Epoch 30 40 50 60 70 80 Train Val Acc: 65% Accuracy/ % 图 7 训练曲线 Fig.7 Training curve 5 组训练结果如表 2 所示，得到 5 折交叉验证平均准确率为 65.7%. 最后的分类结果如图 8 所示，从图中可知，预测结果在“其他”附近分布比较多，这是由于 CASME-Ⅱ中将一些无法确定的表情归类到“其他”，并且此部分数据量相比其他类别较大，同时实验中将“悲伤”和“害怕”划分到该类表情中，所以错误的预测结果大多集中在“其他” 部分. 如果不考虑“其他”类，对其他 4 类表情分类会具有更高的准确率. 表 2 训练结果 Table 2 Training results % Test1 Test2 Test3 Test4 Test5 64.9 66.2 65.2 65.8 66.4 3.4 数据分析几种微表情识别算法 LBP-TOP[34]、时空完全局部量化模型 (Spatiotemporal completed local quantization patterns，STCLQP)[35]、CNN+LSTM[21]、HOOF+ · 110 · 工程科学学报，第 44 卷，第 1 期

李学翰等：基于S-LRCN的微表情识别算法 .111 Accuracy/ 表4不同序列长度实验效果 0.7 Disgust 0.61 0.0 0.34 0.02 0.03 Table 4 Experimental results of different sequence lengths 0.6 F1-Score/% Happiness 0.01 0.64 0.27 0.01 0.07 Sequence length Accuracy/% 0.5 6 62.0 56.6 Others 0.09 0.03 0.74 0.09 0.05 0.4 10 65.7 60.8 0.3 公 63.1 58.6 Repression 0.01 0.04 0.36 059 0.0 02 30 56.5 49.6 Surprise 0.1 0.03 0.05 0.25 0.04 0.63 ☐0 高为65.7%，序列长度为6和15时，准确率分别为 62%和63.1%.序列长度为30帧时准确率降低到 56.5%,这是由于微表情通常持续时间很短，使用 Predicted 短序列可以更快捕捉面部表情的变化情况图85种表情分类结果 (2)固定序列长度为10，分别建立双向LSTM Fig.8 Classification results of five expressions (512节点的隐藏层)，2层双向LSTM模型(2个 512节点的隐藏层)，单层LSTM,多层感知器 LSTM1及本文研究的S-LRCN,采用五折交叉验证的识别准确率对比如表3所示，其中微表情识 (Multi-layer perceptron,.MLP),研究不同LSTM模型对识别率的影响如图9所示别算法的数据集采用本文在CASME-Ⅱ下的分类方法.通过对比可知，本文改进的算法对比以往算 80 Accuracy 法识别精度更高，表示本文算法的可行性.与传统 ☐Fl-score 70 65.79% 的机器视觉算法LBP-TOP、STCLOP相比，本文采 62.7% 64% 63.5% 60.8% 58.5% 60.5% ☐59.6% 用深度学习模型在准确率方面提高明显，并且引入LSTM神经元考虑表情变化在时序上的关联特性具有更高的精度；与CNN、HOOF结合LSTM的算法相比，本文通过预训练的卷积神经网络模型提取特征，采用迁移学习避免网络训练中过拟合 Bi-LSTM Bi-LSTM LSTM MLP 的问题，准确率也有了一定的提高 (512) (512-512) (512) (512) Model 表3不同算法识别准确率图9不同LSTM模型实验结果 Fig.9 Experimental results of different LSTM models Table 3 Recognition accuracy of different algorithms Methods Accuracy/% F1-Score/% 由图9可知，使用单层的LSTM网络时，具有 LBP-TOP 52.6 42.6 更高的精度，双向LSTM为65.7%，单向LSTM为 STCLOP 58.6 58.0 64%,双向LSTM识别率更高；增加隐藏层层数时 CNN+LSTM 61.0 58.5 准确率降低为62.7%，这是由于数据量过小，加深 HOOF+LSTM 59.8 56.0 网络深度会导致时间相关性降低；使用MLP网络 S-LRCN 65.7 60.8 时训练速度较快，但是会丢失一些时序特性，准确率为63.5%. 基于本文改进的算法，分别从序列长度、不同实验结果表明，微表情识别准确率受到序列 LSTM模型两个方面来判断这些参数对于LSTM 长度和LSTM网络结构的影响，只有充分考虑网模型识别率的影响：络模型空间特性和时间特性之间的相互关系才能 (1)不同长度的微表情序列对识别率的影响，取得更好的效果针对数据集分布采用长度为6,10,15,30的TIM 3.5实验扩展插值算法，选择将不同序列的数据输入到单层的表情分析用途广泛，将表情识别技术用于教双向LSTM网络，实验结果如表4所示育领域，通过观察学习者面部表情变化，分析学习由表4可知，当序列长度较小时，训练的模型者的心理状态，从而进一步分析学习者对知识点具有更高的准确率，序列长度为10时，准确率最的理解度及兴趣度等信息，便于提高教学质量

LSTM[23] 及本文研究的 S-LRCN，采用五折交叉验证的识别准确率对比如表 3 所示，其中微表情识别算法的数据集采用本文在 CASME-Ⅱ下的分类方法. 通过对比可知，本文改进的算法对比以往算法识别精度更高，表示本文算法的可行性. 与传统的机器视觉算法 LBP-TOP、STCLQP 相比，本文采用深度学习模型在准确率方面提高明显，并且引入 LSTM 神经元考虑表情变化在时序上的关联特性具有更高的精度；与 CNN、HOOF 结合 LSTM 的算法相比，本文通过预训练的卷积神经网络模型提取特征，采用迁移学习避免网络训练中过拟合的问题，准确率也有了一定的提高. 表 3 不同算法识别准确率 Table 3 Recognition accuracy of different algorithms Methods Accuracy/% F1-Score/% LBP-TOP 52.6 42.6 STCLQP 58.6 58.0 CNN+LSTM 61.0 58.5 HOOF+LSTM 59.8 56.0 S-LRCN 65.7 60.8 基于本文改进的算法，分别从序列长度、不同 LSTM 模型两个方面来判断这些参数对于 LSTM 模型识别率的影响：（1）不同长度的微表情序列对识别率的影响，针对数据集分布采用长度为 6，10, 15，30 的 TIM 插值算法，选择将不同序列的数据输入到单层的双向 LSTM 网络，实验结果如表 4 所示. 由表 4 可知，当序列长度较小时，训练的模型具有更高的准确率，序列长度为 10 时，准确率最高为 65.7%，序列长度为 6 和 15 时，准确率分别为 62% 和 63.1%. 序列长度为 30 帧时准确率降低到 56.5%，这是由于微表情通常持续时间很短，使用短序列可以更快捕捉面部表情的变化情况. （2）固定序列长度为 10，分别建立双向 LSTM （ 512 节点的隐藏层）， 2 层双向 LSTM 模型（ 2 个 512 节点的隐藏层），单层 LSTM，多层感知器 (Multi-layer perceptron, MLP)，研究不同 LSTM 模型对识别率的影响如图 9 所示. 65.7% 62.7% 64% 63.5% 60.8% 58.5% 60.5% 59.6% Bi-LSTM (512) Bi-LSTM (512-512) LSTM (512) MLP (512) 30 40 50 60 70 80 Accuracy F1-score Model Accuracy, F1-score/ % 图 9 不同 LSTM 模型实验结果 Fig.9 Experimental results of different LSTM models 由图 9 可知，使用单层的 LSTM 网络时，具有更高的精度，双向 LSTM 为 65.7%，单向 LSTM 为 64%，双向 LSTM 识别率更高；增加隐藏层层数时准确率降低为 62.7%，这是由于数据量过小，加深网络深度会导致时间相关性降低；使用 MLP 网络时训练速度较快，但是会丢失一些时序特性，准确率为 63.5%. 实验结果表明，微表情识别准确率受到序列长度和 LSTM 网络结构的影响，只有充分考虑网络模型空间特性和时间特性之间的相互关系才能取得更好的效果. 3.5 实验扩展表情分析用途广泛，将表情识别技术用于教育领域，通过观察学习者面部表情变化，分析学习者的心理状态，从而进一步分析学习者对知识点的理解度及兴趣度等信息，便于提高教学质量. Accuracy/% 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 Disgust Happiness Others Repression Predicted True Surprise Disgust Happiness Others Repression Surprise 图 8 5 种表情分类结果 Fig.8 Classification results of five expressions 表 4 不同序列长度实验效果 Table 4 Experimental results of different sequence lengths Sequence length Accuracy/% F1-Score/% 6 62.0 56.6 10 65.7 60.8 15 63.1 58.6 30 56.5 49.6 李学翰等：基于 S-LRCN 的微表情识别算法 · 111 ·

112 工程科学学报，第44卷，第1期基于本文的方法对学习者学习状态进行评价， Accuracy/% 采用CASME-Ⅱ对微表情分类识别，CASME-Ⅱ使 0.6 Distraction 0.6 0.13 027 用具有情感价值的视频短片来诱发情感表达，参 0.5 与者要求在屏幕前观看视频短片，过程中避免身 0.4 体运动，并且在观看短片时保持中立的面部表情 Focus 0.14 0.54 032 试图抑制自己的表情.由于该数据集在实验室环 0.3 境下采集，不易受外界因素干扰，且视频序列变化 0.2 微小并不适用于实际的教学场景，所以建立面向 Tired 0.04 0.31 0.65 0.1 教学评价的小型数据集用于对学习者学习状态的 Distraction Focus Tired 初步评判 Predicted 建立模拟教学场景采集人员表情变化，具体图11实验结果方法如下： Fig.11 Experimental result 1)选择30~45min的课程视频片段诱发学习对该方法改进提出一种S-LRCN的方法，该方法更者表情状态，参与者须观看完整课程视频，并录制适合用于微表情这种小规模数据集中.采用迁移采集视频；学习的方法，通过预训练的VGGFace模型提取表 2)参与者观看过程中按一般的上课状态，头情帧的特征集合以减少数据量过小在训练深度网部、肢体动作不做要求；络中过拟合的风险；将特征集合输入双向LSTM 3)取得的原始数据由参与者去除不相关内容，网络以考虑微表情变化持续时间短，具有时间相筛选表情样本并分类，表情持续片段为“平静-高关性的特点.实现表明，该方法具有较高的准确峰-平静”的变化区间：性.但是已标记微表情数据量不够，各类数据分配 4)筛选的样本由其他参与者对分类结果二次不均匀以及微表情表现强度普遍较弱仍然是导致验证，建立标签识别率低的主要原因，在以后的研究中还需要进数据集通过模拟教学场景对参与人员表情变一步完善数据集，以促进微表情识别的进展化采集，参与人员共6位，包含215个视频序列，序此外，将表情识别用于学习场景是构建新型列长度为60~90帧，面部表情标签包括分心、专课堂的一种趋势，基于信息学、心理学和教育学的注和疲惫(Distraction、focus、tired),如图I0所示. 相关研究基础，可以通过表情分析研究学习者学习状态.本文建立了一个包含3个类别的小型数据库，来对教学场景下的表情分类.今后的工作还要进一步丰富数据，基于动态表情序列分析学习者情感，建立心理特征模型，研究学习过程中学习状态与情感变化的对应关系 Distraction Focus Tired 参考文献图10数据分类 Fig.10 Data classification [1]Mehrabian A.Nomverbal Communication.New York:Routledge, 2017 针对建立的教学评价数据集，采用本文微表 [2]Ekman P.Facial expression and emotion.Am Psychol,1993, 中微表情识别方法对学习者学习状态分析，通过 48(4):384 相同的方法建立网络模型，处理图片序列并划分 [3]Ekman P,Friesen W V.Nonverbal leakage and clues to deception 数据集，采用五折交叉验证的方法，验证分类结果 Psychiatr,1969,32(1):88 的有效性，取平均值后识别结果如图11所示 [4] Yan W J,Wang S J,Liu Y J,et al.For micro-expression recognition:Database and suggestions.Neurocomputing,2014, 4结论 136(136):82 [5]Wang S Y.CNN-RNN Based Micro-Expression Recognition 针对目前微表情识别研究中普遍存在的问题 [Dissertation].Harbin:Harbin Engineering University,2018 展开研究，通过深度学习来实现对微表情序列的 (王思宇.基于CNN-RNN的微表情识别[学位论文].哈尔滨：哈识别分类.基于LRCN在行为识别中优异的性能，尔滨工程大学，2018)

基于本文的方法对学习者学习状态进行评价，采用 CASME-Ⅱ对微表情分类识别，CASME-Ⅱ使用具有情感价值的视频短片来诱发情感表达，参与者要求在屏幕前观看视频短片，过程中避免身体运动，并且在观看短片时保持中立的面部表情试图抑制自己的表情. 由于该数据集在实验室环境下采集，不易受外界因素干扰，且视频序列变化微小并不适用于实际的教学场景，所以建立面向教学评价的小型数据集用于对学习者学习状态的初步评判. 建立模拟教学场景采集人员表情变化，具体方法如下： 1）选择 30～45 min 的课程视频片段诱发学习者表情状态，参与者须观看完整课程视频，并录制采集视频； 2）参与者观看过程中按一般的上课状态，头部、肢体动作不做要求； 3）取得的原始数据由参与者去除不相关内容，筛选表情样本并分类，表情持续片段为“平静−高峰−平静”的变化区间； 4）筛选的样本由其他参与者对分类结果二次验证，建立标签. 数据集通过模拟教学场景对参与人员表情变化采集，参与人员共 6 位，包含 215 个视频序列，序列长度为 60～90 帧，面部表情标签包括分心、专注和疲惫 (Distraction、focus、tired)，如图 10 所示. Distraction Focus Tired 图 10 数据分类 Fig.10 Data classification 针对建立的教学评价数据集，采用本文微表中微表情识别方法对学习者学习状态分析，通过相同的方法建立网络模型，处理图片序列并划分数据集，采用五折交叉验证的方法，验证分类结果的有效性，取平均值后识别结果如图 11 所示. 4 结论针对目前微表情识别研究中普遍存在的问题展开研究，通过深度学习来实现对微表情序列的识别分类. 基于 LRCN 在行为识别中优异的性能，对该方法改进提出一种 S-LRCN 的方法，该方法更适合用于微表情这种小规模数据集中. 采用迁移学习的方法，通过预训练的 VGGFace 模型提取表情帧的特征集合以减少数据量过小在训练深度网络中过拟合的风险；将特征集合输入双向 LSTM 网络以考虑微表情变化持续时间短，具有时间相关性的特点. 实现表明，该方法具有较高的准确性. 但是已标记微表情数据量不够，各类数据分配不均匀以及微表情表现强度普遍较弱仍然是导致识别率低的主要原因，在以后的研究中还需要进一步完善数据集，以促进微表情识别的进展. 此外，将表情识别用于学习场景是构建新型课堂的一种趋势，基于信息学、心理学和教育学的相关研究基础，可以通过表情分析研究学习者学习状态. 本文建立了一个包含 3 个类别的小型数据库，来对教学场景下的表情分类. 今后的工作还要进一步丰富数据，基于动态表情序列分析学习者情感，建立心理特征模型，研究学习过程中学习状态与情感变化的对应关系. 参考文献 Mehrabian A. Nonverbal Communication. New York: Routledge, 2017 [1] Ekman P. Facial expression and emotion. Am Psychol, 1993, 48（4）: 384 [2] Ekman P, Friesen W V. Nonverbal leakage and clues to deception. Psychiatry, 1969, 32（1）: 88 [3] Yan W J, Wang S J, Liu Y J, et al. For micro-expression recognition: Database and suggestions. Neurocomputing, 2014, 136（136）: 82 [4] Wang S Y. CNN-RNN Based Micro-Expression Recognition [Dissertation]. Harbin: Harbin Engineering University, 2018 （王思宇. 基于CNN-RNN的微表情识别[学位论文]. 哈尔滨: 哈尔滨工程大学, 2018） [5] Accuracy/% 0.6 0.5 0.4 0.3 0.2 0.1 Distraction Focus Predicted True Tired Distraction Focus Tired 图 11 实验结果 Fig.11 Experimental result · 112 · 工程科学学报，第 44 卷，第 1 期

点击进入文档下载页（PDF格式）

共11页，试读已结束，阅读完整版请下载

点击下载（PDF格式）

浏览记录

基于S-LRCN的微表情识别算法