第16卷第6期 智能系统学报 Vol.16 No.6 2021年11月 CAAI Transactions on Intelligent Systems Now.2021 D0:10.11992tis.202010031 网络出版地址:https:/kns.cnki.net/kcms/detail/23.1538.TP.20210830.1631.008.html 基于双注意力模型和迁移学习的Apex帧微表情识别 徐玮,郑豪2,杨种学2 (1.广西师范大学计算机科学与工程学院/揿件学院,广西桂林541004;2.南京晓庄学院信息工程学院,江苏 南京211171) 摘要:微表情具有持续时间短、强度低的特点,其识别准确率普遍不高。针对该问题提出了一种改进的深度 学习识别方法,该方法取微表情视频序列中的Apex帧,采用集成空间、通道双注意力模块的ResNet18网络,引 入Focal Loss函数解决微表情数据样本不平衡的问题,并将宏表情识别领域的先验知识迁移到微表情识别领 域,以提高识别效果。在CASMEⅡ微表情数据集上使用“留一交叉验证法”进行实验,结果表明本文方法相比 一些现有的方法识别准确率及F值更高。 关键词:微表情识别;深度学习;Apex帧;双注意力模型;ResNet18网络;Focal Loss函数;宏表情;迁移学习 中图分类号:TP391文献标志码:A文章编号:1673-4785(2021)06-1015-06 中文引用格式:徐玮,郑豪,杨种学.基于双注意力模型和迁移学习的Apex帧微表情识别J.智能系统学报,2021,16(6): 1015-1020 英文引用格式:XU Wei,.ZHENG Hao,YANG Zhongxue.Apex frame microexpression recognition based on dual attention model and transfer learningJ CAAI transactions on intelligent systems,2021,16(6):1015-1020. Apex frame microexpression recognition based on dual attention model and transfer learning XU Wei',ZHENG Hao',YANG Zhongxue? (1.School of Computer Science and Engineering/School of Software,Guangxi Normal University,Guilin 541004,China;2.School of Information and Engineering,Nanjing Xiaozhuang University,Nanjing 211171,China) Abstract:Microexpression is of short duration and low intensity,and its recognition accuracy is generally not high.To address this problem,an improved deep learning recognition method is proposed.This method takes Apex frames in the microexpression video sequence and adopts the ResNet18 network integrating spatial and channel dual attention mod- ules.Moreover,the method introduces the Focal Loss function to solve the imbalance of microexpression data samples and transfers the prior knowledge in the field of macroexpression recognition to the field of microexpression recogni- tion to improve the recognition effect.Experiments were performed on the CASME II microexpression dataset using the "leave one out-cross validation"method.The results show that the method presented in this paper has a higher recogni- tion accuracy and Fi value than other existing methods. Keywords:microexpression recognition;deep learning;Apex frame;dual attention model;ResNet18 network;Focal Loss function:macroexpression:transfer learning 微表情是人们试图隐藏真实情感时不由自主 继承下来的。其作为人内在情绪的真实表现,能 泄露出的面部表情,是人类经过长期进化遗传而 够揭示一个人的真实情绪,具有持续时间短、强 度低、难以诱导山等特征,因此它成为精神心理 收稿日期:2020-10-26.网络出版日期:2021-08-31. 学和情感分析领域最可靠的生理特征之一。 基金项目:国家自然科学基金项目(61976118):江苏省“六大人 才高峰”高层次人才项目(RJFW-038). 微表情识别算法主要有特征描述算法、特征 通信作者:郑豪.E-mail:zhh710@163.com. 转换算法、光流算法、频域算法、深度学习算法
DOI: 10.11992/tis.202010031 网络出版地址: https://kns.cnki.net/kcms/detail/23.1538.TP.20210830.1631.008.html 基于双注意力模型和迁移学习的 Apex 帧微表情识别 徐玮1 ,郑豪2 ,杨种学2 (1. 广西师范大学 计算机科学与工程学院/软件学院,广西 桂林 541004; 2. 南京晓庄学院 信息工程学院,江苏 南京 211171) F1 摘 要:微表情具有持续时间短、强度低的特点,其识别准确率普遍不高。针对该问题提出了一种改进的深度 学习识别方法,该方法取微表情视频序列中的 Apex 帧,采用集成空间、通道双注意力模块的 ResNet18 网络,引 入 Focal Loss 函数解决微表情数据样本不平衡的问题,并将宏表情识别领域的先验知识迁移到微表情识别领 域,以提高识别效果。在 CASME II 微表情数据集上使用“留一交叉验证法”进行实验,结果表明本文方法相比 一些现有的方法识别准确率及 值更高。 关键词:微表情识别;深度学习;Apex 帧;双注意力模型;ResNet18 网络;Focal Loss 函数;宏表情;迁移学习 中图分类号:TP391 文献标志码:A 文章编号:1673−4785(2021)06−1015−06 中文引用格式:徐玮, 郑豪, 杨种学. 基于双注意力模型和迁移学习的 Apex 帧微表情识别 [J]. 智能系统学报, 2021, 16(6): 1015–1020. 英文引用格式:XU Wei, ZHENG Hao, YANG Zhongxue. Apex frame microexpression recognition based on dual attention model and transfer learning[J]. CAAI transactions on intelligent systems, 2021, 16(6): 1015–1020. Apex frame microexpression recognition based on dual attention model and transfer learning XU Wei1 ,ZHENG Hao2 ,YANG Zhongxue2 (1. School of Computer Science and Engineering/School of Software, Guangxi Normal University, Guilin 541004, China; 2. School of Information and Engineering, Nanjing Xiaozhuang University, Nanjing 211171, China) Abstract: Microexpression is of short duration and low intensity, and its recognition accuracy is generally not high. To address this problem, an improved deep learning recognition method is proposed. This method takes Apex frames in the microexpression video sequence and adopts the ResNet18 network integrating spatial and channel dual attention modules. Moreover, the method introduces the Focal Loss function to solve the imbalance of microexpression data samples and transfers the prior knowledge in the field of macroexpression recognition to the field of microexpression recognition to improve the recognition effect. Experiments were performed on the CASME II microexpression dataset using the “leave one out-cross validation” method. The results show that the method presented in this paper has a higher recognition accuracy and F1 value than other existing methods. Keywords: microexpression recognition; deep learning; Apex frame; dual attention model; ResNet18 network; Focal Loss function; macroexpression; transfer learning 微表情是人们试图隐藏真实情感时不由自主 泄露出的面部表情,是人类经过长期进化遗传而 继承下来的。其作为人内在情绪的真实表现,能 够揭示一个人的真实情绪,具有持续时间短、强 度低、难以诱导[1] 等特征,因此它成为精神心理 学和情感分析领域最可靠的生理特征之一。 微表情识别算法主要有特征描述算法、特征 转换算法、光流算法、频域算法、深度学习算法 收稿日期:2020−10−26. 网络出版日期:2021−08−31. 基金项目:国家自然科学基金项目 (61976118);江苏省“六大人 才高峰”高层次人才项目 (RJFW-038). 通信作者:郑豪. E-mail:zhh710@163.com. 第 16 卷第 6 期 智 能 系 统 学 报 Vol.16 No.6 2021 年 11 月 CAAI Transactions on Intelligent Systems Nov. 2021
·1016· 智能系统学报 第16卷 等。特征描述算法2通过描述微表情的面部肌 集成双注意力模块的残差学习单元 肉运动特性、纹理特性等实现对微表情的特征表 示,在局部二值模式的基础上,减少噪声、光照等 因素的影响,提升特征描述的准确性。特征转换 宏表情图片 宏表情分类 算法将微表情序列看作张量,对其进行矩阵变 迁移学习 微表情序列 换去除冗余信息,增加颜色、空间和时间等信 息。光流算法主要分析光流场中微表情序列 的变化,从像素的角度提取相邻两帧像素的相对 Apex帧人脸裁剪 微表情分类 运动,捕捉面部的细微变化,降低头部运动和光 人脸对齐 线变化对特征的影响。频域算法0以将微表情序 图1本文算法整体流程 列看作一个时域信号,通过傅里叶变换、Gabor Fig.1 Proposed overall flow of the algorithm 变换等转换到频域上,提取振幅、相位信息等特 1.1 Apex帧 征,能够有效提取面部轮廓的角点和边缘信息等 大多数微表情识别算法都将微表情作为一个 局部特征。基于深度学习的微表情识别算法利用 视频序列进行处理。视频序列一般包含起始帧 神经网络自主学习的特征,得到高层的语义信 (Onset frame)、峰值帧(Apex frame)和终止帧(Off 息。Patel等1探索深度学习用于微表情识别任 set frame)。其中,Apex帧是微表情面部肌肉运动 务,提出一种选择性的深层特征进行微表情识 变化最为明显的一帧,最具有代表性。Liog等刘 别,去除不相关的深层特征。Peng等提出了双 认为高帧率下的微表情视频序列并不是每一帧都 时域尺度卷积神经网络(dual temporal scale convo- 是有效的,相反会造成计算冗余现象的发生。他 lutional neural network,DTSCNN),采用不同的网 们提出了只使用起始帧和蜂值帧的特征提取方 络流来适应不同帧率的微表情视频序列,避免了 法Bi-WOOF和OFF-ApexNet,识别效果非常显著。 过拟合问题的出现。同时,将光流序列加到浅层 为了减少计算量,更加高效、快捷地将微表情进 网络,使得网络可以得到高层次特征。Verma等的 行分类,本文选取微表情视频序列中已标注的 提出了LEARNet(lateral accretive hybrid network) Apex帧进行处理。 捕捉面部表情的微观特征,在网络中加入AL(ac- 1.2人脸图像预处理 cretion layers)细化表达特征。目前的工作多采用 在图像预处理过程中,使用OpenCV和DIib 微表情视频序列进行研究,该方法不仅计算复 库实现人脸68个关键特征点检测并进行标注。 杂、耗时长,而且实际应用场景中通常也难以获 由于摄像头采集的人脸图像存在姿态多样、角度 得完整的微表情视频序列用以分类,具有一定的 多样等问题,通过人脸对齐使之更符合微表情识 局限性。针对这一情况,本文提出了基于双注意 别的需求。在已标注的特征关键点中选取左内眼 力模型和迁移学习的Apex帧微表情识别方法, 角坐标(x1,y)和右内眼角坐标(2,y2),人脸水平 主要贡献有3点: 夹角0和人眼距离dist计算公式如式(1)所示: 1)借鉴CBAM的设计理论,并针对微表情 6=arctan[(y2-y1)/(x2-x1)] 的特性,在ResNet18m网络的基础上集成空间注 (1) dist=√02-y)+(2-x)月 意力模块、通道注意力模块,提升神经网络对 将人脸眼距的中点作为旋转中心(xo%),则 Apex帧微表情特征的提取性能; 旋转后的坐标计算公式如式(2)所示: 2)采用Focal Loss函数,解决微表情样本比 =(x-xo)COs+(y-yo)(-sin6)+xo (2) 例严重失衡的问题: y'=(x-xo)sin+(y-yo)cos0+yo 3)使用迁移学习的方式,从宏表情识别领域 迁移到微表情识别领域,缓解微表情数据集样本 2深度学习框架设计 严重不足的情况。 深度学习的框架设计部分将分别介绍空间注 1预处理 意力机制、通道注意力机制、残差学习单元集成 双注意力模型的方法、损失函数的选择、迁移学 本文所提出的微表情识别算法主要包括微表 习的运用方式。 情视频序列预处理和深度学习分类两部分,其整 2.1空间注意力机制 体流程如图1所示。 空间注意力机制专注于特征图中的重要空间
等。特征描述算法[2-4] 通过描述微表情的面部肌 肉运动特性、纹理特性等实现对微表情的特征表 示,在局部二值模式的基础上,减少噪声、光照等 因素的影响,提升特征描述的准确性。特征转换 算法[5-6] 将微表情序列看作张量,对其进行矩阵变 换去除冗余信息,增加颜色、空间和时间等信 息。光流算法[7-9] 主要分析光流场中微表情序列 的变化,从像素的角度提取相邻两帧像素的相对 运动,捕捉面部的细微变化,降低头部运动和光 线变化对特征的影响。频域算法[10-12] 将微表情序 列看作一个时域信号,通过傅里叶变换、Gabor 变换等转换到频域上,提取振幅、相位信息等特 征,能够有效提取面部轮廓的角点和边缘信息等 局部特征。基于深度学习的微表情识别算法利用 神经网络自主学习的特征,得到高层的语义信 息。Patel 等 [13] 探索深度学习用于微表情识别任 务,提出一种选择性的深层特征进行微表情识 别,去除不相关的深层特征。Peng 等 [14] 提出了双 时域尺度卷积神经网络 (dual temporal scale convolutional neural network, DTSCNN),采用不同的网 络流来适应不同帧率的微表情视频序列,避免了 过拟合问题的出现。同时,将光流序列加到浅层 网络,使得网络可以得到高层次特征。Verma 等 [15] 提出了 LEARNet(lateral accretive hybrid network) 捕捉面部表情的微观特征,在网络中加入 AL (accretion layers) 细化表达特征。目前的工作多采用 微表情视频序列进行研究,该方法不仅计算复 杂、耗时长,而且实际应用场景中通常也难以获 得完整的微表情视频序列用以分类,具有一定的 局限性。针对这一情况,本文提出了基于双注意 力模型和迁移学习的 Apex 帧微表情识别方法, 主要贡献有 3 点: 1) 借鉴 CBAM[16] 的设计理论,并针对微表情 的特性,在 ResNet18[17] 网络的基础上集成空间注 意力模块、通道注意力模块,提升神经网络对 Apex 帧微表情特征的提取性能; 2) 采用 Focal Loss[18] 函数,解决微表情样本比 例严重失衡的问题; 3) 使用迁移学习的方式,从宏表情识别领域 迁移到微表情识别领域,缓解微表情数据集样本 严重不足的情况。 1 预处理 本文所提出的微表情识别算法主要包括微表 情视频序列预处理和深度学习分类两部分,其整 体流程如图 1 所示。 微表情序列 宏表情图片 集成双注意力模块的残差学习单元 宏表情分类 微表情分类 迁移学习 人脸裁剪、 人脸对齐 Apex 帧 图 1 本文算法整体流程 Fig. 1 Proposed overall flow of the algorithm 1.1 Apex 帧 大多数微表情识别算法都将微表情作为一个 视频序列进行处理。视频序列一般包含起始帧 (Onset frame)、峰值帧 (Apex frame) 和终止帧 (Offset frame)。其中,Apex 帧是微表情面部肌肉运动 变化最为明显的一帧,最具有代表性。Liong 等 [19-20] 认为高帧率下的微表情视频序列并不是每一帧都 是有效的,相反会造成计算冗余现象的发生。他 们提出了只使用起始帧和峰值帧的特征提取方 法 Bi-WOOF 和 OFF-ApexNet,识别效果非常显著。 为了减少计算量,更加高效、快捷地将微表情进 行分类,本文选取微表情视频序列中已标注的 Apex 帧进行处理。 1.2 人脸图像预处理 (x1, y1) (x2, y2) θ 在图像预处理过程中,使用 OpenCV 和 Dlib 库实现人脸 68 个关键特征点检测并进行标注。 由于摄像头采集的人脸图像存在姿态多样、角度 多样等问题,通过人脸对齐使之更符合微表情识 别的需求。在已标注的特征关键点中选取左内眼 角坐标 和右内眼角坐标 ,人脸水平 夹角 和人眼距离 dist 计算公式如式 (1) 所示: θ = arctan[(y2 −y1)/(x2 − x1)] dist = √ (y2 −y1) 2 +(x2 − x1) 2 (1) 将人脸眼距的中点作为旋转中心 (x0, y0) ,则 旋转后的坐标计算公式如式 (2) 所示: { x ′ = (x− x0) cos θ+(y−y0)(−sinθ)+ x0 y ′ = (x− x0) sinθ+(y−y0) cos θ+y0 (2) 2 深度学习框架设计 深度学习的框架设计部分将分别介绍空间注 意力机制、通道注意力机制、残差学习单元集成 双注意力模型的方法、损失函数的选择、迁移学 习的运用方式。 2.1 空间注意力机制 空间注意力机制专注于特征图中的重要空间 ·1016· 智 能 系 统 学 报 第 16 卷
第6期 徐玮,等:基于双注意力模型和迁移学习的Apex帧微表情识别 ·1017· 信息部分,本文使用的空间注意力模块(spatial at- 空间注意力 模块 tention module)如图2所示。将特征图作为空间 ReLU 输出 注意力模块的输入,分别在最大池化操作和平均 激活 特征图 池化操作后进行拼接,接着采用核为7×7的卷积 通道注意力 模块 提取感受野,最后通过Sigmoid激活函数生成空 间注意力特征图。空间注意力模块定义为 S(F)=(f7x7(Concat[MaxPool(F):AvgPool(F))) 图4集成双注意力模块的残差学习单元 (3) Fig.4 Residual learning unit integrated with a dual atten- tion module 最大 池化 2.4损失函数 特征图 拼接 器 输出 由于微表情持续时间短、区别度低、采集难 平均 度高,微表情数据集中常常出现样本分布不平衡 池化 的现象。为了解决这一问题,本文使用Focal 图2空间注意力模块 Loss函数。该损失函数是交叉嫡损失函数的改进 Fig.2 Spatial attention module 版本,一个二分类交叉熵损失函数可以表示为 2.2通道注意力机制 CE(p,y)= -log(p).y=1 通道注意力机制关注不同特征通道的权重分 1-log(1-p以,其他 (6) 布,本文使用的通道注意力模块(channel attention 式中p表示模型预测属于类别y=1的概率。为 module)如图3所示。假设输入特征图FERCxHxW, 了方便标记,定义为 C、H和W分别代表特征图的通道数、高和宽, p,y=1 分别经过最大池化和平均池化后得到特征图 p=1-p其他 (7) Fm∈RCxlxi1和F。∈RCxI,接着将Fm和F。分别依 即交叉熵CE为 次进行核为1×1的卷积、ReLU激活函数、核为 CE(p,y)=CE(p,)=-log(p,) (8) 1×1的卷积,然后对这两个输出向量按元素求和, Focal Loss在交叉嫡损失的基础上添加一个 得到尺度为[C×1×1]的向量,最后该向量通过 调制系数(1-pP,其中y≥0,定义为 Sigmoid激活函数得到通道权重结果。通道注意 FL(p:)=-(1-p:)log(p:) (9) 力模块定义为 其作用在于通过赋予易分类样本较小的权 C(F)=(fix(ReLU(fix(MaxPool(F))))+ 重,赋予难分类样本较大的权重,使模型在训练 fixl(ReLU(fix(AvgPool(F))))) (4) 时更专注于难分类的样本,在一定程度上解决样 配圈器圈 本分布不平衡的问题。在多分类任务下,Focal Loss 则定义为 输人 Sigmoid 输出 特征图 激活 特征图 Fp.0=-∑∑al-iYyImpi+ 醒閣留图 (10) (1-a)p)y(1-y)ln(1-p】 图3通道注意力模块 式中α表示类别i的权重因子。 Fig.3 Channel attention module 2.5迁移学习 2.3残差学习单元集成双注意力模型 传统的深度学习中,模型充分预估结果需要 本文将空间注意力模块、通道注意力模块集成 数据集样本数量足够、训练数据和测试数据满足 到ResNet18网络的残差学习单元中,如图4所示。 同分布。由于微表情数据集的规模都非常小,直 具体流程为输人特征图F∈RCxHxW,与S∈RIxHxW 接应用于神经网络的训练可能会引发过拟合、准 元素相乘得到F,F再与CeRw1相乘得到F, 确率低等问题,而迁移学习可以从大型数据集中 最后F与F元素相加得到最终输出的特征图F"。 学习先验知识,将模型参数迁移至待训练的网络 相比CBAM的设计保留了更多原始特征图的细节 模型中,从而提高模型的训练效率。 信息,同时降低了整体网络的复杂度,更加适用 宏表情识别与微表情识别之间具有一定的共 于具有持续时间短、强度低的微表情。其定义为 同之处,比如都有高兴、惊奇、沮丧、恐惧、厌恶 F=S(F)⑧F 等表情标签,都能够反映人的情绪。但微表情一 F'=C(F)⑧F (5) 般是一段视频,而宏表情则是根据单张图片进行 F"=F⊕F 分类。因为本文选取微表情视频序列的Apex帧
信息部分,本文使用的空间注意力模块 (spatial attention module) 如图 2 所示。将特征图作为空间 注意力模块的输入,分别在最大池化操作和平均 池化操作后进行拼接,接着采用核为 7×7 的卷积 提取感受野,最后通过 Sigmoid 激活函数生成空 间注意力特征图。空间注意力模块定义为 S(F) = σ(f 7×7 (Concat[MaxPool(F);AvgPool(F)])) (3) 最大 池化 平均 池化 输入 特征图 输出 特征图 Sigmoid 激活 拼接 卷积 7×7 图 2 空间注意力模块 Fig. 2 Spatial attention module 2.2 通道注意力机制 F ∈ R C×H×W Fm ∈ R C×1×1 Fa ∈ R C×1×1 Fm Fa 通道注意力机制关注不同特征通道的权重分 布,本文使用的通道注意力模块 (channel attention module) 如图 3 所示。假设输入特征图 , C、H 和 W 分别代表特征图的通道数、高和宽, 分别经过最大池化和平均池化后得到特征图 和 ,接着将 和 分别依 次进行核为 1×1 的卷积、ReLU 激活函数、核为 1×1 的卷积,然后对这两个输出向量按元素求和, 得到尺度为 [C×1×1] 的向量,最后该向量通过 Sigmoid 激活函数得到通道权重结果。通道注意 力模块定义为 C(F) = σ(f 1×1 (ReLU(f 1×1 (MaxPool(F)))) + f 1×1 (ReLU(f 1×1 (AvgPool(F))))) (4) 最大 池化 平均 池化 输入 特征图 输出 特征图 Sigmoid 激活 卷积 1×1 卷积 1×1 卷积 1×1 卷积 1×1 ReLU 激活 ReLU 激活 图 3 通道注意力模块 Fig. 3 Channel attention module 2.3 残差学习单元集成双注意力模型 F ∈ R C×H×W S ∈ R 1×H×W F ′ F ′ C ∈ R C×1×1 F ′′ F ′′ F F ′′′ 本文将空间注意力模块、通道注意力模块集成 到 ResNet18 网络的残差学习单元中,如图 4 所示。 具体流程为输入特征图 ,与 元素相乘得到 , 再与 相乘得到 , 最后 与 元素相加得到最终输出的特征图 。 相比 CBAM 的设计保留了更多原始特征图的细节 信息,同时降低了整体网络的复杂度,更加适用 于具有持续时间短、强度低的微表情。其定义为 F ′ = S(F)⊗ F F ′′ = C(F)⊗ F ′ F ′′′ = F⊕ F ′′ (5) 空间注意力 模块 通道注意力 模块 输入 特征图 输出 特征图 ReLU 激活 图 4 集成双注意力模块的残差学习单元 Fig. 4 Residual learning unit integrated with a dual attention module 2.4 损失函数 由于微表情持续时间短、区别度低、采集难 度高,微表情数据集中常常出现样本分布不平衡 的现象。为了解决这一问题,本文使用 Focal Loss 函数。该损失函数是交叉熵损失函数的改进 版本,一个二分类交叉熵损失函数可以表示为 CE(p, y) = { −log(p), y = 1 −log(1− p), 其他 (6) 式中 p 表示模型预测属于类别 y = 1 的概率。为 了方便标记,定义为 pt = { p, y = 1 1− p, 其他 (7) 即交叉熵 CE 为 CE(p, y) = CE(pt) = −log(pt) (8) (1− pt) γ γ ⩾ 0 Focal Loss 在交叉熵损失的基础上添加一个 调制系数 ,其中 ,定义为 FL(pt) = −(1− pt) γ log(pt) (9) 其作用在于通过赋予易分类样本较小的权 重,赋予难分类样本较大的权重,使模型在训练 时更专注于难分类的样本,在一定程度上解决样 本分布不平衡的问题。在多分类任务下,Focal Loss 则定义为 FL(p, y) = − ∑ n ∑ i [α(1− p n i ) γ y n i lnp n i + (1−α)(p n i ) γ (1−y n i )ln(1− p n i )] (10) 式中 α 表示类别 i 的权重因子。 2.5 迁移学习 传统的深度学习中,模型充分预估结果需要 数据集样本数量足够、训练数据和测试数据满足 同分布。由于微表情数据集的规模都非常小,直 接应用于神经网络的训练可能会引发过拟合、准 确率低等问题,而迁移学习可以从大型数据集中 学习先验知识,将模型参数迁移至待训练的网络 模型中,从而提高模型的训练效率。 宏表情识别与微表情识别之间具有一定的共 同之处,比如都有高兴、惊奇、沮丧、恐惧、厌恶 等表情标签,都能够反映人的情绪。但微表情一 般是一段视频,而宏表情则是根据单张图片进行 分类。因为本文选取微表情视频序列的 Apex 帧 第 6 期 徐玮,等:基于双注意力模型和迁移学习的 Apex 帧微表情识别 ·1017·
·1018· 智能系统学报 第16卷 进行识别,即和宏表情识别的神经网络输入方式 3.3 实验设置 一样,所以迁移学习能够更好地应用。本文将宏 本实验在Windows 10系统环境下,预处理部 表情识别作为辅助域,微表情识别作为目标域, 分使用OpenCV、DIib库,神经网络基于PyTorch 通过迁移学习共享模型参数提高识别准确率。 深度学习框架进行搭建,同时使用NVDIA CUDA 框架10.1和cuDNN8.0.3库。实验硬件平台中央 3实验结果与分析 处理器为Intel Core i9-9900X,内存为64GB,显卡 3.1微表情数据集 型号为NVDIA GeForce RTX2080TI×2,硬盘为 SAMSUNG 970 EVO PLUS ITB. 实验使用中国科学院心理研究所傅小兰课题 组提供的CASMEⅡ微表情数据集,包括255个 本文使用留一交叉验证法(leave-one-subject- out cross-validation,LOSOCV),即将每位采集对象 微表情视频样本,采样率为200f/s,分辨率为 分别作为测试集,对CASMEⅡ微表情数据集一 280像素×340像素.26位采集对象均来自亚洲. 共进行26个训练测试过程。目前的研究工作中 平均年龄22.03岁。微表情分类为厌恶(63个样 多采用此验证方法,优点在于每次迭代中都使用 本)、高兴(32个样本)、惊奇(28个样本)、压抑 了最大可能数目的样本来训练,充分利用数据, (27个样本)、沮丧(4个样本)、恐惧(2个样本)和 采样具有确定性,而且由于微表情数据集样本数 其他(99)共7种。由于沮丧和恐惧两种类型的样 较少,不会造成很大的计算开销。另外,每位采 本数量过少,因此本实验仅使用其余5类共249 集对象的微表情之间具有一定的差异性,将单独 个样本进行实验,其组成分布如图5所示。可以 一位采集对象的所有微表情样本作为测试集,能 看到,“其他”的样本数量占据了很大一部分。 够更好地反应方法的泛化能力。该数据集中已经 厌恶势高兴■惊奇■压抑m其他 标注了Apex帧的位置,直接采用数据集中标注 262524 的峰值帧作为实验所用的Apex帧。由于数据集 中每位采集对象包含的微表情类别及样本数量差 异较大,所以使用留一交叉验证法是个极大的挑 19 战。在留一交叉验证的过程中,所有的微表情样 本都会被分类器运算一次,本文采用对数据集整 体准确率判定的方式评价模型的性能,其准确率 54 计算公式为 13 法 准确率-被正确识别的微表情样本总数 微表情数据集样本总数 ×100%(11) 为了研究Focal Loss函数在微表情识别方面 0 的有效性,本文在原生ResNet18的基础上对比使 04 用Cross Entropy Loss函数,进行了2组实验。将 原始图片均处理为224像素×224像素大小输入 02 01 网络,初始学习率设为0.001,每批次包含249张 10 1520 25 30 35 各类别数量/张 图片,在实验中使用两张显卡并行计算。实验结 果如表1所示,在使用Focal Loss函数后,其识别 图5 CASMEⅡ数据集样本分布 准确率提升了1.21%,证明使用Focal Loss函数在 Fig.5 Sample distribution of CASME II database 微表情样本不平衡的情况下对于微表情识别有着 3.2宏表情数据集 更好的性能。 迁移学习采用来自卡耐基梅隆大学的The 表1各损失函数实验结果对比 Extended Cohn-Kanade Dataset(CK+)2数据集,该 Table 1 Comparison of experimental results of various 数据集包含123位录制者的593组表情序列,其 loss functions 中有327组被标注为愤怒、厌恶、恐惧、高兴、沮丧 识别方法 准确率% 惊奇和蔑视,共7种表情类别。与CASME II微 ResNet18+Cross Entropy Loss 37.34 表情数据集中每个表情序列包含起始帧至终止帧 ResNet18+Focal Loss 38.55 不同,该宏表情序列包含表情的中性状态至表情 的最大表达状态。本文从带标签的表情序列中选 为了研究空间注意力模块、通道注意力模块 取表现比较强烈的共981张图片作为实验数据。 和混合注意力模块对于微表情识别是否有效,本
进行识别,即和宏表情识别的神经网络输入方式 一样,所以迁移学习能够更好地应用。本文将宏 表情识别作为辅助域,微表情识别作为目标域, 通过迁移学习共享模型参数提高识别准确率。 3 实验结果与分析 3.1 微表情数据集 实验使用中国科学院心理研究所傅小兰课题 组提供的 CASME II 微表情数据集[21] ,包括 255 个 微表情视频样本,采样率为 200 f/s,分辨率为 280 像素×340 像素,26 位采集对象均来自亚洲, 平均年龄 22.03 岁。微表情分类为厌恶 (63 个样 本)、高兴 (32 个样本)、惊奇 (28 个样本)、压抑 (27 个样本)、沮丧 (4 个样本)、恐惧 (2 个样本) 和 其他 (99) 共 7 种。由于沮丧和恐惧两种类型的样 本数量过少,因此本实验仅使用其余 5 类共 249 个样本进行实验,其组成分布如图 5 所示。可以 看到,“其他”的样本数量占据了很大一部分。 26 25 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 09 08 07 06 05 04 03 02 01 0 5 10 15 20 25 30 35 各类别数量/张 采集对象 厌恶 高兴 惊奇 压抑 其他 图 5 CASME II 数据集样本分布 Fig. 5 Sample distribution of CASME II database 3.2 宏表情数据集 迁移学习采用来自卡耐基梅隆大学的 The Extended Cohn-Kanade Dataset (CK+)[22] 数据集,该 数据集包含 123 位录制者的 593 组表情序列,其 中有 327 组被标注为愤怒、厌恶、恐惧、高兴、沮丧、 惊奇和蔑视,共 7 种表情类别。与 CASME II 微 表情数据集中每个表情序列包含起始帧至终止帧 不同,该宏表情序列包含表情的中性状态至表情 的最大表达状态。本文从带标签的表情序列中选 取表现比较强烈的共 981 张图片作为实验数据。 3.3 实验设置 本实验在 Windows 10 系统环境下,预处理部 分使用 OpenCV、Dlib 库,神经网络基于 PyTorch 深度学习框架进行搭建,同时使用 NVDIA CUDA 框架 10.1 和 cuDNN 8.0.3 库。实验硬件平台中央 处理器为 Intel Core i9-9900X,内存为 64 GB,显卡 型号为 NVDIA GeForce RTX 2080TI×2,硬盘为 SAMSUNG 970 EVO PLUS 1TB。 本文使用留一交叉验证法 (leave-one-subjectout cross-validation, LOSOCV),即将每位采集对象 分别作为测试集,对 CASME II 微表情数据集一 共进行 26 个训练测试过程。目前的研究工作中 多采用此验证方法,优点在于每次迭代中都使用 了最大可能数目的样本来训练,充分利用数据, 采样具有确定性,而且由于微表情数据集样本数 较少,不会造成很大的计算开销。另外,每位采 集对象的微表情之间具有一定的差异性,将单独 一位采集对象的所有微表情样本作为测试集,能 够更好地反应方法的泛化能力。该数据集中已经 标注了 Apex 帧的位置,直接采用数据集中标注 的峰值帧作为实验所用的 Apex 帧。由于数据集 中每位采集对象包含的微表情类别及样本数量差 异较大,所以使用留一交叉验证法是个极大的挑 战。在留一交叉验证的过程中,所有的微表情样 本都会被分类器运算一次,本文采用对数据集整 体准确率判定的方式评价模型的性能,其准确率 计算公式为 准确率= 被正确识别的微表情样本总数 微表情数据集样本总数 ×100% (11) 为了研究 Focal Loss 函数在微表情识别方面 的有效性,本文在原生 ResNet18 的基础上对比使 用 Cross Entropy Loss 函数,进行了 2 组实验。将 原始图片均处理为 224 像素×224 像素大小输入 网络,初始学习率设为 0.001,每批次包含 249 张 图片,在实验中使用两张显卡并行计算。实验结 果如表 1 所示,在使用 Focal Loss 函数后,其识别 准确率提升了 1.21%,证明使用 Focal Loss 函数在 微表情样本不平衡的情况下对于微表情识别有着 更好的性能。 表 1 各损失函数实验结果对比 Table 1 Comparison of experimental results of various loss functions 识别方法 准确率/% ResNet18 + Cross Entropy Loss 37.34 ResNet18 + Focal Loss 38.55 为了研究空间注意力模块、通道注意力模块 和混合注意力模块对于微表情识别是否有效,本 ·1018· 智 能 系 统 学 报 第 16 卷
第6期 徐玮,等:基于双注意力模型和迁移学习的Apex帧微表情识别 ·1019· 文在使用Focal Loss函数的基础上进行了4组对 4结束语 比实验,分别是原生ResNet18模型、融合空间注 意力模块的ResNet18模型、融合通道注意力模块 本文使用集成空间、通道双注意力机制的 的ResNet18模型和融合双注意力模块的ResNet18 ResNet18网络,更加关注微表情的细节特征,同 模型,识别准确率如表2所示。可以看到,3种融 时引入Focal Loss函数缓解微表情数据集样本类 合注意力模块的方法在识别准确率方面,相比较 别不平衡的状况。在CK+宏表情数据集上预训练 原生ResNet18分别提升了4.02%、2.41%和4.82%, 后,迁移模型参数至CASMEⅡ微表情数据集再 证明该双注意力机制有助于微表情识别。 进行训练测试,取得了不错的识别效果。考虑到 表2各神经网络实验结果对比 本文算法仅使用微表情视频序列中的Apex帧, Table 2 Comparison of experimental results of various 相比现有的一些算法有着更为广泛的适用场景。 neural networks 后续研究将进一步关注于微表情数据集中样本的 识别方法 准确率% 平衡性问题,同时更深地挖掘宏表情与微表情之 ResNet18(baseline) 38.55 间的关联,提高微表情识别的精度。 ResNet18+spatial 42.57 ResNet18+channel 40.96 参考文献: ResNet18 spatial channel 43.37 [1]SHEN Xunbing.WU Qi.FU Xiaolan.Effects of the dura- 结合Focal Loss和双注意力模块的识别算法 tion of expressions on the recognition of microexpre- 在CASME IⅡ数据上实验,得到最终准确率为 ssions[J].Journal of Zhejiang University SCIENCE B. 43.37%。将该算法应用于CK+数据集,按照 2012,13(3:221-230 8:2划分训练集和测试集,多次训练后选取测试 [2]ZHAO Guoying,PIETIKAINEN M.Dynamic texture re- 集准确率最高为94.38%的模型进行迁移学习。 cognition using local binary patterns with an application to 在模型预训练后,微表情识别准确率提升至44.97%。 facial expressions[J].IEEE transactions on pattern analys- 为了进一步全面衡量分类器的性能,在实验中增 is and machine intelligence,2007,29(6):915-928. 加另外一个评价标准F值(F1-score)),其定义为 [3]WANG Yandan,SEE J,PHAN R C W,et al.LBP with six F:=2x PxR intersection points:reducing redundant information in (12) P+R LBP-TOP for micro-expression recognition[C]//Proceed- TP ings of the 12th Asian Conference on Computer Vision. P=P+F甲 (13) Singapore,Singapore,2014:525-537. TP R=TP+FN (14) [4]卢官明,杨成,杨文娟,等.基于LBP-TOP特征的微表情 识别U.南京邮电大学学报(自然科学版),2017,37(6): 式中:TP表示真阳性(true positive)的个数;FP表 1-7. 示假阳性(false positive)的个数;FN表示假阴性 LU Guanming,YANG Cheng,YANG Wenjuan,et al.Mi- (false negative)的个数;P代表准确率;R代表召回 cro-expression recognition based on LBP-TOP features[J]. 率。表3给出了各种方法在CASME IⅡ数据集上 Journal of Nanjing University of Posts and Telecommunic- 的实验结果,本文算法在准确率方面相比其他微 ations (natural science edition),2017,37(6):1-7. 表情识别方法有一定的提升,在F,值方面也优于 [5]WANG Sujing,YAN Wenjing,LI Xiaobai,et al.Micro- 大多数算法。 expression recognition using dynamic textures on tensor 表3 CASMEⅡ数据集实验结果对比 independent color space[C]//Proceedings of the 22nd Inter- Table 3 Comparison of experimental results on CASME II national Conference on Pattern Recognition.Stockholm. database Sweden,2014:4678-4683 识别方法 准确率%F1值 分类数目 [6]WANG Sujing,YAN Wenjing,LI Xiaobai,et al.Micro- LBpRoT expression recognition using color spaces[J].IEEE transac- 39.68 0.3589 5 OSW 3 tions on image processing,2015,24(12):6034-6047. 41.70 0.3820 5 FDMm [7]XU Feng,ZHANG Junping,WANG J Z.Microexpression 41.96 0.2972 AdaBoost4 identification and categorization using a facial dynamics 38.76 0.2609 5 map[J].IEEE transactions on affective computing,2017, AdaBoost+STM+TIM4 43.78 0.3337 8(2:254-267. 本文算法(未迁移学习) 43.37 0.3513 [8]LIU Yongjin,ZHANG Jinkai,YAN Wenjing,et al.A main 本文算法(迁移学习后) 44.97 0.3784 directional mean optical flow feature for spontaneous mi-
文在使用 Focal Loss 函数的基础上进行了 4 组对 比实验,分别是原生 ResNet18 模型、融合空间注 意力模块的 ResNet18 模型、融合通道注意力模块 的 ResNet18 模型和融合双注意力模块的 ResNet18 模型,识别准确率如表 2 所示。可以看到,3 种融 合注意力模块的方法在识别准确率方面,相比较 原生 ResNet18 分别提升了 4.02%、2.41% 和 4.82%, 证明该双注意力机制有助于微表情识别。 表 2 各神经网络实验结果对比 Table 2 Comparison of experimental results of various neural networks 识别方法 准确率/% ResNet18 (baseline) 38.55 ResNet18 + spatial 42.57 ResNet18 + channel 40.96 ResNet18 + spatial + channel 43.37 F1 F1 结合 Focal Loss 和双注意力模块的识别算法 在 CASME II 数据上实验,得到最终准确率为 43.37%。将该算法应用于 CK+数据集,按照 8∶2 划分训练集和测试集,多次训练后选取测试 集准确率最高为 94.38% 的模型进行迁移学习。 在模型预训练后,微表情识别准确率提升至 44.97%。 为了进一步全面衡量分类器的性能,在实验中增 加另外一个评价标准 值 ( -score),其定义为 F1 = 2× P×R P+R (12) P = TP TP+FP (13) R = TP TP+FN (14) F1 式中:TP 表示真阳性 (true positive) 的个数;FP 表 示假阳性 (false positive) 的个数;FN 表示假阴性 (false negative) 的个数;P 代表准确率;R 代表召回 率。表 3 给出了各种方法在 CASME II 数据集上 的实验结果,本文算法在准确率方面相比其他微 表情识别方法有一定的提升,在 值方面也优于 大多数算法。 表 3 CASME II 数据集实验结果对比 Table 3 Comparison of experimental results on CASME II database 识别方法 准确率/% F1 值 分类数目 LBP[20] 39.68 0.3589 5 OSW [23] 41.70 0.3820 5 FDM [7] 41.96 0.2972 5 AdaBoost [24] 38.76 0.2609 5 AdaBoost + STM + TIM [24] 43.78 0.3337 5 本文算法(未迁移学习) 43.37 0.3513 5 本文算法(迁移学习后) 44.97 0.3784 5 4 结束语 本文使用集成空间、通道双注意力机制的 ResNet18 网络,更加关注微表情的细节特征,同 时引入 Focal Loss 函数缓解微表情数据集样本类 别不平衡的状况。在 CK+宏表情数据集上预训练 后,迁移模型参数至 CASME II 微表情数据集再 进行训练测试,取得了不错的识别效果。考虑到 本文算法仅使用微表情视频序列中的 Apex 帧, 相比现有的一些算法有着更为广泛的适用场景。 后续研究将进一步关注于微表情数据集中样本的 平衡性问题,同时更深地挖掘宏表情与微表情之 间的关联,提高微表情识别的精度。 参考文献: SHEN Xunbing, WU Qi, FU Xiaolan. Effects of the duration of expressions on the recognition of microexpressions[J]. Journal of Zhejiang University SCIENCE B, 2012, 13(3): 221–230. [1] ZHAO Guoying, PIETIKAINEN M. Dynamic texture recognition using local binary patterns with an application to facial expressions[J]. IEEE transactions on pattern analysis and machine intelligence, 2007, 29(6): 915–928. [2] WANG Yandan, SEE J, PHAN R C W, et al. LBP with six intersection points: reducing redundant information in LBP-TOP for micro-expression recognition[C]//Proceedings of the 12th Asian Conference on Computer Vision. Singapore, Singapore, 2014: 525-537. [3] 卢官明, 杨成, 杨文娟, 等. 基于 LBP-TOP 特征的微表情 识别 [J]. 南京邮电大学学报(自然科学版), 2017, 37(6): 1–7. LU Guanming, YANG Cheng, YANG Wenjuan, et al. Micro-expression recognition based on LBP-TOP features[J]. Journal of Nanjing University of Posts and Telecommunications (natural science edition), 2017, 37(6): 1–7. [4] WANG Sujing, YAN Wenjing, LI Xiaobai, et al. Microexpression recognition using dynamic textures on tensor independent color space[C]//Proceedings of the 22nd International Conference on Pattern Recognition. Stockholm, Sweden, 2014: 4678−4683. [5] WANG Sujing, YAN Wenjing, LI Xiaobai, et al. Microexpression recognition using color spaces[J]. IEEE transactions on image processing, 2015, 24(12): 6034–6047. [6] XU Feng, ZHANG Junping, WANG J Z. Microexpression identification and categorization using a facial dynamics map[J]. IEEE transactions on affective computing, 2017, 8(2): 254–267. [7] LIU Yongjin, ZHANG Jinkai, YAN Wenjing, et al. A main directional mean optical flow feature for spontaneous mi- [8] 第 6 期 徐玮,等:基于双注意力模型和迁移学习的 Apex 帧微表情识别 ·1019·
·1020· 智能系统学报 第16卷 cro-expression recognition[J].IEEE transactions on affect- frame[J].Signal processing:image communication,2018. ive computing,2016,7(4):299-310. 62:82-92. [9]张轩阁,田彦涛,郭艳君,等.基于光流与LBP-TOP特征 [20]GAN Y S,LIONG S T,YAU W C,et al.OFF-ApexNet 结合的微表情识别[).吉林大学学报(信息科学版), on micro-expression recognition system[J].Signal pro- 2015,33(5):516-523 cessing:image communication,2019,74:129-139. ZHANG Xuange,TIAN Yantao,GUO Yanjun,et al.Mi- [21]YAN Wenjing,LI Xiaobai,WANG Sujing,et al.CASME cro-Expression recognition based on feature combination II:an improved spontaneous micro-expression database of optical flow and LBP-TOP[J].Journal of Jilin Uni- and the baseline evaluation[J].PLoS One,2014,9(1): versity (information science edition),2015,33(5): e86041. 516-523. [22]LUCEY P,COHN J F,KANADE T,et al.The extended [10]OH Y H,LE NGO A C,SEE J,et al.Monogenic Riesz cohn-kanade dataset (ck+):a complete dataset for action wavelet representation for micro-expression recognition unit and emotion-specified expression[Cl//Proceedings of [C]//Proceedings of 2015 IEEE International Conference 2010 IEEE Computer Society Conference on Computer on Digital Signal Processing.Singapore,Singapore,2015: Vision and Pattern Recognition-Workshops.San Fran- 1237-1241 cisco,CA,USA,2010:94-101. [11]WU Qi,SHEN Xunbing,FU Xiaolan.The machine [23]LIONG ST,SEE J,PHAN R C W,et al.Subtle expres- knows what you are hiding:an automatic micro-expres- sion recognition using optical strain weighted features sion recognition system[C]//Proceedings of the 4th Inter- [C]//Proceedings of the Asian Conference on Computer national Conference on Affective Computing and Intelli- gent Interaction.Memphis,TN,USA,2011:152-162. Vision.Singapore,Singapore,2014:644-657. [12]ZHANG Peng,BEN Xianye,YAN Rui,et al.Micro-ex- [24]孔慧芳,钱世超,闫嘉鹏.基于不均衡数据与迁移学习 pression recognition system[J].Optik,2016,127(3): 的面部微表情识别】.合肥工业大学学报(自然科学 1395-1400. 版),2020,43(7):895-900. [13]PATEL D,HONG Xiaopeng,ZHAO Guoying.Selective KONG Huifang,QIAN Shichao,YAN Jiapeng.Image deep features for micro-expression recognition[C]// based facial micro-expression recognition using transfer Proceedings of the 23rd International Conference on Pat- learning on imbalanced data[J].Journal of Hefei Uni- tern Recognition.Cancun,Mexico,2016:2258-2263. versity of Technology (natural science edition),2020, [14]PENG Min,WANG Chongyang,CHEN Tong,et al.Dual 43(7):895-900. temporal scale convolutional neural network for micro- 作者简介: expression recognition[J].Frontiers in psychology,2017, 徐玮,硕士研究生,主要研究方向 8:1745 为机器学习、微表情识别。 [15]VERMA M,VIPPARTHI S K,SINGH G,et al.LEAR- Net:dynamic imaging network for micro expression re- cognition[J].IEEE transactions on image processing, 2019,29:1618-1627 [16]WOO S,PARK J,LEE J Y,et al.CBAM:convolutional block attention module[C]//Proceedings of the 15th 郑豪,教授,南京晓庄学院信息工 European Conference on Computer Vision.Munich,Ger- 程学院副院长,主要研究方向为人工 many,2018:3-19 智能、模式识别。主持及参与国家、省 [17]HE Kaiming,ZHANG Xiangyu,REN Shaoqing,et al. 级科学基金项目10余项。发表学术 Deep residual learning for image recognition[C]//Proceed- 论文30余篇。 ings of 2016 IEEE Conference on Computer Vision and Pattern Recognition.Las Vegas,USA,2016:770- 778. 杨种学,教授,南京晓庄学院副校 [18]LIN T Y,GOYAL P,GIRSHICK R,et al.Focal loss for 长,主要研究方向为人工智能、机器学 dense object detection[C]//Proceedings of 2017IEEE In- 习。发表学术论文10余篇。 ternational Conference on Computer Vision.Venice, Italy,2017:2980-2988. [19]LIONG S T,SEE J,WONG K S,et al.Less is more:mi- cro-expression recognition from video using apex
cro-expression recognition[J]. IEEE transactions on affective computing, 2016, 7(4): 299–310. 张轩阁, 田彦涛, 郭艳君, 等. 基于光流与 LBP-TOP 特征 结合的微表情识别 [J]. 吉林大学学报(信息科学版), 2015, 33(5): 516–523. ZHANG Xuange, TIAN Yantao, GUO Yanjun, et al. Micro-Expression recognition based on feature combination of optical flow and LBP-TOP[J]. Journal of Jilin University (information science edition), 2015, 33(5): 516–523. [9] OH Y H, LE NGO A C, SEE J, et al. Monogenic Riesz wavelet representation for micro-expression recognition [C]//Proceedings of 2015 IEEE International Conference on Digital Signal Processing. Singapore, Singapore, 2015: 1237−1241. [10] WU Qi, SHEN Xunbing, FU Xiaolan. The machine knows what you are hiding: an automatic micro-expression recognition system[C]//Proceedings of the 4th International Conference on Affective Computing and Intelligent Interaction. Memphis, TN, USA, 2011: 152−162. [11] ZHANG Peng, BEN Xianye, YAN Rui, et al. Micro-expression recognition system[J]. Optik, 2016, 127(3): 1395–1400. [12] PATEL D, HONG Xiaopeng, ZHAO Guoying. Selective deep features for micro-expression recognition[C]// Proceedings of the 23rd International Conference on Pattern Recognition. Cancun, Mexico, 2016: 2258−2263. [13] PENG Min, WANG Chongyang, CHEN Tong, et al. Dual temporal scale convolutional neural network for microexpression recognition[J]. Frontiers in psychology, 2017, 8: 1745. [14] VERMA M, VIPPARTHI S K, SINGH G, et al. LEARNet: dynamic imaging network for micro expression recognition[J]. IEEE transactions on image processing, 2019, 29: 1618–1627. [15] WOO S, PARK J, LEE J Y, et al. CBAM: convolutional block attention module[C]//Proceedings of the 15th European Conference on Computer Vision. Munich, Germany, 2018: 3−19. [16] HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al. Deep residual learning for image recognition[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA, 2016: 770− 778. [17] LIN T Y, GOYAL P, GIRSHICK R, et al. Focal loss for dense object detection[C]//Proceedings of 2017 IEEE International Conference on Computer Vision. Venice, Italy, 2017: 2980−2988. [18] LIONG S T, SEE J, WONG K S, et al. Less is more: micro-expression recognition from video using apex [19] frame[J]. Signal processing: image communication, 2018, 62: 82–92. GAN Y S, LIONG S T, YAU W C, et al. OFF-ApexNet on micro-expression recognition system[J]. Signal processing: image communication, 2019, 74: 129–139. [20] YAN Wenjing, LI Xiaobai, WANG Sujing, et al. CASME II: an improved spontaneous micro-expression database and the baseline evaluation[J]. PLoS One, 2014, 9(1): e86041. [21] LUCEY P, COHN J F, KANADE T, et al. The extended cohn-kanade dataset (ck+): a complete dataset for action unit and emotion-specified expression[C]//Proceedings of 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition-Workshops. San Francisco, CA, USA, 2010: 94−101. [22] LIONG S T, SEE J, PHAN R C W, et al. Subtle expression recognition using optical strain weighted features [C]//Proceedings of the Asian Conference on Computer Vision. Singapore, Singapore, 2014: 644-657. [23] 孔慧芳, 钱世超, 闫嘉鹏. 基于不均衡数据与迁移学习 的面部微表情识别 [J]. 合肥工业大学学报(自然科学 版), 2020, 43(7): 895–900. KONG Huifang, QIAN Shichao, YAN Jiapeng. Image based facial micro-expression recognition using transfer learning on imbalanced data[J]. Journal of Hefei University of Technology (natural science edition), 2020, 43(7): 895–900. [24] 作者简介: 徐玮,硕士研究生,主要研究方向 为机器学习、微表情识别。 郑豪,教授,南京晓庄学院信息工 程学院副院长,主要研究方向为人工 智能、模式识别。主持及参与国家、省 级科学基金项目 10 余项。发表学术 论文 30 余篇。 杨种学,教授,南京晓庄学院副校 长,主要研究方向为人工智能、机器学 习。发表学术论文 10 余篇。 ·1020· 智 能 系 统 学 报 第 16 卷