【人工智能基础】深度多尺度融合注意力残差人脸表情识别网络

团购合买资源类别：文库，文档格式：PDF，文档页数：9，文件大小：4.77MB

第17卷第2期智能系统学报 Vol.17 No.2 2022年3月 CAAI Transactions on Intelligent Systems Mar.2022 D0:10.11992/tis.202107028 网络出版地址：https:/kns.cnki.net/kcms/detail/23.1538.TP.20211202.1101.004.html 深度多尺度融合注意力残差人脸表情识别网络高涛，杨朝晨，陈婷，邵倩，雷涛 (1.长安大学信息工程学院，陕西西安710000：2.陕西科技大学电子信息与人工智能学院，陕西西安 710021) 摘要：针对人脸表情呈现方式多样化以及人脸表情识别易受光照、姿势、遮挡等非线性因素影响的问题，提出了一种深度多尺度融合注意力残差网络(deep multi-scale fusion attention residual network,DMFA-ResNet)。该模型基于ResNet-.50残差网络，设计了新的注意力残差模块，由7个具有三条支路的注意残差学习单元构成，能够对输入图像进行并行多卷积操作，以获得多尺度特征，同时引入注意力机制，突出重点局部区域，有利于遮挡图像的特征学习。通过在注意力残差模块之间增加过渡层以去除冗余信息，简化网络复杂度，在保证感受野的情况下减少计算量，实现网络抗过拟合效果。在3组数据集上的实验结果表明，本文提出的算法均优于对比的其他先进方法。关键词：人脸表情识别：残差网络：多尺度特征：注意力机制：遮挡人脸：卷积神经网络：特征融合：深度学习中图分类号：TP391文献标志码：A 文章编号：1673-4785(2022)02-0393-09 中文引用格式：高涛，杨朝晨，陈婷，等.深度多尺度融合注意力残差人脸表情识别网络J.智能系统学报，2022,17(2)： 393-401. 英文引用格式：GAO Tao,YANG Zhaochen,,CHEN Ting,etal.Deep multiscale fusion attention residual network for facial expres- sion recognition CAAI transactions on intelligent systems,2022,17(2):393-401. Deep multiscale fusion attention residual network for facial expression recognition GAO Tao',YANG Zhaochen',CHEN Ting',SHAO Qian',LEI Tao (1.School of Information Engineering,Chang'an University,Xi'an 710000,China;2.School of Electronic Information and Artificial Intelligence,Shaanxi University of Science and Technology,Xi'an 710021,China) Abstract:This paper proposes a deep multiscale fusion attention residual network based on the ResNet-50 model to solve the problems of the diversification of facial expression presentation and the susceptibility of facial expression re- cognition to nonlinear factors,such as illumination,posture,and occlusion.A novel attention residual module consist- ing of seven attention residual learning units with three branches is designed to perform multiple convolution operations on the input image in parallel and obtain multiscale features.To highlight important local areas,the attention mechan- ism is introduced simultaneously,which is conducive to the feature learning of the occluded images.Furthermore,a novel transition layer is added between the attention residual modules to remove redundant information,simplify the network complexity,reduce the amount of calculation while ensuring the receptive field,and realize the anti-overfitting effect of the network.Experimental results on three datasets demonstrate that the proposed algorithm is superior to other advanced methods. Keywords:facial expression recognition;residual network;multiscale features;attention mechanism;occlusion of hu- man faces;convolution neural network;feature fusion;deep learning 情绪包含大量的情感信息，当人们面对面交出来山。随着人工智能技术的飞速发展，人脸表流时，情绪会自动或不自觉地通过面部表情表现情识别(FER)已成为计算机图像处理中一个重要的研究课题。收稿日期：2021-07-16.网络出版日期：2021-12-05 人脸表情识别主要包括预处理、特征提取和基金项目：国家重点研发计划项目(2019YFE0108300:国家自然科学基金项目(62001058)：陕西省重点研发计划项分类识别3个部分。其中，算法识别精度高低目(2019GY-039:长安大学中央高校基本科研业务费专项资金项目(300102241201). 主要由特征提取方法决定。人脸表情特征提取方通信作者：陈婷.E-mail:tchenchd@I26.com 法主要分为基于传统特征提取的方法和基于深度

DOI: 10.11992/tis.202107028 网络出版地址: https://kns.cnki.net/kcms/detail/23.1538.TP.20211202.1101.004.html 深度多尺度融合注意力残差人脸表情识别网络高涛1 ，杨朝晨1 ，陈婷1 ，邵倩1 ，雷涛2 （1. 长安大学信息工程学院, 陕西西安 710000; 2. 陕西科技大学电子信息与人工智能学院, 陕西西安 710021）摘要：针对人脸表情呈现方式多样化以及人脸表情识别易受光照、姿势、遮挡等非线性因素影响的问题，提出了一种深度多尺度融合注意力残差网络 (deep multi-scale fusion attention residual network, DMFA-ResNet)。该模型基于 ResNet-50 残差网络，设计了新的注意力残差模块，由 7 个具有三条支路的注意残差学习单元构成，能够对输入图像进行并行多卷积操作，以获得多尺度特征，同时引入注意力机制，突出重点局部区域，有利于遮挡图像的特征学习。通过在注意力残差模块之间增加过渡层以去除冗余信息，简化网络复杂度，在保证感受野的情况下减少计算量，实现网络抗过拟合效果。在 3 组数据集上的实验结果表明，本文提出的算法均优于对比的其他先进方法。关键词：人脸表情识别；残差网络；多尺度特征；注意力机制；遮挡人脸；卷积神经网络；特征融合；深度学习中图分类号：TP391 文献标志码：A 文章编号：1673−4785(2022)02−0393−09 中文引用格式：高涛, 杨朝晨, 陈婷, 等. 深度多尺度融合注意力残差人脸表情识别网络 [J]. 智能系统学报, 2022, 17(2): 393–401. 英文引用格式：GAO Tao, YANG Zhaochen, CHEN Ting, et al. Deep multiscale fusion attention residual network for facial expression recognition[J]. CAAI transactions on intelligent systems, 2022, 17(2): 393–401. Deep multiscale fusion attention residual network for facial expression recognition GAO Tao1 ，YANG Zhaochen1 ，CHEN Ting1 ，SHAO Qian1 ，LEI Tao2 (1. School of Information Engineering, Chang’an University, Xi’an 710000, China; 2. School of Electronic Information and Artificial Intelligence, Shaanxi University of Science and Technology, Xi’an 710021, China) Abstract: This paper proposes a deep multiscale fusion attention residual network based on the ResNet-50 model to solve the problems of the diversification of facial expression presentation and the susceptibility of facial expression recognition to nonlinear factors, such as illumination, posture, and occlusion. A novel attention residual module consisting of seven attention residual learning units with three branches is designed to perform multiple convolution operations on the input image in parallel and obtain multiscale features. To highlight important local areas, the attention mechanism is introduced simultaneously, which is conducive to the feature learning of the occluded images. Furthermore, a novel transition layer is added between the attention residual modules to remove redundant information, simplify the network complexity, reduce the amount of calculation while ensuring the receptive field, and realize the anti-overfitting effect of the network. Experimental results on three datasets demonstrate that the proposed algorithm is superior to other advanced methods. Keywords: facial expression recognition; residual network; multiscale features; attention mechanism; occlusion of human faces; convolution neural network; feature fusion; deep learning 情绪包含大量的情感信息，当人们面对面交流时，情绪会自动或不自觉地通过面部表情表现出来[1]。随着人工智能技术的飞速发展，人脸表情识别 (FER) 已成为计算机图像处理中一个重要的研究课题。人脸表情识别主要包括预处理、特征提取和分类识别 3 个部分[2]。其中，算法识别精度高低主要由特征提取方法决定。人脸表情特征提取方法主要分为基于传统特征提取的方法和基于深度收稿日期：2021−07−16. 网络出版日期：2021−12−05. 基金项目：国家重点研发计划项目 (2019YFE0108300); 国家自然科学基金项目 (62001058); 陕西省重点研发计划项目 (2019GY-039); 长安大学中央高校基本科研业务费专项资金项目 (300102241201). 通信作者：陈婷. E-mail：tchenchd@126.com. 第 17 卷第 2 期智能系统学报 Vol.17 No.2 2022 年 3 月 CAAI Transactions on Intelligent Systems Mar. 2022

·394· 智能系统学报第17卷学习的方法。传统的特征提取方法主要包括局信息，且均为完整网络结构，不易迁移。Hú等6 部二值模式(LBP)、类Haar特征、Gabor小波变学者采用全新特征重标定方式提出一种通道注意换和方向梯度直方图(HOG)等。Li等m基于力网络(SE-Net),显示建模特征通道之间的相互 LBP方法提出了一种使用三个正交平面的局部二依赖关系，进而提升有用特征并抑制用处不大的值基线方法(LBP-TOP),一定程度上消除了光照特征，且能够直接集成到现有网络中，计算代价变化的影响，但旋转不变性使得算子对方向信息小，没有冗余信息。过于敏感。为了解决这一问题，Rivera等1学者针对上述问题，本文提出一种深度多尺度融提出的局部特征描述符LDN利用梯度信息使得合注意力残差网络(deep multi-scale fusion atten-. 算子对光照变化和噪声具有较强的鲁棒性。然 tion residual network,.DMFA-ResNet),主要改进包而，传统的表情识别算法无法有效处理由于不同括以下3个方面：姿势、遮挡等引起的非线性面部外观变化，难以 1)设计了一个由7个注意力残差学习单元构有效提高分类水平。成的注意力残差模块，注意力残差学习单元由近年来，深度学习凭借其优异的特征提取能 2条包含卷积层的支路和1个短路链接构成，将力逐步应用于人脸表情识别领域。Kim等学者融合后的特征经过注意力机制，对输入图像进行对适用于大规模图像识别的VGG-face模型进行并行多卷积操作，以获得图像多尺度特征，突出渐进式微调识别人脸表情，但大多数人脸表情数局部重点区域，有利于遮挡图像特征学习：据库样本较少导致该网络易出现过拟合问题。An 2)提出多尺度融合模块，网络整体将各个注等o学者提出了一种基于MMN线性激活函数的意力残差模块的特征输出进行多尺度融合，以获自适应模型参数初始化方法，可有效克服过拟合取更丰富的图像特征：问题，但面对含有大量表情无关因素时算法鲁棒 3)在网络模型中增加过渡层以去除冗余信性较差。Xie等学者提出了一种多路径变异抑息，在保证感受野的情况下简化网络复杂度。并制网络(MPVS-NET),但该网络速度较慢且不宜使用全局平均池化+Dropout的设计减少参数运收敛。由于模糊的面部表情、低质的面部图像及算，使网络具有更好的抗过拟合性能。注释者的主观性带来的不确定性，对定性的大规 1 DMFA-ResNet算法模面部表情数据集进行标注是非常困难的。针对这一问题，Wang等学者提出了一种能有效抑制 l.1 ResNet网络结构不确定性的自修复网络(SCN),防止网络过度拟 ResNet网络通过引入残差模块，在算法前向合不确定的人脸图像。一般来说，深层网络更易传播过程中使得卷积层之间形成跳跃连接，实现提取到具有丰富语义信息的深层特征。但过深的对输入、输出的恒等映射，并采用1×1、3×3的小网络容易出现梯度爆炸或梯度消失现象。针对这卷积核，在解决网络退化问题的同时进一步加深一问题，He等学者提出了深度残差网络(ResNet), 网络，ResNet-50的基本残差学习单元如图1 利用短路链接使得梯度正常回传，较好地解决了所示。网络退化问题。但训练参数量仍旧较大，且残差网络并没有考虑不同尺度特征之间的相互关系对特征识别的影响，导致大量有效特征丢失。 1xI(reduce dimension) 上述研究均使用完整特征图作为特征输入，然而在实际分类任务中，特征的作用程度是不同 ReLU 的。为了突出对特征识别有效的信息，一些研究 X】 3×3 引入了注意力机制。Li等学者提出了一种具 ReLU 有注意力机制的CNN网络结构可识别脸部遮挡 1x1 (increase dimension) 区域，但网络依赖于人脸关键点检测，遮挡面积较大时，关键点难以与人脸数据集生成映射。在 F(x)+x (+ 此基础上，Liu等学者提出了一种条件CNN增 ReLU 强型随机森林算法(CoNERF),从显著引导的人脸图1残差学习单元区域中提取深层特征，抑制光照、遮挡和低分辨率 Fig.1 Residual learning unit 带来的影响。然而上述方法仍保留了较多的冗余图1中，x表示输人，F(x)表示残差映射，残差

学习的方法[3]。传统的特征提取方法主要包括局部二值模式 (LBP)[4] 、类 Haar 特征[5] 、Gabor 小波变换 [6] 和方向梯度直方图 (HOG) 等。Li 等 [7] 基于 LBP 方法提出了一种使用三个正交平面的局部二值基线方法 (LBP-TOP)，一定程度上消除了光照变化的影响，但旋转不变性使得算子对方向信息过于敏感。为了解决这一问题，Rivera 等 [8] 学者提出的局部特征描述符 LDN 利用梯度信息使得算子对光照变化和噪声具有较强的鲁棒性。然而，传统的表情识别算法无法有效处理由于不同姿势、遮挡等引起的非线性面部外观变化，难以有效提高分类水平。近年来，深度学习凭借其优异的特征提取能力逐步应用于人脸表情识别领域。Kim 等 [9] 学者对适用于大规模图像识别的 VGG-face 模型进行渐进式微调识别人脸表情，但大多数人脸表情数据库样本较少导致该网络易出现过拟合问题。An 等 [10] 学者提出了一种基于 MMN 线性激活函数的自适应模型参数初始化方法，可有效克服过拟合问题，但面对含有大量表情无关因素时算法鲁棒性较差。Xie 等 [11] 学者提出了一种多路径变异抑制网络 (MPVS-NET)，但该网络速度较慢且不宜收敛。由于模糊的面部表情、低质的面部图像及注释者的主观性带来的不确定性，对定性的大规模面部表情数据集进行标注是非常困难的。针对这一问题，Wang 等 [12] 学者提出了一种能有效抑制不确定性的自修复网络 (SCN)，防止网络过度拟合不确定的人脸图像。一般来说，深层网络更易提取到具有丰富语义信息的深层特征。但过深的网络容易出现梯度爆炸或梯度消失现象。针对这一问题，He 等 [13] 学者提出了深度残差网络 (ResNet)，利用短路链接使得梯度正常回传，较好地解决了网络退化问题。但训练参数量仍旧较大，且残差网络并没有考虑不同尺度特征之间的相互关系对特征识别的影响，导致大量有效特征丢失。上述研究均使用完整特征图作为特征输入，然而在实际分类任务中，特征的作用程度是不同的。为了突出对特征识别有效的信息，一些研究引入了注意力机制。Li 等 [14] 学者提出了一种具有注意力机制的 CNN 网络结构可识别脸部遮挡区域，但网络依赖于人脸关键点检测，遮挡面积较大时，关键点难以与人脸数据集生成映射。在此基础上，Liu 等 [15] 学者提出了一种条件 CNN 增强型随机森林算法 (CoNERF)，从显著引导的人脸区域中提取深层特征，抑制光照、遮挡和低分辨率带来的影响。然而上述方法仍保留了较多的冗余信息，且均为完整网络结构，不易迁移。Hu 等 [16] 学者采用全新特征重标定方式提出一种通道注意力网络 (SE-Net)，显示建模特征通道之间的相互依赖关系，进而提升有用特征并抑制用处不大的特征，且能够直接集成到现有网络中，计算代价小，没有冗余信息。针对上述问题，本文提出一种深度多尺度融合注意力残差网络 (deep multi-scale fusion attention residual network, DMFA-ResNet)，主要改进包括以下 3 个方面： 1）设计了一个由 7 个注意力残差学习单元构成的注意力残差模块，注意力残差学习单元由 2 条包含卷积层的支路和 1 个短路链接构成，将融合后的特征经过注意力机制，对输入图像进行并行多卷积操作，以获得图像多尺度特征，突出局部重点区域，有利于遮挡图像特征学习； 2）提出多尺度融合模块，网络整体将各个注意力残差模块的特征输出进行多尺度融合，以获取更丰富的图像特征； 3）在网络模型中增加过渡层以去除冗余信息，在保证感受野的情况下简化网络复杂度。并使用全局平均池化+ Dropout 的设计减少参数运算，使网络具有更好的抗过拟合性能。 1 DMFA-ResNet 算法 1.1 ResNet 网络结构 ResNet 网络通过引入残差模块，在算法前向传播过程中使得卷积层之间形成跳跃连接，实现对输入、输出的恒等映射，并采用 1×1、3×3 的小卷积核，在解决网络退化问题的同时进一步加深网络，ResNet-50 的基本残差学习单元如图 1 所示。 1×1 (reduce dimension) 3×3 1×1 (increase dimension) + ReLU ReLU ReLU F (x)+x x F (x) x 图 1 残差学习单元 Fig. 1 Residual learning unit 图 1 中，x表示输入， F(x) 表示残差映射，残差 ·394· 智能系统学报第 17 卷

第2期高涛，等：深度多尺度融合注意力残差人脸表情识别网络 ·395· 单元的输出为为[1,1，C的输出特征图，使得每个二维特征通道 H(x)=F(x)+x (1) 转换为一个具有全局感受野的实数。Fx通过对当残差F(x)=0,残差学习单元的功能就是恒每个通道生成权重，显式建模特征通道间的相关等映射：则深层L的输出为性，并逐通道加权到原始特征图上，完成通道维 H)=+∑F) (2) 度上的特征重标定，加强关键特征，抑制非显著特征，从而提高网络的整体表征能力。其反向梯度为 aLOSS aLOSS 2深度多尺度融合注意力残差网络 x 3H(XL) (3) 其中L0ss 基于ResNet-50残差网络，本文提出一种深度为损失函数的梯度下降。 0x 多尺度融合注意力残差网络(DMFA-ResNet),该 l.2SE-Net注意力模块网络由注意力残差模块(attention residual module, SE-Net是Hu等I学者提出的一种通道注意 ARM)、多尺度特征融合模块、过渡层、全局平均力网络，核心为特征压缩操作F和特征激励操作池化层、Dropout和Softmax分类层构成，网络结 Fx。Fg从通道维度将[H,W,C]的输入特征图压缩构如图2所示。 112×112×32 56×56×64 56×56×128 28×28×128 112×112×3 Input Transiition Conv-2 Conv-3 3x3 Conv Maxpool 过渡层 Attention Attention residual Conv-428×28×128 residual module module 注意力残差模块 Conv-.514×14×256 28×28×128 Output nodes Attention residual Conv-6 14×14×256 module Transiition Conv-7 7×7×512 14×14×256 7×7×1024 Global average·' Attention 7×7×512 pooling Dropout(0.8) residual Conv-8 module 7×7×512 Multi-scale feature fusion 图2DMFA-ResNet结构图 Fig.2 DMFA-ResNet structure 深度神经网络的输人图片一般较大，为避免元由两条残差学习支路、一条恒等映射支路和后续计算量爆炸，需要将输入图片进行下采样后 SE-Net注意力模块构成。为了使输入经过3×3卷再输入进卷积神经网络。原ResNet网络将输入积层后的特征图维数相同，通过残差学习支路的图像经过一个7×7大卷积层和最大池化层后，再第一个1×1卷积层对输入进行降维。通过对输入输入进后续残差模块。7×7大卷积层和最大池化图像进行并行的多卷积操作，使得网络能够提取层将输入图片的分辨率从224×224下采样至到不同深度的多尺度表情图像特征。再将这两条 56×56,在减少计算量的同时最大程度保留了原始残差学习支路所提取到的特征采用Concat方法进图像细节信息。DMFA-ResNet使用3个3×3小卷行融合，即将两个需要融合的特征图的通道进行积层代替原7×7大卷积层，在保证与原网络层相拼接，将两条残差学习支路输出的特征图融合后的同感受野的前提下，进一步提升了网络深度，使特征通过1×1卷积进行升维，确保输入、输出的得网络能够提取到更深层次的语义信息。维数相等。最后利用注意力机制突出重点局部区域， 2.1注意力残差模块获得图像更准确的特征以提高识别准确率，有利注意力残差模块(ARM由7个具有3条支路于遮挡图像的特征学习。注意力残差模块和注意的注意力残差学习单元构成。注意力残差学习单力残差单元的结构图分别如图3、4所示

单元的输出为 H(x) = F(x)+ x (1) F(x) = 0 L 当残差，残差学习单元的功能就是恒等映射；则深层的输出为 H(xL) = xl + ∑L−1 i=l F(xi) (2) 其反向梯度为 ∂LOSS ∂xl = ∂LOSS ∂H(xL) (3) ∂LOSS ∂xl 其中为损失函数的梯度下降。 1.2 SE-Net 注意力模块 Fsq Fex Fsq [H,W,C] SE-Net 是 Hu 等 [16] 学者提出的一种通道注意力网络，核心为特征压缩操作和特征激励操作。从通道维度将的输入特征图压缩 [1,1,C] Fex 为的输出特征图，使得每个二维特征通道转换为一个具有全局感受野的实数。通过对每个通道生成权重，显式建模特征通道间的相关性，并逐通道加权到原始特征图上，完成通道维度上的特征重标定，加强关键特征，抑制非显著特征，从而提高网络的整体表征能力。 2 深度多尺度融合注意力残差网络基于 ResNet-50 残差网络，本文提出一种深度多尺度融合注意力残差网络 (DMFA-ResNet)，该网络由注意力残差模块 (attention residual module, ARM)、多尺度特征融合模块、过渡层、全局平均池化层、Dropout 和 Softmax 分类层构成，网络结构如图 2 所示。 Attention residual module Attention residual module Attention residual module Transiition Transiition Feature maps Output nodes Softmax Input 3×3 Conv Maxpool Conv-1 Conv-2 Conv-3 Conv-4 Conv-5 Conv-6 Conv-7 Conv-8 Global average pooling Dropout (0.8) Transiition 注意力残差模块过渡层 Multi-scale feature fusion Attention residual module 112×112×3 112×112×32 56×56×64 56×56×128 28×28×128 28×28×128 14×14×256 14×14×256 7×7×512 7×7×512 7×7×512 14×14×256 28×28×128 7×7×1 024 图 2 DMFA-ResNet 结构图 Fig. 2 DMFA-ResNet structure 深度神经网络的输入图片一般较大，为避免后续计算量爆炸，需要将输入图片进行下采样后再输入进卷积神经网络。原 ResNet 网络将输入图像经过一个 7×7 大卷积层和最大池化层后，再输入进后续残差模块。7×7 大卷积层和最大池化层将输入图片的分辨率从 224×224 下采样至 56×56，在减少计算量的同时最大程度保留了原始图像细节信息。DMFA-ResNet 使用 3 个 3×3 小卷积层代替原 7×7 大卷积层，在保证与原网络层相同感受野的前提下，进一步提升了网络深度，使得网络能够提取到更深层次的语义信息。 2.1 注意力残差模块注意力残差模块 (ARM) 由 7 个具有 3 条支路的注意力残差学习单元构成。注意力残差学习单元由两条残差学习支路、一条恒等映射支路和 SE-Net 注意力模块构成。为了使输入经过 3×3 卷积层后的特征图维数相同，通过残差学习支路的第一个 1×1 卷积层对输入进行降维。通过对输入图像进行并行的多卷积操作，使得网络能够提取到不同深度的多尺度表情图像特征。再将这两条残差学习支路所提取到的特征采用 Concat 方法进行融合，即将两个需要融合的特征图的通道进行拼接，将两条残差学习支路输出的特征图融合后的特征通过 1×1 卷积进行升维，确保输入、输出的维数相等。最后利用注意力机制突出重点局部区域，获得图像更准确的特征以提高识别准确率，有利于遮挡图像的特征学习。注意力残差模块和注意力残差单元的结构图分别如图 3、4 所示。第 2 期高涛，等：深度多尺度融合注意力残差人脸表情识别网络 ·395·

·396· 智能系统学报第17卷图像中央且占据绝大部分像素，位置信息并不重 SE-NeD SE-Net 要。因此采用全局平均池化层代替全连接层加强图3。注意力残差模块特征图与类别的一致性，直接对空间信息进行求 Fig.3 Attention residual module 和实现降维，极大地减少了网络参数。Dropout原理又名随机失活原理，是指在网络训练过程中随正分支意抛弃某些神经元，破坏特征信息之间密切的交互作用，使得网络不会过于依赖某些局部特征，增强模型泛化性。本文使用全局平均池化+随机失活设计，简化 1X13×33×3 权重牙麦，SE.Net 网络复杂度，减少运算量，避免过拟合现象，进而图4注意力残差单元 Fig.4 Attention residual unit 提高网络泛化性。 2.2过渡层 3实验结果与分析随着网络深度不断加深，运算参数量持续增多，容易使得网络过度学习输入与输出之间的映 3.1实验环境与评价指标射关系，将大量干扰信息错认为重点特征。实验使用的深度学习框架为Tensorflow,计在注意力残差模块之间引人由一个3×3卷积算机操作系统为Windows100,显卡型号为NVIDIA 层和最大池化层组成的过渡层以去除冗余信息。 Quadro P4000,显存为8BG。 3×3卷积层能够在不改变特征图大小的情况下增实验使用错误率(error rate)、准确率(accuracy 大维数，提升网络线性转换能力。最大池化层能 rate)、混淆矩阵和Fl-score作为评价指标。够对输入图像进行下采样以减小参数矩阵的尺寸错误率是指预测值与真实值不相同的样本数以及卷积层参数误差造成估计均值的偏移，其结占总样本数的比例，准确率是指预测值与真实值构如图5所示。相同的样本数占总样本数的比例。将真阳性(TP)、假阳性(FP)、真阴性(TN)和假阴性(FN)4个指标一起呈现在表格中称为混淆矩阵。Fl-score为精准率和召回率的调和平均数，取值范围从0~1，其计算公式为 3×3 Conv Maxpool F1-score=2.Pre.Rec (4) Pre+Rec 图5过渡层结构 Fig.5 Transition layer structure 3.2实验数据集及预处理 2.3多尺度特征融合模块 3.2.1实验数据集经过各个注意力残差模块后，人脸表情图像实验采取3个人脸表情数据库验证算法有效的多尺度特征具有不同特点：浅层特征图尺寸较性，分别为CK+、JAFFE和Ouu-CASIA。大，通道数较少，具有丰富的细节信息；深层特征 CK+数据集共有123名实验者，实验共使用图尺寸较小，通道数较多，包含丰富的抽象语义 981张标记图片用于本文实验。JAFFE数据集共信息。因此本文设计了一个多尺度特征融合模块包含213个图像、7类表情，平均每人每种表情有将3个注意力残差模块产生的多尺度特征图进行 4张左右。Oulu-CASIA数据集由80个人的6类融合。首先将前两个注意力残差模块的输出特征基本表情构成，实验选取可见光成像系统下的经过最大池化操作下采样至7×7×128和7×7× Strong强光图像集，在每个序列中选取最后5个 256;然后通过Concat通道融合方法将下采样过峰值帧，形成共2400幅图像。后的输出特征图和最后一个注意力残差模块的输 3.2.2数据预处理出特征图进行融合；再将融合后的特征图使用由于人脸表情识别数据库样本较少，本文使 1×1卷积核进行升维，最终得到具有丰富特征信用裁剪、旋转以及遮挡方法对数据集进行扩充，息的7×7×1024输出特征图。具体步骤如下： 2.4全局平均池化+随机失活 1)首先对CK+和JAFFE数据集进行裁剪处通常情况下，神经网络都会添加全连接层减理，去除多余的背景，将背景对模型的影响降到少特征位置对分类带来的影响。但人脸基本位于最低

SE-Net ... + SE-Net + 输入图 3 注意力残差模块 Fig. 3 Attention residual module 输入 + 1×1 1×1 1×1 3×3 3×3 3×3 权重分支主分支 S X X Q SE-Net 图 4 注意力残差单元 Fig. 4 Attention residual unit 2.2 过渡层随着网络深度不断加深，运算参数量持续增多，容易使得网络过度学习输入与输出之间的映射关系，将大量干扰信息错认为重点特征。在注意力残差模块之间引入由一个 3×3 卷积层和最大池化层组成的过渡层以去除冗余信息。 3×3 卷积层能够在不改变特征图大小的情况下增大维数，提升网络线性转换能力。最大池化层能够对输入图像进行下采样以减小参数矩阵的尺寸以及卷积层参数误差造成估计均值的偏移，其结构如图 5 所示。 3×3 Conv Maxpool 图 5 过渡层结构 Fig. 5 Transition layer structure 2.3 多尺度特征融合模块经过各个注意力残差模块后，人脸表情图像的多尺度特征具有不同特点：浅层特征图尺寸较大，通道数较少，具有丰富的细节信息；深层特征图尺寸较小，通道数较多，包含丰富的抽象语义信息。因此本文设计了一个多尺度特征融合模块将 3 个注意力残差模块产生的多尺度特征图进行融合。首先将前两个注意力残差模块的输出特征经过最大池化操作下采样至 7×7×128 和 7×7× 256；然后通过 Concat 通道融合方法将下采样过后的输出特征图和最后一个注意力残差模块的输出特征图进行融合；再将融合后的特征图使用 1×1 卷积核进行升维，最终得到具有丰富特征信息的 7×7×1024 输出特征图。 2.4 全局平均池化+随机失活通常情况下，神经网络都会添加全连接层减少特征位置对分类带来的影响。但人脸基本位于图像中央且占据绝大部分像素，位置信息并不重要。因此采用全局平均池化层代替全连接层加强特征图与类别的一致性，直接对空间信息进行求和实现降维，极大地减少了网络参数。Dropout 原理又名随机失活原理，是指在网络训练过程中随意抛弃某些神经元，破坏特征信息之间密切的交互作用，使得网络不会过于依赖某些局部特征，增强模型泛化性。本文使用全局平均池化+随机失活设计，简化网络复杂度，减少运算量，避免过拟合现象，进而提高网络泛化性。 3 实验结果与分析 3.1 实验环境与评价指标实验使用的深度学习框架为 Tensorflow，计算机操作系统为 Windows10，显卡型号为 NVIDIA Quadro P4000，显存为 8BG。实验使用错误率 (error rate)、准确率 (accuracy rate)、混淆矩阵和 F1-score 作为评价指标。错误率是指预测值与真实值不相同的样本数占总样本数的比例，准确率是指预测值与真实值相同的样本数占总样本数的比例。将真阳性 (TP)、假阳性 (FP)、真阴性 (TN) 和假阴性 (FN)4 个指标一起呈现在表格中称为混淆矩阵。F1-score 为精准率和召回率的调和平均数，取值范围从 0~1，其计算公式为 F1-score = 2 · Pre ·Rec Pre+Rec (4) 3.2 实验数据集及预处理 3.2.1 实验数据集实验采取 3 个人脸表情数据库验证算法有效性，分别为 CK+、JAFFE 和 Oulu-CASIA。 CK+数据集共有 123 名实验者，实验共使用 981 张标记图片用于本文实验。JAFFE 数据集共包含 213 个图像、7 类表情，平均每人每种表情有 4 张左右。Oulu-CASIA 数据集由 80 个人的 6 类基本表情构成，实验选取可见光成像系统下的 Strong 强光图像集，在每个序列中选取最后 5 个峰值帧，形成共 2400 幅图像。 3.2.2 数据预处理由于人脸表情识别数据库样本较少，本文使用裁剪、旋转以及遮挡方法对数据集进行扩充，具体步骤如下： 1）首先对 CK+和 JAFFE 数据集进行裁剪处理，去除多余的背景，将背景对模型的影响降到最低。 ·396· 智能系统学报第 17 卷

第2期高涛，等：深度多尺度融合注意力残差人脸表情识别网络 ·397· 2)分别将JAFFE数据集图像以顺时针、逆时构成深度融合注意力残差网络DFAR(deep fusion 针旋转5°后的图像扩充数据集，扩充完毕共 attention residual network),在Oulu-CASIA数据集 852张标记图片用于实验，其中训练集680张，验上进行表情识别消融实验，实验结果如表3所示。证集172张，如表1所示。表3表情识别消融实验表1 JAFFE扩充数据集样本分布 Table 3 Ablation experiment of facial expression recogni- Table 1 Sample distribution of expanded JAFFE tion 类别数量张占比方法残差单元多尺度融合注意力机制A/% 愤怒 DFR + 91.16 120 0.14 厌恶 DMFR 91.69 116 0.13 恐惧 DFAR 91.53 128 0.15 快乐 DMFA-ResNet 92.57 124 0.15 中性 120 0.14 由表3可知，改进的基础残差模块网络DFR 悲伤 124 0.15 在Oulu-CASIA数据集上的识别率为91.16%。当惊讶 120 0.14 分别增加多尺度特征模块和注意力机制模块后， 0ulu-CASIA的识别率分别提升到91.69%和 3)通过在眼睛、嘴巴位置添加黑色框来模拟 91.53%,表明多尺度特征融合模块对网络的贡献现实中存在的遮挡情况，如由墨镜、口罩等引起。大于注意力机制模块。 3.3实验结果与分析为探讨注意残差单元数目对网络性能的影 3.3.1网络性能实验分析响，设置注意残差单元数目对比实验。在其余参 1)训练样本对性能影响数量基本一致的情况下，将注意残差单元数目分为探讨训练样本对网络性能的影响，设置训别设置为4、5、6、7、8、9，并在JAFFE数据集上进练样本数目对比实验。在其余参数量一致的情况行实验，实验结果由图6所示。下，在JAFFE扩充数据集(852张)上进行训练样 98 本分别为341、511、680的对比实验，实验结果如 96.3096.3496.35 94 表2所示。 93.60 邂90 表2训练样本对性能影响 Table 2 Effect of training sample number on performance 86 86.20 训练样本个验证样本/个测试集识别率A/% 828280 4 5 6 7 341 511 94.2 残差单元个数 511 341 94.7 图6注意残差单元个数对性能的影响 680 172 96.3 Fig.6 Effect of the number of attention residual elements on peraformance 由表2可知，随着训练样本不断增多，网络性由图6可知，当注意残差单元个数小于7时，能逐步增强，当训练样本为680个时，网络识别率算法识别率随残差单元个数的增加增幅明显。当达到最高96.3%，因此在网络训练过程中，应尽可注意残差单元个数为9时，算法识别率达到最高能增大训练样本数目，保证网络能够学习到足够 96.35%。但注意残差单元个数大于7时，识别率信息。增幅缓慢，考虑到网络复杂度对计算量及网络运 2)网络结构行速度带来的影响，最终选择将7个注意残差单为验证各个模块的有效性，设置包含针对不元作为一个注意残差模块。同模块的对比网络进行消融实验。在参数量基本 3.3.2无遮挡表情实验 ·致的情况下，以改进的基础残差模块网络DFR 表4是不同方法在Oulu-CASIA数据集上的 (deep fusion residual network)为对比基准，将多尺测试结果。结果表明，DFR算法在Oulu-CASIA 度特征融合模块添加进网络结构中构成深度多尺数据集上的识别率能够达到91.16%。DMFA-Res- 度融合残差网络DMFR(deep multi-scale fusion re- Net的识别率达到92.57%，比LCE的识别率高出 sidual network),将注意力机制添加进网络结构中 9.31%,比DFERM的识别率高出4.32%

2）分别将 JAFFE 数据集图像以顺时针、逆时针旋转 5 °后的图像扩充数据集，扩充完毕共 852 张标记图片用于实验，其中训练集 680 张，验证集 172 张，如表 1 所示。表 1 JAFFE 扩充数据集样本分布 Table 1 Sample distribution of expanded JAFFE 类别数量/张占比愤怒 120 0.14 厌恶 116 0.13 恐惧 128 0.15 快乐 124 0.15 中性 120 0.14 悲伤 124 0.15 惊讶 120 0.14 3）通过在眼睛、嘴巴位置添加黑色框来模拟现实中存在的遮挡情况，如由墨镜、口罩等引起。 3.3 实验结果与分析 3.3.1 网络性能实验分析 1) 训练样本对性能影响为探讨训练样本对网络性能的影响，设置训练样本数目对比实验。在其余参数量一致的情况下，在 JAFFE 扩充数据集 (852 张) 上进行训练样本分别为 341、511、680 的对比实验，实验结果如表 2 所示。表 2 训练样本对性能影响 Table 2 Effect of training sample number on performance 训练样本/个验证样本/个测试集识别率A/% 341 511 94.2 511 341 94.7 680 172 96.3 由表 2 可知，随着训练样本不断增多，网络性能逐步增强，当训练样本为 680 个时，网络识别率达到最高 96.3%，因此在网络训练过程中，应尽可能增大训练样本数目，保证网络能够学习到足够信息。 2) 网络结构为验证各个模块的有效性，设置包含针对不同模块的对比网络进行消融实验。在参数量基本一致的情况下，以改进的基础残差模块网络 DFR (deep fusion residual network) 为对比基准，将多尺度特征融合模块添加进网络结构中构成深度多尺度融合残差网络 DMFR (deep multi-scale fusion residual network)，将注意力机制添加进网络结构中构成深度融合注意力残差网络 DFAR (deep fusion attention residual network)，在 Oulu-CASIA 数据集上进行表情识别消融实验，实验结果如表 3 所示。表 3 表情识别消融实验 Table 3 Ablation experiment of facial expression recognition 方法残差单元多尺度融合注意力机制 A/% DFR √ × × 91.16 DMFR √ √ × 91.69 DFAR √ × √ 91.53 DMFA-ResNet √ √ √ 92.57 由表 3 可知，改进的基础残差模块网络 DFR 在 Oulu-CASIA 数据集上的识别率为 91.16%。当分别增加多尺度特征模块和注意力机制模块后， Oulu-CASIA 的识别率分别提升到 91.69% 和 91.53%，表明多尺度特征融合模块对网络的贡献大于注意力机制模块。为探讨注意残差单元数目对网络性能的影响，设置注意残差单元数目对比实验。在其余参数量基本一致的情况下，将注意残差单元数目分别设置为 4、5、6、7、8、9，并在 JAFFE 数据集上进行实验，实验结果由图 6 所示。 4 82.80 86.20 93.60 96.30 96.34 96.35 5 82 86 90 识别率 A/%94 98 6 7 8 残差单元个数 9 图 6 注意残差单元个数对性能的影响 Fig. 6 Effect of the number of attention residual elements on peraformance 由图 6 可知，当注意残差单元个数小于 7 时，算法识别率随残差单元个数的增加增幅明显。当注意残差单元个数为 9 时，算法识别率达到最高 96.35%。但注意残差单元个数大于 7 时，识别率增幅缓慢，考虑到网络复杂度对计算量及网络运行速度带来的影响，最终选择将 7 个注意残差单元作为一个注意残差模块。 3.3.2 无遮挡表情实验表 4 是不同方法在 Oulu-CASIA 数据集上的测试结果。结果表明，DFR 算法在 Oulu-CASIA 数据集上的识别率能够达到 91.16%。DMFA-ResNet 的识别率达到 92.57%，比 LCE 的识别率高出 9.31%，比 IDFERM 的识别率高出 4.32%。第 2 期高涛，等：深度多尺度融合注意力残差人脸表情识别网络 ·397·

·398· 智能系统学报第17卷表4不同方法在Oulu-CASIA数据集上的测试结果情况，一般由墨镜、口罩等引起。若局部区域被 Table 4 Test results of different methods on Oulu-CASIA 遮挡，卷积神经网络就难以抓住重点区域进行特 data sets 征提取，针对这种情况，本章将在遮挡的扩充数方法 A/% 据集上进行实验。表6和表7分别为各种算法在参数重要性正则1叼 88.19 CK+和JAFFE数据集上的遮挡。 DFLFls] 87.85 1.0 LCE 83.26 愤怒 )9 0.04 0.9 IDFERMI201 88.25 轻蔑 0.8 DeRLRI 88.0 0.7 厌恶 0.6 DFR 91.16 恐惧 1 0.5 DMFA-ResNet 92.57 快乐 0.4 表5是不同方法在CK+和JAFFE数据集上的 0.3 悲伤 0 0.2 测试结果。结果表明，DFR算法在CK+和JAFFE 0.1 数据集上分别能够达到99.68%和96.25%的识别惊讶 0 率。比文献[22]在两个数据集中的识别率分别高西g 出6.22%和1.5%，比文献[23]在两个数据集中的 (a)DFR在CK+上的混淆矩阵识别率分别高出2.92%和9.51%。 1.0 表5不同方法在CK+和JAFFE数据集上的测试结果愤怒 09 0.04 0.9 Table 5 Test results of different methods on CK+and 号厌恶 0.040 0.8 JAFFE data sets 0.7 方法 CK+数据集 JAFFE数据集恐惧 10创 0.6 DCMA-CNNsE☑ 94.75 快乐 09 93.46 0.04 0.5 CNN pre-processing 96.76 86.74 中性 0.4 10 0.3 WMDCNNEAI 98.50 92.3 悲伤 0.04 0.9 0.2 WMDNNR25] 97.02 92.21 0.08 0.1 HDNNS1261 惊讶 96.46 91.27 0 DFR 99.68 96.25 步型感 DMFA-ResNet 99.70 96.30 (b)DFR在JAFFE上的混淆矩阵图7DFR在CK+和JAFFE数据集上的混淆矩阵图7分别为DFR算法在CK+和JAFFE数据 Fig.7 Confusion matrix of DFR on CK+and JAFFE 集的混淆矩阵，其中DFR能够在CK+数据集上对轻蔑、厌恶、恐惧、快乐、悲伤和惊讶这六种表情表6CK+上遮挡表情识别达到100%识别率；在JAFFE数据集上对恐惧及 Table 6 occlusion facial expression recognition on CK+ oo 中性表情能够达到100%识别率，但惊喜表情容易被误判为中性表情，因此识别精度最低。方法眼睛遮挡嘴巴遮挡 DFR算法对比其他先进算法在识别率上有很 PCA+SVM 89.04 83.84 大提升，充分验证了改进的残差模块和过渡层能 CNN 91.69 89.17 够提取更加精确的人脸表情特征。DMFA-Res- DCGAN+CNN 87.83 8543 Net算法在CK+和JAFFE数据集上的识别率分别为99.7%和96.3%，比DFR算法在两个数据集中 end-to-end GAN 92.69 90.57 分别提高0.02%和0.05%，证明了引入注意力机微调VGGface 89.90 87.34 制模块和多尺度特征融合模块对提升人脸表情识 MU-VGGNet 94.06 91.63 别率是有利的。 DFR 93.81 92.78 3.3.3遮挡表情实验 DMFA-ResNet 95.31 93.81 实际生活中，人脸表情图像采集会伴有遮挡

表 4 不同方法在 Oulu-CASIA 数据集上的测试结果 Table 4 Test results of different methods on Oulu-CASIA data sets 方法 A/% 参数重要性正则[17] 88.19 DFLF[18] 87.85 LCE[19] 83.26 IDFERM[20] 88.25 DeRL[21] 88.0 DFR 91.16 DMFA-ResNet 92.57 表 5 是不同方法在 CK+和 JAFFE 数据集上的测试结果。结果表明，DFR 算法在 CK+和 JAFFE 数据集上分别能够达到 99.68% 和 96.25% 的识别率。比文献 [22] 在两个数据集中的识别率分别高出 6.22% 和 1.5%，比文献 [23] 在两个数据集中的识别率分别高出 2.92% 和 9.51%。表 5 不同方法在 CK+和 JAFFE 数据集上的测试结果 Table 5 Test results of different methods on CK+ and JAFFE data sets % 方法 CK+数据集 JAFFE数据集 DCMA-CNNs[22] 93.46 94.75 CNN pre-processing[23] 96.76 86.74 WMDCNN[24] 98.50 92.3 WMDNN[25] 97.02 92.21 HDNNS[26] 96.46 91.27 DFR 99.68 96.25 DMFA-ResNet 99.70 96.30 图 7 分别为 DFR 算法在 CK+和 JAFFE 数据集的混淆矩阵，其中 DFR 能够在 CK+数据集上对轻蔑、厌恶、恐惧、快乐、悲伤和惊讶这六种表情达到 100% 识别率；在 JAFFE 数据集上对恐惧及中性表情能够达到 100% 识别率，但惊喜表情容易被误判为中性表情，因此识别精度最低。 DFR 算法对比其他先进算法在识别率上有很大提升，充分验证了改进的残差模块和过渡层能够提取更加精确的人脸表情特征。DMFA-ResNet 算法在 CK+和 JAFFE 数据集上的识别率分别为 99.7% 和 96.3%，比 DFR 算法在两个数据集中分别提高 0.02% 和 0.05%，证明了引入注意力机制模块和多尺度特征融合模块对提升人脸表情识别率是有利的。 3.3.3 遮挡表情实验实际生活中，人脸表情图像采集会伴有遮挡情况，一般由墨镜、口罩等引起。若局部区域被遮挡，卷积神经网络就难以抓住重点区域进行特征提取，针对这种情况，本章将在遮挡的扩充数据集上进行实验。表 6 和表 7 分别为各种算法在 CK+和 JAFFE 数据集上的遮挡。愤怒愤怒 (a) DFR 在 CK+ 上的混淆矩阵轻蔑厌恶恐惧快乐悲伤惊讶 1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0.96 1.00 1.00 1.00 1.00 1.00 1.00 0.04 轻蔑厌恶恐惧快乐悲伤惊讶愤怒愤怒厌恶恐惧快乐中性悲伤惊讶厌恶恐惧快乐中性悲伤惊讶 (b) DFR 在 JAFFE 上的混淆矩阵 1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0.96 0.96 1.00 0.96 1.00 0.96 0.92 0.04 0.04 0.04 0.04 0.08 图 7 DFR 在 CK+和 JAFFE 数据集上的混淆矩阵 Fig. 7 Confusion matrix of DFR on CK+ and JAFFE 表 6 CK+上遮挡表情识别 Table 6 occlusion facial expression recognition on CK+ % 方法眼睛遮挡嘴巴遮挡 PCA+SVM 89.04 83.84 CNN 91.69 89.17 DCGAN+CNN 87.83 85.43 end-to-end GAN 92.69 90.57 微调VGGface 89.90 87.34 MU-VGGNet 94.06 91.63 DFR 93.81 92.78 DMFA-ResNet 95.31 93.81 ·398· 智能系统学报第 17 卷

第2期高涛，等：深度多尺度融合注意力残差人脸表情识别网络。399· 表7 JAFFE上遮挡表情识别 1.0 愤怒 090.07 Table 7 Occlusion facial expression recognition on JAFFE % 轻蔑 0.90 0.10 方法眼睛遮挡嘴巴遮挡厌恶 1.00 Gabor 85.66 86.97 0.6 Gabor+gray-level matrix 88.88 90.90 恐惧 020 160 020 WLDH 87.23 89.47 4 快乐 0 DFR 89.47 91.81 DMFA-ResNet 91.22 0.19 93.56 悲伤 0.2 惊讶表8和表9分别为DMFA-ResNet算法在CK+ 和JAFFE数据集上的Fl-score值。图8和图9分别为DMFA-ResNet算法在CK+和JAFFE数据集 (b)遮挡嘴巴图片在CK+上的混淆矩阵上的遮挡混淆矩阵。图8在CK+数据集上的遮挡混淆矩阵表8CK+上遮挡表情F1-score值 Fig.8 Occlusion confusion matrix on the CK+ Table 8 F1-score of occlusion facial expression on CK+ 表情眼睛遮挡嘴巴遮挡愤怒 0.92 0.04 0.04 愤怒 0.89 0.96 厌恶 0.8 91 0.04 0.04 轻蔑 0.86 0.76 恐惧 0.0408 厌恶 0,12 0.98 0.90 0.6 恐惧 0.99 0.75 快乐 092 0.08 快乐 0.99 1 04 中性 09 0.04 悲伤 0.89 0.90 惊讶 1 0.90 悲伤 0.040.040.04 084 0.04 0.2 惊讶 0.04 0.90 表9 JAFFE上遮挡表情F1-score值 Table 9 F1-score of occlusion facial expression on JAFFE 步母惑表情眼睛遮挡嘴巴遮挡 (a)遮挡眼睛图片在JAFFE上的混淆矩阵愤怒 0.96 0.96 愤怒192 0.08 厌恶 0.90 0.92 厌恶 0.8 恐惧 096 0.04 0.88 0.89 快乐 0.94 0.94 恐惧 0.04083 0.08 0.04 0.6 中性 0.92 0.96 快乐 096 0.04 悲伤 0.82 0.88 0.4 096 0.04 惊讶中性 0.94 0.98 悲伤 0.040.04092 0.2 1.0 愤怒 0.96 0.07 惊讶 0.04 0.9% 轻蔑0.10 01 0.8 多效 097 (b)遮挡嘴巴图片在JAFFE上的混淆矩阵厌恶 0.03 0.6 图9在JAFFE数据集上的遮挡混淆矩阵恐惧 Fig.9 Occlusion confusion matrix on the JAFFE 0.4 快乐 0.02 098 由表6、表7可知，对于遮挡图像，DMFA- 悲伤0.060.12 0.2 ResNet比DFR算法在CK+和JAFFE数据集上的惊讶识别精度分别提升2.5%和1.5%，且DMFA-Res- Net对遮挡表情的识别在两个数据集上均取得最高识别精度。 (a)遮挡眼睛图片在CK+上的混淆矩阵由表8和图8可知，遮挡眼睛后，DMFA-Res

表 7 JAFFE 上遮挡表情识别 Table 7 Occlusion facial expression recognition on JAFFE % 方法眼睛遮挡嘴巴遮挡 Gabor 85.66 86.97 Gabor+gray-level matrix 88.88 90.90 WLDH 87.23 89.47 DFR 89.47 91.81 DMFA-ResNet 91.22 93.56 表 8 和表 9 分别为 DMFA-ResNet 算法在 CK+ 和 JAFFE 数据集上的 F1-score值。图 8 和图 9 分别为 DMFA-ResNet 算法在 CK+和 JAFFE 数据集上的遮挡混淆矩阵。表 8 CK+上遮挡表情 F1-score 值 Table 8 F1-score of occlusion facial expression on CK + 表情眼睛遮挡嘴巴遮挡愤怒 0.89 0.96 轻蔑 0.86 0.76 厌恶 0.98 0.90 恐惧 0.99 0.75 快乐 0.99 1 悲伤 0.89 0.90 惊讶 1 0.90 表 9 JAFFE 上遮挡表情 F1-score 值 Table 9 F1-score of occlusion facial expression on JAFFE 表情眼睛遮挡嘴巴遮挡愤怒 0.96 0.96 厌恶 0.90 0.92 恐惧 0.88 0.89 快乐 0.94 0.94 中性 0.92 0.96 悲伤 0.82 0.88 惊讶 0.94 0.98 (a) 遮挡眼睛图片在 CK+ 上的混淆矩阵 1.0 0.8 0.6 0.4 0.2 0 0.96 0.10 0.06 0.12 0.90 0.97 1.00 0.98 0.81 1.00 0.07 0.03 0.02 愤怒愤怒轻蔑厌恶恐惧快乐悲伤惊讶轻蔑厌恶恐惧快乐悲伤惊讶 (b) 遮挡嘴巴图片在 CK+ 上的混淆矩阵 1.0 0.8 0.6 0.4 0.2 0 0.93 0.90 1.00 0.60 1.00 0.81 1.00 0.07 0.20 0.10 0.19 0.20 愤怒愤怒轻蔑厌恶恐惧快乐悲伤惊讶轻蔑厌恶恐惧快乐悲伤惊讶图 8 在 CK+数据集上的遮挡混淆矩阵 Fig. 8 Occlusion confusion matrix on the CK+ (a) 遮挡眼睛图片在 JAFFE 上的混淆矩阵 0.8 0.6 0.4 0.2 0 0.92 0.91 0.85 0.92 0.96 0.84 0.96 0.04 0.04 0.04 0.12 0.04 0.08 0.04 0.04 0.04 0.04 0.04 0.04 0.04 (b) 遮挡嘴巴图片在 JAFFE 上的混淆矩阵 0.8 0.6 0.4 0.2 0 0.92 0.96 0.85 0.96 0.96 0.92 0.96 0.08 0.08 0.04 0.04 0.04 0.04 0.04 0.04 0.04 0.04 愤怒愤怒厌恶恐惧快乐中性悲伤惊讶厌恶恐惧快乐中性悲伤惊讶愤怒愤怒厌恶恐惧快乐中性悲伤惊讶厌恶恐惧快乐中性悲伤惊讶图 9 在 JAFFE 数据集上的遮挡混淆矩阵 Fig. 9 Occlusion confusion matrix on the JAFFE 由表 6、表 7 可知，对于遮挡图像，DMFAResNet 比 DFR 算法在 CK+和 JAFFE 数据集上的识别精度分别提升 2.5% 和 1.5%，且 DMFA-ResNet 对遮挡表情的识别在两个数据集上均取得最高识别精度。由表 8 和图 8 可知，遮挡眼睛后，DMFA-Res- 第 2 期高涛，等：深度多尺度融合注意力残差人脸表情识别网络 ·399·

·400· 智能系统学报第17卷 Net算法在CK+数据集上能够对害怕和惊讶两种 [4]ZHAO Guoying,PIETIKAINEN M.Dynamic texture re- 表情达到100%识别率：遮挡嘴巴后，能够对困 cognition using local binary patterns with an application 惑、快乐和惊讶3种表情达到100%识别率。而 to facial expressions[J].IEEE transactions on pattern ana- 轻蔑和恐惧表情的F1-score分别只达到0.76和 lysis and machine intelligence,2007,29(6):915-928. 0.75,说明这两种表情的有效特征大部分在于嘴 [5]WHITEHILL J,OMLIN C W.Haar features for FACS 巴部分。 AU recognition[C]//Proceedings of the 7th International 由图9和表9可知，遮挡眼睛情况下的悲伤 Conference on Automatic Face and Gesture Recognition. Southampton,UK,2006:5-101. 表情F1-score仅达到0.82，说明悲伤表情的有效 [6]BARTLETT MS,LITTLEWORT G,FRANK M.et al. 特征大部分在于眼睛部分，虽然该值达到最低， Recognizing facial expression:machine learning and ap- 但DMFA-ResNet在JAFFE数据集上也取得相当 plication to spontaneous behavior[C]//Proceedings of 不错的效果。由于该数据集样本间的差异较小， 2005 IEEE Computer Society Conference on Computer 导致算法仍出现较多误判情况，无法完全精准识 Vision and Pattern Recognition.San Diego,USA,2005: 别某一类表情。以上实验结果证明了DMFA-Res 568-573. Nt在应对遮挡图像问题上的优越性，更适用于 [7]LI Xiaobai,PFISTER T,HUANG Xiaohua,et al.A spon- 人脸表情识别任务。 taneous micro-expression database:inducement,collec- tion and baseline[C]//2013 10th IEEE International Con- 4结束语 ference and Workshops on Automatic Face and Gesture Recognition (FG).Shanghai,China,2013:1-6. 本文提出一种多尺度融合注意力残差网络 [8]RIVERA A R.CASTILLO J R.CHA E OO.Local direc- (DMFA-ResNet)。该网络主要提出一种新的注意 tional number pattern for face analysis:face and expres- 力残差模块，提高了网络对局部重点部位特征的 sion recognition[J].IEEE transactions on image pro- 提取，有利于学习到非遮挡部位的信息；提出多 cessing,.2013,22(5:1740-1752 尺度融合模块，将各残差模块的输出进行融合以 [9]KIM T H,YU C,LEE S W.Facial expression recogni- 提取更加丰富的人脸表情特征；为了减少参与网 tion using feature additive pooling and progressive fine- 络运算的参数量，在各个残差模块之间添加过渡 tuning of CNN[J].Electronics letters,2018,54(23): 层，主要进行下采样操作并使用全局平均池化+ 1326-1328. Dropout设计防止网络过拟合。在CK+、JAFFE [10]AN Fengping,LIU Zhiwen.Facial expression recogni- 和Oulu-CASIA数据集上进行实验均取得了不错 tion algorithm based on parameter adaptive initialization 的效果，注意力残差模块对局部区域的特征能够 of CNN and LSTM[J].The visual computer,2020. 36(3):483-498. 进行有效提取，实验验证本文算法具有优越性。但所提算法为针对静态图像的表情识别算法，不 [11]XIE Siyue,HU Haifeng,WU Yongbo.Deep multi-path convolutional neural network joint with salient region at- 适用于动态连续的视频识别，在接下来的工作中， tention for facial expression recognition[J].Pattern re- 可以重点研究基于视频的动态表情识别技术。 cognition,2019,92:177-191 参考文献： [12]WANG Kai,PENG Xiaojiang,YANG Jianfei,et al. Suppressing uncertainties for large-scale facial expres- [1]BEN Xianye,REN Yi,ZHANG Junping,et al.Video- sion recognition[C]//Proceedings of 2020 IEEE/CVF based Facial micro-expression analysis:a survey of data- Conference on Computer Vision and Pattern Recogni- sets,features and algorithms[EB/OLl.(2021-03-19)[2021- tion.Seattle,USA,2020:6897-6906 05-01].https://arxiv.org/abs/2201.12728v1. [13]HE Kaiming,ZHANG Xiangyu,REN Shaoqing,et al. [2]CHEN Boyu,GUAN Wenlong,LI Peixia,et al.Residual Deep residual learning for image recognition[Cl//Pro- multi-task learning for facial landmark localization and ceedings of 2016 IEEE Conference on Computer Vision expression recognition [EB/OL].(2021-07-01)[2021-07- and Pattern Recognition.Las Vegas,USA,2016: 05].https://www.sciencedirect.com/science/article/pii/S00 770-778 31320321000807. [14]LI Yong,ZENG Jiabei,SHAN Shiguang,et al.Occlu- [3]LI Shan,DENG Weihong.Deep facial expression recog- sion aware facial expression recognition using CNN with nition:a survey [EB/OL].(2020-03-17)[2021-05-01].ht- attention mechanism[J].IEEE transactions on image pro- tps://ieeexplore.ieee.org/document/9039580. cessing,2019,28(5):2439-2450

Net 算法在 CK+数据集上能够对害怕和惊讶两种表情达到 100% 识别率；遮挡嘴巴后，能够对困惑、快乐和惊讶 3 种表情达到 100% 识别率。而轻蔑和恐惧表情的 F1-score 分别只达到 0.76 和 0.75，说明这两种表情的有效特征大部分在于嘴巴部分。由图 9 和表 9 可知，遮挡眼睛情况下的悲伤表情 F1-score 仅达到 0.82，说明悲伤表情的有效特征大部分在于眼睛部分，虽然该值达到最低，但 DMFA-ResNet 在 JAFFE 数据集上也取得相当不错的效果。由于该数据集样本间的差异较小，导致算法仍出现较多误判情况，无法完全精准识别某一类表情。以上实验结果证明了 DMFA-ResNet 在应对遮挡图像问题上的优越性，更适用于人脸表情识别任务。 4 结束语本文提出一种多尺度融合注意力残差网络 (DMFA-ResNet)。该网络主要提出一种新的注意力残差模块，提高了网络对局部重点部位特征的提取，有利于学习到非遮挡部位的信息；提出多尺度融合模块，将各残差模块的输出进行融合以提取更加丰富的人脸表情特征；为了减少参与网络运算的参数量，在各个残差模块之间添加过渡层，主要进行下采样操作并使用全局平均池化+ Dropout 设计防止网络过拟合。在 CK+、JAFFE 和 Oulu-CASIA 数据集上进行实验均取得了不错的效果，注意力残差模块对局部区域的特征能够进行有效提取，实验验证本文算法具有优越性。但所提算法为针对静态图像的表情识别算法，不适用于动态连续的视频识别，在接下来的工作中，可以重点研究基于视频的动态表情识别技术。参考文献： BEN Xianye, REN Yi, ZHANG Junping, et al. Videobased Facial micro-expression analysis: a survey of datasets, features and algorithms[EB/OL].(2021-03-19)[2021- 05-01].https://arxiv.org/abs/2201.12728v1. [1] CHEN Boyu, GUAN Wenlong, LI Peixia, et al. Residual multi-task learning for facial landmark localization and expression recognition[EB/OL].(2021-07-01)[2021-07- 05].https://www.sciencedirect.com/science/article/pii/S00 31320321000807. [2] LI Shan, DENG Weihong. Deep facial expression recognition: a survey[EB/OL].（2020-03-17）[2021-05-01]. https://ieeexplore.ieee.org/document/9039580. [3] ZHAO Guoying, PIETIKAINEN M. Dynamic texture recognition using local binary patterns with an application to facial expressions[J]. IEEE transactions on pattern analysis and machine intelligence, 2007, 29(6): 915–928. [4] WHITEHILL J, OMLIN C W. Haar features for FACS AU recognition[C]//Proceedings of the 7th International Conference on Automatic Face and Gesture Recognition. Southampton, UK, 2006: 5−101. [5] BARTLETT M S, LITTLEWORT G, FRANK M, et al. Recognizing facial expression: machine learning and application to spontaneous behavior[C]//Proceedings of 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Diego, USA, 2005: 568−573. [6] LI Xiaobai, PFISTER T, HUANG Xiaohua, et al. A spontaneous micro-expression database: inducement, collection and baseline[C]//2013 10th IEEE International Conference and Workshops on Automatic Face and Gesture Recognition (FG). Shanghai, China, 2013: 1−6. [7] RIVERA A R, CASTILLO J R, CHA E O O. Local directional number pattern for face analysis: face and expression recognition[J]. IEEE transactions on image processing, 2013, 22(5): 1740–1752. [8] KIM T H, YU C, LEE S W. Facial expression recognition using feature additive pooling and progressive finetuning of CNN[J]. Electronics letters, 2018, 54(23): 1326–1328. [9] AN Fengping, LIU Zhiwen. Facial expression recognition algorithm based on parameter adaptive initialization of CNN and LSTM[J]. The visual computer, 2020, 36(3): 483–498. [10] XIE Siyue, HU Haifeng, WU Yongbo. Deep multi-path convolutional neural network joint with salient region attention for facial expression recognition[J]. Pattern recognition, 2019, 92: 177–191. [11] WANG Kai, PENG Xiaojiang, YANG Jianfei, et al. Suppressing uncertainties for large-scale facial expression recognition[C]//Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle, USA, 2020: 6897−6906. [12] HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al. Deep residual learning for image recognition[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA, 2016: 770−778. [13] LI Yong, ZENG Jiabei, SHAN Shiguang, et al. Occlusion aware facial expression recognition using CNN with attention mechanism[J]. IEEE transactions on image processing, 2019, 28(5): 2439–2450. [14] ·400· 智能系统学报第 17 卷

第2期高涛，等：深度多尺度融合注意力残差人脸表情识别网络 ·401· [15]LIU Yuanyuan,YUAN Xiaohui,GONG Xi,et al.Con- 211-220 ditional convolution neural network enhanced random [23]LOPES A T.DE AGUIAR E.DE SOUZA A F,et al. forest for facial expression recognition[J].Pattern recog- Facial expression recognition with convolutional neural nition,2018.84:251-261. networks:coping with few data and the training sample [16]HU Jie,SHEN Li,SUN Gang.Squeeze-and-excitation order[J].Pattern recognition,2017,61:610-628. networks[C]//Proceedings of 2018 IEEE/CVF Confer- [24]ZHANG Hepeng,HUANG Bin,TIAN Guohui.Facial ence on Computer Vision and Pattern Recognition.Salt expression recognition based on deep convolution long Lake City,.USA,2018:7132-7141. short-term memory networks of double-channel [17刀江静，邓伟洪.持续学习改进的人脸表情识别).中国 weighted mixture[J].Pattern recognition letters,2020, 图象图形学报，2020.25(11上：2361-2369. 131:128-134. JIANG Jing,DENG Weihong.Facial expression recog- [25]YANG Biao,CAO Jinmeng,NI Rongrong,et al.Facial nition improved by continual learning[J].Journal of im- expression recognition using weighted mixture deep age and graphics,,2020,25(11):2361-2369. neural network based on double-channel facial images [18]王善敏，帅惠，刘青山.关键点深度特征驱动人脸表情 [J.IEEE access,2017,6:4630-4640. 识别[).中国图象图形学报，2020,25(4)：813-823. [26]KIM J H.KIM B G.ROY PP.et al.Efficient facial ex- WANG Shanmin,SHUAI Hui,LIU Qingshan.Facial pression recognition algorithm based on hierarchical expression recognition based on deep facial landmark deep neural network structure[J].IEEE access,2019,7: features[J].Journal of image and graphics,2020,25(4): 41273-41285 813-823 作者简介： [19]张文萍，贾凯，王宏玉，等.改进的Island损失函数在高涛，教授，博士，主要研究方向人脸表情识别上的应用).计算机辅助设计与图形学为数字图像处理、模式识别。获得国学报，2020,32(12：1910-1917. 家专利9项。发表学术论文16篇。 ZHANG Wenping,JIA Kai,WANG Hongyu,et al.Ap- plication of improved Island loss in facial expression re- cognition[J].Journal of computer-aided design com- puter graphics,.2020,32(12):1910-1917. [20]LIU Xiaofeng,KUMAR B VK V,JIA Ping,et al.Hard 杨朝晨，硕士研究生，主要研究方 negative generation for identity-disentangled facial ex- 向为数字图像处理、深度学习。 pression recognition[J].Pattern recognition,2019,88: 1-12. [21]YANG Huiyuan,CIFTCI U,YIN Lijun.Facial expres- sion recognition by de-expression residue learning[Cl// Proceedings of 2018 IEEE/CVF Conference on Com- puter Vision and Pattern Recognition.Salt Lake City, 陈婷，副教授.博士，主要研究方向为图形图像处理、计算机视觉。 USA.2018. [22]XIE Siyue,HU Haifeng.Facial expression recognition using hierarchical features with deep comprehensive multipatches aggregation convolutional neural networks [J].IEEE transactions on multimedia,2019,21(1):

LIU Yuanyuan, YUAN Xiaohui, GONG Xi, et al. Conditional convolution neural network enhanced random forest for facial expression recognition[J]. Pattern recognition, 2018, 84: 251–261. [15] HU Jie, SHEN Li, SUN Gang. Squeeze-and-excitation networks[C]//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA, 2018: 7132−7141. [16] 江静, 邓伟洪. 持续学习改进的人脸表情识别 [J]. 中国图象图形学报, 2020, 25(11): 2361–2369. JIANG Jing, DENG Weihong. Facial expression recognition improved by continual learning[J]. Journal of image and graphics, 2020, 25(11): 2361–2369. [17] 王善敏, 帅惠, 刘青山. 关键点深度特征驱动人脸表情识别 [J]. 中国图象图形学报, 2020, 25(4): 813–823. WANG Shanmin, SHUAI Hui, LIU Qingshan. Facial expression recognition based on deep facial landmark features[J]. Journal of image and graphics, 2020, 25(4): 813–823. [18] 张文萍, 贾凯, 王宏玉, 等. 改进的 Island 损失函数在人脸表情识别上的应用 [J]. 计算机辅助设计与图形学学报, 2020, 32(12): 1910–1917. ZHANG Wenping, JIA Kai, WANG Hongyu, et al. Application of improved Island loss in facial expression recognition[J]. Journal of computer-aided design & computer graphics, 2020, 32(12): 1910–1917. [19] LIU Xiaofeng, KUMAR B V K V, JIA Ping, et al. Hard negative generation for identity-disentangled facial expression recognition[J]. Pattern recognition, 2019, 88: 1–12. [20] YANG Huiyuan, CIFTCI U, YIN Lijun. Facial expression recognition by de-expression residue learning[C]// Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA, 2018. [21] XIE Siyue, HU Haifeng. Facial expression recognition using hierarchical features with deep comprehensive multipatches aggregation convolutional neural networks [J]. IEEE transactions on multimedia, 2019, 21(1): [22] 211–220. LOPES A T, DE AGUIAR E, DE SOUZA A F, et al. Facial expression recognition with convolutional neural networks: coping with few data and the training sample order[J]. Pattern recognition, 2017, 61: 610–628. [23] ZHANG Hepeng, HUANG Bin, TIAN Guohui. Facial expression recognition based on deep convolution long short-term memory networks of double-channel weighted mixture[J]. Pattern recognition letters, 2020, 131: 128–134. [24] YANG Biao, CAO Jinmeng, NI Rongrong, et al. Facial expression recognition using weighted mixture deep neural network based on double-channel facial images [J]. IEEE access, 2017, 6: 4630–4640. [25] KIM J H, KIM B G, ROY P P, et al. Efficient facial expression recognition algorithm based on hierarchical deep neural network structure[J]. IEEE access, 2019, 7: 41273–41285. [26] 作者简介：高涛，教授，博士，主要研究方向为数字图像处理、模式识别。获得国家专利 9 项。发表学术论文 16 篇。杨朝晨，硕士研究生，主要研究方向为数字图像处理、深度学习。陈婷,副教授，博士，主要研究方向为图形图像处理、计算机视觉。第 2 期高涛，等：深度多尺度融合注意力残差人脸表情识别网络 ·401·

点击进入文档下载页（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录