第17卷第2期 智能系统学报 Vol.17 No.2 2022年3月 CAAI Transactions on Intelligent Systems Mar.2022 D0:10.11992/tis.202107028 网络出版地址:https:/kns.cnki.net/kcms/detail/23.1538.TP.20211202.1101.004.html 深度多尺度融合注意力残差人脸表情识别网络 高涛,杨朝晨,陈婷,邵倩,雷涛 (1.长安大学信息工程学院,陕西西安710000:2.陕西科技大学电子信息与人工智能学院,陕西西安 710021) 摘要:针对人脸表情呈现方式多样化以及人脸表情识别易受光照、姿势、遮挡等非线性因素影响的问题,提 出了一种深度多尺度融合注意力残差网络(deep multi-scale fusion attention residual network,DMFA-ResNet)。该模 型基于ResNet-.50残差网络,设计了新的注意力残差模块,由7个具有三条支路的注意残差学习单元构成,能够 对输入图像进行并行多卷积操作,以获得多尺度特征,同时引入注意力机制,突出重点局部区域,有利于遮挡 图像的特征学习。通过在注意力残差模块之间增加过渡层以去除冗余信息,简化网络复杂度,在保证感受野的 情况下减少计算量,实现网络抗过拟合效果。在3组数据集上的实验结果表明,本文提出的算法均优于对比的 其他先进方法。 关键词:人脸表情识别:残差网络:多尺度特征:注意力机制:遮挡人脸:卷积神经网络:特征融合:深度学习 中图分类号:TP391文献标志码:A 文章编号:1673-4785(2022)02-0393-09 中文引用格式:高涛,杨朝晨,陈婷,等.深度多尺度融合注意力残差人脸表情识别网络J.智能系统学报,2022,17(2): 393-401. 英文引用格式:GAO Tao,YANG Zhaochen,,CHEN Ting,etal.Deep multiscale fusion attention residual network for facial expres- sion recognition CAAI transactions on intelligent systems,2022,17(2):393-401. Deep multiscale fusion attention residual network for facial expression recognition GAO Tao',YANG Zhaochen',CHEN Ting',SHAO Qian',LEI Tao (1.School of Information Engineering,Chang'an University,Xi'an 710000,China;2.School of Electronic Information and Artificial Intelligence,Shaanxi University of Science and Technology,Xi'an 710021,China) Abstract:This paper proposes a deep multiscale fusion attention residual network based on the ResNet-50 model to solve the problems of the diversification of facial expression presentation and the susceptibility of facial expression re- cognition to nonlinear factors,such as illumination,posture,and occlusion.A novel attention residual module consist- ing of seven attention residual learning units with three branches is designed to perform multiple convolution operations on the input image in parallel and obtain multiscale features.To highlight important local areas,the attention mechan- ism is introduced simultaneously,which is conducive to the feature learning of the occluded images.Furthermore,a novel transition layer is added between the attention residual modules to remove redundant information,simplify the network complexity,reduce the amount of calculation while ensuring the receptive field,and realize the anti-overfitting effect of the network.Experimental results on three datasets demonstrate that the proposed algorithm is superior to other advanced methods. Keywords:facial expression recognition;residual network;multiscale features;attention mechanism;occlusion of hu- man faces;convolution neural network;feature fusion;deep learning 情绪包含大量的情感信息,当人们面对面交 出来山。随着人工智能技术的飞速发展,人脸表 流时,情绪会自动或不自觉地通过面部表情表现 情识别(FER)已成为计算机图像处理中一个重要 的研究课题。 收稿日期:2021-07-16.网络出版日期:2021-12-05 人脸表情识别主要包括预处理、特征提取和 基金项目:国家重点研发计划项目(2019YFE0108300:国家自 然科学基金项目(62001058):陕西省重点研发计划项 分类识别3个部分。其中,算法识别精度高低 目(2019GY-039:长安大学中央高校基本科研业务 费专项资金项目(300102241201). 主要由特征提取方法决定。人脸表情特征提取方 通信作者:陈婷.E-mail:tchenchd@I26.com 法主要分为基于传统特征提取的方法和基于深度
DOI: 10.11992/tis.202107028 网络出版地址: https://kns.cnki.net/kcms/detail/23.1538.TP.20211202.1101.004.html 深度多尺度融合注意力残差人脸表情识别网络 高涛1 ,杨朝晨1 ,陈婷1 ,邵倩1 ,雷涛2 (1. 长安大学 信息工程学院, 陕西 西安 710000; 2. 陕西科技大学 电子信息与人工智能学院, 陕西 西安 710021) 摘 要:针对人脸表情呈现方式多样化以及人脸表情识别易受光照、姿势、遮挡等非线性因素影响的问题,提 出了一种深度多尺度融合注意力残差网络 (deep multi-scale fusion attention residual network, DMFA-ResNet)。该模 型基于 ResNet-50 残差网络,设计了新的注意力残差模块,由 7 个具有三条支路的注意残差学习单元构成,能够 对输入图像进行并行多卷积操作,以获得多尺度特征,同时引入注意力机制,突出重点局部区域,有利于遮挡 图像的特征学习。通过在注意力残差模块之间增加过渡层以去除冗余信息,简化网络复杂度,在保证感受野的 情况下减少计算量,实现网络抗过拟合效果。在 3 组数据集上的实验结果表明,本文提出的算法均优于对比的 其他先进方法。 关键词:人脸表情识别;残差网络;多尺度特征;注意力机制;遮挡人脸;卷积神经网络;特征融合;深度学习 中图分类号:TP391 文献标志码:A 文章编号:1673−4785(2022)02−0393−09 中文引用格式:高涛, 杨朝晨, 陈婷, 等. 深度多尺度融合注意力残差人脸表情识别网络 [J]. 智能系统学报, 2022, 17(2): 393–401. 英文引用格式:GAO Tao, YANG Zhaochen, CHEN Ting, et al. Deep multiscale fusion attention residual network for facial expression recognition[J]. CAAI transactions on intelligent systems, 2022, 17(2): 393–401. Deep multiscale fusion attention residual network for facial expression recognition GAO Tao1 ,YANG Zhaochen1 ,CHEN Ting1 ,SHAO Qian1 ,LEI Tao2 (1. School of Information Engineering, Chang’an University, Xi’an 710000, China; 2. School of Electronic Information and Artificial Intelligence, Shaanxi University of Science and Technology, Xi’an 710021, China) Abstract: This paper proposes a deep multiscale fusion attention residual network based on the ResNet-50 model to solve the problems of the diversification of facial expression presentation and the susceptibility of facial expression recognition to nonlinear factors, such as illumination, posture, and occlusion. A novel attention residual module consisting of seven attention residual learning units with three branches is designed to perform multiple convolution operations on the input image in parallel and obtain multiscale features. To highlight important local areas, the attention mechanism is introduced simultaneously, which is conducive to the feature learning of the occluded images. Furthermore, a novel transition layer is added between the attention residual modules to remove redundant information, simplify the network complexity, reduce the amount of calculation while ensuring the receptive field, and realize the anti-overfitting effect of the network. Experimental results on three datasets demonstrate that the proposed algorithm is superior to other advanced methods. Keywords: facial expression recognition; residual network; multiscale features; attention mechanism; occlusion of human faces; convolution neural network; feature fusion; deep learning 情绪包含大量的情感信息,当人们面对面交 流时,情绪会自动或不自觉地通过面部表情表现 出来[1]。随着人工智能技术的飞速发展,人脸表 情识别 (FER) 已成为计算机图像处理中一个重要 的研究课题。 人脸表情识别主要包括预处理、特征提取和 分类识别 3 个部分[2]。其中,算法识别精度高低 主要由特征提取方法决定。人脸表情特征提取方 法主要分为基于传统特征提取的方法和基于深度 收稿日期:2021−07−16. 网络出版日期:2021−12−05. 基金项目:国家重点研发计划项目 (2019YFE0108300); 国家自 然科学基金项目 (62001058); 陕西省重点研发计划项 目 (2019GY-039); 长安大学中央高校基本科研业务 费专项资金项目 (300102241201). 通信作者:陈婷. E-mail:tchenchd@126.com. 第 17 卷第 2 期 智 能 系 统 学 报 Vol.17 No.2 2022 年 3 月 CAAI Transactions on Intelligent Systems Mar. 2022
·394· 智能系统学报 第17卷 学习的方法。传统的特征提取方法主要包括局 信息,且均为完整网络结构,不易迁移。Hú等6 部二值模式(LBP)、类Haar特征、Gabor小波变 学者采用全新特征重标定方式提出一种通道注意 换和方向梯度直方图(HOG)等。Li等m基于 力网络(SE-Net),显示建模特征通道之间的相互 LBP方法提出了一种使用三个正交平面的局部二 依赖关系,进而提升有用特征并抑制用处不大的 值基线方法(LBP-TOP),一定程度上消除了光照 特征,且能够直接集成到现有网络中,计算代价 变化的影响,但旋转不变性使得算子对方向信息 小,没有冗余信息。 过于敏感。为了解决这一问题,Rivera等1学者 针对上述问题,本文提出一种深度多尺度融 提出的局部特征描述符LDN利用梯度信息使得 合注意力残差网络(deep multi-scale fusion atten-. 算子对光照变化和噪声具有较强的鲁棒性。然 tion residual network,.DMFA-ResNet),主要改进包 而,传统的表情识别算法无法有效处理由于不同 括以下3个方面: 姿势、遮挡等引起的非线性面部外观变化,难以 1)设计了一个由7个注意力残差学习单元构 有效提高分类水平。 成的注意力残差模块,注意力残差学习单元由 近年来,深度学习凭借其优异的特征提取能 2条包含卷积层的支路和1个短路链接构成,将 力逐步应用于人脸表情识别领域。Kim等学者 融合后的特征经过注意力机制,对输入图像进行 对适用于大规模图像识别的VGG-face模型进行 并行多卷积操作,以获得图像多尺度特征,突出 渐进式微调识别人脸表情,但大多数人脸表情数 局部重点区域,有利于遮挡图像特征学习: 据库样本较少导致该网络易出现过拟合问题。An 2)提出多尺度融合模块,网络整体将各个注 等o学者提出了一种基于MMN线性激活函数的 意力残差模块的特征输出进行多尺度融合,以获 自适应模型参数初始化方法,可有效克服过拟合 取更丰富的图像特征: 问题,但面对含有大量表情无关因素时算法鲁棒 3)在网络模型中增加过渡层以去除冗余信 性较差。Xie等学者提出了一种多路径变异抑 息,在保证感受野的情况下简化网络复杂度。并 制网络(MPVS-NET),但该网络速度较慢且不宜 使用全局平均池化+Dropout的设计减少参数运 收敛。由于模糊的面部表情、低质的面部图像及 算,使网络具有更好的抗过拟合性能。 注释者的主观性带来的不确定性,对定性的大规 1 DMFA-ResNet算法 模面部表情数据集进行标注是非常困难的。针对 这一问题,Wang等学者提出了一种能有效抑制 l.1 ResNet网络结构 不确定性的自修复网络(SCN),防止网络过度拟 ResNet网络通过引入残差模块,在算法前向 合不确定的人脸图像。一般来说,深层网络更易 传播过程中使得卷积层之间形成跳跃连接,实现 提取到具有丰富语义信息的深层特征。但过深的 对输入、输出的恒等映射,并采用1×1、3×3的小 网络容易出现梯度爆炸或梯度消失现象。针对这 卷积核,在解决网络退化问题的同时进一步加深 一问题,He等学者提出了深度残差网络(ResNet), 网络,ResNet-50的基本残差学习单元如图1 利用短路链接使得梯度正常回传,较好地解决了 所示。 网络退化问题。但训练参数量仍旧较大,且残差 网络并没有考虑不同尺度特征之间的相互关系对 特征识别的影响,导致大量有效特征丢失。 1xI(reduce dimension) 上述研究均使用完整特征图作为特征输入, 然而在实际分类任务中,特征的作用程度是不同 ReLU 的。为了突出对特征识别有效的信息,一些研究 X】 3×3 引入了注意力机制。Li等学者提出了一种具 ReLU 有注意力机制的CNN网络结构可识别脸部遮挡 1x1 (increase dimension) 区域,但网络依赖于人脸关键点检测,遮挡面积 较大时,关键点难以与人脸数据集生成映射。在 F(x)+x (+ 此基础上,Liu等学者提出了一种条件CNN增 ReLU 强型随机森林算法(CoNERF),从显著引导的人脸 图1残差学习单元 区域中提取深层特征,抑制光照、遮挡和低分辨率 Fig.1 Residual learning unit 带来的影响。然而上述方法仍保留了较多的冗余 图1中,x表示输人,F(x)表示残差映射,残差
学习的方法[3]。传统的特征提取方法主要包括局 部二值模式 (LBP)[4] 、类 Haar 特征[5] 、Gabor 小波变 换 [6] 和方向梯度直方图 (HOG) 等。Li 等 [7] 基于 LBP 方法提出了一种使用三个正交平面的局部二 值基线方法 (LBP-TOP),一定程度上消除了光照 变化的影响,但旋转不变性使得算子对方向信息 过于敏感。为了解决这一问题,Rivera 等 [8] 学者 提出的局部特征描述符 LDN 利用梯度信息使得 算子对光照变化和噪声具有较强的鲁棒性。然 而,传统的表情识别算法无法有效处理由于不同 姿势、遮挡等引起的非线性面部外观变化,难以 有效提高分类水平。 近年来,深度学习凭借其优异的特征提取能 力逐步应用于人脸表情识别领域。Kim 等 [9] 学者 对适用于大规模图像识别的 VGG-face 模型进行 渐进式微调识别人脸表情,但大多数人脸表情数 据库样本较少导致该网络易出现过拟合问题。An 等 [10] 学者提出了一种基于 MMN 线性激活函数的 自适应模型参数初始化方法,可有效克服过拟合 问题,但面对含有大量表情无关因素时算法鲁棒 性较差。Xie 等 [11] 学者提出了一种多路径变异抑 制网络 (MPVS-NET),但该网络速度较慢且不宜 收敛。由于模糊的面部表情、低质的面部图像及 注释者的主观性带来的不确定性,对定性的大规 模面部表情数据集进行标注是非常困难的。针对 这一问题,Wang 等 [12] 学者提出了一种能有效抑制 不确定性的自修复网络 (SCN),防止网络过度拟 合不确定的人脸图像。一般来说,深层网络更易 提取到具有丰富语义信息的深层特征。但过深的 网络容易出现梯度爆炸或梯度消失现象。针对这 一问题,He 等 [13] 学者提出了深度残差网络 (ResNet), 利用短路链接使得梯度正常回传,较好地解决了 网络退化问题。但训练参数量仍旧较大,且残差 网络并没有考虑不同尺度特征之间的相互关系对 特征识别的影响,导致大量有效特征丢失。 上述研究均使用完整特征图作为特征输入, 然而在实际分类任务中,特征的作用程度是不同 的。为了突出对特征识别有效的信息,一些研究 引入了注意力机制。Li 等 [14] 学者提出了一种具 有注意力机制的 CNN 网络结构可识别脸部遮挡 区域,但网络依赖于人脸关键点检测,遮挡面积 较大时,关键点难以与人脸数据集生成映射。在 此基础上,Liu 等 [15] 学者提出了一种条件 CNN 增 强型随机森林算法 (CoNERF),从显著引导的人脸 区域中提取深层特征,抑制光照、遮挡和低分辨率 带来的影响。然而上述方法仍保留了较多的冗余 信息,且均为完整网络结构,不易迁移。Hu 等 [16] 学者采用全新特征重标定方式提出一种通道注意 力网络 (SE-Net),显示建模特征通道之间的相互 依赖关系,进而提升有用特征并抑制用处不大的 特征,且能够直接集成到现有网络中,计算代价 小,没有冗余信息。 针对上述问题,本文提出一种深度多尺度融 合注意力残差网络 (deep multi-scale fusion attention residual network, DMFA-ResNet),主要改进包 括以下 3 个方面: 1)设计了一个由 7 个注意力残差学习单元构 成的注意力残差模块,注意力残差学习单元由 2 条包含卷积层的支路和 1 个短路链接构成,将 融合后的特征经过注意力机制,对输入图像进行 并行多卷积操作,以获得图像多尺度特征,突出 局部重点区域,有利于遮挡图像特征学习; 2) 提出多尺度融合模块,网络整体将各个注 意力残差模块的特征输出进行多尺度融合,以获 取更丰富的图像特征; 3)在网络模型中增加过渡层以去除冗余信 息,在保证感受野的情况下简化网络复杂度。并 使用全局平均池化+ Dropout 的设计减少参数运 算,使网络具有更好的抗过拟合性能。 1 DMFA-ResNet 算法 1.1 ResNet 网络结构 ResNet 网络通过引入残差模块,在算法前向 传播过程中使得卷积层之间形成跳跃连接,实现 对输入、输出的恒等映射,并采用 1×1、3×3 的小 卷积核,在解决网络退化问题的同时进一步加深 网络,ResNet-50 的基本残差学习单元如图 1 所示。 1×1 (reduce dimension) 3×3 1×1 (increase dimension) + ReLU ReLU ReLU F (x)+x x F (x) x 图 1 残差学习单元 Fig. 1 Residual learning unit 图 1 中,x表示输入, F(x) 表示残差映射,残差 ·394· 智 能 系 统 学 报 第 17 卷
第2期 高涛,等:深度多尺度融合注意力残差人脸表情识别网络 ·395· 单元的输出为 为[1,1,C的输出特征图,使得每个二维特征通道 H(x)=F(x)+x (1) 转换为一个具有全局感受野的实数。Fx通过对 当残差F(x)=0,残差学习单元的功能就是恒 每个通道生成权重,显式建模特征通道间的相关 等映射:则深层L的输出为 性,并逐通道加权到原始特征图上,完成通道维 H)=+∑F) (2) 度上的特征重标定,加强关键特征,抑制非显著 特征,从而提高网络的整体表征能力。 其反向梯度为 aLOSS aLOSS 2深度多尺度融合注意力残差网络 x 3H(XL) (3) 其中L0ss 基于ResNet-50残差网络,本文提出一种深度 为损失函数的梯度下降。 0x 多尺度融合注意力残差网络(DMFA-ResNet),该 l.2SE-Net注意力模块 网络由注意力残差模块(attention residual module, SE-Net是Hu等I学者提出的一种通道注意 ARM)、多尺度特征融合模块、过渡层、全局平均 力网络,核心为特征压缩操作F和特征激励操作 池化层、Dropout和Softmax分类层构成,网络结 Fx。Fg从通道维度将[H,W,C]的输入特征图压缩 构如图2所示。 112×112×32 56×56×64 56×56×128 28×28×128 112×112×3 Input Transiition Conv-2 Conv-3 3x3 Conv Maxpool 过渡层 Attention Attention residual Conv-428×28×128 residual module module 注意力残差模块 Conv-.514×14×256 28×28×128 Output nodes Attention residual Conv-6 14×14×256 module Transiition Conv-7 7×7×512 14×14×256 7×7×1024 Global average·' Attention 7×7×512 pooling Dropout(0.8) residual Conv-8 module 7×7×512 Multi-scale feature fusion 图2DMFA-ResNet结构图 Fig.2 DMFA-ResNet structure 深度神经网络的输人图片一般较大,为避免 元由两条残差学习支路、一条恒等映射支路和 后续计算量爆炸,需要将输入图片进行下采样后 SE-Net注意力模块构成。为了使输入经过3×3卷 再输入进卷积神经网络。原ResNet网络将输入 积层后的特征图维数相同,通过残差学习支路的 图像经过一个7×7大卷积层和最大池化层后,再 第一个1×1卷积层对输入进行降维。通过对输入 输入进后续残差模块。7×7大卷积层和最大池化 图像进行并行的多卷积操作,使得网络能够提取 层将输入图片的分辨率从224×224下采样至 到不同深度的多尺度表情图像特征。再将这两条 56×56,在减少计算量的同时最大程度保留了原始 残差学习支路所提取到的特征采用Concat方法进 图像细节信息。DMFA-ResNet使用3个3×3小卷 行融合,即将两个需要融合的特征图的通道进行 积层代替原7×7大卷积层,在保证与原网络层相 拼接,将两条残差学习支路输出的特征图融合后的 同感受野的前提下,进一步提升了网络深度,使 特征通过1×1卷积进行升维,确保输入、输出的 得网络能够提取到更深层次的语义信息。 维数相等。最后利用注意力机制突出重点局部区域, 2.1注意力残差模块 获得图像更准确的特征以提高识别准确率,有利 注意力残差模块(ARM由7个具有3条支路 于遮挡图像的特征学习。注意力残差模块和注意 的注意力残差学习单元构成。注意力残差学习单 力残差单元的结构图分别如图3、4所示
单元的输出为 H(x) = F(x)+ x (1) F(x) = 0 L 当残差 ,残差学习单元的功能就是恒 等映射;则深层 的输出为 H(xL) = xl + ∑L−1 i=l F(xi) (2) 其反向梯度为 ∂LOSS ∂xl = ∂LOSS ∂H(xL) (3) ∂LOSS ∂xl 其中 为损失函数的梯度下降。 1.2 SE-Net 注意力模块 Fsq Fex Fsq [H,W,C] SE-Net 是 Hu 等 [16] 学者提出的一种通道注意 力网络,核心为特征压缩操作 和特征激励操作 。 从通道维度将 的输入特征图压缩 [1,1,C] Fex 为 的输出特征图,使得每个二维特征通道 转换为一个具有全局感受野的实数。 通过对 每个通道生成权重,显式建模特征通道间的相关 性,并逐通道加权到原始特征图上,完成通道维 度上的特征重标定,加强关键特征,抑制非显著 特征,从而提高网络的整体表征能力。 2 深度多尺度融合注意力残差网络 基于 ResNet-50 残差网络,本文提出一种深度 多尺度融合注意力残差网络 (DMFA-ResNet),该 网络由注意力残差模块 (attention residual module, ARM)、多尺度特征融合模块、过渡层、全局平均 池化层、Dropout 和 Softmax 分类层构成,网络结 构如图 2 所示。 Attention residual module Attention residual module Attention residual module Transiition Transiition Feature maps Output nodes Softmax Input 3×3 Conv Maxpool Conv-1 Conv-2 Conv-3 Conv-4 Conv-5 Conv-6 Conv-7 Conv-8 Global average pooling Dropout (0.8) Transiition 注意力残差模块 过渡层 Multi-scale feature fusion Attention residual module 112×112×3 112×112×32 56×56×64 56×56×128 28×28×128 28×28×128 14×14×256 14×14×256 7×7×512 7×7×512 7×7×512 14×14×256 28×28×128 7×7×1 024 图 2 DMFA-ResNet 结构图 Fig. 2 DMFA-ResNet structure 深度神经网络的输入图片一般较大,为避免 后续计算量爆炸,需要将输入图片进行下采样后 再输入进卷积神经网络。原 ResNet 网络将输入 图像经过一个 7×7 大卷积层和最大池化层后,再 输入进后续残差模块。7×7 大卷积层和最大池化 层将输入图片的分辨率从 224×224 下采样至 56×56,在减少计算量的同时最大程度保留了原始 图像细节信息。DMFA-ResNet 使用 3 个 3×3 小卷 积层代替原 7×7 大卷积层,在保证与原网络层相 同感受野的前提下,进一步提升了网络深度,使 得网络能够提取到更深层次的语义信息。 2.1 注意力残差模块 注意力残差模块 (ARM) 由 7 个具有 3 条支路 的注意力残差学习单元构成。注意力残差学习单 元由两条残差学习支路、一条恒等映射支路和 SE-Net 注意力模块构成。为了使输入经过 3×3 卷 积层后的特征图维数相同,通过残差学习支路的 第一个 1×1 卷积层对输入进行降维。通过对输入 图像进行并行的多卷积操作,使得网络能够提取 到不同深度的多尺度表情图像特征。再将这两条 残差学习支路所提取到的特征采用 Concat 方法进 行融合,即将两个需要融合的特征图的通道进行 拼接,将两条残差学习支路输出的特征图融合后的 特征通过 1×1 卷积进行升维,确保输入、输出的 维数相等。最后利用注意力机制突出重点局部区域, 获得图像更准确的特征以提高识别准确率,有利 于遮挡图像的特征学习。注意力残差模块和注意 力残差单元的结构图分别如图 3、4 所示。 第 2 期 高涛,等:深度多尺度融合注意力残差人脸表情识别网络 ·395·
·396· 智能系统学报 第17卷 图像中央且占据绝大部分像素,位置信息并不重 SE-NeD SE-Net 要。因此采用全局平均池化层代替全连接层加强 图3。注意力残差模块 特征图与类别的一致性,直接对空间信息进行求 Fig.3 Attention residual module 和实现降维,极大地减少了网络参数。Dropout原 理又名随机失活原理,是指在网络训练过程中随 正分支 意抛弃某些神经元,破坏特征信息之间密切的交 互作用,使得网络不会过于依赖某些局部特征, 增强模型泛化性。 本文使用全局平均池化+随机失活设计,简化 1X13×33×3 权重牙麦,SE.Net 网络复杂度,减少运算量,避免过拟合现象,进而 图4注意力残差单元 Fig.4 Attention residual unit 提高网络泛化性。 2.2过渡层 3实验结果与分析 随着网络深度不断加深,运算参数量持续增 多,容易使得网络过度学习输入与输出之间的映 3.1实验环境与评价指标 射关系,将大量干扰信息错认为重点特征。 实验使用的深度学习框架为Tensorflow,计 在注意力残差模块之间引人由一个3×3卷积 算机操作系统为Windows100,显卡型号为NVIDIA 层和最大池化层组成的过渡层以去除冗余信息。 Quadro P4000,显存为8BG。 3×3卷积层能够在不改变特征图大小的情况下增 实验使用错误率(error rate)、准确率(accuracy 大维数,提升网络线性转换能力。最大池化层能 rate)、混淆矩阵和Fl-score作为评价指标。 够对输入图像进行下采样以减小参数矩阵的尺寸 错误率是指预测值与真实值不相同的样本数 以及卷积层参数误差造成估计均值的偏移,其结 占总样本数的比例,准确率是指预测值与真实值 构如图5所示。 相同的样本数占总样本数的比例。将真阳性(TP)、 假阳性(FP)、真阴性(TN)和假阴性(FN)4个指标 一起呈现在表格中称为混淆矩阵。Fl-score为精 准率和召回率的调和平均数,取值范围从0~1,其 计算公式为 3×3 Conv Maxpool F1-score=2.Pre.Rec (4) Pre+Rec 图5过渡层结构 Fig.5 Transition layer structure 3.2实验数据集及预处理 2.3多尺度特征融合模块 3.2.1实验数据集 经过各个注意力残差模块后,人脸表情图像 实验采取3个人脸表情数据库验证算法有效 的多尺度特征具有不同特点:浅层特征图尺寸较 性,分别为CK+、JAFFE和Ouu-CASIA。 大,通道数较少,具有丰富的细节信息;深层特征 CK+数据集共有123名实验者,实验共使用 图尺寸较小,通道数较多,包含丰富的抽象语义 981张标记图片用于本文实验。JAFFE数据集共 信息。因此本文设计了一个多尺度特征融合模块 包含213个图像、7类表情,平均每人每种表情有 将3个注意力残差模块产生的多尺度特征图进行 4张左右。Oulu-CASIA数据集由80个人的6类 融合。首先将前两个注意力残差模块的输出特征 基本表情构成,实验选取可见光成像系统下的 经过最大池化操作下采样至7×7×128和7×7× Strong强光图像集,在每个序列中选取最后5个 256;然后通过Concat通道融合方法将下采样过 峰值帧,形成共2400幅图像。 后的输出特征图和最后一个注意力残差模块的输 3.2.2数据预处理 出特征图进行融合;再将融合后的特征图使用 由于人脸表情识别数据库样本较少,本文使 1×1卷积核进行升维,最终得到具有丰富特征信 用裁剪、旋转以及遮挡方法对数据集进行扩充, 息的7×7×1024输出特征图。 具体步骤如下: 2.4全局平均池化+随机失活 1)首先对CK+和JAFFE数据集进行裁剪处 通常情况下,神经网络都会添加全连接层减 理,去除多余的背景,将背景对模型的影响降到 少特征位置对分类带来的影响。但人脸基本位于 最低
SE-Net ... + SE-Net + 输入 图 3 注意力残差模块 Fig. 3 Attention residual module 输入 + 1×1 1×1 1×1 3×3 3×3 3×3 权重分支 主分支 S X X Q SE-Net 图 4 注意力残差单元 Fig. 4 Attention residual unit 2.2 过渡层 随着网络深度不断加深,运算参数量持续增 多,容易使得网络过度学习输入与输出之间的映 射关系,将大量干扰信息错认为重点特征。 在注意力残差模块之间引入由一个 3×3 卷积 层和最大池化层组成的过渡层以去除冗余信息。 3×3 卷积层能够在不改变特征图大小的情况下增 大维数,提升网络线性转换能力。最大池化层能 够对输入图像进行下采样以减小参数矩阵的尺寸 以及卷积层参数误差造成估计均值的偏移,其结 构如图 5 所示。 3×3 Conv Maxpool 图 5 过渡层结构 Fig. 5 Transition layer structure 2.3 多尺度特征融合模块 经过各个注意力残差模块后,人脸表情图像 的多尺度特征具有不同特点:浅层特征图尺寸较 大,通道数较少,具有丰富的细节信息;深层特征 图尺寸较小,通道数较多,包含丰富的抽象语义 信息。因此本文设计了一个多尺度特征融合模块 将 3 个注意力残差模块产生的多尺度特征图进行 融合。首先将前两个注意力残差模块的输出特征 经过最大池化操作下采样至 7×7×128 和 7×7× 256;然后通过 Concat 通道融合方法将下采样过 后的输出特征图和最后一个注意力残差模块的输 出特征图进行融合;再将融合后的特征图使用 1×1 卷积核进行升维,最终得到具有丰富特征信 息的 7×7×1024 输出特征图。 2.4 全局平均池化+随机失活 通常情况下,神经网络都会添加全连接层减 少特征位置对分类带来的影响。但人脸基本位于 图像中央且占据绝大部分像素,位置信息并不重 要。因此采用全局平均池化层代替全连接层加强 特征图与类别的一致性,直接对空间信息进行求 和实现降维,极大地减少了网络参数。Dropout 原 理又名随机失活原理,是指在网络训练过程中随 意抛弃某些神经元,破坏特征信息之间密切的交 互作用,使得网络不会过于依赖某些局部特征, 增强模型泛化性。 本文使用全局平均池化+随机失活设计,简化 网络复杂度,减少运算量,避免过拟合现象,进而 提高网络泛化性。 3 实验结果与分析 3.1 实验环境与评价指标 实验使用的深度学习框架为 Tensorflow,计 算机操作系统为 Windows10,显卡型号为 NVIDIA Quadro P4000,显存为 8BG。 实验使用错误率 (error rate)、准确率 (accuracy rate)、混淆矩阵和 F1-score 作为评价指标。 错误率是指预测值与真实值不相同的样本数 占总样本数的比例,准确率是指预测值与真实值 相同的样本数占总样本数的比例。将真阳性 (TP)、 假阳性 (FP)、真阴性 (TN) 和假阴性 (FN)4 个指标 一起呈现在表格中称为混淆矩阵。F1-score 为精 准率和召回率的调和平均数,取值范围从 0~1,其 计算公式为 F1-score = 2 · Pre ·Rec Pre+Rec (4) 3.2 实验数据集及预处理 3.2.1 实验数据集 实验采取 3 个人脸表情数据库验证算法有效 性,分别为 CK+、JAFFE 和 Oulu-CASIA。 CK+数据集共有 123 名实验者,实验共使用 981 张标记图片用于本文实验。JAFFE 数据集共 包含 213 个图像、7 类表情,平均每人每种表情有 4 张左右。Oulu-CASIA 数据集由 80 个人的 6 类 基本表情构成,实验选取可见光成像系统下的 Strong 强光图像集,在每个序列中选取最后 5 个 峰值帧,形成共 2400 幅图像。 3.2.2 数据预处理 由于人脸表情识别数据库样本较少,本文使 用裁剪、旋转以及遮挡方法对数据集进行扩充, 具体步骤如下: 1)首先对 CK+和 JAFFE 数据集进行裁剪处 理,去除多余的背景,将背景对模型的影响降到 最低。 ·396· 智 能 系 统 学 报 第 17 卷
第2期 高涛,等:深度多尺度融合注意力残差人脸表情识别网络 ·397· 2)分别将JAFFE数据集图像以顺时针、逆时 构成深度融合注意力残差网络DFAR(deep fusion 针旋转5°后的图像扩充数据集,扩充完毕共 attention residual network),在Oulu-CASIA数据集 852张标记图片用于实验,其中训练集680张,验 上进行表情识别消融实验,实验结果如表3所示。 证集172张,如表1所示。 表3表情识别消融实验 表1 JAFFE扩充数据集样本分布 Table 3 Ablation experiment of facial expression recogni- Table 1 Sample distribution of expanded JAFFE tion 类别 数量张 占比 方法 残差单元多尺度融合注意力机制A/% 愤怒 DFR + 91.16 120 0.14 厌恶 DMFR 91.69 116 0.13 恐惧 DFAR 91.53 128 0.15 快乐 DMFA-ResNet 92.57 124 0.15 中性 120 0.14 由表3可知,改进的基础残差模块网络DFR 悲伤 124 0.15 在Oulu-CASIA数据集上的识别率为91.16%。当 惊讶 120 0.14 分别增加多尺度特征模块和注意力机制模块后, 0ulu-CASIA的识别率分别提升到91.69%和 3)通过在眼睛、嘴巴位置添加黑色框来模拟 91.53%,表明多尺度特征融合模块对网络的贡献 现实中存在的遮挡情况,如由墨镜、口罩等引起。 大于注意力机制模块。 3.3实验结果与分析 为探讨注意残差单元数目对网络性能的影 3.3.1网络性能实验分析 响,设置注意残差单元数目对比实验。在其余参 1)训练样本对性能影响 数量基本一致的情况下,将注意残差单元数目分 为探讨训练样本对网络性能的影响,设置训 别设置为4、5、6、7、8、9,并在JAFFE数据集上进 练样本数目对比实验。在其余参数量一致的情况 行实验,实验结果由图6所示。 下,在JAFFE扩充数据集(852张)上进行训练样 98 本分别为341、511、680的对比实验,实验结果如 96.3096.3496.35 94 表2所示。 93.60 邂90 表2训练样本对性能影响 Table 2 Effect of training sample number on performance 86 86.20 训练样本个 验证样本/个 测试集识别率A/% 828280 4 5 6 7 341 511 94.2 残差单元个数 511 341 94.7 图6注意残差单元个数对性能的影响 680 172 96.3 Fig.6 Effect of the number of attention residual elements on peraformance 由表2可知,随着训练样本不断增多,网络性 由图6可知,当注意残差单元个数小于7时, 能逐步增强,当训练样本为680个时,网络识别率 算法识别率随残差单元个数的增加增幅明显。当 达到最高96.3%,因此在网络训练过程中,应尽可 注意残差单元个数为9时,算法识别率达到最高 能增大训练样本数目,保证网络能够学习到足够 96.35%。但注意残差单元个数大于7时,识别率 信息。 增幅缓慢,考虑到网络复杂度对计算量及网络运 2)网络结构 行速度带来的影响,最终选择将7个注意残差单 为验证各个模块的有效性,设置包含针对不 元作为一个注意残差模块。 同模块的对比网络进行消融实验。在参数量基本 3.3.2无遮挡表情实验 ·致的情况下,以改进的基础残差模块网络DFR 表4是不同方法在Oulu-CASIA数据集上的 (deep fusion residual network)为对比基准,将多尺 测试结果。结果表明,DFR算法在Oulu-CASIA 度特征融合模块添加进网络结构中构成深度多尺 数据集上的识别率能够达到91.16%。DMFA-Res- 度融合残差网络DMFR(deep multi-scale fusion re- Net的识别率达到92.57%,比LCE的识别率高出 sidual network),将注意力机制添加进网络结构中 9.31%,比DFERM的识别率高出4.32%
2)分别将 JAFFE 数据集图像以顺时针、逆时 针 旋 转 5 °后的图像扩充数据集,扩充完毕 共 852 张标记图片用于实验,其中训练集 680 张,验 证集 172 张,如表 1 所示。 表 1 JAFFE 扩充数据集样本分布 Table 1 Sample distribution of expanded JAFFE 类别 数量/张 占比 愤怒 120 0.14 厌恶 116 0.13 恐惧 128 0.15 快乐 124 0.15 中性 120 0.14 悲伤 124 0.15 惊讶 120 0.14 3)通过在眼睛、嘴巴位置添加黑色框来模拟 现实中存在的遮挡情况,如由墨镜、口罩等引起。 3.3 实验结果与分析 3.3.1 网络性能实验分析 1) 训练样本对性能影响 为探讨训练样本对网络性能的影响,设置训 练样本数目对比实验。在其余参数量一致的情况 下,在 JAFFE 扩充数据集 (852 张) 上进行训练样 本分别为 341、511、680 的对比实验,实验结果如 表 2 所示。 表 2 训练样本对性能影响 Table 2 Effect of training sample number on performance 训练样本/个 验证样本/个 测试集识别率A/% 341 511 94.2 511 341 94.7 680 172 96.3 由表 2 可知,随着训练样本不断增多,网络性 能逐步增强,当训练样本为 680 个时,网络识别率 达到最高 96.3%,因此在网络训练过程中,应尽可 能增大训练样本数目,保证网络能够学习到足够 信息。 2) 网络结构 为验证各个模块的有效性,设置包含针对不 同模块的对比网络进行消融实验。在参数量基本 一致的情况下,以改进的基础残差模块网络 DFR (deep fusion residual network) 为对比基准,将多尺 度特征融合模块添加进网络结构中构成深度多尺 度融合残差网络 DMFR (deep multi-scale fusion residual network),将注意力机制添加进网络结构中 构成深度融合注意力残差网络 DFAR (deep fusion attention residual network),在 Oulu-CASIA 数据集 上进行表情识别消融实验,实验结果如表 3 所示。 表 3 表情识别消融实验 Table 3 Ablation experiment of facial expression recognition 方法 残差单元 多尺度融合 注意力机制 A/% DFR √ × × 91.16 DMFR √ √ × 91.69 DFAR √ × √ 91.53 DMFA-ResNet √ √ √ 92.57 由表 3 可知,改进的基础残差模块网络 DFR 在 Oulu-CASIA 数据集上的识别率为 91.16%。当 分别增加多尺度特征模块和注意力机制模块后, Oulu-CASIA 的识别率分别提升到 91.69% 和 91.53%,表明多尺度特征融合模块对网络的贡献 大于注意力机制模块。 为探讨注意残差单元数目对网络性能的影 响,设置注意残差单元数目对比实验。在其余参 数量基本一致的情况下,将注意残差单元数目分 别设置为 4、5、6、7、8、9,并在 JAFFE 数据集上进 行实验,实验结果由图 6 所示。 4 82.80 86.20 93.60 96.30 96.34 96.35 5 82 86 90 识别率 A/%94 98 6 7 8 残差单元个数 9 图 6 注意残差单元个数对性能的影响 Fig. 6 Effect of the number of attention residual elements on peraformance 由图 6 可知,当注意残差单元个数小于 7 时, 算法识别率随残差单元个数的增加增幅明显。当 注意残差单元个数为 9 时,算法识别率达到最高 96.35%。但注意残差单元个数大于 7 时,识别率 增幅缓慢,考虑到网络复杂度对计算量及网络运 行速度带来的影响,最终选择将 7 个注意残差单 元作为一个注意残差模块。 3.3.2 无遮挡表情实验 表 4 是不同方法在 Oulu-CASIA 数据集上的 测试结果。结果表明,DFR 算法在 Oulu-CASIA 数据集上的识别率能够达到 91.16%。DMFA-ResNet 的识别率达到 92.57%,比 LCE 的识别率高出 9.31%,比 IDFERM 的识别率高出 4.32%。 第 2 期 高涛,等:深度多尺度融合注意力残差人脸表情识别网络 ·397·
·398· 智能系统学报 第17卷 表4不同方法在Oulu-CASIA数据集上的测试结果 情况,一般由墨镜、口罩等引起。若局部区域被 Table 4 Test results of different methods on Oulu-CASIA 遮挡,卷积神经网络就难以抓住重点区域进行特 data sets 征提取,针对这种情况,本章将在遮挡的扩充数 方法 A/% 据集上进行实验。表6和表7分别为各种算法在 参数重要性正则1叼 88.19 CK+和JAFFE数据集上的遮挡。 DFLFls] 87.85 1.0 LCE 83.26 愤怒 )9 0.04 0.9 IDFERMI201 88.25 轻蔑 0.8 DeRLRI 88.0 0.7 厌恶 0.6 DFR 91.16 恐惧 1 0.5 DMFA-ResNet 92.57 快乐 0.4 表5是不同方法在CK+和JAFFE数据集上的 0.3 悲伤 0 0.2 测试结果。结果表明,DFR算法在CK+和JAFFE 0.1 数据集上分别能够达到99.68%和96.25%的识别 惊讶 0 率。比文献[22]在两个数据集中的识别率分别高 西g 出6.22%和1.5%,比文献[23]在两个数据集中的 (a)DFR在CK+上的混淆矩阵 识别率分别高出2.92%和9.51%。 1.0 表5不同方法在CK+和JAFFE数据集上的测试结果 愤怒 09 0.04 0.9 Table 5 Test results of different methods on CK+and 号 厌恶 0.040 0.8 JAFFE data sets 0.7 方法 CK+数据集 JAFFE数据集 恐惧 10创 0.6 DCMA-CNNsE☑ 94.75 快乐 09 93.46 0.04 0.5 CNN pre-processing 96.76 86.74 中性 0.4 10 0.3 WMDCNNEAI 98.50 92.3 悲伤 0.04 0.9 0.2 WMDNNR25] 97.02 92.21 0.08 0.1 HDNNS1261 惊讶 96.46 91.27 0 DFR 99.68 96.25 步型感 DMFA-ResNet 99.70 96.30 (b)DFR在JAFFE上的混淆矩阵 图7DFR在CK+和JAFFE数据集上的混淆矩阵 图7分别为DFR算法在CK+和JAFFE数据 Fig.7 Confusion matrix of DFR on CK+and JAFFE 集的混淆矩阵,其中DFR能够在CK+数据集上对 轻蔑、厌恶、恐惧、快乐、悲伤和惊讶这六种表情 表6CK+上遮挡表情识别 达到100%识别率;在JAFFE数据集上对恐惧及 Table 6 occlusion facial expression recognition on CK+ oo 中性表情能够达到100%识别率,但惊喜表情容 易被误判为中性表情,因此识别精度最低。 方法 眼睛遮挡 嘴巴遮挡 DFR算法对比其他先进算法在识别率上有很 PCA+SVM 89.04 83.84 大提升,充分验证了改进的残差模块和过渡层能 CNN 91.69 89.17 够提取更加精确的人脸表情特征。DMFA-Res- DCGAN+CNN 87.83 8543 Net算法在CK+和JAFFE数据集上的识别率分别 为99.7%和96.3%,比DFR算法在两个数据集中 end-to-end GAN 92.69 90.57 分别提高0.02%和0.05%,证明了引入注意力机 微调VGGface 89.90 87.34 制模块和多尺度特征融合模块对提升人脸表情识 MU-VGGNet 94.06 91.63 别率是有利的。 DFR 93.81 92.78 3.3.3遮挡表情实验 DMFA-ResNet 95.31 93.81 实际生活中,人脸表情图像采集会伴有遮挡
表 4 不同方法在 Oulu-CASIA 数据集上的测试结果 Table 4 Test results of different methods on Oulu-CASIA data sets 方法 A/% 参数重要性正则[17] 88.19 DFLF[18] 87.85 LCE[19] 83.26 IDFERM[20] 88.25 DeRL[21] 88.0 DFR 91.16 DMFA-ResNet 92.57 表 5 是不同方法在 CK+和 JAFFE 数据集上的 测试结果。结果表明,DFR 算法在 CK+和 JAFFE 数据集上分别能够达到 99.68% 和 96.25% 的识别 率。比文献 [22] 在两个数据集中的识别率分别高 出 6.22% 和 1.5%,比文献 [23] 在两个数据集中的 识别率分别高出 2.92% 和 9.51%。 表 5 不同方法在 CK+和 JAFFE 数据集上的测试结果 Table 5 Test results of different methods on CK+ and JAFFE data sets % 方法 CK+数据集 JAFFE数据集 DCMA-CNNs[22] 93.46 94.75 CNN pre-processing[23] 96.76 86.74 WMDCNN[24] 98.50 92.3 WMDNN[25] 97.02 92.21 HDNNS[26] 96.46 91.27 DFR 99.68 96.25 DMFA-ResNet 99.70 96.30 图 7 分别为 DFR 算法在 CK+和 JAFFE 数据 集的混淆矩阵,其中 DFR 能够在 CK+数据集上对 轻蔑、厌恶、恐惧、快乐、悲伤和惊讶这六种表情 达到 100% 识别率;在 JAFFE 数据集上对恐惧及 中性表情能够达到 100% 识别率,但惊喜表情容 易被误判为中性表情,因此识别精度最低。 DFR 算法对比其他先进算法在识别率上有很 大提升,充分验证了改进的残差模块和过渡层能 够提取更加精确的人脸表情特征。DMFA-ResNet 算法在 CK+和 JAFFE 数据集上的识别率分别 为 99.7% 和 96.3%,比 DFR 算法在两个数据集中 分别提高 0.02% 和 0.05%,证明了引入注意力机 制模块和多尺度特征融合模块对提升人脸表情识 别率是有利的。 3.3.3 遮挡表情实验 实际生活中,人脸表情图像采集会伴有遮挡 情况,一般由墨镜、口罩等引起。若局部区域被 遮挡,卷积神经网络就难以抓住重点区域进行特 征提取,针对这种情况,本章将在遮挡的扩充数 据集上进行实验。表 6 和表 7 分别为各种算法在 CK+和 JAFFE 数据集上的遮挡。 愤怒 愤怒 (a) DFR 在 CK+ 上的混淆矩阵 轻蔑 厌恶 恐惧 快乐 悲伤 惊讶 1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0.96 1.00 1.00 1.00 1.00 1.00 1.00 0.04 轻蔑 厌恶 恐惧 快乐 悲伤 惊讶 愤怒 愤怒 厌恶 恐惧 快乐 中性 悲伤 惊讶 厌恶 恐惧 快乐 中性 悲伤 惊讶 (b) DFR 在 JAFFE 上的混淆矩阵 1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0.96 0.96 1.00 0.96 1.00 0.96 0.92 0.04 0.04 0.04 0.04 0.08 图 7 DFR 在 CK+和 JAFFE 数据集上的混淆矩阵 Fig. 7 Confusion matrix of DFR on CK+ and JAFFE 表 6 CK+上遮挡表情识别 Table 6 occlusion facial expression recognition on CK+ % 方法 眼睛遮挡 嘴巴遮挡 PCA+SVM 89.04 83.84 CNN 91.69 89.17 DCGAN+CNN 87.83 85.43 end-to-end GAN 92.69 90.57 微调VGGface 89.90 87.34 MU-VGGNet 94.06 91.63 DFR 93.81 92.78 DMFA-ResNet 95.31 93.81 ·398· 智 能 系 统 学 报 第 17 卷
第2期 高涛,等:深度多尺度融合注意力残差人脸表情识别网络 。399· 表7 JAFFE上遮挡表情识别 1.0 愤怒 090.07 Table 7 Occlusion facial expression recognition on JAFFE % 轻蔑 0.90 0.10 方法 眼睛遮挡 嘴巴遮挡 厌恶 1.00 Gabor 85.66 86.97 0.6 Gabor+gray-level matrix 88.88 90.90 恐惧 020 160 020 WLDH 87.23 89.47 4 快乐 0 DFR 89.47 91.81 DMFA-ResNet 91.22 0.19 93.56 悲伤 0.2 惊讶 表8和表9分别为DMFA-ResNet算法在CK+ 和JAFFE数据集上的Fl-score值。图8和图9分 别为DMFA-ResNet算法在CK+和JAFFE数据集 (b)遮挡嘴巴图片在CK+上的混淆矩阵 上的遮挡混淆矩阵。 图8在CK+数据集上的遮挡混淆矩阵 表8CK+上遮挡表情F1-score值 Fig.8 Occlusion confusion matrix on the CK+ Table 8 F1-score of occlusion facial expression on CK+ 表情 眼睛遮挡 嘴巴遮挡 愤怒 0.92 0.04 0.04 愤怒 0.89 0.96 厌恶 0.8 91 0.04 0.04 轻蔑 0.86 0.76 恐惧 0.0408 厌恶 0,12 0.98 0.90 0.6 恐惧 0.99 0.75 快乐 092 0.08 快乐 0.99 1 04 中性 09 0.04 悲伤 0.89 0.90 惊讶 1 0.90 悲伤 0.040.040.04 084 0.04 0.2 惊讶 0.04 0.90 表9 JAFFE上遮挡表情F1-score值 Table 9 F1-score of occlusion facial expression on JAFFE 步母惑 表情 眼睛遮挡 嘴巴遮挡 (a)遮挡眼睛图片在JAFFE上的混淆矩阵 愤怒 0.96 0.96 愤怒192 0.08 厌恶 0.90 0.92 厌恶 0.8 恐惧 096 0.04 0.88 0.89 快乐 0.94 0.94 恐惧 0.04083 0.08 0.04 0.6 中性 0.92 0.96 快乐 096 0.04 悲伤 0.82 0.88 0.4 096 0.04 惊讶 中性 0.94 0.98 悲伤 0.040.04092 0.2 1.0 愤怒 0.96 0.07 惊讶 0.04 0.9% 轻蔑0.10 01 0.8 多效 097 (b)遮挡嘴巴图片在JAFFE上的混淆矩阵 厌恶 0.03 0.6 图9在JAFFE数据集上的遮挡混淆矩阵 恐惧 Fig.9 Occlusion confusion matrix on the JAFFE 0.4 快乐 0.02 098 由表6、表7可知,对于遮挡图像,DMFA- 悲伤0.060.12 0.2 ResNet比DFR算法在CK+和JAFFE数据集上的 惊讶 识别精度分别提升2.5%和1.5%,且DMFA-Res- Net对遮挡表情的识别在两个数据集上均取得最 高识别精度。 (a)遮挡眼睛图片在CK+上的混淆矩阵 由表8和图8可知,遮挡眼睛后,DMFA-Res
表 7 JAFFE 上遮挡表情识别 Table 7 Occlusion facial expression recognition on JAFFE % 方法 眼睛遮挡 嘴巴遮挡 Gabor 85.66 86.97 Gabor+gray-level matrix 88.88 90.90 WLDH 87.23 89.47 DFR 89.47 91.81 DMFA-ResNet 91.22 93.56 表 8 和表 9 分别为 DMFA-ResNet 算法在 CK+ 和 JAFFE 数据集上的 F1-score值。图 8 和图 9 分 别为 DMFA-ResNet 算法在 CK+和 JAFFE 数据集 上的遮挡混淆矩阵。 表 8 CK+上遮挡表情 F1-score 值 Table 8 F1-score of occlusion facial expression on CK + 表情 眼睛遮挡 嘴巴遮挡 愤怒 0.89 0.96 轻蔑 0.86 0.76 厌恶 0.98 0.90 恐惧 0.99 0.75 快乐 0.99 1 悲伤 0.89 0.90 惊讶 1 0.90 表 9 JAFFE 上遮挡表情 F1-score 值 Table 9 F1-score of occlusion facial expression on JAFFE 表情 眼睛遮挡 嘴巴遮挡 愤怒 0.96 0.96 厌恶 0.90 0.92 恐惧 0.88 0.89 快乐 0.94 0.94 中性 0.92 0.96 悲伤 0.82 0.88 惊讶 0.94 0.98 (a) 遮挡眼睛图片在 CK+ 上的混淆矩阵 1.0 0.8 0.6 0.4 0.2 0 0.96 0.10 0.06 0.12 0.90 0.97 1.00 0.98 0.81 1.00 0.07 0.03 0.02 愤怒 愤怒 轻蔑 厌恶 恐惧 快乐 悲伤 惊讶 轻蔑 厌恶 恐惧 快乐 悲伤 惊讶 (b) 遮挡嘴巴图片在 CK+ 上的混淆矩阵 1.0 0.8 0.6 0.4 0.2 0 0.93 0.90 1.00 0.60 1.00 0.81 1.00 0.07 0.20 0.10 0.19 0.20 愤怒 愤怒 轻蔑 厌恶 恐惧 快乐 悲伤 惊讶 轻蔑 厌恶 恐惧 快乐 悲伤 惊讶 图 8 在 CK+数据集上的遮挡混淆矩阵 Fig. 8 Occlusion confusion matrix on the CK+ (a) 遮挡眼睛图片在 JAFFE 上的混淆矩阵 0.8 0.6 0.4 0.2 0 0.92 0.91 0.85 0.92 0.96 0.84 0.96 0.04 0.04 0.04 0.12 0.04 0.08 0.04 0.04 0.04 0.04 0.04 0.04 0.04 (b) 遮挡嘴巴图片在 JAFFE 上的混淆矩阵 0.8 0.6 0.4 0.2 0 0.92 0.96 0.85 0.96 0.96 0.92 0.96 0.08 0.08 0.04 0.04 0.04 0.04 0.04 0.04 0.04 0.04 愤怒 愤怒 厌恶 恐惧 快乐 中性 悲伤 惊讶 厌恶 恐惧 快乐 中性 悲伤 惊讶 愤怒 愤怒 厌恶 恐惧 快乐 中性 悲伤 惊讶 厌恶 恐惧 快乐 中性 悲伤 惊讶 图 9 在 JAFFE 数据集上的遮挡混淆矩阵 Fig. 9 Occlusion confusion matrix on the JAFFE 由表 6、表 7 可知,对于遮挡图像,DMFAResNet 比 DFR 算法在 CK+和 JAFFE 数据集上的 识别精度分别提升 2.5% 和 1.5%,且 DMFA-ResNet 对遮挡表情的识别在两个数据集上均取得最 高识别精度。 由表 8 和图 8 可知,遮挡眼睛后,DMFA-Res- 第 2 期 高涛,等:深度多尺度融合注意力残差人脸表情识别网络 ·399·
·400· 智能系统学报 第17卷 Net算法在CK+数据集上能够对害怕和惊讶两种 [4]ZHAO Guoying,PIETIKAINEN M.Dynamic texture re- 表情达到100%识别率:遮挡嘴巴后,能够对困 cognition using local binary patterns with an application 惑、快乐和惊讶3种表情达到100%识别率。而 to facial expressions[J].IEEE transactions on pattern ana- 轻蔑和恐惧表情的F1-score分别只达到0.76和 lysis and machine intelligence,2007,29(6):915-928. 0.75,说明这两种表情的有效特征大部分在于嘴 [5]WHITEHILL J,OMLIN C W.Haar features for FACS 巴部分。 AU recognition[C]//Proceedings of the 7th International 由图9和表9可知,遮挡眼睛情况下的悲伤 Conference on Automatic Face and Gesture Recognition. Southampton,UK,2006:5-101. 表情F1-score仅达到0.82,说明悲伤表情的有效 [6]BARTLETT MS,LITTLEWORT G,FRANK M.et al. 特征大部分在于眼睛部分,虽然该值达到最低, Recognizing facial expression:machine learning and ap- 但DMFA-ResNet在JAFFE数据集上也取得相当 plication to spontaneous behavior[C]//Proceedings of 不错的效果。由于该数据集样本间的差异较小, 2005 IEEE Computer Society Conference on Computer 导致算法仍出现较多误判情况,无法完全精准识 Vision and Pattern Recognition.San Diego,USA,2005: 别某一类表情。以上实验结果证明了DMFA-Res 568-573. Nt在应对遮挡图像问题上的优越性,更适用于 [7]LI Xiaobai,PFISTER T,HUANG Xiaohua,et al.A spon- 人脸表情识别任务。 taneous micro-expression database:inducement,collec- tion and baseline[C]//2013 10th IEEE International Con- 4结束语 ference and Workshops on Automatic Face and Gesture Recognition (FG).Shanghai,China,2013:1-6. 本文提出一种多尺度融合注意力残差网络 [8]RIVERA A R.CASTILLO J R.CHA E OO.Local direc- (DMFA-ResNet)。该网络主要提出一种新的注意 tional number pattern for face analysis:face and expres- 力残差模块,提高了网络对局部重点部位特征的 sion recognition[J].IEEE transactions on image pro- 提取,有利于学习到非遮挡部位的信息;提出多 cessing,.2013,22(5:1740-1752 尺度融合模块,将各残差模块的输出进行融合以 [9]KIM T H,YU C,LEE S W.Facial expression recogni- 提取更加丰富的人脸表情特征;为了减少参与网 tion using feature additive pooling and progressive fine- 络运算的参数量,在各个残差模块之间添加过渡 tuning of CNN[J].Electronics letters,2018,54(23): 层,主要进行下采样操作并使用全局平均池化+ 1326-1328. Dropout设计防止网络过拟合。在CK+、JAFFE [10]AN Fengping,LIU Zhiwen.Facial expression recogni- 和Oulu-CASIA数据集上进行实验均取得了不错 tion algorithm based on parameter adaptive initialization 的效果,注意力残差模块对局部区域的特征能够 of CNN and LSTM[J].The visual computer,2020. 36(3):483-498. 进行有效提取,实验验证本文算法具有优越性。 但所提算法为针对静态图像的表情识别算法,不 [11]XIE Siyue,HU Haifeng,WU Yongbo.Deep multi-path convolutional neural network joint with salient region at- 适用于动态连续的视频识别,在接下来的工作中, tention for facial expression recognition[J].Pattern re- 可以重点研究基于视频的动态表情识别技术。 cognition,2019,92:177-191 参考文献: [12]WANG Kai,PENG Xiaojiang,YANG Jianfei,et al. Suppressing uncertainties for large-scale facial expres- [1]BEN Xianye,REN Yi,ZHANG Junping,et al.Video- sion recognition[C]//Proceedings of 2020 IEEE/CVF based Facial micro-expression analysis:a survey of data- Conference on Computer Vision and Pattern Recogni- sets,features and algorithms[EB/OLl.(2021-03-19)[2021- tion.Seattle,USA,2020:6897-6906 05-01].https://arxiv.org/abs/2201.12728v1. [13]HE Kaiming,ZHANG Xiangyu,REN Shaoqing,et al. [2]CHEN Boyu,GUAN Wenlong,LI Peixia,et al.Residual Deep residual learning for image recognition[Cl//Pro- multi-task learning for facial landmark localization and ceedings of 2016 IEEE Conference on Computer Vision expression recognition [EB/OL].(2021-07-01)[2021-07- and Pattern Recognition.Las Vegas,USA,2016: 05].https://www.sciencedirect.com/science/article/pii/S00 770-778 31320321000807. [14]LI Yong,ZENG Jiabei,SHAN Shiguang,et al.Occlu- [3]LI Shan,DENG Weihong.Deep facial expression recog- sion aware facial expression recognition using CNN with nition:a survey [EB/OL].(2020-03-17)[2021-05-01].ht- attention mechanism[J].IEEE transactions on image pro- tps://ieeexplore.ieee.org/document/9039580. cessing,2019,28(5):2439-2450
Net 算法在 CK+数据集上能够对害怕和惊讶两种 表情达到 100% 识别率;遮挡嘴巴后,能够对困 惑、快乐和惊讶 3 种表情达到 100% 识别率。而 轻蔑和恐惧表情的 F1-score 分别只达到 0.76 和 0.75,说明这两种表情的有效特征大部分在于嘴 巴部分。 由图 9 和表 9 可知,遮挡眼睛情况下的悲伤 表情 F1-score 仅达到 0.82,说明悲伤表情的有效 特征大部分在于眼睛部分,虽然该值达到最低, 但 DMFA-ResNet 在 JAFFE 数据集上也取得相当 不错的效果。由于该数据集样本间的差异较小, 导致算法仍出现较多误判情况,无法完全精准识 别某一类表情。以上实验结果证明了 DMFA-ResNet 在应对遮挡图像问题上的优越性,更适用于 人脸表情识别任务。 4 结束语 本文提出一种多尺度融合注意力残差网络 (DMFA-ResNet)。该网络主要提出一种新的注意 力残差模块,提高了网络对局部重点部位特征的 提取,有利于学习到非遮挡部位的信息;提出多 尺度融合模块,将各残差模块的输出进行融合以 提取更加丰富的人脸表情特征;为了减少参与网 络运算的参数量,在各个残差模块之间添加过渡 层,主要进行下采样操作并使用全局平均池化+ Dropout 设计防止网络过拟合。在 CK+、JAFFE 和 Oulu-CASIA 数据集上进行实验均取得了不错 的效果,注意力残差模块对局部区域的特征能够 进行有效提取,实验验证本文算法具有优越性。 但所提算法为针对静态图像的表情识别算法,不 适用于动态连续的视频识别,在接下来的工作中, 可以重点研究基于视频的动态表情识别技术。 参考文献: BEN Xianye, REN Yi, ZHANG Junping, et al. Videobased Facial micro-expression analysis: a survey of datasets, features and algorithms[EB/OL].(2021-03-19)[2021- 05-01].https://arxiv.org/abs/2201.12728v1. [1] CHEN Boyu, GUAN Wenlong, LI Peixia, et al. Residual multi-task learning for facial landmark localization and expression recognition[EB/OL].(2021-07-01)[2021-07- 05].https://www.sciencedirect.com/science/article/pii/S00 31320321000807. [2] LI Shan, DENG Weihong. Deep facial expression recognition: a survey[EB/OL].(2020-03-17)[2021-05-01]. https://ieeexplore.ieee.org/document/9039580. [3] ZHAO Guoying, PIETIKAINEN M. Dynamic texture recognition using local binary patterns with an application to facial expressions[J]. IEEE transactions on pattern analysis and machine intelligence, 2007, 29(6): 915–928. [4] WHITEHILL J, OMLIN C W. Haar features for FACS AU recognition[C]//Proceedings of the 7th International Conference on Automatic Face and Gesture Recognition. Southampton, UK, 2006: 5−101. [5] BARTLETT M S, LITTLEWORT G, FRANK M, et al. Recognizing facial expression: machine learning and application to spontaneous behavior[C]//Proceedings of 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Diego, USA, 2005: 568−573. [6] LI Xiaobai, PFISTER T, HUANG Xiaohua, et al. A spontaneous micro-expression database: inducement, collection and baseline[C]//2013 10th IEEE International Conference and Workshops on Automatic Face and Gesture Recognition (FG). Shanghai, China, 2013: 1−6. [7] RIVERA A R, CASTILLO J R, CHA E O O. Local directional number pattern for face analysis: face and expression recognition[J]. IEEE transactions on image processing, 2013, 22(5): 1740–1752. [8] KIM T H, YU C, LEE S W. Facial expression recognition using feature additive pooling and progressive finetuning of CNN[J]. Electronics letters, 2018, 54(23): 1326–1328. [9] AN Fengping, LIU Zhiwen. Facial expression recognition algorithm based on parameter adaptive initialization of CNN and LSTM[J]. The visual computer, 2020, 36(3): 483–498. [10] XIE Siyue, HU Haifeng, WU Yongbo. Deep multi-path convolutional neural network joint with salient region attention for facial expression recognition[J]. Pattern recognition, 2019, 92: 177–191. [11] WANG Kai, PENG Xiaojiang, YANG Jianfei, et al. Suppressing uncertainties for large-scale facial expression recognition[C]//Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle, USA, 2020: 6897−6906. [12] HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al. Deep residual learning for image recognition[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA, 2016: 770−778. [13] LI Yong, ZENG Jiabei, SHAN Shiguang, et al. Occlusion aware facial expression recognition using CNN with attention mechanism[J]. IEEE transactions on image processing, 2019, 28(5): 2439–2450. [14] ·400· 智 能 系 统 学 报 第 17 卷
第2期 高涛,等:深度多尺度融合注意力残差人脸表情识别网络 ·401· [15]LIU Yuanyuan,YUAN Xiaohui,GONG Xi,et al.Con- 211-220 ditional convolution neural network enhanced random [23]LOPES A T.DE AGUIAR E.DE SOUZA A F,et al. forest for facial expression recognition[J].Pattern recog- Facial expression recognition with convolutional neural nition,2018.84:251-261. networks:coping with few data and the training sample [16]HU Jie,SHEN Li,SUN Gang.Squeeze-and-excitation order[J].Pattern recognition,2017,61:610-628. networks[C]//Proceedings of 2018 IEEE/CVF Confer- [24]ZHANG Hepeng,HUANG Bin,TIAN Guohui.Facial ence on Computer Vision and Pattern Recognition.Salt expression recognition based on deep convolution long Lake City,.USA,2018:7132-7141. short-term memory networks of double-channel [17刀江静,邓伟洪.持续学习改进的人脸表情识别).中国 weighted mixture[J].Pattern recognition letters,2020, 图象图形学报,2020.25(11上:2361-2369. 131:128-134. JIANG Jing,DENG Weihong.Facial expression recog- [25]YANG Biao,CAO Jinmeng,NI Rongrong,et al.Facial nition improved by continual learning[J].Journal of im- expression recognition using weighted mixture deep age and graphics,,2020,25(11):2361-2369. neural network based on double-channel facial images [18]王善敏,帅惠,刘青山.关键点深度特征驱动人脸表情 [J.IEEE access,2017,6:4630-4640. 识别[).中国图象图形学报,2020,25(4):813-823. [26]KIM J H.KIM B G.ROY PP.et al.Efficient facial ex- WANG Shanmin,SHUAI Hui,LIU Qingshan.Facial pression recognition algorithm based on hierarchical expression recognition based on deep facial landmark deep neural network structure[J].IEEE access,2019,7: features[J].Journal of image and graphics,2020,25(4): 41273-41285 813-823 作者简介: [19]张文萍,贾凯,王宏玉,等.改进的Island损失函数在 高涛,教授,博士,主要研究方向 人脸表情识别上的应用).计算机辅助设计与图形学 为数字图像处理、模式识别。获得国 学报,2020,32(12:1910-1917. 家专利9项。发表学术论文16篇。 ZHANG Wenping,JIA Kai,WANG Hongyu,et al.Ap- plication of improved Island loss in facial expression re- cognition[J].Journal of computer-aided design com- puter graphics,.2020,32(12):1910-1917. [20]LIU Xiaofeng,KUMAR B VK V,JIA Ping,et al.Hard 杨朝晨,硕士研究生,主要研究方 negative generation for identity-disentangled facial ex- 向为数字图像处理、深度学习。 pression recognition[J].Pattern recognition,2019,88: 1-12. [21]YANG Huiyuan,CIFTCI U,YIN Lijun.Facial expres- sion recognition by de-expression residue learning[Cl// Proceedings of 2018 IEEE/CVF Conference on Com- puter Vision and Pattern Recognition.Salt Lake City, 陈婷,副教授.博士,主要研究方向 为图形图像处理、计算机视觉。 USA.2018. [22]XIE Siyue,HU Haifeng.Facial expression recognition using hierarchical features with deep comprehensive multipatches aggregation convolutional neural networks [J].IEEE transactions on multimedia,2019,21(1):
LIU Yuanyuan, YUAN Xiaohui, GONG Xi, et al. Conditional convolution neural network enhanced random forest for facial expression recognition[J]. Pattern recognition, 2018, 84: 251–261. [15] HU Jie, SHEN Li, SUN Gang. Squeeze-and-excitation networks[C]//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA, 2018: 7132−7141. [16] 江静, 邓伟洪. 持续学习改进的人脸表情识别 [J]. 中国 图象图形学报, 2020, 25(11): 2361–2369. JIANG Jing, DENG Weihong. Facial expression recognition improved by continual learning[J]. Journal of image and graphics, 2020, 25(11): 2361–2369. [17] 王善敏, 帅惠, 刘青山. 关键点深度特征驱动人脸表情 识别 [J]. 中国图象图形学报, 2020, 25(4): 813–823. WANG Shanmin, SHUAI Hui, LIU Qingshan. Facial expression recognition based on deep facial landmark features[J]. Journal of image and graphics, 2020, 25(4): 813–823. [18] 张文萍, 贾凯, 王宏玉, 等. 改进的 Island 损失函数在 人脸表情识别上的应用 [J]. 计算机辅助设计与图形学 学报, 2020, 32(12): 1910–1917. ZHANG Wenping, JIA Kai, WANG Hongyu, et al. Application of improved Island loss in facial expression recognition[J]. Journal of computer-aided design & computer graphics, 2020, 32(12): 1910–1917. [19] LIU Xiaofeng, KUMAR B V K V, JIA Ping, et al. Hard negative generation for identity-disentangled facial expression recognition[J]. Pattern recognition, 2019, 88: 1–12. [20] YANG Huiyuan, CIFTCI U, YIN Lijun. Facial expression recognition by de-expression residue learning[C]// Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA, 2018. [21] XIE Siyue, HU Haifeng. Facial expression recognition using hierarchical features with deep comprehensive multipatches aggregation convolutional neural networks [J]. IEEE transactions on multimedia, 2019, 21(1): [22] 211–220. LOPES A T, DE AGUIAR E, DE SOUZA A F, et al. Facial expression recognition with convolutional neural networks: coping with few data and the training sample order[J]. Pattern recognition, 2017, 61: 610–628. [23] ZHANG Hepeng, HUANG Bin, TIAN Guohui. Facial expression recognition based on deep convolution long short-term memory networks of double-channel weighted mixture[J]. Pattern recognition letters, 2020, 131: 128–134. [24] YANG Biao, CAO Jinmeng, NI Rongrong, et al. Facial expression recognition using weighted mixture deep neural network based on double-channel facial images [J]. IEEE access, 2017, 6: 4630–4640. [25] KIM J H, KIM B G, ROY P P, et al. Efficient facial expression recognition algorithm based on hierarchical deep neural network structure[J]. IEEE access, 2019, 7: 41273–41285. [26] 作者简介: 高涛,教授,博士,主要研究方向 为数字图像处理、模式识别。获得国 家专利 9 项。发表学术论文 16 篇。 杨朝晨,硕士研究生,主要研究方 向为数字图像处理、深度学习。 陈婷,副教授,博士,主要研究方向 为图形图像处理、计算机视觉。 第 2 期 高涛,等:深度多尺度融合注意力残差人脸表情识别网络 ·401·