学习的方法[3]。传统的特征提取方法主要包括局部二值模式 (LBP)[4

正在加载图片...

·394· 智能系统学报第17卷学习的方法。传统的特征提取方法主要包括局信息，且均为完整网络结构，不易迁移。Hú等6 部二值模式(LBP)、类Haar特征、Gabor小波变学者采用全新特征重标定方式提出一种通道注意换和方向梯度直方图(HOG)等。Li等m基于力网络(SE-Net),显示建模特征通道之间的相互 LBP方法提出了一种使用三个正交平面的局部二依赖关系，进而提升有用特征并抑制用处不大的值基线方法(LBP-TOP),一定程度上消除了光照特征，且能够直接集成到现有网络中，计算代价变化的影响，但旋转不变性使得算子对方向信息小，没有冗余信息。过于敏感。为了解决这一问题，Rivera等1学者针对上述问题，本文提出一种深度多尺度融提出的局部特征描述符LDN利用梯度信息使得合注意力残差网络(deep multi-scale fusion atten-. 算子对光照变化和噪声具有较强的鲁棒性。然 tion residual network,.DMFA-ResNet),主要改进包而，传统的表情识别算法无法有效处理由于不同括以下3个方面：姿势、遮挡等引起的非线性面部外观变化，难以 1)设计了一个由7个注意力残差学习单元构有效提高分类水平。成的注意力残差模块，注意力残差学习单元由近年来，深度学习凭借其优异的特征提取能 2条包含卷积层的支路和1个短路链接构成，将力逐步应用于人脸表情识别领域。Kim等学者融合后的特征经过注意力机制，对输入图像进行对适用于大规模图像识别的VGG-face模型进行并行多卷积操作，以获得图像多尺度特征，突出渐进式微调识别人脸表情，但大多数人脸表情数局部重点区域，有利于遮挡图像特征学习：据库样本较少导致该网络易出现过拟合问题。An 2)提出多尺度融合模块，网络整体将各个注等o学者提出了一种基于MMN线性激活函数的意力残差模块的特征输出进行多尺度融合，以获自适应模型参数初始化方法，可有效克服过拟合取更丰富的图像特征：问题，但面对含有大量表情无关因素时算法鲁棒 3)在网络模型中增加过渡层以去除冗余信性较差。Xie等学者提出了一种多路径变异抑息，在保证感受野的情况下简化网络复杂度。并制网络(MPVS-NET),但该网络速度较慢且不宜使用全局平均池化+Dropout的设计减少参数运收敛。由于模糊的面部表情、低质的面部图像及算，使网络具有更好的抗过拟合性能。注释者的主观性带来的不确定性，对定性的大规 1 DMFA-ResNet算法模面部表情数据集进行标注是非常困难的。针对这一问题，Wang等学者提出了一种能有效抑制 l.1 ResNet网络结构不确定性的自修复网络(SCN),防止网络过度拟 ResNet网络通过引入残差模块，在算法前向合不确定的人脸图像。一般来说，深层网络更易传播过程中使得卷积层之间形成跳跃连接，实现提取到具有丰富语义信息的深层特征。但过深的对输入、输出的恒等映射，并采用1×1、3×3的小网络容易出现梯度爆炸或梯度消失现象。针对这卷积核，在解决网络退化问题的同时进一步加深一问题，He等学者提出了深度残差网络(ResNet), 网络，ResNet-50的基本残差学习单元如图1 利用短路链接使得梯度正常回传，较好地解决了所示。网络退化问题。但训练参数量仍旧较大，且残差网络并没有考虑不同尺度特征之间的相互关系对特征识别的影响，导致大量有效特征丢失。 1xI(reduce dimension) 上述研究均使用完整特征图作为特征输入，然而在实际分类任务中，特征的作用程度是不同 ReLU 的。为了突出对特征识别有效的信息，一些研究 X】 3×3 引入了注意力机制。Li等学者提出了一种具 ReLU 有注意力机制的CNN网络结构可识别脸部遮挡 1x1 (increase dimension) 区域，但网络依赖于人脸关键点检测，遮挡面积较大时，关键点难以与人脸数据集生成映射。在 F(x)+x (+ 此基础上，Liu等学者提出了一种条件CNN增 ReLU 强型随机森林算法(CoNERF),从显著引导的人脸图1残差学习单元区域中提取深层特征，抑制光照、遮挡和低分辨率 Fig.1 Residual learning unit 带来的影响。然而上述方法仍保留了较多的冗余图1中，x表示输人，F(x)表示残差映射，残差学习的方法[3]。传统的特征提取方法主要包括局部二值模式 (LBP)[4] 、类 Haar 特征[5] 、Gabor 小波变换 [6] 和方向梯度直方图 (HOG) 等。Li 等 [7] 基于 LBP 方法提出了一种使用三个正交平面的局部二值基线方法 (LBP-TOP)，一定程度上消除了光照变化的影响，但旋转不变性使得算子对方向信息过于敏感。为了解决这一问题，Rivera 等 [8] 学者提出的局部特征描述符 LDN 利用梯度信息使得算子对光照变化和噪声具有较强的鲁棒性。然而，传统的表情识别算法无法有效处理由于不同姿势、遮挡等引起的非线性面部外观变化，难以有效提高分类水平。近年来，深度学习凭借其优异的特征提取能力逐步应用于人脸表情识别领域。Kim 等 [9] 学者对适用于大规模图像识别的 VGG-face 模型进行渐进式微调识别人脸表情，但大多数人脸表情数据库样本较少导致该网络易出现过拟合问题。An 等 [10] 学者提出了一种基于 MMN 线性激活函数的自适应模型参数初始化方法，可有效克服过拟合问题，但面对含有大量表情无关因素时算法鲁棒性较差。Xie 等 [11] 学者提出了一种多路径变异抑制网络 (MPVS-NET)，但该网络速度较慢且不宜收敛。由于模糊的面部表情、低质的面部图像及注释者的主观性带来的不确定性，对定性的大规模面部表情数据集进行标注是非常困难的。针对这一问题，Wang 等 [12] 学者提出了一种能有效抑制不确定性的自修复网络 (SCN)，防止网络过度拟合不确定的人脸图像。一般来说，深层网络更易提取到具有丰富语义信息的深层特征。但过深的网络容易出现梯度爆炸或梯度消失现象。针对这一问题，He 等 [13] 学者提出了深度残差网络 (ResNet)，利用短路链接使得梯度正常回传，较好地解决了网络退化问题。但训练参数量仍旧较大，且残差网络并没有考虑不同尺度特征之间的相互关系对特征识别的影响，导致大量有效特征丢失。上述研究均使用完整特征图作为特征输入，然而在实际分类任务中，特征的作用程度是不同的。为了突出对特征识别有效的信息，一些研究引入了注意力机制。Li 等 [14] 学者提出了一种具有注意力机制的 CNN 网络结构可识别脸部遮挡区域，但网络依赖于人脸关键点检测，遮挡面积较大时，关键点难以与人脸数据集生成映射。在此基础上，Liu 等 [15] 学者提出了一种条件 CNN 增强型随机森林算法 (CoNERF)，从显著引导的人脸区域中提取深层特征，抑制光照、遮挡和低分辨率带来的影响。然而上述方法仍保留了较多的冗余信息，且均为完整网络结构，不易迁移。Hu 等 [16] 学者采用全新特征重标定方式提出一种通道注意力网络 (SE-Net)，显示建模特征通道之间的相互依赖关系，进而提升有用特征并抑制用处不大的特征，且能够直接集成到现有网络中，计算代价小，没有冗余信息。针对上述问题，本文提出一种深度多尺度融合注意力残差网络 (deep multi-scale fusion attention residual network, DMFA-ResNet)，主要改进包括以下 3 个方面： 1）设计了一个由 7 个注意力残差学习单元构成的注意力残差模块，注意力残差学习单元由 2 条包含卷积层的支路和 1 个短路链接构成，将融合后的特征经过注意力机制，对输入图像进行并行多卷积操作，以获得图像多尺度特征，突出局部重点区域，有利于遮挡图像特征学习； 2）提出多尺度融合模块，网络整体将各个注意力残差模块的特征输出进行多尺度融合，以获取更丰富的图像特征； 3）在网络模型中增加过渡层以去除冗余信息，在保证感受野的情况下简化网络复杂度。并使用全局平均池化+ Dropout 的设计减少参数运算，使网络具有更好的抗过拟合性能。 1 DMFA-ResNet 算法 1.1 ResNet 网络结构 ResNet 网络通过引入残差模块，在算法前向传播过程中使得卷积层之间形成跳跃连接，实现对输入、输出的恒等映射，并采用 1×1、3×3 的小卷积核，在解决网络退化问题的同时进一步加深网络，ResNet-50 的基本残差学习单元如图 1 所示。 1×1 (reduce dimension) 3×3 1×1 (increase dimension) + ReLU ReLU ReLU F (x)+x x F (x) x 图 1 残差学习单元 Fig. 1 Residual learning unit 图 1 中，x表示输入， F(x) 表示残差映射，残差 ·394· 智能系统学报第 17 卷

<<向上翻页向下翻页>>

点击下载：【人工智能基础】深度多尺度融合注意力残差人脸表情识别网络