正在加载图片...
·394· 智能系统学报 第17卷 学习的方法。传统的特征提取方法主要包括局 信息,且均为完整网络结构,不易迁移。Hú等6 部二值模式(LBP)、类Haar特征、Gabor小波变 学者采用全新特征重标定方式提出一种通道注意 换和方向梯度直方图(HOG)等。Li等m基于 力网络(SE-Net),显示建模特征通道之间的相互 LBP方法提出了一种使用三个正交平面的局部二 依赖关系,进而提升有用特征并抑制用处不大的 值基线方法(LBP-TOP),一定程度上消除了光照 特征,且能够直接集成到现有网络中,计算代价 变化的影响,但旋转不变性使得算子对方向信息 小,没有冗余信息。 过于敏感。为了解决这一问题,Rivera等1学者 针对上述问题,本文提出一种深度多尺度融 提出的局部特征描述符LDN利用梯度信息使得 合注意力残差网络(deep multi-scale fusion atten-. 算子对光照变化和噪声具有较强的鲁棒性。然 tion residual network,.DMFA-ResNet),主要改进包 而,传统的表情识别算法无法有效处理由于不同 括以下3个方面: 姿势、遮挡等引起的非线性面部外观变化,难以 1)设计了一个由7个注意力残差学习单元构 有效提高分类水平。 成的注意力残差模块,注意力残差学习单元由 近年来,深度学习凭借其优异的特征提取能 2条包含卷积层的支路和1个短路链接构成,将 力逐步应用于人脸表情识别领域。Kim等学者 融合后的特征经过注意力机制,对输入图像进行 对适用于大规模图像识别的VGG-face模型进行 并行多卷积操作,以获得图像多尺度特征,突出 渐进式微调识别人脸表情,但大多数人脸表情数 局部重点区域,有利于遮挡图像特征学习: 据库样本较少导致该网络易出现过拟合问题。An 2)提出多尺度融合模块,网络整体将各个注 等o学者提出了一种基于MMN线性激活函数的 意力残差模块的特征输出进行多尺度融合,以获 自适应模型参数初始化方法,可有效克服过拟合 取更丰富的图像特征: 问题,但面对含有大量表情无关因素时算法鲁棒 3)在网络模型中增加过渡层以去除冗余信 性较差。Xie等学者提出了一种多路径变异抑 息,在保证感受野的情况下简化网络复杂度。并 制网络(MPVS-NET),但该网络速度较慢且不宜 使用全局平均池化+Dropout的设计减少参数运 收敛。由于模糊的面部表情、低质的面部图像及 算,使网络具有更好的抗过拟合性能。 注释者的主观性带来的不确定性,对定性的大规 1 DMFA-ResNet算法 模面部表情数据集进行标注是非常困难的。针对 这一问题,Wang等学者提出了一种能有效抑制 l.1 ResNet网络结构 不确定性的自修复网络(SCN),防止网络过度拟 ResNet网络通过引入残差模块,在算法前向 合不确定的人脸图像。一般来说,深层网络更易 传播过程中使得卷积层之间形成跳跃连接,实现 提取到具有丰富语义信息的深层特征。但过深的 对输入、输出的恒等映射,并采用1×1、3×3的小 网络容易出现梯度爆炸或梯度消失现象。针对这 卷积核,在解决网络退化问题的同时进一步加深 一问题,He等学者提出了深度残差网络(ResNet), 网络,ResNet-50的基本残差学习单元如图1 利用短路链接使得梯度正常回传,较好地解决了 所示。 网络退化问题。但训练参数量仍旧较大,且残差 网络并没有考虑不同尺度特征之间的相互关系对 特征识别的影响,导致大量有效特征丢失。 1xI(reduce dimension) 上述研究均使用完整特征图作为特征输入, 然而在实际分类任务中,特征的作用程度是不同 ReLU 的。为了突出对特征识别有效的信息,一些研究 X】 3×3 引入了注意力机制。Li等学者提出了一种具 ReLU 有注意力机制的CNN网络结构可识别脸部遮挡 1x1 (increase dimension) 区域,但网络依赖于人脸关键点检测,遮挡面积 较大时,关键点难以与人脸数据集生成映射。在 F(x)+x (+ 此基础上,Liu等学者提出了一种条件CNN增 ReLU 强型随机森林算法(CoNERF),从显著引导的人脸 图1残差学习单元 区域中提取深层特征,抑制光照、遮挡和低分辨率 Fig.1 Residual learning unit 带来的影响。然而上述方法仍保留了较多的冗余 图1中,x表示输人,F(x)表示残差映射,残差学习的方法[3]。传统的特征提取方法主要包括局 部二值模式 (LBP)[4] 、类 Haar 特征[5] 、Gabor 小波变 换 [6] 和方向梯度直方图 (HOG) 等。Li 等 [7] 基于 LBP 方法提出了一种使用三个正交平面的局部二 值基线方法 (LBP-TOP),一定程度上消除了光照 变化的影响,但旋转不变性使得算子对方向信息 过于敏感。为了解决这一问题,Rivera 等 [8] 学者 提出的局部特征描述符 LDN 利用梯度信息使得 算子对光照变化和噪声具有较强的鲁棒性。然 而,传统的表情识别算法无法有效处理由于不同 姿势、遮挡等引起的非线性面部外观变化,难以 有效提高分类水平。 近年来,深度学习凭借其优异的特征提取能 力逐步应用于人脸表情识别领域。Kim 等 [9] 学者 对适用于大规模图像识别的 VGG-face 模型进行 渐进式微调识别人脸表情,但大多数人脸表情数 据库样本较少导致该网络易出现过拟合问题。An 等 [10] 学者提出了一种基于 MMN 线性激活函数的 自适应模型参数初始化方法,可有效克服过拟合 问题,但面对含有大量表情无关因素时算法鲁棒 性较差。Xie 等 [11] 学者提出了一种多路径变异抑 制网络 (MPVS-NET),但该网络速度较慢且不宜 收敛。由于模糊的面部表情、低质的面部图像及 注释者的主观性带来的不确定性,对定性的大规 模面部表情数据集进行标注是非常困难的。针对 这一问题,Wang 等 [12] 学者提出了一种能有效抑制 不确定性的自修复网络 (SCN),防止网络过度拟 合不确定的人脸图像。一般来说,深层网络更易 提取到具有丰富语义信息的深层特征。但过深的 网络容易出现梯度爆炸或梯度消失现象。针对这 一问题,He 等 [13] 学者提出了深度残差网络 (ResNet), 利用短路链接使得梯度正常回传,较好地解决了 网络退化问题。但训练参数量仍旧较大,且残差 网络并没有考虑不同尺度特征之间的相互关系对 特征识别的影响,导致大量有效特征丢失。 上述研究均使用完整特征图作为特征输入, 然而在实际分类任务中,特征的作用程度是不同 的。为了突出对特征识别有效的信息,一些研究 引入了注意力机制。Li 等 [14] 学者提出了一种具 有注意力机制的 CNN 网络结构可识别脸部遮挡 区域,但网络依赖于人脸关键点检测,遮挡面积 较大时,关键点难以与人脸数据集生成映射。在 此基础上,Liu 等 [15] 学者提出了一种条件 CNN 增 强型随机森林算法 (CoNERF),从显著引导的人脸 区域中提取深层特征,抑制光照、遮挡和低分辨率 带来的影响。然而上述方法仍保留了较多的冗余 信息,且均为完整网络结构,不易迁移。Hu 等 [16] 学者采用全新特征重标定方式提出一种通道注意 力网络 (SE-Net),显示建模特征通道之间的相互 依赖关系,进而提升有用特征并抑制用处不大的 特征,且能够直接集成到现有网络中,计算代价 小,没有冗余信息。 针对上述问题,本文提出一种深度多尺度融 合注意力残差网络 (deep multi-scale fusion atten￾tion residual network, DMFA-ResNet),主要改进包 括以下 3 个方面: 1)设计了一个由 7 个注意力残差学习单元构 成的注意力残差模块,注意力残差学习单元由 2 条包含卷积层的支路和 1 个短路链接构成,将 融合后的特征经过注意力机制,对输入图像进行 并行多卷积操作,以获得图像多尺度特征,突出 局部重点区域,有利于遮挡图像特征学习; 2) 提出多尺度融合模块,网络整体将各个注 意力残差模块的特征输出进行多尺度融合,以获 取更丰富的图像特征; 3)在网络模型中增加过渡层以去除冗余信 息,在保证感受野的情况下简化网络复杂度。并 使用全局平均池化+ Dropout 的设计减少参数运 算,使网络具有更好的抗过拟合性能。 1 DMFA-ResNet 算法 1.1 ResNet 网络结构 ResNet 网络通过引入残差模块,在算法前向 传播过程中使得卷积层之间形成跳跃连接,实现 对输入、输出的恒等映射,并采用 1×1、3×3 的小 卷积核,在解决网络退化问题的同时进一步加深 网络,ResNet-50 的基本残差学习单元如图 1 所示。 1×1 (reduce dimension) 3×3 1×1 (increase dimension) + ReLU ReLU ReLU F (x)+x x F (x) x 图 1 残差学习单元 Fig. 1 Residual learning unit 图 1 中,x表示输入, F(x) 表示残差映射,残差 ·394· 智 能 系 统 学 报 第 17 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有