正在加载图片...
第2期 高涛,等:深度多尺度融合注意力残差人脸表情识别网络 ·397· 2)分别将JAFFE数据集图像以顺时针、逆时 构成深度融合注意力残差网络DFAR(deep fusion 针旋转5°后的图像扩充数据集,扩充完毕共 attention residual network),在Oulu-CASIA数据集 852张标记图片用于实验,其中训练集680张,验 上进行表情识别消融实验,实验结果如表3所示。 证集172张,如表1所示。 表3表情识别消融实验 表1 JAFFE扩充数据集样本分布 Table 3 Ablation experiment of facial expression recogni- Table 1 Sample distribution of expanded JAFFE tion 类别 数量张 占比 方法 残差单元多尺度融合注意力机制A/% 愤怒 DFR + 91.16 120 0.14 厌恶 DMFR 91.69 116 0.13 恐惧 DFAR 91.53 128 0.15 快乐 DMFA-ResNet 92.57 124 0.15 中性 120 0.14 由表3可知,改进的基础残差模块网络DFR 悲伤 124 0.15 在Oulu-CASIA数据集上的识别率为91.16%。当 惊讶 120 0.14 分别增加多尺度特征模块和注意力机制模块后, 0ulu-CASIA的识别率分别提升到91.69%和 3)通过在眼睛、嘴巴位置添加黑色框来模拟 91.53%,表明多尺度特征融合模块对网络的贡献 现实中存在的遮挡情况,如由墨镜、口罩等引起。 大于注意力机制模块。 3.3实验结果与分析 为探讨注意残差单元数目对网络性能的影 3.3.1网络性能实验分析 响,设置注意残差单元数目对比实验。在其余参 1)训练样本对性能影响 数量基本一致的情况下,将注意残差单元数目分 为探讨训练样本对网络性能的影响,设置训 别设置为4、5、6、7、8、9,并在JAFFE数据集上进 练样本数目对比实验。在其余参数量一致的情况 行实验,实验结果由图6所示。 下,在JAFFE扩充数据集(852张)上进行训练样 98 本分别为341、511、680的对比实验,实验结果如 96.3096.3496.35 94 表2所示。 93.60 邂90 表2训练样本对性能影响 Table 2 Effect of training sample number on performance 86 86.20 训练样本个 验证样本/个 测试集识别率A/% 828280 4 5 6 7 341 511 94.2 残差单元个数 511 341 94.7 图6注意残差单元个数对性能的影响 680 172 96.3 Fig.6 Effect of the number of attention residual elements on peraformance 由表2可知,随着训练样本不断增多,网络性 由图6可知,当注意残差单元个数小于7时, 能逐步增强,当训练样本为680个时,网络识别率 算法识别率随残差单元个数的增加增幅明显。当 达到最高96.3%,因此在网络训练过程中,应尽可 注意残差单元个数为9时,算法识别率达到最高 能增大训练样本数目,保证网络能够学习到足够 96.35%。但注意残差单元个数大于7时,识别率 信息。 增幅缓慢,考虑到网络复杂度对计算量及网络运 2)网络结构 行速度带来的影响,最终选择将7个注意残差单 为验证各个模块的有效性,设置包含针对不 元作为一个注意残差模块。 同模块的对比网络进行消融实验。在参数量基本 3.3.2无遮挡表情实验 ·致的情况下,以改进的基础残差模块网络DFR 表4是不同方法在Oulu-CASIA数据集上的 (deep fusion residual network)为对比基准,将多尺 测试结果。结果表明,DFR算法在Oulu-CASIA 度特征融合模块添加进网络结构中构成深度多尺 数据集上的识别率能够达到91.16%。DMFA-Res- 度融合残差网络DMFR(deep multi-scale fusion re- Net的识别率达到92.57%,比LCE的识别率高出 sidual network),将注意力机制添加进网络结构中 9.31%,比DFERM的识别率高出4.32%。2)分别将 JAFFE 数据集图像以顺时针、逆时 针 旋 转 5 °后的图像扩充数据集,扩充完毕 共 852 张标记图片用于实验,其中训练集 680 张,验 证集 172 张,如表 1 所示。 表 1 JAFFE 扩充数据集样本分布 Table 1 Sample distribution of expanded JAFFE 类别 数量/张 占比 愤怒 120 0.14 厌恶 116 0.13 恐惧 128 0.15 快乐 124 0.15 中性 120 0.14 悲伤 124 0.15 惊讶 120 0.14 3)通过在眼睛、嘴巴位置添加黑色框来模拟 现实中存在的遮挡情况,如由墨镜、口罩等引起。 3.3 实验结果与分析 3.3.1 网络性能实验分析 1) 训练样本对性能影响 为探讨训练样本对网络性能的影响,设置训 练样本数目对比实验。在其余参数量一致的情况 下,在 JAFFE 扩充数据集 (852 张) 上进行训练样 本分别为 341、511、680 的对比实验,实验结果如 表 2 所示。 表 2 训练样本对性能影响 Table 2 Effect of training sample number on performance 训练样本/个 验证样本/个 测试集识别率A/% 341 511 94.2 511 341 94.7 680 172 96.3 由表 2 可知,随着训练样本不断增多,网络性 能逐步增强,当训练样本为 680 个时,网络识别率 达到最高 96.3%,因此在网络训练过程中,应尽可 能增大训练样本数目,保证网络能够学习到足够 信息。 2) 网络结构 为验证各个模块的有效性,设置包含针对不 同模块的对比网络进行消融实验。在参数量基本 一致的情况下,以改进的基础残差模块网络 DFR (deep fusion residual network) 为对比基准,将多尺 度特征融合模块添加进网络结构中构成深度多尺 度融合残差网络 DMFR (deep multi-scale fusion re￾sidual network),将注意力机制添加进网络结构中 构成深度融合注意力残差网络 DFAR (deep fusion attention residual network),在 Oulu-CASIA 数据集 上进行表情识别消融实验,实验结果如表 3 所示。 表 3 表情识别消融实验 Table 3 Ablation experiment of facial expression recogni￾tion 方法 残差单元 多尺度融合 注意力机制 A/% DFR √ × × 91.16 DMFR √ √ × 91.69 DFAR √ × √ 91.53 DMFA-ResNet √ √ √ 92.57 由表 3 可知,改进的基础残差模块网络 DFR 在 Oulu-CASIA 数据集上的识别率为 91.16%。当 分别增加多尺度特征模块和注意力机制模块后, Oulu-CASIA 的识别率分别提升到 91.69% 和 91.53%,表明多尺度特征融合模块对网络的贡献 大于注意力机制模块。 为探讨注意残差单元数目对网络性能的影 响,设置注意残差单元数目对比实验。在其余参 数量基本一致的情况下,将注意残差单元数目分 别设置为 4、5、6、7、8、9,并在 JAFFE 数据集上进 行实验,实验结果由图 6 所示。 4 82.80 86.20 93.60 96.30 96.34 96.35 5 82 86 90 识别率 A/%94 98 6 7 8 残差单元个数 9 图 6 注意残差单元个数对性能的影响 Fig. 6 Effect of the number of attention residual elements on peraformance 由图 6 可知,当注意残差单元个数小于 7 时, 算法识别率随残差单元个数的增加增幅明显。当 注意残差单元个数为 9 时,算法识别率达到最高 96.35%。但注意残差单元个数大于 7 时,识别率 增幅缓慢,考虑到网络复杂度对计算量及网络运 行速度带来的影响,最终选择将 7 个注意残差单 元作为一个注意残差模块。 3.3.2 无遮挡表情实验 表 4 是不同方法在 Oulu-CASIA 数据集上的 测试结果。结果表明,DFR 算法在 Oulu-CASIA 数据集上的识别率能够达到 91.16%。DMFA-Res￾Net 的识别率达到 92.57%,比 LCE 的识别率高出 9.31%,比 IDFERM 的识别率高出 4.32%。 第 2 期 高涛,等:深度多尺度融合注意力残差人脸表情识别网络 ·397·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有