正在加载图片...
·396· 智能系统学报 第17卷 图像中央且占据绝大部分像素,位置信息并不重 SE-NeD SE-Net 要。因此采用全局平均池化层代替全连接层加强 图3。注意力残差模块 特征图与类别的一致性,直接对空间信息进行求 Fig.3 Attention residual module 和实现降维,极大地减少了网络参数。Dropout原 理又名随机失活原理,是指在网络训练过程中随 正分支 意抛弃某些神经元,破坏特征信息之间密切的交 互作用,使得网络不会过于依赖某些局部特征, 增强模型泛化性。 本文使用全局平均池化+随机失活设计,简化 1X13×33×3 权重牙麦,SE.Net 网络复杂度,减少运算量,避免过拟合现象,进而 图4注意力残差单元 Fig.4 Attention residual unit 提高网络泛化性。 2.2过渡层 3实验结果与分析 随着网络深度不断加深,运算参数量持续增 多,容易使得网络过度学习输入与输出之间的映 3.1实验环境与评价指标 射关系,将大量干扰信息错认为重点特征。 实验使用的深度学习框架为Tensorflow,计 在注意力残差模块之间引人由一个3×3卷积 算机操作系统为Windows100,显卡型号为NVIDIA 层和最大池化层组成的过渡层以去除冗余信息。 Quadro P4000,显存为8BG。 3×3卷积层能够在不改变特征图大小的情况下增 实验使用错误率(error rate)、准确率(accuracy 大维数,提升网络线性转换能力。最大池化层能 rate)、混淆矩阵和Fl-score作为评价指标。 够对输入图像进行下采样以减小参数矩阵的尺寸 错误率是指预测值与真实值不相同的样本数 以及卷积层参数误差造成估计均值的偏移,其结 占总样本数的比例,准确率是指预测值与真实值 构如图5所示。 相同的样本数占总样本数的比例。将真阳性(TP)、 假阳性(FP)、真阴性(TN)和假阴性(FN)4个指标 一起呈现在表格中称为混淆矩阵。Fl-score为精 准率和召回率的调和平均数,取值范围从0~1,其 计算公式为 3×3 Conv Maxpool F1-score=2.Pre.Rec (4) Pre+Rec 图5过渡层结构 Fig.5 Transition layer structure 3.2实验数据集及预处理 2.3多尺度特征融合模块 3.2.1实验数据集 经过各个注意力残差模块后,人脸表情图像 实验采取3个人脸表情数据库验证算法有效 的多尺度特征具有不同特点:浅层特征图尺寸较 性,分别为CK+、JAFFE和Ouu-CASIA。 大,通道数较少,具有丰富的细节信息;深层特征 CK+数据集共有123名实验者,实验共使用 图尺寸较小,通道数较多,包含丰富的抽象语义 981张标记图片用于本文实验。JAFFE数据集共 信息。因此本文设计了一个多尺度特征融合模块 包含213个图像、7类表情,平均每人每种表情有 将3个注意力残差模块产生的多尺度特征图进行 4张左右。Oulu-CASIA数据集由80个人的6类 融合。首先将前两个注意力残差模块的输出特征 基本表情构成,实验选取可见光成像系统下的 经过最大池化操作下采样至7×7×128和7×7× Strong强光图像集,在每个序列中选取最后5个 256;然后通过Concat通道融合方法将下采样过 峰值帧,形成共2400幅图像。 后的输出特征图和最后一个注意力残差模块的输 3.2.2数据预处理 出特征图进行融合;再将融合后的特征图使用 由于人脸表情识别数据库样本较少,本文使 1×1卷积核进行升维,最终得到具有丰富特征信 用裁剪、旋转以及遮挡方法对数据集进行扩充, 息的7×7×1024输出特征图。 具体步骤如下: 2.4全局平均池化+随机失活 1)首先对CK+和JAFFE数据集进行裁剪处 通常情况下,神经网络都会添加全连接层减 理,去除多余的背景,将背景对模型的影响降到 少特征位置对分类带来的影响。但人脸基本位于 最低。SE-Net ... + SE-Net + 输入 图 3 注意力残差模块 Fig. 3 Attention residual module 输入 + 1×1 1×1 1×1 3×3 3×3 3×3 权重分支 主分支 S X X Q SE-Net 图 4 注意力残差单元 Fig. 4 Attention residual unit 2.2 过渡层 随着网络深度不断加深,运算参数量持续增 多,容易使得网络过度学习输入与输出之间的映 射关系,将大量干扰信息错认为重点特征。 在注意力残差模块之间引入由一个 3×3 卷积 层和最大池化层组成的过渡层以去除冗余信息。 3×3 卷积层能够在不改变特征图大小的情况下增 大维数,提升网络线性转换能力。最大池化层能 够对输入图像进行下采样以减小参数矩阵的尺寸 以及卷积层参数误差造成估计均值的偏移,其结 构如图 5 所示。 3×3 Conv Maxpool 图 5 过渡层结构 Fig. 5 Transition layer structure 2.3 多尺度特征融合模块 经过各个注意力残差模块后,人脸表情图像 的多尺度特征具有不同特点:浅层特征图尺寸较 大,通道数较少,具有丰富的细节信息;深层特征 图尺寸较小,通道数较多,包含丰富的抽象语义 信息。因此本文设计了一个多尺度特征融合模块 将 3 个注意力残差模块产生的多尺度特征图进行 融合。首先将前两个注意力残差模块的输出特征 经过最大池化操作下采样至 7×7×128 和 7×7× 256;然后通过 Concat 通道融合方法将下采样过 后的输出特征图和最后一个注意力残差模块的输 出特征图进行融合;再将融合后的特征图使用 1×1 卷积核进行升维,最终得到具有丰富特征信 息的 7×7×1024 输出特征图。 2.4 全局平均池化+随机失活 通常情况下,神经网络都会添加全连接层减 少特征位置对分类带来的影响。但人脸基本位于 图像中央且占据绝大部分像素,位置信息并不重 要。因此采用全局平均池化层代替全连接层加强 特征图与类别的一致性,直接对空间信息进行求 和实现降维,极大地减少了网络参数。Dropout 原 理又名随机失活原理,是指在网络训练过程中随 意抛弃某些神经元,破坏特征信息之间密切的交 互作用,使得网络不会过于依赖某些局部特征, 增强模型泛化性。 本文使用全局平均池化+随机失活设计,简化 网络复杂度,减少运算量,避免过拟合现象,进而 提高网络泛化性。 3 实验结果与分析 3.1 实验环境与评价指标 实验使用的深度学习框架为 Tensorflow,计 算机操作系统为 Windows10,显卡型号为 NVIDIA Quadro P4000,显存为 8BG。 实验使用错误率 (error rate)、准确率 (accuracy rate)、混淆矩阵和 F1-score 作为评价指标。 错误率是指预测值与真实值不相同的样本数 占总样本数的比例,准确率是指预测值与真实值 相同的样本数占总样本数的比例。将真阳性 (TP)、 假阳性 (FP)、真阴性 (TN) 和假阴性 (FN)4 个指标 一起呈现在表格中称为混淆矩阵。F1-score 为精 准率和召回率的调和平均数,取值范围从 0~1,其 计算公式为 F1-score = 2 · Pre ·Rec Pre+Rec (4) 3.2 实验数据集及预处理 3.2.1 实验数据集 实验采取 3 个人脸表情数据库验证算法有效 性,分别为 CK+、JAFFE 和 Oulu-CASIA。 CK+数据集共有 123 名实验者,实验共使用 981 张标记图片用于本文实验。JAFFE 数据集共 包含 213 个图像、7 类表情,平均每人每种表情有 4 张左右。Oulu-CASIA 数据集由 80 个人的 6 类 基本表情构成,实验选取可见光成像系统下的 Strong 强光图像集,在每个序列中选取最后 5 个 峰值帧,形成共 2400 幅图像。 3.2.2 数据预处理 由于人脸表情识别数据库样本较少,本文使 用裁剪、旋转以及遮挡方法对数据集进行扩充, 具体步骤如下: 1)首先对 CK+和 JAFFE 数据集进行裁剪处 理,去除多余的背景,将背景对模型的影响降到 最低。 ·396· 智 能 系 统 学 报 第 17 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有