正在加载图片...
第6期 徐玮,等:基于双注意力模型和迁移学习的Apex帧微表情识别 ·1017· 信息部分,本文使用的空间注意力模块(spatial at- 空间注意力 模块 tention module)如图2所示。将特征图作为空间 ReLU 输出 注意力模块的输入,分别在最大池化操作和平均 激活 特征图 池化操作后进行拼接,接着采用核为7×7的卷积 通道注意力 模块 提取感受野,最后通过Sigmoid激活函数生成空 间注意力特征图。空间注意力模块定义为 S(F)=(f7x7(Concat[MaxPool(F):AvgPool(F))) 图4集成双注意力模块的残差学习单元 (3) Fig.4 Residual learning unit integrated with a dual atten- tion module 最大 池化 2.4损失函数 特征图 拼接 器 输出 由于微表情持续时间短、区别度低、采集难 平均 度高,微表情数据集中常常出现样本分布不平衡 池化 的现象。为了解决这一问题,本文使用Focal 图2空间注意力模块 Loss函数。该损失函数是交叉嫡损失函数的改进 Fig.2 Spatial attention module 版本,一个二分类交叉熵损失函数可以表示为 2.2通道注意力机制 CE(p,y)= -log(p).y=1 通道注意力机制关注不同特征通道的权重分 1-log(1-p以,其他 (6) 布,本文使用的通道注意力模块(channel attention 式中p表示模型预测属于类别y=1的概率。为 module)如图3所示。假设输入特征图FERCxHxW, 了方便标记,定义为 C、H和W分别代表特征图的通道数、高和宽, p,y=1 分别经过最大池化和平均池化后得到特征图 p=1-p其他 (7) Fm∈RCxlxi1和F。∈RCxI,接着将Fm和F。分别依 即交叉熵CE为 次进行核为1×1的卷积、ReLU激活函数、核为 CE(p,y)=CE(p,)=-log(p,) (8) 1×1的卷积,然后对这两个输出向量按元素求和, Focal Loss在交叉嫡损失的基础上添加一个 得到尺度为[C×1×1]的向量,最后该向量通过 调制系数(1-pP,其中y≥0,定义为 Sigmoid激活函数得到通道权重结果。通道注意 FL(p:)=-(1-p:)log(p:) (9) 力模块定义为 其作用在于通过赋予易分类样本较小的权 C(F)=(fix(ReLU(fix(MaxPool(F))))+ 重,赋予难分类样本较大的权重,使模型在训练 fixl(ReLU(fix(AvgPool(F))))) (4) 时更专注于难分类的样本,在一定程度上解决样 配圈器圈 本分布不平衡的问题。在多分类任务下,Focal Loss 则定义为 输人 Sigmoid 输出 特征图 激活 特征图 Fp.0=-∑∑al-iYyImpi+ 醒閣留图 (10) (1-a)p)y(1-y)ln(1-p】 图3通道注意力模块 式中α表示类别i的权重因子。 Fig.3 Channel attention module 2.5迁移学习 2.3残差学习单元集成双注意力模型 传统的深度学习中,模型充分预估结果需要 本文将空间注意力模块、通道注意力模块集成 数据集样本数量足够、训练数据和测试数据满足 到ResNet18网络的残差学习单元中,如图4所示。 同分布。由于微表情数据集的规模都非常小,直 具体流程为输人特征图F∈RCxHxW,与S∈RIxHxW 接应用于神经网络的训练可能会引发过拟合、准 元素相乘得到F,F再与CeRw1相乘得到F, 确率低等问题,而迁移学习可以从大型数据集中 最后F与F元素相加得到最终输出的特征图F"。 学习先验知识,将模型参数迁移至待训练的网络 相比CBAM的设计保留了更多原始特征图的细节 模型中,从而提高模型的训练效率。 信息,同时降低了整体网络的复杂度,更加适用 宏表情识别与微表情识别之间具有一定的共 于具有持续时间短、强度低的微表情。其定义为 同之处,比如都有高兴、惊奇、沮丧、恐惧、厌恶 F=S(F)⑧F 等表情标签,都能够反映人的情绪。但微表情一 F'=C(F)⑧F (5) 般是一段视频,而宏表情则是根据单张图片进行 F"=F⊕F 分类。因为本文选取微表情视频序列的Apex帧信息部分,本文使用的空间注意力模块 (spatial at￾tention module) 如图 2 所示。将特征图作为空间 注意力模块的输入,分别在最大池化操作和平均 池化操作后进行拼接,接着采用核为 7×7 的卷积 提取感受野,最后通过 Sigmoid 激活函数生成空 间注意力特征图。空间注意力模块定义为 S(F) = σ(f 7×7 (Concat[MaxPool(F);AvgPool(F)])) (3) 最大 池化 平均 池化 输入 特征图 输出 特征图 Sigmoid 激活 拼接 卷积 7×7 图 2 空间注意力模块 Fig. 2 Spatial attention module 2.2 通道注意力机制 F ∈ R C×H×W Fm ∈ R C×1×1 Fa ∈ R C×1×1 Fm Fa 通道注意力机制关注不同特征通道的权重分 布,本文使用的通道注意力模块 (channel attention module) 如图 3 所示。假设输入特征图 , C、H 和 W 分别代表特征图的通道数、高和宽, 分别经过最大池化和平均池化后得到特征图 和 ,接着将 和 分别依 次进行核为 1×1 的卷积、ReLU 激活函数、核为 1×1 的卷积,然后对这两个输出向量按元素求和, 得到尺度为 [C×1×1] 的向量,最后该向量通过 Sigmoid 激活函数得到通道权重结果。通道注意 力模块定义为 C(F) = σ(f 1×1 (ReLU(f 1×1 (MaxPool(F)))) + f 1×1 (ReLU(f 1×1 (AvgPool(F))))) (4) 最大 池化 平均 池化 输入 特征图 输出 特征图 Sigmoid 激活 卷积 1×1 卷积 1×1 卷积 1×1 卷积 1×1 ReLU 激活 ReLU 激活 图 3 通道注意力模块 Fig. 3 Channel attention module 2.3 残差学习单元集成双注意力模型 F ∈ R C×H×W S ∈ R 1×H×W F ′ F ′ C ∈ R C×1×1 F ′′ F ′′ F F ′′′ 本文将空间注意力模块、通道注意力模块集成 到 ResNet18 网络的残差学习单元中,如图 4 所示。 具体流程为输入特征图 ,与 元素相乘得到 , 再与 相乘得到 , 最后 与 元素相加得到最终输出的特征图 。 相比 CBAM 的设计保留了更多原始特征图的细节 信息,同时降低了整体网络的复杂度,更加适用 于具有持续时间短、强度低的微表情。其定义为 F ′ = S(F)⊗ F F ′′ = C(F)⊗ F ′ F ′′′ = F⊕ F ′′ (5) 空间注意力 模块 通道注意力 模块 输入 特征图 输出 特征图 ReLU 激活 图 4 集成双注意力模块的残差学习单元 Fig. 4 Residual learning unit integrated with a dual atten￾tion module 2.4 损失函数 由于微表情持续时间短、区别度低、采集难 度高,微表情数据集中常常出现样本分布不平衡 的现象。为了解决这一问题,本文使用 Focal Loss 函数。该损失函数是交叉熵损失函数的改进 版本,一个二分类交叉熵损失函数可以表示为 CE(p, y) = { −log(p), y = 1 −log(1− p), 其他 (6) 式中 p 表示模型预测属于类别 y = 1 的概率。为 了方便标记,定义为 pt = { p, y = 1 1− p, 其他 (7) 即交叉熵 CE 为 CE(p, y) = CE(pt) = −log(pt) (8) (1− pt) γ γ ⩾ 0 Focal Loss 在交叉熵损失的基础上添加一个 调制系数 ,其中 ,定义为 FL(pt) = −(1− pt) γ log(pt) (9) 其作用在于通过赋予易分类样本较小的权 重,赋予难分类样本较大的权重,使模型在训练 时更专注于难分类的样本,在一定程度上解决样 本分布不平衡的问题。在多分类任务下,Focal Loss 则定义为 FL(p, y) = − ∑ n ∑ i [α(1− p n i ) γ y n i lnp n i + (1−α)(p n i ) γ (1−y n i )ln(1− p n i )] (10) 式中 α 表示类别 i 的权重因子。 2.5 迁移学习 传统的深度学习中,模型充分预估结果需要 数据集样本数量足够、训练数据和测试数据满足 同分布。由于微表情数据集的规模都非常小,直 接应用于神经网络的训练可能会引发过拟合、准 确率低等问题,而迁移学习可以从大型数据集中 学习先验知识,将模型参数迁移至待训练的网络 模型中,从而提高模型的训练效率。 宏表情识别与微表情识别之间具有一定的共 同之处,比如都有高兴、惊奇、沮丧、恐惧、厌恶 等表情标签,都能够反映人的情绪。但微表情一 般是一段视频,而宏表情则是根据单张图片进行 分类。因为本文选取微表情视频序列的 Apex 帧 第 6 期 徐玮,等:基于双注意力模型和迁移学习的 Apex 帧微表情识别 ·1017·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有