正在加载图片...
108 工程科学学报,第44卷,第1期 用ImageNet数据库初始化残差网络,并在儿种宏 2.2.2LSTM构建序列分类器 观表情数据库上进行进一步的预训练,最后使用 由于微表情变化是在连续时间内发生的,如 微表情数据集对残差网络和微表情单元进行微 果没有利用微表情在时间上的信息的话,很难对 调.但是通常情况下,宏观表情数据库中的表情变 微表情变化准确识别.因此为了利用表情序列在 化较大,具有很明显的表情特征,而微表情变化幅 时间上的变化信息,使用循环神经网络来处理任 度小,更接近没有变化的人脸图像.因此使用面向 意时序的输入序列,可以更容易地处理时间维度 人脸识别的VGGFace模型2]作为微表情帧的特 信息,采用LSTM节点双向循环神经网络模型处 征提取器,可以从不同环境、人群中提取细微特征, 理时序数据,构建长期递归卷积网络,对给定序列 本文采用的VGGFace模型基于通道模型依赖网 是否包含相关的微表情判断分类 络(Squeeze-.and-excitation networks,SENet)架构P7, 定义双向LSTM模型的表情特征输人序列 并在VGGFace2:人脸数据库上训练2 1.SENet通过 MicroE_Features=(xI,…,xr),前项传播隐变量序列 在残差网络(Residual network,ResNet)2中嵌人 方=(宝,…,方7小反向传播隐变量序列听=(仿1,…,方7) SENt结构增强了网络的自适应性,利用全局信息 和输出序列y=Oy1,…yT),则输出序列y的更新方 增强有益特征通道并抑制无用特征通道,通过特 式为: 征通道之间的关系提升网络性能.如图3所示 方,=Hw云+W方1+b) (6) ×1×C mm"-mim 瓦,=HW方+W五1+b行) (7) =W,,+W5,方+b。 (8) 困3 SENet模块 式中,W为双向LSTM模型权重,b为偏置项,偏置 Fig.3 SENet 项,H(x)表示激活函数,使用长短时记忆神经元进 如图3,Fr:X→U,U=1,2,…,k,…,cT的实 行计算,双向LSTM和记忆神经元如图4和5所示 现过程为: 其中图5中的,和0分别表示遗忘门、输入门和 4=X=∑.k=1C 输出门,C表示记忆单元(Cel)在t时刻的状态 (2) Output… 其中=哈…,]x=[K,2,…,],其中 是二维空间核,表示第k个卷积核,表示第1个 Backword 输入,经过上述卷积操作后得到特征U,为W×H×C layer 大小的特征图.特征压缩将W×H×C的输入转化 为1×1×C的输出z∈RC,计算如下: Forword layer 4=Fg=月-w∑a∑l4.k=l (3) nputs… Xr 特征激发过程得到的特征S=[s1,52,…,5C]的 图4双向循环网络 维度是1×1×C,主要用来刻画特征U中C个特征图 Fig.4 Bidirectional LSTM 的权重,即: Sk=Fex(⑦k,W)=σ(g(zk,W)=σ(W26(W1k),k=1,·,C (4) Input(i Output (o, gate gate 式中,W1∈R×C为全连接层的降维操作,W2∈RCx Cell 为全连接层的升维操作,对特征重定向: Fscale (uk,Sk)=Skuk (5) 特征提取通过在全局平均池化层(Global 、Forget gate average pooling,.GAP)微调进行特征压缩,利用两 个全连接层去建模通道间的相关性,并通过减少 图5LSTM神经元 模型中的参数量和计算量来最小化过度拟合 Fig.5 LSTM neurons用 ImageNet 数据库初始化残差网络,并在几种宏 观表情数据库上进行进一步的预训练,最后使用 微表情数据集对残差网络和微表情单元进行微 调. 但是通常情况下,宏观表情数据库中的表情变 化较大,具有很明显的表情特征,而微表情变化幅 度小,更接近没有变化的人脸图像. 因此使用面向 人脸识别的 VGGFace 模型[26] 作为微表情帧的特 征提取器,可以从不同环境、人群中提取细微特征, 本文采用的 VGGFace 模型基于通道模型依赖网 络 (Squeeze-and-excitation networks, SENet) 架构[27] , 并在 VGGFace2 人脸数据库上训练[28] . SENet 通过 在残差网 络 (Residual  network,  ResNet)[29] 中 嵌 入 SENet 结构增强了网络的自适应性,利用全局信息 增强有益特征通道并抑制无用特征通道,通过特 征通道之间的关系提升网络性能. 如图 3 所示. 1×1×C 1×1×C C W H C′ H′ W′ C W H X U X ~ Ftr Fsq Fex Fscale 图 3    SENet 模块 Fig.3    SENet Ftr : X → U,U = [u1,u2,··· ,uk,··· ,uC] 如图 T 3, 的实 现过程为: uk = vkX = ∑C ′ i=1 v i k x i , k = 1,...,C (2) vk = [ v 1 k , v 2 k ,··· , v C ′ k ] ,X = [ x 1 , x 2 ,··· , x C ′ ]T v i k vk x i U W × H ×C W × H ×C 1×1×C z ∈ R C 其 中 ,其中 是二维空间核, 表示第 k 个卷积核, 表示第 i 个 输入,经过上述卷积操作后得到特征 ,为 大小的特征图. 特征压缩将 的输入转化 为 的输出 ,计算如下: zk = Fsq (uk) = 1 H · W ∑H i=1 ∑W j=1 uk (i, j), k = 1,...,C (3) S = [s1,s2,··· ,sC] 1×1×C U C 特征激发过程得到的特征 的 维度是 ,主要用来刻画特征 中 个特征图 的权重,即: sk = Fex (zk,W) =σ(g(zk,W)) =σ(W2δ(W1zk)), k = 1,··· ,C (4) W1 ∈ R C r ×C W2 ∈ R C× C 式中, 为全连接层的降维操作, r 为全连接层的升维操作,对特征重定向: Fscale (uk,sk) = skuk (5) 特 征 提 取 通 过 在 全 局 平 均 池 化 层 (Global average pooling, GAP) 微调进行特征压缩,利用两 个全连接层去建模通道间的相关性,并通过减少 模型中的参数量和计算量来最小化过度拟合. 2.2.2    LSTM 构建序列分类器 由于微表情变化是在连续时间内发生的,如 果没有利用微表情在时间上的信息的话,很难对 微表情变化准确识别. 因此为了利用表情序列在 时间上的变化信息,使用循环神经网络来处理任 意时序的输入序列,可以更容易地处理时间维度 信息,采用 LSTM 节点双向循环神经网络模型处 理时序数据,构建长期递归卷积网络,对给定序列 是否包含相关的微表情判断分类. MicroE_Features = (x1,··· , xT ) −→h = ( −→h 1,··· , −→h T ) ←−h = ( ←−h 1,··· , ←−h T ) y = (y1,··· , yT ) y 定义双向 LSTM 模型的表情特征输入序列 ,前项传播隐变量序列 ,反向传播隐变量序列 和输出序列 ,则输出序列 的更新方 式为: −→h t = H(Wx −→h xt +W−→h −→h −→h t−1 + b−→h ) (6) ←−h t = H(Wx ←−h xt +W←−h ←−h ←−h t+1 + b←−h ) (7) yt = W−→h y −→h t +W←−h y ←−h t + bo (8) W b H (x) ft it ot Ct t 式中, 为双向 LSTM 模型权重, 为偏置项,偏置 项, 表示激活函数,使用长短时记忆神经元进 行计算,双向 LSTM 和记忆神经元如图 4 和 5 所示. 其中图 5 中的 , 和 分别表示遗忘门、输入门和 输出门, 表示记忆单元 (Cell) 在 时刻的状态. xt−1 xt xt+1 yt−1 yt yt+1 ← ht−1 ← ht ← ht+1 → ht−1 → ht → ht+1 Output Backword layer Forword layer Inputs … … … … 图 4    双向循环网络 Fig.4    Bidirectional LSTM Ct ht xt xt xt xt Input gate Forget gate Output gate Cell it ft ot 图 5    LSTM 神经元 Fig.5    LSTM neurons · 108 · 工程科学学报,第 44 卷,第 1 期
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有