正在加载图片...
第2期 刘帅师,等:鲁棒的正则化编码随机遮挡表情识别 ·263· 因此当a,服从拉普拉斯分布的时候有:P(a)= 量常量。不考虑b,式(4)模型可近似为式(8): exp(-le,/o)/2c;∑1o(a,)将变成稀疏限制 =argmin 2WG-Ta+p(a) (8) 范数。对于分类问题,理想的结果是只有待测表 =1 情图像与训练样本组成的完备字典中对应的目标类 虽然,式(8)是式(4)的局部近似值,但是这样 做可以将鲁棒的正则化编码模型的最小化问题通过 别的表示系数有很大的绝对值。由于事先不知道待 迭代再加权重12正则编码来解决,也就是通过式 测图像属于哪个类别,可以进行一个合理的推理, (7)不断更新权重W。这样最小化问题转变成了如 是只有很少一部分的稀疏表示系数具有显著值。因 何计算对角权重矩阵W。 此,假设稀疏表示系数服从高斯分布,则有: 1.3权重W f(a/)=Bexp-(laJ/o.Y/(2o.r(1/B) (5) W表示分配给待测表情图像y每个像素点的 式中了表示伽马函数。 权值。从人的感官认识出发,被遮挡部分的像素点 由于表情图像的变化多样性,很难预先确定稀 应该具有较低的权重,这样可以减少它们对编码过 疏表示残差的分布。通常,假设概率密度函数 程的影响。由于完备字典是由非遮挡的人脸表情图 fa(e)是对称的、单调并且可微的。因此,pu(e)具有以 像构成的,可以很好地表征人脸表情,然而遮挡部 下性质: 分像素造成的异常值将具有较大的编码残差,因 I)Pa(O)是pa(e)的局部最小值: 此,这些具有较大的编码残差像素点应具有较小的 2)对称性:po(e)=pa(-e: 权重。通过观察式(7)可以得到W与e成反比,与 3)单调性:当leil>ez时,pa(e1)>pa(e2)。不失一 P%(e,)成正比。由于pg可微、对称、单调并且在原点 般性,令P(O)=0o 取得最小值,可以假设W:是连续且对称的,与e成反 鲁棒的正则化编码模型需要解决的两个关键问 比而且有界。不失一般性,令W∈[0,1],综合多方 题:如何确定(或者f)的分布和最小化能量函数。 面的考虑,逻辑函数是权重函数的最好选择。本文 如果只是简单的使f服从高斯分布或者拉普拉斯分 选用与逻辑函数具有相似性质的SVM hinge loss 布并且。服从拉普拉斯分布,本文提出的模型将退 函数作为权重函数。 化成式(1)所示的传统的稀疏表示问题。为了解决 初值对人脸表情识别取得较理想的识别效果至 这两个问题并更有效地获得鲁棒的正则化编码模型 关重要。为了对待测表情图像y设置初值,首先应该 的最大后验概率,本文将式(4)的最小化问题转换 初始化y的编码残差e。本文对e初始化为e=y-Tao; 成迭代权重正则编码问题。 是初始编码向量。由于待测表情图像y所属类别 1.2迭代权重优化鲁棒的正则化编码模型 事先未知,因此ao的合理初始编码向量可以设置为 定义Fa(e)=∑1Pa(e)。F(e)在定义域内某点 e处的一阶泰勒展开公式: m'm :m这样1α表示的就是所有训练 表情图像的平均表情图像。 Fo(e)=Fo(eo)+(e-eo)TFo(eo)+Ri(e) (6) 通过不断迭代优化更新权重W,直到权重收敛 式中:Fa(e)是Fa(e)的一阶导数,R(e)是F(e)的高阶 为止,即相邻迭代权重之间的差异足够小。具体来 导数的余项式。定义p%是P的一阶导数,并且有: Fg(eo)=p',(eoi)p'g(eo2);p',(ean】;ear是eo的第 说,应当式(9)成立时停止迭代: i个元素。使Fa(e)严格显凸性便于最小化,近似余 wo-w-L/w-D<y (9) 项为R(e)≈(e-eo)TW(e-eo)其中,W是对角矩阵,使 式中:y是较小的正数.本文迭代15次权重就趋于 收敛。得到收敛后的权重矩阵W后,最优的稀疏表 e中的元素独立且在F。(e)中e,和e,i≠)没有交叉项。 示d可以通过式(8)计算得到。最后,通过式(10)计 F。(e)在e=0取得最小值的同时,它的近似值 算每类训练表情图像逼近待测表情图像y的逼近 Fa(e)在e=0也应取得最小值。令F(O)=0,可以得 到W的对角元素如式(7): 残差。 y)=W0y-T6,(a)l2,i=1,2,…,k (10) Wii=pa(eoi)/eo.i (7) 根据pg的性质,pg(e)和e,符号相同,所以W是 式中:6,(@)是d第i类训练样本空间最终编码向量, 非负的标量。因此进一步,从而F(e)可以写成 W是最终的权重矩阵,k表示表情类别数。 Fo(e)=WiPe+b..o 根据最小逼近残差的准则公式(11),待测表情 式中:么.=(-p,eucu/2是由,决定的标 图像y最终将被分类到训练表情图像逼近待测表情 图像残差最小的类别。可由式(11)进行判断: 1αj P(α) = ∏m j=1 exp( − αj 1 /σα ) /2σα ∑m j=1 ρ0 ( αj ) αj 因此当 服从拉普拉斯分布的时候有: ; 将变成稀疏限制 l1 范数。对于分类问题,理想的结果是只有待测表 情图像与训练样本组成的完备字典中对应的目标类 别的表示系数有很大的绝对值。由于事先不知道待 测图像属于哪个类别,可以进行一个合理的推理, 是只有很少一部分的稀疏表示系数具有显著值。因 此,假设稀疏表示系数 服从高斯分布,则有: f0 ( αj ) = βexp{ − ( αj /σα )β } / (2σαΓ(1/β)) (5) 式中 Γ 表示伽马函数。 fθ (e) ρθ (e) 由于表情图像的变化多样性,很难预先确定稀 疏表示残差的分布。通常,假设概率密度函数 是对称的、单调并且可微的。因此, 具有以 下性质: 1) ρθ (0) 是 ρθ (e) 的局部最小值; 2) 对称性: ρθ (ei) = ρθ (−ei) ; |e1| > |e2| ρθ (e1) > ρθ (e2) ρθ (0) = 0 3) 单调性:当 时, 。不失一 般性,令 。 ρθ fθ fθ fo 鲁棒的正则化编码模型需要解决的两个关键问 题:如何确定 (或者 ) 的分布和最小化能量函数。 如果只是简单的使 服从高斯分布或者拉普拉斯分 布并且 服从拉普拉斯分布,本文提出的模型将退 化成式 (1) 所示的传统的稀疏表示问题。为了解决 这两个问题并更有效地获得鲁棒的正则化编码模型 的最大后验概率,本文将式 (4) 的最小化问题转换 成迭代权重正则编码问题。 1.2 迭代权重优化鲁棒的正则化编码模型 Fθ (e) = ∑n i=1 ρθ (ei) Fθ (e) e0 定义 。 在定义域内某点 处的一阶泰勒展开公式: F˜ θ (e) = Fθ (e0)+(e−e0) TF ′ θ (e0)+R1 (e) (6) F ′ θ (e) Fθ (e) R1 (e) Fθ (e) ρ ′ θ ρθ F ′ θ (e0) = [ ρ ′ θ ( e0,1 ) ;ρ ′ θ ( e0,2 ) ;···ρ ′ θ ( e0,n )] e0,i e0 F ′ θ (e) R1 (e) ≈ 1 2 (e−e0) TW (e−e0) W e Fθ (e) ei ej(i , j) 式中: 是 的一阶导数, 是 的高阶 导数的余项式。定义 是 的一阶导数,并且有: ; 是 的 第 i 个元素。使 严格显凸性便于最小化,近似余 项为 其中, 是对角矩阵,使 中的元素独立且在 中 和 没有交叉项。 Fθ (e) e = 0 F˜ θ (e) e = 0 F ′ θ (0) = 0 W 在 取得最小值的同时,它的近似值 在 也应取得最小值。令 ,可以得 到 的对角元素如式 (7): Wi,i = ρ ′ θ ( e0,i ) /e0,i (7) ρ ′ θ (ei) ei Wi,i F˜ θ (e) F˜ θ (e) = 1 2 W1/2 e 2 2 +beo 根据 ρθ 的性质, 和 符号相同,所以 是 非负的标量。因此进一步,从而 可以写成 。 beo = ∑n i=1 ( ρθ ( e0,i ) −ρ ′ θ ( e0,i ) e0,i/2 ) 式中: 是由 e0决定的标 量常量。不考虑 beo,式 (4) 模型可近似为式 (8): αˆ = argmin    1 2 W1/2 (y−Tα) 2 2 + ∑m j=1 ρ0 ( αj )    (8) W W 虽然,式 (8) 是式 (4) 的局部近似值,但是这样 做可以将鲁棒的正则化编码模型的最小化问题通过 迭代再加权重 l2 正则编码来解决,也就是通过式 (7) 不断更新权重 。这样最小化问题转变成了如 何计算对角权重矩阵 。 1.3 权重 W Wi,i y i Wi,i ei ρ ′ θ (ei) Wi,i ei Wi,i ∈ [0,1] 表示分配给待测表情图像 每个像素点 的 权值。从人的感官认识出发,被遮挡部分的像素点 应该具有较低的权重,这样可以减少它们对编码过 程的影响。由于完备字典是由非遮挡的人脸表情图 像构成的,可以很好地表征人脸表情,然而遮挡部 分像素造成的异常值将具有较大的编码残差,因 此,这些具有较大的编码残差像素点应具有较小的 权重。通过观察式 (7) 可以得到 与 成反比,与 成正比。由于 ρθ 可微、对称、单调并且在原点 取得最小值,可以假设 是连续且对称的,与 成反 比而且有界。不失一般性,令 ,综合多方 面的考虑,逻辑函数是权重函数的最好选择。本文 选用与逻辑函数具有相似性质的 SVM hinge loss 函数[12]作为权重函数。 y y e e e= y−Tαˆ (0) α (0) y α (0) α (0) = [ 1 m ; 1 m ;··· ; 1 m ] Tα (0) 初值对人脸表情识别取得较理想的识别效果至 关重要。为了对待测表情图像 设置初值,首先应该 初始化 的编码残差 。本文对 初始化为 ; 是初始编码向量。由于待测表情图像 所属类别 事先未知,因此 的合理初始编码向量可以设置为 。这样 表示的就是所有训练 表情图像的平均表情图像。 通过不断迭代优化更新权重 W ,直到权重收敛 为止, 即相邻迭代权重之间的差异足够小。具体来 说,应当式 (9) 成立时停止迭代: W(t) −W(t−1) 2 / W(t−1) 2 < γ (9) γ W αˆ y 式中: 是较小的正数. 本文迭代 15 次权重就趋于 收敛。得到收敛后的权重矩阵 后,最优的稀疏表 示 可以通过式 (8) 计算得到。最后, 通过式 (10) 计 算每类训练表情图像逼近待测表情图像 的逼近 残差。 ri(y) = W 1/2 final(y−Tδi(αˆ)) 2 ,i = 1,2,··· , k (10) δi(αˆ) αˆ Wfinal k 式中: 是 第 i 类训练样本空间最终编码向量, 是最终的权重矩阵, 表示表情类别数。 y 根据最小逼近残差的准则公式 (11),待测表情 图像 最终将被分类到训练表情图像逼近待测表情 图像残差最小的类别。可由式 (11) 进行判断: 第 2 期 刘帅师,等:鲁棒的正则化编码随机遮挡表情识别 ·263·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有