D0I:10.13374/i.issnl00113.2007.04.014 第29卷第4期 北京科技大学学报 Vol.29 No.4 2007年4月 Journal of University of Science and Technology Beijing Apr.2007 基于改进MMⅦ的HMM训练算法及其在 面部表情识别中的应用 杨国亮12)王志良)刘冀伟)王国江) 陈锋军) 1)江西理工大学机电工程学院,赣州3410002)北京科技大学信息工程学院,北京100083 摘要提出一种改进的最大互信息(MMI)准则函数并把它应用于隐马尔可夫模型(HMM)的参数估计,重新推导了HMM 的迭代公式·该准则函数相对于原来准则函数定义更为合理,能有效利用训练样本集中的鉴别信息,使得训练数据得到充分 利用,提高了HMM的性能.把这种改进的HMM算法应用于面部表情识别,利用改进的光流算法提取面部表情特征向量序 列,并利用改进HMM算法和BP神经网络构建了面部表情混合分类器.实验结果表明了该方法能有效提高面部表情识别率, 有效解决HMM参数估计问题. 关键词最大互信息准则:隐马尔可夫模型:光流算法:面部表情识别 分类号TP391 隐马尔可夫模型(hidden Markov model,简称 1.1 IMM准则函数 HMM)是Baum等人在19世纪60年代提出-],目 本文考虑的HMM均指左右结构连续的隐马尔 前在模式识别与图像处理等领域得到了广泛的应 可夫模型(CHMM) 用,由于HMM具有很强的动态时间序列建模能 设HMM表示为入={元,A,B{,其中π={元} 力,因此在处理时间序列问题上HMM得到广泛的 为初始状态概率,且m=1,元=0,i≠1,A=(a时) 关注.传统的HMM参数估计方法采用Baum一 为状态转移向量,且∑g=1,B=b,(o)为观 Wlh算法-),它实际上是一种最大似然法 察向量的混合高斯概率密度函数,且b(0)= (ML)·此外,人们还提出了其他他训练算法,如最 大互信息法(maximum mutual information, ∑CN(o,,马),∑C=1.A为HMM模型 MM)]、最小分类误差法(MCE)]、校正训练法 集,△={,2,,入,V为HMM个数,N和 (corrective training)[门、最大模型距离法(MMD)[8] M。分别为模型入的状态数和每个状态所包含的高 等,各种方法都具有其自身的优越性和缺点,文献 斯混合元个数,训练样本集为0={01,02,…, [3一4]提出的基于MMI训练算法将所有训练样本 0,01,02,…,02…,0,02,,0水{,其中 等同考虑,而实际上在整个训练过程中,不同训练样 O为模型入的第k个训练样本,K为模型入的训 本对HMM参数估计的贡献是不相同的,基于这种 情况,本文定义了一个更为合理的MMI准则函数, 练样本数,且有0呢=呢1,,2,…,0,,T张为观 称之为IMMl(improved maximum mutual informa~ 察序列的长度、最大互信息准则可以表示为: tion),推导了HMM参数重估公式,并结合改进的 M(△)=lnP(AO)= lnP(入|o)= 光流算法,把它应用于面部表情识别,实验结果表 明该方法比MMl和Baum一Velch法性能更好 P(入)P(O入) (1) 1基于改进MM的HMM参数估计 P()P(OEI入) 算法 假定P(入)=,即每个HMM等概率出现,则 收稿日期:2006-01-04修回日期:2006-04-25 式(1)可进一步写成: 基金项目:国家自然科学基金资助项目(Na.60573059) 作者简介:杨国亮(1973一),男,讲师,博士研究生:王志良 M(A)= 白hP()-P(0I入y (1956一),男,教授,博士生导师 (2)
基于改进 MMI 的 HMM 训练算法及其在 面部表情识别中的应用 杨国亮12) 王志良2) 刘冀伟2) 王国江2) 陈锋军2) 1) 江西理工大学机电工程学院赣州341000 2) 北京科技大学信息工程学院北京100083 摘 要 提出一种改进的最大互信息(MMI)准则函数并把它应用于隐马尔可夫模型(HMM)的参数估计重新推导了 HMM 的迭代公式.该准则函数相对于原来准则函数定义更为合理能有效利用训练样本集中的鉴别信息使得训练数据得到充分 利用提高了 HMM 的性能.把这种改进的 HMM 算法应用于面部表情识别利用改进的光流算法提取面部表情特征向量序 列并利用改进 HMM 算法和 BP 神经网络构建了面部表情混合分类器.实验结果表明了该方法能有效提高面部表情识别率 有效解决 HMM 参数估计问题. 关键词 最大互信息准则;隐马尔可夫模型;光流算法;面部表情识别 分类号 TP391 收稿日期:20060104 修回日期:20060425 基金项目:国家自然科学基金资助项目(No.60573059) 作者 简 介:杨 国 亮 (1973—)男讲 师博 士 研 究 生;王 志 良 (1956—)男教授博士生导师 隐马尔可夫模型(hidden Markov model简称 HMM)是Baum 等人在19世纪60年代提出[1—2]目 前在模式识别与图像处理等领域得到了广泛的应 用.由于 HMM 具有很强的动态时间序列建模能 力因此在处理时间序列问题上 HMM 得到广泛的 关注.传统的 HMM 参数估计方法采用 Baum— Welch 算 法[1—2]它 实 际 上 是 一 种 最 大 似 然 法 (ML).此外人们还提出了其他他训练算法如最 大 互 信 息 法 ( maximum mutual information MMI) [3—5]、最小分类误差法(MCE) [6]、校正训练法 (corrective training) [7]、最大模型距离法(MMD) [8] 等各种方法都具有其自身的优越性和缺点.文献 [3—4]提出的基于 MMI 训练算法将所有训练样本 等同考虑而实际上在整个训练过程中不同训练样 本对 HMM 参数估计的贡献是不相同的.基于这种 情况本文定义了一个更为合理的 MMI 准则函数 称之为 IMMI (improved maximum mutual information)推导了 HMM 参数重估公式并结合改进的 光流算法把它应用于面部表情识别.实验结果表 明该方法比 MMI 和 Baum—Welch 法性能更好. 1 基于改进 MMI 的 HMM 参数估计 算法 1∙1 IMMI 准则函数 本文考虑的 HMM 均指左右结构连续的隐马尔 可夫模型(CHMM). 设 HMM 表示为 λ={πAB}其中 π={πi} 为初始状态概率且 π1=1πi=0i≠1A=( aij) 为状态转移向量且 ∑ j aij =1B ={bj ( o)}为观 察向量的混合高斯概率密度函数且 bj ( o) = ∑l CjlN( oμjlΣjl)∑l Cjl=1.Λ为 HMM 模型 集Λ={λ1λ2…λV}V 为 HMM 个数Nv 和 Mv 分别为模型λv 的状态数和每个状态所包含的高 斯混合元个数.训练样本集为 O ={O 1 1O 1 2… O 1 K1O 2 1O 2 2…O 2 K2…O V 1O V 2…O V KV}其中 O v k 为模型λv 的第k 个训练样本Kv 为模型λv 的训 练样本数且有 O v k={o v k1o v k2…o v kT v k}T v k 为观 察序列 O v k 的长度.最大互信息准则可以表示为: M(Λ)=ln P(Λ|O)= ∑ V v=1∑ K v k=1 ln P(λv|O v k)= ∑ V v=1∑ K v k=1 ln P(λv) P( O v k|λv) ∑ V u=1 P(λu) P( O v k|λu) (1) 假定 P (λv )= 1 V 即每个 HMM 等概率出现则 式(1)可进一步写成: M(Λ)= ∑ V v=1∑ K v k=1 ln P( O v k|λv)—ln∑ V u=1 P( O v k|λu) (2) 第29卷 第4期 2007年 4月 北 京 科 技 大 学 学 报 Journal of University of Science and Technology Beijing Vol.29No.4 Apr.2007 DOI:10.13374/j.issn1001-053x.2007.04.014
第4期 杨国亮等:基于改进MMⅫ的HMM训练算法及其在面部表情识别中的应用 .433 式(2)把每个模型对当前模型入的影响同等对待, 准则函数中由于把竞争模型概率输出作为惩罚项, 而实际上在不同训练样本作用下每个模型对当前模 从而使得基于IMMI的训练算法较之Baum一Velch 型入的参数估计的贡献是不同的,因此本文引入加 算法识别能力得到显著提高 权得到改进MMI准则函数: 1.2基于IMM的HMM参数估计算法 4=空w- 为了估计HMM参数,下面讨论有约束优化 问题: 空hP()时空r(m M(A)= )- (3) 其中0<e<1,P0 max (4) 对比式(2)和式(3)可知: ()参数”的引入可以有效控制不同样本作用 的束条,之=1之G=1 下每个模型对当前模型的影响程度,使得不同样本 为求解优化问题(4),构造拉格朗日函数: 对模型参数训练的贡献不同, (2)当=1,=1时,式(2)和式(3)等同.改 变刀值,各个模型对某个模型入影响程度也发生 变化,其中P(O入)越大,则在该样本下模型入 空1-c (5) 对模型入的参数估计影响越大,门值越大,这种影 其中d程、为拉格朗日乘子,为模型入状态i转 响就进一步加强:反之亦然 (③)参数e引入则可以有效控制所有模型对当 移到状态j的概率、C为模型入时状态j广中第l个 前模型参数入估计的综合影响程度,特别地,当 高斯混合元的混合系数,和分别为模型入时 =0时,式(3)退化成最大似然准则,此时基于 状态j中第I个高斯混合密度函数N(o,,)对 式(3)的HMM模型参数估计算法等同于标准的 应的均值矢量和协方差矩阵(取对角型) Baum Welch算法, 2L=0.3 aL-0.3 (4)参数1和e的引入真正反映了“不同训练 0影0路=0 可以求得: 样本对模型参数估计的贡献不同”这一事实,同时在 (0呢,ij》- =1=1=1 (0呢,i,)- =1= 之(0呢,入)(0呢,i,) 含兰医,-之3兰候候0 =1= =11 c= 空香-22t4心 (6) = (0,j,)- 之2呢保 (o,.D,-o,-I-e (0呢,入)(0呢,i,0(或,-)(或:-)T 强= =1=】=1 (-吕2(呢)(%)
式(2)把每个模型对当前模型 λv 的影响同等对待 而实际上在不同训练样本作用下每个模型对当前模 型 λv 的参数估计的贡献是不同的因此本文引入加 权得到改进 MMI 准则函数: M(Λ)= ∑ V v=1 M(λvΛ)= ∑ V v=1∑ K v k=1 ln P( O v k|λv)—εln ∑ V u=1 P( O v k|λu) η 1 η (3) 其中0<ε<1η>0 对比式(2)和式(3)可知: (1) 参数 η的引入可以有效控制不同样本作用 下每个模型对当前模型的影响程度使得不同样本 对模型参数训练的贡献不同. (2) 当 η=1ε=1时式(2)和式(3)等同.改 变η值各个模型对某个模型 λv 影响程度也发生 变化其中 P( O v k|λu)越大则在该样本下模型 λu 对模型λv 的参数估计影响越大η值越大这种影 响就进一步加强;反之亦然. (3) 参数ε引入则可以有效控制所有模型对当 前模型参数λv 估计的综合影响程度.特别地当 ε=0时式 (3) 退化成最大似然准则此时基于 式(3)的 HMM 模型参数估计算法等同于标准的 Baum—Welch 算法. (4) 参数 η和ε的引入真正反映了“不同训练 样本对模型参数估计的贡献不同”这一事实同时在 准则函数中由于把竞争模型概率输出作为惩罚项 从而使得基于 IMMI 的训练算法较之 Baum—Welch 算法识别能力得到显著提高. 1∙2 基于 IMMI 的 HMM参数估计算法 为了估计 HMM 参数下面讨论有约束优化 问题: M(Λ) = ∑ V v=1∑ K v k=1 ln P( O v k)- εln ∑ V u=1 P( O v k|λu) η 1 η = max 约束条件:∑ Nv j=1 a v ij =1∑ Mv l=1 C v jl =1 (4) 为求解优化问题(4)构造拉格朗日函数: L (Λde)= M(Λ)+ ∑ V v=1∑ Nv i=1 d v i 1— ∑ Nv j=1 a v ij + ∑ V v=1∑ Nv j=1 e v j 1— ∑ Mv l=1 C v jl (5) 其中 d v i 、e v i 为拉格朗日乘子a v ij为模型λv 状态 i 转 移到状态 j 的概率、C v jl为模型λv 时状态 j 中第 l 个 高斯混合元的混合系数μv jl和Σv jl分别为模型λv 时 状态 j 中第 l 个高斯混合密度函数 N( oμv jlΣv jl)对 应的均值矢量和协方差矩阵(取对角型). 令 ∂L ∂a v ij =0 ∂L ∂C v jl =0 ∂L ∂μv jl =0 ∂L ∂(Σv jl) —1=0 可以求得: a v ij = ∑ K v k=1∑ T v k-1 t=1 ξ v t ( O v kij)-ε∑ V p=1∑ K p k=1∑ T p k-1 t=1 φ( O p kλv )ξ v t ( O p kij) ∑ K v k=1∑ T v k-1 t=1∑ Nv l=1 ξ v t ( O v kil)-ε∑ V p=1∑ K p k=1∑ T p k-1 t=1∑ Nv l=1 φ( O p kλv )ξ v t ( O p kil) C v jl = ∑ K v k=1∑ T v k t=1 γ v t ( O v kjl)-ε∑ V p=1∑ K p k=1∑ T p k t=1 φ( O p kλv )γ v t ( O p kjl) ∑ K v k=1∑ T v k t=1 ∑ Mv m=1 γ v t ( O v kjm)-ε∑ V p=1∑ K p k=1∑ T p k t=1 ∑ Mv m=1 φ( O p kλv )γ v t ( O p kjm) μ v jl = ∑ K v k=1∑ T v k t=1 γ v t ( O v kjl) o v kt -ε∑ V p=1∑ K p k=1∑ T p k t=1 φ( O p kλv )γ v t ( O p kjl) o p kt ∑ K v k=1∑ T v k t=1 γ v t ( O v kjl)-ε∑ V p=1∑ K p k=1∑ T p k t=1 φ( O p kλv )γ v t ( O p kjl) Σ v jl = ∑ K v k=1∑ T v k t=1 γ v t ( O v kjl)( o v kt - μ v jl)( o v kt - μ v jl) T -ε∑ V p=1∑ K p k=1∑ T p k t=1 φ( O p kλv )γ v t ( O p kjl)( o p kt - μ v jl)( o p kt - μ v jl) T ∑ K v k=1∑ T v k t=1 γ v t ( O v kjl)-ε∑ V p=1∑ K p k=1∑ T p k t=1 φ( O p kλv )γ v t ( O p kjl) (6) 第4期 杨国亮等: 基于改进 MMI 的 HMM 训练算法及其在面部表情识别中的应用 ·433·
.434 北京科技大学学报 第29卷 其中, v类中第k个样本在模型为入,时,t时刻处于状态 (02,,0= (iD(i× 的前向和后向概率,:()和:()分别为给定第 P(O入) p类中第k个样本在模型为入时,t时刻处于状态i CN(o…,) 的前向和后向概率。 Cin N(o.) 式(6)即为改进的HMM参数重估算法, 重新考虑式(3),当T∞时, (02,j,)= i)(i边× (M*A)= P(OI入) CN(o呢,,) 空空P%a)-P(o- g味原马) 为混合输出概率 当会nl)-当会nP(G)O (0%,i,j)=P(=i,+1=j0,入) 其中,A。={0lu=arg maxp(0|入),0%∈0, (0呢,i,j)=P(s=i,+1=jl0呢,入) 不妨记A。={0i,02,,0处{则0∈A。,K。为 为过渡概率, A。中样本数. P(0,入)= P(O|入)” 对比式(3)和式(7)可以发现:对式(3),所有 P(0l) HMM训练必须同时进行;对式(7),各个HMM训 为相对输出概率.:(i)和:(i)分别为给定第 练可以单独进行,算法流程等同于Baum一Velch算 法,最大化式(7)可以得到: 程(0说,i,j)- (0成,i,j) 时= 0-22a40 k=1=1=1 k=1=1l=1 及0-2G, k=1=1 k=1=1 G= 名产(m)- 222 (8) 8(0i,j)成-e白白i%.y, 明= 发(0呢,j)-e 名启() 5(成-5-e2(呢,.0(成:-5(成-r k=1=1 至此,改进的HMM重估算法基本完成,下面 在参数重估过程中,为保证 台喝=1和 概括整个算法如下: 户G=1,必须对每次估计的参数进行归一化 (l)HMM参数初始化,采用经典Baum Welch 算法估计HMM参数,把估计结果作为本文IMMI 处理: 算法中HMM参数的初始值, (②)考虑到训练初期,训练样本在各个模型下 输出概率相差不是很明显,而在训练后期样本输出 式中号和C为重估值. 概率相差明显;因此,对参数”进行自适应变化,即
其中 γv t ( O v kjl)= αvv kt( j)βvv kt( j) P( O v k|λv) × C v jlN( o v ktμv jlΣv jl) ∑ Mv m=1 C v jm N( o v ktμv jmΣv jm) γv t ( O p kjl)= αv p kt( j)βv p kt( j) P( O p k|λv) × C v jlN( o p ktμv jlΣv jl) ∑ Mv m=1 C v jm N( o p ktμv jmΣv jm) 为混合输出概率 ξv t ( O v kij)=P( st= ist+1= j|O v kλv) ξv t ( O p kij)=P( st= ist+1= j|O p kλv) 为过渡概率 φ( O p kλv)= P( O p k|λv) η ∑ V u=1 P( O p k|λu) η 为相对输出概率.αvv kt ( i)和 βvv kt ( i)分别为给定第 v 类中第 k 个样本在模型为λv 时t 时刻处于状态 的前向和后向概率αv p kt( i)和 βv p kt( i)分别为给定第 p 类中第 k 个样本在模型为λv 时t 时刻处于状态 i 的前向和后向概率. 式(6)即为改进的 HMM 参数重估算法. 重新考虑式(3)当 η→∞时 ( M ∗Λ)= ∑ V v=1∑ Kv k=1 {ln P( O v k|λv)—εlnmax u [ P( O v k|λu)]}= ∑ V v=1∑ K v k=1 ln P( O v k|λv)—ε∑ V v=1∑ K v k=1 ln P( O v k|λv) (7) 其中Av={O n k|v =arg max u P( O n k|λu)O n k ∈ O} 不妨记 Av ={O v 1O v 2…O v Kv}则 O v k ∈ AvKv 为 Av 中样本数. 对比式(3)和式(7)可以发现:对式(3)所有 HMM 训练必须同时进行;对式(7)各个 HMM 训 练可以单独进行算法流程等同于 Baum—Welch 算 法.最大化式(7)可以得到: a v ij = ∑ K v k=1∑ T v k-1 t=1 ξ v t ( O v kij)-ε∑ K v k=1∑ T v k-1 t=1 ξ v t ( O v kij) ∑ K v k=1∑ T v k-1 t=1∑ Nv l=1 ξ v t ( O v kil)-ε∑ K v k=1∑ T v k-1 t=1∑ Nv l=1 ξ v t ( O v kil) C v jl = ∑ K v k=1∑ T v k t=1 γ v t ( O v kjl)-ε∑ K v k=1∑ T v k t=1 γ v t ( O v kjl) ∑ K v k=1∑ T v k t=1 ∑ Mv m=1 γ v t ( O v kjm)-ε∑ K v k=1∑ T v k t=1 ∑ Mv m=1 γ v t ( O v kjm) μ v jl = ∑ K v k=1∑ T v k t=1 γ v t ( O v kjl) o v kt -ε∑ K v k=1∑ T v k t=1 γ v t ( O v kjl) o v kt ∑ K v k=1∑ T v k t=1 γ v t ( O v kjl)-ε∑ K v k=1∑ T v k t=1 γ v t ( O v kjl) Σ v jl = ∑ K v k=1∑ T v k t=1 γ v t ( O v kjl)( o v kt - μ v jl)( o v kt - μ v jl) T -ε∑ K v k=1∑ T v k t=1 γ v t ( O v kjl)( o v kt - μ v jl)( o v kt - μ v jl) T ∑ K v k=1∑ T v k t=1 γ v t ( O v kjl)-ε∑ K v k=1∑ T v k t=1 γ v t ( O v kjl) (8) 在参数重估过程中为保证 ∑ Nv j=1 a v ij =1 和 ∑ Mv l=1 C v jl=1必须对每次估计的参数进行归一化 处理: a v ij= a v′ ij ∑ Nv j=1 a v′ ij C v jl=C v′ jl ∑ Mv l=1 C v′ jl 式中 a v′ ij 和 C v′ jl 为重估值. 至此改进的 HMM 重估算法基本完成.下面 概括整个算法如下: (1) HMM 参数初始化.采用经典 Baum-Welch 算法估计 HMM 参数把估计结果作为本文 IMMI 算法中 HMM 参数的初始值. (2) 考虑到训练初期训练样本在各个模型下 输出概率相差不是很明显而在训练后期样本输出 概率相差明显;因此对参数 η进行自适应变化即 ·434· 北 京 科 技 大 学 学 报 第29卷
第4期 杨国亮等:基于改进MMⅫ的HMM训练算法及其在面部表情识别中的应用 .435 (1oop)=cp,c>1为一常数,loop为迭代步骤. cas Kanade法[8]可以计算出光流场(u,v) (③)对每个训练样本,分别计算前向概率、后向 2.1.2基于Hessian矩阵的前向一后向光流法 概率、过渡概率、相对输出概率和混合输出概率,并 Lucas Kanade光流法[假定邻域n内各像素 对训练样本集重新分配,得到A。· 点光流保持恒定,为有效消除邻域Ω内存在的严 (4)利用式(6)或式(8)对HMM参数重估并进 重违反光流约束方程或运动不连续点,本文引入 行归一化处理 Hessian矩阵判断邻域n内每点对于光流约束方程 (5)判断参数估计是否达到预定迭代步数或预 的“良态性”,以提高光流估计精度 定精度,若是,则结束;否则转(2) 式(12)分别对x,y求偏导得: 2 改进HMM算法在面部表情识别 [ (13) 中的应用 可以定义Hessian矩阵 目前,常用的面部表情识别方法主要可以分为 两类:基于静态表情图像的识别方法和基于动态表 情图像的识别方法,本文考虑动态表情图像识别 并且Hessian矩阵的条件数 方法, 2.1面部表情图像特征提取 cond(H= 本文对面部表情图像序列计算光流场,得到面 式中,max、omin分别为H的最大和最小特征值.,H 部表情变化的时间和空间信息,传统的光流计算法 反映了方程(l3)解的稳定性,如果Hessian矩阵的 主要是基于灰度守恒和光流场的平滑性假设,但这 条件数很大则方程(13)为病态方程,对应的Hessian 些假设在阴影、边界和遮挡性的地方不再成立,为此 矩阵秩很小,其解不稳定,计算的光流不可靠;如果 本文提出相应的改进算法, Hessian矩阵的条件数接近l,对应的Hessian矩阵 2.1.1前向后向光流方程 秩很大,方程(13)为良态,其解鲁棒性较好,由此可 考虑方程 以进一步定义邻域内各个像素点对应的权函 1I(x,y,t)-I(x+△x,y+△y,t+△t)=0(9) 数为: 可以得到: 0 W(X)= if det(H) 1/cond(H0 if det(H)≥t (14) I(x,y,t)=I(x十△x,y十△y,t十△t) (10) I(x,y,t十△t)=I(x-△x,y-△y,t) 2.2IMM-ANN混合分类器设计 对式(10)进行泰勒展开并忽略二阶及二阶以上的项 尽管HMM具有很强的时间信息处理能力,但 可以得到: 是HMM也有自身缺点:由于训练准则和算法的限 u+I知+I=0 制,使得它对模式的识别能力较差,虽然本文对改变 Iau十au十+=0 (11) 了HMM训练准则,使得HMM识别能力有所提高, 其中I(x,y,t)、(u,)分别表示图像某像素点(x, 但其识别能力相对于神经网络等分类器来说还是有 y)在t时刻的灰度值和光流 差别;其次,HMM的拓扑结构和观测向量概率密度 =3山,5-, 函数形式的先验选择往往和实际有出入·与HMM 相比,BP神经网络却具有很强的模式分类能力,且 =I山,时=I1+△ 对输入的统计特性不必做出先验假设 为了充分利用HMM和BP神经网络的优点, 5a=Ix3+△,ga=岁+△) 本文构建了基于IMMI的HMM和BP网络混合分 类器,把BP网络作为二次分类器,其训练过程 分别为图像序列各像素点灰度在水平、垂直及时间 如下: 方向上的偏导数 (1)利用改进光流算法计算面部表情图像序列 把式(11)重新合并成一个新的光流方程: 的光流场,为降低数据维数,本文对光流场利用主 Iu+1+=0 (12) 成分分析(PCA)进行数据压缩,得到面部表情的特 其中,=哑十(1-a)a,,=a+(1-)· 征向量序列 4,=哑十(1一a)1+4.根据式(12)采用Lu (2)对上述得到的特征向量序列,利用IMMI
η(loop)=c loopc>1为一常数loop 为迭代步骤. (3) 对每个训练样本分别计算前向概率、后向 概率、过渡概率、相对输出概率和混合输出概率并 对训练样本集重新分配得到 Av. (4) 利用式(6)或式(8)对 HMM 参数重估并进 行归一化处理. (5) 判断参数估计是否达到预定迭代步数或预 定精度.若是则结束;否则转(2). 2 改进 HMM 算法在面部表情识别 中的应用 目前常用的面部表情识别方法主要可以分为 两类:基于静态表情图像的识别方法和基于动态表 情图像的识别方法.本文考虑动态表情图像识别 方法. 2∙1 面部表情图像特征提取 本文对面部表情图像序列计算光流场得到面 部表情变化的时间和空间信息.传统的光流计算法 主要是基于灰度守恒和光流场的平滑性假设但这 些假设在阴影、边界和遮挡性的地方不再成立为此 本文提出相应的改进算法. 2∙1∙1 前向—后向光流方程 考虑方程 I( xyt)—I( x+Δxy+Δyt+Δt)=0 (9) 可以得到: I( xyt)=I( x+Δxy+Δyt+Δt) I( xyt+Δt)=I( x—Δxy—Δyt) (10) 对式(10)进行泰勒展开并忽略二阶及二阶以上的项 可以得到: I t xu+I t yv+I t t=0 I t+Δt x u+I t+Δt y v+I t+Δt t =0 (11) 其中 I( xyt)、( uv )分别表示图像某像素点( x y)在 t 时刻的灰度值和光流. I t x= ∂I( xyt) ∂x I t y= ∂I( xyt) ∂y I t t= ∂I( xyt) ∂t I t+Δt x = ∂I( xyt+Δt) ∂x I t+Δt y = ∂I( xyt+Δt) ∂y I t+Δt t = ∂I( xyt+Δt) ∂t 分别为图像序列各像素点灰度在水平、垂直及时间 方向上的偏导数. 把式(11)重新合并成一个新的光流方程: I′xu+I′yv+I′t=0 (12) 其中I′x =αI t x +(1—α) I t+Δt x I′y =αI t y +(1—α)· I t+Δt y I′t=αI t t+(1—α) I t+Δt t .根据式(12)采用 Lucas—Kanade 法[8]可以计算出光流场( uv ). 2∙1∙2 基于 Hessian 矩阵的前向—后向光流法 Lucas—Kanade 光流法[9]假定邻域 Ω内各像素 点光流保持恒定.为有效消除邻域 Ω内存在的严 重违反光流约束方程或运动不连续点本文引入 Hessian 矩阵判断邻域 Ω内每点对于光流约束方程 的“良态性”以提高光流估计精度. 式(12)分别对 xy 求偏导得: I′xx I′yx I′xy I′yy u v =— I′tx I′ty (13) 可以定义 Hessian 矩阵 H= I′xx I′yx I′xy I′yy 并且 Hessian 矩阵的条件数 cond( H)= |σmax| |σmin| 式中σmax、σmin分别为 H 的最大和最小特征值.H 反映了方程(13)解的稳定性.如果 Hessian 矩阵的 条件数很大则方程(13)为病态方程对应的 Hessian 矩阵秩很小其解不稳定计算的光流不可靠;如果 Hessian 矩阵的条件数接近1对应的 Hessian 矩阵 秩很大方程(13)为良态其解鲁棒性较好.由此可 以进一步定义邻域 Ω 内各个像素点对应的权函 数为: W( X)= 0 if det( H)<τ 1/cond( H) if det( H)≥τ (14) 2∙2 IMMI-ANN 混合分类器设计 尽管 HMM 具有很强的时间信息处理能力但 是 HMM 也有自身缺点:由于训练准则和算法的限 制使得它对模式的识别能力较差虽然本文对改变 了 HMM 训练准则使得 HMM 识别能力有所提高 但其识别能力相对于神经网络等分类器来说还是有 差别;其次HMM 的拓扑结构和观测向量概率密度 函数形式的先验选择往往和实际有出入.与 HMM 相比BP 神经网络却具有很强的模式分类能力且 对输入的统计特性不必做出先验假设. 为了充分利用 HMM 和 BP 神经网络的优点 本文构建了基于 IMMI 的 HMM 和 BP 网络混合分 类器把 BP 网络作为二次分类器其训练过程 如下: (1) 利用改进光流算法计算面部表情图像序列 的光流场.为降低数据维数本文对光流场利用主 成分分析(PCA)进行数据压缩得到面部表情的特 征向量序列. (2) 对上述得到的特征向量序列利用 IMMI 第4期 杨国亮等: 基于改进 MMI 的 HMM 训练算法及其在面部表情识别中的应用 ·435·
436 北京科技大学学报 第29卷 算法训练HMM 脸表情库(CMU PITTSBURGH AU一coded face ex- (③)把各个HMM输出概率组合成一个新的向 pression image database)进行面部表情识别实验,实 量,并把它作为BP网络的输入信号,训练BP网络 验中,随机抽取了14人的面部表情序列,其中10人 分类器 的面部表情作为训练样本,其余4人的面部表情作 3 实验结果 为测试样本.图1为CMU库中某个人愤怒表情序 列中第11、13帧图像及计算出的光流场 为验证上述算法的有效性,本文利用CMU人 图1愤怒表情图像序列(a,b)与光流场(c) Fig-1 Anger expression image sequence (a,b)and its optical flow field (c) 对光流场采用PCA降维得到面部表情特征向 为经典HMM训练算法,各种不同方法总体识别率 量序列,分别训练HMM和BP网络.本文采用三状 分别为:基于IMMI1/BP分类器识别率为83.5%, 态左右结构HMM,混合高斯元个数均为M=3,待 基于IMMI2/BP分类器的识别率为82.4%,在同等 识别的面部表情有六类,故BP网络输入输出节点 条件下基于改进前的最大互信息准则和BP网络的 数均为6,其隐节点数通过实验调整,测试结果如表 分类方法识别率为80.6%,而经典方法Baum一 1和表2所示.其中,IMMI1指基于式(3)的HMM Welch识别率仅为77.1%.由此可见,本文提出的 训练算法,IMMI2指基于式(7)的HMM训练算法, 方法优于传统的HMM训练算法, MMI指基于式(2)的HMM训练算法,Baum Welch 4结论 表1基于IMM1/BP方法面部表情识别结果 Table 1 Facial expression recognition results based on IMMI1/BP 本文提出了一种基于改进MMI的HMM训练 表情愤怒 厌恶 恐棋 高兴悲伤 惊奇 算法.该方法相对于传统Baum一Welch算法,具有 愤怒81.8%2.3% 0 0 15.9% 0 如下优点,(l)模型准确性:Baum一Velch本质上是 厌恶12.1%84.9% 0 0 0 3.0% 最大似然法,若要保证HMM训练的准确性,则需要 恐惧24.2%6.1%66.7% 0 0 3.0% 大量样本;IMMI算法充分利用了所有训练样本,因 高兴 0 30.3%69.7% 0 0 此在相同训练样本集下,采用IMMI准则训练 悲伤 0 0 0 1007% 0 HMM得到的模型更为精确.(2)识别能力:Baum一 2.3% 0 0 0 0 97.7% Welch训练HMM只利用本类样本,因此该方法只 惊奇 是注重对本类样本的建模能力,而忽略了对其他类 表2基于IMMI2/BP方法面部表情识别结果 样本的鉴别能力,如果出现与本类样本相似的其他 Table 2 Facial expression recognition results based on IMMI2/BP 类样本,则该HMM就很难对该样本做出准确分类; 表情愤怒厌恶恐惧高兴悲伤 惊奇 IMMI方法则不仅利用了本类样本,而且充分考虑 愤怒80.0% 0 0 0 20.0% 0 了竞争类样本,把竞争类样本作为惩罚项引入了准 厌恶6.1% 93.9% 0 0 0 0 则函数,从而可以大大提高识别能力,(3)训练的不 恐惧15.2% 9.1% 66.7%3.0% 0 6.0% 平衡性:对于Baum Welch方法,如果某类样本很少 高兴 0 0 36.4%63.6 0 0 或缺少,则与该类对应的HMM则训练不充分或无 悲伤 0 0 0 5.0% 95.0% 0 法训练,不能有效对该类样本建模;而IMMI法则 惊奇2.3% 0 2.3% 0 95.4% 可有效避免这类情况发生,而且如果某类样本缺少 时,还可以利用其竞争类的样本对该类HMM进行
算法训练 HMM. (3) 把各个 HMM 输出概率组合成一个新的向 量并把它作为 BP 网络的输入信号训练 BP 网络 分类器. 3 实验结果 为验证上述算法的有效性本文利用 CMU 人 脸表情库(CMU—PITTSBURGH AU—coded face expression image database)进行面部表情识别实验.实 验中随机抽取了14人的面部表情序列其中10人 的面部表情作为训练样本其余4人的面部表情作 为测试样本.图1为 CMU 库中某个人愤怒表情序 列中第11、13帧图像及计算出的光流场. 图1 愤怒表情图像序列(ab)与光流场(c) Fig.1 Anger expression image sequence (ab) and its optical flow field (c) 对光流场采用 PCA 降维得到面部表情特征向 量序列分别训练 HMM 和 BP 网络.本文采用三状 态左右结构 HMM混合高斯元个数均为 M=3待 识别的面部表情有六类故 BP 网络输入输出节点 数均为6其隐节点数通过实验调整.测试结果如表 1和表2所示.其中IMMI1指基于式(3)的 HMM 训练算法IMMI2指基于式(7)的 HMM 训练算法 MMI 指基于式(2)的 HMM 训练算法Baum—Welch 表1 基于 IMMI1/BP 方法面部表情识别结果 Table1 Facial expression recognition results based on IMMI1/BP 表情 愤怒 厌恶 恐惧 高兴 悲伤 惊奇 愤怒 81∙8% 2∙3% 0 0 15∙9% 0 厌恶 12∙1% 84∙9% 0 0 0 3∙0% 恐惧 24∙2% 6∙1% 66∙7% 0 0 3∙0% 高兴 0 0 30∙3% 69∙7% 0 0 悲伤 0 0 0 0 100% 0 惊奇 2∙3% 0 0 0 0 97∙7% 表2 基于 IMMI2/BP 方法面部表情识别结果 Table2 Facial expression recognition results based on IMMI2/BP 表情 愤怒 厌恶 恐惧 高兴 悲伤 惊奇 愤怒 80∙0% 0 0 0 20∙0% 0 厌恶 6∙1% 93∙9% 0 0 0 0 恐惧 15∙2% 9∙1% 66∙7% 3∙0% 0 6∙0% 高兴 0 0 36∙4% 63∙6% 0 0 悲伤 0 0 0 5∙0% 95∙0% 0 惊奇 2∙3% 0 0 2∙3% 0 95∙4% 为经典 HMM 训练算法.各种不同方法总体识别率 分别为:基于 IMMI1/BP 分类器识别率为83∙5% 基于 IMMI2/BP 分类器的识别率为82∙4%在同等 条件下基于改进前的最大互信息准则和 BP 网络的 分类方法识别率为 80∙6%而经典方法 Baum— Welch 识别率仅为77∙1%.由此可见本文提出的 方法优于传统的 HMM 训练算法. 4 结论 本文提出了一种基于改进 MMI 的 HMM 训练 算法.该方法相对于传统 Baum—Welch 算法具有 如下优点.(1)模型准确性:Baum—Welch 本质上是 最大似然法若要保证 HMM 训练的准确性则需要 大量样本;IMMI 算法充分利用了所有训练样本因 此在相同训练样本集下采用 IMMI 准则训练 HMM 得到的模型更为精确.(2)识别能力:Baum— Welch 训练 HMM 只利用本类样本因此该方法只 是注重对本类样本的建模能力而忽略了对其他类 样本的鉴别能力如果出现与本类样本相似的其他 类样本则该 HMM 就很难对该样本做出准确分类; IMMI 方法则不仅利用了本类样本而且充分考虑 了竞争类样本把竞争类样本作为惩罚项引入了准 则函数从而可以大大提高识别能力.(3)训练的不 平衡性:对于 Baum—Welch 方法如果某类样本很少 或缺少则与该类对应的 HMM 则训练不充分或无 法训练不能有效对该类样本建模;而 IMMI 法则 可有效避免这类情况发生而且如果某类样本缺少 时还可以利用其竞争类的样本对该类 HMM 进行 ·436· 北 京 科 技 大 学 学 报 第29卷
第4期 杨国亮等:基于改进MMⅫ的HMM训练算法及其在面部表情识别中的应用 .437. 反向训练,这是与Baum Welch一个显著区别. [5]茅晓泉,胡光锐.基于最大互信息的离散隐马尔可夫模型训练 方法,上海交通大学学报,2001,35(11):1713 参考文献 [6]Juang B H.Chou W.Lee C H.Minimum classification error [1]Baum L E.Eagon JA.An inequality with applications to statisti- methods for speech recognition.IEEE Trans Speech Audio Pro- ces,1997,5(3):257 cal estimation for probabilistic functions of Markov processes and to a model for ecology.Bull Am Math Stat.1967.37(2):360 [7]Bahl L R.Brown P F,Souza P V,et al.A new algorithm for the [2]Baggenstoss P M.A modified Baum-Welch algorithm for hidden estimation of hidden Markoy model parametersIEEE Int. Markov models with multiple observation speeches.Int J Speech Conf.on Acousties.Speech,and Signal Processing.New York. 1998.493 Commun,2000,5:411 [3]Bahl L R,Brown P F,Mercer R L.Maximum mutual informa- [8]He Q H.Kwong S.A adaptation of hidden Markov models using tion estimation of hidden Markov model parameters for speech maximum model distance algorithm.IEEE Trans System Man recognition//IEEE Int.Conf.on Acoustics.Speech.and Signal Cybern,2004,34(2):270 Processing.Tokyo,1986:49 [9]Lucas B.Kanade T.An iterative image registration technique [4]Assaf B Y,Brushtein D.A discriminative training algorithm for with an application to stereo vision//Proc.of the 7th Internation- hidden Markov models.IEEE Trans Speech Audio Process, al Joint Conference on Artificial Intelligence.Vancouver,1981: 121 2004,12(3):204 HMM training algorithm based improved MMI and its application in facial expres- sion recognition YANG Guoliang2),WANG Zhiliang?),LIU Jiwei),WANG Guojiang?),CHEN Fengjun2) 1)Mechanical and Electrical Engineering School.Jiangxi University of Science and Technology,Ganzhou 341000,China 2)Information Engineering School.University of Science Technology Beijing Beijing 100083.China ABSTRACI A new approach for hidden Markov model(HMM)training based on an improved maximum mu- tual information (MMI)criterion was presented and HMM parameter adjustment rules were induced.By adopt- ing a more realistic MMI definition,discriminative information contained in the training data could be used to improve the performance of HM M and this method was also used in facial expression recognition.Facial expres- sion feature vector flows were extracted by using the improved optical flow algorithm,and a hybrid classifier based on the improved HMM and BP neural network was designed.Experimental results show that the new method provides satisfactory recognition performance and the method is powerful for HM M parameter estima- tion. KEY WORDS maximum mutual information criterion;hidden Markov model;optical flow algorithm;facial expression recognition
反向训练这是与 Baum—Welch 一个显著区别. 参 考 文 献 [1] Baum L EEagon J A.An inequality with applications to statistical estimation for probabilistic functions of Markov processes and to a model for ecology.Bull Am Math Stat196737(2):360 [2] Baggenstoss P M.A modified Baum-Welch algorithm for hidden Markov models with multiple observation speeches.Int J Speech Commun20005:411 [3] Bahl L RBrown P FMercer R L.Maximum mutual information estimation of hidden Markov model parameters for speech recognition∥IEEE Int.Conf.on AcousticsSpeechand Signal Processing.Tokyo1986:49 [4] Assaf B YBrushtein D.A discriminative training algorithm for hidden Markov models.IEEE Trans Speech Audio Process 200412(3):204 [5] 茅晓泉胡光锐.基于最大互信息的离散隐马尔可夫模型训练 方法.上海交通大学学报200135(11):1713 [6] Juang B HChou WLee C H.Minimum classification error methods for speech recognition.IEEE Trans Speech Audio Process19975(3):257 [7] Bahl L RBrown P FSouza P Vet al.A new algorithm for the estimation of hidden Markov model parameters ∥ IEEE Int. Conf.on AcousticsSpeechand Signal Processing.New York 1998:493 [8] He Q HKwong S.A adaptation of hidden Markov models using maximum model distance algorithm.IEEE Trans System Man Cybern200434(2):270 [9] Lucas BKanade T.An iterative image registration technique with an application to stereo vision∥Proc.of the7th International Joint Conference on Artificial Intelligence.Vancouver1981: 121 HMM training algorithm based improved MMI and its application in facial expression recognition Y A NG Guoliang 12)WA NG Zhiliang 2)LIU Jiwei 2)WA NG Guojiang 2)CHEN Fengjun 2) 1) Mechanical and Electrical Engineering SchoolJiangxi University of Science and TechnologyGanzhou341000China 2) Information Engineering SchoolUniversity of Science & Technology BeijingBeijing100083China ABSTRACT A new approach for hidden Markov model (HMM) training based on an improved maximum mutual information (MMI) criterion was presented and HMM parameter adjustment rules were induced.By adopting a more realistic MMI definitiondiscriminative information contained in the training data could be used to improve the performance of HMM and this method was also used in facial expression recognition.Facial expression feature vector flows were extracted by using the improved optical flow algorithmand a hybrid classifier based on the improved HMM and BP neural network was designed.Experimental results show that the new method provides satisfactory recognition performance and the method is powerful for HMM parameter estimation. KEY WORDS maximum mutual information criterion;hidden Markov model;optical flow algorithm;facial expression recognition 第4期 杨国亮等: 基于改进 MMI 的 HMM 训练算法及其在面部表情识别中的应用 ·437·