第7卷第6期 智能系统学报 Vol.7 No.6 2012年12月 CAAI Transactions on Intelligent Systems Dec.2012 D0I:10.3969/j.issn.1673-4785.201203013 网络出版t地址:htp://www.cnki.net/kcma/detail/23.1538.TP.20121116.1700.003.html 基于多尺度特征的双层隐马尔可夫模型 及其在行为识别中的应用 梅雪,胡石,许松松,张继法 (南京工业大学自动化与电气工程学院,江苏南京211816)】 摘要:借鉴人类视觉感知所具有的多尺度、多分辨性的特性,针对智能视频监控系统的人体运动行为识别,提出了 一种基于多尺度特征的双层隐马尔可夫模型.根据人体行为关键姿态数确定HM的状态数目,发橱人体运动行为 隐藏的多尺度结构间的关系,将运动轨迹和人体姿态边缘小波矩2个不同尺度特征应用于2层H“,提供更为丰富 的行为尺度间的相关信息.分别用Weizmann人体行为数据库和自行拍摄的室内视频,对人体运动行为识别进行仿 真实验,结果表明,五状态HMM模型更符合人体运动行为特点,基于多尺度特征的五状态双层隐马尔可夫模型具有 较高的识别率 关键词:双层隐马尔可夫模型;行为识别;多尺度特征;智能视频监控 中图分类号:TP391.4文献标志码:A文章编号:16734785(2012)06051206 Multi-scale feature based double-layer HMM and its application in behavior recognition MEI Xue,HU Shi,XU Songsong,ZHANG Jifa (College of Automation and Electrical Engineering,Nanjing University of Technology,Nanjing 211816,China) Abstract:Learning from multi-scale and multi-distinguish attributes of human beings'visual perception and aiming at human movement behavior recognition in intelligent video surveillance system,a double-layer hidden markov model (DL-HMM)is developed based on multi-scale behavior features.Considering the human behavior character- istics,the number of HMM states is according to the number of key gestures selected.Discovering the relationship between the multi-scale structures hidden in the human movement behavior,two different scale features-human mo- tion trajectory and wavelet moment of human gesture's edge,are applied respectively in two layers of DL-HMM,so as to provide more scale information about behavior.Experiments,using Israel Weizmann human behavior database and human actions indoor recorded by ourselves,show the five-state HMM more accords with the human motion be- havior characteristics,and the five-state DL-HMM based on multi-scale feature has a higher recognition rate com- pared with traditional methods using one layer HMM. Keywords:double-layer HMM (DL-HMM);behavior recognition;multi-scale feature;intelligent video surveillance 人体行为识别(human action recognition,HAR)问题之一).行为识别方法大致可分为2类23】:I) 是由视频分析人的行为,并形成一系列高层的描述 静态识别方法,如模板匹配方法和基于文法技术 方法,在智能视频监控、人机交互以及虚拟现实等领 (syntactic technique),该类方法的计算量比较小,但 域有着广泛的应用价值,是计算机视觉领域的热点 是鲁棒性较差;2)状态转移图模型方法,该方法将 行为的每一个姿态或运动状态作为状态图的一个节 收稿日期:2012-03-15.网络出版日期:2012-11-16. 点,通过某种概率将对应于各个姿势或状态节点之 基金项目:江苏省高校自然科学基金资助项目(09KJB510002):江苏 省博士后科研资助计划资助项目(1001027B);南京工业大 间的依存关系联系起来,这样任何人体行为运动序 学青年学科基金资助项目(39710006). 列可以看作在图中若干节点或状态之间的一次遍历 通信作者:梅雪.E-mail:mr@njut.ed.cm. 过程.应用较为广泛的2种状态图模型为隐马尔可
第6期 梅雪,等:基于多尺度特征的双层隐马尔可夫模型及其在行为识别中的应用 ·513· 夫模型(hidden Markov models,HMM)和动态贝叶 信号.视频连续帧中的运动人体目标可表示为参数 斯网络(dynamic Bayesian networks,DBNs),其中前 曲线.图1为几种行为轨迹 者是后者的一种特殊形式 基于状态图转移的行为识别方法大都是针对某 一特定尺度的行为特征分析实现的,如基于HMM 的轨迹识别45;基于肢体结构特征及其时空结构 关系的行为识别方法6.目前已有一些研究工作兼 (a)run (b)side (o)jup(d)“前进-下 蹲-前进” 顾了多个尺度特征.Lee等应用分层隐马尔可夫模 图1运动行为轨迹 型(hierarchical hidden Markov model,.HHMM)分析 Fig.1 Trajectory of movement 行为内在的层次结构1;Qian等在概率框架下提出 对于一个完整轨迹分割得到的5条子轨迹具有 了一种抽象隐马尔可夫模型(abstract hidden Markov 不同的序列长度l,(i=1,2,…,5).设m为每个子轨 models,AHMM),采用级联的形式对人的行为进行 迹上的采样点数.若l:>m,则在该段子轨迹中均匀 建模[1;Chen等提出了一种2层动态贝叶斯时间序 采集m个坐标点,即获得m帧图像序列.若l:<m 列模型(layered time series model,,LTSM),用尺度间 时,对数据先进行插值,使得轨迹长度达到m.对处 的相关特性分析步态例 理后的子轨迹数据分别进行主成分分析,提取前 兼顾多尺度特征的识别方法与人类视觉感知方 m/2个主成分系数作为特征向量, 法有类似之处,其灵活性很大程度上在于对目标识 在轨迹数据中变化明显的点处进行分割,一个 别时的多尺度性、多分辨性.本文借鉴人类视觉感知 行为事件的轨迹被分割成多段子轨迹.计算轨迹的 特点,建立了双层隐马尔可夫模型(double layer 速度(一阶导数)和加速度(二阶导数)来判断曲率 HMM,DL-HMM),分别将大尺度运动轨迹特征和小 的大小,当曲率大小大于设定阈值时,记录该点为疑 尺度姿态的边缘小波矩细节特征应用于2层HMM 似分割点.在每一个完整的行为段中,选取曲率最大 中.大尺度下,得到人的运动行为的概略特征;小尺 的4个疑似分割点作为最终的分割点,于是一段完 度下,利用具有代表性的关键姿态可以刻画行为的 整的行为事件轨迹被分割成为5段子轨迹.例如对 肢体等相对位置和结构的细节特征.同时,DL-HMM 于“前进一下蹲一前进”行为:人沿着走廊过道向前 的状态数根据行为的关键姿态数确定,降低了运算 行走,中间蹲下来,站起来然后继续往前行走.图2 复杂度,提高了识别率, 为该行为事件得到的轨迹示意图,图中标记①、②、 1行为多尺度特征 ③、④为曲率最大的4个分割点. 由于人体动作行为是一个复杂的运动过程,具 4 有大自由度和高度非线性的特点,以及关于行为、事 件的定义有着不同的概念,如何选择充分有效的表 达方式来描述场景中人的行为是非常困难的[45].本 第1帧 第顺 文首先获得视频帧中运动人体的剪影图,从而将行为 图2“前进一下蹲一前进”行为的近似轨迹 视频表示为剪影序列,以人体目标侧影序列的集合构 Fig.2 The approximate path diagram of "advance- 建基本的人体行为姿态的数据库, squat-advance"movement 1.1大尺度特征 1.2小尺度特征 以行为运动轨迹作为大尺度特征.选取各个瞬 用边缘轮廓小波矩特征来刻画在小尺度上单个 间时刻运动人体剪影的最小外界矩形框的中心来近 姿态的细节特征,求取步骤见文献[10],该特征建 似人体的轨迹坐标.在各个瞬间时刻,一个轨迹对应 立在多段定向距离矢量傅里叶描述子的基础上,具 的是人体质心位置的x和y坐标组成的二维V元向 有平移、缩放和旋转不变性.人体姿态用一个8维的 量{(X,Y),k=1,2,…,N}.以统一形式编码轨迹, 边缘轮廓小波矩特征表示「1] 对于帧序列,每一帧的运动人体均由二维图像的 由于在模型中采用的是2层行为状态来描述2个 坐标(x,y:)来表示,令f=(:,y:).人体运动行为 不同尺度上的运动细节,在2层的行为状态中分别采 轨迹的流向量序列可表示为T。={f,f,…,f,…, 用马尔可夫假设.运动轨迹和姿态之间具有很强的相 ∫n-1n},一个对象的轨迹基本上表示成了一个二维 关性,即2个尺度之间也存在依赖关系.通常情况下
514 智能系统学报 第7卷 在人体行为分析中,大尺度占有主导性,本文只考虑两 如果关键姿态的个数过多时,则运算量增大,以至于 尺度间大尺度特征对小尺度细节特征的影响。 影响算法的运算速度.本文选取一个行为由5个关 2应用多尺度特征的DL-HMM 键姿态组成,这5个关键姿态分别来自于5段子轨 迹. 2.1模型描述 用12=(A0,BD,TD,A2),B2,2), 根据行为的特点,每一个行为事件可以由若干 H1,2)表示DL-HMM,它是一个无回路的五状态拓 关键姿态来描述,这些关键姿态均分布于一个行为 扑结构,每一个状态均不能返回到前一状态,A)、 事件的各段子轨迹组成的子事件中,其余姿势认为 B)、π⑧分别表示对应层的状态转移矩阵、状态输 是这些关键姿势的过渡.关键姿态个数在一定程度 出概率矩阵和初始状态的概率分布矩阵.图3为应 上决定了识别率的高低和运算量的大小,若关键姿 用多尺度特征的DL-HMM结构图. 态数过少会无法正确表征行为特征,使识别率降低; b(c)...b(c) b(c)...bic) b,(c).b,(c) am a ·大尺度特征 S 卡知为O a a az a a aos 小尺度特征 S b(o)...b(o) b(o)...bio) b(o)..b(o) Argm axP(O) 图3应用多尺度特征的双层隐马尔可夫模型 Fig.3 Double-layer hidden Markov model 「h4:2 h) 0 0 0 对于行为J,其参数集合)为: 0 hs)he 0 0 1)状态转移矩阵A,在第i层DL-HMM中,当 H(1,2) 0 0 h码2h码 0 前状态只能转移到下一状态,而不能返回到前一状 0 0 0 h22 态,例如a8=P(S0=S1S81=S),i=1,2. 0 0 0 0 2)状态输出概率矩阵B,表示当前时刻该状态 h) 式中:1,表示在上层的子轨迹序列状态条件下存在 输出某一观察值的概率.定义为 下层的行为姿态数字序列的概率,例如其中2”= b0(c)…b0(c4)1 P(S=S1S2)=S).在参数训练中初始值选择为 Bi= Γ0.50.50001 b(c)… Bs (ci) 00.50.500 式中:b(cn)=P(cnIS0=S2),i=1,2. H12)= 000.50.50 3)初始状态概率分布π,由于状态的转移总是 0 00 0.50.5 从S。状态开始,因此有下面定义:={=1, L 00000.5J π=0,…,mg9=0,i=1,2. 设观测序列为0={01,02,…,0},其中每一 4)定义DL-HMM中上层HMM对下层HMM的 个观察值均由基于大尺度的轨迹特征和基于小尺度 条件概率矩阵为H1): 的小波矩特征的观察值构成,用O,={c,c}表示t 时刻观察序列中的观察值.观测向量长度为T的状
第6期 梅雪,等:基于多尺度特征的双层隐马尔可夫模型及其在行为识别中的应用 ·515· 态序列,S={(S,S),(S2,S),…,(S,S)}.于 于5个分割出的子行为.实验中,使用K-means聚类 是,给定一系列未知的人体行为{01,02,…,0n}和 算法,自动从每一类行为的子姿态序列中选择一个 描述行为J的参数集合2”.未知行为0。= 关键姿势.选用Weizmann人体动作行为数据库10 {(c1,c),(c吃,c),…,(c,c)}和行为J的多尺度 种人体动作行为:bend、jack、jump1、jump2、un、side、 特征HMM的相似度由贝叶斯准则公式P(O.I walk、wave1、wave2、skip.这l0类动作行为均是由9 12))获得.前向变量(i,)表示t时刻在某一状 个人完成的,一共有90段视频: 态(i,)中产生观察序列的概率a心,(i,)由前向算法 分别运用三状态和五状态的隐马尔可夫模型, (forward algorithm)推导出: 对Weizmann人体行为数据库进行识别.图4所示为 a(ij)=m”m2b"(c)b2(c),1≤iJ≤5, bend行为的5个关键姿势.利用交叉验证方法,识 4(i》=b四(c)b②(c) 别率如图5所示,相比三状态模型的平均识别率 Σ=[a(m,n)a,ahg2]. (1) 88.75%来说,应用5个关键姿态的五状态HMM能 够到达94.61%的平均识别率 似然概率由式(1)得出. P(0.1i2)=∑[a(m,n)]. m,4 2.2模型参数的训练和重估 利用已知的行为序列来训练应用多尺度特征 HMM的参数集合入,2),对每一层HMM用Baum- 图4Bend行为的5个关键姿势 Welch算法估算出状态转移概率a⑧.、输出概率 Fig.4 Five key postures of bend behavior b9(c)以及上层HMM对下层的条件概率2. T- ∑(m,) ■三状态HMM ☐i状态IIMM a= 1.0 (m T bm(c-合(m,)o",6)门 run walk skip jack jumpljump2 sid wave wave?bend ∑(i) 图5BME-SCHMM与本文的五状态HMM实验结果 b2(c)= 左E(o”,] 的对比 Fig.5 Experimental results contrast of five movement 蓝0) between BME-SCHMM and ways of this paper 3.2室内人体动作行为识别 ∑12(n,) 在实验室内,固定摄像头位置,拍摄了5类行为 = ∑"(n) 视频,用于仿真实验,这些行为包括: 式中:(i,)表示在给定模型2)和观察值序列 1)行为0:行人向前直行,行走路线为直线前 O,t时刻处于状态i,t+1时刻处于状态j的期望概 进; 率。6(0,c)表示给定模型42产生观察值序列 2)行为1:行人向前直行,中间直立向上跳一 的最佳转换序列的概率 下,然后继续往前行走; 3)行为2:行人向前直行,中间突然摔倒躺在地 3仿真实验及分析 上,爬起来后继续往前行走; 3.1DL-HMM状态数选择 4)行为3:行人向前直行,中间弯下腰,直腰后 首先,通过实验验证DL-HMM模型的状态数的 继续往前行走; 选择对识别结果的影响.分别运用三状态和五状态 5)行为4:行人向前直行,中间蹲下来,站起来 建立隐马尔可夫模型,对于一个行为周期为T的行 后继续往前行走, 为,五状态HMM模型中的5个关键姿态,分别取自 实验视频是采集于10个不同的人,分别重复做 4次上述5种行为,于是每种行为均有40组样本
·516 智能系统学报 第7卷 图6所示为Action4行为的5个关键姿势 行为多层次结构特征和其相关性,提出了一种基于 多尺度特征双层马尔可夫模型,将人体运动轨迹和 小波矩特征应用在HMM中,提供了更为丰富的行 为尺度间的相关信息.同时,DL-HMM的状态数根 据行为的关键姿态数确定,使模型结构也具有清晰 的物理意义,仿真实验获得了较好的识别结果, 参考文献: [1]黎洪松,李达.人体运动分析研究的若干新进展[J].模 图6行为4的5个关键姿势 式识别与人工智能,2009,22(1):70-78. Fig.6 Five key postures of behavior of Action4 LI Hongsong,LI Da.Some advances in human motion analy- 对上述5种连续的行为动作序列进行轨迹提 sis[J].Pattern Recognition and Aritificial Intelligence, 取,检测轨迹的突变点作为分割点.若运动轨迹无明 2009,22(1):70-78. 显的分割点,即轨迹曲线的曲率无明显变化,则认为 [2]WEINLAND D,RONFARD R.A survey of vision based 该行为是直线前行行为Action(0.对另外4种行为的 methods for action representation,segmentation and recog- 轨迹及边缘小波矩特征进行提取,并对其应用多尺 nition[J].Computer Vision and Image Understanding, 度特征DL-HMM进行建模,5种行为数据,一半用于 2011,115(2):224-241. [3]PAU-CHOO C,De CHIN L.A daily behavior enabled hid- 训练,一半用于验证,识别结果如表1,得到92.5% den Markov model for human behavior understanding[J]. 的平均识别率.为了横向比较DL-HMM的识别效 Pattern Recognition,2008,41(2):1572-1580. 果,对HMM和2层的HHMM在同样的数据集上, [4]NASCIMENTO C J,FIGUEIREDO A M T,MARQUES S 应用相同的特征进行了测试.其中HMM包含6~8 J.Trajectory classification using switched dynamical hidded 个状态,HHMM每层包含4~5个状态.HMM对5种行 Markov models [J].IEEE Trans on Image Processing, 为的平均识别率为79.5%,HHMM的平均识别率为 2010,19(5):1338-1348. 84.5%.HHMM虽然是分层模型,但仅从单一的观测序 [5]HERVIEU A,BOUTHEMY P,CADRE J P L.A HMM 列中实现模型学习,导致识别率低于DL-HMM based method for recognizing dynamic video contents from 对于N个状态,序列长度为T的HMM,所用到 trajectories[C]//Proceedings of International Conference 的前向后向算法的计算复杂度均为O(W2T).在应 on Image Processing.San Antonio,USA,2007:533-536. [6]UDDIN Z,NGUYEN T,JEONG K,et al.Human activity 用Baum-Welch算法模型进行参数的训练和重估, recognition using body joint-angle features and hidden 以及计算特定HMM下可观察序列概率时,都使用 Markov model[J].Electronics and Telecommunications 前向后向算法,所以状态数是决定模型计算复杂度 Research Institute,2011,33(4):569-579. 的关键参数.本文方法根据动作行为本身特点确定 [7]YOUNG L,SUNG C.Activity recognition using hierachical 状态数目,简化了模型,且具有较高的识别率。 hidden Markov models on a smartphone with 3D accelerom- 表15种人体动作行为的识别结果行为类别 eter[C]//6th Interational Conference on HAIS.Berlin: Table 1 Five recgnition results of human behavior Springer-Verlag,2011:460-467. 行为 识别结果 [8]钱堃,马旭东,戴先中.基于抽象隐马尔可夫模型的运动 识别率/ 类别行为0行为1行为2行为3行为4 % 行为识别方法[J].模式识别与人工智能,2009,22 (3):433439. 行为0 40 0 0 0 0 100.0 QIAN Kun,MA Xudong,DAI Xianzhong.Motion activity rec 行为1 1 39 0 0 0 97.5 ognition based on abstract hidden Markov model[J].Pattern 行为2 0 0 36 2 2 90.0 Recognition and Aritificial Intelligence,2009,22(3):433- 行为3 0 1 1 35 3 87.5 439. 行为4 0 0 0 36 90.0 [9]CHEN Changhong,LIANG Jimin,ZHU Xiuchang.Gait rec- ognition based on improved dynamic Bayesian networks[J]. 4结束语 Pattern Recognition,2011,44(4):988-995. [10]胡石,梅雪.人体行为动作的形状轮廓特征提取及识别 本文借鉴人类视觉感知的特点,兼顾人体运动 [J].计算机工程,2012,38(4):266-268
第6期 梅雪,等:基于多尺度特征的双层隐马尔可夫模型及其在行为识别中的应用 ·517. HU Shi,MEI Xue.Shape contour feature extraction and 胡石,男,1988年生,硕士研究生 recognition of human behavior motion[].Computer Engi- 主要研究领域为模式识别、图像处理 neering,2012,38(4):266268. [11]NEGIN N,FARBOD R,HOSSEIN S.A novel approach to HMM-based speech recognition systems using particle swarm optimization[J].Mathematical and Computer Mod- elling,2010,52(12):1910-1920. 作者简介: 张继法,男,1987年生,硕士研究生, 梅雪,女,1975年生,副教授,硕士 主要研究领域为模式识别、图像处理。 生导师,主要研究方向为图像处理、模 式识别及计算机视觉 第4届EEE灰色系统与智能服务国际会议 The 4th IEEE International Conference on Grey Systems and Intelligent Services The 4th IEEE International Conference on Grey Systems and Intelligent Services (GSIS2013)focuses on current re- search on grey theory,systems,and rapidly advancing technologies in business improvement,business process automa- tion,information management,and intelligent services.GSIS2013 invites researchers to present current research findings and business experiences from the wide community which is now involved in Systems,Grey Systems,Knowledge manage- ment Systems,Grey Theory,Information Uncertainty,Management,Decision Making,Intelligence,Services.Topics in- clude,but are not limited to: System Analysis Data Mining and Processing Grey Matrix Game Model Systems Modeling and Simulation Uncertain Systems Forecasting and Decision Making Practical Applications of Grey Methods Control Business Process Management and Re-Engineering System Theory and Applications Global Manufacturing,Supply Chain,and Logistics Concepts and Principles of Grey Systems Artificial Intelligence and Machine Leaming Grey Numbers and its Operations Service and Services Delivery Networks Grey Equation and Grey Matrix Service Sciences,Management,and Engineering Sequence Operator and Grey Sequence Generation Emergency and Risk Management Grey Incidence Analysis and Clustering Evaluation Technical Innovation Management Grey Programming Other Relevant Topics Grey Input -output Important Dates: Jan.10,2013 Deadline for submission of invited sessions proposals Mar.10,2013 Deadline for submission of full papers. Apr.20,2013 Acceptance/Rejection notification. June10,2013 Final camera-ready papers due. Web site:http://ieeegsis.nuaa.edu.cn