第9卷第1期 智能系统学报 Vol.9 No.1 2014年2月 CAAI Transactions on Intelligent Systems Feb.2014 D0:10.3969/j.issn.1673-4785.201305001 网s络出版地址:http:/www.cnki.net/kcms/doi/10.3969/j-issn.1673-4785.201305001.html 累积方向-数量级光流梯度直方图的人体动作识别 郭利,曹江涛,李平1,姬晓飞2 (1.辽宁石油化工大学信息与控制工程学院,辽宁抚顺113001:2.沈阳航空航天大学自动化学院,辽宁沈阳 110136) 摘要:为了提高光流信息在人体动作识别系统中应用的效果和效率,提出一种累计方向-数量级光流梯度直方图 的人体动作特征表示方法。该方法首先利用Hom-Schunck充流算法计算图像光流,然后将光流矢量按照不同的方 向-数量级进行直方图统计,得到单帧图像的方向-数量级的光流梯度直方图,最后将单帧图像的直方图特征在时间 维上进行累积来表示整个视频动作的特征。利用该特征在KTH动作视频库上进行动作识别测试,4个场景的混合 测试得到了87.5%的平均正确识别率,验证了算法的有效性。 关键词:人体动作识别:Hom-Schunck光流:方向-数量级直方图;梯度直方图 中图分类号:TP391.41文献标志码:A文章编号:1673-4785(2014)01-0104-05 中文引用格式:郭利,曹江涛,李平,等.累积方向-数量级光流梯度直方图的人体动作识别[J].智能系统学报,2014,9(1):104-108. 英文引用格式:GUOi,CAO Jiangtao,LI Ping,etal.Human action recognition based on accumulated orientation-magnitude his. tograms of optical flow[J].CAAI Transactions on Intelligent Systems,2014,9(1):104-108. Human action recognition based on accumulated orientation-magnitude histograms of optical flow GUO Li',CAO Jiangtao',LI Ping',JI Xiaofei (1.School of Information and Control Engineering,Liaoning Shihua University,Fushun 113001,China;2.School of Automation, Shenyang Aerospace University,Shenyang 110136,China) Abstract:In order to improve the recognition rate and efficiency of optical flow in the human action recognition sys- tem,a novel method for human action representation based on the accumulated orientation-magnitude gradient his- tograms of the optical flow is proposed in this paper.First the image optical flow is computed,and then every flow vector is counted according to the orientation-magnitude to obtain orientation-magnitude histograms of single frame image.Finally information of the video sequence can be represented by accumulating orientation-magnitude histo- grams in time dimension.The proposed feature is evaluated on a standard database of human actions:KTH.The ex- periment conducted on the four scenes demonstrates that this algorithm is effective and achieves a correct recogni- tion rate of 87.5%with the KTH dataset. Keywords:human action recognition;Hom-Schunck optical flow;orientation-magnitude histograms;gradient histograms 基于视频的人体动作识别是当今计算机视觉领 动人体的外观,通常利用背景减除法获得精准人体 域富有挑战性的热门研究方向。从视频序列中提取 剪影,因此该类方法易受背景噪声的干扰,对部分遮 出相对有辨识力的动作特征是影响动作识别效果的 挡、视角的变化比较敏感。 重要研究内容。视频序列图像中可提取的动作特征 兴趣点就是视频中动作突然发生变化的位置, 有很多,主要分为基于剪影的特征、基于兴趣点的特 该位置包含丰富的运动信息。基于兴趣点的方 征、基于光流的特征等。 法[4]对视角、遮挡和噪声等干扰不敏感,处理过程 在动作识别中,基于剪影的特征]依赖于运 简单,但此类方法的缺点是检测出来的稳定兴趣点 数量太少,且缺失全局信息。 基于光流的特征能够清晰地表示人体的动作, 收稿日期:2013-05-02.网络出版日期:2014-02-20 基金项目:国家自然科学青年基金资助项目(61103123) 受外观特征的干扰最小,也不易受周围环境的影响, 通信作者:曹江涛.E-mail:jiangtao.cao08@gail.com. 有很好的鲁棒性,因此该类方法较适用于实际环境
第 9 卷第 1 期 智 能 系 统 学 报 Vol.9 №.1 2014 年 2 月 CAAI Transactions on Intelligent Systems Feb. 2014 DOI:10.3969 / j.issn.1673⁃4785.201305001 网络出版地址:http: / / www.cnki.net / kcms/ doi / 10.3969 / j.issn.1673⁃4785.201305001.html 累积方向-数量级光流梯度直方图的人体动作识别 郭利1 ,曹江涛1 ,李平1 ,姬晓飞2 (1.辽宁石油化工大学 信息与控制工程学院,辽宁 抚顺 113001;2. 沈阳航空航天大学 自动化学院,辽宁 沈阳 110136) 摘 要:为了提高光流信息在人体动作识别系统中应用的效果和效率,提出一种累计方向-数量级光流梯度直方图 的人体动作特征表示方法。 该方法首先利用 Horn⁃Schunck 充流算法计算图像光流,然后将光流矢量按照不同的方 向-数量级进行直方图统计,得到单帧图像的方向-数量级的光流梯度直方图,最后将单帧图像的直方图特征在时间 维上进行累积来表示整个视频动作的特征。 利用该特征在 KTH 动作视频库上进行动作识别测试,4 个场景的混合 测试得到了 87.5%的平均正确识别率,验证了算法的有效性。 关键词:人体动作识别;Horn⁃Schunck 光流;方向-数量级直方图;梯度直方图 中图分类号:TP391.41 文献标志码:A 文章编号:1673⁃4785(2014)01⁃0104⁃05 中文引用格式:郭利,曹江涛,李平,等.累积方向-数量级光流梯度直方图的人体动作识别[J]. 智能系统学报, 2014, 9(1): 104⁃108. 英文引用格式:GUO Li, CAO Jiangtao, LI Ping, et al. Human action recognition based on accumulated orientation⁃magnitude his⁃ tograms of optical flow[J]. CAAI Transactions on Intelligent Systems, 2014, 9(1): 104⁃108. Human action recognition based on accumulated orientation⁃magnitude histograms of optical flow GUO Li 1 , CAO Jiangtao 1 , LI Ping 1 , JI Xiaofei 2 (1. School of Information and Control Engineering, Liaoning Shihua University, Fushun 113001, China; 2. School of Automation, Shenyang Aerospace University, Shenyang 110136, China) Abstract:In order to improve the recognition rate and efficiency of optical flow in the human action recognition sys⁃ tem, a novel method for human action representation based on the accumulated orientation⁃magnitude gradient his⁃ tograms of the optical flow is proposed in this paper. First the image optical flow is computed, and then every flow vector is counted according to the orientation⁃magnitude to obtain orientation⁃magnitude histograms of single frame image. Finally information of the video sequence can be represented by accumulating orientation⁃magnitude histo⁃ grams in time dimension. The proposed feature is evaluated on a standard database of human actions: KTH. The ex⁃ periment conducted on the four scenes demonstrates that this algorithm is effective and achieves a correct recogni⁃ tion rate of 87.5% with the KTH dataset. Keywords:human action recognition; Horn⁃Schunck optical flow; orientation⁃magnitude histograms; gradient histograms 收稿日期:2013⁃05⁃02. 网络出版日期:2014⁃02⁃20. 基金项目:国家自然科学青年基金资助项目(61103123). 通信作者:曹江涛. E⁃mail: jiangtao.cao08@ gmail.com. 基于视频的人体动作识别是当今计算机视觉领 域富有挑战性的热门研究方向。 从视频序列中提取 出相对有辨识力的动作特征是影响动作识别效果的 重要研究内容。 视频序列图像中可提取的动作特征 有很多,主要分为基于剪影的特征、基于兴趣点的特 征、基于光流的特征等。 在动作识别中,基于剪影的特征[1⁃3] 依赖于运 动人体的外观,通常利用背景减除法获得精准人体 剪影,因此该类方法易受背景噪声的干扰,对部分遮 挡、视角的变化比较敏感。 兴趣点就是视频中动作突然发生变化的位置, 该位置包含丰富的运动信息。 基于兴趣点的方 法[4⁃6]对视角、遮挡和噪声等干扰不敏感,处理过程 简单,但此类方法的缺点是检测出来的稳定兴趣点 数量太少,且缺失全局信息。 基于光流的特征能够清晰地表示人体的动作, 受外观特征的干扰最小,也不易受周围环境的影响, 有很好的鲁棒性,因此该类方法较适用于实际环境
第1期 郭利,等:累积方向-数量级光流梯度直方图的人体动作识别 ·105· 下的应用。文献[7]提出了基于网格的光流表 2 示方法,将兴趣区域按照人体比例大致划分为头颈、 累积方向-数量级光流直方图 上半身、腿三部分,然后在每个部分利用径向直方图 2.1图像预处理 统计光流特征在横纵方向的光流幅度。此方法识别 提取图像中的兴趣区域是为了减少计算量。通 结果不够理想,用Harris角点检测运动人体,计算量 常利用背景减除法确定出运动的大致区域,再利用 大、计算速度慢。文献[8]将兴趣区域划分为均分 中值滤波得到人体剪影,根据人体剪影信息确定兴 的小区域,在每个子区域内仍然利用径向直方图统 趣区域,如图2中4张图像的虚线矩形框内所示。 计横纵方向的光流幅度。该方法不需要对人体部分 根据背景减除法得到粗略的兴趣区域,有时不 进行划分,识别结果较好,但是它在计算整帧图像的 能完全包含运动人体,会出现兴趣区域内不包含头 光流后再对提取的光流做处理,导致计算速度较慢。 部、运动的手臂或腿部,如图2(b)~(d)中虚线矩形 以上的光流特征表示方法均利用直方图统计小区域 框所示。为了避免这种情况,在确定兴趣区域时,将 内光流在横纵方向的分量幅度作为特征,因此均忽 边界按照定宽高比例的方法进行扩展,使其包含完 略了光流的方向信息,而光流的方向信息对于区分 整的运动人体,如图2中实线矩形框内,本文方法只 相似动作是十分有益的。 对兴趣区域内部进行处理。 基于以上的分析,本文提出了一种新的光流特 征表示方法。该方法首先对单帧图像提取兴趣区域 并进行网格化处理,然后对网格内光流矢量同时在 方向和数量级上进行直方图统计,最后利用累积方 向-数量级的光流梯度直方图表示整个动作视频的 特征。该特征与其他方法最大的不同是光流矢量按 (a)图例A b)图例B 照不同的方向和数量级进行直方图统计,而不是传 统光流幅度的累加。 1 光流表示方法 通过光流计算所得到的帧间光流场,是从视频 图像得到的动作原始特征。一个光流矢量可以用四 (c)图例C (d)图例D 维向量(x,y,u,)表示,其中(x,y)代表了光流矢 图2兴趣区域图例 量在每帧图像中的位置信息,、分别表示光流矢 Fig.2 The examples of region of interest 量的横向分量和纵向分量的大小。若一帧图像的分 辨率为X×Y,则光流场中有X×Y个光流矢量。一 2.2方向-数量级的光流梯度直方图 个视频由多帧图像组成,提取的原始光流特征属于 图像预处理后,将裁剪出的兴趣区域缩放到 高维特征,计算量大,可用样本分布稀疏,不适用于 40×40像素大小,并转换为灰度图像。然后利用 动作分类识别。 Horm-Schunck光流算法(HS光流算法)计算运动光 本文所提出的累积方向-数量级的光流梯度直 流,得出四维平面坐标的向量(x,y,u,),将其转换 方图是对单帧光流矢量同时在方向和数量级上进行 为极坐标(x,y,r,9),r为点(x,y)上光流的大小, 投票,然后在时间维上进行累积得到。其具体实现 0为该点的光流方向。经计算得出,光流方向的范 如图1所示,由以下4个步骤组成:1)图像预处理得 围是[0°,360°],单帧图像光流的大小范围基本在 到兴趣区域:2)计算运动估计(光流计算),平面坐 [0,3]之间。将光流方向分成K个方向柱,以360/ 标(u,v)转化成极坐标(r,),r、0分别为点(x,y) K为间隔,光流大小分成M个数量级。计算单帧图 的光流大小和方向:3)对所计算的光流数据进行处 像的方向-数量级光流梯度直方图时,根据每个像 理得到单帧图像的方向-数量级的光流梯度直方图 素点上光流的方向和大小投票到相应的方向柱数量 特征向量:4)沿着时间轴进行特征累积,归一化处理得 级上。 到累积方向-数量级的光流梯度直方图特征向量。 将光流方向分成8个方向柱,分别为[0°,45°] [45°,90]、[90°,135]、[135°,180]、[180°, 图像预处理 计算光流 数据处理 225°]、[225°,270]、[270°,315]、[315°,360°], 视频序列 特征描述子 特征累积 光流大小分成4个数量级[0,0.5]、(0.5,1.5] 图1特征处理过程 (1.5,2]、(2,+0)。当极坐标为(0.3,30),则投给第 Fig.1 Feature extraction process 1个方向柱的第1个数量级一票。为了避免出现零 的情况,将每个方向柱的数量级上的值初始化为1
下的应用[7⁃8] 。 文献[7] 提出了基于网格的光流表 示方法,将兴趣区域按照人体比例大致划分为头颈、 上半身、腿三部分,然后在每个部分利用径向直方图 统计光流特征在横纵方向的光流幅度。 此方法识别 结果不够理想,用 Harris 角点检测运动人体,计算量 大、计算速度慢。 文献[8]将兴趣区域划分为均分 的小区域,在每个子区域内仍然利用径向直方图统 计横纵方向的光流幅度。 该方法不需要对人体部分 进行划分,识别结果较好,但是它在计算整帧图像的 光流后再对提取的光流做处理,导致计算速度较慢。 以上的光流特征表示方法均利用直方图统计小区域 内光流在横纵方向的分量幅度作为特征,因此均忽 略了光流的方向信息,而光流的方向信息对于区分 相似动作是十分有益的。 基于以上的分析,本文提出了一种新的光流特 征表示方法。 该方法首先对单帧图像提取兴趣区域 并进行网格化处理,然后对网格内光流矢量同时在 方向和数量级上进行直方图统计,最后利用累积方 向-数量级的光流梯度直方图表示整个动作视频的 特征。 该特征与其他方法最大的不同是光流矢量按 照不同的方向和数量级进行直方图统计,而不是传 统光流幅度的累加。 1 光流表示方法 通过光流计算所得到的帧间光流场,是从视频 图像得到的动作原始特征。 一个光流矢量可以用四 维向量 (x,y,u,v) 表示,其中 (x,y) 代表了光流矢 量在每帧图像中的位置信息, u、v 分别表示光流矢 量的横向分量和纵向分量的大小。 若一帧图像的分 辨率为 X × Y ,则光流场中有 X × Y 个光流矢量。 一 个视频由多帧图像组成,提取的原始光流特征属于 高维特征,计算量大,可用样本分布稀疏,不适用于 动作分类识别。 本文所提出的累积方向-数量级的光流梯度直 方图是对单帧光流矢量同时在方向和数量级上进行 投票,然后在时间维上进行累积得到。 其具体实现 如图 1 所示,由以下 4 个步骤组成:1)图像预处理得 到兴趣区域;2)计算运动估计(光流计算),平面坐 标 (u,v) 转化成极坐标 (r,θ) ,r、θ 分别为点 (x,y) 的光流大小和方向;3)对所计算的光流数据进行处 理得到单帧图像的方向-数量级的光流梯度直方图 特征向量;4)沿着时间轴进行特征累积,归一化处理得 到累积方向-数量级的光流梯度直方图特征向量。 图 1 特征处理过程 Fig.1 Feature extraction process 2 累积方向-数量级光流直方图 2.1 图像预处理 提取图像中的兴趣区域是为了减少计算量。 通 常利用背景减除法确定出运动的大致区域,再利用 中值滤波得到人体剪影,根据人体剪影信息确定兴 趣区域,如图 2 中 4 张图像的虚线矩形框内所示。 根据背景减除法得到粗略的兴趣区域,有时不 能完全包含运动人体,会出现兴趣区域内不包含头 部、运动的手臂或腿部,如图 2(b) ~ (d)中虚线矩形 框所示。 为了避免这种情况,在确定兴趣区域时,将 边界按照定宽高比例的方法进行扩展,使其包含完 整的运动人体,如图 2 中实线矩形框内,本文方法只 对兴趣区域内部进行处理。 图 2 兴趣区域图例 Fig.2 The examples of region of interest 2.2 方向-数量级的光流梯度直方图 图像预处理后,将裁剪出的兴趣区域缩放到 40×40 像素大小,并转换为灰度图像。 然后利用 Horn⁃Schunck 光流算法(HS 光流算法)计算运动光 流,得出四维平面坐标的向量 (x,y,u,v), 将其转换 为极坐标 (x,y,r,θ) ,r 为点 (x,y) 上光流的大小, θ 为该点的光流方向。 经计算得出,光流方向的范 围是[0°,360°],单帧图像光流的大小范围基本在 [0,3]之间。 将光流方向分成 K 个方向柱,以 360°/ K 为间隔,光流大小分成 M 个数量级。 计算单帧图 像的方向-数量级光流梯度直方图时,根据每个像 素点上光流的方向和大小投票到相应的方向柱数量 级上。 将光流方向分成 8 个方向柱,分别为[0°,45°]、 [45°, 90°]、 [ 90°, 135°]、 [ 135°, 180°]、 [ 180°, 225°]、[ 225°,270°]、 [ 270°,315°]、 [ 315°,360°], 光流大小分成 4 个数量级 [ 0, 0. 5]、 ( 0. 5, 1. 5]、 (1.5,2]、(2,+¥)。 当极坐标为(0.3,30),则投给第 1 个方向柱的第 1 个数量级一票。 为了避免出现零 的情况,将每个方向柱的数量级上的值初始化为 1。 第 1 期 郭利,等:累积方向-数量级光流梯度直方图的人体动作识别 ·105·
·106. 智能系统学报 第9卷 为了使所提特征包含更多的细节,提高相似度 累积方向-数量级的光流梯度直方图。 较高的动作之间的识别精度,将每帧图像划分为L 个无重叠的网格,在每个网格内计算方向-数量级 的光流梯度直方图,最后把所有网格的直方图合并 在一起就构成了整帧图像的方向-数量级光流梯度 直方图。如图3所示,图3(a)为网格化的初始兴趣 区域,图3(b)为子网格的光流,图3(c)为此网格的 方向-数量级的光流梯度直方图,图3(d)为图3(a) 对应的方向-数量级的光流梯度直方图。 (a)Box (b)Wave (c)Clap b)子网格光流 (d)方向-数量级光流梯 (a网格图像(⊙光流梯度直方图度直方图 图3方向-数量级的光流梯度直方图计算过程 Fig.3 The process of accumulating orientation-magni- tude histograms of optical flow (d)Jog (e)Run (f)Walk 2.3光流梯度直方图特征提取 图4累积方向-数量级的光流梯度直方图 在获得每一帧图像方向-数量级的光流梯度直 Fig.4 The accumulated orientation-magnitude histo- 方图特征的基础上,计算累积方向-数量级的光流 grams of optical flow 梯度直方图特征向量来表示N帧连续图像序列的 3 实验结果与分析 运动特征。累积特征向量是第t帧图像的前N帧图 像特征的累积)],具体计算过程如下。 目前有很多解决统计分类问题的方法,本文主 一段人体动作视频V有T帧图像,即V= 要测试新特征的辨识能力,因此选用支持向量机 {L1,12…,1},第t帧图像的方向-数量级的光流梯 SVM作为分类器,对视频中的每一帧进行类别标 度直方图用H(L,)表示。则从I,到Ix连续N帧图像 记,然后用投票表决的方法得到子序列的类别标号。 序列的累积方向-数量级的光流梯度直方图H为 实验利用台湾大学林智仁等[开发设计的一个简 单、易于使用和快速有效的SVM模式识别与回归的 R=ΣHU,) (1) 软件包LIBSVM,在数据集上反复测试,其中的核函 1三1 每帧图像的方向-数量级的光流梯度直方图特 数采用径向基核函数。 征向量和累积方向-数量级的光流梯度直方图特征 采用公开的KTH动作识别数据库进行测试。 向量的维数相同。一个累积方向-数量级的光流梯 KTH数据库中有6种动作,分别为Box、Handcla即、 度直方图的描述子由L个空间子网格、K个光流方 Handwave、Jog、Run、Walk,每种动作由25个人在4 向柱、M个光流大小数量级组成。这样就形成了 个场景下完成,一共有2391段视频序列,背景相对 静止,除了镜头的拉近拉远,摄像机的运动相对轻 L×K×M维图像特征向量。 为避免不同动作或者不同人相同动作的特征之 微。在实验中,将KTH看作是5个视频库,每一个 场景作为一个视频库,混合4个场景作为第5个视 间的数量级差别较大,对所得到的上述特征进行如 频库,以下所有的实验结果均是将其中16个人作为 下的归一化处理。 训练数据,余下的9个人为测试数据,循环10次得 (l,k,m)←-H°(L,k,m)/G (2) 出的平均值。 Gu=∑.fL,k,m) (3) 3.1参数设置 式中:H(L,k,m)表示第l个子网格,k个方向柱 在不同的参数设置下进行测试实验。有2个主 上,m个数量级。G4表示第l个子网格,k方向柱上 要的参数影响动作识别结果:网格的数目L和累积 所有数量级上值的和。 图像帧数N。 图4表示在KTH数据库中不同动作的累积方 1)网格数目L。预处理得到的兴趣区域被分割 向-数量级的光流梯度直方图,第1行是当前帧图 为L个网格,计算每个网格的方向-数量级光流直 像,第2行是当前帧的前10帧图像进行计算得到的 方图,L的取值范围为[1,64],取值决定精细程度及
为了使所提特征包含更多的细节,提高相似度 较高的动作之间的识别精度,将每帧图像划分为 L 个无重叠的网格,在每个网格内计算方向-数量级 的光流梯度直方图,最后把所有网格的直方图合并 在一起就构成了整帧图像的方向-数量级光流梯度 直方图。 如图 3 所示,图 3(a)为网格化的初始兴趣 区域,图 3(b)为子网格的光流,图 3(c)为此网格的 方向-数量级的光流梯度直方图,图 3(d)为图 3(a) 对应的方向-数量级的光流梯度直方图。 图 3 方向-数量级的光流梯度直方图计算过程 Fig.3 The process of accumulating orientation⁃magni⁃ tude histograms of optical flow 2.3 光流梯度直方图特征提取 在获得每一帧图像方向-数量级的光流梯度直 方图特征的基础上,计算累积方向-数量级的光流 梯度直方图特征向量来表示 N 帧连续图像序列的 运动特征。 累积特征向量是第 t 帧图像的前 N 帧图 像特征的累积[9] ,具体计算过程如下。 一段人 体 动 作 视 频 V 有 T 帧 图 像, 即 V = I1 ,I2…,IT { } ,第 t 帧图像的方向-数量级的光流梯 度直方图用 H It ( ) 表示。 则从I1 到 IN 连续 N 帧图像 序列的累积方向-数量级的光流梯度直方图 H a N 为 H a N = ∑ N t = 1 H It ( ) (1) 每帧图像的方向-数量级的光流梯度直方图特 征向量和累积方向-数量级的光流梯度直方图特征 向量的维数相同。 一个累积方向-数量级的光流梯 度直方图的描述子由 L 个空间子网格、K 个光流方 向柱、M 个光流大小数量级组成。 这样就形成了 L ×K × M 维图像特征向量。 为避免不同动作或者不同人相同动作的特征之 间的数量级差别较大,对所得到的上述特征进行如 下的归一化处理。 H a (l,k,m) ← H a (l,k,m) / Glk (2) Glk = ∑m H a (l,k,m) (3) 式中: H a (l,k,m) 表示第 l 个子网格,k 个方向柱 上,m 个数量级。 Glk 表示第 l 个子网格,k 方向柱上 所有数量级上值的和。 图 4 表示在 KTH 数据库中不同动作的累积方 向-数量级的光流梯度直方图,第 1 行是当前帧图 像,第 2 行是当前帧的前 10 帧图像进行计算得到的 累积方向-数量级的光流梯度直方图。 图 4 累积方向-数量级的光流梯度直方图 Fig. 4 The accumulated orientation⁃magnitude histo⁃ grams of optical flow 3 实验结果与分析 目前有很多解决统计分类问题的方法,本文主 要测试新特征的辨识能力,因此选用支持向量机 SVM 作为分类器,对视频中的每一帧进行类别标 记,然后用投票表决的方法得到子序列的类别标号。 实验利用台湾大学林智仁等[10] 开发设计的一个简 单、易于使用和快速有效的 SVM 模式识别与回归的 软件包 LIBSVM,在数据集上反复测试,其中的核函 数采用径向基核函数。 采用公开的 KTH 动作识别数据库进行测试。 KTH 数据库中有 6 种动作,分别为 Box、Handclap、 Handwave、Jog、Run、Walk,每种动作由 25 个人在 4 个场景下完成,一共有 2 391 段视频序列,背景相对 静止,除了镜头的拉近拉远,摄像机的运动相对轻 微。 在实验中,将 KTH 看作是 5 个视频库,每一个 场景作为一个视频库,混合 4 个场景作为第 5 个视 频库,以下所有的实验结果均是将其中 16 个人作为 训练数据,余下的 9 个人为测试数据,循环 10 次得 出的平均值。 3.1 参数设置 在不同的参数设置下进行测试实验。 有 2 个主 要的参数影响动作识别结果:网格的数目 L 和累积 图像帧数 N。 1)网格数目 L。 预处理得到的兴趣区域被分割 为 L 个网格,计算每个网格的方向-数量级光流直 方图,L 的取值范围为[1,64],取值决定精细程度及 ·106· 智 能 系 统 学 报 第 9 卷
第1期 郭利,等:累积方向-数量级光流梯度直方图的人体动作识别 ·107. 向量的维数,在实验时累积帧数设定为20,实验结 3.2最佳参数用于KTH数据库动作识别的结果 果如图5(a)所示,其中横坐标的1~9分别对应网 由3.1节得出最优参数,累积帧数为10,网格数 格数为1×2、2×2、2×4、2×5、4×4、4×5、5×5、4×8、5× 为4×4。在最优参数设置下,进行不同场景的人体 8。从图中可以看出,随着网格数的增加识别结果 动作识别,其结果如表1所示。 越来越好,但是到达某个峰值之后,随着网格数的增 表1不同的场景识别的结果 加识别结果反而变坏,实验在网格数为4×4时识别 Table 1 Result of different Sceneries % 率达到最高。这表明网格数过少,得到的描述子所 包含的信息量也相对少;网格数过多,每个网格对应 场景 S S2 S S 的运动区域非常小,其中包含的运动信息量相应较 少,提取的特征对识别的贡献不大。 识别结果 91.66 88.89 86.11 91.66 87.5 2)图像序列累积帧数N。视频序列的每一帧图 从表1可以看出,所提特征在KTH的数据库上 像都包含动作的运动信息,但是多少帧图像能够完 得到了较理想的识别结果,场景1下得到了91.66% 整地表达一个动作的属性,是一个非常重要的问题。 的正确识别率。在场景2和场景3识别结果相对低 由于动作数据库的各个视频的帧数不同,因此选取 一些,主要是由于场景2的拍摄过程中摄像机有轻 5~35帧作为累积帧数,分别进行动作识别的测试。 如果某个视频图像序列少于累积帧数,则选取视频 微运动或镜头拉远拉近,场景3下运动执行人的穿 序列的所有帧进行累积。将网格数设定为4×4,不 着有明显的变化,如穿上大衣、带上帽子或者背上书 同累积帧数对应的识别结果如图5(b)所示,可以看 包等使人体外观有了较大的改变。在场景2、3下进 出识别率不是随着累积帧数的增加而增大,当累积 行算法的测试具有一定的挑战性,本文方法分别得 帧数为10时识别率最高。这主要归因于人体动作 到了88.89%和86.11%的正确识别率,这样的识别结 执行过程是周期性的,累计帧数刚好对应一个人体 果是令人满意的。这也进一步证明了所提出的特征 运动周期时,得到的识别效果最好。 对于摄像机的轻微运动和人体外观的变化具有一定 0.90 的鲁棒性。 动作识别的混淆矩阵如图6所示,可以看出累 0.85 积方向-数量级的光流梯度直方图对挥手有较好的 0.80 识别结果,正确识别率达100%:对“跑”这一动作识 书 别较差,多被识别为“慢跑”,因为“跑”和“慢跑”动 0.75 作在运动过程中表现比较相近。 0.70 Box 2.0 Clap 0.65 4567 Wave 网格数类型标号 1.0 (a网格数 Jog 0.91 Run 0.5 Walk 0.89 0 Box Clap Wave Jog Run Walk 0.871 图6S12u不同动作识别的混淆矩阵 0.85 Fig.6 Confusion matrix on KTH:scenario S 0.83H 3.3与其他方法比较 本文所提出方法与近期的相关方法在KTH数 0.8 5 0 据库的识别性能比较见表2。 15 2025 30 35 帧数 从表2可以看出,新方法比文献[7,11]仅使用 )累积帧数 兴趣点特征和原始的分区域光流表示方法所得到的 图5不同累积帧数及网格数的识别结果 识别效果要好。与文献[12]得到的正确识别率相 Fig.5 The results of different frames and numbers of grids 当,但文献[12]使用了3种混合特征用于动作识
向量的维数,在实验时累积帧数设定为 20,实验结 果如图 5( a)所示,其中横坐标的 1 ~ 9 分别对应网 格数为 1×2、2×2、2×4、2×5、4×4、4×5、5×5、4×8、5× 8。 从图中可以看出,随着网格数的增加识别结果 越来越好,但是到达某个峰值之后,随着网格数的增 加识别结果反而变坏,实验在网格数为 4×4 时识别 率达到最高。 这表明网格数过少,得到的描述子所 包含的信息量也相对少;网格数过多,每个网格对应 的运动区域非常小,其中包含的运动信息量相应较 少,提取的特征对识别的贡献不大。 2)图像序列累积帧数 N。 视频序列的每一帧图 像都包含动作的运动信息,但是多少帧图像能够完 整地表达一个动作的属性,是一个非常重要的问题。 由于动作数据库的各个视频的帧数不同,因此选取 5~35 帧作为累积帧数,分别进行动作识别的测试。 如果某个视频图像序列少于累积帧数,则选取视频 序列的所有帧进行累积。 将网格数设定为 4×4,不 同累积帧数对应的识别结果如图 5(b)所示,可以看 出识别率不是随着累积帧数的增加而增大,当累积 帧数为 10 时识别率最高。 这主要归因于人体动作 执行过程是周期性的,累计帧数刚好对应一个人体 运动周期时,得到的识别效果最好。 图 5 不同累积帧数及网格数的识别结果 Fig.5 The results of different frames and numbers of grids 3.2 最佳参数用于 KTH 数据库动作识别的结果 由 3.1 节得出最优参数,累积帧数为 10,网格数 为 4×4。 在最优参数设置下,进行不同场景的人体 动作识别,其结果如表 1 所示。 表 1 不同的场景识别的结果 Table 1 Result of different Sceneries % 场景 S1 S2 S3 S4 S1234 识别结果 91.66 88.89 86.11 91.66 87.5 从表 1 可以看出,所提特征在 KTH 的数据库上 得到了较理想的识别结果,场景 1 下得到了 91.66% 的正确识别率。 在场景 2 和场景 3 识别结果相对低 一些,主要是由于场景 2 的拍摄过程中摄像机有轻 微运动或镜头拉远拉近,场景 3 下运动执行人的穿 着有明显的变化,如穿上大衣、带上帽子或者背上书 包等使人体外观有了较大的改变。 在场景 2、3 下进 行算法的测试具有一定的挑战性,本文方法分别得 到了88.89%和 86.11%的正确识别率,这样的识别结 果是令人满意的。 这也进一步证明了所提出的特征 对于摄像机的轻微运动和人体外观的变化具有一定 的鲁棒性。 动作识别的混淆矩阵如图 6 所示,可以看出累 积方向-数量级的光流梯度直方图对挥手有较好的 识别结果,正确识别率达 100%;对“跑”这一动作识 别较差,多被识别为“慢跑”,因为“跑”和“慢跑”动 作在运动过程中表现比较相近。 图 6 S1234不同动作识别的混淆矩阵 Fig.6 Confusion matrix on KTH: scenario S1234 3.3 与其他方法比较 本文所提出方法与近期的相关方法在 KTH 数 据库的识别性能比较见表 2。 从表 2 可以看出,新方法比文献[7,11]仅使用 兴趣点特征和原始的分区域光流表示方法所得到的 识别效果要好。 与文献[12] 得到的正确识别率相 当,但文献[12] 使用了 3 种混合特征用于动作识 第 1 期 郭利,等:累积方向-数量级光流梯度直方图的人体动作识别 ·107·
·108 智能系统学报 第9卷 别,其特征的复杂度远远高于本文方法。本文方法 ics-Part B:Cybernetics,2006,36(3):710-719. 的特征易于提取和表示,且具有较高的可靠性。此 [7]DANAFAR S,GHEISSARI N.Action recognition for sur- 外,利用新方法计算100帧图像特征仅需要10.35s, veillance applications using optic flow and SVM[C]//Pro- 因此该方法可以应用于实际的系统中。 ceedings of the Asian Conference on Computer Vision.To- 表2不同方法的识别结果 kyo,Japan,2007:457-466. Table 2 Results of different methods % [8]TRAN D,SOROKIN A.Human activity recognition with metric learning[C]//Proceedings of the European Confer- 方法 所用特征 识别结果 ence on Computer Vision.Marseille,France,2008:61-66. Liu的方法[ 兴趣点 82.3 [9]ZHANG Ziming,HU Yiqun,CHAN Syin,et al.Motion context:a new representation for human action recognition Danafar的方法] 分区域的光流直方图 85.0 [C]//Proceedings of the European Conference on Comput- er Vision.Marseille,France,2008:817-829. Qin的方法[a)PCRM+EOH+MOH混合特征87.3 [10]FAN Rongen,CHEN Paihsuen,LIN Chihjen.Working set 本文方法 累积光流直方图 87.5 selection using second order information for training SVM [J].Journal of Machine Learning Research,2005,6: 4 结束语 1889-1918. [11]LIU Jingen,LUO Jiebo,SHAN M.Recognizing realistic 本文提出一种新的人体动作特征描述方法,即 actions from videos"in the wild"[C]//Proceedings of the 累积方向-数量级光流直方图。该描述方法与其他 IEEE Conference on Computer Vision and Pattem Recogni- 方法最大的不同是光流矢量按照不同的方向和数量 tion.Miami,USA,2009:1996-2003. 级同时进行直方图统计,而不是传统光流幅度的累 [12]QIN Yaohui,LI Hongliang,LIU Guanghui,et al.Human 加。在KTH动作视频库上的大量测试实验证明,该 action recognition using PEM histogram C//IEEE Inter- 特征描述方法提取速度快、识别率高,具有应用于实 national Conference on Computational Problem Solving. Singapore,2010:323-325. 时系统的潜力。下一步的工作是研究如何将该人体 作者简介: 动作特征描述方法应用在实际的智能监控系统中, 郭利,女,1987年生,硕士研究生 进一步提高现有智能监控系统的性能。 主要研究方向为模式识别、图像处理。 参考文献: [1]BLANK M,GORELICK L,SHECHTMAN E,et al.Actions as space-time shapes[C]//Proceedings of the International Conference on Computer Vision.Beijing,China,2005: 1395-1402 曹江涛,男,1978年生,教授、博士, [2]GORELICK L,BLANK M,SHECHTMAN E,et al.Actions 中国自动化学会机器人专业委员会委 as space-time shapes[J].IEEE Transactions on Pattern A- 员和青工委委员,主要研究方向为智能 nalysis and Machine Intelligence,2007,29(12):2247- 方法及其在工业控制和视频信息处理 2253. 上的应用。承担国家自然科学基金等 [3]YILMAZ A,SHAH M.A differential geometric approach to 项目多项,发表学术论文40余篇,其中 representing the human actions[].Computer Vision and 被SCI检索6篇、EI检索22篇。 Image Understanding,2008,119(3):335-351. [4]LAPTEV I,LINDEBERG T.Space-time interest points 李平,男,1964年生,教授、博士生 [C]//Proceedings of the International Conference on Com- 导师,EEE高级会员,中国自动化学会 puter Vision.Nice,France,2003:432-439. 过程控制专业委员会委员,主要研究方 [5]LAPTEV I,CAPUTO B,SCHULDT C,et al.Local veloci- 向为工业过程的先进控制理论及其应 ty-adapted motion events for spatio-temporal recognition[J]. 用。承担国家“863”计划项目、国家自 Computer Vision and Image Understanding,2007,108(3): 然科学基金等项目多项,发表学术论 207-229. 文100余篇,其中被sCI,EI检索50余篇。 [6]OIKONOMOPOULOS A,PATRAS I,PANTIC M.Spatio- temporal salient points for visual recognition of human ac- tions[J].IEEE Transactions on Systems Man and Cybernet-
曹江涛,男,1978 年生,教授、博士, 中国自动化学会机器人专业委员会委 员和青工委委员,主要研究方向为智能 别,其特征的复杂度远远高于本文方法。 本文方法 的特征易于提取和表示,且具有较高的可靠性。 此 外,利用新方法计算 100 帧图像特征仅需要10.35 s, 因此该方法可以应用于实际的系统中。 表 2 不同方法的识别结果 Table 2 Results of different methods % 方 法 所用特征 识别结果 Liu 的方法[11] 兴趣点 82.3 Danafar 的方法[7] 分区域的光流直方图 85.0 Qin 的方法[12] PCRM+EOH+MOH 混合特征 87.3 本文方法 累积光流直方图 87.5 4 结束语 本文提出一种新的人体动作特征描述方法,即 累积方向-数量级光流直方图。 该描述方法与其他 方法最大的不同是光流矢量按照不同的方向和数量 级同时进行直方图统计,而不是传统光流幅度的累 加。 在 KTH 动作视频库上的大量测试实验证明,该 特征描述方法提取速度快、识别率高,具有应用于实 时系统的潜力。 下一步的工作是研究如何将该人体 动作特征描述方法应用在实际的智能监控系统中, 进一步提高现有智能监控系统的性能。 参考文献: [1]BLANK M, GORELICK L, SHECHTMAN E, et al. Actions as space⁃time shapes[C] / / Proceedings of the International Conference on Computer Vision. Beijing, China, 2005: 1395⁃1402. [2]GORELICK L, BLANK M, SHECHTMAN E, et al. Actions as space⁃time shapes[ J]. IEEE Transactions on Pattern A⁃ nalysis and Machine Intelligence, 2007, 29 ( 12): 2247⁃ 2253. [3]YILMAZ A, SHAH M. A differential geometric approach to representing the human actions[J]. Computer Vision and Image Understanding, 2008, 119(3): 335⁃351. [ 4 ] LAPTEV I, LINDEBERG T. Space⁃time interest points [C] / / Proceedings of the International Conference on Com⁃ puter Vision. Nice, France, 2003: 432⁃439. [5]LAPTEV I, CAPUTO B, SCHÜLDT C, et al. Local veloci⁃ ty⁃adapted motion events for spatio⁃temporal recognition[J]. Computer Vision and Image Understanding, 2007, 108(3): 207⁃229. [6] OIKONOMOPOULOS A, PATRAS I, PANTIC M. Spatio⁃ temporal salient points for visual recognition of human ac⁃ tions[J]. IEEE Transactions on Systems Man and Cybernet⁃ ics—Part B: Cybernetics, 2006, 36(3): 710⁃719. [7] DANAFAR S, GHEISSARI N. Action recognition for sur⁃ veillance applications using optic flow and SVM[C] / / Pro⁃ ceedings of the Asian Conference on Computer Vision. To⁃ kyo, Japan, 2007: 457⁃466. [8] TRAN D, SOROKIN A. Human activity recognition with metric learning[C] / / Proceedings of the European Confer⁃ ence on Computer Vision. Marseille, France, 2008: 61⁃66. [9] ZHANG Ziming, HU Yiqun, CHAN Syin, et al. Motion context: a new representation for human action recognition [C] / / Proceedings of the European Conference on Comput⁃ er Vision. Marseille, France, 2008: 817⁃829. [10]FAN Rongen, CHEN Paihsuen, LIN Chihjen. Working set selection using second order information for training SVM [J]. Journal of Machine Learning Research, 2005, 6: 1889⁃1918. [11] LIU Jingen, LUO Jiebo, SHAN M. Recognizing realistic actions from videos “in the wild”[C] / / Proceedings of the IEEE Conference on Computer Vision and Pattern Recogni⁃ tion. Miami, USA, 2009: 1996⁃2003. [12]QIN Yaohui, LI Hongliang, LIU Guanghui, et al. Human action recognition using PEM histogram[C] / / IEEE Inter⁃ national Conference on Computational Problem Solving. Singapore, 2010: 323⁃325. 作者简介: 郭利,女,1987 年生,硕士研究生, 主要研究方向为模式识别、图像处理。 被 SCI 检索 6 篇、EI 检索 22 篇。 108· 李平,男,1964 年生,教授、博士生 导师,IEEE 高级会员,中国自动化学会 过程控制专业委员会委员,主要研究方 向为工业过程的先进控制理论及其应 用。 承担国家“ 863” 计划项目、国家自 然科学基金等项目多项,发表学术论 文 100 余篇,其中被SCI、EI 检索 50 余篇。 · 智 能 系 统 学 报 第 9 卷 方法及其在工业控制和视频信息处理 上的应用。 承担国家自然科学基金等 项目多项,发表学术论文 40 余篇,其中