正在加载图片...
·190· 智能系统学报 第8卷 standing)PAMI(IEEE Transactions on Pattern Analy- 段得到的特征存在着很大的差异性,最直观的轮廓 sis and Machine Intelligence),IVC(Image and Vision 特征就几乎完全不同为了解决类内多样性,需要探 Computing),以及重要的国际学术会议,如ICCV 求一种抓住运动本质的鲁棒运动特征 (International Conference on Computer Vision),CVPR 2)类间相似性(inter-class similarity).它指的是 (IEEE Conference on Computer Vision and Pattern 不同的运动看上去有很大的相似性,这与类内多样 Recognition)ECCV European Conference on Com- 性是相对的一种困难情况.例如图1()中显示的2 puter Vision)等,已将基于视频信息的人体运动分析 张灰度图像,2个人好像都是在跑步,但是结合原多 研究作为其主体内容之一四.目前,在低噪声环境下 帧图像序列可以判断第1幅子图是在跑步而第2幅 获取的视频中进行运动检测和识别已经可以达到较 子图是在单腿向前跳在视频中跑和跳出现了多帧 高的识别效率,但是针对实际环境中的视频,人体运 极其类似的情况,这就给区分这2个运动带来了极 动描述和识别仍然面临很多难题, 大的模糊性并且,当分类的运动种类增多时,这种 类间相似造成的模糊性也会随之增大,进而导致识 1人体运动描述的研究难点 别率降低,这就要求继续研究高区分度的人体运动 由于人体运动识别需要将视频中包含的人体运 描述特征和模型, 动进行准确地描述和正确地分类,因此这是一项极 3)人体遮挡(body occlusion).实际场景中的人 富挑战性的研究工作.另外,当此类方法应用到实际 体经常会被场景中的其他人或物体遮挡住部分或者 视频中时,由于视频中存在的种种现象,如人体遮 全部的身体,有时还会因为视角的问题产生自遮挡 挡、视频模糊、拍摄视角变化等,所需要解决的问题 的问题这类问题严重影响了运动特征的有效提取 就变得更加复杂.为了避免研究这些复杂情形,很多 和描述过程.此时,识别算法获取的特征是不完整 研究方法都集中在对视频质量和运动发生环境严格 的,甚至会误导识别结果,降低识别率.例如图1(a) 受限的理想数据库的实验上.而且,研究者为了得到 中的交互行为“拳击”,当摄像头角度固定时,2个人 鲁棒的运动描述特征,对视频中的人体运动进行了 拳击的过程中会不停地挪动,遮挡是很常见的,一旦 前提性的假设,如假设已经实现了鲁棒的人体跟踪, 遮挡发生就会造成子特征或者整体轮廓类特征混 排除轻微的相机晃动和图像模糊以及对观察视角进 乱,对识别的进行会造成严重影响另外,当全遮挡 行了若干个简单的划分.这些都从根本上限制了方 发生的时候,根本无法完成目标定位或者运动物体 法本身在实际视频中的应用, 的定位,这是显而易见的实际难题, 为了解决这些问题,首先需要对问题本身进行 4)视角转变(view point variation).当摄像机的 分析,然后对识别过程中出现的各类难点问题进行 视角发生大的转变时,所观察到的运动在计算机看 总结 来就有可能完全不同.例如,图1(d)中的自行车运 动,侧面得到的特征和背面有很大的不同,如轮廓、 姿势等.当然,远近视角会造成尺度的变化,这也是 需要在特征选取过程中考虑的因素 (a)人体遮挡 (b)相机晃动(c)严重阴影 5)相机运动(camera motion).相机运动是造成 运动序列变化的另一种根本性因素,不合理的相机 运动设置会造成严重的运动扭曲,其中就包括相机 抖动的情况.相机在运动过程中会造成运动视角的 转变以及背景的更新,因此固定相机和移动相机所 (d)类内多样性 (e)类间相似性 拍摄的同一运动过程就会显现出不同的状态.一般 图1人体运动分析中的客观难点举例 会采用预处理的方式对相机移动造成的影响进行运 Fig.I Examples of problems in human action analysis 动补偿,但是当视频中包含快速的背景变化或者难 为了便于后面的论述,本文先给出几个术语 以进行轨迹参数化的相机运动时,预处理是完全无 1)类内多样性(intra-class variations).它指的是 效的 相同的运动存在不同的个体和视角.人体运动者处 6)动态背景(dynamic background).实际场景中 于不同的年龄阶段,会拥有不同的外表,同时运动速 经常包含同时运动的多个人和物体,因此,背景是不 度和时空变化程度都有较大的差异.例如图1(d)所 断变化的.当存在这种变化时,运动识别主要面临的 示的2个骑单车运动,它们的不同之处就在于实验 问题是会出现局部或者全身遮挡,导致目标定位和 者的着装以及拍摄视角,这就导致了在特征获取阶 识别变得复杂和困难,背景减除也变得困难,运动特standing)、PAMI(IEEE Transactions on Pattern Analy⁃ sis and Machine Intelligence)、IVC( Image and Vision Computing), 以及重要的国际学术会议, 如 ICCV (International Conference on Computer Vision)、CVPR (IEEE Conference on Computer Vision and Pattern Recognition)、 ECCV ( European Conference on Com⁃ puter Vision)等,已将基于视频信息的人体运动分析 研究作为其主体内容之一[1] .目前,在低噪声环境下 获取的视频中进行运动检测和识别已经可以达到较 高的识别效率,但是针对实际环境中的视频,人体运 动描述和识别仍然面临很多难题. 1 人体运动描述的研究难点 由于人体运动识别需要将视频中包含的人体运 动进行准确地描述和正确地分类,因此这是一项极 富挑战性的研究工作.另外,当此类方法应用到实际 视频中时,由于视频中存在的种种现象,如人体遮 挡、视频模糊、拍摄视角变化等,所需要解决的问题 就变得更加复杂.为了避免研究这些复杂情形,很多 研究方法都集中在对视频质量和运动发生环境严格 受限的理想数据库的实验上.而且,研究者为了得到 鲁棒的运动描述特征,对视频中的人体运动进行了 前提性的假设,如假设已经实现了鲁棒的人体跟踪, 排除轻微的相机晃动和图像模糊以及对观察视角进 行了若干个简单的划分.这些都从根本上限制了方 法本身在实际视频中的应用. 为了解决这些问题,首先需要对问题本身进行 分析,然后对识别过程中出现的各类难点问题进行 总结. 图 1 人体运动分析中的客观难点举例 Fig.1 Examples of problems in human action analysis 为了便于后面的论述,本文先给出几个术语. 1)类内多样性(intra⁃class variations).它指的是 相同的运动存在不同的个体和视角.人体运动者处 于不同的年龄阶段,会拥有不同的外表,同时运动速 度和时空变化程度都有较大的差异.例如图 1(d)所 示的 2 个骑单车运动,它们的不同之处就在于实验 者的着装以及拍摄视角,这就导致了在特征获取阶 段得到的特征存在着很大的差异性,最直观的轮廓 特征就几乎完全不同.为了解决类内多样性,需要探 求一种抓住运动本质的鲁棒运动特征. 2)类间相似性(inter⁃class similarity).它指的是 不同的运动看上去有很大的相似性,这与类内多样 性是相对的一种困难情况.例如图 1( e)中显示的 2 张灰度图像,2 个人好像都是在跑步,但是结合原多 帧图像序列可以判断第 1 幅子图是在跑步而第 2 幅 子图是在单腿向前跳.在视频中跑和跳出现了多帧 极其类似的情况,这就给区分这 2 个运动带来了极 大的模糊性.并且,当分类的运动种类增多时,这种 类间相似造成的模糊性也会随之增大,进而导致识 别率降低,这就要求继续研究高区分度的人体运动 描述特征和模型. 3)人体遮挡( body occlusion).实际场景中的人 体经常会被场景中的其他人或物体遮挡住部分或者 全部的身体,有时还会因为视角的问题产生自遮挡 的问题.这类问题严重影响了运动特征的有效提取 和描述过程.此时,识别算法获取的特征是不完整 的,甚至会误导识别结果,降低识别率.例如图 1(a) 中的交互行为“拳击”,当摄像头角度固定时,2 个人 拳击的过程中会不停地挪动,遮挡是很常见的,一旦 遮挡发生就会造成子特征或者整体轮廓类特征混 乱,对识别的进行会造成严重影响.另外,当全遮挡 发生的时候,根本无法完成目标定位或者运动物体 的定位,这是显而易见的实际难题. 4)视角转变( view point variation).当摄像机的 视角发生大的转变时,所观察到的运动在计算机看 来就有可能完全不同.例如,图 1( d)中的自行车运 动,侧面得到的特征和背面有很大的不同,如轮廓、 姿势等.当然,远近视角会造成尺度的变化,这也是 需要在特征选取过程中考虑的因素. 5)相机运动( camera motion).相机运动是造成 运动序列变化的另一种根本性因素,不合理的相机 运动设置会造成严重的运动扭曲,其中就包括相机 抖动的情况.相机在运动过程中会造成运动视角的 转变以及背景的更新,因此固定相机和移动相机所 拍摄的同一运动过程就会显现出不同的状态.一般 会采用预处理的方式对相机移动造成的影响进行运 动补偿,但是当视频中包含快速的背景变化或者难 以进行轨迹参数化的相机运动时,预处理是完全无 效的. 6)动态背景( dynamic background).实际场景中 经常包含同时运动的多个人和物体,因此,背景是不 断变化的.当存在这种变化时,运动识别主要面临的 问题是会出现局部或者全身遮挡,导致目标定位和 识别变得复杂和困难,背景减除也变得困难,运动特 ·190· 智 能 系 统 学 报 第 8 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有