第10卷第2期 智能系统学报 Vol.10 No.2 2015年4月 CAAI Transactions on Intelligent Systems Apr.2015 D0:10.3969/j.issn.1673-4785.201407009 网络出版地址:http://www.enki..net/kcms/detail/23.1538.TP.20150302.1106.008.html 基于语义分层的行为推理框架 聂慧饶,陶霖密 (清华大学计算机科学与技术系,北京100084) 摘要:人类行为理解是实现“人本计算”模式的基础,其本质在于获取行为的语义,即由动作特征推导人体的行为, 需要跨越两者之间的语义鸿沟:为此提出了环境上下文进行隐式建模的方法,并基于此提出了语义分层的行为推理 框架,该框架使用了从模糊语义到确定语义的渐近式推理。根据知识将特征合理地分为多个层次,系统则根据当前 状态去提取所需要的特征,推理当前可能的候选行为集:并由该候选行为集指导处理模块,更新特征集并进行新一 轮的推理,反复迭代至推理完成。应用提出的环境建模方法和渐近推理框架可以有效地实现行为理解。使用隐式环 境方法可以提高行为理解的准确率:渐近式推理框架可以避免传统推理方法无差别地提取所有特征,从而提升了推 理效率。 关键词:行为理解:特征行为关系:环境上下文:语义分层:分层推理框架 中图分类号:TP301.6文献标志码:A文章编号:1673-4785(2015)02-0178-09 中文引用格式:聂慧饶,陶霖密.基于语义分层的行为推理框架[J].智能系统学报,2015,10(2):178-186. 英文引用格式:NIE Huirao,TAO Linmi..Inference framework for activity recognition based on multiple semantic layers[J】.CAAI Transactions on Intelligent Systems,2015,10(2):178-186. Inference framework for activity recognition based on multiple semantic layers NIE Huirao,TAO Linmi (Department of Computer Science and Technology,Tsinghua University,Beijing 100084,China) Abstract:Human activity recognition is the core of the implementation of human-centered computing(HCC), whose nature is to acquire activities'semanteme.The basic problem is the semantic gap between observable actions and human activities.They should be bridged by environment context based inference.In this paper,a method is proposed to model the environment context implicitly.Further,a novel semanteme multilayered activity inference framework was presented,which divided the inferring process into 2 stages.One stage used to acquire fuzzy seman- teme and another one to acquire accurate semanteme.The feature set was divided into different subsets according to knowledge.The system extracts the corresponding features according to the current state and obtains the possible set of candidate activities that can instruct the system to update the current feature set.Update the features set and infer it,the process continues until the inference is completed.The modeling method and progressive inference frame- work proposed could handle the activity-recognition problem well.Implicitly modeling the environment context could improve the accuracy of activity recognition.The progressive framework can improve the efficiency by avoiding ex- tracting all features indistinguishably,whose validity was proven in the data set. Keywords:activity recognition;feature activity relation;environment context;semantic layer;multilayer inference framework 收稿日期:2014-07-04.网络出版日期:2015-03-02. Pantic等)提出了“人本计算”(human-centered 基金项目:国家“863”计划资助项目(2012AA011602):国家自然科学基 金资助项目(61272232). computing,HCC)的概念;这种模式被认为是未来的计 通信作者:聂慧饶.E-mail:sangoblin@yeah..net
第 10 卷第 2 期 智 能 系 统 学 报 Vol.10 №.2 2015 年 4 月 CAAI Transactions on Intelligent Systems Apr. 2015 DOI:10.3969 / j.issn.1673⁃4785.201407009 网络出版地址:http: / / www.cnki.net / kcms/ detail / 23.1538.TP.20150302.1106.008.html 基于语义分层的行为推理框架 聂慧饶,陶霖密 (清华大学 计算机科学与技术系,北京 100084) 摘 要:人类行为理解是实现“人本计算”模式的基础,其本质在于获取行为的语义,即由动作特征推导人体的行为, 需要跨越两者之间的语义鸿沟;为此提出了环境上下文进行隐式建模的方法,并基于此提出了语义分层的行为推理 框架,该框架使用了从模糊语义到确定语义的渐近式推理。 根据知识将特征合理地分为多个层次,系统则根据当前 状态去提取所需要的特征,推理当前可能的候选行为集;并由该候选行为集指导处理模块,更新特征集并进行新一 轮的推理,反复迭代至推理完成。 应用提出的环境建模方法和渐近推理框架可以有效地实现行为理解。 使用隐式环 境方法可以提高行为理解的准确率;渐近式推理框架可以避免传统推理方法无差别地提取所有特征,从而提升了推 理效率。 关键词:行为理解;特征行为关系;环境上下文;语义分层;分层推理框架 中图分类号: TP301.6 文献标志码:A 文章编号:1673⁃4785(2015)02⁃0178⁃09 中文引用格式:聂慧饶,陶霖密. 基于语义分层的行为推理框架[J]. 智能系统学报, 2015, 10(2): 178⁃186. 英文引用格式:NIE Huirao, TAO Linmi. Inference framework for activity recognition based on multiple semantic layers[J]. CAAI Transactions on Intelligent Systems, 2015, 10(2): 178⁃186. Inference framework for activity recognition based on multiple semantic layers NIE Huirao, TAO Linmi (Department of Computer Science and Technology, Tsinghua University, Beijing 100084, China) Abstract:Human activity recognition is the core of the implementation of human⁃centered computing ( HCC), whose nature is to acquire activities′ semanteme. The basic problem is the semantic gap between observable actions and human activities. They should be bridged by environment context based inference. In this paper, a method is proposed to model the environment context implicitly. Further, a novel semanteme multilayered activity inference framework was presented, which divided the inferring process into 2 stages. One stage used to acquire fuzzy seman⁃ teme and another one to acquire accurate semanteme. The feature set was divided into different subsets according to knowledge. The system extracts the corresponding features according to the current state and obtains the possible set of candidate activities that can instruct the system to update the current feature set. Update the features set and infer it, the process continues until the inference is completed. The modeling method and progressive inference frame⁃ work proposed could handle the activity⁃recognition problem well. Implicitly modeling the environment context could improve the accuracy of activity recognition. The progressive framework can improve the efficiency by avoiding ex⁃ tracting all features indistinguishably, whose validity was proven in the data set. Keywords:activity recognition; feature activity relation; environment context; semantic layer; multilayer inference framework 收稿日期:2014⁃07⁃04. 网络出版日期:2015⁃03⁃02. 基金项目:国家“863”计划资助项目(2012AA011602);国家自然科学基 金资助项目(61272232). 通信作者:聂慧饶. E⁃mail:sangoblin@ yeah.net. Pantic 等[1] 提出了“人本计算” (human⁃centered computing,HCC)的概念;这种模式被认为是未来的计
第2期 聂慧饶,等:基于语义分层的行为推理框架 ·179· 算模式,在该模式当中,计算被隐藏在居住空间的后 方面总结了很多有效的算法和模型,如隐马尔可夫 台,而其计算结果则在日常生活当中与人交织在一 模型3】、贝叶斯网络[4]、条件随机场[5]、最近邻 起。与过去“以计算机为中心”的计算模式相比,HCC 法[16]等。 使用了更接近人类交互方式的方法,如理解人类的行 但是当前的推理方法当中均未考虑对行为的语 为和情感等,从而取代传统的键盘和鼠标输入;人类 义进行分层,并根据需要从环境当中提取特征,而是 得以从过去僵化的输入环境当中解放出来,而使用更 尽可能多地从环境当中提取特征后进行行为推理。 加贴近其天性的自然方式与计算机进行交互。 2 环境上下文模型 HCC的研究重点在于使计算设备与传感设备 进行协同工作以便主动感知场景中的用户信息,分 对行为进行推理时,若能引入人所处的环境上 析用户需求并完成相关任务[)。因此,利用计算设 下文,则可以提高推理结果的精度。不少研究者在 备和传感器协同工作以理解人类的行为是HCC的 开展他们的工作时也引入了环境上下文的概念,但 核心组成部分。针对传统行为理解系统无差别提取 是他们通常是根据本体论将环境上下文显式地建立 场景当中所有特征的弊病,本文对行为所搭载的语 在了模型当中78】,该方法的缺点是:1)模型的可 义进行分层,并相应地对场景中的特征进行了分类, 扩展性差,一旦环境有更改,需要重新建立一套模 从而提出了一个由粗至精的逐步获取行为语义的推 型:2)难以将时间上下文同时引入到模型当中。本 理框架。 文当中为了使环境上下文便于计算,未将其作为显 式的模型节点,而是将其作为隐式的观测特征用于 1 研究现状 辅助行为的推理。 行为理解是计算机视觉领域的传统问题),其 2.1特征的属性 推理方式可以大致分为基于规则的推理和基于学习 当前的相关工作大都采用了分层模型来表示行 的推理4)。基于规则是指研究者根据自己对行为 为,并将行为定义成了语义的携带者[1921]:行为通 逻辑的认识,并利用逻辑推理的方法对行为进行理 常都是为了满足用户需求而发生的一系列动作。伴 解。该方法通常包含以下步骤:1)将所有可能的需 随着行为的发生,通常可以观测到与该行为相关的 要理解的行为囊括到模型库当中,并利用逻辑形式 特征。而行为理解需要处理的问题就是根据所观测 对这些行为进行定义和描述:2)整理所获得的传感 的特征还原出用户的行为。 信息,并将其转换为逻辑术语和公式;3)根据上一 特征作为样本的表现形式,可以用于将一个样本 步当中的术语和公式,进行包括演绎、归纳和推断等 与其他样本进行区分,例如,发生吃饭行为时,手中的 的逻辑推理,以便于根据所观察的信息寻找最匹配 餐具可以作为用来表征该行为的重要特征。因此,特 的行为或者行为集(模型库的子集)[s] 征可以视作对样本的某种属性的观测。理论上,若能 基于学习的推理则又可进一步细分为无监督学 获取正确表达某个样本的完整的特征集,则可以以极 习和有监督学习。其中无监督的学习指的是从未进 高的置信度识别该样本。但是在基于视觉的处理方 行人工标注的数据当中直接建立起模型对行为进行 法当中,系统可以从视频图像中提取出大量不同的特 判别,其通用原则是根据系统当前的状态并结合对 征,如颜色直方图、SFT特征、HOG特征等,而且基于 系统的观察对系统的状态进行随时更新,模型中每 视觉特征进行分类得到的结果通常具有不确定性。 个动作可能发生的概率均是由人工进行赋予的;无 因此,当样本集的规模变得很大时,即面临着组合爆 监督学习的过程通常有:1)采集原始传感数据(未 炸的问题,特征的规模会增长得比样本更快,很难一 被标注)[8]:2)处理未标注的数据并将其转换成相 次性将视频中所有的特征悉数提取出来。 应特征;3)采用聚类等手段建立起判别模型[91o】」 在本文当中,根据特征是否被行为集中的所有 与无监督的学习相比,有监督的学习必须基于已经 元素共享将其分为:公有特征和私有特征,其中公有 标注的数据(通常是人工标注),而后根据数据和行 特征属于某个行为集中的所有行为,即所有行为发 为集建立起合理的推理模型,并通过标注数据训练 生时该类特征都可被观测(但是特征值不同);私有 出模型的参数。当前通过有监督的学习得到推理模 特征则是某个行为所特有,通常可以用于证明或者 型参数的方法是最为常见的,并且研究者们也在此 证伪该行为是否发生。显然公有特征集和私有特征
算模式,在该模式当中,计算被隐藏在居住空间的后 台,而其计算结果则在日常生活当中与人交织在一 起。 与过去“以计算机为中心”的计算模式相比,HCC 使用了更接近人类交互方式的方法,如理解人类的行 为和情感等,从而取代传统的键盘和鼠标输入;人类 得以从过去僵化的输入环境当中解放出来,而使用更 加贴近其天性的自然方式与计算机进行交互。 HCC 的研究重点在于使计算设备与传感设备 进行协同工作以便主动感知场景中的用户信息,分 析用户需求并完成相关任务[2] 。 因此,利用计算设 备和传感器协同工作以理解人类的行为是 HCC 的 核心组成部分。 针对传统行为理解系统无差别提取 场景当中所有特征的弊病,本文对行为所搭载的语 义进行分层,并相应地对场景中的特征进行了分类, 从而提出了一个由粗至精的逐步获取行为语义的推 理框架。 1 研究现状 行为理解是计算机视觉领域的传统问题[3] ,其 推理方式可以大致分为基于规则的推理和基于学习 的推理[ 4 ] 。 基于规则是指研究者根据自己对行为 逻辑的认识,并利用逻辑推理的方法对行为进行理 解。 该方法通常包含以下步骤:1)将所有可能的需 要理解的行为囊括到模型库当中,并利用逻辑形式 对这些行为进行定义和描述;2)整理所获得的传感 信息,并将其转换为逻辑术语和公式;3) 根据上一 步当中的术语和公式,进行包括演绎、归纳和推断等 的逻辑推理,以便于根据所观察的信息寻找最匹配 的行为或者行为集(模型库的子集) [ 5⁃7 ] 。 基于学习的推理则又可进一步细分为无监督学 习和有监督学习。 其中无监督的学习指的是从未进 行人工标注的数据当中直接建立起模型对行为进行 判别,其通用原则是根据系统当前的状态并结合对 系统的观察对系统的状态进行随时更新,模型中每 个动作可能发生的概率均是由人工进行赋予的;无 监督学习的过程通常有:1)采集原始传感数据(未 被标注) [ 8 ] ;2)处理未标注的数据并将其转换成相 应特征;3) 采用聚类等手段建立起判别模型[9⁃10 ] 。 与无监督的学习相比,有监督的学习必须基于已经 标注的数据(通常是人工标注),而后根据数据和行 为集建立起合理的推理模型,并通过标注数据训练 出模型的参数。 当前通过有监督的学习得到推理模 型参数的方法是最为常见的,并且研究者们也在此 方面总结了很多有效的算法和模型,如隐马尔可夫 模型[11⁃13 ] 、贝叶斯网络[ 14 ] 、条件随机场[15 ] 、最近邻 法[16 ]等。 但是当前的推理方法当中均未考虑对行为的语 义进行分层,并根据需要从环境当中提取特征,而是 尽可能多地从环境当中提取特征后进行行为推理。 2 环境上下文模型 对行为进行推理时,若能引入人所处的环境上 下文,则可以提高推理结果的精度。 不少研究者在 开展他们的工作时也引入了环境上下文的概念,但 是他们通常是根据本体论将环境上下文显式地建立 在了模型当中[17⁃18 ] ,该方法的缺点是:1) 模型的可 扩展性差,一旦环境有更改,需要重新建立一套模 型;2)难以将时间上下文同时引入到模型当中。 本 文当中为了使环境上下文便于计算,未将其作为显 式的模型节点,而是将其作为隐式的观测特征用于 辅助行为的推理。 2.1 特征的属性 当前的相关工作大都采用了分层模型来表示行 为,并将行为定义成了语义的携带者[19⁃21 ] ;行为通 常都是为了满足用户需求而发生的一系列动作。 伴 随着行为的发生,通常可以观测到与该行为相关的 特征。 而行为理解需要处理的问题就是根据所观测 的特征还原出用户的行为。 特征作为样本的表现形式,可以用于将一个样本 与其他样本进行区分,例如,发生吃饭行为时,手中的 餐具可以作为用来表征该行为的重要特征。 因此,特 征可以视作对样本的某种属性的观测。 理论上,若能 获取正确表达某个样本的完整的特征集,则可以以极 高的置信度识别该样本。 但是在基于视觉的处理方 法当中,系统可以从视频图像中提取出大量不同的特 征,如颜色直方图、SIFT 特征、HOG 特征等,而且基于 视觉特征进行分类得到的结果通常具有不确定性。 因此,当样本集的规模变得很大时,即面临着组合爆 炸的问题,特征的规模会增长得比样本更快,很难一 次性将视频中所有的特征悉数提取出来。 在本文当中,根据特征是否被行为集中的所有 元素共享将其分为:公有特征和私有特征,其中公有 特征属于某个行为集中的所有行为,即所有行为发 生时该类特征都可被观测(但是特征值不同);私有 特征则是某个行为所特有,通常可以用于证明或者 证伪该行为是否发生。 显然公有特征集和私有特征 第 2 期 聂慧饶,等:基于语义分层的行为推理框架 ·179·
·180 智能系统学报 第10卷 集的选取依赖于特定的应用场景,并且可以根据应 3分层的语义推理及实现 用需要对行为集进行多层次的分层,从而实现推理 层次更加丰富的推理过程。 3.1分层的语义推理 2.2可计算的环境上下文 前文当中根据特征是否被行为集中的所有元素 显然所有的行为发生都伴随着环境上下文,因 所共享将其分成了公有特征和私有特征2类。行为 此环境上下文应该属于公有特征。环境上下文是一 是具确定语义的,但是在观测到属于某个行为的所 个很抽象的概念,为了能将其予以形式化的表达,需 有特征前,尤其若其私有特征尚未被观测,则该行为 要考虑用户在室内的交互方式以及交互对象:通常 的确定语义将无法被推断,其所携带的语义将变得 用户在室内的交互对象主要是各色家电以及家具, 模糊不清,从而该行为的确定语义将退化成为模糊 而用户的交互方式又由他当前的交互对象所决定, 语义。图2中所示,用户分别发生了2个行为,即喝 例如,用户处在卧室当中,则其可能在与床进行交 水和喝饮料:这2个行为的公有特征即为手中持有 互,交互方式则是用户躺在床上。而这些家具或者 物品,且在手部在向面部运动,而喝水的私有特征则 家电与特定行为的发生具有很强的关联,比如餐桌 是手中物品为水杯,喝饮料的私有特征为手中物品 附近吃饭发生的概率很高:于是可以将它们的中心 为饮料。显然这2个行为的公有特征是几乎一致 作为某些行为发生的概率中心,而随着人体逐渐的 的,区分它们的关键因素在于这2个行为不同的私 远离该行为发生的概率会逐渐衰减。 有特征:但是公有特征的观测可以排除用户发生看 因此,可以将家具和家电等潜在交互对象的位 电视等其他行为。 置予以标定(如图1所示,图中的圆形和方形分别 图2(a)对喝水和喝饮料的私有特征进行了模糊 代表了室内的餐桌、冰箱等交互对象),并结合人体 化处理(即不再观测这2个行为的私有特征)后,喝水 的当前位置作为观测的特征:在实现时,通常使用人 和喝饮料均退化成为语义模糊不清的动作,该动作表 体位置与各个交互对象间的坐标差值(或基于差值 明人手中有物品且在向面部运动。从中可以看出,行 的非线性变换)作为观测特征,而不是使用人体到 为的公有特征即表达了行为的模糊语义,而辅以相应 交互对象中心的欧氏距离,以考虑交互对象的形状 的私有特征后行为的语义才能被确定。 对于行为发生的概率衰减的影响。 (a)原图 (b)观测私有特征 图2由粗至精的推理过程 Fig.2 Inference process from fuzzy semantic logic to definite semantic logic 因此,提出了一个从模糊语义逐渐到确定语义 的推理框架,即首先根据观察到的公有特征筛选出 图1室内家具布置标定示意图 符合当前模糊语义的候选行为集合,A,然后根据A Fig.1 Calibration of the indoor layout of the furniture 中的成员做证据广播,即去观测该成员的相应私有 特征,并最终得到当前用户的行为或者行为集A
集的选取依赖于特定的应用场景,并且可以根据应 用需要对行为集进行多层次的分层,从而实现推理 层次更加丰富的推理过程。 2.2 可计算的环境上下文 显然所有的行为发生都伴随着环境上下文,因 此环境上下文应该属于公有特征。 环境上下文是一 个很抽象的概念,为了能将其予以形式化的表达,需 要考虑用户在室内的交互方式以及交互对象;通常 用户在室内的交互对象主要是各色家电以及家具, 而用户的交互方式又由他当前的交互对象所决定, 例如,用户处在卧室当中,则其可能在与床进行交 互,交互方式则是用户躺在床上。 而这些家具或者 家电与特定行为的发生具有很强的关联,比如餐桌 附近吃饭发生的概率很高;于是可以将它们的中心 作为某些行为发生的概率中心,而随着人体逐渐的 远离该行为发生的概率会逐渐衰减。 因此,可以将家具和家电等潜在交互对象的位 置予以标定(如图 1 所示,图中的圆形和方形分别 代表了室内的餐桌、冰箱等交互对象),并结合人体 的当前位置作为观测的特征;在实现时,通常使用人 体位置与各个交互对象间的坐标差值(或基于差值 的非线性变换) 作为观测特征,而不是使用人体到 交互对象中心的欧氏距离,以考虑交互对象的形状 对于行为发生的概率衰减的影响。 图 1 室内家具布置标定示意图 Fig.1 Calibration of the indoor layout of the furniture 3 分层的语义推理及实现 3.1 分层的语义推理 前文当中根据特征是否被行为集中的所有元素 所共享将其分成了公有特征和私有特征 2 类。 行为 是具确定语义的,但是在观测到属于某个行为的所 有特征前,尤其若其私有特征尚未被观测,则该行为 的确定语义将无法被推断,其所携带的语义将变得 模糊不清,从而该行为的确定语义将退化成为模糊 语义。 图 2 中所示,用户分别发生了 2 个行为,即喝 水和喝饮料;这 2 个行为的公有特征即为手中持有 物品,且在手部在向面部运动,而喝水的私有特征则 是手中物品为水杯,喝饮料的私有特征为手中物品 为饮料。 显然这 2 个行为的公有特征是几乎一致 的,区分它们的关键因素在于这 2 个行为不同的私 有特征;但是公有特征的观测可以排除用户发生看 电视等其他行为。 图 2(a)对喝水和喝饮料的私有特征进行了模糊 化处理(即不再观测这 2 个行为的私有特征)后,喝水 和喝饮料均退化成为语义模糊不清的动作,该动作表 明人手中有物品且在向面部运动。 从中可以看出,行 为的公有特征即表达了行为的模糊语义,而辅以相应 的私有特征后行为的语义才能被确定。 图 2 由粗至精的推理过程 Fig.2 Inference process from fuzzy semantic logic to definite semantic logic 因此,提出了一个从模糊语义逐渐到确定语义 的推理框架,即首先根据观察到的公有特征筛选出 符合当前模糊语义的候选行为集合c A,然后根据c A 中的成员做证据广播,即去观测该成员的相应私有 特征,并最终得到当前用户的行为或者行为集 Acurr ·180· 智 能 系 统 学 报 第 10 卷
第2期 聂慧饶,等:基于语义分层的行为推理框架 ·181- (用户可以同时发生多个行为)。事实上人的推理 到(0,1)的概率值,也便于处理同一时刻下多个不 过程也并非一次完成的,人们总是会根据当前观测 同行为的发生。 的特征对即将发生的行为作出初步的判断,而后根 愿 =oAj=1 多路视频数据 据初步判断的结果去寻找可以证明或者证伪初步判 断的新的特征。例如,甲向乙伸出手时,乙初步判断 过 确定当前公有观测特征F 程 甲想要同乙握手或者攻击乙,此时乙开始寻找额外 模 的特征,若甲的手向乙的运动而去,则甲想要同乙握 糊 P(dF) 确定新的公有观 i=1,2N) 测特征Fj+1 手,反之则是要攻击乙。 假定系统中共有N个行为需要识别,将该原始 确定新的候选集 行为集记作A={a1,a2,…,ax};系统可以获得的总 =J-1 特征数为M个,总特征集记.F={fi,f,…,f}。这 y 些特征包含了公有特征集以及私有特征集中的元 获 确定中的每个元素的专有特征 取 素,其中月={2,…,月w}G=1,2,…,Jk= 1,2,…,K)为公有特征集,含有M个元素,而J为 定 P(d F) 得到Am (i=1,2,W 推理的总次数,K为第j次推理时候选行为集合。州 义 的总个数:私有特征集针对,A中的每个元素进行定 图3分层推理流程图 义,因此可以得到N个行为的私有特征集,F:= Fig.3 Flow chart of multilayer inference {f,f2,…,}(i=1,2,…,N),对于第i个私有 进行分层次推理时,需要训练出多组逻辑回归 特征集,其含有,M个元素。则有 模型以适应不同的推理层次。令,X= (UF)U(0F)=.F [p2…xm](k∈{1,2,…,K})为第j (UF)0(UF=8 次推理时观测到的公有特征向量,即。x(i=1,2, 推理时则如前所述,第j次推理时可以先依据 …,M)对应于的观测值,第j次推理时的特征 当前的公有特征集,FPn(cur∈{1,2,…,K})从 对行为的贡献度为,W= 中得到模糊语义满足观测的候选集,, [01p02…ph4](z=1,2,…,e八-1) N=,,…心}N是的元素的个数且 其中。d:即表示第j次推理时f对a。的影响。则 (A=AA=A 第1次到第J-1次推理时用到的逻辑回归模型为 NN1j=1,2,,J P(a=a.1X)= 通常NN。在第J次推理时,遍历A1的成 exp(,W‘) 员a1(i=1,2,…,1),根据对a1的私有特 ,2=1,2,…,eN-1-1 征集,F,中的成员进行观测,可以得出Am。该过程 1+m,脱) 如图3所示。需要注意的是,该推理框架可以通过 P(a=a:I X)= 不同的推理方法予以实现,后文当中分别使用了逻 辑回归和HMM对框架进行了实现。 N-1 -,2=N- 3.2基于单帧的推理方法 1+∑exp(,职) 基于单帧的推理方法,即在推理时只使用当前 对于第j层逻辑回归模型,设定阈值 视频帧所观测的特征进行行为理解,其优点在于推 Threshold,若P(.a=a,I,X)>Threshold,则a: 理方式相对简单,计算量较小,可以快速地完成,而 会被添加至。对于第J次推理,需要判断。A-中 其缺点在于不使用时间上下文,从而对于噪声的抗 的每个成员是否属于Am,因此需要对于所有的行 性较差。基于单帧的推理方法有逻辑回归、支持向 为都训练一个二项逻辑回归模型,即根据特征判断 量机以及决策树等。本文实现时使用了逻辑回归模 该行为发生或者没有发生,对于行为a(m∈{1, 型作为实现单帧推理的方法,可以方便地得到对齐 2,…,V-1}),第J次推理时用到的特征向量X为
(用户可以同时发生多个行为)。 事实上人的推理 过程也并非一次完成的,人们总是会根据当前观测 的特征对即将发生的行为作出初步的判断,而后根 据初步判断的结果去寻找可以证明或者证伪初步判 断的新的特征。 例如,甲向乙伸出手时,乙初步判断 甲想要同乙握手或者攻击乙,此时乙开始寻找额外 的特征,若甲的手向乙的运动而去,则甲想要同乙握 手,反之则是要攻击乙。 假定系统中共有 N 个行为需要识别,将该原始 行为集记作oA = {a1 ,a2 ,…,aN };系统可以获得的总 特征数为 M 个,总特征集记oF = {f 1 ,f 2 ,…,fM }。 这 些特征包含了公有特征集以及私有特征集中的元 素,其中 pF j k = {p f j k1 ,p f j k2 ,…,p f j kpMj k }(j = 1,2,…,J;k = 1,2,…,Kj) 为公有特征集,含有pMk j个元素,而 J 为 推理的总次数,Kj为第 j 次推理时候选行为集合c A j 的总个数;私有特征集针对oA 中的每个元素进行定 义,因此可以得到 N 个行为的私有特征集, sFi = {s f i1 ,s f i2 ,…,s f i sMi }(i = 1,2,…,N) ,对于第 i 个私有 特征集,其含有sMi个元素。 则有 ∪KJ-1 i = 1 pF J-1 i { } ∪ ∪N i = 1 sFi { } =oF ∪KJ-1 i = 1 pF J-1 i { } ∩ ∪N i = 1 sFi { { } = ⌀ 推理时则如前所述,第 j 次推理时可以先依据 当前的公有特征集 pF j curr(curr ∈ {1,2,…,Kj}) 从 cA j-1 中 得 到 模 糊 语 义 满 足 观 测 的 候 选 集cA j , cA j ={ca j 1 ,ca j 2 ,…,ca j c Nj } ,cNj是cA j的元素的个数且 cA 0 =oA,cA J = Acurr cA j ⊆cA j-1 { ,j = 1,2,...,J 通常cNJ≪N。 在第 J 次推理时,遍历 cA J-1 的成 员 ca J-1 i (i = 1,2,…,cN J-1 ) ,根据对 ca J-1 i 的私有特 征集 sFi 中的成员进行观测,可以得出 Acurr。 该过程 如图 3 所示。 需要注意的是,该推理框架可以通过 不同的推理方法予以实现,后文当中分别使用了逻 辑回归和 HMM 对框架进行了实现。 3.2 基于单帧的推理方法 基于单帧的推理方法,即在推理时只使用当前 视频帧所观测的特征进行行为理解,其优点在于推 理方式相对简单,计算量较小,可以快速地完成,而 其缺点在于不使用时间上下文,从而对于噪声的抗 性较差。 基于单帧的推理方法有逻辑回归、支持向 量机以及决策树等。 本文实现时使用了逻辑回归模 型作为实现单帧推理的方法,可以方便地得到对齐 到(0,1)的概率值,也便于处理同一时刻下多个不 同行为的发生。 图 3 分层推理流程图 Fig.3 Flow chart of multilayer inference 进行分层次推理时,需要训练出多组逻辑回归 模 型 以 适 应 不 同 的 推 理 层 次。 令 pX j k = [p x j k1 p x j k2 … p xk j pMj k ](k ∈ {1,2,…,Kj}) 为第 j 次推理时观测到的公有特征向量,即 p x j ki(i = 1,2, …,pM j k) 对应于 p f j ki 的观测值,第 j 次推理时的特征 对 行 为 的 贡 献 度 为 pW j zk = [ pw j z,k1 pw j z,k2 … pw j z,k p Mj k] (z = 1,2,…,cNj-1 ) , 其中 pw j z,i 即表示第 j 次推理时 p f j ki 对 an 的影响。 则 第 1 次到第 J-1 次推理时用到的逻辑回归模型为 P(ca = az | pX j k) = exp(pW j zk·pX j k) 1 + ∑ N-1 i = 1 exp(pW j ik·pX j k) ,z = 1,2,…,cNj-1 - 1 P(ca = az | pX j k) = 1 1 + ∑ N-1 i = 1 exp(pW j ik·pX j k) ,z =cNj-1 ì î í ï ï ï ï ï ï ï ï ï ï ï ï 对 于 第 j 层 逻 辑 回 归 模 型, 设 定 阈 值 Threshold j ,若 P(ca = az | pX j k) > Threshold j ,则 az 会被添加至cA j 。 对于第 J 次推理,需要判断cA J-1中 的每个成员是否属于 Acurr,因此需要对于所有的行 为都训练一个二项逻辑回归模型,即根据特征判断 该行为发生或者没有发生,对于行为 ca J m(m ∈ {1, 2,…,cNj-1 }) ,第 J 次推理时用到的特征向量 X J m 为 第 2 期 聂慧饶,等:基于语义分层的行为推理框架 ·181·
·182· 智能系统学报 第10卷 ,与,Xn的并集,其中,X为a的私有特征对 的公有特征集,针对!中的每个行为训练出 应的观测值,故对于a有 HMM模型,同时需要针对每个行为训练出相应的 HMM模型以用于第J次推理。在进行第j次推理 P(.a=.aIx)=_ xp(W·X) 1+exp(Wm·X) 时,利用已经观测的特征向量序列,可以计算出 中的每个行为输出该序列的概率,若所得概率值超 P(.a≠.d1X)=1+ep(w·X) 过阈值,则a,会被添加至N。 此时只需要将P(a=a Ix)与Threshold 同单帧推理时一样,在第J次推理时,对于 进行对比,即可判断a是否属于Ar。需要注 a(m∈{1,2,…,cN-1})所使用的特征向量序列 为公有特征向量序列与私有特征向量序列的并集。 意的是,所有的行为的二项逻辑回归的值的和并 没有归一化,所以在选取Threshold的值时,需要 4 实验验证 根据当前计算得到的各个P(a=am1Xm)的值 予以动态设置。 4.1实验环境 实验环境的设置主要用于模拟人体在室内的日 3.3基于时间序列的推理方法 常行为场景,在该场景当中,需要识别出吃饭、看电 基于时间序列的推理方法主要有隐马尔可夫模 视、吃水果、喝饮料、看书、喝水、使用电脑等7种不 型和动态贝叶斯网等,由于隐马尔可夫模型的训练 同的行为。视频数据的采集工作由分布在屋内的4 算法和测试算法都极为成熟,本文当中采用了隐马 套AV800综合采集卡以及4个CCD摄像机完成, 尔可夫作为基于时间序列的推理方法。隐马尔可夫 模型的优势在于推理时使用了时间序列,充分地利 其中集体分辨率最高可以达到720×576,帧率可以 达到25/s。此外,采集卡的硬件压缩功能可以直 用了上下文信息,但是其训练较逻辑回归复杂,无法 利用过多的时间帧(否则会因联合概率较小而无法 接输出压缩格式的视频流。 实验环境当中配备了圆桌、电视、冰箱、书架、办 予以计算)。并且隐马尔可夫的训练数据使用了相 公桌、茶几等家具,以及水果、饮料、食品等日常生活 同标签下的帧序列,即训练时所用的同一序列的帧 用品,前方提及的摄像机布置在房间的4个角落当 对应的行为是相同的,而在实际过程中,同一个序列 下的不同帧可能会出现不同的行为。 中,分别连接至数据采集服务器当中以捕获场景当 中发生的人体行为。实验环境布置如图4所示,其 此外,当前的隐马尔可夫训练算法大都只针 对一个离散观测量或者一个连续的随机向量的 平面图如图1所示。 应用场景,而的观测值中同时存在着多个离散观 测量和连续观测量。直观的做法是将多个离散 观测量聚合成为一个单独的离散观测量,但是这 种做法会使模型的参数迅速增加,例如,若在 HMM当中选取5个隐状态,同时有10个离散观 测量,每个离散观测量对应2个不同的取值,则 观测矩阵的参数个数为5×20=5120,但是若引 入朴素贝叶斯假设,即观测量之间是相互独立 的,那么观测矩阵的总参数量则降为5×2×10= 100,实际中特征维度可能会更高,若不采用朴素 贝叶斯假设,则由于训练样本个数较少,很难得 图4不同视角下的实验环境 到对模型参数合理的估计。因此,的在训练 Fig.4 Experiment environments under different views HMM模型时对于多维离散观测值引入了朴素贝 4.2实验数据集 叶斯假设。 在该数据集当中,共需要识别吃饭、看电视、吃 使用HMM进行行为理解时,每个行为都被认 水果、喝饮料、看书、喝水、使用电脑等7种不同的行 为是一个序列。训练HMM模型时,需要利用第j层 为。该数据集共有225551帧行为图像
pX J-1 m 与 sXm 的并集,其中 sXm 为 ca J m 的私有特征对 应的观测值,故对于 ca J m 有 P(ca =ca J m | X J m ) = exp(W J m·X J m ) 1 + exp(W J m·X J m ) P(ca ≠ca J m | X J m ) = 1 1 + exp(W J m·X J m ) ì î í ï ï ï ï ïï 此时只需要将 P( ca = ca J m | X J m ) 与 Threshold j 进行对比,即可判断 ca J m 是否属于 Acurr 。 需要注 意的是,所有的行为的二项逻辑回归的值的和并 没有归一化,所以在选取 Threshold j 的值时,需要 根据当前计算得到的各个 P( ca = ca J m | X J m ) 的值 予以动态设置。 3.3 基于时间序列的推理方法 基于时间序列的推理方法主要有隐马尔可夫模 型和动态贝叶斯网等,由于隐马尔可夫模型的训练 算法和测试算法都极为成熟,本文当中采用了隐马 尔可夫作为基于时间序列的推理方法。 隐马尔可夫 模型的优势在于推理时使用了时间序列,充分地利 用了上下文信息,但是其训练较逻辑回归复杂,无法 利用过多的时间帧(否则会因联合概率较小而无法 予以计算)。 并且隐马尔可夫的训练数据使用了相 同标签下的帧序列,即训练时所用的同一序列的帧 对应的行为是相同的,而在实际过程中,同一个序列 下的不同帧可能会出现不同的行为。 此外,当前的隐马尔可夫训练算法大都只针 对一个离散观测量或者一个连续的随机向量的 应用场景,而的观测值中同时存在着多个离散观 测量和连续观测量。 直观的做法是将多个离散 观测量聚合成为一个单独的离散观测量,但是这 种做法 会 使 模 型 的 参 数 迅 速 增 加, 例 如, 若 在 HMM 当中选取 5 个隐状态,同时有 10 个离散观 测量,每个离散观测量对应 2 个不同的取值,则 观测矩阵的参数个数为 5 × 2 10 = 5120,但是若引 入朴素贝叶斯假设,即观测量之间 是 相 互 独 立 的,那么观测矩阵的总参数量则降为 5 × 2 × 10 = 100,实际中特征维度可能会更高,若不采用朴素 贝叶斯假设,则由于训练样本个数较少,很难得 到对 模 型 参 数 合 理 的 估 计。 因 此, 的 在 训 练 HMM 模型时对于多维离散观测值引入了朴素贝 叶斯假设。 使用 HMM 进行行为理解时,每个行为都被认 为是一个序列。 训练 HMM 模型时,需要利用第 j 层 的公有特征集 pF j k 针对 cA j 中的每个行为训练出 HMM 模型,同时需要针对每个行为训练出相应的 HMM 模型以用于第 J 次推理。 在进行第 j 次推理 时,利用已经观测的特征向量序列,可以计算出cA j-1 中的每个行为输出该序列的概率,若所得概率值超 过阈值,则 az会被添加至cA j 。 同单帧推理时一样, 在第 J 次推理时, 对于 ca J m(m ∈ {1,2,…,cNj-1 }) 所使用的特征向量序列 为公有特征向量序列与私有特征向量序列的并集。 4 实验验证 4.1 实验环境 实验环境的设置主要用于模拟人体在室内的日 常行为场景,在该场景当中,需要识别出吃饭、看电 视、吃水果、喝饮料、看书、喝水、使用电脑等 7 种不 同的行为。 视频数据的采集工作由分布在屋内的 4 套 AV800 综合采集卡以及 4 个 CCD 摄像机完成, 其中集体分辨率最高可以达到 720×576,帧率可以 达到 25 f / s。 此外,采集卡的硬件压缩功能可以直 接输出压缩格式的视频流。 实验环境当中配备了圆桌、电视、冰箱、书架、办 公桌、茶几等家具,以及水果、饮料、食品等日常生活 用品,前方提及的摄像机布置在房间的 4 个角落当 中,分别连接至数据采集服务器当中以捕获场景当 中发生的人体行为。 实验环境布置如图 4 所示,其 平面图如图 1 所示。 图 4 不同视角下的实验环境 Fig.4 Experiment environments under different views 4.2 实验数据集 在该数据集当中,共需要识别吃饭、看电视、吃 水果、喝饮料、看书、喝水、使用电脑等 7 种不同的行 为。 该数据集共有 225 551 帧行为图像。 ·182· 智 能 系 统 学 报 第 10 卷
第2期 聂慧饶,等:基于语义分层的行为推理框架 ·183 针对该行为集,使用了2层的推理框架对其进 度为38维,全部特征向量的维度为45维。其中在 行推理:定义公有特征集为{人体的姿势,人体的朝 未分层的推理当中引入环境上下文后,推理准确率 向,人体的位置},其中人体的姿势有2个观测值, 得到了提高,在不使用环境上下文时准确率为 分别为站着和坐着,人体的朝向被离散成8个数值, 83.4%,使用环境上下文时,准确率为85.20%。 人体的位置则由文献[22]中介绍的算法求出。针 表2中选取了部分特征在不同的推理层次当中 对不同的行为,分别定义了附着于其上的私有特征, 对于看书的影响。从中可以看出:)分层推理时不同 具体内容如表1所示。 层次时同一特征的权重并不相同,并且在第2层推理 由于本文侧重于推理方式及效率的研究,对于 时,公有特征对行为的影响变弱,这与直观感觉相符, 如何通过对视频进行图像处理以获取所需的特征并 即公有特征在判断模糊语义时可以起到很强的作用, 没有进行深入探讨,本文中除了人体位置外的其他 但是在进行确定语义的判断时则不会起到较强的作 特征均是通过人工予以标注。事实上,若今后针对 用:2)私有特征对相应行为的影响很大,这也充分证 相应特征的视觉算法成熟后可以方便地集成到本文 明了实验中对特征的分层是比较合理的。 所提出的推理框架当中。 表2特征在不同层数对看书的影响 表1不同行为的私有特征 Table 2 The influence of features on reading in different Table 1 Private features of different activities inference layers 行为 相应的私有特征 特征取值 特征 第1层对看书的权重第2层对看书的权重 吃饭 手中有餐具 {持有、不持有} 身体姿势 0.273260 0.141081 看电视 电视开着 {开着,关闭引 身体朝向 0.266318 0.115331 吃水果 手中有水果 {持有、不持有} 手触碰书 N/C 1.743567 喝饮料 手中有饮料 {持有、不持有} 表3中所示为基于逻辑回归的不同层次推理的 看书 手接触到了书 {触碰,未触碰} 实验结果。从中可以得出以下结论:1)两者的推理精 喝水 手中有水杯 {持有、不持有} 度接近,但是实用时分层的推理可以不用提取环境当 使用电脑 电脑开着 {开着,关闭} 中的所有特征,因此可以有效地节省系统效率:2)单 4.3实验结果 层推理的模型总参数量为7×45=315个,而双层推理 本文分别使用了基于逻辑回归和HMM的推理 模型总参数量为7×38+7×39=539,双层推理的总参 数虽然更多,但是单个模型的参数量却在减少,在待 方式实现。在本节当中,针对这2种实现,均对比了 识别行为集变大,且训练样本不足的情况下,可以有 未使用分层推理和使用分层推理的正确率。 效地降低过拟合的可能性:3)在公有特征和私有特征 4.3.1基于逻辑回归的实验结果 划分合理的情况下,若有新的行为加入,只需要重新 使用未分层的推理实现时,将所有的特征直接 训练公有特征与各个行为对应的权重,以及该行为的 用于训练得到特征-行为权重,此时针对7个不同 私有特征对应的权重即可,扩展代价较小。 的行为,均可以得到一组特征与行为的权重关系:此 表3不同层数的推理比较 7组特征-行为权重可以用逻辑回归训练出的1个 Table 3 The comparison of inference with different layers 模型予以表示。而分层推理实现,则是先针对所有 推理层数准确率/% 模型数量 参数数量 的行为使用公有特征训练得到特征-行为权重,其 1 85.20 315 后针对每个行为,结合公有特征及私有特征,训练出 2 85.61 8 539 相应的特征-行为权重,即分层推理实现时,最终得 4.3.2基于HMM实验结果 到1个描述公有特征与行为关系的模型以及7个描 在HMM实现当中,对人体位置和家具位置 述私有特征和行为的模型。 进行离散化处理,以使其符合观测模型。未分层 使用环境上下文特征时,本文使用了三阶多项 的HMM推理即在观测时使用全部的特征值进行 式来拟合行为概率同人体与家具相对位置的关系: 观测序列的似然值计算,而分层的推理则首先使 由于研究的行为共涉及到6个不同的家具,故环境 用公有特征对观测序列进行似然值计算,对于过 上下文总共包含36维的数据,故公有特征向量总维 阈值的行为种类再结合其私有特征进行新一轮
针对该行为集,使用了 2 层的推理框架对其进 行推理;定义公有特征集为{人体的姿势,人体的朝 向,人体的位置},其中人体的姿势有 2 个观测值, 分别为站着和坐着,人体的朝向被离散成 8 个数值, 人体的位置则由文献[22] 中介绍的算法求出。 针 对不同的行为,分别定义了附着于其上的私有特征, 具体内容如表 1 所示。 由于本文侧重于推理方式及效率的研究,对于 如何通过对视频进行图像处理以获取所需的特征并 没有进行深入探讨,本文中除了人体位置外的其他 特征均是通过人工予以标注。 事实上,若今后针对 相应特征的视觉算法成熟后可以方便地集成到本文 所提出的推理框架当中。 表 1 不同行为的私有特征 Table 1 Private features of different activities 行为 相应的私有特征 特征取值 吃饭 手中有餐具 {持有、不持有} 看电视 电视开着 {开着, 关闭} 吃水果 手中有水果 {持有、不持有} 喝饮料 手中有饮料 {持有、不持有} 看书 手接触到了书 {触碰,未触碰} 喝水 手中有水杯 {持有、不持有} 使用电脑 电脑开着 {开着,关闭} 4.3 实验结果 本文分别使用了基于逻辑回归和 HMM 的推理 方式实现。 在本节当中,针对这 2 种实现,均对比了 未使用分层推理和使用分层推理的正确率。 4.3.1 基于逻辑回归的实验结果 使用未分层的推理实现时,将所有的特征直接 用于训练得到特征-行为权重,此时针对 7 个不同 的行为,均可以得到一组特征与行为的权重关系;此 7 组特征-行为权重可以用逻辑回归训练出的 1 个 模型予以表示。 而分层推理实现,则是先针对所有 的行为使用公有特征训练得到特征-行为权重,其 后针对每个行为,结合公有特征及私有特征,训练出 相应的特征-行为权重,即分层推理实现时,最终得 到 1 个描述公有特征与行为关系的模型以及 7 个描 述私有特征和行为的模型。 使用环境上下文特征时,本文使用了三阶多项 式来拟合行为概率同人体与家具相对位置的关系; 由于研究的行为共涉及到 6 个不同的家具,故环境 上下文总共包含 36 维的数据,故公有特征向量总维 度为 38 维,全部特征向量的维度为 45 维。 其中在 未分层的推理当中引入环境上下文后,推理准确率 得到了 提 高, 在 不 使 用 环 境 上 下 文 时 准 确 率 为 83.4%,使用环境上下文时,准确率为 85.20%。 表 2 中选取了部分特征在不同的推理层次当中 对于看书的影响。 从中可以看出:1)分层推理时不同 层次时同一特征的权重并不相同,并且在第 2 层推理 时,公有特征对行为的影响变弱,这与直观感觉相符, 即公有特征在判断模糊语义时可以起到很强的作用, 但是在进行确定语义的判断时则不会起到较强的作 用;2)私有特征对相应行为的影响很大,这也充分证 明了实验中对特征的分层是比较合理的。 表 2 特征在不同层数对看书的影响 Table 2 The influence of features on reading in different inference layers 特征 第 1 层对看书的权重 第 2 层对看书的权重 身体姿势 0.273 260 0.141 081 身体朝向 0.266 318 0.115 331 手触碰书 N/ C 1.743 567 表 3 中所示为基于逻辑回归的不同层次推理的 实验结果。 从中可以得出以下结论:1)两者的推理精 度接近,但是实用时分层的推理可以不用提取环境当 中的所有特征,因此可以有效地节省系统效率;2)单 层推理的模型总参数量为 7×45 = 315 个,而双层推理 模型总参数量为 7×38+7×39 = 539,双层推理的总参 数虽然更多,但是单个模型的参数量却在减少,在待 识别行为集变大,且训练样本不足的情况下,可以有 效地降低过拟合的可能性;3)在公有特征和私有特征 划分合理的情况下,若有新的行为加入,只需要重新 训练公有特征与各个行为对应的权重,以及该行为的 私有特征对应的权重即可,扩展代价较小。 表 3 不同层数的推理比较 Table 3 The comparison of inference with different layers 推理层数 准确率/ % 模型数量 参数数量 1 85.20 1 315 2 85.61 8 539 4.3.2 基于 HMM 实验结果 在 HMM 实现当中,对人体位置和家具位置 进行离散化处理,以使其符合观测模型。 未分层 的 HMM 推理即在观测时使用全部的特征值进行 观测序列的似然值计算,而分层的推理则首先使 用公有特征对观测序列进行似然值计算,对于过 阈值的行为种类再结合其私有特征进行新一轮 第 2 期 聂慧饶,等:基于语义分层的行为推理框架 ·183·
184 智能系统学报 第10卷 的似然值计算,得到最终结果。识别当中,其隐 从图5中可以看出在序列帧数选择较少时,节 结点可能具有语义特征,但若是应用在视觉领 点数目对识别结果几乎没有影响,而且整体识别准 域,则是极有可能代表一些未知的中间状态,只 确率相对较低,这是因为可以使用的历史信息不够 有最后的分类结果才是有语义的]。因此,在 充分。而在序列帧数较多时,隐结点数目取为帧数 实验当中针对不同的序列长度均在不同的HMM 的一半左右为宜。对于帧数为20的序列,2层推理 当中需要注意的主要有2个参数:所取的观测帧 和1层推理的实验结果如图6所示。而隐结点数目 数和隐结点数目。HMM若是应用在语音隐结点 数目下进行实验,实验中分别选取了5帧、10帧、 为8的条件下(该条件下准确率相对较高)的实验 15帧以及20帧,实验结果如图5所示。 结果如表4所示。 100 …-吃 解100 …2层一1层 0 果 "4""号“ 欧 70 看书 喝水 6 用电脑 50 行为类别 00.51.01.52.02.53.03.54.04.5 (a)8个隐节点 隐节点数目 (a)5帧序列 100 100 一2层一1层 吃饭 00000 ·看电视 …吃水 看书 一 一用电脑 2 行为类别 40 345.6 7 89 10 (b)9个隐节点 隐节点数目 100 一2层一1层 (b)10帧序列 00 吃饭 看书 一喝水 用电脑 40 6 60 行为类别 (c)10个隐节点 100 -2层一1层 810.12 141618 隐节点数目 (c)15帧序列 100 吃饭 90 …看电视 …吃水果 50 6 喝饮料 行为类别 …看书 (d)11个隐节点 喝水 用电脑 图62层HMM和1层HMM的实验结果对比 Fig.6 The comparison of 2-layer HMM and 1-layer HMM 40 可以得到类似于单帧推理的结论,并且还应该 30 注意到对于某些行为,分层后的推理准确率会有所 02 468101214161820 隐节点数目 上升,这是因为分层推理模型当中不同层次下相同 (d)20帧序列 特征可以有不同的权重(不同层次下的HMM模型 图5不同长度序列在不同的隐结点数目下得到的 的观测概率可以不同),该行为对应的私有特征可 各个行为的准确率 以更好地发挥作用,而在未分层推理时,其对应的私 Fig.5 Inference accuracy of different sequences un- der different numbers of hidden nodes 有特征的作用可能被其他所影响
的似然值计算,得到最终结果。 识别当中,其隐 结点可能具有语义特征,但若是应 用 在 视 觉 领 域,则是极有可能代表一些未知的中间状态,只 有最后的分类结果才是有语义的[ 23 ] 。 因此,在 实验当中针对不同的序列长度均在不同的 HMM 当中需要注意的主要有 2 个参数:所取的观测帧 数和隐结点数目。 HMM 若是应用在语音隐结点 数目下进行实验,实验中分别选取了 5 帧、10 帧、 15 帧以及 20 帧,实验结果如图 5 所示。 图 5 不同长度序列在不同的隐结点数目下得到的 各个行为的准确率 Fig.5 Inference accuracy of different sequences un⁃ der different numbers of hidden nodes 从图 5 中可以看出在序列帧数选择较少时,节 点数目对识别结果几乎没有影响,而且整体识别准 确率相对较低,这是因为可以使用的历史信息不够 充分。 而在序列帧数较多时,隐结点数目取为帧数 的一半左右为宜。 对于帧数为 20 的序列,2 层推理 和 1 层推理的实验结果如图 6 所示。 而隐结点数目 为 8 的条件下(该条件下准确率相对较高) 的实验 结果如表 4 所示。 图 6 2 层 HMM 和 1 层 HMM 的实验结果对比 Fig.6 The comparison of 2⁃layer HMM and 1⁃layer HMM 可以得到类似于单帧推理的结论,并且还应该 注意到对于某些行为,分层后的推理准确率会有所 上升,这是因为分层推理模型当中不同层次下相同 特征可以有不同的权重(不同层次下的 HMM 模型 的观测概率可以不同),该行为对应的私有特征可 以更好地发挥作用,而在未分层推理时,其对应的私 有特征的作用可能被其他所影响。 ·184· 智 能 系 统 学 报 第 10 卷
第2期 聂慧饶,等:基于语义分层的行为推理框架 ·185. 表420帧8个隐节点下的各行为的准确率以及总体准确率 ceedings of IEEE International Conference on Computer Vi- Table 4 Inference accuracy of different activities under the sion.Sydney,2013:3583.3590. configuration of 20 frames and 8 hidden nodes [5]BOUCHARD B,GIROUX S,BOUZOUANE A.A smart 行为 2层准确率/9% 1层准确率/% home agent for plan recognition of cognitively-impaired pa- 吃饭 81.27 82.18 tients[].Journal of Computers,2006,1(5):53-62. 看电视 [6]CHEN L,NUGENT C D,MULVENNA M,et al.A logical 62.48 62.66 framework for behavior reasoning and assistance in a smart 吃水果 66.54 67.82 home[J].International Journal of Assistive Robotics and 喝饮料 84.70 90.99 Mechatronics,2008,9(4):20-34. 看书 64.64 67.22 [7]THOMSON G,TERZIS S,NIXON P.Situation determina- 喝水 66.54 68.41 tion with reusable situation specifications[C]//Proceedings 使用电脑 74.32 76.06 of IEEE International Conference on Pervasive Computing 总体 74.32 76.06 and Communications Workshops.Pisa,Italy,2006:620- 623. 5 结束语 [8]ISHIMARU S,UEMA Y,KUNZE K,et al.Smarter eye- 本文将环境上下文作为公有特征用于行为理 wear:using commercial EOG glasses for activity recognition 解,从而实现了环境上下文的可计算性,并可以对环 [C]//Proceedings of ACM International Joint Conference 境信息进行更加精确的描述。此外,本文将行为推 on Pervasive and Ubiquitous Computing:Adjunct Publica- 理的过程分为了获取模糊语义和确定语义2个阶 tiom.[.1],2014:239-242. 段:系统在推理过程中,根据当前观测的公有特征进 [9]HUNH T,SCHIELE B.Unsupervised discovery of structure 行判断,筛选出模糊语义满足条件的候选行为集:如 in activity data using multiple eigenspaces[C]//Proceed- ings of Second International Workshop on Location-and Con- 此迭代,直到依据候选行为集中的行为,观测其私有 text-Awareness.Dublin,Ireland,2006:151-167. 特征,并做出最为精确的判断并确定当前的语义。 [10]LIAO L,FOX D,KAUTZ H.Extracting places and activi- 该框架避免了传统算法未对语义分层而提取环境中 ties from GPS traces using hierarchical conditional random 所有特征的弊病,可以有效地提升系统性能,已经在 fields[J].The International Journal of Robotics Research, 基于真实场景的数据集中得到了初步验证。 2007,26(1):119-134. [11]WARD J A,LUKOWICZ P,TROSTER G,et al.Activity 参考文献: recognition of assembly tasks using body-worn microphones [1]PANTIC M,PENTLAND A,NIJHOLT A,et al.Human and accelerometers[J].IEEE Transactions on Pattern A- computing and machine understanding of human behavior:a nalysis and Machine Intelligence,2006,28(10):1553- survey[C]//Proceedings of ACM International Conference 1567. on Multimodal Interfaces.Banff,Canada,2006:260-266. [12]LIU C D,CHUNG Y N,CHUNG P C.An interaction-em- [2]石为人,周彬,许磊.普适计算:人本计算[J].计算机 bedded HMM framework for human behavior understand- 应用,2005,25(7):1479-1484. ing:with nursing environments as examples [J].IEEE SHI Weiren,ZHOU Bin,XU Lei.Pervasive computing: Transactions on Information Technology in Biomedicine, human-centered computing [J].Computer Applications, 2010,14(5):1236-1246. 2005,25(7):1479-1484. [13]SINGLA G,COOK D J,SCHMITTER-EDGECOMBE M. [3]陶霖密,杨卓宁,王国建.行为理解的认知方法[J].中 Recognizing independent and joint activities among multi- 国图象图形学报,2014,19(2):167-174. ple residents in smart environments[J].Journal of Ambi- TAO Linmi,YANG Zhuoning,WANG Guojian.Cognitive ent Intelligence and Humanized Computing,2010,1(1): reasoning method for behavior understanding[J].Computer 57-63 Applications,2014,19(2):167-174. [14]WANG S,PENTNEY W,POPESCU A M,et al.Common [4]SHARIAT S,PAVLOVIC V.A new adaptive segmental sense based joint training of human activity recognizers matching measure for human activity recognition[C]//Pro- C]//Proceedings of IJCAl.Hyderabad,India,2007:
表 4 20 帧 8 个隐节点下的各行为的准确率以及总体准确率 Table 4 Inference accuracy of different activities under the configuration of 20 frames and 8 hidden nodes 行为 2 层准确率/ % 1 层准确率/ % 吃饭 81.27 82.18 看电视 62.48 62.66 吃水果 66.54 67.82 喝饮料 84.70 90.99 看书 64.64 67.22 喝水 66.54 68.41 使用电脑 74.32 76.06 总体 74.32 76.06 5 结束语 本文将环境上下文作为公有特征用于行为理 解,从而实现了环境上下文的可计算性,并可以对环 境信息进行更加精确的描述。 此外,本文将行为推 理的过程分为了获取模糊语义和确定语义 2 个阶 段;系统在推理过程中,根据当前观测的公有特征进 行判断,筛选出模糊语义满足条件的候选行为集;如 此迭代,直到依据候选行为集中的行为,观测其私有 特征,并做出最为精确的判断并确定当前的语义。 该框架避免了传统算法未对语义分层而提取环境中 所有特征的弊病,可以有效地提升系统性能,已经在 基于真实场景的数据集中得到了初步验证。 参考文献: [ 1] PANTIC M, PENTLAND A, NIJHOLT A, et al. Human computing and machine understanding of human behavior: a survey[C] / / Proceedings of ACM International Conference on Multimodal Interfaces. Banff, Canada, 2006: 260⁃266. [2]石为人, 周彬, 许磊. 普适计算: 人本计算[ J]. 计算机 应用, 2005, 25(7) : 1479⁃1484. SHI Weiren, ZHOU Bin, XU Lei. Pervasive computing: human⁃centered computing [ J ]. Computer Applications, 2005, 25(7) : 1479⁃1484. [3]陶霖密, 杨卓宁, 王国建. 行为理解的认知方法[ J]. 中 国图象图形学报, 2014, 19(2) : 167⁃174. TAO Linmi, YANG Zhuoning, WANG Guojian. Cognitive reasoning method for behavior understanding[ J]. Computer Applications, 2014, 19(2) : 167⁃174. [4] SHARIAT S, PAVLOVIC V. A new adaptive segmental matching measure for human activity recognition[C] / / Pro⁃ ceedings of IEEE International Conference on Computer Vi⁃ sion. Sydney, 2013: 3583⁃3590. [5] BOUCHARD B, GIROUX S, BOUZOUANE A. A smart home agent for plan recognition of cognitively⁃impaired pa⁃ tients[J]. Journal of Computers, 2006, 1(5) : 53⁃62. [6]CHEN L, NUGENT C D, MULVENNA M, et al. A logical framework for behavior reasoning and assistance in a smart home[ J]. International Journal of Assistive Robotics and Mechatronics, 2008, 9(4) : 20⁃34. [7]THOMSON G, TERZIS S, NIXON P. Situation determina⁃ tion with reusable situation specifications[C] / / Proceedings of IEEE International Conference on Pervasive Computing and Communications Workshops. Pisa, Italy, 2006: 620⁃ 623. [8]ISHIMARU S, UEMA Y, KUNZE K, et al. Smarter eye⁃ wear: using commercial EOG glasses for activity recognition [C] / / Proceedings of ACM International Joint Conference on Pervasive and Ubiquitous Computing: Adjunct Publica⁃ tion. [S.l.], 2014: 239⁃242. [9]HUNH T, SCHIELE B. Unsupervised discovery of structure in activity data using multiple eigenspaces [ C] / / Proceed⁃ ings of Second International Workshop on Location⁃and Con⁃ text⁃Awareness. Dublin, Ireland, 2006: 151⁃167. [10]LIAO L, FOX D, KAUTZ H. Extracting places and activi⁃ ties from GPS traces using hierarchical conditional random fields[J]. The International Journal of Robotics Research, 2007, 26(1) : 119⁃134. [11]WARD J A, LUKOWICZ P, TROSTER G, et al. Activity recognition of assembly tasks using body⁃worn microphones and accelerometers[ J]. IEEE Transactions on Pattern A⁃ nalysis and Machine Intelligence, 2006, 28(10) : 1553⁃ 1567. [12]LIU C D, CHUNG Y N, CHUNG P C. An interaction⁃em⁃ bedded HMM framework for human behavior understand⁃ ing: with nursing environments as examples [ J]. IEEE Transactions on Information Technology in Biomedicine, 2010, 14(5) : 1236⁃1246. [13] SINGLA G, COOK D J, SCHMITTER⁃EDGECOMBE M. Recognizing independent and joint activities among multi⁃ ple residents in smart environments[ J]. Journal of Ambi⁃ ent Intelligence and Humanized Computing, 2010, 1(1) : 57⁃63. [14]WANG S, PENTNEY W, POPESCU A M, et al. Common sense based joint training of human activity recognizers [C] / / Proceedings of IJCAI. Hyderabad, India, 2007: 第 2 期 聂慧饶,等:基于语义分层的行为推理框架 ·185·
·186· 智能系统学报 第10卷 2237-2242 [21]GONZaLEZ J,VARONA J,ROCA F X,et al.aSpaces: [15]SMINCHISESCU C,KANAUJIA A,METAXAS D.Condi- Action spaces for recognition and synthesis of human ac- tional models for contextual human motion recognition[J]. tions[C]//Proceedings of Articulated Motion and Deform- Computer Vision and Image Understanding,2006,104 able Objects.Palma de Mallorca,Spain,2002:189-200. (2):210-220. [22]SUN L,DI H,TAO L,et al.A robust approach for person [16]LEE S W,MASE K.Activity and location recognition u- localization in multi-camera environment[C]//Proceedings sing wearable sensors [J].IEEE Pervasive Computing, of IEEE International Conference on Pattern Recognition. 2002,1(3):24-32. Istanbul,Turkey,2010:4036-4039. [17]WANG G,JIANG J,SHI M.A context model for collabo- [23 ]LUO Y,WU T D.HWANG J N.Object-based analysis rative environment[C]//Proceedings of IEEE International and interpretation of human motion in sports video se- Conference on Computer Supported Cooperative Work in quences by dynamic Bayesian networks[J].Computer Vi- Design.Nanjing,China,2006:1-6. sion and Image Understanding,2003,92(2):196-216. [18 LI M.Ontology-based Context information modeling for 作者简介: smart space[C]//Proceedings of IEEE International Con- 聂慧饶,男,1990年生,硕士研究生 ference on Cognitive Informatics and Cognitive Computing. 主要研究方向为模式识别,行为理解。 Banff,Canada,2011:278-283. [19]MOESLUND T B,HILTON A,KRuGER V.A survey of advances in vision-based human motion capture and analy- sis[J].Computer Vision and Image Understanding,2006, 104(2):90-126. 陶霖密,男,1962年生,副教授,主 [20]AGGARWAL J K,PARK S.Human motion:modeling and 要研究方向为人机交互、计算机视觉与 recognition of actions and interactions[C]//Proceedings of 模式识别等。承担的项目有国家重点 IEEE International Symposium on 3D Data Processing,Vi- 基金情感计算,以及与BM、INTEL,SI sualization and Transmission.Thessaloniki,Greece,2004. EMENS的国际合作基金等重要项目。 640-647. 发表论文多篇。 2015世界机器人大会 World Robot Conference 2015(WRC 2015) 为贯彻落实习总书记在2014年两院院士大会上的讲话精神,积极推动创新驱动发展战略,实现我国机器人 技术与产业的跨越发展,中国科学技术协会、工业和信息化部将于2015年11月在北京国家会议中心共同举办主 题为“协同融合发展,引领智能社会”的2015世界机器人大会。 2015世界机器人大会将由3项内容组成,分别是:2015世界机器人论坛(World Forum on Robot2015, WFR2015)、2015世界机器人博览会(World Robot Exhibition2015,WRE2015)和2015国际青少年机器人邀请赛 World Adolescent Robot Contest 2015,WARC 2015) 本次大会将为政府、科研机构、行业协会和和企业提供一个高端的交流平台,共同探讨、展示全球机器人的发 展现状与趋势,研究机器人技术创新与产业化现状以及给我国制造业发展带来的机遇和挑战等,对促进我国机器 人产业发展,推动制造业转型升级具有重要意义。 Website:http://www.cie-info.org.cn/index/tztg/201535/1425539003413_1.html
2237⁃2242. [15]SMINCHISESCU C, KANAUJIA A, METAXAS D. Condi⁃ tional models for contextual human motion recognition[ J]. Computer Vision and Image Understanding, 2006, 104 (2): 210⁃220. [16] LEE S W, MASE K. Activity and location recognition u⁃ sing wearable sensors [ J ]. IEEE Pervasive Computing, 2002, 1(3) : 24⁃32. [17]WANG G, JIANG J, SHI M. A context model for collabo⁃ rative environment[C] / / Proceedings of IEEE International Conference on Computer Supported Cooperative Work in Design. Nanjing, China, 2006: 1⁃6. [18] LI M. Ontology⁃based Context information modeling for smart space[C] / / Proceedings of IEEE International Con⁃ ference on Cognitive Informatics and Cognitive Computing. Banff, Canada, 2011: 278⁃283. [19] MOESLUND T B, HILTON A, KRüGER V. A survey of advances in vision⁃based human motion capture and analy⁃ sis[J]. Computer Vision and Image Understanding, 2006, 104(2) : 90⁃126. [20]AGGARWAL J K, PARK S. Human motion: modeling and recognition of actions and interactions[C] / / Proceedings of IEEE International Symposium on 3D Data Processing, Vi⁃ sualization and Transmission. Thessaloniki, Greece, 2004. 640⁃647. [21]GONZàLEZ J, VARONA J, ROCA F X, et al. aSpaces: Action spaces for recognition and synthesis of human ac⁃ tions[C] / / Proceedings of Articulated Motion and Deform⁃ able Objects. Palma de Mallorca, Spain, 2002: 189⁃200. [22]SUN L, DI H, TAO L, et al. A robust approach for person localization in multi⁃camera environment[C] / / Proceedings of IEEE International Conference on Pattern Recognition. Istanbul, Turkey, 2010: 4036⁃4039. [23] LUO Y, WU T D, HWANG J N. Object⁃based analysis and interpretation of human motion in sports video se⁃ quences by dynamic Bayesian networks[J]. Computer Vi⁃ sion and Image Understanding, 2003, 92(2) : 196⁃216. 作者简介: 聂慧饶,男,1990 年生,硕士研究生, 主要研究方向为模式识别、行为理解。 陶霖密,男,1962 年生,副教授,主 要研究方向为人机交互、计算机视觉与 模式识别等。 承担的项目有国家重点 基金情感计算,以及与 IBM、INTEL、SI⁃ EMENS 的国际合作基金等重要项目。 发表论文多篇。 2015 世界机器人大会 World Robot Conference 2015(WRC 2015) 为贯彻落实习总书记在 2014 年两院院士大会上的讲话精神,积极推动创新驱动发展战略,实现我国机器人 技术与产业的跨越发展,中国科学技术协会、工业和信息化部将于 2015 年 11 月在北京国家会议中心共同举办主 题为“协同融合发展,引领智能社会”的 2015 世界机器人大会。 2015 世界机器人大会将由 3 项内容组成,分别是:2015 世界机器人论坛( World Forum on Robot 2015, WFR2015)、2015 世界机器人博览会(World Robot Exhibition 2015,WRE 2015)和 2015 国际青少年机器人邀请赛 (World Adolescent Robot Contest 2015,WARC 2015)。 本次大会将为政府、科研机构、行业协会和和企业提供一个高端的交流平台,共同探讨、展示全球机器人的发 展现状与趋势,研究机器人技术创新与产业化现状以及给我国制造业发展带来的机遇和挑战等,对促进我国机器 人产业发展,推动制造业转型升级具有重要意义。 Website: http: / / www.cie-info.org.cn / index / tztg / 201535 / 1425539003413_1.html ·186· 智 能 系 统 学 报 第 10 卷