智能系统：基于语义分层的行为推理框架

团购合买资源类别：文库，文档格式：PDF，文档页数：9，文件大小：1.35MB

第10卷第2期智能系统学报 Vol.10 No.2 2015年4月 CAAI Transactions on Intelligent Systems Apr.2015 D0:10.3969/j.issn.1673-4785.201407009 网络出版地址：http://www.enki..net/kcms/detail/23.1538.TP.20150302.1106.008.html 基于语义分层的行为推理框架聂慧饶，陶霖密 (清华大学计算机科学与技术系，北京100084) 摘要：人类行为理解是实现“人本计算”模式的基础，其本质在于获取行为的语义，即由动作特征推导人体的行为，需要跨越两者之间的语义鸿沟：为此提出了环境上下文进行隐式建模的方法，并基于此提出了语义分层的行为推理框架，该框架使用了从模糊语义到确定语义的渐近式推理。根据知识将特征合理地分为多个层次，系统则根据当前状态去提取所需要的特征，推理当前可能的候选行为集：并由该候选行为集指导处理模块，更新特征集并进行新一轮的推理，反复迭代至推理完成。应用提出的环境建模方法和渐近推理框架可以有效地实现行为理解。使用隐式环境方法可以提高行为理解的准确率：渐近式推理框架可以避免传统推理方法无差别地提取所有特征，从而提升了推理效率。关键词：行为理解：特征行为关系：环境上下文：语义分层：分层推理框架中图分类号：TP301.6文献标志码：A文章编号：1673-4785(2015)02-0178-09 中文引用格式：聂慧饶，陶霖密.基于语义分层的行为推理框架[J].智能系统学报，2015,10(2)：178-186. 英文引用格式：NIE Huirao,TAO Linmi..Inference framework for activity recognition based on multiple semantic layers[J】.CAAI Transactions on Intelligent Systems,2015,10(2):178-186. Inference framework for activity recognition based on multiple semantic layers NIE Huirao,TAO Linmi (Department of Computer Science and Technology,Tsinghua University,Beijing 100084,China) Abstract:Human activity recognition is the core of the implementation of human-centered computing(HCC), whose nature is to acquire activities'semanteme.The basic problem is the semantic gap between observable actions and human activities.They should be bridged by environment context based inference.In this paper,a method is proposed to model the environment context implicitly.Further,a novel semanteme multilayered activity inference framework was presented,which divided the inferring process into 2 stages.One stage used to acquire fuzzy seman- teme and another one to acquire accurate semanteme.The feature set was divided into different subsets according to knowledge.The system extracts the corresponding features according to the current state and obtains the possible set of candidate activities that can instruct the system to update the current feature set.Update the features set and infer it,the process continues until the inference is completed.The modeling method and progressive inference frame- work proposed could handle the activity-recognition problem well.Implicitly modeling the environment context could improve the accuracy of activity recognition.The progressive framework can improve the efficiency by avoiding ex- tracting all features indistinguishably,whose validity was proven in the data set. Keywords:activity recognition;feature activity relation;environment context;semantic layer;multilayer inference framework 收稿日期：2014-07-04.网络出版日期：2015-03-02. Pantic等)提出了“人本计算”(human-centered 基金项目：国家“863”计划资助项目(2012AA011602):国家自然科学基金资助项目(61272232). computing,HCC)的概念；这种模式被认为是未来的计通信作者：聂慧饶.E-mail:sangoblin@yeah..net

第１０卷第２期智能系统学报Ｖｏｌ．１０ №．２２０１５年４月ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓＡｐｒ．２０１５ＤＯＩ：１０．３９６９／ｊ．ｉｓｓｎ．１６７３⁃４７８５．２０１４０７００９网络出版地址：ｈｔｔｐ：／／ｗｗｗ．ｃｎｋｉ．ｎｅｔ／ｋｃｍｓ／ｄｅｔａｉｌ／２３．１５３８．ＴＰ．２０１５０３０２．１１０６．００８．ｈｔｍｌ基于语义分层的行为推理框架聂慧饶，陶霖密（清华大学计算机科学与技术系，北京１０００８４）摘要：人类行为理解是实现“人本计算”模式的基础，其本质在于获取行为的语义，即由动作特征推导人体的行为，需要跨越两者之间的语义鸿沟；为此提出了环境上下文进行隐式建模的方法，并基于此提出了语义分层的行为推理框架，该框架使用了从模糊语义到确定语义的渐近式推理。根据知识将特征合理地分为多个层次，系统则根据当前状态去提取所需要的特征，推理当前可能的候选行为集；并由该候选行为集指导处理模块，更新特征集并进行新一轮的推理，反复迭代至推理完成。应用提出的环境建模方法和渐近推理框架可以有效地实现行为理解。使用隐式环境方法可以提高行为理解的准确率；渐近式推理框架可以避免传统推理方法无差别地提取所有特征，从而提升了推理效率。关键词：行为理解；特征行为关系；环境上下文；语义分层；分层推理框架中图分类号：ＴＰ３０１．６文献标志码：Ａ文章编号：１６７３⁃４７８５（２０１５）０２⁃０１７８⁃０９中文引用格式：聂慧饶，陶霖密．基于语义分层的行为推理框架［Ｊ］．智能系统学报，２０１５，１０（２）：１７８⁃１８６．英文引用格式：ＮＩＥＨｕｉｒａｏ，ＴＡＯＬｉｎｍｉ．Ｉｎｆｅｒｅｎｃｅｆｒａｍｅｗｏｒｋｆｏｒａｃｔｉｖｉｔｙｒｅｃｏｇｎｉｔｉｏｎｂａｓｅｄｏｎｍｕｌｔｉｐｌｅｓｅｍａｎｔｉｃｌａｙｅｒｓ［Ｊ］．ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓ，２０１５，１０（２）：１７８⁃１８６．ＩｎｆｅｒｅｎｃｅｆｒａｍｅｗｏｒｋｆｏｒａｃｔｉｖｉｔｙｒｅｃｏｇｎｉｔｉｏｎｂａｓｅｄｏｎｍｕｌｔｉｐｌｅｓｅｍａｎｔｉｃｌａｙｅｒｓＮＩＥＨｕｉｒａｏ，ＴＡＯＬｉｎｍｉ（ＤｅｐａｒｔｍｅｎｔｏｆＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅａｎｄＴｅｃｈｎｏｌｏｇｙ，ＴｓｉｎｇｈｕａＵｎｉｖｅｒｓｉｔｙ，Ｂｅｉｊｉｎｇ１０００８４，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：Ｈｕｍａｎａｃｔｉｖｉｔｙｒｅｃｏｇｎｉｔｉｏｎｉｓｔｈｅｃｏｒｅｏｆｔｈｅｉｍｐｌｅｍｅｎｔａｔｉｏｎｏｆｈｕｍａｎ⁃ｃｅｎｔｅｒｅｄｃｏｍｐｕｔｉｎｇ（ＨＣＣ），ｗｈｏｓｅｎａｔｕｒｅｉｓｔｏａｃｑｕｉｒｅａｃｔｉｖｉｔｉｅｓ′ ｓｅｍａｎｔｅｍｅ．Ｔｈｅｂａｓｉｃｐｒｏｂｌｅｍｉｓｔｈｅｓｅｍａｎｔｉｃｇａｐｂｅｔｗｅｅｎｏｂｓｅｒｖａｂｌｅａｃｔｉｏｎｓａｎｄｈｕｍａｎａｃｔｉｖｉｔｉｅｓ．Ｔｈｅｙｓｈｏｕｌｄｂｅｂｒｉｄｇｅｄｂｙｅｎｖｉｒｏｎｍｅｎｔｃｏｎｔｅｘｔｂａｓｅｄｉｎｆｅｒｅｎｃｅ．Ｉｎｔｈｉｓｐａｐｅｒ，ａｍｅｔｈｏｄｉｓｐｒｏｐｏｓｅｄｔｏｍｏｄｅｌｔｈｅｅｎｖｉｒｏｎｍｅｎｔｃｏｎｔｅｘｔｉｍｐｌｉｃｉｔｌｙ．Ｆｕｒｔｈｅｒ，ａｎｏｖｅｌｓｅｍａｎｔｅｍｅｍｕｌｔｉｌａｙｅｒｅｄａｃｔｉｖｉｔｙｉｎｆｅｒｅｎｃｅｆｒａｍｅｗｏｒｋｗａｓｐｒｅｓｅｎｔｅｄ，ｗｈｉｃｈｄｉｖｉｄｅｄｔｈｅｉｎｆｅｒｒｉｎｇｐｒｏｃｅｓｓｉｎｔｏ２ｓｔａｇｅｓ．Ｏｎｅｓｔａｇｅｕｓｅｄｔｏａｃｑｕｉｒｅｆｕｚｚｙｓｅｍａｎ⁃ ｔｅｍｅａｎｄａｎｏｔｈｅｒｏｎｅｔｏａｃｑｕｉｒｅａｃｃｕｒａｔｅｓｅｍａｎｔｅｍｅ．Ｔｈｅｆｅａｔｕｒｅｓｅｔｗａｓｄｉｖｉｄｅｄｉｎｔｏｄｉｆｆｅｒｅｎｔｓｕｂｓｅｔｓａｃｃｏｒｄｉｎｇｔｏｋｎｏｗｌｅｄｇｅ．Ｔｈｅｓｙｓｔｅｍｅｘｔｒａｃｔｓｔｈｅｃｏｒｒｅｓｐｏｎｄｉｎｇｆｅａｔｕｒｅｓａｃｃｏｒｄｉｎｇｔｏｔｈｅｃｕｒｒｅｎｔｓｔａｔｅａｎｄｏｂｔａｉｎｓｔｈｅｐｏｓｓｉｂｌｅｓｅｔｏｆｃａｎｄｉｄａｔｅａｃｔｉｖｉｔｉｅｓｔｈａｔｃａｎｉｎｓｔｒｕｃｔｔｈｅｓｙｓｔｅｍｔｏｕｐｄａｔｅｔｈｅｃｕｒｒｅｎｔｆｅａｔｕｒｅｓｅｔ．Ｕｐｄａｔｅｔｈｅｆｅａｔｕｒｅｓｓｅｔａｎｄｉｎｆｅｒｉｔ，ｔｈｅｐｒｏｃｅｓｓｃｏｎｔｉｎｕｅｓｕｎｔｉｌｔｈｅｉｎｆｅｒｅｎｃｅｉｓｃｏｍｐｌｅｔｅｄ．Ｔｈｅｍｏｄｅｌｉｎｇｍｅｔｈｏｄａｎｄｐｒｏｇｒｅｓｓｉｖｅｉｎｆｅｒｅｎｃｅｆｒａｍｅ⁃ ｗｏｒｋｐｒｏｐｏｓｅｄｃｏｕｌｄｈａｎｄｌｅｔｈｅａｃｔｉｖｉｔｙ⁃ｒｅｃｏｇｎｉｔｉｏｎｐｒｏｂｌｅｍｗｅｌｌ．Ｉｍｐｌｉｃｉｔｌｙｍｏｄｅｌｉｎｇｔｈｅｅｎｖｉｒｏｎｍｅｎｔｃｏｎｔｅｘｔｃｏｕｌｄｉｍｐｒｏｖｅｔｈｅａｃｃｕｒａｃｙｏｆａｃｔｉｖｉｔｙｒｅｃｏｇｎｉｔｉｏｎ．Ｔｈｅｐｒｏｇｒｅｓｓｉｖｅｆｒａｍｅｗｏｒｋｃａｎｉｍｐｒｏｖｅｔｈｅｅｆｆｉｃｉｅｎｃｙｂｙａｖｏｉｄｉｎｇｅｘ⁃ ｔｒａｃｔｉｎｇａｌｌｆｅａｔｕｒｅｓｉｎｄｉｓｔｉｎｇｕｉｓｈａｂｌｙ，ｗｈｏｓｅｖａｌｉｄｉｔｙｗａｓｐｒｏｖｅｎｉｎｔｈｅｄａｔａｓｅｔ．Ｋｅｙｗｏｒｄｓ：ａｃｔｉｖｉｔｙｒｅｃｏｇｎｉｔｉｏｎ；ｆｅａｔｕｒｅａｃｔｉｖｉｔｙｒｅｌａｔｉｏｎ；ｅｎｖｉｒｏｎｍｅｎｔｃｏｎｔｅｘｔ；ｓｅｍａｎｔｉｃｌａｙｅｒ；ｍｕｌｔｉｌａｙｅｒｉｎｆｅｒｅｎｃｅｆｒａｍｅｗｏｒｋ收稿日期：２０１４⁃０７⁃０４．网络出版日期：２０１５⁃０３⁃０２．基金项目：国家“８６３”计划资助项目（２０１２ＡＡ０１１６０２）；国家自然科学基金资助项目（６１２７２２３２）．通信作者：聂慧饶．Ｅ⁃ｍａｉｌ：ｓａｎｇｏｂｌｉｎ＠ｙｅａｈ．ｎｅｔ．Ｐａｎｔｉｃ等［１］提出了“人本计算” （ｈｕｍａｎ⁃ｃｅｎｔｅｒｅｄｃｏｍｐｕｔｉｎｇ，ＨＣＣ）的概念；这种模式被认为是未来的计

第2期聂慧饶，等：基于语义分层的行为推理框架 ·179· 算模式，在该模式当中，计算被隐藏在居住空间的后方面总结了很多有效的算法和模型，如隐马尔可夫台，而其计算结果则在日常生活当中与人交织在一模型3】、贝叶斯网络[4]、条件随机场[5]、最近邻起。与过去“以计算机为中心”的计算模式相比，HCC 法[16]等。使用了更接近人类交互方式的方法，如理解人类的行但是当前的推理方法当中均未考虑对行为的语为和情感等，从而取代传统的键盘和鼠标输入；人类义进行分层，并根据需要从环境当中提取特征，而是得以从过去僵化的输入环境当中解放出来，而使用更尽可能多地从环境当中提取特征后进行行为推理。加贴近其天性的自然方式与计算机进行交互。 2 环境上下文模型 HCC的研究重点在于使计算设备与传感设备进行协同工作以便主动感知场景中的用户信息，分对行为进行推理时，若能引入人所处的环境上析用户需求并完成相关任务[)。因此，利用计算设下文，则可以提高推理结果的精度。不少研究者在备和传感器协同工作以理解人类的行为是HCC的开展他们的工作时也引入了环境上下文的概念，但核心组成部分。针对传统行为理解系统无差别提取是他们通常是根据本体论将环境上下文显式地建立场景当中所有特征的弊病，本文对行为所搭载的语在了模型当中78】，该方法的缺点是：1)模型的可义进行分层，并相应地对场景中的特征进行了分类，扩展性差，一旦环境有更改，需要重新建立一套模从而提出了一个由粗至精的逐步获取行为语义的推型：2)难以将时间上下文同时引入到模型当中。本理框架。文当中为了使环境上下文便于计算，未将其作为显式的模型节点，而是将其作为隐式的观测特征用于 1 研究现状辅助行为的推理。行为理解是计算机视觉领域的传统问题)，其 2.1特征的属性推理方式可以大致分为基于规则的推理和基于学习当前的相关工作大都采用了分层模型来表示行的推理4)。基于规则是指研究者根据自己对行为为，并将行为定义成了语义的携带者[1921]：行为通逻辑的认识，并利用逻辑推理的方法对行为进行理常都是为了满足用户需求而发生的一系列动作。伴解。该方法通常包含以下步骤：1)将所有可能的需随着行为的发生，通常可以观测到与该行为相关的要理解的行为囊括到模型库当中，并利用逻辑形式特征。而行为理解需要处理的问题就是根据所观测对这些行为进行定义和描述：2)整理所获得的传感的特征还原出用户的行为。信息，并将其转换为逻辑术语和公式；3)根据上一特征作为样本的表现形式，可以用于将一个样本步当中的术语和公式，进行包括演绎、归纳和推断等与其他样本进行区分，例如，发生吃饭行为时，手中的的逻辑推理，以便于根据所观察的信息寻找最匹配餐具可以作为用来表征该行为的重要特征。因此，特的行为或者行为集（模型库的子集）[s] 征可以视作对样本的某种属性的观测。理论上，若能基于学习的推理则又可进一步细分为无监督学获取正确表达某个样本的完整的特征集，则可以以极习和有监督学习。其中无监督的学习指的是从未进高的置信度识别该样本。但是在基于视觉的处理方行人工标注的数据当中直接建立起模型对行为进行法当中，系统可以从视频图像中提取出大量不同的特判别，其通用原则是根据系统当前的状态并结合对征，如颜色直方图、SFT特征、HOG特征等，而且基于系统的观察对系统的状态进行随时更新，模型中每视觉特征进行分类得到的结果通常具有不确定性。个动作可能发生的概率均是由人工进行赋予的；无因此，当样本集的规模变得很大时，即面临着组合爆监督学习的过程通常有：1)采集原始传感数据（未炸的问题，特征的规模会增长得比样本更快，很难一被标注)[8]：2)处理未标注的数据并将其转换成相次性将视频中所有的特征悉数提取出来。应特征；3)采用聚类等手段建立起判别模型[91o】」在本文当中，根据特征是否被行为集中的所有与无监督的学习相比，有监督的学习必须基于已经元素共享将其分为：公有特征和私有特征，其中公有标注的数据（通常是人工标注），而后根据数据和行特征属于某个行为集中的所有行为，即所有行为发为集建立起合理的推理模型，并通过标注数据训练生时该类特征都可被观测（但是特征值不同）；私有出模型的参数。当前通过有监督的学习得到推理模特征则是某个行为所特有，通常可以用于证明或者型参数的方法是最为常见的，并且研究者们也在此证伪该行为是否发生。显然公有特征集和私有特征

算模式，在该模式当中，计算被隐藏在居住空间的后台，而其计算结果则在日常生活当中与人交织在一起。与过去“以计算机为中心”的计算模式相比，ＨＣＣ使用了更接近人类交互方式的方法，如理解人类的行为和情感等，从而取代传统的键盘和鼠标输入；人类得以从过去僵化的输入环境当中解放出来，而使用更加贴近其天性的自然方式与计算机进行交互。ＨＣＣ的研究重点在于使计算设备与传感设备进行协同工作以便主动感知场景中的用户信息，分析用户需求并完成相关任务［２］。因此，利用计算设备和传感器协同工作以理解人类的行为是ＨＣＣ的核心组成部分。针对传统行为理解系统无差别提取场景当中所有特征的弊病，本文对行为所搭载的语义进行分层，并相应地对场景中的特征进行了分类，从而提出了一个由粗至精的逐步获取行为语义的推理框架。１研究现状行为理解是计算机视觉领域的传统问题［３］，其推理方式可以大致分为基于规则的推理和基于学习的推理［４］。基于规则是指研究者根据自己对行为逻辑的认识，并利用逻辑推理的方法对行为进行理解。该方法通常包含以下步骤：１）将所有可能的需要理解的行为囊括到模型库当中，并利用逻辑形式对这些行为进行定义和描述；２）整理所获得的传感信息，并将其转换为逻辑术语和公式；３）根据上一步当中的术语和公式，进行包括演绎、归纳和推断等的逻辑推理，以便于根据所观察的信息寻找最匹配的行为或者行为集（模型库的子集）［５⁃７］。基于学习的推理则又可进一步细分为无监督学习和有监督学习。其中无监督的学习指的是从未进行人工标注的数据当中直接建立起模型对行为进行判别，其通用原则是根据系统当前的状态并结合对系统的观察对系统的状态进行随时更新，模型中每个动作可能发生的概率均是由人工进行赋予的；无监督学习的过程通常有：１）采集原始传感数据（未被标注）［８］；２）处理未标注的数据并将其转换成相应特征；３）采用聚类等手段建立起判别模型［９⁃１０］。与无监督的学习相比，有监督的学习必须基于已经标注的数据（通常是人工标注），而后根据数据和行为集建立起合理的推理模型，并通过标注数据训练出模型的参数。当前通过有监督的学习得到推理模型参数的方法是最为常见的，并且研究者们也在此方面总结了很多有效的算法和模型，如隐马尔可夫模型［１１⁃１３］、贝叶斯网络［１４］、条件随机场［１５］、最近邻法［１６］等。但是当前的推理方法当中均未考虑对行为的语义进行分层，并根据需要从环境当中提取特征，而是尽可能多地从环境当中提取特征后进行行为推理。２环境上下文模型对行为进行推理时，若能引入人所处的环境上下文，则可以提高推理结果的精度。不少研究者在开展他们的工作时也引入了环境上下文的概念，但是他们通常是根据本体论将环境上下文显式地建立在了模型当中［１７⁃１８］，该方法的缺点是：１）模型的可扩展性差，一旦环境有更改，需要重新建立一套模型；２）难以将时间上下文同时引入到模型当中。本文当中为了使环境上下文便于计算，未将其作为显式的模型节点，而是将其作为隐式的观测特征用于辅助行为的推理。２．１特征的属性当前的相关工作大都采用了分层模型来表示行为，并将行为定义成了语义的携带者［１９⁃２１］；行为通常都是为了满足用户需求而发生的一系列动作。伴随着行为的发生，通常可以观测到与该行为相关的特征。而行为理解需要处理的问题就是根据所观测的特征还原出用户的行为。特征作为样本的表现形式，可以用于将一个样本与其他样本进行区分，例如，发生吃饭行为时，手中的餐具可以作为用来表征该行为的重要特征。因此，特征可以视作对样本的某种属性的观测。理论上，若能获取正确表达某个样本的完整的特征集，则可以以极高的置信度识别该样本。但是在基于视觉的处理方法当中，系统可以从视频图像中提取出大量不同的特征，如颜色直方图、ＳＩＦＴ特征、ＨＯＧ特征等，而且基于视觉特征进行分类得到的结果通常具有不确定性。因此，当样本集的规模变得很大时，即面临着组合爆炸的问题，特征的规模会增长得比样本更快，很难一次性将视频中所有的特征悉数提取出来。在本文当中，根据特征是否被行为集中的所有元素共享将其分为：公有特征和私有特征，其中公有特征属于某个行为集中的所有行为，即所有行为发生时该类特征都可被观测（但是特征值不同）；私有特征则是某个行为所特有，通常可以用于证明或者证伪该行为是否发生。显然公有特征集和私有特征第２期聂慧饶，等：基于语义分层的行为推理框架 ·１７９·

·180 智能系统学报第10卷集的选取依赖于特定的应用场景，并且可以根据应 3分层的语义推理及实现用需要对行为集进行多层次的分层，从而实现推理层次更加丰富的推理过程。 3.1分层的语义推理 2.2可计算的环境上下文前文当中根据特征是否被行为集中的所有元素显然所有的行为发生都伴随着环境上下文，因所共享将其分成了公有特征和私有特征2类。行为此环境上下文应该属于公有特征。环境上下文是一是具确定语义的，但是在观测到属于某个行为的所个很抽象的概念，为了能将其予以形式化的表达，需有特征前，尤其若其私有特征尚未被观测，则该行为要考虑用户在室内的交互方式以及交互对象：通常的确定语义将无法被推断，其所携带的语义将变得用户在室内的交互对象主要是各色家电以及家具，模糊不清，从而该行为的确定语义将退化成为模糊而用户的交互方式又由他当前的交互对象所决定，语义。图2中所示，用户分别发生了2个行为，即喝例如，用户处在卧室当中，则其可能在与床进行交水和喝饮料：这2个行为的公有特征即为手中持有互，交互方式则是用户躺在床上。而这些家具或者物品，且在手部在向面部运动，而喝水的私有特征则家电与特定行为的发生具有很强的关联，比如餐桌是手中物品为水杯，喝饮料的私有特征为手中物品附近吃饭发生的概率很高：于是可以将它们的中心为饮料。显然这2个行为的公有特征是几乎一致作为某些行为发生的概率中心，而随着人体逐渐的的，区分它们的关键因素在于这2个行为不同的私远离该行为发生的概率会逐渐衰减。有特征：但是公有特征的观测可以排除用户发生看因此，可以将家具和家电等潜在交互对象的位电视等其他行为。置予以标定（如图1所示，图中的圆形和方形分别图2(a)对喝水和喝饮料的私有特征进行了模糊代表了室内的餐桌、冰箱等交互对象)，并结合人体化处理（即不再观测这2个行为的私有特征）后，喝水的当前位置作为观测的特征：在实现时，通常使用人和喝饮料均退化成为语义模糊不清的动作，该动作表体位置与各个交互对象间的坐标差值（或基于差值明人手中有物品且在向面部运动。从中可以看出，行的非线性变换)作为观测特征，而不是使用人体到为的公有特征即表达了行为的模糊语义，而辅以相应交互对象中心的欧氏距离，以考虑交互对象的形状的私有特征后行为的语义才能被确定。对于行为发生的概率衰减的影响。 (a)原图 (b)观测私有特征图2由粗至精的推理过程 Fig.2 Inference process from fuzzy semantic logic to definite semantic logic 因此，提出了一个从模糊语义逐渐到确定语义的推理框架，即首先根据观察到的公有特征筛选出图1室内家具布置标定示意图符合当前模糊语义的候选行为集合，A,然后根据A Fig.1 Calibration of the indoor layout of the furniture 中的成员做证据广播，即去观测该成员的相应私有特征，并最终得到当前用户的行为或者行为集A

集的选取依赖于特定的应用场景，并且可以根据应用需要对行为集进行多层次的分层，从而实现推理层次更加丰富的推理过程。２．２可计算的环境上下文显然所有的行为发生都伴随着环境上下文，因此环境上下文应该属于公有特征。环境上下文是一个很抽象的概念，为了能将其予以形式化的表达，需要考虑用户在室内的交互方式以及交互对象；通常用户在室内的交互对象主要是各色家电以及家具，而用户的交互方式又由他当前的交互对象所决定，例如，用户处在卧室当中，则其可能在与床进行交互，交互方式则是用户躺在床上。而这些家具或者家电与特定行为的发生具有很强的关联，比如餐桌附近吃饭发生的概率很高；于是可以将它们的中心作为某些行为发生的概率中心，而随着人体逐渐的远离该行为发生的概率会逐渐衰减。因此，可以将家具和家电等潜在交互对象的位置予以标定（如图１所示，图中的圆形和方形分别代表了室内的餐桌、冰箱等交互对象），并结合人体的当前位置作为观测的特征；在实现时，通常使用人体位置与各个交互对象间的坐标差值（或基于差值的非线性变换）作为观测特征，而不是使用人体到交互对象中心的欧氏距离，以考虑交互对象的形状对于行为发生的概率衰减的影响。图１室内家具布置标定示意图Ｆｉｇ．１Ｃａｌｉｂｒａｔｉｏｎｏｆｔｈｅｉｎｄｏｏｒｌａｙｏｕｔｏｆｔｈｅｆｕｒｎｉｔｕｒｅ３分层的语义推理及实现３．１分层的语义推理前文当中根据特征是否被行为集中的所有元素所共享将其分成了公有特征和私有特征２类。行为是具确定语义的，但是在观测到属于某个行为的所有特征前，尤其若其私有特征尚未被观测，则该行为的确定语义将无法被推断，其所携带的语义将变得模糊不清，从而该行为的确定语义将退化成为模糊语义。图２中所示，用户分别发生了２个行为，即喝水和喝饮料；这２个行为的公有特征即为手中持有物品，且在手部在向面部运动，而喝水的私有特征则是手中物品为水杯，喝饮料的私有特征为手中物品为饮料。显然这２个行为的公有特征是几乎一致的，区分它们的关键因素在于这２个行为不同的私有特征；但是公有特征的观测可以排除用户发生看电视等其他行为。图２（ａ）对喝水和喝饮料的私有特征进行了模糊化处理（即不再观测这２个行为的私有特征）后，喝水和喝饮料均退化成为语义模糊不清的动作，该动作表明人手中有物品且在向面部运动。从中可以看出，行为的公有特征即表达了行为的模糊语义，而辅以相应的私有特征后行为的语义才能被确定。图２由粗至精的推理过程Ｆｉｇ．２Ｉｎｆｅｒｅｎｃｅｐｒｏｃｅｓｓｆｒｏｍｆｕｚｚｙｓｅｍａｎｔｉｃｌｏｇｉｃｔｏｄｅｆｉｎｉｔｅｓｅｍａｎｔｉｃｌｏｇｉｃ因此，提出了一个从模糊语义逐渐到确定语义的推理框架，即首先根据观察到的公有特征筛选出符合当前模糊语义的候选行为集合ｃＡ，然后根据ｃＡ中的成员做证据广播，即去观测该成员的相应私有特征，并最终得到当前用户的行为或者行为集Ａｃｕｒｒ ·１８０· 智能系统学报第１０卷

第2期聂慧饶，等：基于语义分层的行为推理框架 ·181- (用户可以同时发生多个行为)。事实上人的推理到(0,1)的概率值，也便于处理同一时刻下多个不过程也并非一次完成的，人们总是会根据当前观测同行为的发生。的特征对即将发生的行为作出初步的判断，而后根愿 =oAj=1 多路视频数据据初步判断的结果去寻找可以证明或者证伪初步判断的新的特征。例如，甲向乙伸出手时，乙初步判断过确定当前公有观测特征F 程甲想要同乙握手或者攻击乙，此时乙开始寻找额外模的特征，若甲的手向乙的运动而去，则甲想要同乙握糊 P(dF) 确定新的公有观 i=1,2N) 测特征Fj+1 手，反之则是要攻击乙。假定系统中共有N个行为需要识别，将该原始确定新的候选集行为集记作A={a1,a2,…,ax};系统可以获得的总 =J-1 特征数为M个，总特征集记.F={fi,f,…,f}。这 y 些特征包含了公有特征集以及私有特征集中的元获确定中的每个元素的专有特征取素，其中月={2，…，月w}G=1,2,…,Jk= 1,2,…,K)为公有特征集，含有M个元素，而J为定 P(d F) 得到Am (i=1,2,W 推理的总次数，K为第j次推理时候选行为集合。州义的总个数：私有特征集针对，A中的每个元素进行定图3分层推理流程图义，因此可以得到N个行为的私有特征集，F:= Fig.3 Flow chart of multilayer inference {f,f2,…,}(i=1,2,…,N),对于第i个私有进行分层次推理时，需要训练出多组逻辑回归特征集，其含有，M个元素。则有模型以适应不同的推理层次。令，X= (UF)U(0F)=.F [p2…xm](k∈{1,2，…，K})为第j (UF)0(UF=8 次推理时观测到的公有特征向量，即。x(i=1,2, 推理时则如前所述，第j次推理时可以先依据 …,M)对应于的观测值，第j次推理时的特征当前的公有特征集，FPn(cur∈{1,2，…，K})从对行为的贡献度为，W= 中得到模糊语义满足观测的候选集，， [01p02…ph4](z=1,2,…,e八-1） N=,,…心}N是的元素的个数且其中。d:即表示第j次推理时f对a。的影响。则 (A=AA=A 第1次到第J-1次推理时用到的逻辑回归模型为 NN1j=1,2,,J P(a=a.1X)= 通常NN。在第J次推理时，遍历A1的成 exp(,W‘) 员a1(i=1,2,…,1),根据对a1的私有特 ,2=1,2,…,eN-1-1 征集，F,中的成员进行观测，可以得出Am。该过程 1+m,脱) 如图3所示。需要注意的是，该推理框架可以通过 P(a=a:I X)= 不同的推理方法予以实现，后文当中分别使用了逻辑回归和HMM对框架进行了实现。 N-1 -,2=N- 3.2基于单帧的推理方法 1+∑exp(,职) 基于单帧的推理方法，即在推理时只使用当前对于第j层逻辑回归模型，设定阈值视频帧所观测的特征进行行为理解，其优点在于推 Threshold,若P(.a=a,I,X)>Threshold,则a: 理方式相对简单，计算量较小，可以快速地完成，而会被添加至。对于第J次推理，需要判断。A-中其缺点在于不使用时间上下文，从而对于噪声的抗的每个成员是否属于Am,因此需要对于所有的行性较差。基于单帧的推理方法有逻辑回归、支持向为都训练一个二项逻辑回归模型，即根据特征判断量机以及决策树等。本文实现时使用了逻辑回归模该行为发生或者没有发生，对于行为a(m∈{1，型作为实现单帧推理的方法，可以方便地得到对齐 2,…,V-1}),第J次推理时用到的特征向量X为

（用户可以同时发生多个行为）。事实上人的推理过程也并非一次完成的，人们总是会根据当前观测的特征对即将发生的行为作出初步的判断，而后根据初步判断的结果去寻找可以证明或者证伪初步判断的新的特征。例如，甲向乙伸出手时，乙初步判断甲想要同乙握手或者攻击乙，此时乙开始寻找额外的特征，若甲的手向乙的运动而去，则甲想要同乙握手，反之则是要攻击乙。假定系统中共有Ｎ个行为需要识别，将该原始行为集记作ｏＡ＝｛ａ１，ａ２，…，ａＮ｝；系统可以获得的总特征数为Ｍ个，总特征集记ｏＦ＝｛ｆ１，ｆ２，…，ｆＭ｝。这些特征包含了公有特征集以及私有特征集中的元素，其中ｐＦｊｋ＝｛ｐｆｊｋ１，ｐｆｊｋ２，…，ｐｆｊｋｐＭｊｋ｝（ｊ＝１，２，…，Ｊ；ｋ＝１，２，…，Ｋｊ）为公有特征集，含有ｐＭｋｊ个元素，而Ｊ为推理的总次数，Ｋｊ为第ｊ次推理时候选行为集合ｃＡｊ的总个数；私有特征集针对ｏＡ中的每个元素进行定义，因此可以得到Ｎ个行为的私有特征集，ｓＦｉ＝｛ｓｆｉ１，ｓｆｉ２，…，ｓｆｉｓＭｉ｝（ｉ＝１，２，…，Ｎ），对于第ｉ个私有特征集，其含有ｓＭｉ个元素。则有 ∪ＫＪ－１ｉ＝１ｐＦＪ－１ｉ { } ∪ ∪Ｎｉ＝１ｓＦｉ { } ＝ｏＦ ∪ＫＪ－１ｉ＝１ｐＦＪ－１ｉ { } ∩ ∪Ｎｉ＝１ｓＦｉ { { } ＝ ⌀ 推理时则如前所述，第ｊ次推理时可以先依据当前的公有特征集ｐＦｊｃｕｒｒ（ｃｕｒｒ ∈ ｛１，２，…，Ｋｊ｝）从ｃＡｊ－１中得到模糊语义满足观测的候选集ｃＡｊ，ｃＡｊ＝｛ｃａｊ１，ｃａｊ２，…，ｃａｊｃＮｊ｝，ｃＮｊ是ｃＡｊ的元素的个数且ｃＡ０＝ｏＡ，ｃＡＪ＝ＡｃｕｒｒｃＡｊ ⊆ｃＡｊ－１ { ，ｊ＝１，２，．．．，Ｊ通常ｃＮＪ≪Ｎ。在第Ｊ次推理时，遍历ｃＡＪ－１的成员ｃａＪ－１ｉ（ｉ＝１，２，…，ｃＮＪ－１），根据对ｃａＪ－１ｉ的私有特征集ｓＦｉ中的成员进行观测，可以得出Ａｃｕｒｒ。该过程如图３所示。需要注意的是，该推理框架可以通过不同的推理方法予以实现，后文当中分别使用了逻辑回归和ＨＭＭ对框架进行了实现。３．２基于单帧的推理方法基于单帧的推理方法，即在推理时只使用当前视频帧所观测的特征进行行为理解，其优点在于推理方式相对简单，计算量较小，可以快速地完成，而其缺点在于不使用时间上下文，从而对于噪声的抗性较差。基于单帧的推理方法有逻辑回归、支持向量机以及决策树等。本文实现时使用了逻辑回归模型作为实现单帧推理的方法，可以方便地得到对齐到（０，１）的概率值，也便于处理同一时刻下多个不同行为的发生。图３分层推理流程图Ｆｉｇ．３Ｆｌｏｗｃｈａｒｔｏｆｍｕｌｔｉｌａｙｅｒｉｎｆｅｒｅｎｃｅ进行分层次推理时，需要训练出多组逻辑回归模型以适应不同的推理层次。令ｐＸｊｋ＝［ｐｘｊｋ１ｐｘｊｋ２ … ｐｘｋｊｐＭｊｋ］（ｋ ∈ ｛１，２，…，Ｋｊ｝）为第ｊ次推理时观测到的公有特征向量，即ｐｘｊｋｉ（ｉ＝１，２， …，ｐＭｊｋ）对应于ｐｆｊｋｉ的观测值，第ｊ次推理时的特征对行为的贡献度为ｐＷｊｚｋ＝［ｐｗｊｚ，ｋ１ｐｗｊｚ，ｋ２ … ｐｗｊｚ，ｋｐＭｊｋ］（ｚ＝１，２，…，ｃＮｊ－１），其中ｐｗｊｚ，ｉ即表示第ｊ次推理时ｐｆｊｋｉ对ａｎ的影响。则第１次到第Ｊ－１次推理时用到的逻辑回归模型为Ｐ（ｃａ＝ａｚ｜ｐＸｊｋ）＝ｅｘｐ（ｐＷｊｚｋ·ｐＸｊｋ）１＋ ∑ Ｎ－１ｉ＝１ｅｘｐ（ｐＷｊｉｋ·ｐＸｊｋ），ｚ＝１，２，…，ｃＮｊ－１－１Ｐ（ｃａ＝ａｚ｜ｐＸｊｋ）＝１１＋ ∑ Ｎ－１ｉ＝１ｅｘｐ（ｐＷｊｉｋ·ｐＸｊｋ），ｚ＝ｃＮｊ－１ ì î í ï ï ï ï ï ï ï ï ï ï ï ï 对于第ｊ层逻辑回归模型，设定阈值Ｔｈｒｅｓｈｏｌｄｊ，若Ｐ（ｃａ＝ａｚ｜ｐＸｊｋ）＞Ｔｈｒｅｓｈｏｌｄｊ，则ａｚ会被添加至ｃＡｊ。对于第Ｊ次推理，需要判断ｃＡＪ－１中的每个成员是否属于Ａｃｕｒｒ，因此需要对于所有的行为都训练一个二项逻辑回归模型，即根据特征判断该行为发生或者没有发生，对于行为ｃａＪｍ（ｍ ∈ ｛１，２，…，ｃＮｊ－１｝），第Ｊ次推理时用到的特征向量ＸＪｍ为第２期聂慧饶，等：基于语义分层的行为推理框架 ·１８１·

·182· 智能系统学报第10卷 ,与，Xn的并集，其中，X为a的私有特征对的公有特征集，针对！中的每个行为训练出应的观测值，故对于a有 HMM模型，同时需要针对每个行为训练出相应的 HMM模型以用于第J次推理。在进行第j次推理 P(.a=.aIx)=_ xp(W·X) 1+exp(Wm·X) 时，利用已经观测的特征向量序列，可以计算出中的每个行为输出该序列的概率，若所得概率值超 P(.a≠.d1X)=1+ep(w·X) 过阈值，则a,会被添加至N。此时只需要将P(a=a Ix)与Threshold 同单帧推理时一样，在第J次推理时，对于进行对比，即可判断a是否属于Ar。需要注 a(m∈{1,2，…，cN-1})所使用的特征向量序列为公有特征向量序列与私有特征向量序列的并集。意的是，所有的行为的二项逻辑回归的值的和并没有归一化，所以在选取Threshold的值时，需要 4 实验验证根据当前计算得到的各个P(a=am1Xm)的值予以动态设置。 4.1实验环境实验环境的设置主要用于模拟人体在室内的日 3.3基于时间序列的推理方法常行为场景，在该场景当中，需要识别出吃饭、看电基于时间序列的推理方法主要有隐马尔可夫模视、吃水果、喝饮料、看书、喝水、使用电脑等7种不型和动态贝叶斯网等，由于隐马尔可夫模型的训练同的行为。视频数据的采集工作由分布在屋内的4 算法和测试算法都极为成熟，本文当中采用了隐马套AV800综合采集卡以及4个CCD摄像机完成，尔可夫作为基于时间序列的推理方法。隐马尔可夫模型的优势在于推理时使用了时间序列，充分地利其中集体分辨率最高可以达到720×576，帧率可以达到25/s。此外，采集卡的硬件压缩功能可以直用了上下文信息，但是其训练较逻辑回归复杂，无法利用过多的时间帧（否则会因联合概率较小而无法接输出压缩格式的视频流。实验环境当中配备了圆桌、电视、冰箱、书架、办予以计算)。并且隐马尔可夫的训练数据使用了相公桌、茶几等家具，以及水果、饮料、食品等日常生活同标签下的帧序列，即训练时所用的同一序列的帧用品，前方提及的摄像机布置在房间的4个角落当对应的行为是相同的，而在实际过程中，同一个序列下的不同帧可能会出现不同的行为。中，分别连接至数据采集服务器当中以捕获场景当中发生的人体行为。实验环境布置如图4所示，其此外，当前的隐马尔可夫训练算法大都只针对一个离散观测量或者一个连续的随机向量的平面图如图1所示。应用场景，而的观测值中同时存在着多个离散观测量和连续观测量。直观的做法是将多个离散观测量聚合成为一个单独的离散观测量，但是这种做法会使模型的参数迅速增加，例如，若在 HMM当中选取5个隐状态，同时有10个离散观测量，每个离散观测量对应2个不同的取值，则观测矩阵的参数个数为5×20=5120，但是若引入朴素贝叶斯假设，即观测量之间是相互独立的，那么观测矩阵的总参数量则降为5×2×10= 100,实际中特征维度可能会更高，若不采用朴素贝叶斯假设，则由于训练样本个数较少，很难得图4不同视角下的实验环境到对模型参数合理的估计。因此，的在训练 Fig.4 Experiment environments under different views HMM模型时对于多维离散观测值引入了朴素贝 4.2实验数据集叶斯假设。在该数据集当中，共需要识别吃饭、看电视、吃使用HMM进行行为理解时，每个行为都被认水果、喝饮料、看书、喝水、使用电脑等7种不同的行为是一个序列。训练HMM模型时，需要利用第j层为。该数据集共有225551帧行为图像

ｐＸＪ－１ｍ与ｓＸｍ的并集，其中ｓＸｍ为ｃａＪｍ的私有特征对应的观测值，故对于ｃａＪｍ有Ｐ（ｃａ＝ｃａＪｍ｜ＸＪｍ）＝ｅｘｐ（ＷＪｍ·ＸＪｍ）１＋ｅｘｐ（ＷＪｍ·ＸＪｍ）Ｐ（ｃａ ≠ｃａＪｍ｜ＸＪｍ）＝１１＋ｅｘｐ（ＷＪｍ·ＸＪｍ） ì î í ï ï ï ï ïï 此时只需要将Ｐ（ｃａ＝ｃａＪｍ｜ＸＪｍ）与Ｔｈｒｅｓｈｏｌｄｊ进行对比，即可判断ｃａＪｍ是否属于Ａｃｕｒｒ。需要注意的是，所有的行为的二项逻辑回归的值的和并没有归一化，所以在选取Ｔｈｒｅｓｈｏｌｄｊ的值时，需要根据当前计算得到的各个Ｐ（ｃａ＝ｃａＪｍ｜ＸＪｍ）的值予以动态设置。３．３基于时间序列的推理方法基于时间序列的推理方法主要有隐马尔可夫模型和动态贝叶斯网等，由于隐马尔可夫模型的训练算法和测试算法都极为成熟，本文当中采用了隐马尔可夫作为基于时间序列的推理方法。隐马尔可夫模型的优势在于推理时使用了时间序列，充分地利用了上下文信息，但是其训练较逻辑回归复杂，无法利用过多的时间帧（否则会因联合概率较小而无法予以计算）。并且隐马尔可夫的训练数据使用了相同标签下的帧序列，即训练时所用的同一序列的帧对应的行为是相同的，而在实际过程中，同一个序列下的不同帧可能会出现不同的行为。此外，当前的隐马尔可夫训练算法大都只针对一个离散观测量或者一个连续的随机向量的应用场景，而的观测值中同时存在着多个离散观测量和连续观测量。直观的做法是将多个离散观测量聚合成为一个单独的离散观测量，但是这种做法会使模型的参数迅速增加，例如，若在ＨＭＭ当中选取５个隐状态，同时有１０个离散观测量，每个离散观测量对应２个不同的取值，则观测矩阵的参数个数为５ × ２１０＝５１２０，但是若引入朴素贝叶斯假设，即观测量之间是相互独立的，那么观测矩阵的总参数量则降为５ × ２ × １０＝１００，实际中特征维度可能会更高，若不采用朴素贝叶斯假设，则由于训练样本个数较少，很难得到对模型参数合理的估计。因此，的在训练ＨＭＭ模型时对于多维离散观测值引入了朴素贝叶斯假设。使用ＨＭＭ进行行为理解时，每个行为都被认为是一个序列。训练ＨＭＭ模型时，需要利用第ｊ层的公有特征集ｐＦｊｋ针对ｃＡｊ中的每个行为训练出ＨＭＭ模型，同时需要针对每个行为训练出相应的ＨＭＭ模型以用于第Ｊ次推理。在进行第ｊ次推理时，利用已经观测的特征向量序列，可以计算出ｃＡｊ－１中的每个行为输出该序列的概率，若所得概率值超过阈值，则ａｚ会被添加至ｃＡｊ。同单帧推理时一样，在第Ｊ次推理时，对于ｃａＪｍ（ｍ ∈ ｛１，２，…，ｃＮｊ－１｝）所使用的特征向量序列为公有特征向量序列与私有特征向量序列的并集。４实验验证４．１实验环境实验环境的设置主要用于模拟人体在室内的日常行为场景，在该场景当中，需要识别出吃饭、看电视、吃水果、喝饮料、看书、喝水、使用电脑等７种不同的行为。视频数据的采集工作由分布在屋内的４套ＡＶ８００综合采集卡以及４个ＣＣＤ摄像机完成，其中集体分辨率最高可以达到７２０×５７６，帧率可以达到２５ｆ／ｓ。此外，采集卡的硬件压缩功能可以直接输出压缩格式的视频流。实验环境当中配备了圆桌、电视、冰箱、书架、办公桌、茶几等家具，以及水果、饮料、食品等日常生活用品，前方提及的摄像机布置在房间的４个角落当中，分别连接至数据采集服务器当中以捕获场景当中发生的人体行为。实验环境布置如图４所示，其平面图如图１所示。图４不同视角下的实验环境Ｆｉｇ．４Ｅｘｐｅｒｉｍｅｎｔｅｎｖｉｒｏｎｍｅｎｔｓｕｎｄｅｒｄｉｆｆｅｒｅｎｔｖｉｅｗｓ４．２实验数据集在该数据集当中，共需要识别吃饭、看电视、吃水果、喝饮料、看书、喝水、使用电脑等７种不同的行为。该数据集共有２２５５５１帧行为图像。 ·１８２· 智能系统学报第１０卷

第2期聂慧饶，等：基于语义分层的行为推理框架 ·183 针对该行为集，使用了2层的推理框架对其进度为38维，全部特征向量的维度为45维。其中在行推理：定义公有特征集为{人体的姿势，人体的朝未分层的推理当中引入环境上下文后，推理准确率向，人体的位置}，其中人体的姿势有2个观测值，得到了提高，在不使用环境上下文时准确率为分别为站着和坐着，人体的朝向被离散成8个数值， 83.4%,使用环境上下文时，准确率为85.20%。人体的位置则由文献[22]中介绍的算法求出。针表2中选取了部分特征在不同的推理层次当中对不同的行为，分别定义了附着于其上的私有特征，对于看书的影响。从中可以看出：)分层推理时不同具体内容如表1所示。层次时同一特征的权重并不相同，并且在第2层推理由于本文侧重于推理方式及效率的研究，对于时，公有特征对行为的影响变弱，这与直观感觉相符，如何通过对视频进行图像处理以获取所需的特征并即公有特征在判断模糊语义时可以起到很强的作用，没有进行深入探讨，本文中除了人体位置外的其他但是在进行确定语义的判断时则不会起到较强的作特征均是通过人工予以标注。事实上，若今后针对用：2)私有特征对相应行为的影响很大，这也充分证相应特征的视觉算法成熟后可以方便地集成到本文明了实验中对特征的分层是比较合理的。所提出的推理框架当中。表2特征在不同层数对看书的影响表1不同行为的私有特征 Table 2 The influence of features on reading in different Table 1 Private features of different activities inference layers 行为相应的私有特征特征取值特征第1层对看书的权重第2层对看书的权重吃饭手中有餐具 {持有、不持有} 身体姿势 0.273260 0.141081 看电视电视开着 {开着，关闭引身体朝向 0.266318 0.115331 吃水果手中有水果 {持有、不持有} 手触碰书 N/C 1.743567 喝饮料手中有饮料 {持有、不持有} 表3中所示为基于逻辑回归的不同层次推理的看书手接触到了书 {触碰，未触碰} 实验结果。从中可以得出以下结论：1)两者的推理精喝水手中有水杯 {持有、不持有} 度接近，但是实用时分层的推理可以不用提取环境当使用电脑电脑开着 {开着，关闭} 中的所有特征，因此可以有效地节省系统效率：2)单 4.3实验结果层推理的模型总参数量为7×45=315个，而双层推理本文分别使用了基于逻辑回归和HMM的推理模型总参数量为7×38+7×39=539，双层推理的总参数虽然更多，但是单个模型的参数量却在减少，在待方式实现。在本节当中，针对这2种实现，均对比了识别行为集变大，且训练样本不足的情况下，可以有未使用分层推理和使用分层推理的正确率。效地降低过拟合的可能性：3)在公有特征和私有特征 4.3.1基于逻辑回归的实验结果划分合理的情况下，若有新的行为加入，只需要重新使用未分层的推理实现时，将所有的特征直接训练公有特征与各个行为对应的权重，以及该行为的用于训练得到特征-行为权重，此时针对7个不同私有特征对应的权重即可，扩展代价较小。的行为，均可以得到一组特征与行为的权重关系：此表3不同层数的推理比较 7组特征-行为权重可以用逻辑回归训练出的1个 Table 3 The comparison of inference with different layers 模型予以表示。而分层推理实现，则是先针对所有推理层数准确率/% 模型数量参数数量的行为使用公有特征训练得到特征-行为权重，其 1 85.20 315 后针对每个行为，结合公有特征及私有特征，训练出 2 85.61 8 539 相应的特征-行为权重，即分层推理实现时，最终得 4.3.2基于HMM实验结果到1个描述公有特征与行为关系的模型以及7个描在HMM实现当中，对人体位置和家具位置述私有特征和行为的模型。进行离散化处理，以使其符合观测模型。未分层使用环境上下文特征时，本文使用了三阶多项的HMM推理即在观测时使用全部的特征值进行式来拟合行为概率同人体与家具相对位置的关系：观测序列的似然值计算，而分层的推理则首先使由于研究的行为共涉及到6个不同的家具，故环境用公有特征对观测序列进行似然值计算，对于过上下文总共包含36维的数据，故公有特征向量总维阈值的行为种类再结合其私有特征进行新一轮

针对该行为集，使用了２层的推理框架对其进行推理；定义公有特征集为｛人体的姿势，人体的朝向，人体的位置｝，其中人体的姿势有２个观测值，分别为站着和坐着，人体的朝向被离散成８个数值，人体的位置则由文献［２２］中介绍的算法求出。针对不同的行为，分别定义了附着于其上的私有特征，具体内容如表１所示。由于本文侧重于推理方式及效率的研究，对于如何通过对视频进行图像处理以获取所需的特征并没有进行深入探讨，本文中除了人体位置外的其他特征均是通过人工予以标注。事实上，若今后针对相应特征的视觉算法成熟后可以方便地集成到本文所提出的推理框架当中。表１不同行为的私有特征Ｔａｂｌｅ１Ｐｒｉｖａｔｅｆｅａｔｕｒｅｓｏｆｄｉｆｆｅｒｅｎｔａｃｔｉｖｉｔｉｅｓ行为相应的私有特征特征取值吃饭手中有餐具｛持有、不持有｝看电视电视开着｛开着，关闭｝吃水果手中有水果｛持有、不持有｝喝饮料手中有饮料｛持有、不持有｝看书手接触到了书｛触碰，未触碰｝喝水手中有水杯｛持有、不持有｝使用电脑电脑开着｛开着，关闭｝４．３实验结果本文分别使用了基于逻辑回归和ＨＭＭ的推理方式实现。在本节当中，针对这２种实现，均对比了未使用分层推理和使用分层推理的正确率。４．３．１基于逻辑回归的实验结果使用未分层的推理实现时，将所有的特征直接用于训练得到特征－行为权重，此时针对７个不同的行为，均可以得到一组特征与行为的权重关系；此７组特征－行为权重可以用逻辑回归训练出的１个模型予以表示。而分层推理实现，则是先针对所有的行为使用公有特征训练得到特征－行为权重，其后针对每个行为，结合公有特征及私有特征，训练出相应的特征－行为权重，即分层推理实现时，最终得到１个描述公有特征与行为关系的模型以及７个描述私有特征和行为的模型。使用环境上下文特征时，本文使用了三阶多项式来拟合行为概率同人体与家具相对位置的关系；由于研究的行为共涉及到６个不同的家具，故环境上下文总共包含３６维的数据，故公有特征向量总维度为３８维，全部特征向量的维度为４５维。其中在未分层的推理当中引入环境上下文后，推理准确率得到了提高，在不使用环境上下文时准确率为８３．４％，使用环境上下文时，准确率为８５．２０％。表２中选取了部分特征在不同的推理层次当中对于看书的影响。从中可以看出：１）分层推理时不同层次时同一特征的权重并不相同，并且在第２层推理时，公有特征对行为的影响变弱，这与直观感觉相符，即公有特征在判断模糊语义时可以起到很强的作用，但是在进行确定语义的判断时则不会起到较强的作用；２）私有特征对相应行为的影响很大，这也充分证明了实验中对特征的分层是比较合理的。表２特征在不同层数对看书的影响Ｔａｂｌｅ２Ｔｈｅｉｎｆｌｕｅｎｃｅｏｆｆｅａｔｕｒｅｓｏｎｒｅａｄｉｎｇｉｎｄｉｆｆｅｒｅｎｔｉｎｆｅｒｅｎｃｅｌａｙｅｒｓ特征第１层对看书的权重第２层对看书的权重身体姿势０．２７３２６００．１４１０８１身体朝向０．２６６３１８０．１１５３３１手触碰书Ｎ／Ｃ１．７４３５６７表３中所示为基于逻辑回归的不同层次推理的实验结果。从中可以得出以下结论：１）两者的推理精度接近，但是实用时分层的推理可以不用提取环境当中的所有特征，因此可以有效地节省系统效率；２）单层推理的模型总参数量为７×４５＝３１５个，而双层推理模型总参数量为７×３８＋７×３９＝５３９，双层推理的总参数虽然更多，但是单个模型的参数量却在减少，在待识别行为集变大，且训练样本不足的情况下，可以有效地降低过拟合的可能性；３）在公有特征和私有特征划分合理的情况下，若有新的行为加入，只需要重新训练公有特征与各个行为对应的权重，以及该行为的私有特征对应的权重即可，扩展代价较小。表３不同层数的推理比较Ｔａｂｌｅ３Ｔｈｅｃｏｍｐａｒｉｓｏｎｏｆｉｎｆｅｒｅｎｃｅｗｉｔｈｄｉｆｆｅｒｅｎｔｌａｙｅｒｓ推理层数准确率／％模型数量参数数量１８５．２０１３１５２８５．６１８５３９４．３．２基于ＨＭＭ实验结果在ＨＭＭ实现当中，对人体位置和家具位置进行离散化处理，以使其符合观测模型。未分层的ＨＭＭ推理即在观测时使用全部的特征值进行观测序列的似然值计算，而分层的推理则首先使用公有特征对观测序列进行似然值计算，对于过阈值的行为种类再结合其私有特征进行新一轮第２期聂慧饶，等：基于语义分层的行为推理框架 ·１８３·

184 智能系统学报第10卷的似然值计算，得到最终结果。识别当中，其隐从图5中可以看出在序列帧数选择较少时，节结点可能具有语义特征，但若是应用在视觉领点数目对识别结果几乎没有影响，而且整体识别准域，则是极有可能代表一些未知的中间状态，只确率相对较低，这是因为可以使用的历史信息不够有最后的分类结果才是有语义的]。因此，在充分。而在序列帧数较多时，隐结点数目取为帧数实验当中针对不同的序列长度均在不同的HMM 的一半左右为宜。对于帧数为20的序列，2层推理当中需要注意的主要有2个参数：所取的观测帧和1层推理的实验结果如图6所示。而隐结点数目数和隐结点数目。HMM若是应用在语音隐结点数目下进行实验，实验中分别选取了5帧、10帧、为8的条件下（该条件下准确率相对较高）的实验 15帧以及20帧，实验结果如图5所示。结果如表4所示。 100 …-吃解100 …2层一1层 0 果 "4""号“ 欧 70 看书喝水 6 用电脑 50 行为类别 00.51.01.52.02.53.03.54.04.5 (a)8个隐节点隐节点数目 (a)5帧序列 100 100 一2层一1层吃饭 00000 ·看电视 …吃水看书一一用电脑 2 行为类别 40 345.6 7 89 10 (b)9个隐节点隐节点数目 100 一2层一1层 (b)10帧序列 00 吃饭看书一喝水用电脑 40 6 60 行为类别 (c)10个隐节点 100 -2层一1层 810.12 141618 隐节点数目 (c)15帧序列 100 吃饭 90 …看电视 …吃水果 50 6 喝饮料行为类别 …看书 (d)11个隐节点喝水用电脑图62层HMM和1层HMM的实验结果对比 Fig.6 The comparison of 2-layer HMM and 1-layer HMM 40 可以得到类似于单帧推理的结论，并且还应该 30 注意到对于某些行为，分层后的推理准确率会有所 02 468101214161820 隐节点数目上升，这是因为分层推理模型当中不同层次下相同 (d)20帧序列特征可以有不同的权重（不同层次下的HMM模型图5不同长度序列在不同的隐结点数目下得到的的观测概率可以不同)，该行为对应的私有特征可各个行为的准确率以更好地发挥作用，而在未分层推理时，其对应的私 Fig.5 Inference accuracy of different sequences un- der different numbers of hidden nodes 有特征的作用可能被其他所影响

的似然值计算，得到最终结果。识别当中，其隐结点可能具有语义特征，但若是应用在视觉领域，则是极有可能代表一些未知的中间状态，只有最后的分类结果才是有语义的［２３］。因此，在实验当中针对不同的序列长度均在不同的ＨＭＭ当中需要注意的主要有２个参数：所取的观测帧数和隐结点数目。ＨＭＭ若是应用在语音隐结点数目下进行实验，实验中分别选取了５帧、１０帧、１５帧以及２０帧，实验结果如图５所示。图５不同长度序列在不同的隐结点数目下得到的各个行为的准确率Ｆｉｇ．５Ｉｎｆｅｒｅｎｃｅａｃｃｕｒａｃｙｏｆｄｉｆｆｅｒｅｎｔｓｅｑｕｅｎｃｅｓｕｎ⁃ ｄｅｒｄｉｆｆｅｒｅｎｔｎｕｍｂｅｒｓｏｆｈｉｄｄｅｎｎｏｄｅｓ从图５中可以看出在序列帧数选择较少时，节点数目对识别结果几乎没有影响，而且整体识别准确率相对较低，这是因为可以使用的历史信息不够充分。而在序列帧数较多时，隐结点数目取为帧数的一半左右为宜。对于帧数为２０的序列，２层推理和１层推理的实验结果如图６所示。而隐结点数目为８的条件下（该条件下准确率相对较高）的实验结果如表４所示。图６２层ＨＭＭ和１层ＨＭＭ的实验结果对比Ｆｉｇ．６Ｔｈｅｃｏｍｐａｒｉｓｏｎｏｆ２⁃ｌａｙｅｒＨＭＭａｎｄ１⁃ｌａｙｅｒＨＭＭ可以得到类似于单帧推理的结论，并且还应该注意到对于某些行为，分层后的推理准确率会有所上升，这是因为分层推理模型当中不同层次下相同特征可以有不同的权重（不同层次下的ＨＭＭ模型的观测概率可以不同），该行为对应的私有特征可以更好地发挥作用，而在未分层推理时，其对应的私有特征的作用可能被其他所影响。 ·１８４· 智能系统学报第１０卷

第2期聂慧饶，等：基于语义分层的行为推理框架 ·185. 表420帧8个隐节点下的各行为的准确率以及总体准确率 ceedings of IEEE International Conference on Computer Vi- Table 4 Inference accuracy of different activities under the sion.Sydney,2013:3583.3590. configuration of 20 frames and 8 hidden nodes [5]BOUCHARD B,GIROUX S,BOUZOUANE A.A smart 行为 2层准确率/9% 1层准确率/% home agent for plan recognition of cognitively-impaired pa- 吃饭 81.27 82.18 tients[].Journal of Computers,2006,1(5):53-62. 看电视 [6]CHEN L,NUGENT C D,MULVENNA M,et al.A logical 62.48 62.66 framework for behavior reasoning and assistance in a smart 吃水果 66.54 67.82 home[J].International Journal of Assistive Robotics and 喝饮料 84.70 90.99 Mechatronics,2008,9(4):20-34. 看书 64.64 67.22 [7]THOMSON G,TERZIS S,NIXON P.Situation determina- 喝水 66.54 68.41 tion with reusable situation specifications[C]//Proceedings 使用电脑 74.32 76.06 of IEEE International Conference on Pervasive Computing 总体 74.32 76.06 and Communications Workshops.Pisa,Italy,2006:620- 623. 5 结束语 [8]ISHIMARU S,UEMA Y,KUNZE K,et al.Smarter eye- 本文将环境上下文作为公有特征用于行为理 wear:using commercial EOG glasses for activity recognition 解，从而实现了环境上下文的可计算性，并可以对环 [C]//Proceedings of ACM International Joint Conference 境信息进行更加精确的描述。此外，本文将行为推 on Pervasive and Ubiquitous Computing:Adjunct Publica- 理的过程分为了获取模糊语义和确定语义2个阶 tiom.[.1],2014:239-242. 段：系统在推理过程中，根据当前观测的公有特征进 [9]HUNH T,SCHIELE B.Unsupervised discovery of structure 行判断，筛选出模糊语义满足条件的候选行为集：如 in activity data using multiple eigenspaces[C]//Proceed- ings of Second International Workshop on Location-and Con- 此迭代，直到依据候选行为集中的行为，观测其私有 text-Awareness.Dublin,Ireland,2006:151-167. 特征，并做出最为精确的判断并确定当前的语义。 [10]LIAO L,FOX D,KAUTZ H.Extracting places and activi- 该框架避免了传统算法未对语义分层而提取环境中 ties from GPS traces using hierarchical conditional random 所有特征的弊病，可以有效地提升系统性能，已经在 fields[J].The International Journal of Robotics Research, 基于真实场景的数据集中得到了初步验证。 2007,26(1):119-134. [11]WARD J A,LUKOWICZ P,TROSTER G,et al.Activity 参考文献： recognition of assembly tasks using body-worn microphones [1]PANTIC M,PENTLAND A,NIJHOLT A,et al.Human and accelerometers[J].IEEE Transactions on Pattern A- computing and machine understanding of human behavior:a nalysis and Machine Intelligence,2006,28(10):1553- survey[C]//Proceedings of ACM International Conference 1567. on Multimodal Interfaces.Banff,Canada,2006:260-266. [12]LIU C D,CHUNG Y N,CHUNG P C.An interaction-em- [2]石为人，周彬，许磊.普适计算：人本计算[J].计算机 bedded HMM framework for human behavior understand- 应用，2005,25(7)：1479-1484. ing:with nursing environments as examples [J].IEEE SHI Weiren,ZHOU Bin,XU Lei.Pervasive computing: Transactions on Information Technology in Biomedicine, human-centered computing [J].Computer Applications, 2010,14(5):1236-1246. 2005,25(7):1479-1484. [13]SINGLA G,COOK D J,SCHMITTER-EDGECOMBE M. [3]陶霖密，杨卓宁，王国建.行为理解的认知方法[J].中 Recognizing independent and joint activities among multi- 国图象图形学报，2014,19(2)：167-174. ple residents in smart environments[J].Journal of Ambi- TAO Linmi,YANG Zhuoning,WANG Guojian.Cognitive ent Intelligence and Humanized Computing,2010,1(1): reasoning method for behavior understanding[J].Computer 57-63 Applications,2014,19(2):167-174. [14]WANG S,PENTNEY W,POPESCU A M,et al.Common [4]SHARIAT S,PAVLOVIC V.A new adaptive segmental sense based joint training of human activity recognizers matching measure for human activity recognition[C]//Pro- C]//Proceedings of IJCAl.Hyderabad,India,2007:

表４２０帧８个隐节点下的各行为的准确率以及总体准确率Ｔａｂｌｅ４Ｉｎｆｅｒｅｎｃｅａｃｃｕｒａｃｙｏｆｄｉｆｆｅｒｅｎｔａｃｔｉｖｉｔｉｅｓｕｎｄｅｒｔｈｅｃｏｎｆｉｇｕｒａｔｉｏｎｏｆ２０ｆｒａｍｅｓａｎｄ８ｈｉｄｄｅｎｎｏｄｅｓ行为２层准确率／％１层准确率／％吃饭８１．２７８２．１８看电视６２．４８６２．６６吃水果６６．５４６７．８２喝饮料８４．７０９０．９９看书６４．６４６７．２２喝水６６．５４６８．４１使用电脑７４．３２７６．０６总体７４．３２７６．０６５结束语本文将环境上下文作为公有特征用于行为理解，从而实现了环境上下文的可计算性，并可以对环境信息进行更加精确的描述。此外，本文将行为推理的过程分为了获取模糊语义和确定语义２个阶段；系统在推理过程中，根据当前观测的公有特征进行判断，筛选出模糊语义满足条件的候选行为集；如此迭代，直到依据候选行为集中的行为，观测其私有特征，并做出最为精确的判断并确定当前的语义。该框架避免了传统算法未对语义分层而提取环境中所有特征的弊病，可以有效地提升系统性能，已经在基于真实场景的数据集中得到了初步验证。参考文献：［１］ＰＡＮＴＩＣＭ，ＰＥＮＴＬＡＮＤＡ，ＮＩＪＨＯＬＴＡ，ｅｔａｌ．Ｈｕｍａｎｃｏｍｐｕｔｉｎｇａｎｄｍａｃｈｉｎｅｕｎｄｅｒｓｔａｎｄｉｎｇｏｆｈｕｍａｎｂｅｈａｖｉｏｒ：ａｓｕｒｖｅｙ［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆＡＣＭＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭｕｌｔｉｍｏｄａｌＩｎｔｅｒｆａｃｅｓ．Ｂａｎｆｆ，Ｃａｎａｄａ，２００６：２６０⁃２６６．［２］石为人，周彬，许磊．普适计算：人本计算［Ｊ］．计算机应用，２００５，２５（７）：１４７９⁃１４８４．ＳＨＩＷｅｉｒｅｎ，ＺＨＯＵＢｉｎ，ＸＵＬｅｉ．Ｐｅｒｖａｓｉｖｅｃｏｍｐｕｔｉｎｇ：ｈｕｍａｎ⁃ｃｅｎｔｅｒｅｄｃｏｍｐｕｔｉｎｇ［Ｊ］．ＣｏｍｐｕｔｅｒＡｐｐｌｉｃａｔｉｏｎｓ，２００５，２５（７）：１４７９⁃１４８４．［３］陶霖密，杨卓宁，王国建．行为理解的认知方法［Ｊ］．中国图象图形学报，２０１４，１９（２）：１６７⁃１７４．ＴＡＯＬｉｎｍｉ，ＹＡＮＧＺｈｕｏｎｉｎｇ，ＷＡＮＧＧｕｏｊｉａｎ．Ｃｏｇｎｉｔｉｖｅｒｅａｓｏｎｉｎｇｍｅｔｈｏｄｆｏｒｂｅｈａｖｉｏｒｕｎｄｅｒｓｔａｎｄｉｎｇ［Ｊ］．ＣｏｍｐｕｔｅｒＡｐｐｌｉｃａｔｉｏｎｓ，２０１４，１９（２）：１６７⁃１７４．［４］ＳＨＡＲＩＡＴＳ，ＰＡＶＬＯＶＩＣＶ．Ａｎｅｗａｄａｐｔｉｖｅｓｅｇｍｅｎｔａｌｍａｔｃｈｉｎｇｍｅａｓｕｒｅｆｏｒｈｕｍａｎａｃｔｉｖｉｔｙｒｅｃｏｇｎｉｔｉｏｎ［Ｃ］／／Ｐｒｏ⁃ ｃｅｅｄｉｎｇｓｏｆＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉ⁃ ｓｉｏｎ．Ｓｙｄｎｅｙ，２０１３：３５８３⁃３５９０．［５］ＢＯＵＣＨＡＲＤＢ，ＧＩＲＯＵＸＳ，ＢＯＵＺＯＵＡＮＥＡ．Ａｓｍａｒｔｈｏｍｅａｇｅｎｔｆｏｒｐｌａｎｒｅｃｏｇｎｉｔｉｏｎｏｆｃｏｇｎｉｔｉｖｅｌｙ⁃ｉｍｐａｉｒｅｄｐａ⁃ ｔｉｅｎｔｓ［Ｊ］．ＪｏｕｒｎａｌｏｆＣｏｍｐｕｔｅｒｓ，２００６，１（５）：５３⁃６２．［６］ＣＨＥＮＬ，ＮＵＧＥＮＴＣＤ，ＭＵＬＶＥＮＮＡＭ，ｅｔａｌ．Ａｌｏｇｉｃａｌｆｒａｍｅｗｏｒｋｆｏｒｂｅｈａｖｉｏｒｒｅａｓｏｎｉｎｇａｎｄａｓｓｉｓｔａｎｃｅｉｎａｓｍａｒｔｈｏｍｅ［Ｊ］．ＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｒｎａｌｏｆＡｓｓｉｓｔｉｖｅＲｏｂｏｔｉｃｓａｎｄＭｅｃｈａｔｒｏｎｉｃｓ，２００８，９（４）：２０⁃３４．［７］ＴＨＯＭＳＯＮＧ，ＴＥＲＺＩＳＳ，ＮＩＸＯＮＰ．Ｓｉｔｕａｔｉｏｎｄｅｔｅｒｍｉｎａ⁃ ｔｉｏｎｗｉｔｈｒｅｕｓａｂｌｅｓｉｔｕａｔｉｏｎｓｐｅｃｉｆｉｃａｔｉｏｎｓ［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＰｅｒｖａｓｉｖｅＣｏｍｐｕｔｉｎｇａｎｄＣｏｍｍｕｎｉｃａｔｉｏｎｓＷｏｒｋｓｈｏｐｓ．Ｐｉｓａ，Ｉｔａｌｙ，２００６：６２０⁃ ６２３．［８］ＩＳＨＩＭＡＲＵＳ，ＵＥＭＡＹ，ＫＵＮＺＥＫ，ｅｔａｌ．Ｓｍａｒｔｅｒｅｙｅ⁃ ｗｅａｒ：ｕｓｉｎｇｃｏｍｍｅｒｃｉａｌＥＯＧｇｌａｓｓｅｓｆｏｒａｃｔｉｖｉｔｙｒｅｃｏｇｎｉｔｉｏｎ［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆＡＣＭＩｎｔｅｒｎａｔｉｏｎａｌＪｏｉｎｔＣｏｎｆｅｒｅｎｃｅｏｎＰｅｒｖａｓｉｖｅａｎｄＵｂｉｑｕｉｔｏｕｓＣｏｍｐｕｔｉｎｇ：ＡｄｊｕｎｃｔＰｕｂｌｉｃａ⁃ ｔｉｏｎ．［Ｓ．ｌ．］，２０１４：２３９⁃２４２．［９］ＨＵＮＨＴ，ＳＣＨＩＥＬＥＢ．Ｕｎｓｕｐｅｒｖｉｓｅｄｄｉｓｃｏｖｅｒｙｏｆｓｔｒｕｃｔｕｒｅｉｎａｃｔｉｖｉｔｙｄａｔａｕｓｉｎｇｍｕｌｔｉｐｌｅｅｉｇｅｎｓｐａｃｅｓ［Ｃ］／／Ｐｒｏｃｅｅｄ⁃ ｉｎｇｓｏｆＳｅｃｏｎｄＩｎｔｅｒｎａｔｉｏｎａｌＷｏｒｋｓｈｏｐｏｎＬｏｃａｔｉｏｎ⁃ａｎｄＣｏｎ⁃ ｔｅｘｔ⁃Ａｗａｒｅｎｅｓｓ．Ｄｕｂｌｉｎ，Ｉｒｅｌａｎｄ，２００６：１５１⁃１６７．［１０］ＬＩＡＯＬ，ＦＯＸＤ，ＫＡＵＴＺＨ．Ｅｘｔｒａｃｔｉｎｇｐｌａｃｅｓａｎｄａｃｔｉｖｉ⁃ ｔｉｅｓｆｒｏｍＧＰＳｔｒａｃｅｓｕｓｉｎｇｈｉｅｒａｒｃｈｉｃａｌｃｏｎｄｉｔｉｏｎａｌｒａｎｄｏｍｆｉｅｌｄｓ［Ｊ］．ＴｈｅＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｒｎａｌｏｆＲｏｂｏｔｉｃｓＲｅｓｅａｒｃｈ，２００７，２６（１）：１１９⁃１３４．［１１］ＷＡＲＤＪＡ，ＬＵＫＯＷＩＣＺＰ，ＴＲＯＳＴＥＲＧ，ｅｔａｌ．Ａｃｔｉｖｉｔｙｒｅｃｏｇｎｉｔｉｏｎｏｆａｓｓｅｍｂｌｙｔａｓｋｓｕｓｉｎｇｂｏｄｙ⁃ｗｏｒｎｍｉｃｒｏｐｈｏｎｅｓａｎｄａｃｃｅｌｅｒｏｍｅｔｅｒｓ［Ｊ］．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＰａｔｔｅｒｎＡ⁃ ｎａｌｙｓｉｓａｎｄＭａｃｈｉｎｅＩｎｔｅｌｌｉｇｅｎｃｅ，２００６，２８（１０）：１５５３⁃ １５６７．［１２］ＬＩＵＣＤ，ＣＨＵＮＧＹＮ，ＣＨＵＮＧＰＣ．Ａｎｉｎｔｅｒａｃｔｉｏｎ⁃ｅｍ⁃ ｂｅｄｄｅｄＨＭＭｆｒａｍｅｗｏｒｋｆｏｒｈｕｍａｎｂｅｈａｖｉｏｒｕｎｄｅｒｓｔａｎｄ⁃ ｉｎｇ：ｗｉｔｈｎｕｒｓｉｎｇｅｎｖｉｒｏｎｍｅｎｔｓａｓｅｘａｍｐｌｅｓ［Ｊ］．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｆｏｒｍａｔｉｏｎＴｅｃｈｎｏｌｏｇｙｉｎＢｉｏｍｅｄｉｃｉｎｅ，２０１０，１４（５）：１２３６⁃１２４６．［１３］ＳＩＮＧＬＡＧ，ＣＯＯＫＤＪ，ＳＣＨＭＩＴＴＥＲ⁃ＥＤＧＥＣＯＭＢＥＭ．Ｒｅｃｏｇｎｉｚｉｎｇｉｎｄｅｐｅｎｄｅｎｔａｎｄｊｏｉｎｔａｃｔｉｖｉｔｉｅｓａｍｏｎｇｍｕｌｔｉ⁃ ｐｌｅｒｅｓｉｄｅｎｔｓｉｎｓｍａｒｔｅｎｖｉｒｏｎｍｅｎｔｓ［Ｊ］．ＪｏｕｒｎａｌｏｆＡｍｂｉ⁃ ｅｎｔＩｎｔｅｌｌｉｇｅｎｃｅａｎｄＨｕｍａｎｉｚｅｄＣｏｍｐｕｔｉｎｇ，２０１０，１（１）：５７⁃６３．［１４］ＷＡＮＧＳ，ＰＥＮＴＮＥＹＷ，ＰＯＰＥＳＣＵＡＭ，ｅｔａｌ．Ｃｏｍｍｏｎｓｅｎｓｅｂａｓｅｄｊｏｉｎｔｔｒａｉｎｉｎｇｏｆｈｕｍａｎａｃｔｉｖｉｔｙｒｅｃｏｇｎｉｚｅｒｓ［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆＩＪＣＡＩ．Ｈｙｄｅｒａｂａｄ，Ｉｎｄｉａ，２００７：第２期聂慧饶，等：基于语义分层的行为推理框架 ·１８５·

·186· 智能系统学报第10卷 2237-2242 [21]GONZaLEZ J,VARONA J,ROCA F X,et al.aSpaces: [15]SMINCHISESCU C,KANAUJIA A,METAXAS D.Condi- Action spaces for recognition and synthesis of human ac- tional models for contextual human motion recognition[J]. tions[C]//Proceedings of Articulated Motion and Deform- Computer Vision and Image Understanding,2006,104 able Objects.Palma de Mallorca,Spain,2002:189-200. (2):210-220. [22]SUN L,DI H,TAO L,et al.A robust approach for person [16]LEE S W,MASE K.Activity and location recognition u- localization in multi-camera environment[C]//Proceedings sing wearable sensors [J].IEEE Pervasive Computing, of IEEE International Conference on Pattern Recognition. 2002,1(3):24-32. Istanbul,Turkey,2010:4036-4039. [17]WANG G,JIANG J,SHI M.A context model for collabo- [23 ]LUO Y,WU T D.HWANG J N.Object-based analysis rative environment[C]//Proceedings of IEEE International and interpretation of human motion in sports video se- Conference on Computer Supported Cooperative Work in quences by dynamic Bayesian networks[J].Computer Vi- Design.Nanjing,China,2006:1-6. sion and Image Understanding,2003,92(2):196-216. [18 LI M.Ontology-based Context information modeling for 作者简介： smart space[C]//Proceedings of IEEE International Con- 聂慧饶，男，1990年生，硕士研究生 ference on Cognitive Informatics and Cognitive Computing. 主要研究方向为模式识别，行为理解。 Banff,Canada,2011:278-283. [19]MOESLUND T B,HILTON A,KRuGER V.A survey of advances in vision-based human motion capture and analy- sis[J].Computer Vision and Image Understanding,2006, 104(2):90-126. 陶霖密，男，1962年生，副教授，主 [20]AGGARWAL J K,PARK S.Human motion:modeling and 要研究方向为人机交互、计算机视觉与 recognition of actions and interactions[C]//Proceedings of 模式识别等。承担的项目有国家重点 IEEE International Symposium on 3D Data Processing,Vi- 基金情感计算，以及与BM、INTEL,SI sualization and Transmission.Thessaloniki,Greece,2004. EMENS的国际合作基金等重要项目。 640-647. 发表论文多篇。 2015世界机器人大会 World Robot Conference 2015(WRC 2015) 为贯彻落实习总书记在2014年两院院士大会上的讲话精神，积极推动创新驱动发展战略，实现我国机器人技术与产业的跨越发展，中国科学技术协会、工业和信息化部将于2015年11月在北京国家会议中心共同举办主题为“协同融合发展，引领智能社会”的2015世界机器人大会。 2015世界机器人大会将由3项内容组成，分别是：2015世界机器人论坛(World Forum on Robot2015, WFR2015)、2015世界机器人博览会(World Robot Exhibition2015,WRE2015)和2015国际青少年机器人邀请赛 World Adolescent Robot Contest 2015,WARC 2015) 本次大会将为政府、科研机构、行业协会和和企业提供一个高端的交流平台，共同探讨、展示全球机器人的发展现状与趋势，研究机器人技术创新与产业化现状以及给我国制造业发展带来的机遇和挑战等，对促进我国机器人产业发展，推动制造业转型升级具有重要意义。 Website:http://www.cie-info.org.cn/index/tztg/201535/1425539003413_1.html

２２３７⁃２２４２．［１５］ＳＭＩＮＣＨＩＳＥＳＣＵＣ，ＫＡＮＡＵＪＩＡＡ，ＭＥＴＡＸＡＳＤ．Ｃｏｎｄｉ⁃ ｔｉｏｎａｌｍｏｄｅｌｓｆｏｒｃｏｎｔｅｘｔｕａｌｈｕｍａｎｍｏｔｉｏｎｒｅｃｏｇｎｉｔｉｏｎ［Ｊ］．ＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＩｍａｇｅＵｎｄｅｒｓｔａｎｄｉｎｇ，２００６，１０４（２）：２１０⁃２２０．［１６］ＬＥＥＳＷ，ＭＡＳＥＫ．Ａｃｔｉｖｉｔｙａｎｄｌｏｃａｔｉｏｎｒｅｃｏｇｎｉｔｉｏｎｕ⁃ ｓｉｎｇｗｅａｒａｂｌｅｓｅｎｓｏｒｓ［Ｊ］．ＩＥＥＥＰｅｒｖａｓｉｖｅＣｏｍｐｕｔｉｎｇ，２００２，１（３）：２４⁃３２．［１７］ＷＡＮＧＧ，ＪＩＡＮＧＪ，ＳＨＩＭ．Ａｃｏｎｔｅｘｔｍｏｄｅｌｆｏｒｃｏｌｌａｂｏ⁃ ｒａｔｉｖｅｅｎｖｉｒｏｎｍｅｎｔ［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＳｕｐｐｏｒｔｅｄＣｏｏｐｅｒａｔｉｖｅＷｏｒｋｉｎＤｅｓｉｇｎ．Ｎａｎｊｉｎｇ，Ｃｈｉｎａ，２００６：１⁃６．［１８］ＬＩＭ．Ｏｎｔｏｌｏｇｙ⁃ｂａｓｅｄＣｏｎｔｅｘｔｉｎｆｏｒｍａｔｉｏｎｍｏｄｅｌｉｎｇｆｏｒｓｍａｒｔｓｐａｃｅ［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎ⁃ ｆｅｒｅｎｃｅｏｎＣｏｇｎｉｔｉｖｅＩｎｆｏｒｍａｔｉｃｓａｎｄＣｏｇｎｉｔｉｖｅＣｏｍｐｕｔｉｎｇ．Ｂａｎｆｆ，Ｃａｎａｄａ，２０１１：２７８⁃２８３．［１９］ＭＯＥＳＬＵＮＤＴＢ，ＨＩＬＴＯＮＡ，ＫＲüＧＥＲＶ．Ａｓｕｒｖｅｙｏｆａｄｖａｎｃｅｓｉｎｖｉｓｉｏｎ⁃ｂａｓｅｄｈｕｍａｎｍｏｔｉｏｎｃａｐｔｕｒｅａｎｄａｎａｌｙ⁃ ｓｉｓ［Ｊ］．ＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＩｍａｇｅＵｎｄｅｒｓｔａｎｄｉｎｇ，２００６，１０４（２）：９０⁃１２６．［２０］ＡＧＧＡＲＷＡＬＪＫ，ＰＡＲＫＳ．Ｈｕｍａｎｍｏｔｉｏｎ：ｍｏｄｅｌｉｎｇａｎｄｒｅｃｏｇｎｉｔｉｏｎｏｆａｃｔｉｏｎｓａｎｄｉｎｔｅｒａｃｔｉｏｎｓ［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＳｙｍｐｏｓｉｕｍｏｎ３ＤＤａｔａＰｒｏｃｅｓｓｉｎｇ，Ｖｉ⁃ ｓｕａｌｉｚａｔｉｏｎａｎｄＴｒａｎｓｍｉｓｓｉｏｎ．Ｔｈｅｓｓａｌｏｎｉｋｉ，Ｇｒｅｅｃｅ，２００４．６４０⁃６４７．［２１］ＧＯＮＺàＬＥＺＪ，ＶＡＲＯＮＡＪ，ＲＯＣＡＦＸ，ｅｔａｌ．ａＳｐａｃｅｓ：Ａｃｔｉｏｎｓｐａｃｅｓｆｏｒｒｅｃｏｇｎｉｔｉｏｎａｎｄｓｙｎｔｈｅｓｉｓｏｆｈｕｍａｎａｃ⁃ ｔｉｏｎｓ［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆＡｒｔｉｃｕｌａｔｅｄＭｏｔｉｏｎａｎｄＤｅｆｏｒｍ⁃ ａｂｌｅＯｂｊｅｃｔｓ．ＰａｌｍａｄｅＭａｌｌｏｒｃａ，Ｓｐａｉｎ，２００２：１８９⁃２００．［２２］ＳＵＮＬ，ＤＩＨ，ＴＡＯＬ，ｅｔａｌ．Ａｒｏｂｕｓｔａｐｐｒｏａｃｈｆｏｒｐｅｒｓｏｎｌｏｃａｌｉｚａｔｉｏｎｉｎｍｕｌｔｉ⁃ｃａｍｅｒａｅｎｖｉｒｏｎｍｅｎｔ［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ．Ｉｓｔａｎｂｕｌ，Ｔｕｒｋｅｙ，２０１０：４０３６⁃４０３９．［２３］ＬＵＯＹ，ＷＵＴＤ，ＨＷＡＮＧＪＮ．Ｏｂｊｅｃｔ⁃ｂａｓｅｄａｎａｌｙｓｉｓａｎｄｉｎｔｅｒｐｒｅｔａｔｉｏｎｏｆｈｕｍａｎｍｏｔｉｏｎｉｎｓｐｏｒｔｓｖｉｄｅｏｓｅ⁃ ｑｕｅｎｃｅｓｂｙｄｙｎａｍｉｃＢａｙｅｓｉａｎｎｅｔｗｏｒｋｓ［Ｊ］．ＣｏｍｐｕｔｅｒＶｉ⁃ ｓｉｏｎａｎｄＩｍａｇｅＵｎｄｅｒｓｔａｎｄｉｎｇ，２００３，９２（２）：１９６⁃２１６．作者简介：聂慧饶，男，１９９０年生，硕士研究生，主要研究方向为模式识别、行为理解。陶霖密，男，１９６２年生，副教授，主要研究方向为人机交互、计算机视觉与模式识别等。承担的项目有国家重点基金情感计算，以及与ＩＢＭ、ＩＮＴＥＬ、ＳＩ⁃ ＥＭＥＮＳ的国际合作基金等重要项目。发表论文多篇。２０１５世界机器人大会ＷｏｒｌｄＲｏｂｏｔＣｏｎｆｅｒｅｎｃｅ２０１５（ＷＲＣ２０１５）为贯彻落实习总书记在２０１４年两院院士大会上的讲话精神，积极推动创新驱动发展战略，实现我国机器人技术与产业的跨越发展，中国科学技术协会、工业和信息化部将于２０１５年１１月在北京国家会议中心共同举办主题为“协同融合发展，引领智能社会”的２０１５世界机器人大会。２０１５世界机器人大会将由３项内容组成，分别是：２０１５世界机器人论坛（ＷｏｒｌｄＦｏｒｕｍｏｎＲｏｂｏｔ２０１５，ＷＦＲ２０１５）、２０１５世界机器人博览会（ＷｏｒｌｄＲｏｂｏｔＥｘｈｉｂｉｔｉｏｎ２０１５，ＷＲＥ２０１５）和２０１５国际青少年机器人邀请赛（ＷｏｒｌｄＡｄｏｌｅｓｃｅｎｔＲｏｂｏｔＣｏｎｔｅｓｔ２０１５，ＷＡＲＣ２０１５）。本次大会将为政府、科研机构、行业协会和和企业提供一个高端的交流平台，共同探讨、展示全球机器人的发展现状与趋势，研究机器人技术创新与产业化现状以及给我国制造业发展带来的机遇和挑战等，对促进我国机器人产业发展，推动制造业转型升级具有重要意义。Ｗｅｂｓｉｔｅ：ｈｔｔｐ：／／ｗｗｗ．ｃｉｅ－ｉｎｆｏ．ｏｒｇ．ｃｎ／ｉｎｄｅｘ／ｔｚｔｇ／２０１５３５／１４２５５３９００３４１３＿１．ｈｔｍｌ ·１８６· 智能系统学报第１０卷

点击下载完整版文档（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录

智能系统：基于语义分层的行为推理框架