正在加载图片...
第2期 聂慧饶,等:基于语义分层的行为推理框架 ·183 针对该行为集,使用了2层的推理框架对其进 度为38维,全部特征向量的维度为45维。其中在 行推理:定义公有特征集为{人体的姿势,人体的朝 未分层的推理当中引入环境上下文后,推理准确率 向,人体的位置},其中人体的姿势有2个观测值, 得到了提高,在不使用环境上下文时准确率为 分别为站着和坐着,人体的朝向被离散成8个数值, 83.4%,使用环境上下文时,准确率为85.20%。 人体的位置则由文献[22]中介绍的算法求出。针 表2中选取了部分特征在不同的推理层次当中 对不同的行为,分别定义了附着于其上的私有特征, 对于看书的影响。从中可以看出:)分层推理时不同 具体内容如表1所示。 层次时同一特征的权重并不相同,并且在第2层推理 由于本文侧重于推理方式及效率的研究,对于 时,公有特征对行为的影响变弱,这与直观感觉相符, 如何通过对视频进行图像处理以获取所需的特征并 即公有特征在判断模糊语义时可以起到很强的作用, 没有进行深入探讨,本文中除了人体位置外的其他 但是在进行确定语义的判断时则不会起到较强的作 特征均是通过人工予以标注。事实上,若今后针对 用:2)私有特征对相应行为的影响很大,这也充分证 相应特征的视觉算法成熟后可以方便地集成到本文 明了实验中对特征的分层是比较合理的。 所提出的推理框架当中。 表2特征在不同层数对看书的影响 表1不同行为的私有特征 Table 2 The influence of features on reading in different Table 1 Private features of different activities inference layers 行为 相应的私有特征 特征取值 特征 第1层对看书的权重第2层对看书的权重 吃饭 手中有餐具 {持有、不持有} 身体姿势 0.273260 0.141081 看电视 电视开着 {开着,关闭引 身体朝向 0.266318 0.115331 吃水果 手中有水果 {持有、不持有} 手触碰书 N/C 1.743567 喝饮料 手中有饮料 {持有、不持有} 表3中所示为基于逻辑回归的不同层次推理的 看书 手接触到了书 {触碰,未触碰} 实验结果。从中可以得出以下结论:1)两者的推理精 喝水 手中有水杯 {持有、不持有} 度接近,但是实用时分层的推理可以不用提取环境当 使用电脑 电脑开着 {开着,关闭} 中的所有特征,因此可以有效地节省系统效率:2)单 4.3实验结果 层推理的模型总参数量为7×45=315个,而双层推理 本文分别使用了基于逻辑回归和HMM的推理 模型总参数量为7×38+7×39=539,双层推理的总参 数虽然更多,但是单个模型的参数量却在减少,在待 方式实现。在本节当中,针对这2种实现,均对比了 识别行为集变大,且训练样本不足的情况下,可以有 未使用分层推理和使用分层推理的正确率。 效地降低过拟合的可能性:3)在公有特征和私有特征 4.3.1基于逻辑回归的实验结果 划分合理的情况下,若有新的行为加入,只需要重新 使用未分层的推理实现时,将所有的特征直接 训练公有特征与各个行为对应的权重,以及该行为的 用于训练得到特征-行为权重,此时针对7个不同 私有特征对应的权重即可,扩展代价较小。 的行为,均可以得到一组特征与行为的权重关系:此 表3不同层数的推理比较 7组特征-行为权重可以用逻辑回归训练出的1个 Table 3 The comparison of inference with different layers 模型予以表示。而分层推理实现,则是先针对所有 推理层数准确率/% 模型数量 参数数量 的行为使用公有特征训练得到特征-行为权重,其 1 85.20 315 后针对每个行为,结合公有特征及私有特征,训练出 2 85.61 8 539 相应的特征-行为权重,即分层推理实现时,最终得 4.3.2基于HMM实验结果 到1个描述公有特征与行为关系的模型以及7个描 在HMM实现当中,对人体位置和家具位置 述私有特征和行为的模型。 进行离散化处理,以使其符合观测模型。未分层 使用环境上下文特征时,本文使用了三阶多项 的HMM推理即在观测时使用全部的特征值进行 式来拟合行为概率同人体与家具相对位置的关系: 观测序列的似然值计算,而分层的推理则首先使 由于研究的行为共涉及到6个不同的家具,故环境 用公有特征对观测序列进行似然值计算,对于过 上下文总共包含36维的数据,故公有特征向量总维 阈值的行为种类再结合其私有特征进行新一轮针对该行为集,使用了 2 层的推理框架对其进 行推理;定义公有特征集为{人体的姿势,人体的朝 向,人体的位置},其中人体的姿势有 2 个观测值, 分别为站着和坐着,人体的朝向被离散成 8 个数值, 人体的位置则由文献[22] 中介绍的算法求出。 针 对不同的行为,分别定义了附着于其上的私有特征, 具体内容如表 1 所示。 由于本文侧重于推理方式及效率的研究,对于 如何通过对视频进行图像处理以获取所需的特征并 没有进行深入探讨,本文中除了人体位置外的其他 特征均是通过人工予以标注。 事实上,若今后针对 相应特征的视觉算法成熟后可以方便地集成到本文 所提出的推理框架当中。 表 1 不同行为的私有特征 Table 1 Private features of different activities 行为 相应的私有特征 特征取值 吃饭 手中有餐具 {持有、不持有} 看电视 电视开着 {开着, 关闭} 吃水果 手中有水果 {持有、不持有} 喝饮料 手中有饮料 {持有、不持有} 看书 手接触到了书 {触碰,未触碰} 喝水 手中有水杯 {持有、不持有} 使用电脑 电脑开着 {开着,关闭} 4.3 实验结果 本文分别使用了基于逻辑回归和 HMM 的推理 方式实现。 在本节当中,针对这 2 种实现,均对比了 未使用分层推理和使用分层推理的正确率。 4.3.1 基于逻辑回归的实验结果 使用未分层的推理实现时,将所有的特征直接 用于训练得到特征-行为权重,此时针对 7 个不同 的行为,均可以得到一组特征与行为的权重关系;此 7 组特征-行为权重可以用逻辑回归训练出的 1 个 模型予以表示。 而分层推理实现,则是先针对所有 的行为使用公有特征训练得到特征-行为权重,其 后针对每个行为,结合公有特征及私有特征,训练出 相应的特征-行为权重,即分层推理实现时,最终得 到 1 个描述公有特征与行为关系的模型以及 7 个描 述私有特征和行为的模型。 使用环境上下文特征时,本文使用了三阶多项 式来拟合行为概率同人体与家具相对位置的关系; 由于研究的行为共涉及到 6 个不同的家具,故环境 上下文总共包含 36 维的数据,故公有特征向量总维 度为 38 维,全部特征向量的维度为 45 维。 其中在 未分层的推理当中引入环境上下文后,推理准确率 得到了 提 高, 在 不 使 用 环 境 上 下 文 时 准 确 率 为 83.4%,使用环境上下文时,准确率为 85.20%。 表 2 中选取了部分特征在不同的推理层次当中 对于看书的影响。 从中可以看出:1)分层推理时不同 层次时同一特征的权重并不相同,并且在第 2 层推理 时,公有特征对行为的影响变弱,这与直观感觉相符, 即公有特征在判断模糊语义时可以起到很强的作用, 但是在进行确定语义的判断时则不会起到较强的作 用;2)私有特征对相应行为的影响很大,这也充分证 明了实验中对特征的分层是比较合理的。 表 2 特征在不同层数对看书的影响 Table 2 The influence of features on reading in different inference layers 特征 第 1 层对看书的权重 第 2 层对看书的权重 身体姿势 0.273 260 0.141 081 身体朝向 0.266 318 0.115 331 手触碰书 N/ C 1.743 567 表 3 中所示为基于逻辑回归的不同层次推理的 实验结果。 从中可以得出以下结论:1)两者的推理精 度接近,但是实用时分层的推理可以不用提取环境当 中的所有特征,因此可以有效地节省系统效率;2)单 层推理的模型总参数量为 7×45 = 315 个,而双层推理 模型总参数量为 7×38+7×39 = 539,双层推理的总参 数虽然更多,但是单个模型的参数量却在减少,在待 识别行为集变大,且训练样本不足的情况下,可以有 效地降低过拟合的可能性;3)在公有特征和私有特征 划分合理的情况下,若有新的行为加入,只需要重新 训练公有特征与各个行为对应的权重,以及该行为的 私有特征对应的权重即可,扩展代价较小。 表 3 不同层数的推理比较 Table 3 The comparison of inference with different layers 推理层数 准确率/ % 模型数量 参数数量 1 85.20 1 315 2 85.61 8 539 4.3.2 基于 HMM 实验结果 在 HMM 实现当中,对人体位置和家具位置 进行离散化处理,以使其符合观测模型。 未分层 的 HMM 推理即在观测时使用全部的特征值进行 观测序列的似然值计算,而分层的推理则首先使 用公有特征对观测序列进行似然值计算,对于过 阈值的行为种类再结合其私有特征进行新一轮 第 2 期 聂慧饶,等:基于语义分层的行为推理框架 ·183·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有