第15卷第3期 智能系统学报 Vol.15 No.3 2020年5月 CAAI Transactions on Intelligent Systems May 2020 D0:10.11992tis.202006029 时空域融合的骨架动作识别与交互研究 钟秋波2,郑彩明,朴松吴 (1.宁波工程学院机器人学院,浙江宁波315211,2.哈尔滨工业大学机器人系统与技术国家重点实验室,黑 龙江哈尔滨150001;3.哈尔滨工业大学计算机科学与技术学院,黑龙江哈尔滨150001) 摘要:在人体骨架结构动作识别方法中,很多研究工作在提取骨架结构上的空间信息和运动信息后进行融 合,没有对具有复杂时空关系的人体动作进行高效表达。本文提出了基于姿态运动时空域融合的图卷积网络 模型(PM-STFGCN)。对于在时域上存在大量的干扰信息,定义了一种基于局部姿态运动的时域关注度模块 (LPM-TAM),用于抑制时域上的干扰并学习运动姿态的表征。设计了基于姿态运动的时空域融合模块(PM ST℉).融合时域运动和空域姿态特征并进行自适应特征增强。通过实验验证,本文提出的方法是有效性的,与 其他方法相比,在识别效果上具有很好的竞争力。设计的人体动作交互系统,验证了在实时性和准确率上优于 语音交互系统。 关键词:动作识别:时空关系:姿态运动:时空域融合;图卷积神经网络:时域关注度;自适应特征增强;人体动 作交互 中图分类号:TP312文献标志码:A文章编号:1673-4785(2020)03-0601-08 中文引用格式:钟秋波,郑彩明,朴松吴.时空域融合的骨架动作识别与交互研究.智能系统学报,2020,15(3):601-608. 英文引用格式:ZHONG Qiubo,ZHENG Caiming,PIAO Songhao.Research on skeleton-based action recognition with spatiotem poral fusion and human-robot interactionJ CAAI transactions on intelligent systems,2020,15(3):601-608. Research on skeleton-based action recognition with spatiotemporal fusion and human-robot interaction ZHONG Qiubo2,ZHENG Caiming',PIAO Songhao (1.Robotics Institute,Ningbo University of Technology,Ningbo 315211,China;2.State Key Laboratory of Robotics and System, Harbin Institute of Technology,Harbin 150001,China;3.School of Computer Science and Technology,Harbin Institute of Techno- logy,Harbin 150001,China) Abstract:Temporal dynamics of postures over time is crucial for sequence-based action recognition.Human actions can be represented by corresponding motions of an articulated skeleton.Skeleton-based action recognition algorithm is used for studying motions of a body.Skeleton-based action recognition uses many methods,and research shows that most of them extract spatial and motion information separately from a skeleton structure and then combine them for further pro- cessing.However,this process is not able to efficiently deliver human motion features with complex temporal and spa- tial relationships.We propose a novel posture motion-based,spatiotemporal fused graph convolution network for skelet- on-based action recognition.First,we define a local posture motion-based time attention module,which is used to con- strain the disturbance information in temporal domain and learn the representation of motion posture features.Then,we design a posture motion-based,spatiotemporal fusion module.This module fuses spatial motion and temporal attitude features and adaptively enhances the skeleton joint features.Extensive experiments have been performed and the results verified the effectiveness of our proposed method.The proposed method has competitive performance,and it is con- cluded that the human-robot interaction system based on action recognition is superior to the speech interaction system in real-time and with respect to accuracy. Keywords:action recognition;temporal and spatial relationships;posture motion;spatiotemporal fusion; graph convolution network;temporal attention;adaptive feature enhancement;human-robot interaction 收稿日期:2020-06-17. 随着人工智能技术的发展,以人为核心的视 基金项目:国家自然科学基金项目(61203360,61502256):浙江 觉人机交互技术的关键在于理解人类活动和社 省自然科学基金项目(LQ12F03001). 通信作者:钟秋波.E-mail:zhongqiubo@nbut.edu.cm 会行为。因此,动作识别在人机交互领域具有
DOI: 10.11992/tis.202006029 时空域融合的骨架动作识别与交互研究 钟秋波1,2,郑彩明1 ,朴松昊3 (1. 宁波工程学院 机器人学院,浙江 宁波 315211; 2. 哈尔滨工业大学 机器人系统与技术国家重点实验室,黑 龙江 哈尔滨 150001; 3. 哈尔滨工业大学 计算机科学与技术学院,黑龙江 哈尔滨 150001) 摘 要:在人体骨架结构动作识别方法中,很多研究工作在提取骨架结构上的空间信息和运动信息后进行融 合,没有对具有复杂时空关系的人体动作进行高效表达。本文提出了基于姿态运动时空域融合的图卷积网络 模型 (PM-STFGCN)。对于在时域上存在大量的干扰信息,定义了一种基于局部姿态运动的时域关注度模块 (LPM-TAM),用于抑制时域上的干扰并学习运动姿态的表征。设计了基于姿态运动的时空域融合模块 (PMSTF),融合时域运动和空域姿态特征并进行自适应特征增强。通过实验验证,本文提出的方法是有效性的,与 其他方法相比,在识别效果上具有很好的竞争力。设计的人体动作交互系统,验证了在实时性和准确率上优于 语音交互系统。 关键词:动作识别;时空关系;姿态运动;时空域融合;图卷积神经网络;时域关注度;自适应特征增强;人体动 作交互 中图分类号:TP312 文献标志码:A 文章编号:1673−4785(2020)03−0601−08 中文引用格式:钟秋波, 郑彩明, 朴松昊. 时空域融合的骨架动作识别与交互研究 [J]. 智能系统学报, 2020, 15(3): 601–608. 英文引用格式:ZHONG Qiubo, ZHENG Caiming, PIAO Songhao. Research on skeleton-based action recognition with spatiotemporal fusion and human–robot interaction[J]. CAAI transactions on intelligent systems, 2020, 15(3): 601–608. Research on skeleton-based action recognition with spatiotemporal fusion and human–robot interaction ZHONG Qiubo1,2 ,ZHENG Caiming1 ,PIAO Songhao3 (1. Robotics Institute, Ningbo University of Technology, Ningbo 315211, China; 2. State Key Laboratory of Robotics and System, Harbin Institute of Technology, Harbin 150001, China; 3. School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China) Abstract: Temporal dynamics of postures over time is crucial for sequence-based action recognition. Human actions can be represented by corresponding motions of an articulated skeleton. Skeleton-based action recognition algorithm is used for studying motions of a body. Skeleton-based action recognition uses many methods, and research shows that most of them extract spatial and motion information separately from a skeleton structure and then combine them for further processing. However, this process is not able to efficiently deliver human motion features with complex temporal and spatial relationships. We propose a novel posture motion-based, spatiotemporal fused graph convolution network for skeleton-based action recognition. First, we define a local posture motion-based time attention module , which is used to constrain the disturbance information in temporal domain and learn the representation of motion posture features. Then, we design a posture motion-based, spatiotemporal fusion module. This module fuses spatial motion and temporal attitude features and adaptively enhances the skeleton joint features. Extensive experiments have been performed and the results verified the effectiveness of our proposed method. The proposed method has competitive performance, and it is concluded that the human–robot interaction system based on action recognition is superior to the speech interaction system in real-time and with respect to accuracy. Keywords: action recognition; temporal and spatial relationships; posture motion; spatiotemporal fusion; graph convolution network; temporal attention; adaptive feature enhancement; human–robot interaction 随着人工智能技术的发展,以人为核心的视 觉人机交互技术的关键在于理解人类活动[1] 和社 会行为[2]。因此,动作识别在人机交互领域具有 收稿日期:2020−06−17. 基金项目:国家自然科学基金项目 (61203360,61502256);浙江 省自然科学基金项目 (LQ12F03001). 通信作者:钟秋波. E-mail:zhongqiubo@nbut.edu.cn. 第 15 卷第 3 期 智 能 系 统 学 报 Vol.15 No.3 2020 年 5 月 CAAI Transactions on Intelligent Systems May 2020
·602· 智能系统学报 第15卷 重要作用。人体动作识别主流的两种方法是基 布进行建模。 于RGB和基于人体骨架序列。基于RGB的方法 传统基于深度学习的方法是通过手工的方式 充分利用图像数据,在识别效果上可以获得较高 将骨架序列构造为一组关节向量序列输入到RN 的性能。这种方法通常需要处理图像上的每一个 Ns1,或者将表示骨架序列的语义图像输入到 像素点来提取特征,高成本的计算资源无法满足 CNNs2o中提取特征,最后对动作类别进行预 实时处理的条件,不同照明条件和背景噪声对该 测。然而关节向量序列和语义图像都不能很好地 方法影响较大。由于人体骨架的关节数量有限, 表达人体关节之间的相关性。最近,图卷积神经 且只有几十个,所耗费的计算资源要低,实时性 网络(graph convolutional network,GCNs)将卷积操 有保障,对动态环境和复杂背景的适应性强。微 作从二维的图像结构拓展到了图结构上,在很 软的Kinect、OpenPose!以及CPN等高精度人体 多应用上都有很好的表现。Yan等2首次使用 姿态估计也适合用于提取人体骨架。 GCNs应用在基于骨架结构的动作识别上,并提 已有的动作识别工作中,龚冬颖等6通过随 出时空图模型。Shi等2通过自适应学习的方法 机森林算法和信息熵分析关节点判别力,自适应 学习关节之间的连接关系构建非局部模块,将一 选择动作表示特征,解决了多特征融合对个别特 阶的关节信息、二阶的骨骼信息以及运动信息等 征的分类缺陷。姬晓飞等将动作交互过程分阶 分别作为输入构建多流网络。Liu等2提出跨时 段分别提取感兴趣区域的HOG特征,并加权融 空的多尺度聚合节点信息,有效消除了邻域节点 合每个阶段的分类概率,解决交互区域难分割的 的重要性。Peng等21使用骨架邻接图的高阶 问题。庄伟源等⑧选择高判别力的关键肢体的角 表征以及动态图建模机制寻找隐式的关节联系。 度直方图作为特征解决多尺度以及相似动作的分 Obinata等2]通过跨时空的卷积方式对时空图进 类。徐志通等9提出了联合加权稀疏重构轨迹与 行时序建模,以提取运动关节的相关特征。这些 幅值方向直方图熵的方法来检测异常行为。吴云 方法都忽略了运动姿态和骨架关节特征在时空域 鹏等1提出了基于流密度的聚类算法和多重邻 上的特征融合。 接关系模型分别识别局部和全局模式解决复杂视 现有的研究工作,不能有效地对时空图中的 频下的多人行为问题。陈婷婷等采用慢特征 空间信息和运动信息进行融合实现端到端的训 分析提取不变量特征,这种方法提取的特征具有 练。本文提出了基于姿态运动时空域融合的图卷 很强的区分力。丁重阳等2提出了时空权重姿 积神经网络模型(PM-STFGCN),使用基于姿态运 态运动特征的方法,对骨架不同关节点分配权 动的时空域融合模块(PM-STF),对运动姿态和骨 重,并引入傅里叶时间金字塔算法和动态时间规 架关节点在时空域上进行特征融合并自适应特征 整算法对时序运动建模分析。莫宏伟等]提出 增强。针对时域内存在的大量干扰信息,定义一 改进的Faster R-CNN人体行为检测模型,将在 种基于局部姿态运动的时域关注度模块LPM- 线难例挖掘算法和批量规范化算法与Faster R- TAM)进行有效的抑制。此外,与仅优化空间图 CNN算法相结合有效解决小样本难例的问题。 卷积的方法相结合,本文提出的方法可以进一步 谢旋等使用CNN提取深度特征输入到LSTM+ 提高识别的性能。本文在两个大型骨架数据集上 Inception V3网络模型提取全局和局部的相关信 进行实验,与常用方法进行比较。设计的人体动 息,完成双人交互识别与预测。谢昭等1提出了 作交互系统与语音交互在实时性和识别准确率上 双流时空关注度长短时记忆网络模型抑制时空背 进行对比。 景信息。王传旭等I使用双流TSN网络提取全 1相关工作 局和局部特征,并分别连接LSTM网络捕获视频 中的长期依赖关系,解决复杂环境下的多视觉信 1.1 空间图卷积 息和上下文信息融合问题。郑兴华等刀使用深 时空图卷积神经网络模型2构建的骨架时空 度残差网络和递归神经网络对图像提取深度特 图将节点之间的连接关系,用表示自身连接的单 征,通过STRIPS模型将深度特征表示为描述文 位矩阵I和表示相邻节点连接关系的邻接矩阵 档并使用规划器推导完整的动作序列解决行为数 A表示。在单帧情况下,空间域上图卷积操作如下: 据缺失的情况。张冰冰等8劉考虑视频局部特征 的高阶统计信息,对一阶和二阶局部特征二阶聚 2AkM2⑧M)fmW (1) 合形成高阶全局特征表示,对空间和时间特征分
重要作用[3]。人体动作识别主流的两种方法是基 于 RGB 和基于人体骨架序列。基于 RGB 的方法 充分利用图像数据,在识别效果上可以获得较高 的性能。这种方法通常需要处理图像上的每一个 像素点来提取特征,高成本的计算资源无法满足 实时处理的条件,不同照明条件和背景噪声对该 方法影响较大。由于人体骨架的关节数量有限, 且只有几十个,所耗费的计算资源要低,实时性 有保障,对动态环境和复杂背景的适应性强。微 软的 Kinect、OpenPose[4] 以及 CPN[5] 等高精度人体 姿态估计也适合用于提取人体骨架。 已有的动作识别工作中,龚冬颖等[6] 通过随 机森林算法和信息熵分析关节点判别力,自适应 选择动作表示特征,解决了多特征融合对个别特 征的分类缺陷。姬晓飞等[7] 将动作交互过程分阶 段分别提取感兴趣区域的 HOG 特征,并加权融 合每个阶段的分类概率,解决交互区域难分割的 问题。庄伟源等[8] 选择高判别力的关键肢体的角 度直方图作为特征解决多尺度以及相似动作的分 类。徐志通等[9] 提出了联合加权稀疏重构轨迹与 幅值方向直方图熵的方法来检测异常行为。吴云 鹏等[10] 提出了基于流密度的聚类算法和多重邻 接关系模型分别识别局部和全局模式解决复杂视 频下的多人行为问题。陈婷婷等[11] 采用慢特征 分析提取不变量特征,这种方法提取的特征具有 很强的区分力。丁重阳等[12] 提出了时空权重姿 态运动特征的方法,对骨架不同关节点分配权 重,并引入傅里叶时间金字塔算法和动态时间规 整算法对时序运动建模分析。莫宏伟等[13] 提出 改进的 Faster R-CNN 人体行为检测模型,将在 线难例挖掘算法和批量规范化算法与 Faster RCNN 算法相结合有效解决小样本难例的问题。 谢旋等[14] 使用 CNN 提取深度特征输入到 LSTM+ Inception V3 网络模型提取全局和局部的相关信 息,完成双人交互识别与预测。谢昭等[15] 提出了 双流时空关注度长短时记忆网络模型抑制时空背 景信息。王传旭等[16] 使用双流 TSN 网络提取全 局和局部特征,并分别连接 LSTM 网络捕获视频 中的长期依赖关系,解决复杂环境下的多视觉信 息和上下文信息融合问题。郑兴华等[17] 使用深 度残差网络和递归神经网络对图像提取深度特 征,通过 STRIPS 模型将深度特征表示为描述文 档并使用规划器推导完整的动作序列解决行为数 据缺失的情况。张冰冰等[18] 考虑视频局部特征 的高阶统计信息,对一阶和二阶局部特征二阶聚 合形成高阶全局特征表示,对空间和时间特征分 布进行建模。 传统基于深度学习的方法是通过手工的方式 将骨架序列构造为一组关节向量序列输入到 RNNs[19] ,或者将表示骨架序列的语义图像输入到 CNNs[ 2 0 ] 中提取特征,最后对动作类别进行预 测。然而关节向量序列和语义图像都不能很好地 表达人体关节之间的相关性。最近,图卷积神经 网络 (graph convolutional network,GCNs) 将卷积操 作从二维的图像结构拓展到了图结构上,在很 多应用上都有很好的表现。Yan 等 [21] 首次使用 GCNs 应用在基于骨架结构的动作识别上,并提 出时空图模型。Shi 等 [22] 通过自适应学习的方法 学习关节之间的连接关系构建非局部模块,将一 阶的关节信息、二阶的骨骼信息以及运动信息等 分别作为输入构建多流网络。Liu 等 [23] 提出跨时 空的多尺度聚合节点信息,有效消除了邻域节点 的重要性。Peng 等 [ 2 4 ] 使用骨架邻接图的高阶 表征以及动态图建模机制寻找隐式的关节联系。 Obinata 等 [25] 通过跨时空的卷积方式对时空图进 行时序建模,以提取运动关节的相关特征。这些 方法都忽略了运动姿态和骨架关节特征在时空域 上的特征融合。 现有的研究工作,不能有效地对时空图中的 空间信息和运动信息进行融合实现端到端的训 练。本文提出了基于姿态运动时空域融合的图卷 积神经网络模型 (PM-STFGCN),使用基于姿态运 动的时空域融合模块 (PM-STF),对运动姿态和骨 架关节点在时空域上进行特征融合并自适应特征 增强。针对时域内存在的大量干扰信息,定义一 种基于局部姿态运动的时域关注度模块 (LPMTAM) 进行有效的抑制。此外,与仅优化空间图 卷积的方法相结合,本文提出的方法可以进一步 提高识别的性能。本文在两个大型骨架数据集上 进行实验,与常用方法进行比较。设计的人体动 作交互系统与语音交互在实时性和识别准确率上 进行对比。 1 相关工作 1.1 空间图卷积 时空图卷积神经网络模型[21] 构建的骨架时空 图将节点之间的连接关系,用表示自身连接的单 位矩阵 I 和表示相邻节点连接关系的邻接矩阵 A 表示。在单帧情况下,空间域上图卷积操作如下: fout = ∑K k=1 (Λ − 1 2 k AkΛ − 1 2 k ⊗ Mk)finWk (1) ·602· 智 能 系 统 学 报 第 15 卷
第3期 钟秋波,等:时空域融合的骨架动作识别与交互研究 ·603· 式中:fm是输人维度为(Cm,T,)张量的特征图; 出了基于局部姿态运动的时域关注度模块(LPM Cm是输入的特征通道数;T是骨架帧的数量; TAM),如图1所示。骨架图上所有关节点运动信 N表示骨架顶点的数量;A:是N×N的类邻接矩 息表示为姿态运动,关节运动信息计算如下: 阵,A={0,1h,其元素A表示顶点y:是否在顶点 f ”的子集中,A表示顶点自身,A1表示相比于根 节点,距离骨架重心更近的节点,A2表示距离骨 ⊕ 架重心更远的节点;A=∑(4)+a是归一化对 角矩阵,a=0.001:K表示划分的子集个数,根据基 CxTxV 于空间距离的划分规则2共有3个不同子集,即 1×Tx1 Sigmoid K=3;W∈RCaXC.x1x1是1×1的卷积权重向量;Cou 平均池化 是输出的特征通道数;M:是维度为N×N的空间 1×Txr 最大池大 注意力特征图,表示每个顶点的重要性:⑧是矩阵 对应元素相乘,这意味着它只能影响与当前目标 相连的顶点。 1.2时间图卷积 Mask 文献[22]在时间域上提出了时间关注度模 块,注意力系数计算如下: M,=(g:(AvgPool(fin))) CxTxV 图1基于局部姿态运动的时域关注度模块 式中:fm∈RC.xTxN是输入的特征图,T是指在时间 Fig.1 Posture motion-based temporal attention module 上的长度;AvgPool是平均池化;8,是1×1的卷积 操作,权重系数为W∈RIxC.xK,K是卷积核大小; M= ∑(.f》 o标记为Sigmoid激活函数;注意力图M,eRx4, 表示在某个时刻的骨架图重要性程度。 式中:f∈RC.xIxN是在1时刻的输入特征图,Cn 文献[21]基于一种简单策略定义了时间维度 是输入的特征通道数,N表示骨架顶点的数量; 上的图卷积,在式(1)中,在时间维度上使用核大 9用于提取特征图的运动信息;日,为降低特征图 小为「×1进行时间域上的图卷积。因此,在顶点 Va上的采样区域为B(v)={wlq-t≤r/2I),其中 的通道数:M是维度为号×CxTxN的运动特 征图,特征通道为输入通道的一半,T是骨架帧 V表示时间序列t上的第i个顶点;厂是在时间维 的数量。 度上的核大小,在文献[21]中设为9。 人体的动作属于肢体运动,是部分或者全部 2基于姿态运动的时空域融合图卷积 的肢体进行运动。本文首先计算局部肢体在时域 上的关注度A,通过局部肢体的关注度来表征动 本文从人体运动具有复杂时空关系的角度出 作序列在时域上的关注度Ar。局部肢体在时 发,提出了基于姿态运动的时空域融合方法,融 间维度上的注意力AL的计算主要取决于局部感 合时空域上的姿态运动和骨架关节特征并自适应 知域P内的运动特征。其中,P={po,P1,P2,P3,P4, 增强特征。 即左手Po、右手P1、左腿P2、右腿P内以及其他肢 2.1姿态运动表示 体部位P4。AL∈RxT,r是指分解的肢体个数,本 姿态运动表达了在连续帧上对应关节顶点的 文中=5。基于局部姿势运动的时域关注度计算 运动信息。比如给定的第一1帧的第i个关节顶 如下: 点-=(化-y-,-)和第1帧的第i个关节顶 AT=(AvgPool(MaxPool(MaskM))) 点u=(xu,y,),其关节顶点运动姿态表示为 mu=(x-x---1,乙i-z-1以,m是第1帧第i个 式中:Ar∈RIx1是指在时间长度为T的时空图 关节顶点的运动姿态。 上,每帧动作骨架图的重要性程度;M是顶点关 2.2基于局部姿态运动的时域关注度 节运动特征图;Mask∈Rxxw是局部肢体集P的 对于在时域上存在大量的干扰信息,本文提 掩码;⑧是矩阵对应元素相乘;o是指Sigmoid激
fin (Cin,T,N) Cin Ak N ×N A i j k = {0,1} A i j k vj vi A0 A1 A2 Λ ii k = ∑ j (A i j k )+α K Wk ∈ R Cout×Cin×1×1 Cout Mk ⊗ 式中: 是输入维度为 张量的特征图; 是输入的特征通道数; T 是骨架帧的数量; N 表示骨架顶点的数量; 是 的类邻接矩 阵, ,其元素 表示顶点 是否在顶点 的子集中, 表示顶点自身, 表示相比于根 节点,距离骨架重心更近的节点, 表示距离骨 架重心更远的节点; 是归一化对 角矩阵,α=0.001; 表示划分的子集个数,根据基 于空间距离的划分规则[21] 共有 3 个不同子集,即 K=3; 是 1×1 的卷积权重向量; 是输出的特征通道数; 是维度为 N×N 的空间 注意力特征图,表示每个顶点的重要性; 是矩阵 对应元素相乘,这意味着它只能影响与当前目标 相连的顶点。 1.2 时间图卷积 文献 [22] 在时间域上提出了时间关注度模 块,注意力系数计算如下: Mt = σ(gt(AvgPool(fin))) fin ∈ R Cout×T×N gt Wg ∈ R 1×Cin×KS KS Mt ∈ R 1×T×1 式中: 是输入的特征图,T 是指在时间 上的长度;AvgPool 是平均池化; 是 1×1 的卷积 操作,权重系数为 , 是卷积核大小; σ 标记为 Sigmoid 激活函数;注意力图 , 表示在某个时刻的骨架图重要性程度。 Vti B(vti) = {vqi ||q−t| ⩽ |Γ/2| } 文献 [21] 基于一种简单策略定义了时间维度 上的图卷积,在式 (1) 中,在时间维度上使用核大 小为 Γ×1 进行时间域上的图卷积。因此,在顶点 上的采样区域为 ,其中 Vti 表示时间序列 t 上的第 i 个顶点;Γ 是在时间维 度上的核大小,在文献 [21] 中设为 9。 2 基于姿态运动的时空域融合图卷积 本文从人体运动具有复杂时空关系的角度出 发,提出了基于姿态运动的时空域融合方法,融 合时空域上的姿态运动和骨架关节特征并自适应 增强特征。 2.1 姿态运动表示 vt−1,i = (xt−1,i , yt−1,i ,zt−1,i) vt,i = (xt,i , yt,i ,zt,i) mt,i = (xt,i − xt−1,i , yt,i −yt−1,i ,zt,i −zt−1,i) mt,i 姿态运动表达了在连续帧上对应关节顶点的 运动信息。比如给定的第 t−1 帧的第 i 个关节顶 点 和第 t 帧的第 i 个关节顶 点 ,其关节顶点运动姿态表示为 , 是第 t 帧第 i 个 关节顶点的运动姿态。 2.2 基于局部姿态运动的时域关注度 对于在时域上存在大量的干扰信息,本文提 出了基于局部姿态运动的时域关注度模块 (LPMTAM),如图 1 所示。骨架图上所有关节点运动信 息表示为姿态运动,关节运动信息计算如下: fout AT φ Mask 1×T×r ×T×V ×T×V C×T×V 1×T×1 C×T×V 1×T×1 θ AL fin 最大池大 Sigmoid 平均池化 C 2 C 2 图 1 基于局部姿态运动的时域关注度模块 Fig. 1 Posture motion-based temporal attention module M = ∑T t=1 θt(φt(f t in)) f t in ∈ R Cin×1×N Cin φt θt Cin 2 ×Cin ×T ×N 式中: 是在 t 时刻的输入特征图, 是输入的特征通道数,N 表示骨架顶点的数量; 用于提取特征图的运动信息; 为降低特征图 的通道数;M 是维度为 的运动特 征图,特征通道为输入通道的一半,T 是骨架帧 的数量。 AL AT AL P = {p0, p1, p2, p3, p4} p0 p1 p2 p3 p4 AL ∈ R 1×T×r 人体的动作属于肢体运动,是部分或者全部 的肢体进行运动。本文首先计算局部肢体在时域 上的关注度 ,通过局部肢体的关注度来表征动 作序列在时域上的关注度 。局部肢体在时 间维度上的注意力 的计算主要取决于局部感 知域 P 内的运动特征。其中, , 即左手 、右手 、左腿 、右腿 以及其他肢 体部位 。 ,r 是指分解的肢体个数,本 文中 r=5。基于局部姿势运动的时域关注度计算 如下: AT = σ(AvgPool(MaxPool(Mask⊗ M))) AT ∈ R 1×T×1 Mask ∈ R 1×1×N ⊗ 式中: 是指在时间长度为 T 的时空图 上,每帧动作骨架图的重要性程度;M 是顶点关 节运动特征图; 是局部肢体集 P 的 掩码; 是矩阵对应元素相乘;σ 是指 Sigmoid 激 第 3 期 钟秋波,等:时空域融合的骨架动作识别与交互研究 ·603·
·604· 智能系统学报 第15卷 活函数。最后结果输出如下: four=fn⑧Ar⊕fm 式中:输入特征映射以残差连接的方式乘以注意 力特征图A虹实现自适应特征增强;⊕是指矩阵 元素对应相加。 2.3基于姿态运动的时空域融合 PM-STFGCN 为了融合骨架关节和运动特征实现端到端训 练,提出了基于姿态运动时空域融合模块(PM- PM-STFGCN S-GCN STF),融合空域和时域运动特征并进行自适应特 LPM-TAM 全局平均池化层 征增强。该模块在第1帧第i个顶点的时空域融 PM-STF 全连接层 T-GCN 合图卷积输出为 1 识别结果 PM-STFGCN层 fa)=fi+∑esm2 mdv》 (2) 图2基于ST-GCN的姿态运动时空域融合图卷积模型 式中:f(w,)是顶点y的输入特征:m(y)是邻域顶 Fig.2 Spatiotemporal graph convolution network-based 点y的姿态运动特征;(y)是指邻域顶点y划分 spatiotemporal fusion graph convolution networks 子集映射的标签,使用基于空间距离划分规则划 2.5人机交互的实现 分为3个子集;w为不同子集分配权重;Z)是 本文设计了基于动作识别的人机交互系统, 划分子集的基数,用于归一化。 将动作交互实验应用在NAO机器人上,通过外 在实现过程中,式(2)转化为 置Kinect v2深度相机获取数据,交互实验算法流 程如算法1。 fa=f。+∑4A4®As)(W-M.)w。 (3) 算法1人机动作交互 l)获取Kinect v2的人体骨骼序列数据X; 式中:Mn∈R争Txw是姿态运动特征图;Wm∈ 2)将骨骼数据X输入到动作识别网络(2s- RC.xxlxl是1×1的卷积操作,增加运动特征图的 AGCN+PM-STFGCN)中: 特征通道;W ERC.xC.x1是1×1的卷积权重向量, 3)选取概率最大的预测动作类别Y; Cu是输出的特征通道数;As∈RxTx是空间注意 4)通过字典将动作类别Y映射为数字指令Y; 力图,用于区分每个关节顶点的重要性:⑧是指矩 5)将数字指令Y传输给NAO机器人: 阵对应元素相乘;Ah是类邻接矩阵,Ag=0,1,其 6)NAO机器人根据接收的数字指令作出指 元素A=1表示顶点y,在顶点片的子集B中, 定的动作。 否则A=0:=∑,4的+a是归一化对角矩阵。 0=0.001。 3实验结果分析 2.4PM-STFGCN的实现 3.1数据集 本文的实现过程与仅优化空间图卷积的方法 NTU-RGB+D是目前最大,应用最广泛的基 相结合。如图2所示,以ST-GCN为例,添加了本 于骨架的动作识别多模态数据集。它包含:60个 文提出的方法的实现过程。每一层时空图卷积层 动作类,56880个视频片段,交叉对象(CS)和交 都包含了空间图卷积模块和时间图卷积模块。 叉视角(CV)两种训练基准。在交叉对象(CS) PM-STFGCN模块在空间和时间图卷积模块之间 中,训练集包含40320个动作样本,测试集包含 附加本文的基于姿态运动时空域融合模块(PM 16560个动作样本。在交叉视角(CV)中,训练集 ST℉),融合时空图的空域位置特征和时域运动特 包含2号和3号传感器拍摄的37920个动作样 征并在该模块输入端添加基于局部姿态运动的时 本,测试集包含1号传感器拍摄的18960个动作 域关注度模块(LPM-TAM用于抑制时序上的干 样本。本文在此基础上测试两个基准数据集的 扰信息。S-GCN和T-GCN分别是原本模型的空 top-l精度。 间和时间图卷积模块。最终,构建一个新的时空 3.2消融研究 融合图卷积层(PM-STGCN Block)。在实验过程 在NTU-RGB+D大型骨架数据集上进行了实 中,本文将第一帧的运动信息设为0。 验证明。将基于局部姿势运动的时域关注度模
活函数。最后结果输出如下: fout = fin ⊗ AT ⊕ fin AT 式中:输入特征映射以残差连接的方式乘以注意 力特征图 实现自适应特征增强;⊕是指矩阵 元素对应相加。 2.3 基于姿态运动的时空域融合 为了融合骨架关节和运动特征实现端到端训 练,提出了基于姿态运动时空域融合模块 (PMSTF),融合空域和时域运动特征并进行自适应特 征增强。该模块在第 t 帧第 i 个顶点的时空域融 合图卷积输出为 fout(vi) = fin(vi)+ ∑ vj∈B′ (vi) 1 Zi(vj) m(vj)w(lj(vj)) (2) fin(vi) vi m(vj) vj lj(vj) vj Zi(vj) 式中: 是顶点 的输入特征; 是邻域顶 点 的姿态运动特征; 是指邻域顶点 划分 子集映射的标签,使用基于空间距离划分规则划 分为 3 个子集;w 为不同子集分配权重; 是 划分子集的基数,用于归一化。 在实现过程中,式 (2) 转化为 fout = fin + ∑H h=1 (Λ − 1 2 h AhΛ − 1 2 h ⊗ AS)(WmMin)Wh (3) Min ∈ R Cin 2 ×T×N Wm ∈ R Cin× Cin 2 ×1×1 Wh ∈ R Cout×Cin×1×1 Cout AS ∈ R 1×T×N ⊗ Ah A i j h = {0,1} A i j h = 1 vj vi B ′ h A i j h = 0 Λ ii h = ∑ j (A i j h )+α 式中: 是姿态运动特征图; 是 1×1 的卷积操作,增加运动特征图的 特征通道; 是 1×1 的卷积权重向量, 是输出的特征通道数; 是空间注意 力图,用于区分每个关节顶点的重要性; 是指矩 阵对应元素相乘; 是类邻接矩阵, ,其 元素 表示顶点 在顶点 的子集 中, 否则 ; 是归一化对角矩阵, α=0.001。 2.4 PM-STFGCN 的实现 本文的实现过程与仅优化空间图卷积的方法 相结合。如图 2 所示,以 ST-GCN 为例,添加了本 文提出的方法的实现过程。每一层时空图卷积层 都包含了空间图卷积模块和时间图卷积模块。 PM-STFGCN 模块在空间和时间图卷积模块之间 附加本文的基于姿态运动时空域融合模块 (PMSTF),融合时空图的空域位置特征和时域运动特 征并在该模块输入端添加基于局部姿态运动的时 域关注度模块 (LPM-TAM) 用于抑制时序上的干 扰信息。S-GCN 和 T-GCN 分别是原本模型的空 间和时间图卷积模块。最终,构建一个新的时空 融合图卷积层 (PM-STGCN Block)。在实验过程 中,本文将第一帧的运动信息设为 0。 全局平均池化层 全连接层 PM-STFGCN PM-STFGCN ... n-层 识别结果 PM-STFGCN层 S-GCN LPM-TAM PM-STF T-GCN 图 2 基于 ST-GCN 的姿态运动时空域融合图卷积模型 Fig. 2 Spatiotemporal graph convolution network-based spatiotemporal fusion graph convolution networks 2.5 人机交互的实现 本文设计了基于动作识别的人机交互系统, 将动作交互实验应用在 NAO 机器人上,通过外 置 Kinect v2 深度相机获取数据,交互实验算法流 程如算法 1。 算法 1 人机动作交互 1) 获取 Kinect v2 的人体骨骼序列数据 X; 2) 将骨骼数据 X 输入到动作识别网络 (2sAGCN+PM-STFGCN) 中; 3) 选取概率最大的预测动作类别 Y; Y ′ 4) 通过字典将动作类别 Y 映射为数字指令 ; Y ′ 5) 将数字指令 传输给 NAO 机器人; 6) NAO 机器人根据接收的数字指令作出指 定的动作。 3 实验结果分析 3.1 数据集 NTU-RGB+D 是目前最大,应用最广泛的基 于骨架的动作识别多模态数据集。它包含:60 个 动作类,56 880 个视频片段,交叉对象 (CS) 和交 叉视角 (CV) 两种训练基准。在交叉对象 (CS) 中,训练集包含 40 320 个动作样本,测试集包含 16 560 个动作样本。在交叉视角 (CV) 中,训练集 包含 2 号和 3 号传感器拍摄的 37 920 个动作样 本,测试集包含 1 号传感器拍摄的 18 960 个动作 样本。本文在此基础上测试两个基准数据集的 top-1 精度。 3.2 消融研究 在 NTU-RGB+D 大型骨架数据集上进行了实 验证明。将基于局部姿势运动的时域关注度模 ·604· 智 能 系 统 学 报 第 15 卷
第3期 钟秋波,等:时空域融合的骨架动作识别与交互研究 ·605· 块(LPM-TAM和基于姿势运动的时空域融合模 蹲下 块(PM-STF)用PM-STFGCN表示。比较了ST- 0.6 0.4 摆手 GCN2和ST-GCN+PM-STFGCN、2s-AGCN2和 0.2 15 30 2s-AGCN+PM-STFGCN。结果显示与原有模型相 10 25 帧数 比,后者性能得到了提升,并分别验证LPM-TAM (a)摆臂和下蹲动作的时域关注度 和PM-STF都是有效的。 如表1所示,对于ST-GCN2和ST-GCN+ PM-STFGCN,PM-STFGCN在NTU-RGB+D的 CS和CV基准的top-1精度上分别提高了3.9%和 在之 入心》产 1.4%,对于2s-AGCN2和2s-AGCN+PM-STFGCN. (b)摆臂和下蹲动作的可视化 PM-STFGCN在CS和CV基准的top-1精度上分 图3摆动手臂和蹲下的时域关注度可视化 别提高了3.1%和1.0%,2s-AGCN+PM-STFGCN Fig.3 Visualization of temporal attention map with arm 在CV基准上表现最好。 swings and squat down as an example 表1在CS和CV基准上的对比实验 本文验证了所提出的PM-STF有效性。在 Table 1 Ablation study on the CS and CV benchmark ST-GCN2u和2s-AGCN2网络的时空图卷积层中 精度 只添加了PM-STF,并分别命名为ST-GCN+PM- 方法 STF和2s-AGCN+PM-STF。结果如表1所示,ST- CS CV GCN+PM-STF模型在CS和CV基准的top-1精 ST-GCNRI 81.5 88.3 度上分别提高了3.2%和0.9%,2s-AGCN+PM- 2s-AGCND261 88.6 95.2 STF模型在CS和CV基准的top-l精度上分别提 ST-GCN+LPM-TAM 84.1 88.9 高了2.5%和0.7%,实验结果表明PM-STF是有 效的。 2s-AGCN+LPM-TAM 90.3 95.7 3.3与当前常用方法对比 ST-GCN+PM-STF 84.7 89.2 将本文方法与当前常用方法的模型进行对 2s-AGCN+PM-STF 91.1 95.9 比,结果如表2所示。其中2s-AGCN+PM-STFGCN ST-GCN+PM-STFGCN 85.4 89.7 在CV和CS基准上取得非常好的表现。 2s-AGCN+PM-STFGCN 91.7 96.2 表2本文方法与常用模型在CS和CV基准上的比较 Table 2 Comparison of our proposed method with cur- rent state-of-the-art methods on the CS and CV 为了验证所提出的LPM-TAM的有效性。在 benchmark ST-GCN2和2s-AGCN2网络的时空图卷积层中 只添加了LPM-TAM,并分别命名为ST-GCN+ 方法 CS/% CV/ 耗时/s LPM-TAM和2s-AGCN+LPM-TAM。结果如表1 STA-LSTM例 73.4 81.2 所示,ST-GCN+LPM-TAM模型在CS和CV基准 CNN-based01 83.2 89.3 的top-1精度上分别提高了2.6%和0.6%,2s AGCN+LPM-TAM模型在CS和CV基准的top ST-GCNRI 81.5 88.3 0.056 1精度上分别提高了1.7%和0.5%,实验结果表 MS-AAGCNI2] 90.0 96.2 0.096 明LPM-TAM是有效的。 对于时域关注度,本文给出了人体骨架序列 GCN-NASR4] 89.4 95.7 所对应的时域关注度示例。如图3所示,图(a)、 2s-AGCNP26] 88.6 95.2 0.071 (b)分别是时序关注度、摆动手臂和蹲下为例的骨 2s-AGCN+PM-STFGCN 91.7 96.2 0.082 架序列的可视化。对于摆动手臂的时序,模型更 关注受试者摆动手臂的过程。对于蹲下的时序, 在耗时上与ST-GCN、2s-AGCN和MS- 模型更关注受试者下蹲的过程。这可以有效地抑 AAGCN作比较。多流模态网络仅使用关节模态 制时序上的不必要信息,表明所设计模块的有效 耗时代替整体算法的耗时且便于比较。本文提出 性和适应性。 的方法与原本模型相比在识别耗时上增加约0.01s
块 (LPM-TAM) 和基于姿势运动的时空域融合模 块 (PM-STF) 用 PM-STFGCN 表示。比较了 STGCN[21] 和 ST-GCN+PM- STFGCN、2s-AGCN[26] 和 2s-AGCN+PM-STFGCN。结果显示与原有模型相 比,后者性能得到了提升,并分别验证 LPM-TAM 和 PM-STF 都是有效的。 如表 1 所示,对于 ST-GCN[21] 和 ST-GCN+ PM-STFGCN,PM-STFGCN 在 NTU-RGB+D 的 CS 和 CV 基准的 top-1 精度上分别提高了 3.9% 和 1.4%,对于 2s-AGCN[26]和 2s-AGCN+PM-STFGCN, PM- STFGCN 在 CS 和 CV 基准的 top-1 精度上分 别提高了 3.1%和 1.0%,2s-AGCN+PM-STFGCN 在 CV 基准上表现最好。 表 1 在 CS 和 CV 基准上的对比实验 Table 1 Ablation study on the CS and CV benchmark % 方法 精度 CS CV ST-GCN[21] 81.5 88.3 2s-AGCN[26] 88.6 95.2 ST-GCN+LPM-TAM 84.1 88.9 2s-AGCN+LPM-TAM 90.3 95.7 ST-GCN+PM-STF 84.7 89.2 2s-AGCN+PM-STF 91.1 95.9 ST-GCN+PM-STFGCN 85.4 89.7 2s-AGCN+ PM-STFGCN 91.7 96.2 为了验证所提出的 LPM-TAM 的有效性。在 ST-GCN[21] 和 2s-AGCN[26] 网络的时空图卷积层中 只添加了 LPM-TAM,并分别命名为 ST-GCN+ LPM-TAM 和 2s-AGCN+LPM-TAM。结果如表 1 所示,ST-GCN+LPM-TAM 模型在 CS 和 CV 基准 的 top-1 精度上分别提高了 2.6% 和 0.6%,2sAGCN+LPM-TAM 模型在 CS 和 CV 基准的 top- 1 精度上分别提高了 1.7% 和 0.5%,实验结果表 明 LPM-TAM 是有效的。 对于时域关注度,本文给出了人体骨架序列 所对应的时域关注度示例。如图 3 所示,图 (a)、 (b) 分别是时序关注度、摆动手臂和蹲下为例的骨 架序列的可视化。对于摆动手臂的时序,模型更 关注受试者摆动手臂的过程。对于蹲下的时序, 模型更关注受试者下蹲的过程。这可以有效地抑 制时序上的不必要信息,表明所设计模块的有效 性和适应性。 0 0.2 0.4 0.6 0.8 1.0 5 10 15 (a) 摆臂和下蹲动作的时域关注度 (b) 摆臂和下蹲动作的可视化 20 25 30 时间关注度 帧数 蹲下 摆手 图 3 摆动手臂和蹲下的时域关注度可视化 Fig. 3 Visualization of temporal attention map with arm swings and squat down as an example 本文验证了所提出的 PM-STF 有效性。在 ST-GCN[21] 和 2s-AGCN[26] 网络的时空图卷积层中 只添加了 PM-STF,并分别命名为 ST-GCN+PMSTF 和 2s-AGCN+PM-STF。结果如表 1 所示,STGCN+PM-STF 模型在 CS 和 CV 基准的 top-1 精 度上分别提高了 3.2% 和 0.9%,2s-AGCN +PMSTF 模型在 CS 和 CV 基准的 top-1 精度上分别提 高了 2.5% 和 0.7%,实验结果表明 PM-STF 是有 效的。 3.3 与当前常用方法对比 将本文方法与当前常用方法的模型进行对 比,结果如表 2 所示。其中 2s-AGCN+PM-STFGCN 在 CV 和 CS 基准上取得非常好的表现。 表 2 本文方法与常用模型在 CS 和 CV 基准上的比较 Table 2 Comparison of our proposed method with current state-of-the-art methods on the CS and CV benchmark 方法 CS/% CV/% 耗时/s STA-LSTM[19] 73.4 81.2 — CNN-based[20] 83.2 89.3 — ST-GCN[21] 81.5 88.3 0.056 MS-AAGCN[22] 90.0 96.2 0.096 GCN-NAS[24] 89.4 95.7 — 2s-AGCN[26] 88.6 95.2 0.071 2s-AGCN+PM-STFGCN 91.7 96.2 0.082 在耗时上 与 ST-GCN、 2s-AGCN 和 MSAAGCN 作比较。多流模态网络仅使用关节模态 耗时代替整体算法的耗时且便于比较。本文提出 的方法与原本模型相比在识别耗时上增加约 0.01 s, 第 3 期 钟秋波,等:时空域融合的骨架动作识别与交互研究 ·605·
·606· 智能系统学报 第15卷 增加的算法耗时对总体效果影响低。2s-AGCN+ ☑实验次数语音交互口动作交互 50 PM-STFGCN平均识别速度达到0.086s/f,平均每 48 秒处理约12f数据。相比于其他方法,本文提出 的方法优点在于识别效果的提升,同时实验增加 的算法耗时较少。 34 3.4交互实验对比 坐下 为了进一步评估所提出的动作识别模型的鲁 动作语义 棒性,将其应用于NAO机器人。表3为动作语义 图6语音与动作交互的准确次数比较 和交互动作之间的对应关系。 Fig.6 Comparison between accuracies of speech and ac- 表3动作语义与交互动作对应关系 tion interaction Table 3 Correspondence between action semantics and in- teractive action 对语音和动作交互在响应时间上进行对比。 如图7所示,均为10次实验结果测量后的平均耗 动作语义 交互动作 坐下 费时间。结果显示,动作交互的响应时间大都短 挥手 于语音交互。语音交互平均响应时间为2.02s,动 向前走 前进 作交互平均响应时间是1.71s,相比于语音交互, 摸耳朵 站立 其响应时间降低了0.31s。 向后退 后退 ☑语音交互 口动作交互 抱手 左转弯 鼓掌 右转弯 2.2 屈膝 静止 2.0 .8 双手抱头 关机 1.6 1.4 1.2 本文用准确率和实时性这两个指标进行实验 10 验证,将本文提出的动作交互与NAO机器人语 音交互的响应时间进行对比,记录了50次两种 动作语义 交互方式的准确次数,验证了动作交互的可靠 图7语音与动作交互的响应时间比较 性。图4、图5为以挥手和摸耳朵为例的动作交互 Fig.7 Comparison between the response time of speech and action interaction 场景。 通过响应时间和准确率的实验对比,得出动 作交互相比于语音交互更具有优越性,不受环境 噪声的影响,空间距离影响较小,适应环境能力 强,保证了实时性的同时,满足在交互过程中的 快速响应,且准确率高。 图4以挥手为例的动作交互实验 4结束语 Fig.4 Action interaction with waving hand as an example 针对运动信息和骨架关节信息独立建模不能 表达充分的问题,本文为了融合时空域的运动特 5 征,提出了基于姿态运动时空域融合的图卷积模 型(PM-STFGCN)。使用基于姿态运动的时空域 融合模块(PM-STF),融合时域和空域特征并自适 图5以摸耳朵为例的动作交互实验 应增强特征。为了抑制时域上的干扰并学习运动 Fig.5 Action interaction with touching ear as an example 姿态的表征,本文定义了一种基于局部姿态运动 如图6所示,动作交互相比于语音交互的准 的时域关注度模块(LPM-TAM。在大型骨架数 确次数更多。语音交互的平均识别精度为85.50%, 据集上进行对比实验,与目前性能较好的方法进 动作交互的平均识别精度为89.75%。与语音交 行比较,本文的方法更具有竞争性,设计的动作 互相比,动作交互的识别精度提高了4.25%。 交互系统在准确率和响应时间上都优于语音识
增加的算法耗时对总体效果影响低。2s-AGCN+ PM-STFGCN 平均识别速度达到 0.086 s/f,平均每 秒处理约 12 f 数据。相比于其他方法,本文提出 的方法优点在于识别效果的提升,同时实验增加 的算法耗时较少。 3.4 交互实验对比 为了进一步评估所提出的动作识别模型的鲁 棒性,将其应用于 NAO 机器人。表 3 为动作语义 和交互动作之间的对应关系。 表 3 动作语义与交互动作对应关系 Table 3 Correspondence between action semantics and interactive action 动作语义 交互动作 挥手 坐下 向前走 前进 摸耳朵 站立 向后退 后退 抱手 左转弯 鼓掌 右转弯 屈膝 静止 双手抱头 关机 本文用准确率和实时性这两个指标进行实验 验证,将本文提出的动作交互与 NAO 机器人语 音交互的响应时间进行对比,记录了 50 次两种 交互方式的准确次数,验证了动作交互的可靠 性。图 4、图 5 为以挥手和摸耳朵为例的动作交互 场景。 图 4 以挥手为例的动作交互实验 Fig. 4 Action interaction with waving hand as an example 图 5 以摸耳朵为例的动作交互实验 Fig. 5 Action interaction with touching ear as an example 如图 6 所示,动作交互相比于语音交互的准 确次数更多。语音交互的平均识别精度为 85.50%, 动作交互的平均识别精度为 89.75%。与语音交 互相比,动作交互的识别精度提高了 4.25%。 34 38 42 46 36 40 44 48 50 准确次数/次 动作语义 实验次数 语音交互 动作交互 坐下 前进 站立 后退 左转弯 右转弯 静止 关机 图 6 语音与动作交互的准确次数比较 Fig. 6 Comparison between accuracies of speech and action interaction 对语音和动作交互在响应时间上进行对比。 如图 7 所示,均为 10 次实验结果测量后的平均耗 费时间。结果显示,动作交互的响应时间大都短 于语音交互。语音交互平均响应时间为 2.02 s,动 作交互平均响应时间是 1.71 s,相比于语音交互, 其响应时间降低了 0.31 s。 语音交互 动作交互 坐下 前进 站立 后退 左转弯 右转弯 静止 关机 1.0 1.4 1.8 2.2 1.2 1.6 2.0 2.4 2.6 响应时间/s 动作语义 图 7 语音与动作交互的响应时间比较 Fig. 7 Comparison between the response time of speech and action interaction 通过响应时间和准确率的实验对比,得出动 作交互相比于语音交互更具有优越性,不受环境 噪声的影响,空间距离影响较小,适应环境能力 强,保证了实时性的同时,满足在交互过程中的 快速响应,且准确率高。 4 结束语 针对运动信息和骨架关节信息独立建模不能 表达充分的问题,本文为了融合时空域的运动特 征,提出了基于姿态运动时空域融合的图卷积模 型 (PM-STFGCN)。使用基于姿态运动的时空域 融合模块 (PM-STF),融合时域和空域特征并自适 应增强特征。为了抑制时域上的干扰并学习运动 姿态的表征,本文定义了一种基于局部姿态运动 的时域关注度模块 (LPM-TAM)。在大型骨架数 据集上进行对比实验,与目前性能较好的方法进 行比较,本文的方法更具有竞争性,设计的动作 交互系统在准确率和响应时间上都优于语音识 ·606· 智 能 系 统 学 报 第 15 卷
第3期 钟秋波,等:时空域融合的骨架动作识别与交互研究 ·607· 别,可以适应复杂的背景条件,体验者的交互效 havior detection of joint weighted reconstruction trajectory 率更高。 and histogram entropy[J].CAAI transactions on intelligent systems,.2018,13(6):1015-1026. 参考文献: [10]吴云鹏,赵晨阳,时增林,等.基于流密度的多重交互集 [1]SIMONYAN K,ZISSERMAN A.Two-stream convolu- 体行为识别算法[】.计算机学报,2017,40(11): tional networks for action recognition in videos[C]//Pro- 2519-2532. ceedings of the 27th International Conference on Neural WU Yunpeng,ZHAO Chenyang,SHI Zenglin,et al.A Information Processing Systems.Montreal,Canada,2014: flow density based algorithm for detecting coherent mo- 568-576. tion with multiple interaction[.Chinese journal of com- [2]BAGAUTDINOV T,ALAHI A,FLEURET F,et al.So- puters,2017,40(11):2519-2532. cial scene understanding:end-to-end multi-person action [11]陈婷婷,阮秋琦,安高云.视频中人体行为的慢特征提 localization and collective activity recognition[C]//Pro- 取算法.智能系统学报,2015,10(3):381-386 ceedings of the IEEE Conference on Computer Vision and CHEN Tingting,RUAN Qiuqi,AN Gaoyun.Slow fea- Pattern Recognition.Honolulu,USA,2017:3425-3434. ture extraction algorithm of human actions in video[J]. [3]WANG Heng,SCHMID C.Action recognition with im- CAAI transactions on intelligent systems,2015,10(3): proved trajectories[C]//Proceedings of the IEEE Interna- 381-386. tional Conference on Computer Vision.Sydney,Australia, [12]丁重阳,刘凯,李光,等.基于时空权重姿态运动特征的 2013:3551-3558 人体骨架行为识别研究U.计算机学报,2020,43(1): [4]CAO Zhe.SIMON T,WEI S E,et al.Realtime multi-per- 29-40. son 2D pose estimation using part affinity fields[C]//Pro- DING Chongyang,LIU Kai,LI Guang,et al.Spatio-tem- ceedings of the IEEE Conference on Computer Vision and poral weighted posture motion features for human skelet- Pattern Recognition.Honolulu,USA,2017:1302-1310. on action recognition research[J].Chinese journal of com- [5]CHEN Yilun,WANG Zhicheng,PENG Yuxiang,et al. puters,2020,43(1:29-40. Cascaded pyramid network for multi-person pose estima- [13]莫宏伟,汪海波.基于Faster R-CNN的人体行为检测研 tion[C]//Proceedings of the IEEE/CVF Conference on 究U.智能系统学报,2018,13(6):967-973 Computer Vision and Pattern Recognition.Salt Lake City, MO Hongwei,WANG Haibo.Research on human beha- USA,2018:7103-7112. vior detection based on Faster R-CNN[J].CAAl transac- [6]龚冬颖,黄敏,张洪博,等.RGBD人体行为识别中的自 tions on intelligent systems,2018,13(6):967-973. 适应特征选择方法仞.智能系统学报,2017,12(1):1-7. [14]姬晓飞,谢旋,任艳.深度学习的双人交互行为识别与 GONG Dongying,HUANG Min,ZHANG Hongbo,et al. 预测算法研究.智能系统学报,DO:10.11992is. Adaptive feature selection method for action recognition of 201812029. human body in RGBD data[J].CAAI transactions on intel- JI Xiaofei,XIE Xuan,Ren Yan.Human interaction recog- ligent systems,2017,12(1):1-7. nition and prediction algorithm based on Deep Learning [7]姬晓飞,王昌汇,王扬扬.分层结构的双人交互行为识别 [J].CAAI transactions on intelligent systems,DOI: 方法[).智能系统学报,2015,10(6:893-900 10.11992is.201812029 JI Xiaofei,WANG Changhui,WANG Yangyang.Human [15]谢昭,周义,吴克伟,等.基于时空关注度LSTM的行为 interaction behavior-recognition method based on hierarch- 识别[J/OL].计算机学报:(2019-12-17)http:/kns ical structure[J].CAAI transactions on intelligent systems, cnki.net/kcms/detail/11.1826.TP.20191227.1658.002.html. 2015,10(6):893-900. XIE Zhao,ZHOU Yi,WU Kewei,et al.Activity recogni- [8]庄伟源,成运,林贤明,等.关键肢体角度直方图的行为 tion based on spatial-temporal attention LSTM[J/OL] 识别).智能系统学报,2015,10(1):20-26. Chinese journal of computers:(2019-12-17)http://kns. ZHUANG Weiyuan,CHENG Yun,LIN Xianming,et al. cnki.net/kems/detail/11.1826.TP.20191227.1658.002.html. Action recognition based on the angle histogram of key [16]王传旭,胡小悦,孟唯佳,等.基于多流架构与长短时记 parts[J].CAAI transactions on intelligent systems,2015, 忆网络的组群行为识别方法研究).电子学报,2020, 10(1):20-26. 48(4:800-807 [9]徐志通,骆炎民,柳培忠.联合加权重构轨迹与直方图嫡 WANG Chuanxu,HU Xiaoyue,MENG Weijia,et al.Re- 的异常行为检测[J】.智能系统学报,2018,13(6): search on group behavior recognition method based on 1015-1026 multi-stream architecture and long short-term memory XU Zhitong,LUO Yanmin,LIU Peizhong.Abnormal be- network[J].Acta electronica sinica,2020,48(4):800-807
别,可以适应复杂的背景条件,体验者的交互效 率更高。 参考文献: SIMONYAN K, ZISSERMAN A. Two-stream convolutional networks for action recognition in videos[C]//Proceedings of the 27th International Conference on Neural Information Processing Systems. Montreal, Canada, 2014: 568−576. [1] BAGAUTDINOV T, ALAHI A, FLEURET F, et al. Social scene understanding: end-to-end multi-person action localization and collective activity recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA, 2017: 3425−3434. [2] WANG Heng, SCHMID C. Action recognition with improved trajectories[C]//Proceedings of the IEEE International Conference on Computer Vision. Sydney, Australia, 2013: 3551−3558. [3] CAO Zhe, SIMON T, WEI S E, et al. Realtime multi-person 2D pose estimation using part affinity fields[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA, 2017: 1302−1310. [4] CHEN Yilun, WANG Zhicheng, PENG Yuxiang, et al. Cascaded pyramid network for multi-person pose estimation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA, 2018: 7103−7112. [5] 龚冬颖, 黄敏, 张洪博, 等. RGBD 人体行为识别中的自 适应特征选择方法 [J]. 智能系统学报, 2017, 12(1): 1–7. GONG Dongying, HUANG Min, ZHANG Hongbo, et al. Adaptive feature selection method for action recognition of human body in RGBD data[J]. CAAI transactions on intelligent systems, 2017, 12(1): 1–7. [6] 姬晓飞, 王昌汇, 王扬扬. 分层结构的双人交互行为识别 方法 [J]. 智能系统学报, 2015, 10(6): 893–900. JI Xiaofei, WANG Changhui, WANG Yangyang. Human interaction behavior-recognition method based on hierarchical structure[J]. CAAI transactions on intelligent systems, 2015, 10(6): 893–900. [7] 庄伟源, 成运, 林贤明, 等. 关键肢体角度直方图的行为 识别 [J]. 智能系统学报, 2015, 10(1): 20–26. ZHUANG Weiyuan, CHENG Yun, LIN Xianming, et al. Action recognition based on the angle histogram of key parts[J]. CAAI transactions on intelligent systems, 2015, 10(1): 20–26. [8] 徐志通, 骆炎民, 柳培忠. 联合加权重构轨迹与直方图熵 的异常行为检测 [J]. 智能系统学报, 2018, 13(6): 1015–1026. XU Zhitong, LUO Yanmin, LIU Peizhong. Abnormal be- [9] havior detection of joint weighted reconstruction trajectory and histogram entropy[J]. CAAI transactions on intelligent systems, 2018, 13(6): 1015–1026. 吴云鹏, 赵晨阳, 时增林, 等. 基于流密度的多重交互集 体行为识别算法 [J]. 计算机学报, 2017, 40(11): 2519–2532. WU Yunpeng, ZHAO Chenyang, SHI Zenglin, et al. A flow density based algorithm for detecting coherent motion with multiple interaction[J]. Chinese journal of computers, 2017, 40(11): 2519–2532. [10] 陈婷婷, 阮秋琦, 安高云. 视频中人体行为的慢特征提 取算法 [J]. 智能系统学报, 2015, 10(3): 381–386. CHEN Tingting, RUAN Qiuqi, AN Gaoyun. Slow feature extraction algorithm of human actions in video[J]. CAAI transactions on intelligent systems, 2015, 10(3): 381–386. [11] 丁重阳, 刘凯, 李光, 等. 基于时空权重姿态运动特征的 人体骨架行为识别研究 [J]. 计算机学报, 2020, 43(1): 29–40. DING Chongyang, LIU Kai, LI Guang, et al. Spatio-temporal weighted posture motion features for human skeleton action recognition research[J]. Chinese journal of computers, 2020, 43(1): 29–40. [12] 莫宏伟, 汪海波. 基于 Faster R-CNN 的人体行为检测研 究 [J]. 智能系统学报, 2018, 13(6): 967–973. MO Hongwei, WANG Haibo. Research on human behavior detection based on Faster R-CNN[J]. CAAI transactions on intelligent systems, 2018, 13(6): 967–973. [13] 姬晓飞, 谢旋, 任艳. 深度学习的双人交互行为识别与 预测算法研究 [J]. 智能系统学报, DOI: 10.11992/tis. 201812029. JI Xiaofei, XIE Xuan, Ren Yan. Human interaction recognition and prediction algorithm based on Deep Learning [J]. CAAI transactions on intelligent systems, DOI: 10.11992/tis. 201812029. [14] 谢昭, 周义, 吴克伟, 等. 基于时空关注度 LSTM 的行为 识别 [J/OL]. 计算机学报: (2019-12-17) http://kns. cnki.net/kcms/detail/11.1826.TP.20191227.1658.002.html. XIE Zhao, ZHOU Yi, WU Kewei, et al. Activity recognition based on spatial-temporal attention LSTM[J/OL] Chinese journal of computers: (2019-12-17) http://kns. cnki.net/kcms/detail/11.1826.TP.20191227.1658.002.html. [15] 王传旭, 胡小悦, 孟唯佳, 等. 基于多流架构与长短时记 忆网络的组群行为识别方法研究 [J]. 电子学报, 2020, 48(4): 800–807. WANG Chuanxu, HU Xiaoyue, MENG Weijia, et al. Research on group behavior recognition method based on multi-stream architecture and long short-term memory network[J]. Acta electronica sinica, 2020, 48(4): 800–807. [16] 第 3 期 钟秋波,等:时空域融合的骨架动作识别与交互研究 ·607·
·608· 智能系统学报 第15卷 [1刀郑兴华,孙喜庆,吕嘉欣,等.基于深度学习和智能规划 Recognition.Seattle,USA,2020:143-152 的行为识别).电子学报,2019,47(8):1661-1668. [24]PENG W,HONG X,CHEN H,et al.Learning Graph ZHENG Xinghua,SUN Xiqing,LU Jiaxin,et al.Action Convolutional Network for Skeleton-based Human Ac- recognition based on deep learning and artificial intelli- tion Recognition by Neural Searching[C]//Proceedings of gence planning[J].Acta electronica sinica,2019,47(8): Thirty-Fourth AAAl Conference on Artificial Intelli- 1661-1668. gence.New York.USA.2020:2669-2676. [18]张冰冰,葛疏雨,王旗龙,等基于多阶信息融合的行为识 [25]OBINATA Y,YAMAMOTO T.Temporal extension 别方法研究[J/OL.自动化学报,[2020-06-17刀D0: module for skeleton-based action recognition[J/OL]. 10.16383/.aas.c180265. [2020-03-19y]htp://arxiv.org/abs/2003.08951. ZHANG Bingbing,GE Shuyu,WANG Qilong,et al. [26]SHI L,ZHANG Y,CHENG J,et al.Two-stream adapt- Multi-order Information Fusion Method for Human Ac- ive graph convolutional networks for skeleton-based ac- tion Recognition[J/OL].ACTA automatica sinica,[2020- tion recognition[C]//Proceedings of the IEEE Conference 06-17刀DOL:10.16383.aas.c180265 on Computer Vision and Pattern Recognition.Los [19]LIU Jun,SHAHROUDY A,XU Dong,et al.Spatio-tem- Angeles,USA,2019:12026-12035 poral LSTM with trust gates for 3d human action recogni- 作者简介: tion[C]//Proceedings of the 14th European Conference on 钟秋波,副教授,博士,宁波工程 Computer Vision.Amsterdam,The Netherlands,2016: 学院机器人学院执行副院长,主要研 816-833 究方向为机器人智能控制、计算机视 [20]LI Chao,ZHONG Qiaoyong,XIE Di,et al.Skeleton- 觉图像处理、机器人运动控制。先后 based action recognition with convolutional neural net- 主持和参与横、纵向科研项目20多 works[C]//Proceedings of 2017 IEEE International Con- 项。发表学术论文20余篇。 ference on Multimedia and Expo Workshops.Hong Kong. China,2017:597-600 郑彩明,硕士研究生,主要研究方 [21]YAN Sijie,XIONG Yuanjun,LIN Dahua.Spatial tempor- 向为机器人智能控制、计算机视觉、图 al graph convolutional networks for skeleton-based ac- 像处理、机器人运动控制。 tion recognition[C]//Proceedings of the Thirty-Second AAAI Conference on Artificial Intelligence.New Or- leans,USA,2018:7444-7452. [22]SHI L.ZHANG Y.CHENG J.et al.Skeleton-based ac- tion recognition with multi-stream adaptive graph convo- 朴松吴,教授,博士生导师,中国 lutional networks[J/OL].[2020-06-01]https://arxiv.org/abs/ 人工智能学会常务理事,机器人文化 艺术专业委员会主任,主要研究方向 1912.06971.2019. 为机器人环境感知与导航、机器人运 [23]LIU Ziyu,ZHANG Hongwen,CHEN Zhenghao,et al. 动规划、多智能体机器人协作。主持 Disentangling and unifying graph convolutions for skelet- 或参加国家自然科学基金、国家“863” on-based action recognition[C]//Proceedings of the 计划重点、教育部“985”等多个项目。 IEEE/CVF Conference on Computer Vision and Pattern 发表学术论文60余篇
郑兴华, 孙喜庆, 吕嘉欣, 等. 基于深度学习和智能规划 的行为识别 [J]. 电子学报, 2019, 47(8): 1661–1668. ZHENG Xinghua, SUN Xiqing, LU Jiaxin, et al. Action recognition based on deep learning and artificial intelligence planning[J]. Acta electronica sinica, 2019, 47(8): 1661–1668. [17] 张冰冰,葛疏雨,王旗龙,等.基于多阶信息融合的行为识 别方法研究 [J/OL]. 自动化学报, [2020-06-17] DOI: 10.16383/j.aas.c180265. ZHANG Bingbing, GE Shuyu, WANG Qilong, et al. Multi-order Information Fusion Method for Human Action Recognition[J/OL]. ACTA automatica sinica, [2020- 06-17] DOI: 10.16383/j.aas.c180265. [18] LIU Jun, SHAHROUDY A, XU Dong, et al. Spatio-temporal LSTM with trust gates for 3d human action recognition[C]//Proceedings of the 14th European Conference on Computer Vision. Amsterdam, The Netherlands, 2016: 816−833. [19] LI Chao, ZHONG Qiaoyong, XIE Di, et al. Skeletonbased action recognition with convolutional neural networks[C]//Proceedings of 2017 IEEE International Conference on Multimedia and Expo Workshops. Hong Kong, China, 2017: 597−600. [20] YAN Sijie, XIONG Yuanjun, LIN Dahua. Spatial temporal graph convolutional networks for skeleton-based action recognition[C]//Proceedings of the Thirty-Second AAAI Conference on Artificial Intelligence. New Orleans, USA, 2018: 7444−7452. [21] SHI L, ZHANG Y, CHENG J, et al. Skeleton-based action recognition with multi-stream adaptive graph convolutional networks[J/OL]. [2020-06-01] https://arxiv.org/abs/ 1912.06971, 2019. [22] LIU Ziyu, ZHANG Hongwen, CHEN Zhenghao, et al. Disentangling and unifying graph convolutions for skeleton-based action recognition[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern [23] Recognition. Seattle, USA, 2020: 143−152. PENG W, HONG X, CHEN H, et al. Learning Graph Convolutional Network for Skeleton-based Human Action Recognition by Neural Searching[C]//Proceedings of Thirty-Fourth AAAI Conference on Artificial Intelligence. New York, USA, 2020: 2669−2676. [24] OBINATA Y, YAMAMOTO T. Temporal extension module for skeleton-based action recognition[J/OL]. [2020-03-19] http://arxiv.org/abs/2003.08951. [25] SHI L, ZHANG Y, CHENG J, et al. Two-stream adaptive graph convolutional networks for skeleton-based action recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Los Angeles, USA, 2019: 12026−12035. [26] 作者简介: 钟秋波,副教授,博士,宁波工程 学院机器人学院执行副院长,主要研 究方向为机器人智能控制、计算机视 觉图像处理、机器人运动控制。先后 主持和参与横、纵向科研项目 20 多 项。发表学术论文 20 余篇。 郑彩明,硕士研究生,主要研究方 向为机器人智能控制、计算机视觉、图 像处理、机器人运动控制。 朴松昊,教授,博士生导师,中国 人工智能学会常务理事,机器人文化 艺术专业委员会主任,主要研究方向 为机器人环境感知与导航、机器人运 动规划、多智能体机器人协作。主持 或参加国家自然科学基金、国家“863” 计划重点、教育部“985”等多个项目。 发表学术论文 60 余篇。 ·608· 智 能 系 统 学 报 第 15 卷