【人工智能】时空域融合的骨架动作识别与交互研究

团购合买资源类别：文库，文档格式：PDF，文档页数：8，文件大小：4.81MB

第15卷第3期智能系统学报 Vol.15 No.3 2020年5月 CAAI Transactions on Intelligent Systems May 2020 D0:10.11992tis.202006029 时空域融合的骨架动作识别与交互研究钟秋波2，郑彩明，朴松吴 (1.宁波工程学院机器人学院，浙江宁波315211,2.哈尔滨工业大学机器人系统与技术国家重点实验室，黑龙江哈尔滨150001；3.哈尔滨工业大学计算机科学与技术学院，黑龙江哈尔滨150001) 摘要：在人体骨架结构动作识别方法中，很多研究工作在提取骨架结构上的空间信息和运动信息后进行融合，没有对具有复杂时空关系的人体动作进行高效表达。本文提出了基于姿态运动时空域融合的图卷积网络模型(PM-STFGCN)。对于在时域上存在大量的干扰信息，定义了一种基于局部姿态运动的时域关注度模块 (LPM-TAM),用于抑制时域上的干扰并学习运动姿态的表征。设计了基于姿态运动的时空域融合模块(PM ST℉).融合时域运动和空域姿态特征并进行自适应特征增强。通过实验验证，本文提出的方法是有效性的，与其他方法相比，在识别效果上具有很好的竞争力。设计的人体动作交互系统，验证了在实时性和准确率上优于语音交互系统。关键词：动作识别：时空关系：姿态运动：时空域融合；图卷积神经网络：时域关注度；自适应特征增强；人体动作交互中图分类号：TP312文献标志码：A文章编号：1673-4785(2020)03-0601-08 中文引用格式：钟秋波，郑彩明，朴松吴.时空域融合的骨架动作识别与交互研究.智能系统学报，2020,15(3)：601-608. 英文引用格式：ZHONG Qiubo,ZHENG Caiming,PIAO Songhao.Research on skeleton-based action recognition with spatiotem poral fusion and human-robot interactionJ CAAI transactions on intelligent systems,2020,15(3):601-608. Research on skeleton-based action recognition with spatiotemporal fusion and human-robot interaction ZHONG Qiubo2,ZHENG Caiming',PIAO Songhao (1.Robotics Institute,Ningbo University of Technology,Ningbo 315211,China;2.State Key Laboratory of Robotics and System, Harbin Institute of Technology,Harbin 150001,China;3.School of Computer Science and Technology,Harbin Institute of Techno- logy,Harbin 150001,China) Abstract:Temporal dynamics of postures over time is crucial for sequence-based action recognition.Human actions can be represented by corresponding motions of an articulated skeleton.Skeleton-based action recognition algorithm is used for studying motions of a body.Skeleton-based action recognition uses many methods,and research shows that most of them extract spatial and motion information separately from a skeleton structure and then combine them for further pro- cessing.However,this process is not able to efficiently deliver human motion features with complex temporal and spa- tial relationships.We propose a novel posture motion-based,spatiotemporal fused graph convolution network for skelet- on-based action recognition.First,we define a local posture motion-based time attention module,which is used to con- strain the disturbance information in temporal domain and learn the representation of motion posture features.Then,we design a posture motion-based,spatiotemporal fusion module.This module fuses spatial motion and temporal attitude features and adaptively enhances the skeleton joint features.Extensive experiments have been performed and the results verified the effectiveness of our proposed method.The proposed method has competitive performance,and it is con- cluded that the human-robot interaction system based on action recognition is superior to the speech interaction system in real-time and with respect to accuracy. Keywords:action recognition;temporal and spatial relationships;posture motion;spatiotemporal fusion; graph convolution network;temporal attention;adaptive feature enhancement;human-robot interaction 收稿日期：2020-06-17. 随着人工智能技术的发展，以人为核心的视基金项目：国家自然科学基金项目(61203360,61502256)：浙江觉人机交互技术的关键在于理解人类活动和社省自然科学基金项目(LQ12F03001). 通信作者：钟秋波.E-mail:zhongqiubo@nbut.edu.cm 会行为。因此，动作识别在人机交互领域具有

DOI: 10.11992/tis.202006029 时空域融合的骨架动作识别与交互研究钟秋波1,2，郑彩明1 ，朴松昊3 （1. 宁波工程学院机器人学院，浙江宁波 315211; 2. 哈尔滨工业大学机器人系统与技术国家重点实验室，黑龙江哈尔滨 150001; 3. 哈尔滨工业大学计算机科学与技术学院，黑龙江哈尔滨 150001）摘要：在人体骨架结构动作识别方法中，很多研究工作在提取骨架结构上的空间信息和运动信息后进行融合，没有对具有复杂时空关系的人体动作进行高效表达。本文提出了基于姿态运动时空域融合的图卷积网络模型 (PM-STFGCN)。对于在时域上存在大量的干扰信息，定义了一种基于局部姿态运动的时域关注度模块 (LPM-TAM)，用于抑制时域上的干扰并学习运动姿态的表征。设计了基于姿态运动的时空域融合模块 (PMSTF)，融合时域运动和空域姿态特征并进行自适应特征增强。通过实验验证，本文提出的方法是有效性的，与其他方法相比，在识别效果上具有很好的竞争力。设计的人体动作交互系统，验证了在实时性和准确率上优于语音交互系统。关键词：动作识别；时空关系；姿态运动；时空域融合；图卷积神经网络；时域关注度；自适应特征增强；人体动作交互中图分类号：TP312 文献标志码：A 文章编号：1673−4785(2020)03−0601−08 中文引用格式：钟秋波, 郑彩明, 朴松昊. 时空域融合的骨架动作识别与交互研究 [J]. 智能系统学报, 2020, 15(3): 601–608. 英文引用格式：ZHONG Qiubo, ZHENG Caiming, PIAO Songhao. Research on skeleton-based action recognition with spatiotemporal fusion and human–robot interaction[J]. CAAI transactions on intelligent systems, 2020, 15(3): 601–608. Research on skeleton-based action recognition with spatiotemporal fusion and human–robot interaction ZHONG Qiubo1,2 ，ZHENG Caiming1 ，PIAO Songhao3 (1. Robotics Institute, Ningbo University of Technology, Ningbo 315211, China; 2. State Key Laboratory of Robotics and System, Harbin Institute of Technology, Harbin 150001, China; 3. School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China) Abstract: Temporal dynamics of postures over time is crucial for sequence-based action recognition. Human actions can be represented by corresponding motions of an articulated skeleton. Skeleton-based action recognition algorithm is used for studying motions of a body. Skeleton-based action recognition uses many methods, and research shows that most of them extract spatial and motion information separately from a skeleton structure and then combine them for further processing. However, this process is not able to efficiently deliver human motion features with complex temporal and spatial relationships. We propose a novel posture motion-based, spatiotemporal fused graph convolution network for skeleton-based action recognition. First, we define a local posture motion-based time attention module , which is used to constrain the disturbance information in temporal domain and learn the representation of motion posture features. Then, we design a posture motion-based, spatiotemporal fusion module. This module fuses spatial motion and temporal attitude features and adaptively enhances the skeleton joint features. Extensive experiments have been performed and the results verified the effectiveness of our proposed method. The proposed method has competitive performance, and it is concluded that the human–robot interaction system based on action recognition is superior to the speech interaction system in real-time and with respect to accuracy. Keywords: action recognition; temporal and spatial relationships; posture motion; spatiotemporal fusion; graph convolution network; temporal attention; adaptive feature enhancement; human–robot interaction 随着人工智能技术的发展，以人为核心的视觉人机交互技术的关键在于理解人类活动[1] 和社会行为[2]。因此，动作识别在人机交互领域具有收稿日期：2020−06−17. 基金项目：国家自然科学基金项目 (61203360，61502256)；浙江省自然科学基金项目 (LQ12F03001). 通信作者：钟秋波. E-mail：zhongqiubo@nbut.edu.cn. 第 15 卷第 3 期智能系统学报 Vol.15 No.3 2020 年 5 月 CAAI Transactions on Intelligent Systems May 2020

·602· 智能系统学报第15卷重要作用。人体动作识别主流的两种方法是基布进行建模。于RGB和基于人体骨架序列。基于RGB的方法传统基于深度学习的方法是通过手工的方式充分利用图像数据，在识别效果上可以获得较高将骨架序列构造为一组关节向量序列输入到RN 的性能。这种方法通常需要处理图像上的每一个 Ns1,或者将表示骨架序列的语义图像输入到像素点来提取特征，高成本的计算资源无法满足 CNNs2o中提取特征，最后对动作类别进行预实时处理的条件，不同照明条件和背景噪声对该测。然而关节向量序列和语义图像都不能很好地方法影响较大。由于人体骨架的关节数量有限，表达人体关节之间的相关性。最近，图卷积神经且只有几十个，所耗费的计算资源要低，实时性网络(graph convolutional network,GCNs)将卷积操有保障，对动态环境和复杂背景的适应性强。微作从二维的图像结构拓展到了图结构上，在很软的Kinect、OpenPose!以及CPN等高精度人体多应用上都有很好的表现。Yan等2首次使用姿态估计也适合用于提取人体骨架。 GCNs应用在基于骨架结构的动作识别上，并提已有的动作识别工作中，龚冬颖等6通过随出时空图模型。Shi等2通过自适应学习的方法机森林算法和信息熵分析关节点判别力，自适应学习关节之间的连接关系构建非局部模块，将一选择动作表示特征，解决了多特征融合对个别特阶的关节信息、二阶的骨骼信息以及运动信息等征的分类缺陷。姬晓飞等将动作交互过程分阶分别作为输入构建多流网络。Liu等2提出跨时段分别提取感兴趣区域的HOG特征，并加权融空的多尺度聚合节点信息，有效消除了邻域节点合每个阶段的分类概率，解决交互区域难分割的的重要性。Peng等21使用骨架邻接图的高阶问题。庄伟源等⑧选择高判别力的关键肢体的角表征以及动态图建模机制寻找隐式的关节联系。度直方图作为特征解决多尺度以及相似动作的分 Obinata等2]通过跨时空的卷积方式对时空图进类。徐志通等9提出了联合加权稀疏重构轨迹与行时序建模，以提取运动关节的相关特征。这些幅值方向直方图熵的方法来检测异常行为。吴云方法都忽略了运动姿态和骨架关节特征在时空域鹏等1提出了基于流密度的聚类算法和多重邻上的特征融合。接关系模型分别识别局部和全局模式解决复杂视现有的研究工作，不能有效地对时空图中的频下的多人行为问题。陈婷婷等采用慢特征空间信息和运动信息进行融合实现端到端的训分析提取不变量特征，这种方法提取的特征具有练。本文提出了基于姿态运动时空域融合的图卷很强的区分力。丁重阳等2提出了时空权重姿积神经网络模型(PM-STFGCN),使用基于姿态运态运动特征的方法，对骨架不同关节点分配权动的时空域融合模块(PM-STF),对运动姿态和骨重，并引入傅里叶时间金字塔算法和动态时间规架关节点在时空域上进行特征融合并自适应特征整算法对时序运动建模分析。莫宏伟等]提出增强。针对时域内存在的大量干扰信息，定义一改进的Faster R-CNN人体行为检测模型，将在种基于局部姿态运动的时域关注度模块LPM- 线难例挖掘算法和批量规范化算法与Faster R- TAM)进行有效的抑制。此外，与仅优化空间图 CNN算法相结合有效解决小样本难例的问题。卷积的方法相结合，本文提出的方法可以进一步谢旋等使用CNN提取深度特征输入到LSTM+ 提高识别的性能。本文在两个大型骨架数据集上 Inception V3网络模型提取全局和局部的相关信进行实验，与常用方法进行比较。设计的人体动息，完成双人交互识别与预测。谢昭等1提出了作交互系统与语音交互在实时性和识别准确率上双流时空关注度长短时记忆网络模型抑制时空背进行对比。景信息。王传旭等I使用双流TSN网络提取全 1相关工作局和局部特征，并分别连接LSTM网络捕获视频中的长期依赖关系，解决复杂环境下的多视觉信 1.1 空间图卷积息和上下文信息融合问题。郑兴华等刀使用深时空图卷积神经网络模型2构建的骨架时空度残差网络和递归神经网络对图像提取深度特图将节点之间的连接关系，用表示自身连接的单征，通过STRIPS模型将深度特征表示为描述文位矩阵I和表示相邻节点连接关系的邻接矩阵档并使用规划器推导完整的动作序列解决行为数 A表示。在单帧情况下，空间域上图卷积操作如下：据缺失的情况。张冰冰等8劉考虑视频局部特征的高阶统计信息，对一阶和二阶局部特征二阶聚 2AkM2⑧M)fmW (1) 合形成高阶全局特征表示，对空间和时间特征分

重要作用[3]。人体动作识别主流的两种方法是基于 RGB 和基于人体骨架序列。基于 RGB 的方法充分利用图像数据，在识别效果上可以获得较高的性能。这种方法通常需要处理图像上的每一个像素点来提取特征，高成本的计算资源无法满足实时处理的条件，不同照明条件和背景噪声对该方法影响较大。由于人体骨架的关节数量有限，且只有几十个，所耗费的计算资源要低，实时性有保障，对动态环境和复杂背景的适应性强。微软的 Kinect、OpenPose[4] 以及 CPN[5] 等高精度人体姿态估计也适合用于提取人体骨架。已有的动作识别工作中，龚冬颖等[6] 通过随机森林算法和信息熵分析关节点判别力，自适应选择动作表示特征，解决了多特征融合对个别特征的分类缺陷。姬晓飞等[7] 将动作交互过程分阶段分别提取感兴趣区域的 HOG 特征，并加权融合每个阶段的分类概率，解决交互区域难分割的问题。庄伟源等[8] 选择高判别力的关键肢体的角度直方图作为特征解决多尺度以及相似动作的分类。徐志通等[9] 提出了联合加权稀疏重构轨迹与幅值方向直方图熵的方法来检测异常行为。吴云鹏等[10] 提出了基于流密度的聚类算法和多重邻接关系模型分别识别局部和全局模式解决复杂视频下的多人行为问题。陈婷婷等[11] 采用慢特征分析提取不变量特征，这种方法提取的特征具有很强的区分力。丁重阳等[12] 提出了时空权重姿态运动特征的方法，对骨架不同关节点分配权重，并引入傅里叶时间金字塔算法和动态时间规整算法对时序运动建模分析。莫宏伟等[13] 提出改进的 Faster R-CNN 人体行为检测模型，将在线难例挖掘算法和批量规范化算法与 Faster RCNN 算法相结合有效解决小样本难例的问题。谢旋等[14] 使用 CNN 提取深度特征输入到 LSTM+ Inception V3 网络模型提取全局和局部的相关信息，完成双人交互识别与预测。谢昭等[15] 提出了双流时空关注度长短时记忆网络模型抑制时空背景信息。王传旭等[16] 使用双流 TSN 网络提取全局和局部特征，并分别连接 LSTM 网络捕获视频中的长期依赖关系，解决复杂环境下的多视觉信息和上下文信息融合问题。郑兴华等[17] 使用深度残差网络和递归神经网络对图像提取深度特征，通过 STRIPS 模型将深度特征表示为描述文档并使用规划器推导完整的动作序列解决行为数据缺失的情况。张冰冰等[18] 考虑视频局部特征的高阶统计信息，对一阶和二阶局部特征二阶聚合形成高阶全局特征表示，对空间和时间特征分布进行建模。传统基于深度学习的方法是通过手工的方式将骨架序列构造为一组关节向量序列输入到 RNNs[19] ，或者将表示骨架序列的语义图像输入到 CNNs[ 2 0 ] 中提取特征，最后对动作类别进行预测。然而关节向量序列和语义图像都不能很好地表达人体关节之间的相关性。最近，图卷积神经网络 (graph convolutional network,GCNs) 将卷积操作从二维的图像结构拓展到了图结构上，在很多应用上都有很好的表现。Yan 等 [21] 首次使用 GCNs 应用在基于骨架结构的动作识别上，并提出时空图模型。Shi 等 [22] 通过自适应学习的方法学习关节之间的连接关系构建非局部模块，将一阶的关节信息、二阶的骨骼信息以及运动信息等分别作为输入构建多流网络。Liu 等 [23] 提出跨时空的多尺度聚合节点信息，有效消除了邻域节点的重要性。Peng 等 [ 2 4 ] 使用骨架邻接图的高阶表征以及动态图建模机制寻找隐式的关节联系。 Obinata 等 [25] 通过跨时空的卷积方式对时空图进行时序建模，以提取运动关节的相关特征。这些方法都忽略了运动姿态和骨架关节特征在时空域上的特征融合。现有的研究工作，不能有效地对时空图中的空间信息和运动信息进行融合实现端到端的训练。本文提出了基于姿态运动时空域融合的图卷积神经网络模型 (PM-STFGCN)，使用基于姿态运动的时空域融合模块 (PM-STF)，对运动姿态和骨架关节点在时空域上进行特征融合并自适应特征增强。针对时域内存在的大量干扰信息，定义一种基于局部姿态运动的时域关注度模块 (LPMTAM) 进行有效的抑制。此外，与仅优化空间图卷积的方法相结合，本文提出的方法可以进一步提高识别的性能。本文在两个大型骨架数据集上进行实验，与常用方法进行比较。设计的人体动作交互系统与语音交互在实时性和识别准确率上进行对比。 1 相关工作 1.1 空间图卷积时空图卷积神经网络模型[21] 构建的骨架时空图将节点之间的连接关系，用表示自身连接的单位矩阵 I 和表示相邻节点连接关系的邻接矩阵 A 表示。在单帧情况下，空间域上图卷积操作如下： fout = ∑K k=1 (Λ − 1 2 k AkΛ − 1 2 k ⊗ Mk)finWk (1) ·602· 智能系统学报第 15 卷

第3期钟秋波，等：时空域融合的骨架动作识别与交互研究 ·603· 式中：fm是输人维度为(Cm,T,)张量的特征图；出了基于局部姿态运动的时域关注度模块(LPM Cm是输入的特征通道数；T是骨架帧的数量； TAM),如图1所示。骨架图上所有关节点运动信 N表示骨架顶点的数量；A:是N×N的类邻接矩息表示为姿态运动，关节运动信息计算如下：阵，A={0,1h,其元素A表示顶点y:是否在顶点 f ”的子集中，A表示顶点自身，A1表示相比于根节点，距离骨架重心更近的节点，A2表示距离骨 ⊕ 架重心更远的节点；A=∑(4)+a是归一化对角矩阵，a=0.001:K表示划分的子集个数，根据基 CxTxV 于空间距离的划分规则2共有3个不同子集，即 1×Tx1 Sigmoid K=3;W∈RCaXC.x1x1是1×1的卷积权重向量；Cou 平均池化是输出的特征通道数；M:是维度为N×N的空间 1×Txr 最大池大注意力特征图，表示每个顶点的重要性：⑧是矩阵对应元素相乘，这意味着它只能影响与当前目标相连的顶点。 1.2时间图卷积 Mask 文献[22]在时间域上提出了时间关注度模块，注意力系数计算如下： M,=(g:(AvgPool(fin))) CxTxV 图1基于局部姿态运动的时域关注度模块式中：fm∈RC.xTxN是输入的特征图，T是指在时间 Fig.1 Posture motion-based temporal attention module 上的长度；AvgPool是平均池化；8，是1×1的卷积操作，权重系数为W∈RIxC.xK,K是卷积核大小； M= ∑(.f》 o标记为Sigmoid激活函数；注意力图M,eRx4, 表示在某个时刻的骨架图重要性程度。式中：f∈RC.xIxN是在1时刻的输入特征图，Cn 文献[21]基于一种简单策略定义了时间维度是输入的特征通道数，N表示骨架顶点的数量；上的图卷积，在式(1)中，在时间维度上使用核大 9用于提取特征图的运动信息；日，为降低特征图小为「×1进行时间域上的图卷积。因此，在顶点 Va上的采样区域为B(v)={wlq-t≤r/2I),其中的通道数：M是维度为号×CxTxN的运动特征图，特征通道为输入通道的一半，T是骨架帧 V表示时间序列t上的第i个顶点；厂是在时间维的数量。度上的核大小，在文献[21]中设为9。人体的动作属于肢体运动，是部分或者全部 2基于姿态运动的时空域融合图卷积的肢体进行运动。本文首先计算局部肢体在时域上的关注度A,通过局部肢体的关注度来表征动本文从人体运动具有复杂时空关系的角度出作序列在时域上的关注度Ar。局部肢体在时发，提出了基于姿态运动的时空域融合方法，融间维度上的注意力AL的计算主要取决于局部感合时空域上的姿态运动和骨架关节特征并自适应知域P内的运动特征。其中，P={po,P1,P2,P3,P4, 增强特征。即左手Po、右手P1、左腿P2、右腿P内以及其他肢 2.1姿态运动表示体部位P4。AL∈RxT,r是指分解的肢体个数，本姿态运动表达了在连续帧上对应关节顶点的文中=5。基于局部姿势运动的时域关注度计算运动信息。比如给定的第一1帧的第i个关节顶如下：点-=（化-y-,-)和第1帧的第i个关节顶 AT=(AvgPool(MaxPool(MaskM))) 点u=(xu,y,),其关节顶点运动姿态表示为 mu=(x-x---1,乙i-z-1以，m是第1帧第i个式中：Ar∈RIx1是指在时间长度为T的时空图关节顶点的运动姿态。上，每帧动作骨架图的重要性程度；M是顶点关 2.2基于局部姿态运动的时域关注度节运动特征图；Mask∈Rxxw是局部肢体集P的对于在时域上存在大量的干扰信息，本文提掩码；⑧是矩阵对应元素相乘；o是指Sigmoid激

fin (Cin,T,N) Cin Ak N ×N A i j k = {0,1} A i j k vj vi A0 A1 A2 Λ ii k = ∑ j (A i j k )+α K Wk ∈ R Cout×Cin×1×1 Cout Mk ⊗ 式中：是输入维度为张量的特征图；是输入的特征通道数； T 是骨架帧的数量； N 表示骨架顶点的数量；是的类邻接矩阵，，其元素表示顶点是否在顶点的子集中，表示顶点自身，表示相比于根节点，距离骨架重心更近的节点，表示距离骨架重心更远的节点；是归一化对角矩阵，α=0.001；表示划分的子集个数，根据基于空间距离的划分规则[21] 共有 3 个不同子集，即 K=3；是 1×1 的卷积权重向量；是输出的特征通道数；是维度为 N×N 的空间注意力特征图，表示每个顶点的重要性；是矩阵对应元素相乘，这意味着它只能影响与当前目标相连的顶点。 1.2 时间图卷积文献 [22] 在时间域上提出了时间关注度模块，注意力系数计算如下： Mt = σ(gt(AvgPool(fin))) fin ∈ R Cout×T×N gt Wg ∈ R 1×Cin×KS KS Mt ∈ R 1×T×1 式中：是输入的特征图，T 是指在时间上的长度；AvgPool 是平均池化；是 1×1 的卷积操作，权重系数为，是卷积核大小； σ 标记为 Sigmoid 激活函数；注意力图，表示在某个时刻的骨架图重要性程度。 Vti B(vti) = {vqi ||q−t| ⩽ |Γ/2| } 文献 [21] 基于一种简单策略定义了时间维度上的图卷积，在式 (1) 中，在时间维度上使用核大小为 Γ×1 进行时间域上的图卷积。因此，在顶点上的采样区域为 ,其中 Vti 表示时间序列 t 上的第 i 个顶点；Γ 是在时间维度上的核大小，在文献 [21] 中设为 9。 2 基于姿态运动的时空域融合图卷积本文从人体运动具有复杂时空关系的角度出发，提出了基于姿态运动的时空域融合方法，融合时空域上的姿态运动和骨架关节特征并自适应增强特征。 2.1 姿态运动表示 vt−1,i = (xt−1,i , yt−1,i ,zt−1,i) vt,i = (xt,i , yt,i ,zt,i) mt,i = (xt,i − xt−1,i , yt,i −yt−1,i ,zt,i −zt−1,i) mt,i 姿态运动表达了在连续帧上对应关节顶点的运动信息。比如给定的第 t−1 帧的第 i 个关节顶点和第 t 帧的第 i 个关节顶点，其关节顶点运动姿态表示为，是第 t 帧第 i 个关节顶点的运动姿态。 2.2 基于局部姿态运动的时域关注度对于在时域上存在大量的干扰信息，本文提出了基于局部姿态运动的时域关注度模块 (LPMTAM)，如图 1 所示。骨架图上所有关节点运动信息表示为姿态运动，关节运动信息计算如下： fout AT φ Mask 1×T×r ×T×V ×T×V C×T×V 1×T×1 C×T×V 1×T×1 θ AL fin 最大池大 Sigmoid 平均池化 C 2 C 2 图 1 基于局部姿态运动的时域关注度模块 Fig. 1 Posture motion-based temporal attention module M = ∑T t=1 θt(φt(f t in)) f t in ∈ R Cin×1×N Cin φt θt Cin 2 ×Cin ×T ×N 式中：是在 t 时刻的输入特征图，是输入的特征通道数，N 表示骨架顶点的数量；用于提取特征图的运动信息；为降低特征图的通道数；M 是维度为的运动特征图，特征通道为输入通道的一半，T 是骨架帧的数量。 AL AT AL P = {p0, p1, p2, p3, p4} p0 p1 p2 p3 p4 AL ∈ R 1×T×r 人体的动作属于肢体运动，是部分或者全部的肢体进行运动。本文首先计算局部肢体在时域上的关注度，通过局部肢体的关注度来表征动作序列在时域上的关注度。局部肢体在时间维度上的注意力的计算主要取决于局部感知域 P 内的运动特征。其中，，即左手、右手、左腿、右腿以及其他肢体部位。，r 是指分解的肢体个数，本文中 r=5。基于局部姿势运动的时域关注度计算如下： AT = σ(AvgPool(MaxPool(Mask⊗ M))) AT ∈ R 1×T×1 Mask ∈ R 1×1×N ⊗ 式中：是指在时间长度为 T 的时空图上，每帧动作骨架图的重要性程度；M 是顶点关节运动特征图；是局部肢体集 P 的掩码；是矩阵对应元素相乘；σ 是指 Sigmoid 激第 3 期钟秋波，等：时空域融合的骨架动作识别与交互研究 ·603·

·604· 智能系统学报第15卷活函数。最后结果输出如下： four=fn⑧Ar⊕fm 式中：输入特征映射以残差连接的方式乘以注意力特征图A虹实现自适应特征增强；⊕是指矩阵元素对应相加。 2.3基于姿态运动的时空域融合 PM-STFGCN 为了融合骨架关节和运动特征实现端到端训练，提出了基于姿态运动时空域融合模块(PM- PM-STFGCN S-GCN STF),融合空域和时域运动特征并进行自适应特 LPM-TAM 全局平均池化层征增强。该模块在第1帧第i个顶点的时空域融 PM-STF 全连接层 T-GCN 合图卷积输出为 1 识别结果 PM-STFGCN层 fa)=fi+∑esm2 mdv》 (2) 图2基于ST-GCN的姿态运动时空域融合图卷积模型式中：f(w,)是顶点y的输入特征：m(y)是邻域顶 Fig.2 Spatiotemporal graph convolution network-based 点y的姿态运动特征；(y)是指邻域顶点y划分 spatiotemporal fusion graph convolution networks 子集映射的标签，使用基于空间距离划分规则划 2.5人机交互的实现分为3个子集；w为不同子集分配权重；Z)是本文设计了基于动作识别的人机交互系统，划分子集的基数，用于归一化。将动作交互实验应用在NAO机器人上，通过外在实现过程中，式(2)转化为置Kinect v2深度相机获取数据，交互实验算法流程如算法1。 fa=f。+∑4A4®As)(W-M.)w。 (3) 算法1人机动作交互 l)获取Kinect v2的人体骨骼序列数据X; 式中：Mn∈R争Txw是姿态运动特征图；Wm∈ 2)将骨骼数据X输入到动作识别网络(2s- RC.xxlxl是1×1的卷积操作，增加运动特征图的 AGCN+PM-STFGCN)中：特征通道；W ERC.xC.x1是1×1的卷积权重向量， 3)选取概率最大的预测动作类别Y; Cu是输出的特征通道数；As∈RxTx是空间注意 4)通过字典将动作类别Y映射为数字指令Y; 力图，用于区分每个关节顶点的重要性：⑧是指矩 5)将数字指令Y传输给NAO机器人：阵对应元素相乘；Ah是类邻接矩阵，Ag=0,1,其 6)NAO机器人根据接收的数字指令作出指元素A=1表示顶点y,在顶点片的子集B中，定的动作。否则A=0:=∑，4的+a是归一化对角矩阵。 0=0.001。 3实验结果分析 2.4PM-STFGCN的实现 3.1数据集本文的实现过程与仅优化空间图卷积的方法 NTU-RGB+D是目前最大，应用最广泛的基相结合。如图2所示，以ST-GCN为例，添加了本于骨架的动作识别多模态数据集。它包含：60个文提出的方法的实现过程。每一层时空图卷积层动作类，56880个视频片段，交叉对象(CS)和交都包含了空间图卷积模块和时间图卷积模块。叉视角(CV)两种训练基准。在交叉对象(CS) PM-STFGCN模块在空间和时间图卷积模块之间中，训练集包含40320个动作样本，测试集包含附加本文的基于姿态运动时空域融合模块(PM 16560个动作样本。在交叉视角(CV)中，训练集 ST℉)，融合时空图的空域位置特征和时域运动特包含2号和3号传感器拍摄的37920个动作样征并在该模块输入端添加基于局部姿态运动的时本，测试集包含1号传感器拍摄的18960个动作域关注度模块(LPM-TAM用于抑制时序上的干样本。本文在此基础上测试两个基准数据集的扰信息。S-GCN和T-GCN分别是原本模型的空 top-l精度。间和时间图卷积模块。最终，构建一个新的时空 3.2消融研究融合图卷积层(PM-STGCN Block)。在实验过程在NTU-RGB+D大型骨架数据集上进行了实中，本文将第一帧的运动信息设为0。验证明。将基于局部姿势运动的时域关注度模

活函数。最后结果输出如下： fout = fin ⊗ AT ⊕ fin AT 式中：输入特征映射以残差连接的方式乘以注意力特征图实现自适应特征增强；⊕是指矩阵元素对应相加。 2.3 基于姿态运动的时空域融合为了融合骨架关节和运动特征实现端到端训练，提出了基于姿态运动时空域融合模块 (PMSTF)，融合空域和时域运动特征并进行自适应特征增强。该模块在第 t 帧第 i 个顶点的时空域融合图卷积输出为 fout(vi) = fin(vi)+ ∑ vj∈B′ (vi) 1 Zi(vj) m(vj)w(lj(vj)) (2) fin(vi) vi m(vj) vj lj(vj) vj Zi(vj) 式中：是顶点的输入特征；是邻域顶点的姿态运动特征；是指邻域顶点划分子集映射的标签，使用基于空间距离划分规则划分为 3 个子集；w 为不同子集分配权重；是划分子集的基数，用于归一化。在实现过程中，式 (2) 转化为 fout = fin + ∑H h=1 (Λ − 1 2 h AhΛ − 1 2 h ⊗ AS)(WmMin)Wh (3) Min ∈ R Cin 2 ×T×N Wm ∈ R Cin× Cin 2 ×1×1 Wh ∈ R Cout×Cin×1×1 Cout AS ∈ R 1×T×N ⊗ Ah A i j h = {0,1} A i j h = 1 vj vi B ′ h A i j h = 0 Λ ii h = ∑ j (A i j h )+α 式中：是姿态运动特征图；是 1×1 的卷积操作，增加运动特征图的特征通道；是 1×1 的卷积权重向量，是输出的特征通道数；是空间注意力图，用于区分每个关节顶点的重要性；是指矩阵对应元素相乘；是类邻接矩阵， ,其元素表示顶点在顶点的子集中，否则；是归一化对角矩阵， α=0.001。 2.4 PM-STFGCN 的实现本文的实现过程与仅优化空间图卷积的方法相结合。如图 2 所示，以 ST-GCN 为例，添加了本文提出的方法的实现过程。每一层时空图卷积层都包含了空间图卷积模块和时间图卷积模块。 PM-STFGCN 模块在空间和时间图卷积模块之间附加本文的基于姿态运动时空域融合模块 (PMSTF)，融合时空图的空域位置特征和时域运动特征并在该模块输入端添加基于局部姿态运动的时域关注度模块 (LPM-TAM) 用于抑制时序上的干扰信息。S-GCN 和 T-GCN 分别是原本模型的空间和时间图卷积模块。最终，构建一个新的时空融合图卷积层 (PM-STGCN Block)。在实验过程中，本文将第一帧的运动信息设为 0。全局平均池化层全连接层 PM-STFGCN PM-STFGCN ... n-层识别结果 PM-STFGCN层 S-GCN LPM-TAM PM-STF T-GCN 图 2 基于 ST-GCN 的姿态运动时空域融合图卷积模型 Fig. 2 Spatiotemporal graph convolution network-based spatiotemporal fusion graph convolution networks 2.5 人机交互的实现本文设计了基于动作识别的人机交互系统，将动作交互实验应用在 NAO 机器人上，通过外置 Kinect v2 深度相机获取数据，交互实验算法流程如算法 1。算法 1 人机动作交互 1) 获取 Kinect v2 的人体骨骼序列数据 X； 2) 将骨骼数据 X 输入到动作识别网络 (2sAGCN+PM-STFGCN) 中； 3) 选取概率最大的预测动作类别 Y； Y ′ 4) 通过字典将动作类别 Y 映射为数字指令； Y ′ 5) 将数字指令传输给 NAO 机器人； 6) NAO 机器人根据接收的数字指令作出指定的动作。 3 实验结果分析 3.1 数据集 NTU-RGB+D 是目前最大，应用最广泛的基于骨架的动作识别多模态数据集。它包含：60 个动作类，56 880 个视频片段，交叉对象 (CS) 和交叉视角 (CV) 两种训练基准。在交叉对象 (CS) 中，训练集包含 40 320 个动作样本，测试集包含 16 560 个动作样本。在交叉视角 (CV) 中，训练集包含 2 号和 3 号传感器拍摄的 37 920 个动作样本，测试集包含 1 号传感器拍摄的 18 960 个动作样本。本文在此基础上测试两个基准数据集的 top-1 精度。 3.2 消融研究在 NTU-RGB+D 大型骨架数据集上进行了实验证明。将基于局部姿势运动的时域关注度模 ·604· 智能系统学报第 15 卷

第3期钟秋波，等：时空域融合的骨架动作识别与交互研究 ·605· 块(LPM-TAM和基于姿势运动的时空域融合模蹲下块(PM-STF)用PM-STFGCN表示。比较了ST- 0.6 0.4 摆手 GCN2和ST-GCN+PM-STFGCN、2s-AGCN2和 0.2 15 30 2s-AGCN+PM-STFGCN。结果显示与原有模型相 10 25 帧数比，后者性能得到了提升，并分别验证LPM-TAM (a)摆臂和下蹲动作的时域关注度和PM-STF都是有效的。如表1所示，对于ST-GCN2和ST-GCN+ PM-STFGCN,PM-STFGCN在NTU-RGB+D的 CS和CV基准的top-1精度上分别提高了3.9%和在之入心》产 1.4%,对于2s-AGCN2和2s-AGCN+PM-STFGCN. (b)摆臂和下蹲动作的可视化 PM-STFGCN在CS和CV基准的top-1精度上分图3摆动手臂和蹲下的时域关注度可视化别提高了3.1%和1.0%，2s-AGCN+PM-STFGCN Fig.3 Visualization of temporal attention map with arm 在CV基准上表现最好。 swings and squat down as an example 表1在CS和CV基准上的对比实验本文验证了所提出的PM-STF有效性。在 Table 1 Ablation study on the CS and CV benchmark ST-GCN2u和2s-AGCN2网络的时空图卷积层中精度只添加了PM-STF,并分别命名为ST-GCN+PM- 方法 STF和2s-AGCN+PM-STF。结果如表1所示，ST- CS CV GCN+PM-STF模型在CS和CV基准的top-1精 ST-GCNRI 81.5 88.3 度上分别提高了3.2%和0.9%，2s-AGCN+PM- 2s-AGCND261 88.6 95.2 STF模型在CS和CV基准的top-l精度上分别提 ST-GCN+LPM-TAM 84.1 88.9 高了2.5%和0.7%，实验结果表明PM-STF是有效的。 2s-AGCN+LPM-TAM 90.3 95.7 3.3与当前常用方法对比 ST-GCN+PM-STF 84.7 89.2 将本文方法与当前常用方法的模型进行对 2s-AGCN+PM-STF 91.1 95.9 比，结果如表2所示。其中2s-AGCN+PM-STFGCN ST-GCN+PM-STFGCN 85.4 89.7 在CV和CS基准上取得非常好的表现。 2s-AGCN+PM-STFGCN 91.7 96.2 表2本文方法与常用模型在CS和CV基准上的比较 Table 2 Comparison of our proposed method with cur- rent state-of-the-art methods on the CS and CV 为了验证所提出的LPM-TAM的有效性。在 benchmark ST-GCN2和2s-AGCN2网络的时空图卷积层中只添加了LPM-TAM,并分别命名为ST-GCN+ 方法 CS/% CV/ 耗时/s LPM-TAM和2s-AGCN+LPM-TAM。结果如表1 STA-LSTM例 73.4 81.2 所示，ST-GCN+LPM-TAM模型在CS和CV基准 CNN-based01 83.2 89.3 的top-1精度上分别提高了2.6%和0.6%，2s AGCN+LPM-TAM模型在CS和CV基准的top ST-GCNRI 81.5 88.3 0.056 1精度上分别提高了1.7%和0.5%，实验结果表 MS-AAGCNI2] 90.0 96.2 0.096 明LPM-TAM是有效的。对于时域关注度，本文给出了人体骨架序列 GCN-NASR4] 89.4 95.7 所对应的时域关注度示例。如图3所示，图(a)、 2s-AGCNP26] 88.6 95.2 0.071 (b)分别是时序关注度、摆动手臂和蹲下为例的骨 2s-AGCN+PM-STFGCN 91.7 96.2 0.082 架序列的可视化。对于摆动手臂的时序，模型更关注受试者摆动手臂的过程。对于蹲下的时序，在耗时上与ST-GCN、2s-AGCN和MS- 模型更关注受试者下蹲的过程。这可以有效地抑 AAGCN作比较。多流模态网络仅使用关节模态制时序上的不必要信息，表明所设计模块的有效耗时代替整体算法的耗时且便于比较。本文提出性和适应性。的方法与原本模型相比在识别耗时上增加约0.01s

块 (LPM-TAM) 和基于姿势运动的时空域融合模块 (PM-STF) 用 PM-STFGCN 表示。比较了 STGCN[21] 和 ST-GCN+PM- STFGCN、2s-AGCN[26] 和 2s-AGCN+PM-STFGCN。结果显示与原有模型相比，后者性能得到了提升，并分别验证 LPM-TAM 和 PM-STF 都是有效的。如表 1 所示，对于 ST-GCN[21] 和 ST-GCN+ PM-STFGCN，PM-STFGCN 在 NTU-RGB+D 的 CS 和 CV 基准的 top-1 精度上分别提高了 3.9% 和 1.4%，对于 2s-AGCN[26]和 2s-AGCN+PM-STFGCN， PM- STFGCN 在 CS 和 CV 基准的 top-1 精度上分别提高了 3.1%和 1.0%，2s-AGCN+PM-STFGCN 在 CV 基准上表现最好。表 1 在 CS 和 CV 基准上的对比实验 Table 1 Ablation study on the CS and CV benchmark % 方法精度 CS CV ST-GCN[21] 81.5 88.3 2s-AGCN[26] 88.6 95.2 ST-GCN+LPM-TAM 84.1 88.9 2s-AGCN+LPM-TAM 90.3 95.7 ST-GCN+PM-STF 84.7 89.2 2s-AGCN+PM-STF 91.1 95.9 ST-GCN+PM-STFGCN 85.4 89.7 2s-AGCN+ PM-STFGCN 91.7 96.2 为了验证所提出的 LPM-TAM 的有效性。在 ST-GCN[21] 和 2s-AGCN[26] 网络的时空图卷积层中只添加了 LPM-TAM，并分别命名为 ST-GCN+ LPM-TAM 和 2s-AGCN+LPM-TAM。结果如表 1 所示，ST-GCN+LPM-TAM 模型在 CS 和 CV 基准的 top-1 精度上分别提高了 2.6% 和 0.6%，2sAGCN+LPM-TAM 模型在 CS 和 CV 基准的 top- 1 精度上分别提高了 1.7% 和 0.5%，实验结果表明 LPM-TAM 是有效的。对于时域关注度，本文给出了人体骨架序列所对应的时域关注度示例。如图 3 所示，图 (a)、 (b) 分别是时序关注度、摆动手臂和蹲下为例的骨架序列的可视化。对于摆动手臂的时序，模型更关注受试者摆动手臂的过程。对于蹲下的时序，模型更关注受试者下蹲的过程。这可以有效地抑制时序上的不必要信息，表明所设计模块的有效性和适应性。 0 0.2 0.4 0.6 0.8 1.0 5 10 15 (a) 摆臂和下蹲动作的时域关注度 (b) 摆臂和下蹲动作的可视化 20 25 30 时间关注度帧数蹲下摆手图 3 摆动手臂和蹲下的时域关注度可视化 Fig. 3 Visualization of temporal attention map with arm swings and squat down as an example 本文验证了所提出的 PM-STF 有效性。在 ST-GCN[21] 和 2s-AGCN[26] 网络的时空图卷积层中只添加了 PM-STF，并分别命名为 ST-GCN+PMSTF 和 2s-AGCN+PM-STF。结果如表 1 所示，STGCN+PM-STF 模型在 CS 和 CV 基准的 top-1 精度上分别提高了 3.2% 和 0.9%，2s-AGCN +PMSTF 模型在 CS 和 CV 基准的 top-1 精度上分别提高了 2.5% 和 0.7%，实验结果表明 PM-STF 是有效的。 3.3 与当前常用方法对比将本文方法与当前常用方法的模型进行对比，结果如表 2 所示。其中 2s-AGCN+PM-STFGCN 在 CV 和 CS 基准上取得非常好的表现。表 2 本文方法与常用模型在 CS 和 CV 基准上的比较 Table 2 Comparison of our proposed method with current state-of-the-art methods on the CS and CV benchmark 方法 CS/% CV/% 耗时/s STA-LSTM[19] 73.4 81.2 — CNN-based[20] 83.2 89.3 — ST-GCN[21] 81.5 88.3 0.056 MS-AAGCN[22] 90.0 96.2 0.096 GCN-NAS[24] 89.4 95.7 — 2s-AGCN[26] 88.6 95.2 0.071 2s-AGCN+PM-STFGCN 91.7 96.2 0.082 在耗时上与 ST-GCN、 2s-AGCN 和 MSAAGCN 作比较。多流模态网络仅使用关节模态耗时代替整体算法的耗时且便于比较。本文提出的方法与原本模型相比在识别耗时上增加约 0.01 s，第 3 期钟秋波，等：时空域融合的骨架动作识别与交互研究 ·605·

·606· 智能系统学报第15卷增加的算法耗时对总体效果影响低。2s-AGCN+ ☑实验次数语音交互口动作交互 50 PM-STFGCN平均识别速度达到0.086s/f,平均每 48 秒处理约12f数据。相比于其他方法，本文提出的方法优点在于识别效果的提升，同时实验增加的算法耗时较少。 34 3.4交互实验对比坐下为了进一步评估所提出的动作识别模型的鲁动作语义棒性，将其应用于NAO机器人。表3为动作语义图6语音与动作交互的准确次数比较和交互动作之间的对应关系。 Fig.6 Comparison between accuracies of speech and ac- 表3动作语义与交互动作对应关系 tion interaction Table 3 Correspondence between action semantics and in- teractive action 对语音和动作交互在响应时间上进行对比。如图7所示，均为10次实验结果测量后的平均耗动作语义交互动作坐下费时间。结果显示，动作交互的响应时间大都短挥手于语音交互。语音交互平均响应时间为2.02s,动向前走前进作交互平均响应时间是1.71s,相比于语音交互，摸耳朵站立其响应时间降低了0.31s。向后退后退 ☑语音交互口动作交互抱手左转弯鼓掌右转弯 2.2 屈膝静止 2.0 .8 双手抱头关机 1.6 1.4 1.2 本文用准确率和实时性这两个指标进行实验 10 验证，将本文提出的动作交互与NAO机器人语音交互的响应时间进行对比，记录了50次两种动作语义交互方式的准确次数，验证了动作交互的可靠图7语音与动作交互的响应时间比较性。图4、图5为以挥手和摸耳朵为例的动作交互 Fig.7 Comparison between the response time of speech and action interaction 场景。通过响应时间和准确率的实验对比，得出动作交互相比于语音交互更具有优越性，不受环境噪声的影响，空间距离影响较小，适应环境能力强，保证了实时性的同时，满足在交互过程中的快速响应，且准确率高。图4以挥手为例的动作交互实验 4结束语 Fig.4 Action interaction with waving hand as an example 针对运动信息和骨架关节信息独立建模不能表达充分的问题，本文为了融合时空域的运动特 5 征，提出了基于姿态运动时空域融合的图卷积模型(PM-STFGCN)。使用基于姿态运动的时空域融合模块(PM-STF),融合时域和空域特征并自适图5以摸耳朵为例的动作交互实验应增强特征。为了抑制时域上的干扰并学习运动 Fig.5 Action interaction with touching ear as an example 姿态的表征，本文定义了一种基于局部姿态运动如图6所示，动作交互相比于语音交互的准的时域关注度模块(LPM-TAM。在大型骨架数确次数更多。语音交互的平均识别精度为85.50%，据集上进行对比实验，与目前性能较好的方法进动作交互的平均识别精度为89.75%。与语音交行比较，本文的方法更具有竞争性，设计的动作互相比，动作交互的识别精度提高了4.25%。交互系统在准确率和响应时间上都优于语音识

增加的算法耗时对总体效果影响低。2s-AGCN+ PM-STFGCN 平均识别速度达到 0.086 s/f，平均每秒处理约 12 f 数据。相比于其他方法，本文提出的方法优点在于识别效果的提升，同时实验增加的算法耗时较少。 3.4 交互实验对比为了进一步评估所提出的动作识别模型的鲁棒性，将其应用于 NAO 机器人。表 3 为动作语义和交互动作之间的对应关系。表 3 动作语义与交互动作对应关系 Table 3 Correspondence between action semantics and interactive action 动作语义交互动作挥手坐下向前走前进摸耳朵站立向后退后退抱手左转弯鼓掌右转弯屈膝静止双手抱头关机本文用准确率和实时性这两个指标进行实验验证，将本文提出的动作交互与 NAO 机器人语音交互的响应时间进行对比，记录了 50 次两种交互方式的准确次数，验证了动作交互的可靠性。图 4、图 5 为以挥手和摸耳朵为例的动作交互场景。图 4 以挥手为例的动作交互实验 Fig. 4 Action interaction with waving hand as an example 图 5 以摸耳朵为例的动作交互实验 Fig. 5 Action interaction with touching ear as an example 如图 6 所示，动作交互相比于语音交互的准确次数更多。语音交互的平均识别精度为 85.50%，动作交互的平均识别精度为 89.75%。与语音交互相比，动作交互的识别精度提高了 4.25%。 34 38 42 46 36 40 44 48 50 准确次数/次动作语义实验次数语音交互动作交互坐下前进站立后退左转弯右转弯静止关机图 6 语音与动作交互的准确次数比较 Fig. 6 Comparison between accuracies of speech and action interaction 对语音和动作交互在响应时间上进行对比。如图 7 所示，均为 10 次实验结果测量后的平均耗费时间。结果显示，动作交互的响应时间大都短于语音交互。语音交互平均响应时间为 2.02 s，动作交互平均响应时间是 1.71 s，相比于语音交互，其响应时间降低了 0.31 s。语音交互动作交互坐下前进站立后退左转弯右转弯静止关机 1.0 1.4 1.8 2.2 1.2 1.6 2.0 2.4 2.6 响应时间/s 动作语义图 7 语音与动作交互的响应时间比较 Fig. 7 Comparison between the response time of speech and action interaction 通过响应时间和准确率的实验对比，得出动作交互相比于语音交互更具有优越性，不受环境噪声的影响，空间距离影响较小，适应环境能力强，保证了实时性的同时，满足在交互过程中的快速响应，且准确率高。 4 结束语针对运动信息和骨架关节信息独立建模不能表达充分的问题，本文为了融合时空域的运动特征，提出了基于姿态运动时空域融合的图卷积模型 (PM-STFGCN)。使用基于姿态运动的时空域融合模块 (PM-STF)，融合时域和空域特征并自适应增强特征。为了抑制时域上的干扰并学习运动姿态的表征，本文定义了一种基于局部姿态运动的时域关注度模块 (LPM-TAM)。在大型骨架数据集上进行对比实验，与目前性能较好的方法进行比较，本文的方法更具有竞争性，设计的动作交互系统在准确率和响应时间上都优于语音识 ·606· 智能系统学报第 15 卷

第3期钟秋波，等：时空域融合的骨架动作识别与交互研究 ·607· 别，可以适应复杂的背景条件，体验者的交互效 havior detection of joint weighted reconstruction trajectory 率更高。 and histogram entropy[J].CAAI transactions on intelligent systems,.2018,13(6):1015-1026. 参考文献： [10]吴云鹏，赵晨阳，时增林，等.基于流密度的多重交互集 [1]SIMONYAN K,ZISSERMAN A.Two-stream convolu- 体行为识别算法[】.计算机学报，2017,40(11)： tional networks for action recognition in videos[C]//Pro- 2519-2532. ceedings of the 27th International Conference on Neural WU Yunpeng,ZHAO Chenyang,SHI Zenglin,et al.A Information Processing Systems.Montreal,Canada,2014: flow density based algorithm for detecting coherent mo- 568-576. tion with multiple interaction[.Chinese journal of com- [2]BAGAUTDINOV T,ALAHI A,FLEURET F,et al.So- puters,2017,40(11):2519-2532. cial scene understanding:end-to-end multi-person action [11]陈婷婷，阮秋琦，安高云.视频中人体行为的慢特征提 localization and collective activity recognition[C]//Pro- 取算法.智能系统学报，2015,10(3)：381-386 ceedings of the IEEE Conference on Computer Vision and CHEN Tingting,RUAN Qiuqi,AN Gaoyun.Slow fea- Pattern Recognition.Honolulu,USA,2017:3425-3434. ture extraction algorithm of human actions in video[J]. [3]WANG Heng,SCHMID C.Action recognition with im- CAAI transactions on intelligent systems,2015,10(3): proved trajectories[C]//Proceedings of the IEEE Interna- 381-386. tional Conference on Computer Vision.Sydney,Australia, [12]丁重阳，刘凯，李光，等.基于时空权重姿态运动特征的 2013:3551-3558 人体骨架行为识别研究U.计算机学报，2020,43(1)： [4]CAO Zhe.SIMON T,WEI S E,et al.Realtime multi-per- 29-40. son 2D pose estimation using part affinity fields[C]//Pro- DING Chongyang,LIU Kai,LI Guang,et al.Spatio-tem- ceedings of the IEEE Conference on Computer Vision and poral weighted posture motion features for human skelet- Pattern Recognition.Honolulu,USA,2017:1302-1310. on action recognition research[J].Chinese journal of com- [5]CHEN Yilun,WANG Zhicheng,PENG Yuxiang,et al. puters,2020,43(1:29-40. Cascaded pyramid network for multi-person pose estima- [13]莫宏伟，汪海波.基于Faster R-CNN的人体行为检测研 tion[C]//Proceedings of the IEEE/CVF Conference on 究U.智能系统学报，2018,13(6)：967-973 Computer Vision and Pattern Recognition.Salt Lake City, MO Hongwei,WANG Haibo.Research on human beha- USA,2018:7103-7112. vior detection based on Faster R-CNN[J].CAAl transac- [6]龚冬颖，黄敏，张洪博，等.RGBD人体行为识别中的自 tions on intelligent systems,2018,13(6):967-973. 适应特征选择方法仞.智能系统学报，2017,12(1)：1-7. [14]姬晓飞，谢旋，任艳.深度学习的双人交互行为识别与 GONG Dongying,HUANG Min,ZHANG Hongbo,et al. 预测算法研究.智能系统学报，DO:10.11992is. Adaptive feature selection method for action recognition of 201812029. human body in RGBD data[J].CAAI transactions on intel- JI Xiaofei,XIE Xuan,Ren Yan.Human interaction recog- ligent systems,2017,12(1):1-7. nition and prediction algorithm based on Deep Learning [7]姬晓飞，王昌汇，王扬扬.分层结构的双人交互行为识别 [J].CAAI transactions on intelligent systems,DOI: 方法[).智能系统学报，2015,10(6：893-900 10.11992is.201812029 JI Xiaofei,WANG Changhui,WANG Yangyang.Human [15]谢昭，周义，吴克伟，等.基于时空关注度LSTM的行为 interaction behavior-recognition method based on hierarch- 识别[J/OL].计算机学报：(2019-12-17)http:/kns ical structure[J].CAAI transactions on intelligent systems, cnki.net/kcms/detail/11.1826.TP.20191227.1658.002.html. 2015,10(6):893-900. XIE Zhao,ZHOU Yi,WU Kewei,et al.Activity recogni- [8]庄伟源，成运，林贤明，等.关键肢体角度直方图的行为 tion based on spatial-temporal attention LSTM[J/OL] 识别).智能系统学报，2015,10(1)：20-26. Chinese journal of computers:(2019-12-17)http://kns. ZHUANG Weiyuan,CHENG Yun,LIN Xianming,et al. cnki.net/kems/detail/11.1826.TP.20191227.1658.002.html. Action recognition based on the angle histogram of key [16]王传旭，胡小悦，孟唯佳，等.基于多流架构与长短时记 parts[J].CAAI transactions on intelligent systems,2015, 忆网络的组群行为识别方法研究).电子学报，2020， 10(1):20-26. 48(4:800-807 [9]徐志通，骆炎民，柳培忠.联合加权重构轨迹与直方图嫡 WANG Chuanxu,HU Xiaoyue,MENG Weijia,et al.Re- 的异常行为检测[J】.智能系统学报，2018,13(6)： search on group behavior recognition method based on 1015-1026 multi-stream architecture and long short-term memory XU Zhitong,LUO Yanmin,LIU Peizhong.Abnormal be- network[J].Acta electronica sinica,2020,48(4):800-807

别，可以适应复杂的背景条件，体验者的交互效率更高。参考文献： SIMONYAN K, ZISSERMAN A. Two-stream convolutional networks for action recognition in videos[C]//Proceedings of the 27th International Conference on Neural Information Processing Systems. Montreal, Canada, 2014: 568−576. [1] BAGAUTDINOV T, ALAHI A, FLEURET F, et al. Social scene understanding: end-to-end multi-person action localization and collective activity recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA, 2017: 3425−3434. [2] WANG Heng, SCHMID C. Action recognition with improved trajectories[C]//Proceedings of the IEEE International Conference on Computer Vision. Sydney, Australia, 2013: 3551−3558. [3] CAO Zhe, SIMON T, WEI S E, et al. Realtime multi-person 2D pose estimation using part affinity fields[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA, 2017: 1302−1310. [4] CHEN Yilun, WANG Zhicheng, PENG Yuxiang, et al. Cascaded pyramid network for multi-person pose estimation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA, 2018: 7103−7112. [5] 龚冬颖, 黄敏, 张洪博, 等. RGBD 人体行为识别中的自适应特征选择方法 [J]. 智能系统学报, 2017, 12(1): 1–7. GONG Dongying, HUANG Min, ZHANG Hongbo, et al. Adaptive feature selection method for action recognition of human body in RGBD data[J]. CAAI transactions on intelligent systems, 2017, 12(1): 1–7. [6] 姬晓飞, 王昌汇, 王扬扬. 分层结构的双人交互行为识别方法 [J]. 智能系统学报, 2015, 10(6): 893–900. JI Xiaofei, WANG Changhui, WANG Yangyang. Human interaction behavior-recognition method based on hierarchical structure[J]. CAAI transactions on intelligent systems, 2015, 10(6): 893–900. [7] 庄伟源, 成运, 林贤明, 等. 关键肢体角度直方图的行为识别 [J]. 智能系统学报, 2015, 10(1): 20–26. ZHUANG Weiyuan, CHENG Yun, LIN Xianming, et al. Action recognition based on the angle histogram of key parts[J]. CAAI transactions on intelligent systems, 2015, 10(1): 20–26. [8] 徐志通, 骆炎民, 柳培忠. 联合加权重构轨迹与直方图熵的异常行为检测 [J]. 智能系统学报, 2018, 13(6): 1015–1026. XU Zhitong, LUO Yanmin, LIU Peizhong. Abnormal be- [9] havior detection of joint weighted reconstruction trajectory and histogram entropy[J]. CAAI transactions on intelligent systems, 2018, 13(6): 1015–1026. 吴云鹏, 赵晨阳, 时增林, 等. 基于流密度的多重交互集体行为识别算法 [J]. 计算机学报, 2017, 40(11): 2519–2532. WU Yunpeng, ZHAO Chenyang, SHI Zenglin, et al. A flow density based algorithm for detecting coherent motion with multiple interaction[J]. Chinese journal of computers, 2017, 40(11): 2519–2532. [10] 陈婷婷, 阮秋琦, 安高云. 视频中人体行为的慢特征提取算法 [J]. 智能系统学报, 2015, 10(3): 381–386. CHEN Tingting, RUAN Qiuqi, AN Gaoyun. Slow feature extraction algorithm of human actions in video[J]. CAAI transactions on intelligent systems, 2015, 10(3): 381–386. [11] 丁重阳, 刘凯, 李光, 等. 基于时空权重姿态运动特征的人体骨架行为识别研究 [J]. 计算机学报, 2020, 43(1): 29–40. DING Chongyang, LIU Kai, LI Guang, et al. Spatio-temporal weighted posture motion features for human skeleton action recognition research[J]. Chinese journal of computers, 2020, 43(1): 29–40. [12] 莫宏伟, 汪海波. 基于 Faster R-CNN 的人体行为检测研究 [J]. 智能系统学报, 2018, 13(6): 967–973. MO Hongwei, WANG Haibo. Research on human behavior detection based on Faster R-CNN[J]. CAAI transactions on intelligent systems, 2018, 13(6): 967–973. [13] 姬晓飞, 谢旋, 任艳. 深度学习的双人交互行为识别与预测算法研究 [J]. 智能系统学报, DOI: 10.11992/tis. 201812029. JI Xiaofei, XIE Xuan, Ren Yan. Human interaction recognition and prediction algorithm based on Deep Learning [J]. CAAI transactions on intelligent systems, DOI: 10.11992/tis. 201812029. [14] 谢昭, 周义, 吴克伟, 等. 基于时空关注度 LSTM 的行为识别 [J/OL]. 计算机学报: (2019-12-17) http://kns. cnki.net/kcms/detail/11.1826.TP.20191227.1658.002.html. XIE Zhao, ZHOU Yi, WU Kewei, et al. Activity recognition based on spatial-temporal attention LSTM[J/OL] Chinese journal of computers: (2019-12-17) http://kns. cnki.net/kcms/detail/11.1826.TP.20191227.1658.002.html. [15] 王传旭, 胡小悦, 孟唯佳, 等. 基于多流架构与长短时记忆网络的组群行为识别方法研究 [J]. 电子学报, 2020, 48(4): 800–807. WANG Chuanxu, HU Xiaoyue, MENG Weijia, et al. Research on group behavior recognition method based on multi-stream architecture and long short-term memory network[J]. Acta electronica sinica, 2020, 48(4): 800–807. [16] 第 3 期钟秋波，等：时空域融合的骨架动作识别与交互研究 ·607·

·608· 智能系统学报第15卷 [1刀郑兴华，孙喜庆，吕嘉欣，等.基于深度学习和智能规划 Recognition.Seattle,USA,2020:143-152 的行为识别).电子学报，2019,47(8)：1661-1668. [24]PENG W,HONG X,CHEN H,et al.Learning Graph ZHENG Xinghua,SUN Xiqing,LU Jiaxin,et al.Action Convolutional Network for Skeleton-based Human Ac- recognition based on deep learning and artificial intelli- tion Recognition by Neural Searching[C]//Proceedings of gence planning[J].Acta electronica sinica,2019,47(8): Thirty-Fourth AAAl Conference on Artificial Intelli- 1661-1668. gence.New York.USA.2020:2669-2676. [18]张冰冰，葛疏雨，王旗龙，等基于多阶信息融合的行为识 [25]OBINATA Y,YAMAMOTO T.Temporal extension 别方法研究[J/OL.自动化学报，[2020-06-17刀D0: module for skeleton-based action recognition[J/OL]. 10.16383/.aas.c180265. [2020-03-19y]htp://arxiv.org/abs/2003.08951. ZHANG Bingbing,GE Shuyu,WANG Qilong,et al. [26]SHI L,ZHANG Y,CHENG J,et al.Two-stream adapt- Multi-order Information Fusion Method for Human Ac- ive graph convolutional networks for skeleton-based ac- tion Recognition[J/OL].ACTA automatica sinica,[2020- tion recognition[C]//Proceedings of the IEEE Conference 06-17刀DOL:10.16383.aas.c180265 on Computer Vision and Pattern Recognition.Los [19]LIU Jun,SHAHROUDY A,XU Dong,et al.Spatio-tem- Angeles,USA,2019:12026-12035 poral LSTM with trust gates for 3d human action recogni- 作者简介： tion[C]//Proceedings of the 14th European Conference on 钟秋波，副教授，博士，宁波工程 Computer Vision.Amsterdam,The Netherlands,2016: 学院机器人学院执行副院长，主要研 816-833 究方向为机器人智能控制、计算机视 [20]LI Chao,ZHONG Qiaoyong,XIE Di,et al.Skeleton- 觉图像处理、机器人运动控制。先后 based action recognition with convolutional neural net- 主持和参与横、纵向科研项目20多 works[C]//Proceedings of 2017 IEEE International Con- 项。发表学术论文20余篇。 ference on Multimedia and Expo Workshops.Hong Kong. China,2017:597-600 郑彩明，硕士研究生，主要研究方 [21]YAN Sijie,XIONG Yuanjun,LIN Dahua.Spatial tempor- 向为机器人智能控制、计算机视觉、图 al graph convolutional networks for skeleton-based ac- 像处理、机器人运动控制。 tion recognition[C]//Proceedings of the Thirty-Second AAAI Conference on Artificial Intelligence.New Or- leans,USA,2018:7444-7452. [22]SHI L.ZHANG Y.CHENG J.et al.Skeleton-based ac- tion recognition with multi-stream adaptive graph convo- 朴松吴，教授，博士生导师，中国 lutional networks[J/OL].[2020-06-01]https://arxiv.org/abs/ 人工智能学会常务理事，机器人文化艺术专业委员会主任，主要研究方向 1912.06971.2019. 为机器人环境感知与导航、机器人运 [23]LIU Ziyu,ZHANG Hongwen,CHEN Zhenghao,et al. 动规划、多智能体机器人协作。主持 Disentangling and unifying graph convolutions for skelet- 或参加国家自然科学基金、国家“863” on-based action recognition[C]//Proceedings of the 计划重点、教育部“985”等多个项目。 IEEE/CVF Conference on Computer Vision and Pattern 发表学术论文60余篇

郑兴华, 孙喜庆, 吕嘉欣, 等. 基于深度学习和智能规划的行为识别 [J]. 电子学报, 2019, 47(8): 1661–1668. ZHENG Xinghua, SUN Xiqing, LU Jiaxin, et al. Action recognition based on deep learning and artificial intelligence planning[J]. Acta electronica sinica, 2019, 47(8): 1661–1668. [17] 张冰冰,葛疏雨,王旗龙,等.基于多阶信息融合的行为识别方法研究 [J/OL]. 自动化学报, [2020-06-17] DOI: 10.16383/j.aas.c180265. ZHANG Bingbing, GE Shuyu, WANG Qilong, et al. Multi-order Information Fusion Method for Human Action Recognition[J/OL]. ACTA automatica sinica, [2020- 06-17] DOI: 10.16383/j.aas.c180265. [18] LIU Jun, SHAHROUDY A, XU Dong, et al. Spatio-temporal LSTM with trust gates for 3d human action recognition[C]//Proceedings of the 14th European Conference on Computer Vision. Amsterdam, The Netherlands, 2016: 816−833. [19] LI Chao, ZHONG Qiaoyong, XIE Di, et al. Skeletonbased action recognition with convolutional neural networks[C]//Proceedings of 2017 IEEE International Conference on Multimedia and Expo Workshops. Hong Kong, China, 2017: 597−600. [20] YAN Sijie, XIONG Yuanjun, LIN Dahua. Spatial temporal graph convolutional networks for skeleton-based action recognition[C]//Proceedings of the Thirty-Second AAAI Conference on Artificial Intelligence. New Orleans, USA, 2018: 7444−7452. [21] SHI L, ZHANG Y, CHENG J, et al. Skeleton-based action recognition with multi-stream adaptive graph convolutional networks[J/OL]. [2020-06-01] https://arxiv.org/abs/ 1912.06971, 2019. [22] LIU Ziyu, ZHANG Hongwen, CHEN Zhenghao, et al. Disentangling and unifying graph convolutions for skeleton-based action recognition[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern [23] Recognition. Seattle, USA, 2020: 143−152. PENG W, HONG X, CHEN H, et al. Learning Graph Convolutional Network for Skeleton-based Human Action Recognition by Neural Searching[C]//Proceedings of Thirty-Fourth AAAI Conference on Artificial Intelligence. New York, USA, 2020: 2669−2676. [24] OBINATA Y, YAMAMOTO T. Temporal extension module for skeleton-based action recognition[J/OL]. [2020-03-19] http://arxiv.org/abs/2003.08951. [25] SHI L, ZHANG Y, CHENG J, et al. Two-stream adaptive graph convolutional networks for skeleton-based action recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Los Angeles, USA, 2019: 12026−12035. [26] 作者简介：钟秋波，副教授，博士，宁波工程学院机器人学院执行副院长，主要研究方向为机器人智能控制、计算机视觉图像处理、机器人运动控制。先后主持和参与横、纵向科研项目 20 多项。发表学术论文 20 余篇。郑彩明，硕士研究生，主要研究方向为机器人智能控制、计算机视觉、图像处理、机器人运动控制。朴松昊，教授，博士生导师，中国人工智能学会常务理事，机器人文化艺术专业委员会主任，主要研究方向为机器人环境感知与导航、机器人运动规划、多智能体机器人协作。主持或参加国家自然科学基金、国家“863” 计划重点、教育部“985”等多个项目。发表学术论文 60 余篇。 ·608· 智能系统学报第 15 卷

点击进入文档下载页（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录