第15卷第3期 智能系统学报 Vol.15 No.3 2020年5月 CAAI Transactions on Intelligent Systems May 2020 D0L:10.11992tis.201812029 深度学习的双人交互行为识别与预测算法研究 姬晓飞,谢旋,任艳 (沈阳航空航天大学自动化学院,辽宁沈阳110136) 摘要:基于卷积神经网络的双人交互行为识别算法存在提取的深度特征无法有效表征交互行为序列特性的 问题,本文将长短期记忆网络与卷积神经网铬模型相结合,提出了一种基于深度学习的双人交互行为识别与预 测一体化方法。该方法在训练过程中,完成对卷积神经网络和长短期记忆网络模型的参数训练。在识别与预 测过程中,将不同时间比例长度的未知动作类别的视频图像分别送入已经训练好的卷积神经网络模型提取深 度特征,再将卷积神经网络提取的深度特征送入长短期记忆网络模型完成对双人交互行为的识别与预测。在 国际公开的UT-interaction双人交互行为数据库进行测试的结果表明,该方法在保证计算量适当的同时对交互 行为的正确识别率达到了92.31%.并且也可完成对未知动作的初步预测。 关键词:视频分析:行为识别:行为预测:深度学习:卷积神经网络:长短期记忆网络:UT-interaction数据库:SBU Kinect interaction数据库 中图分类号:TP391.4文献标志码:A 文章编号:1673-4785(2020)03-0484-07 中文引用格式:姬晓飞,谢旋,任艳.深度学习的双人交互行为识别与预测算法研究.智能系统学报,2020,15(3): 484-490. 英文引用格式:JI Xiaofei,.XIE Xuan,REN Yan.Human interaction recognition and prediction algorithm based on deep learning[J].CAAI transactions on intelligent systems,2020,15(3):484-490. Human interaction recognition and prediction algorithm based on deep learning JI Xiaofei,XIE Xuan,REN Yan (School of Automation,Shenyang Aerospace University,Shenyang 110136,China) Abstract:A drawback of the human interaction recognition algorithm based on a convolutional neural network(CNN) is that the extracted depth features cannot effectively represent the characteristics of interaction sequences.Instead,this paper proposes a human interaction recognition and prediction algorithm based on deep learning,by combining the Long Short-Term Memory(LSTM)network with the CNN model.In the process,video images of unknown action categories of different time lengths are sent to a trained CNN model to extract the depth features.The depth features are then sent to a trained LSTM model to complete the recognition and prediction of the interaction behavior.When tested on the UT- interaction human interaction behavior dataset,the algorithm demonstrates a 92.31%correct human interaction recogni- tion rate and can complete the preliminary prediction of unknown actions. Keywords:video analysis;action recognition;action prediction;deep learning;convolutional neural network;long short term memory;UT-interaction dataset;SBU Kinect interaction dataset 基于视频的双人交互行为识别与预测研究备 率先提出动态BoW(bag of word)的概率统计方法 受计算机视觉领域的关注。近期成果有,文献[1] 解决双人交互行为的预测问题,采用整体直方图 对动作的时空特征进行表示,而后建模整体直方 收稿日期:2018-12-26. 图特征随时间变化的规律实现动作预测。文献[2] 基金项目:国家自然科学基金项目(6160232I):辽宁省自然科 学基金项目(201602557):辽宁省教育厅科学研究服 提出一种基于3D立体体积局部兴趣点的时空描 务地方项日亿201708):辽宁省教育厅科学研究青年 述符结合稀疏特征表示的预测框架,将每个视频 项目(L201745). 通信作者:姬晓飞.E-mail:jixiaofei7804@126.com 划分为多个时间段,通过构造各个时间段组合稀
DOI: 10.11992/tis.201812029 深度学习的双人交互行为识别与预测算法研究 姬晓飞,谢旋,任艳 (沈阳航空航天大学 自动化学院,辽宁 沈阳 110136) 摘 要:基于卷积神经网络的双人交互行为识别算法存在提取的深度特征无法有效表征交互行为序列特性的 问题,本文将长短期记忆网络与卷积神经网络模型相结合,提出了一种基于深度学习的双人交互行为识别与预 测一体化方法。该方法在训练过程中,完成对卷积神经网络和长短期记忆网络模型的参数训练。在识别与预 测过程中,将不同时间比例长度的未知动作类别的视频图像分别送入已经训练好的卷积神经网络模型提取深 度特征,再将卷积神经网络提取的深度特征送入长短期记忆网络模型完成对双人交互行为的识别与预测。在 国际公开的 UT-interaction 双人交互行为数据库进行测试的结果表明,该方法在保证计算量适当的同时对交互 行为的正确识别率达到了 92.31%,并且也可完成对未知动作的初步预测。 关键词:视频分析;行为识别;行为预测;深度学习;卷积神经网络;长短期记忆网络;UT-interaction 数据库;SBU Kinect interaction 数据库 中图分类号:TP391.4 文献标志码:A 文章编号:1673−4785(2020)03−0484−07 中文引用格式:姬晓飞, 谢旋, 任艳. 深度学习的双人交互行为识别与预测算法研究 [J]. 智能系统学报, 2020, 15(3): 484–490. 英文引用格式:JI Xiaofei, XIE Xuan, REN Yan. Human interaction recognition and prediction algorithm based on deep learning[J]. CAAI transactions on intelligent systems, 2020, 15(3): 484–490. Human interaction recognition and prediction algorithm based on deep learning JI Xiaofei,XIE Xuan,REN Yan (School of Automation, Shenyang Aerospace University, Shenyang 110136, China) Abstract: A drawback of the human interaction recognition algorithm based on a convolutional neural network (CNN) is that the extracted depth features cannot effectively represent the characteristics of interaction sequences. Instead, this paper proposes a human interaction recognition and prediction algorithm based on deep learning, by combining the Long Short-Term Memory (LSTM) network with the CNN model. In the process, video images of unknown action categories of different time lengths are sent to a trained CNN model to extract the depth features. The depth features are then sent to a trained LSTM model to complete the recognition and prediction of the interaction behavior. When tested on the UTinteraction human interaction behavior dataset, the algorithm demonstrates a 92.31% correct human interaction recognition rate and can complete the preliminary prediction of unknown actions. Keywords: video analysis; action recognition; action prediction; deep learning; convolutional neural network; long short term memory; UT-interaction dataset; SBU Kinect interaction dataset 基于视频的双人交互行为识别与预测研究备 受计算机视觉领域的关注。近期成果有,文献 [1] 率先提出动态 BoW(bag of word) 的概率统计方法 解决双人交互行为的预测问题,采用整体直方图 对动作的时空特征进行表示,而后建模整体直方 图特征随时间变化的规律实现动作预测。文献 [2] 提出一种基于 3D 立体体积局部兴趣点的时空描 述符结合稀疏特征表示的预测框架,将每个视频 划分为多个时间段,通过构造各个时间段组合稀 收稿日期:2018−12−26. 基金项目:国家自然科学基金项目 (61602321);辽宁省自然科 学基金项目 (201602557);辽宁省教育厅科学研究服 务地方项目 (L201708);辽宁省教育厅科学研究青年 项目 (L201745). 通信作者:姬晓飞. E-mail:jixiaofei7804@126.com. 第 15 卷第 3 期 智 能 系 统 学 报 Vol.15 No.3 2020 年 5 月 CAAI Transactions on Intelligent Systems May 2020
第3期 姬晓飞,等:深度学习的双人交互行为识别与预测算法研究 ·485· 疏词袋,判断人类活动类别。文献[3]提出了一 1基于深度学习的算法框架 个新的基于关键帧的动作预测模型,提取运动视 频的关键帧作为运动模型的状态节点,成功地实 本文算法的处理框架如图1所示。 现了双人交互行为识别与预测的统一框架。但此 CNN LSTM 训练集 方法需要根据关键帧之间的相关性对其编码,计 特征提取 时序建模 算量很大且分类模型复杂。文献「4]提出一种新 训练识别 识别与 的判别式多尺度核化模型,分别采用局部进度模 测试集 与预测 预测结果 模型 型和全局进度模型捕获时间进度和全局观测之间 的关系,实现对部分观测视频的动作预测。此方 图1算法处理框架 Fig.1 Algorithm flowchart 法需要进行复杂的数学建模和时空匹配核函数的 选择。基于传统特征提取方法的双人交互行为识 本文算法处理流程为: 1)在训练过程中,完成对CNN和LSTM模型 别与预测研究中,特征提取完全是基于经验的手 动选择,适应性不强。基于模板匹配的识别方法 的参数训练,即将训练视频中的所有帧图像分别 送入卷积神经网络中提取深度特征,然后卷积神 往往不考虑视频序列的时序关系。基于时序建模 的识别方法1不适用于高维特征的建模与识 经网络全连接层输出结果作为LSTM的输入。 2)在识别与预测过程中,直接将不同时间比 别。总的来说基于传统特征提取方法的双人交互 例长度的未知动作类别的测试视频帧图像分别送 动作识别与预测的准确率不高,且提升的空间不大。 入已经训练好的识别与预测模型,最终得到每类 目前,深度学习理论与算法研究已经取得了 动作的检测分数,从而实现对双人交互行为的识 重大进展,利用深度学习模型提取特征可以消除 别与预测。 人工设计过程中的盲目性和差异性,实现特征的 该算法的优势在于利用卷积神经网络提取鲁 自动提取。文献[13]将深度学习网络用于双人交 棒性极强的深度特征,LSTM完成视频帧图像的 互行为识别,首先利用深度卷积神经网络从视频 时序建模,充分考虑到时间和视频上下文信息。 的连续光流图像中提取深度特征,然后将深度特 征按照时间维度连接在一起进行卷积以学习时间 2视频预处理 信息,最后采用多层神经网络输出交互类别以实 双人交互行为涉及手或腿等四肢的伸展,这些 现动作的识别与预测。该算法侧重于时间特征提 身体部位对于准确地进行交互行为识别与预测非 取和建模,忽略了空间信息对于识别结果的影 常重要。但是,人类的边界框并不完全包括所有身 响。文献[14]采用空间和时间卷积神经网络,提 体部位的伸展。在这种情况下,为了提高交互行为 出从动作视频中学习空间和时间信息的双流方 识别与预测的准确性,在特征提取之前通过帧间差 法,然后用平均时间和空间两个流的输出概率分 分的方法获得图像剪影信息,然后合并两个人的边 数来识别视频中动作类别。这种双流方法得到了 界框来选择感兴趣区域(RO),最后通过裁剪ROI 较高的识别率,但其忽略了交互场景上下文中的 对每个输入图像进行归一化,如图2所示。 重要序列信息。此外上述两种方法输入均为视频 的光流信息,计算量较大难以实现实时操作。根 据以上分析,为了提取适应性较强的特征表示, 顿差法 提取RO] 本文选取卷积神经网络提取动作视频深展特征, 考虑到单纯使用卷积神经网络提取的深度特征无 法准确有效表征交互行为序列特性的问题,将长 短期记忆网络(long short term memory network, LSTM)s1与卷积神经网络(convolutional neural 图2帧差法提取剪影所在感兴趣区域 networks,.CNN)模型相结合,提出了一种基于深 Fig.2 Frame difference method extracts the ROl 度学习的双人交互行为识别与预测一体化方法。 3特征表示 该方法充分利用CNN和LSTM的优势来提取和 建模两个相互作用的个体之间的长期相互关联特 3.1卷积神经网络概述 性,提高了交互行为识别与预测准确率。 CNN是一种典型的深度学习网络,由卷积
疏词袋,判断人类活动类别。文献 [3] 提出了一 个新的基于关键帧的动作预测模型,提取运动视 频的关键帧作为运动模型的状态节点,成功地实 现了双人交互行为识别与预测的统一框架。但此 方法需要根据关键帧之间的相关性对其编码,计 算量很大且分类模型复杂。文献 [4] 提出一种新 的判别式多尺度核化模型,分别采用局部进度模 型和全局进度模型捕获时间进度和全局观测之间 的关系,实现对部分观测视频的动作预测。此方 法需要进行复杂的数学建模和时空匹配核函数的 选择。基于传统特征提取方法的双人交互行为识 别与预测研究中,特征提取完全是基于经验的手 动选择,适应性不强。基于模板匹配的识别方法[5-7] 往往不考虑视频序列的时序关系。基于时序建模 的识别方法[8-12] 不适用于高维特征的建模与识 别。总的来说基于传统特征提取方法的双人交互 动作识别与预测的准确率不高,且提升的空间不大。 目前,深度学习理论与算法研究已经取得了 重大进展,利用深度学习模型提取特征可以消除 人工设计过程中的盲目性和差异性,实现特征的 自动提取。文献 [13] 将深度学习网络用于双人交 互行为识别,首先利用深度卷积神经网络从视频 的连续光流图像中提取深度特征,然后将深度特 征按照时间维度连接在一起进行卷积以学习时间 信息,最后采用多层神经网络输出交互类别以实 现动作的识别与预测。该算法侧重于时间特征提 取和建模,忽略了空间信息对于识别结果的影 响。文献 [14] 采用空间和时间卷积神经网络,提 出从动作视频中学习空间和时间信息的双流方 法,然后用平均时间和空间两个流的输出概率分 数来识别视频中动作类别。这种双流方法得到了 较高的识别率,但其忽略了交互场景上下文中的 重要序列信息。此外上述两种方法输入均为视频 的光流信息,计算量较大难以实现实时操作。根 据以上分析,为了提取适应性较强的特征表示, 本文选取卷积神经网络提取动作视频深展特征, 考虑到单纯使用卷积神经网络提取的深度特征无 法准确有效表征交互行为序列特性的问题,将长 短期记忆网络 (long short term memory network, LSTM)[15] 与卷积神经网络 (convolutional neural networks,CNN) 模型相结合,提出了一种基于深 度学习的双人交互行为识别与预测一体化方法。 该方法充分利用 CNN 和 LSTM 的优势来提取和 建模两个相互作用的个体之间的长期相互关联特 性,提高了交互行为识别与预测准确率。 1 基于深度学习的算法框架 本文算法的处理框架如图 1 所示。 训练集 测试集 CNN 特征提取 LSTM 时序建模 识别与 预测结果 训练识别 与预测 模型 图 1 算法处理框架 Fig. 1 Algorithm flowchart 本文算法处理流程为: 1) 在训练过程中,完成对 CNN 和 LSTM 模型 的参数训练,即将训练视频中的所有帧图像分别 送入卷积神经网络中提取深度特征,然后卷积神 经网络全连接层输出结果作为 LSTM 的输入。 2) 在识别与预测过程中,直接将不同时间比 例长度的未知动作类别的测试视频帧图像分别送 入已经训练好的识别与预测模型,最终得到每类 动作的检测分数,从而实现对双人交互行为的识 别与预测。 该算法的优势在于利用卷积神经网络提取鲁 棒性极强的深度特征,LSTM 完成视频帧图像的 时序建模,充分考虑到时间和视频上下文信息。 2 视频预处理 双人交互行为涉及手或腿等四肢的伸展,这些 身体部位对于准确地进行交互行为识别与预测非 常重要。但是,人类的边界框并不完全包括所有身 体部位的伸展。在这种情况下,为了提高交互行为 识别与预测的准确性,在特征提取之前通过帧间差 分的方法获得图像剪影信息,然后合并两个人的边 界框来选择感兴趣区域 (ROI),最后通过裁剪 ROI 对每个输入图像进行归一化,如图 2 所示。 帧差法 提取ROI 图 2 帧差法提取剪影所在感兴趣区域 Fig. 2 Frame difference method extracts the ROI 3 特征表示 3.1 卷积神经网络概述 CNN 是一种典型的深度学习网络[16] ,由卷积 第 3 期 姬晓飞,等:深度学习的双人交互行为识别与预测算法研究 ·485·
·486· 智能系统学报 第15卷 层、池化层和全连接层构成。基本结构框图如图3 模型近两年来经过一系列网络模型与参数的改 所示。 进,网络的最后全连接层的输出用作输入图像 的深度特征表示。经过大量实验验证,采用In ceptionV3得到的预测与识别效果最佳,Inception V3中Inception模块重复很多次,最终构成了 GoogLeNet22层的深层模型,输出2048维深度 池化 池化 全连接 特征向量。 全连接 图3CNN基本结构框图 4时序建模 Fig.3 CNN basic structure block diagram 4.1LSTM网络 1)卷积层(convolutional layer):卷积层可以提 传统的神经网络没有记忆功能,模型不关注 取输入数据的特征,每个卷积层只能提取一些简 上一时刻处理信息会有哪些用于下一时刻,每一 单特征,但是包含很多卷积层的深度神经网络可 次都只会关注当前时刻的处理过程,所以在双人 以抽取复杂的抽象特征表示。每个卷积单元的参 交互行为的序列学习中,单纯地采用传统神经网 数都是通过反向传播算法优化计算得到的。 络方法往往存在忽略时间信息或无法考虑上下文 2)池化层(pooling layer):也叫作降采样层。 关联信息的问题。递归神经网络(recurrent neural 数据经过卷积层处理之后会得到维度非常大的特 network,RNN)结构带有一个指向自身的环,用来 征,池化层将这些特征分割成几个区域,取其最 表示可以将当前时刻处理的信息传递给下一时刻 大值或平均值,得到新的、维度较小的特征。 使用。但传统的RNN记忆能力较弱,只能学习短 3)全连接层(fully-connected layer):把所有局 时间内上下文信息,而LSTM是传统RNN的改进 部特征组合成全局特征,用来计算每类动作的识 网络,主要用于改善传统RNN的弱记忆能力限制 别概率或者将深度特征输入到后续用于时序建模 的问题。 的深度网络中。 LSTM网络结构如图4所示,图中给出了相 3.2 nceptionV3网络 同的单元如何在生成输出流h的同时响应输入流 本文采用GoogLeNet网络m的改进版本In- x,其中每个单元由3个门组成,即忘记门、输入 ceptionV3us深度卷积神经网络架构。GoogLeN- 门和输出门。该单元设计为从最初观测时刻到当 t对网络中的传统卷积层进行了修改,主要特点 前时刻进行记忆,并且在记忆过程中会丢弃不需 在保证没有增加计算量的前提下,提高网络内 要的存储单元。输入门用来确定需要处理的信 部计算资源的利用率,允许增加网络深度和广 息,输出门用来选择输出通道。 度来提高深度神经网络的性能。该GoogLeNet C © ⊙ 图4LSTM结构图 Fig.4 LSTM structure block diagram 在数学上,LSTM存储器单元在给定时刻1的 式中:x是当前输入量;h-1是与前一时刻关联的 瞬时输出h,定义为 记忆响应,f是LSTM单元学习的非线性函数映 h:=f(,h1) (1) 射。本质上,LSTM在当前时刻的输出是从初始
层、池化层和全连接层构成。基本结构框图如图 3 所示。 卷积 池化 卷积 池化 全连接 全连接 图 3 CNN 基本结构框图 Fig. 3 CNN basic structure block diagram 1) 卷积层 (convolutional layer):卷积层可以提 取输入数据的特征,每个卷积层只能提取一些简 单特征,但是包含很多卷积层的深度神经网络可 以抽取复杂的抽象特征表示。每个卷积单元的参 数都是通过反向传播算法优化计算得到的。 2) 池化层 (pooling layer):也叫作降采样层。 数据经过卷积层处理之后会得到维度非常大的特 征,池化层将这些特征分割成几个区域,取其最 大值或平均值,得到新的、维度较小的特征。 3) 全连接层 (fully-connected layer):把所有局 部特征组合成全局特征,用来计算每类动作的识 别概率或者将深度特征输入到后续用于时序建模 的深度网络中。 3.2 InceptionV3 网络 本文采用 GoogLeNet 网络[17] 的改进版本 InceptionV3[18] 深度卷积神经网络架构。GoogLeNet 对网络中的传统卷积层进行了修改,主要特点 在保证没有增加计算量的前提下,提高网络内 部计算资源的利用率,允许增加网络深度和广 度来提高深度神经网络的性能。该 GoogLeNet 模型近两年来经过一系列网络模型与参数的改 进,网络的最后全连接层的输出用作输入图像 的深度特征表示。经过大量实验验证,采用 InceptionV3 得到的预测与识别效果最佳,Inception V3 中 Inception 模块重复很多次,最终构成了 GoogLeNet 22 层的深层模型,输出 2048 维深度 特征向量。 4 时序建模 4.1 LSTM 网络 传统的神经网络没有记忆功能,模型不关注 上一时刻处理信息会有哪些用于下一时刻,每一 次都只会关注当前时刻的处理过程,所以在双人 交互行为的序列学习中,单纯地采用传统神经网 络方法往往存在忽略时间信息或无法考虑上下文 关联信息的问题。递归神经网络 (recurrent neural network,RNN) 结构带有一个指向自身的环,用来 表示可以将当前时刻处理的信息传递给下一时刻 使用。但传统的 RNN 记忆能力较弱,只能学习短 时间内上下文信息,而 LSTM 是传统 RNN 的改进 网络,主要用于改善传统 RNN 的弱记忆能力限制 的问题。 h x LSTM 网络结构如图 4 所示,图中给出了相 同的单元如何在生成输出流 的同时响应输入流 ,其中每个单元由 3 个门组成,即忘记门、输入 门和输出门。该单元设计为从最初观测时刻到当 前时刻进行记忆,并且在记忆过程中会丢弃不需 要的存储单元。输入门用来确定需要处理的信 息,输出门用来选择输出通道。 σ σ tanh σ × + × × σ σ tanh σ tanh tanh tanh × + × × σ σ tanh σ × + × × Xt−1 Xt Xt+1 ht−1 ht ht+1 图 4 LSTM 结构图 Fig. 4 LSTM structure block diagram 在数学上,LSTM 存储器单元在给定时刻 t 的 瞬时输出 ht 定义为 ht = f(xt ,ht−1) (1) 式中:xt 是当前输入量;ht−1 是与前一时刻关联的 记忆响应,f 是 LSTM 单元学习的非线性函数映 射。本质上,LSTM 在当前时刻的输出是从初始 ·486· 智 能 系 统 学 报 第 15 卷
第3期 姬晓飞,等:深度学习的双人交互行为识别与预测算法研究 ·487· 时刻开始一直到上一时刻响应的递归函数。 此,本文将卷积神经网络提取的深度特征送到 与传统RNN相比,LSTM网络是具有记忆 LSTM进行时序建模,以充分捕捉视频特征的时 单元的RNN,包含能够学习长期依赖性的存储 间和上下文信息。该网络模型将输入视频帧图像 单元,不仅可以用于捕获和存储前观察信息, 送入CNN结构进行特征变换产生固定长度的特 并且可以提供更长范围的上下文信息进行当前 征向量表示(本文深度特征输出向量为2048维)。 的预测。 然后将CNN的输出输送到时间序列学习模块即 4.2LSTM和CNN模型结合 一系列LSTM单元中,最终对所有帧的概率分布 LSTM在提取序列的时序特征上效果较好, 进行平均,选择最有可能的标签,完成视频动作 适用于人体动作的识别与预测问题的研究。因 的分类,如图5所示。 S LSTM STM 单元 单元 单列 概率 FC层 提取深度特征 时序建模 图5单帧图像处理流程 Fig.5 Single frame image processing flow 5实验结果与分析 握手、拥抱、踢打、指、拳击和推搡6类动作。此 数据库每类动作由不同的人来完成,共有60组交 5.1数据库信息 互动作。库内动作没有周期性规律,并且不同动 本文提出了一种基于深度学习的双人交互行 作类别之间存在相似性动作,所以对库内交互行 为识别与预测算法,为了充分证明算法的有效性 为动作识别与预测更具有挑战性。数据集包含的 和合理性,在公开的UT-interaction双人交互行 动作如图6所示。 为数据库stl数据集中进行测试。该数据集包括 握手 拥抱 指 踢 拳击 推 图6UT-interaction数据库示例 Fig.6 Exemplar frames from UT-interaction dataset 5.2实验测试结果 内存32GB,带有两个显卡NVIDIA1080TI的 本文首先对视频帧图像进行预处理,去掉 64位Ubuntun16.04LTS操作系统下完成,处理 冗余的干扰信息。然后将处理过的视频图像送 器为i7-7800X,实验软件平台为python3..6.4ker 到InceptionV3网络模型中提取深度特征,完全 as2.1.3。 连接层FC输出2048维深度特征向量,送入 本次实验的结果如图7和图8所示。由图7 LSTM网络模型中作为其输入量完成对输入视 可知,随着测试视频时间长度的增加,预测准确 频的连续多帧图像的时序建模,最终输出当前 率逐渐增加。当测试视频长度比例为100%时, 测试视频的动作类别分数,从而判断未知测试 双人交互行为预测问题退化为识别问题;当测 视频的动作类别。所有实验在主频为3.50GHz, 试视频长度比例为50%时,预测准确率达到78.85%
时刻开始一直到上一时刻响应的递归函数。 与传统 RNN 相比,LSTM 网络是具有记忆 单元的 RNN,包含能够学习长期依赖性的存储 单元,不仅可以用于捕获和存储前观察信息, 并且可以提供更长范围的上下文信息进行当前 的预测。 4.2 LSTM 和 CNN 模型结合 LSTM 在提取序列的时序特征上效果较好, 适用于人体动作的识别与预测问题的研究。因 此,本文将卷积神经网络提取的深度特征送到 LSTM 进行时序建模,以充分捕捉视频特征的时 间和上下文信息。该网络模型将输入视频帧图像 送入 CNN 结构进行特征变换产生固定长度的特 征向量表示 (本文深度特征输出向量为 2048 维)。 然后将 CNN 的输出输送到时间序列学习模块即 一系列 LSTM 单元中,最终对所有帧的概率分布 进行平均,选择最有可能的标签,完成视频动作 的分类,如图 5 所示。 映射 LSTM 单元 FCLayer SoftMax 提取深度特征 FC层 时序建模 输出 概率 LSTM 单元 LSTM 单元 xt 图 5 单帧图像处理流程 Fig. 5 Single frame image processing flow 5 实验结果与分析 5.1 数据库信息 本文提出了一种基于深度学习的双人交互行 为识别与预测算法,为了充分证明算法的有效性 和合理性,在公开的 UT-interaction[19] 双人交互行 为数据库 set1 数据集中进行测试。该数据集包括 握手、拥抱、踢打、指、拳击和推搡 6 类动作。此 数据库每类动作由不同的人来完成,共有 60 组交 互动作。库内动作没有周期性规律,并且不同动 作类别之间存在相似性动作,所以对库内交互行 为动作识别与预测更具有挑战性。数据集包含的 动作如图 6 所示。 握手 拥抱 踢 拳击 推 指 图 6 UT-interaction 数据库示例 Fig. 6 Exemplar frames from UT-interaction dataset 5.2 实验测试结果 本文首先对视频帧图像进行预处理,去掉 冗余的干扰信息。然后将处理过的视频图像送 到 InceptionV3 网络模型中提取深度特征,完全 连 接 层 FC 输 出 2048 维深度特征向量,送 入 LSTM 网络模型中作为其输入量完成对输入视 频的连续多帧图像的时序建模,最终输出当前 测试视频的动作类别分数,从而判断未知测试 视频的动作类别。所有实验在主频为 3.50 GHz, 内 存 32 GB,带有两个显 卡 NVIDIA1080TI 的 64 位 Ubuntun16.04 LTS 操作系统下完成,处理 器为 i7-7800X,实验软件平台为 python3.6.4 keras2.1.3。 本次实验的结果如图 7 和图 8 所示。由图 7 可知,随着测试视频时间长度的增加,预测准确 率逐渐增加。当测试视频长度比例为 100% 时, 双人交互行为预测问题退化为识别问题;当测 试视频长度比例为 50% 时,预测准确率达到 78.85%, 第 3 期 姬晓飞,等:深度学习的双人交互行为识别与预测算法研究 ·487·
·488- 智能系统学报 第15卷 进一步验证了本文提出的基于深度学习的方法可 知,随着训练次数增多,模型学习能力不断增强, 以完成交互行为的识别与预测一体化。由图8可 对数据的拟合程度也不断提高。 1.0 1.0 0.8 0.8 0.6 类 0.4 0.4 train -train -test 一test 0.2 0 20 406080100120140160 0 20406080100120140160 迭代次数 迭代次数 (a)测试视频为100%,识别准确率为92.31% (b)测试视频为90%,预测准确率为90.38% 1.0i 1.0 0.8 0.8 06 0.6 0.4 0.4 train -train 0.2 一test 0.2 -test 0 20 406080100120140160 20406080100120140160 迭代次数 迭代次数 (c)测试视频为80%,预测准确率为90.00% (测试视频为70%,预测准确率为86.54% 1.0 1.0 0.8 M 0.8 0.6 0.6 0.4 -train 0.4 -train 0.2 —test 0.2 _test 0 20 40 6080100120140160 0 20 40 6080100120140160 迭代次数 迭代次数 ()测试视频为60%.预测准确率为79.00% (①测试视频为50%.预测准确率为78.85% 图7不同时间长度下预测准确率 Fig.7 Prediction accuracy at different lengths of time 2.5 4.0 一train 2.0 -train 3.0 —test 一test 2.0 1.0 1.0 人w 0 20 40 6080100120140160 0 20 40 6080100120140160 迭代次数 迭代次数 (a)测试视频时间长度为100% (b)测试视频时间长度为90% 3.0 train 2.5 2.5 一test 2.0 train 2.0 -test 1 1.0 0.5 MAM o 0 20 40 6080100120140160 0 20 40 6080100120140160 迭代次数 迭代次数 (c)测试视频时间长度为80% (d测试视频时间长度为70%
进一步验证了本文提出的基于深度学习的方法可 以完成交互行为的识别与预测一体化。由图 8 可 知,随着训练次数增多,模型学习能力不断增强, 对数据的拟合程度也不断提高。 1.0 0.8 0.6 0.4 0.2 0 20 40 60 80 100 120 140 160 迭代次数 准确率 1.0 0.8 0.6 0.4 0.2 0 20 40 60 80 100 120 140 160 迭代次数 准确率 1.0 0.8 0.6 0.4 0.2 0 20 40 60 80 100 120 140 160 迭代次数 准确率 train test train test train test 1.0 0.8 0.6 0.4 0.2 0 20 40 60 80 100 120 140 160 迭代次数 准确率 train test (a) 测试视频为100%,识别准确率为92.31% (b) 测试视频为90%,预测准确率为90.38% 1.0 0.8 0.6 0.4 0.2 0 20 40 60 80 100 120 140 160 迭代次数 准确率 train test (c) 测试视频为80%,预测准确率为90.00% (d) 测试视频为70%,预测准确率为86.54% 1.0 0.8 0.6 0.4 0.2 0 20 40 60 80 100 120 140 160 迭代次数 准确率 train test (e) 测试视频为60%,预测准确率为79.00% (f) 测试视频为50%,预测准确率为78.85% 图 7 不同时间长度下预测准确率 Fig. 7 Prediction accuracy at different lengths of time 3.0 2.0 1.0 0 20 40 60 80 100 120 140 160 迭代次数 损失函数 4.0 2.0 1.5 1.0 0.5 0 20 40 60 80 100 120 140 160 迭代次数 损失函数 2.5 2.5 2.0 1.5 1.0 0.5 0 20 40 60 80 100 120 140 160 迭代次数 损失函数 3.0 train test train test train test 2.0 1.5 1.0 0.5 0 20 40 60 80 100 120 140 160 迭代次数 损失函数 2.5 train test (a) 测试视频时间长度为100% (b) 测试视频时间长度为90% (c) 测试视频时间长度为80% (d) 测试视频时间长度为70% ·488· 智 能 系 统 学 报 第 15 卷
第3期 姬晓飞,等:深度学习的双人交互行为识别与预测算法研究 ·489· 2.5 2.5 2.0 -train 2.0 train 1.5 -test -test 1.5 1.0 2.5 0.5 0.5 20 406080100120140160 20 406080100120140160 迭代次数 迭代次数 (©)测试视频时间长度为60% (①)测试视频时间长度为50% 图8不同时间长度下模型损失 Fig.8 Model loss at different lengths of time 5.3实验结果与其他文献的比较 为识别与预测技术复杂、准确性较低的问题。人 本文将提出的方法与其他文献在UT-interac- 类交互动作可能持续很长时间,并且可以由多个 tion数据库中得到的识别与预测结果进行比较, 不同的子动作组成。单纯使用在交互发生之前捕 见表1所示。 获的单个帧来推断交互类别信息往往是不够的, 从表1可以看出,本文提出的基于深度学习 几个连续帧的时间信息和上下文依赖为预测未来 的新框架在双人交互行为识别与预测一体化上得 的交互动作提供了关键线索。采用新颖的网络组 到了较好的结果。与文献[1-4]相比,本文的方法 合模型LSTM+InceptionV3,旨在了解视频全局和 在对未知动作类别视频的预测问题上准确性最 局部上下文之间的依赖关系,并捕获交互场景的 优,尽管文献[3]和文献[4得到的识别结果稍高 显著信息。实验测试结果表明,本文采用的算法 于本文的算法,但是其算法较为复杂,在前期对 在国际公开数据库中取得了良好的结果,识别准 输入图像的预处理计算量很大。文献[3]实验结 确率和算法鲁棒性都有了明显的提升。 果依附于带有明显判别动作的关键帧信息,算法 执行性和实际可操作性不强;文献[4]开发了一 参考文献: 种具有复合内核的最大边际动作预测机制,但是 [1]RYOO M S.Human activity prediction:Early recognition 其基于丰富的预测先验知识,学习过程复杂,且 of ongoing activities from streaming videos[Cl//Proceed- 很难实现实时操作。本文采用的方法无需人为参 ings of 2011 International Conference on Computer Vis- 与,即可达到较好的识别与预测效果,且可以实 ion.Barcelona,Spain,2011:1036-1043. 现实时操作。但由于深度学习算法对数据量的要 [2]XU Kaiping,QIN Zheng,WANG Guolong.Human activ- 求较高,要想达到更优的预测与识别效果,训练 ities prediction by learning combinatorial sparse represent- 模型仍然有待一步进行改善。 ations[C]//Proceedings of 2016 IEEE International Confer- 表1不同方法在UT-interaction数据库中的动作识别与 ence on Image Processing.Phoenix,USA,2016:724-728. 预测结果比较 [3]RAPTIS M,SIGAL L.Poselet key-framing:a model for Table 1 Comparison of different algorithms for interac- human activity recognition[Cl//Proceedings of 2013 IEEE tion recognition and prediction in UT-interaction Conference on Computer Vision and Pattern Recognition dataset Portland,USA,2013:2650-2657. 一半观测序列得 整个观测序列得 来源 [4]KONG Yu,FU Yun.Max-margin action prediction ma- 到的识别率% 到的识别率% chine[J.IEEE transactions on pattern analysis and ma- 文献) 65.00 81.70 chine intelligence,2016,38(9):1844-1858. 文献2] 70.00 80.00 [5]KUNZE K,LUKOWICZ P.Dealing with sensor displace- ment in motion-based onbody activity recognition 文献3] 73.30 93.30 systems[C]//Proceedings of the 10th International Confer- 文献[4) 78.33 95.00 ence on Ubiquitous Computing.Seoul,South Korea,2008: 本文 78.85 92.31 20-29. [6]BULLING A,ROGGEN D.Recognition of visual memory 6结束语 recall processes using eye movement analysis[Cl//Proceed- ings of the 13th International Conference on Ubiquitous 本文提出一种基于深度学习的人体交互行为 Computing.New York,USA,2011:455-464. 识别与预测方法,来解决基于传统特征的交互行 [7]VAN KASTEREN T,NOULAS A,ENGLEBIENNE G,et
2.0 1.5 1.0 0.5 0 20 40 60 80 100 120 140 160 迭代次数 损失函数 2.5 2.0 1.5 1.0 0.5 0 20 40 60 80 100 120 140 160 迭代次数 损失函数 2.5 train test train test (e) 测试视频时间长度为60% 2.5 (f) 测试视频时间长度为50% 图 8 不同时间长度下模型损失 Fig. 8 Model loss at different lengths of time 5.3 实验结果与其他文献的比较 本文将提出的方法与其他文献在 UT-interaction 数据库中得到的识别与预测结果进行比较, 见表 1 所示。 从表 1 可以看出,本文提出的基于深度学习 的新框架在双人交互行为识别与预测一体化上得 到了较好的结果。与文献 [1-4] 相比,本文的方法 在对未知动作类别视频的预测问题上准确性最 优,尽管文献 [3] 和文献 [4] 得到的识别结果稍高 于本文的算法,但是其算法较为复杂,在前期对 输入图像的预处理计算量很大。文献 [3] 实验结 果依附于带有明显判别动作的关键帧信息,算法 执行性和实际可操作性不强;文献 [4] 开发了一 种具有复合内核的最大边际动作预测机制,但是 其基于丰富的预测先验知识,学习过程复杂,且 很难实现实时操作。本文采用的方法无需人为参 与,即可达到较好的识别与预测效果,且可以实 现实时操作。但由于深度学习算法对数据量的要 求较高,要想达到更优的预测与识别效果,训练 模型仍然有待一步进行改善。 表 1 不同方法在 UT-interaction 数据库中的动作识别与 预测结果比较 Table 1 Comparison of different algorithms for interaction recognition and prediction in UT-interaction dataset 来源 一半观测序列得 到的识别率/% 整个观测序列得 到的识别率/% 文献[1] 65.00 81.70 文献[2] 70.00 80.00 文献[3] 73.30 93.30 文献[4] 78.33 95.00 本文 78.85 92.31 6 结束语 本文提出一种基于深度学习的人体交互行为 识别与预测方法,来解决基于传统特征的交互行 为识别与预测技术复杂、准确性较低的问题。人 类交互动作可能持续很长时间,并且可以由多个 不同的子动作组成。单纯使用在交互发生之前捕 获的单个帧来推断交互类别信息往往是不够的, 几个连续帧的时间信息和上下文依赖为预测未来 的交互动作提供了关键线索。采用新颖的网络组 合模型 LSTM+InceptionV3,旨在了解视频全局和 局部上下文之间的依赖关系,并捕获交互场景的 显著信息。实验测试结果表明,本文采用的算法 在国际公开数据库中取得了良好的结果,识别准 确率和算法鲁棒性都有了明显的提升。 参考文献: RYOO M S. Human activity prediction: Early recognition of ongoing activities from streaming videos[C]//Proceedings of 2011 International Conference on Computer Vision. Barcelona, Spain, 2011: 1036−1043. [1] XU Kaiping, QIN Zheng, WANG Guolong. Human activities prediction by learning combinatorial sparse representations[C]//Proceedings of 2016 IEEE International Conference on Image Processing. Phoenix, USA, 2016: 724−728. [2] RAPTIS M, SIGAL L. Poselet key-framing: a model for human activity recognition[C]//Proceedings of 2013 IEEE Conference on Computer Vision and Pattern Recognition. Portland, USA, 2013: 2650−2657. [3] KONG Yu, FU Yun. Max-margin action prediction machine[J]. IEEE transactions on pattern analysis and machine intelligence, 2016, 38(9): 1844–1858. [4] KUNZE K, LUKOWICZ P. Dealing with sensor displacement in motion-based onbody activity recognition systems[C]//Proceedings of the 10th International Conference on Ubiquitous Computing. Seoul, South Korea, 2008: 20−29. [5] BULLING A, ROGGEN D. Recognition of visual memory recall processes using eye movement analysis[C]//Proceedings of the 13th International Conference on Ubiquitous Computing. New York, USA, 2011: 455−464. [6] [7] VAN KASTEREN T, NOULAS A, ENGLEBIENNE G, et 第 3 期 姬晓飞,等:深度学习的双人交互行为识别与预测算法研究 ·489·
·490· 智能系统学报 第15卷 al.Accurate activity recognition in a home setting[C]//Pro- lands,.2011:29-39 ceedings of the 10th International Conference on Ubiquit- [17]SZEGEDY C,LIU Wei,JIA Yangqing,et al.Going deep- ous Computing.Seoul,South Korea,2008:1-9. er with convolutions[C]//Proceedings of 2015 IEEE Con- [8]CHUNG P C.LIU C D.A daily behavior enabled hidden ference on Computer Vision and Pattern Recognition.Bo- Markov model for human behavior understanding[J].Pat- ston.USA,2015:1-9. tern recognition,2008,41(5):1572-1580. [18]SZEGEDY C.VANHOUCKE V.IOFFE S,et al.Re- [9]TANG K,LI Feifei,KOLLER D.Learning latent temporal thinking the inception architecture for computer vision[Cl// structure for complex event detection[C]//Proceedings of Proceedings of 2016 IEEE Conference on Computer Vis- 2012 IEEE Conference on Computer Vision and Pattern ion and Pattern Recognition.Las Vegas,USA,2016: Recognition.Providence,USA,2012:1025-1257. 2818-2826. [10]LAFFERTY J D,MCCALLUM A,PEREIRA F C N. [19]RYOO M S,AGGARWAL J K.Spatio-temporal relation- Conditional random fields:probabilistic models for seg- ship match:video structure comparison for recognition of menting and labeling sequence data[C]//Proceedings of the 18th International Conference on Machine Learning. complex human activities[C]//Proceedings of 2009 IEEE San Francisco.USA.2001:282-289. 12th International Conference on Computer Vision. [11]ZHANG Jianguo,GONG Shaogang.Action categoriza- Kyoto,Japan,2009:1593-1600. tion with modified hidden conditional random field [J]. 作者简介: Pattern recognition,2010,43(1):197-203. 姬晓飞,副教授,博士,主要研究 [12]SONG Yale.MORENCY L P,DAVIS R.Action recogni- 方向为视频分析与处理、模式识别理 tion by hierarchical sequence summarization[C]//EEE 论。承担国家自然科学基金、辽宁省 Conference on Computer Vision and Pattern Recognition. 自然科学基金等多项课题研究。发表 Portland,USA,2013:3563-3569. 学术论文40余篇,参与编著英文专 著2部。 [13]KE Qiuhong,BENNAMOUN M,AN Senjian,et al.Hu- man interaction prediction using deep temporal features [C]//Proceedings of European Conference on Computer 谢旋,硕土研究生,主要研究方向 Vision.Amsterdam.The Netherlands,2016:403-414. 为生物特征识别与行为分析技术。 [14]SIMONYAN K,ZISSERMAN A.Two-stream convolu- tional networks for action recognition in videos[C]//Pro- ceedings of the 27th International Conference on Neural Information Processing Systems.Montreal,Canada,2014: 568-576 [15]HOCHREITER S,SCHMIDHUBER J.Long short-term 任艳,讲师,博士,主要研究方向 为基于公理化模糊集的知识发现与表 memory[J].Neural computation,1997,9(8):1735-1780. 示、图像语义特征提取。承担国家自 [16]BACCOUCHE M,MAMALET F,WOLF C,et al.Se- 然科学基金、航空基金、辽宁省自然科 quential deep learning for human action recognition[C]// 学基金等课题研究。发表学术论文 Proceedings of the 2nd International Workshop on Hu- 25篇。 man Behavior Understanding.Amsterdam,The Nether-
al. Accurate activity recognition in a home setting[C]//Proceedings of the 10th International Conference on Ubiquitous Computing. Seoul, South Korea, 2008: 1−9. CHUNG P C, LIU C D. A daily behavior enabled hidden Markov model for human behavior understanding[J]. Pattern recognition, 2008, 41(5): 1572–1580. [8] TANG K, LI Feifei, KOLLER D. Learning latent temporal structure for complex event detection[C]//Proceedings of 2012 IEEE Conference on Computer Vision and Pattern Recognition. Providence, USA, 2012: 1025−1257. [9] LAFFERTY J D, MCCALLUM A, PEREIRA F C N. Conditional random fields: probabilistic models for segmenting and labeling sequence data[C]//Proceedings of the 18th International Conference on Machine Learning. San Francisco, USA, 2001: 282−289. [10] ZHANG Jianguo, GONG Shaogang. Action categorization with modified hidden conditional random field[J]. Pattern recognition, 2010, 43(1): 197–203. [11] SONG Yale, MORENCY L P, DAVIS R. Action recognition by hierarchical sequence summarization[C]//IEEE Conference on Computer Vision and Pattern Recognition. Portland, USA, 2013: 3563−3569. [12] KE Qiuhong, BENNAMOUN M, AN Senjian, et al. Human interaction prediction using deep temporal features [C]//Proceedings of European Conference on Computer Vision. Amsterdam, The Netherlands, 2016: 403−414. [13] SIMONYAN K, ZISSERMAN A. Two-stream convolutional networks for action recognition in videos[C]//Proceedings of the 27th International Conference on Neural Information Processing Systems. Montreal, Canada, 2014: 568−576. [14] HOCHREITER S, SCHMIDHUBER J. Long short-term memory[J]. Neural computation, 1997, 9(8): 1735–1780. [15] BACCOUCHE M, MAMALET F, WOLF C, et al. Sequential deep learning for human action recognition[C]// Proceedings of the 2nd International Workshop on Human Behavior Understanding. Amsterdam, The Nether- [16] lands, 2011: 29−39. SZEGEDY C, LIU Wei, JIA Yangqing, et al. Going deeper with convolutions[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA, 2015: 1−9. [17] SZEGEDY C, VANHOUCKE V, IOFFE S, et al. Rethinking the inception architecture for computer vision[C]// Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA, 2016: 2818−2826. [18] RYOO M S, AGGARWAL J K. Spatio-temporal relationship match: video structure comparison for recognition of complex human activities[C]//Proceedings of 2009 IEEE 12th International Conference on Computer Vision. Kyoto, Japan, 2009: 1593−1600. [19] 作者简介: 姬晓飞,副教授,博士,主要研究 方向为视频分析与处理、模式识别理 论。承担国家自然科学基金、辽宁省 自然科学基金等多项课题研究。发表 学术论文 40 余篇,参与编著英文专 著 2 部。 谢旋,硕士研究生,主要研究方向 为生物特征识别与行为分析技术。 任艳,讲师,博士,主要研究方向 为基于公理化模糊集的知识发现与表 示、图像语义特征提取。承担国家自 然科学基金、航空基金、辽宁省自然科 学基金等课题研究。发表学术论文 25 篇。 ·490· 智 能 系 统 学 报 第 15 卷