正在加载图片...
第3期 姬晓飞,等:深度学习的双人交互行为识别与预测算法研究 ·485· 疏词袋,判断人类活动类别。文献[3]提出了一 1基于深度学习的算法框架 个新的基于关键帧的动作预测模型,提取运动视 频的关键帧作为运动模型的状态节点,成功地实 本文算法的处理框架如图1所示。 现了双人交互行为识别与预测的统一框架。但此 CNN LSTM 训练集 方法需要根据关键帧之间的相关性对其编码,计 特征提取 时序建模 算量很大且分类模型复杂。文献「4]提出一种新 训练识别 识别与 的判别式多尺度核化模型,分别采用局部进度模 测试集 与预测 预测结果 模型 型和全局进度模型捕获时间进度和全局观测之间 的关系,实现对部分观测视频的动作预测。此方 图1算法处理框架 Fig.1 Algorithm flowchart 法需要进行复杂的数学建模和时空匹配核函数的 选择。基于传统特征提取方法的双人交互行为识 本文算法处理流程为: 1)在训练过程中,完成对CNN和LSTM模型 别与预测研究中,特征提取完全是基于经验的手 动选择,适应性不强。基于模板匹配的识别方法 的参数训练,即将训练视频中的所有帧图像分别 送入卷积神经网络中提取深度特征,然后卷积神 往往不考虑视频序列的时序关系。基于时序建模 的识别方法1不适用于高维特征的建模与识 经网络全连接层输出结果作为LSTM的输入。 2)在识别与预测过程中,直接将不同时间比 别。总的来说基于传统特征提取方法的双人交互 例长度的未知动作类别的测试视频帧图像分别送 动作识别与预测的准确率不高,且提升的空间不大。 入已经训练好的识别与预测模型,最终得到每类 目前,深度学习理论与算法研究已经取得了 动作的检测分数,从而实现对双人交互行为的识 重大进展,利用深度学习模型提取特征可以消除 别与预测。 人工设计过程中的盲目性和差异性,实现特征的 该算法的优势在于利用卷积神经网络提取鲁 自动提取。文献[13]将深度学习网络用于双人交 棒性极强的深度特征,LSTM完成视频帧图像的 互行为识别,首先利用深度卷积神经网络从视频 时序建模,充分考虑到时间和视频上下文信息。 的连续光流图像中提取深度特征,然后将深度特 征按照时间维度连接在一起进行卷积以学习时间 2视频预处理 信息,最后采用多层神经网络输出交互类别以实 双人交互行为涉及手或腿等四肢的伸展,这些 现动作的识别与预测。该算法侧重于时间特征提 身体部位对于准确地进行交互行为识别与预测非 取和建模,忽略了空间信息对于识别结果的影 常重要。但是,人类的边界框并不完全包括所有身 响。文献[14]采用空间和时间卷积神经网络,提 体部位的伸展。在这种情况下,为了提高交互行为 出从动作视频中学习空间和时间信息的双流方 识别与预测的准确性,在特征提取之前通过帧间差 法,然后用平均时间和空间两个流的输出概率分 分的方法获得图像剪影信息,然后合并两个人的边 数来识别视频中动作类别。这种双流方法得到了 界框来选择感兴趣区域(RO),最后通过裁剪ROI 较高的识别率,但其忽略了交互场景上下文中的 对每个输入图像进行归一化,如图2所示。 重要序列信息。此外上述两种方法输入均为视频 的光流信息,计算量较大难以实现实时操作。根 据以上分析,为了提取适应性较强的特征表示, 顿差法 提取RO] 本文选取卷积神经网络提取动作视频深展特征, 考虑到单纯使用卷积神经网络提取的深度特征无 法准确有效表征交互行为序列特性的问题,将长 短期记忆网络(long short term memory network, LSTM)s1与卷积神经网络(convolutional neural 图2帧差法提取剪影所在感兴趣区域 networks,.CNN)模型相结合,提出了一种基于深 Fig.2 Frame difference method extracts the ROl 度学习的双人交互行为识别与预测一体化方法。 3特征表示 该方法充分利用CNN和LSTM的优势来提取和 建模两个相互作用的个体之间的长期相互关联特 3.1卷积神经网络概述 性,提高了交互行为识别与预测准确率。 CNN是一种典型的深度学习网络,由卷积疏词袋,判断人类活动类别。文献 [3] 提出了一 个新的基于关键帧的动作预测模型,提取运动视 频的关键帧作为运动模型的状态节点,成功地实 现了双人交互行为识别与预测的统一框架。但此 方法需要根据关键帧之间的相关性对其编码,计 算量很大且分类模型复杂。文献 [4] 提出一种新 的判别式多尺度核化模型,分别采用局部进度模 型和全局进度模型捕获时间进度和全局观测之间 的关系,实现对部分观测视频的动作预测。此方 法需要进行复杂的数学建模和时空匹配核函数的 选择。基于传统特征提取方法的双人交互行为识 别与预测研究中,特征提取完全是基于经验的手 动选择,适应性不强。基于模板匹配的识别方法[5-7] 往往不考虑视频序列的时序关系。基于时序建模 的识别方法[8-12] 不适用于高维特征的建模与识 别。总的来说基于传统特征提取方法的双人交互 动作识别与预测的准确率不高,且提升的空间不大。 目前,深度学习理论与算法研究已经取得了 重大进展,利用深度学习模型提取特征可以消除 人工设计过程中的盲目性和差异性,实现特征的 自动提取。文献 [13] 将深度学习网络用于双人交 互行为识别,首先利用深度卷积神经网络从视频 的连续光流图像中提取深度特征,然后将深度特 征按照时间维度连接在一起进行卷积以学习时间 信息,最后采用多层神经网络输出交互类别以实 现动作的识别与预测。该算法侧重于时间特征提 取和建模,忽略了空间信息对于识别结果的影 响。文献 [14] 采用空间和时间卷积神经网络,提 出从动作视频中学习空间和时间信息的双流方 法,然后用平均时间和空间两个流的输出概率分 数来识别视频中动作类别。这种双流方法得到了 较高的识别率,但其忽略了交互场景上下文中的 重要序列信息。此外上述两种方法输入均为视频 的光流信息,计算量较大难以实现实时操作。根 据以上分析,为了提取适应性较强的特征表示, 本文选取卷积神经网络提取动作视频深展特征, 考虑到单纯使用卷积神经网络提取的深度特征无 法准确有效表征交互行为序列特性的问题,将长 短期记忆网络 (long short term memory network, LSTM)[15] 与卷积神经网络 (convolutional neural networks,CNN) 模型相结合,提出了一种基于深 度学习的双人交互行为识别与预测一体化方法。 该方法充分利用 CNN 和 LSTM 的优势来提取和 建模两个相互作用的个体之间的长期相互关联特 性,提高了交互行为识别与预测准确率。 1 基于深度学习的算法框架 本文算法的处理框架如图 1 所示。 训练集 测试集 CNN 特征提取 LSTM 时序建模 识别与 预测结果 训练识别 与预测 模型 图 1 算法处理框架 Fig. 1 Algorithm flowchart 本文算法处理流程为: 1) 在训练过程中,完成对 CNN 和 LSTM 模型 的参数训练,即将训练视频中的所有帧图像分别 送入卷积神经网络中提取深度特征,然后卷积神 经网络全连接层输出结果作为 LSTM 的输入。 2) 在识别与预测过程中,直接将不同时间比 例长度的未知动作类别的测试视频帧图像分别送 入已经训练好的识别与预测模型,最终得到每类 动作的检测分数,从而实现对双人交互行为的识 别与预测。 该算法的优势在于利用卷积神经网络提取鲁 棒性极强的深度特征,LSTM 完成视频帧图像的 时序建模,充分考虑到时间和视频上下文信息。 2 视频预处理 双人交互行为涉及手或腿等四肢的伸展,这些 身体部位对于准确地进行交互行为识别与预测非 常重要。但是,人类的边界框并不完全包括所有身 体部位的伸展。在这种情况下,为了提高交互行为 识别与预测的准确性,在特征提取之前通过帧间差 分的方法获得图像剪影信息,然后合并两个人的边 界框来选择感兴趣区域 (ROI),最后通过裁剪 ROI 对每个输入图像进行归一化,如图 2 所示。 帧差法 提取ROI 图 2 帧差法提取剪影所在感兴趣区域 Fig. 2 Frame difference method extracts the ROI 3 特征表示 3.1 卷积神经网络概述 CNN 是一种典型的深度学习网络[16] ,由卷积 第 3 期 姬晓飞,等:深度学习的双人交互行为识别与预测算法研究 ·485·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有