第15卷第5期 智能系统学报 Vol.15 No.5 2020年9月 CAAI Transactions on Intelligent Systems Sep.2020 D0:10.11992tis.201906054 一种基于2D时空信息提取的行为识别算法 刘董经典,孟雪纯,张紫欣,杨旭,牛强 (中国矿业大学计算机科学与技术学院,江苏徐州221008) 摘要:基于计算机视觉的人体行为识别技术是当前的研究热点,其在行为检测、视频监控等领域都有着广泛 的应用价值。传统的行为识别方法,计算比较繁琐,时效性不高。深度学习的发展极大提高了行为识别算法准 确性,但是此类方法和图像处理领域相比,效果上存在一定的差距。设计了一种基于DenseNet的新颖的行为 识别算法,该算法以DenseNet做为网络的架构,通过2D卷积操作进行时空信息的学习,在视频中选取用于表 征行为的帧,并将这些帧按时空次序组织到RGB空间上,传入网络中进行训练。在UC℉I01数据集上进行了大 量实验,实验准确率可以达到94.46%。 关键词:行为识别:视频分析;神经网络;深度学习:卷积神经网络;分类;时空特征提取:密集连接卷积网络 中图分类号:TP391.41文献标志码:A文章编号:1673-4785(2020)05-0900-10 中文引用格式:刘董经典,孟雪纯,张紫欣,等.一种基于2D时空信息提取的行为识别算法J.智能系统学报,2020,15(5): 900-909. 英文引用格式:LIU Dongjingdian,,MENGXuechun,ZHANG Zixin,etal.A behavioral recognition algorithm based on2 D spati- otemporal information extraction CAAI transactions on intelligent systems,2020,15(5):900-909. A behavioral recognition algorithm based on 2D spatiotemporal information extraction LIU Dongjingdian,MENG Xuechun,ZHANG Zixin,YANG Xu,NIU Qiang (College of Computer Science&Technology,China University of Mining and Technology,Xuzhou 221008,China) Abstract:Human behavior recognition technology based on computer vision is a research hotspot currently.It is widely applied in various fields of social life,such as behavioral detection,video surveillance,etc.Traditional behavior recogni- tion methods are computationally cumbersome and time-sensitive.Therefore,the development of deep learning has greatly improved the accuracy of behavior recognition algorithms.However,compared with the field of image pro- cessing,there is a certain gap in the effect of such methods.We introduce a novel behavior recognition algorithm based on DenseNet,which uses DenseNet as the network architecture,learns spatio-temporal information through 2D convolu- tion,selects frames for characterizing behavior in video,organizes these frames into RGB space in time-space order and inputs them into our network to train the network.We have carried out a large number experiments on the UCF101 data- set,and our method can reach an accuracy rate of 94.46%. Keywords:behavior recognition;video analysis;neural networks;deep learning;convolutional neural networks;classi- fication;spatiotemporal feature;densenet 近年来,人体行为识别技术随着深度学习的 以及卷积神经网络的发展推动了行为识别技术的 兴起,引起了广泛的关注。传统的行为识别方 发展。主流深度学习网络模型,如AlexNet!2I 法,如DT山,计算繁琐,时效性不高。深度学习 VGG-Netl、GoogleLetNet!4、ResNet!s1和 DenseNet等,在2D图像数据处理方面取得了不 收稿日期:2019-06-28. 基金项目:国家自然科学基金项目(51674255). 错的效果。 通信作者:牛强.E-mail:.niuq@cumt.edu.cn, 基于深度学习的人体行为识别方法目前主要
DOI: 10.11992/tis.201906054 一种基于 2D 时空信息提取的行为识别算法 刘董经典,孟雪纯,张紫欣,杨旭,牛强 (中国矿业大学 计算机科学与技术学院,江苏 徐州 221008) 摘 要:基于计算机视觉的人体行为识别技术是当前的研究热点,其在行为检测、视频监控等领域都有着广泛 的应用价值。传统的行为识别方法,计算比较繁琐,时效性不高。深度学习的发展极大提高了行为识别算法准 确性,但是此类方法和图像处理领域相比,效果上存在一定的差距。设计了一种基于 DenseNet 的新颖的行为 识别算法,该算法以 DenseNet 做为网络的架构,通过 2D 卷积操作进行时空信息的学习,在视频中选取用于表 征行为的帧,并将这些帧按时空次序组织到 RGB 空间上,传入网络中进行训练。在 UCF101 数据集上进行了大 量实验,实验准确率可以达到 94.46%。 关键词:行为识别;视频分析;神经网络;深度学习;卷积神经网络;分类;时空特征提取;密集连接卷积网络 中图分类号:TP391.41 文献标志码:A 文章编号:1673−4785(2020)05−0900−10 中文引用格式:刘董经典, 孟雪纯, 张紫欣, 等. 一种基于 2D 时空信息提取的行为识别算法 [J]. 智能系统学报, 2020, 15(5): 900–909. 英文引用格式:LIU Dongjingdian, MENG Xuechun, ZHANG Zixin, et al. A behavioral recognition algorithm based on 2D spatiotemporal information extraction[J]. CAAI transactions on intelligent systems, 2020, 15(5): 900–909. A behavioral recognition algorithm based on 2D spatiotemporal information extraction LIU Dongjingdian,MENG Xuechun,ZHANG Zixin,YANG Xu,NIU Qiang (College of Computer Science & Technology, China University of Mining and Technology , Xuzhou 221008, China) Abstract: Human behavior recognition technology based on computer vision is a research hotspot currently. It is widely applied in various fields of social life, such as behavioral detection, video surveillance, etc. Traditional behavior recognition methods are computationally cumbersome and time-sensitive. Therefore, the development of deep learning has greatly improved the accuracy of behavior recognition algorithms. However, compared with the field of image processing, there is a certain gap in the effect of such methods. We introduce a novel behavior recognition algorithm based on DenseNet, which uses DenseNet as the network architecture, learns spatio-temporal information through 2D convolution, selects frames for characterizing behavior in video, organizes these frames into RGB space in time-space order and inputs them into our network to train the network. We have carried out a large number experiments on the UCF101 dataset, and our method can reach an accuracy rate of 94.46%. Keywords: behavior recognition; video analysis; neural networks; deep learning; convolutional neural networks; classification; spatiotemporal feature; densenet 近年来,人体行为识别技术随着深度学习的 兴起,引起了广泛的关注。传统的行为识别方 法,如 iDT[1] ,计算繁琐,时效性不高。深度学习 以及卷积神经网络的发展推动了行为识别技术的 发展。主流深度学习网络模型,如 AlexNet[ 2 ] 、 VGG-Net [ 3 ] 、 GoogleLetNet [ 4 ] 、 ResNet [ 5 ] 和 DenseNet[6] 等,在 2D 图像数据处理方面取得了不 错的效果。 基于深度学习的人体行为识别方法目前主要 收稿日期:2019−06−28. 基金项目:国家自然科学基金项目(51674255). 通信作者:牛强. E-mail:.niuq@cumt.edu.cn. 第 15 卷第 5 期 智 能 系 统 学 报 Vol.15 No.5 2020 年 9 月 CAAI Transactions on Intelligent Systems Sep. 2020
第5期 刘董经典,等:一种基于2D时空信息提取的行为识别算法 ·901· 包括两个流派:3D时空卷积(3 D ConvNets)和双 有过渡层。密集块内的结构参照了ResNet的瓶 流卷积网络(Two-Stream),主要基于的网络架构 颈结构(Bottleneck),而过渡层中包括了一个1×1 是ResNet. 的卷积层和一个2×2的平均池化层。DenseNet 本文采用DenseNet做为网络的架构,通过 减少了参数,使网络更窄,缓解了梯度消失问题, 2D卷积操作进行时空信息的学习,提出了一种新 加强了特征的传播,鼓励特征重用。 的基于视频的行为识别方法:2D时空卷积密集连 对于卷积网络而言,输入网络数据的宽度 接神经网络(2 D spatiotemporal dense connected con- (weight)、高度(height)、通道数(channels)以及数 volutional networks,2 DSDCN)。首先在视频中选 据的分布对网络的实际表现有很大的影响。而这 取用于表征行为的帧,并将这些帧按时空次序组 些卷积网络的源生输入数据均为3通道的 织成BGR格式数据,传人2 DSDCN中进行识 RGB图像,数据未归一化前分布在0~255。因此, 别。2 OSDCN模型在DenseNet的基础上添加了 为了充分发挥这些卷积网络的性能,本文决定将 时空信息提取层,与单纯使用DenseNet相比,在 时空信息组织成BGR图像形式作为输入数据的 UCF101数据集上得到了1%的效果提升。目 组织形式。 前,本文的方法在没有使用多流融合、DT信息融 1.2行为识别算法 合等手段,在UC℉101数据集上获得了最高94.46% 根据行为识别方法各自的特点,可大致分为 的准确率。 基于特征工程的算法和基于深度学习的算法两 本文提出了一种新的基于2D卷积的行为识 大类。 别方法,使用2D卷积提取时空信息:引入了 基于特征工程的算法是传统的识别方法,其 DenseNet作为行为识别的网络架构,分析其对时 中最经典的是改进的密集轨迹算法il(improved 空信息提取的促进作用;提出了一种新的基于 dense trajectories,iDT)。iDT算法源于对DT(dense BGR图像的时空关系组织提取方法。 trajectories)算法的改进,主要思想是通过利用 1相关工作 光流场来获得视频序列中的一些轨迹,再提取 HOF、HOG、MBH等特征,用BOF(bag of 1.1卷积网络 feature)方法对提取到的特征进行编码,最后用 卷积神经网络模型由交替堆叠的卷积层、池 SVM对编码的结果进行分类得到结果。iDT在 化层和全连接层构成。AlexNet、LeNet!1、VGG- 消除了相机运动带来的影响,优化了光流信息的 Net在结构上并没有太大的改进,卷积层、池化层 同时,对提取的HOF、HOG、MBH等特征采用 和全连接层进行合理的组织来加深模型的深度。 L1正则化后再对每个维度开方,并使用了费舍尔 GoogLeNet引入了Inception结构来串联特征图, 向量的编码方式对DT算法进行优化,在UCF50 通过多分辨率来丰富提取到的特征。 上的准确率从原本的84.5%提升到了91.2%,在 ResNet引入了残差块,即增加了把当前输出 HMDB51上的准确率也从原本的46.6%提升到 直接传输给后面层网络而绕过了非线性变换的直 了57.2%0 接连接,梯度可以直接流向前面层,有助于解决 基于深度学习的算法可分为基于卷积的行为 梯度消失和梯度爆炸问题。然而该网络的缺点 识别算法l、基于Two-Stream架构的行为识别算 是,前一层的输出与其卷积变换后的输出之间通 法s18]以及基于人体骨骼序列的行为识别算 过值相加操作结合在一起可能会阻碍网络中的信 法9:3类。前两者对视频进行像素级别的识别, 息流5。 而后者则依赖于单帧关键点或骨架等信息进行时 DenseNet在ResNet的基础上提出了一种不 间上的识别。 同的连接方式。它建立了一个密集块内前面层和 基于卷积的行为识别算法,最经典的是C3D。 后面所有层的密集连接,即每层的输入是其前面 TRAN Du等2提出的C3D(3 D ConvNets)的基本 所有层的特征图,与ResNet在值上的累加不同, 思想是将二维卷积拓展到三维空间,引人3D卷 DenseNet是维度上的累加,因此在信息流方面克 积提取时空特征。在C3D的启发下,一系列的 服了ResNet的缺点,改进了信息流。DenseNet的 2D卷积网络结构的3D卷积版本被用于行为识 网络结构由密集块组成,其中,两个密集块之间 别,例如3 D ResNets!22、P3D21T3D2等。为解
包括两个流派:3D 时空卷积 (3D ConvNets) 和双 流卷积网络 (Two-Stream),主要基于的网络架构 是 ResNet。 本文采用 DenseNet 做为网络的架构,通过 2D 卷积操作进行时空信息的学习,提出了一种新 的基于视频的行为识别方法: 2D 时空卷积密集连 接神经网络 (2D spatiotemporal dense connected convolutional networks,2DSDCN)。首先在视频中选 取用于表征行为的帧,并将这些帧按时空次序组 织成 BGR 格式数据,传入 2DSDCN 中进行识 别。2DSDCN 模型在 DenseNet 的基础上添加了 时空信息提取层,与单纯使用 DenseNet 相比,在 UCF101[7] 数据集上得到了 1% 的效果提升。目 前,本文的方法在没有使用多流融合、iDT 信息融 合等手段,在 UCF101 数据集上获得了最高 94.46% 的准确率。 本文提出了一种新的基于 2D 卷积的行为识 别方法,使 用 2D 卷积提取时空信息;引入 了 DenseNet 作为行为识别的网络架构,分析其对时 空信息提取的促进作用;提出了一种新的基于 BGR 图像的时空关系组织提取方法。 1 相关工作 1.1 卷积网络 卷积神经网络模型由交替堆叠的卷积层、池 化层和全连接层构成。AlexNet、LeNet[8] 、VGGNet 在结构上并没有太大的改进,卷积层、池化层 和全连接层进行合理的组织来加深模型的深度。 GoogLeNet 引入了 Inception 结构来串联特征图, 通过多分辨率来丰富提取到的特征。 ResNet 引入了残差块,即增加了把当前输出 直接传输给后面层网络而绕过了非线性变换的直 接连接,梯度可以直接流向前面层,有助于解决 梯度消失和梯度爆炸问题。然而该网络的缺点 是,前一层的输出与其卷积变换后的输出之间通 过值相加操作结合在一起可能会阻碍网络中的信 息流[5-6]。 DenseNet 在 ResNet 的基础上提出了一种不 同的连接方式。它建立了一个密集块内前面层和 后面所有层的密集连接,即每层的输入是其前面 所有层的特征图,与 ResNet 在值上的累加不同, DenseNet 是维度上的累加,因此在信息流方面克 服了 ResNet 的缺点,改进了信息流。DenseNet 的 网络结构由密集块组成,其中,两个密集块之间 1×1 2×2 有过渡层。密集块内的结构参照了 ResNet 的瓶 颈结构 (Bottleneck),而过渡层中包括了一个 的卷积层和一个 的平均池化层。DenseNet 减少了参数,使网络更窄,缓解了梯度消失问题, 加强了特征的传播,鼓励特征重用[6]。 对于卷积网络而言,输入网络数据的宽度 (weight)、高度 (height)、通道数 (channels) 以及数 据的分布对网络的实际表现有很大的影响。而这 些卷积网络的源生输入数据均 为 3 通 道 的 RGB 图像,数据未归一化前分布在 0~255。因此, 为了充分发挥这些卷积网络的性能,本文决定将 时空信息组织成 BGR 图像形式作为输入数据的 组织形式。 1.2 行为识别算法 根据行为识别方法各自的特点,可大致分为 基于特征工程的算法和基于深度学习的算法两 大类。 基于特征工程的算法是传统的识别方法,其 中最经典的是改进的密集轨迹算法[9-13] (improved dense trajectories,iDT)。iDT 算法源于对 DT(dense trajectories) 算法的改进,主要思想是通过利用 光流场来获得视频序列中的一些轨迹,再提取 HOF 、 HOG 、 M B H 等特征, 用 BOF(bag of feature) 方法对提取到的特征进行编码,最后用 SVM 对编码的结果进行分类得到结果。iDT 在 消除了相机运动带来的影响,优化了光流信息的 同时,对提取的 HOF、HOG、MBH 等特征采用 L1 正则化后再对每个维度开方,并使用了费舍尔 向量的编码方式对 DT 算法进行优化,在 UCF50 上的准确率从原本的 84.5% 提升到了 91.2%,在 HMDB51 上的准确率也从原本的 46.6% 提升到 了 57.2%[1]。 基于深度学习的算法可分为基于卷积的行为 识别算法[14] 、基于 Two-Stream 架构的行为识别算 法 [ 1 5 - 1 8 ] 以及基于人体骨骼序列的行为识别算 法 [19-20] 3 类。前两者对视频进行像素级别的识别, 而后者则依赖于单帧关键点或骨架等信息进行时 间上的识别。 基于卷积的行为识别算法,最经典的是 C3D。 TRAN Du 等 [21] 提出的 C3D (3D ConvNets) 的基本 思想是将二维卷积拓展到三维空间,引入 3D 卷 积提取时空特征。在 C3D 的启发下,一系列的 2D 卷积网络结构的 3D 卷积版本被用于行为识 别,例如 3D ResNets[22] 、P3D[23] 、T3D[24] 等。为解 第 5 期 刘董经典,等:一种基于 2D 时空信息提取的行为识别算法 ·901·
·902· 智能系统学报 第15卷 决3D卷积学习参数冗余导致学习困难,TRAN 输人层 Du与WANG Heng在FSTCN(factorized spatio- 时空特征提取层 temporal convolutional networks)2]的启发下提出 了结合2D卷积和3D卷积的R(2+1)D2神经网 卷积层 卷积核7×7,步长2 络。(2+1)D卷积核与3D卷积核对比如图1所 示,R(2+1)D神经网络将3D的时空卷积分解为了 池化层 最大池化核3×3,步长2 2D的空间卷积和1D的时间卷积,使得空间信息 1×1卷积层 密集块(1) 与时间信息分离开来,便于分别对时空信息进行 L3×3卷积层 ×6 优化。 转化层(1) 平均池化核2×2,步长2 厂1×】卷积层7 密集块(2) 3x3卷层]x2 转化层(2) 平均池化核2×2,步长2 厂1×1卷积层7 密集块(3) ×48 3×3卷积层」 转化层(3) 平均池化核2×2,步长2 图1(2+1)D卷积核与3D卷积核对比 -1×1卷积层 密集块(4) ×32 Fig.1 (2+1)D vs 3D convolution L3×3卷积层」 基于Two-Stream2m架构的行为识别算法通常 分类层 全局平均池化核7×7 对空间信息和时域信息进行分流学习然后将特征 融合进行识别。比较经典的是Simonyan等27提 图22 DSDCN网络架构 出的Two-Stream Network。Two-Stream Network Fig.2 Structure of 2DSDCN 训练了两个CNN学习,一个用于学习2D的RGB 2.1 2D卷积理解与时空特征提取可行性分析 图,另一个用于学习光流信息,最后将两个分类 卷积神经网络(CNN)对信息特征的组织和提 取主要依靠两种操作:卷积和池化操作。卷积依 器的结果融合起来。 靠卷积集核将低层感受野中的相应信息组织到高 基于人体骨骼序列的行为识别算法使用循环 层的对应像素点中。高层像素点Au以及对应的 神经网络等方法,其通过时间序列上表征人体的 卷积核C.中的信息表征了底层感受野中每个像 关键点信息进行识别。现阶段主要利用的是骨架 素点A-1xy和其他像素点之间的关系。随着卷积 信息结合不同的循环神经网络进行研究。 层数的加深,这种关系影响的范围根据卷积核的 现在主流的数据组织形式是RGB图像和光 大小以线性级别扩大,最终在第d层的单个像素 流图像。光流图像对运动的表征通常优于RGB 点中得到涵盖输人层每个像素点之间的关系,通 图像。但是对光流的计算往往会带来时效上的损 过激活函数P以及反向传播的方式可以拟合出输 失,需要对新的数据组织形式进行探索。因此, 人层每个像素点A和其他像素点之间的一个非 本文尝试使用按照时间顺序组织的RGB平铺图 线性的函数关系R。对于一个输入、输出矩阵大 像作为数据组织形式,通过2D卷积提取时空 小均为w、卷积核大小为k的连续卷积操作来说, d满足式(1): 信息。 d=2x4 (1) 22D时空卷积设计以及时空特征组 k 若在卷积过程中,在合适位置使用n次过滤 织形式 窗口大小和移动步长均为f的池化操作,d满足 本节对2D卷积用于时空特征提取的可能 式(2): 性进行分析,设计了适用于2D卷积的输人数 d (2) 据组织形式,分析了DenseNet在时空信息特征 可以看出池化操作对底层像素点之间关系的 提取的促进作用,提出了最终的方案设计,如图2 建立起到了不错的加速效果,使模型可以在尽量 所示。 少的层次中获取对输入图像的表征
决 3D 卷积学习参数冗余导致学习困难,TRAN Du 与 WANG Heng 在 FSTCN (factorized spatiotemporal convolutional networks)[25] 的启发下提出 了结合 2D 卷积和 3D 卷积的 R(2+1)D[26] 神经网 络。(2+1)D 卷积核与 3D 卷积核对比如图 1 所 示,R(2+1)D 神经网络将 3D 的时空卷积分解为了 2D 的空间卷积和 1D 的时间卷积,使得空间信息 与时间信息分离开来,便于分别对时空信息进行 优化。 t×d×d t×1×1 Mi 1×d×d 图 1 (2+1)D 卷积核与 3D 卷积核对比 Fig. 1 (2+1)D vs 3D convolution 基于 Two-Stream[27] 架构的行为识别算法通常 对空间信息和时域信息进行分流学习然后将特征 融合进行识别。比较经典的是 Simonyan 等 [27] 提 出的 Two-Stream Network。Two-Stream Network 训练了两个 CNN 学习,一个用于学习 2D 的 RGB 图,另一个用于学习光流信息,最后将两个分类 器的结果融合起来。 基于人体骨骼序列的行为识别算法使用循环 神经网络等方法,其通过时间序列上表征人体的 关键点信息进行识别。现阶段主要利用的是骨架 信息结合不同的循环神经网络进行研究。 现在主流的数据组织形式是 RGB 图像和光 流图像。光流图像对运动的表征通常优于 RGB 图像。但是对光流的计算往往会带来时效上的损 失,需要对新的数据组织形式进行探索。因此, 本文尝试使用按照时间顺序组织的 RGB 平铺图 像作为数据组织形式,通过 2D 卷积提取时空 信息。 2 2D 时空卷积设计以及时空特征组 织形式 本节对 2D 卷积用于时空特征提取的可能 性进行分析,设计了适用于 2D 卷积的输入数 据组织形式,分析了 DenseNet 在时空信息特征 提取的促进作用,提出了最终的方案设计,如图 2 所示。 输入层 时空特征提取层 卷积层 池化层 密集块 (1) 转化层 (1) 密集块 (2) 转化层 (2) 密集块 (3) 转化层 (3) 密集块 (4) 分类层 卷积核7×7, 步长2 最大池化核3×3, 步长2 平均池化核2×2, 步长2 平均池化核2×2, 步长2 平均池化核2×2, 步长2 全局平均池化核7×7 1×1 卷积层 ×6 3×3 卷积层 1×1 卷积层 ×12 3×3 卷积层 1×1 卷积层 ×48 3×3 卷积层 1×1 卷积层 ×32 3×3 卷积层 图 2 2DSDCN 网络架构 Fig. 2 Structure of 2DSDCN 2.1 2D 卷积理解与时空特征提取可行性分析 An,i, j Cn An−1,x,y d φ A0,i, j R w k d 卷积神经网络 (CNN) 对信息特征的组织和提 取主要依靠两种操作:卷积和池化操作。卷积依 靠卷积集核将低层感受野中的相应信息组织到高 层的对应像素点中。高层像素点 以及对应的 卷积核 中的信息表征了底层感受野中每个像 素点 和其他像素点之间的关系。随着卷积 层数的加深,这种关系影响的范围根据卷积核的 大小以线性级别扩大,最终在第 层的单个像素 点中得到涵盖输入层每个像素点之间的关系,通 过激活函数 以及反向传播的方式可以拟合出输 入层每个像素点 和其他像素点之间的一个非 线性的函数关系 。对于一个输入、输出矩阵大 小均为 、卷积核大小为 的连续卷积操作来说, 满足式 (1): d = 2×w k (1) n f d 若在卷积过程中,在合适位置使用 次过滤 窗口大小和移动步长均为 的池化操作, 满足 式 (2): d = 2×w k× f n (2) 可以看出池化操作对底层像素点之间关系的 建立起到了不错的加速效果,使模型可以在尽量 少的层次中获取对输入图像的表征。 ·902· 智 能 系 统 学 报 第 15 卷
第5期 刘董经典,等:一种基于2D时空信息提取的行为识别算法 ·903· 对一个卷积核尺寸为k的第n次卷积的输出 组织的顺序如图4所示,最终的维度为256× 层来说,第i行第j列的像素点Ai代表了第 256×3。该图像的组织方法基于实际运算中卷积 n-1次卷积的输出层A-中,部分像素点之间的 核的滑动的顺序,如图5所示,在卷积运算时,卷 一个非线性关系R: 积核在相邻像素点之间建立关系,这可以保证每 [A-1号小号 。…Am--学#号 一帧都是先和相邻时域之间建立联系。卷积核 Anij =R (3) 横向移动时可以学习到大粒度的动作特征,纵向 An4号号…Am-14学H号 移动时则可以学习连续帧之间动作特征,丰富了 随着进一步卷积,A在A,层所能表征的范 时间特征的维度。随着卷积层数的增加,最终通 围大小r。会以A为中心按图3所示方式扩大。 过网络拟合出整个时空域之间的关系。 其中, In=(rn-1+k-1)x fn-1 (4) 9 3 式中:fm-!表示在第n-1次卷积后进行池化的步 长,无池化操作时fm-1=1。 d=(2x 6 256×256 256×256 图4图像拼接 Fig.4 Image mosaicking 5 9 13 2 10 g (a)k=3 3 1 11 15 (2×w) 4 12 b 图5卷积示意图 Fig.5 Convolution diagram 2.3翻转操作及原因 单纯的拼接虽然可以快速提取相邻帧之间的 关系,但是在建立不同帧中相邻空间像素点之间 关系时,2D卷积相比3D卷积有一定的差距:如 (b)k=5 图6所示,只有当n的大小超过64时,相邻空间 图3不同卷积核的卷积对比 像素点之间关系才会开始被建立起来。 Fig.3 Comparison of different convolution kernels 对于单帧图像而言,2D维度上的卷积可以提 取到丰富的空间特征,这种特征是由单帧图像每 个像素点与其他像素点之间的关系来进行表征。 本文将多帧在时间上有相互关系的图像组织到空 间维度上,通过2D卷积建立起同帧像素点间以 及跨帧像素点间的关系,就可以提取到空间(同 帧内部)和时间(多帧之间)上的关系。据此,本 文提出了基于RGB图像和2D卷积对视频时空信 息提取的方法。 2.2选取和拼接的组织 本文从一个视频片段提取出16帧的64× 图6单纯拼接的缺点 64×3的有时序顺序的图像,组织成4×4的图像, Fig.6 Disadvantages of simple mosaicking
k n i j An,i, j n−1 An−1 R 对一个卷积核尺寸为 的第 次卷积的输出 层来说,第 行第 列的像素点 代表了第 次卷积的输出层 中,部分像素点之间的 一个非线性关系 : An,i, j = R An−1,i− k−1 2 , j− k−1 2 ··· An−1,i− k−1 2 , j+ k−1 2 . . . . . . An−1,i+ k−1 2 , j− k−1 2 ··· An−1,i+ k−1 2 , j+ k−1 2 (3) An,i, j A0 rn A0,i, j 随着进一步卷积, 在 层所能表征的范 围大小 会以 为中心按图 3 所示方式扩大。 其中, rn = (rn−1 +k−1)× fn−1 (4) fn−1 n−1 fn−1 = 1 式中: 表示在第 次卷积后进行池化的步 长,无池化操作时 。 (a) k=3 (b) k=5 d=(2×w)/k w w w w k k d=(2×w)/k k k w w w w 图 3 不同卷积核的卷积对比 Fig. 3 Comparison of different convolution kernels 对于单帧图像而言,2D 维度上的卷积可以提 取到丰富的空间特征,这种特征是由单帧图像每 个像素点与其他像素点之间的关系来进行表征。 本文将多帧在时间上有相互关系的图像组织到空 间维度上,通过 2D 卷积建立起同帧像素点间以 及跨帧像素点间的关系,就可以提取到空间 (同 帧内部) 和时间 (多帧之间) 上的关系。据此,本 文提出了基于 RGB 图像和 2D 卷积对视频时空信 息提取的方法。 2.2 选取和拼接的组织 64× 64×3 4×4 本文从一个视频片段提取 出 1 6 帧 的 的有时序顺序的图像,组织成 的图像, 256× 256×3 组织的顺序如 图 4 所示,最终的维度为 。该图像的组织方法基于实际运算中卷积 核的滑动的顺序,如图 5 所示,在卷积运算时,卷 积核在相邻像素点之间建立关系,这可以保证每 一帧都是先和相邻时域之间建立联系。 卷积核 横向移动时可以学习到大粒度的动作特征,纵向 移动时则可以学习连续帧之间动作特征,丰富了 时间特征的维度。随着卷积层数的增加,最终通 过网络拟合出整个时空域之间的关系。 256×256 256×256 256×256 1 5 9 13 2 6 10 14 3 7 11 15 4 8 12 16 图 4 图像拼接 Fig. 4 Image mosaicking 图 5 卷积示意图 Fig. 5 Convolution diagram 2.3 翻转操作及原因 rn 单纯的拼接虽然可以快速提取相邻帧之间的 关系,但是在建立不同帧中相邻空间像素点之间 关系时,2D 卷积相比 3D 卷积有一定的差距:如 图 6 所示,只有当 的大小超过 64 时,相邻空间 像素点之间关系才会开始被建立起来。 rn 64×64 图 6 单纯拼接的缺点 Fig. 6 Disadvantages of simple mosaicking 第 5 期 刘董经典,等:一种基于 2D 时空信息提取的行为识别算法 ·903·
·904· 智能系统学报 第15卷 为加快不同帧中相邻空间像素点之间关系 图7所示,其中H代表水平翻转,V代表垂直 的建立,本文对16帧图像进行翻转的操作,如 翻转。 9 13 0 H 0 H 6 10 14 HV HV 11 15 0 H 0 12 16 HV HV 256×256 256×256 256×256 (a)翻转拼接图像 (b)视频帧顺序 (©)翻转操作示意 图7图像翻转设计 Fig.7 Image reversal design 在卷积核位于多帧交界处时,能够在首次卷 边缘,随着深度d的加深,当,的大小变为 积中就建立范围。间像素点之间的关系。随着 64时,覆盖了所有单帧空间上的像素点,过程如 卷积核的移动,该范围不会只影响单帧图像的 图8所示。 图8像素点覆盖 Fig.8 Pixel point coverage 通过此操作可以加快部分相邻帧间对应像 征图,第1层的输出:可以表示为如下恒等函数: 素点之间联系的提取,使相邻帧图像帧之间的时 =H(《x0,,…,-) (5) 空联系在更低的层次上建立起来。对比无翻转 式(5)中:{x0,x1,…,-}表示0~1-1层的输出特 的组织形式,能够在相同深度下更好地提取时空 征图的集合,在运算时按照通道的维度拼接在一 信息。 起,作为第1层的输入。 2.4 DenseNet的选择 对本文提出的方法来说,不同卷积阶段所提 DenseNet是CVPR2017的最佳论文,不同于 取的特征,表征了不同时空维度的信息,经过 之前的神经网络在宽度(inception结构)和深度 DenseNet架构训练,对:进行卷积运算意味着对 (resblock结构)上的改进,在模型的特征维度进行 所有已得的特征x都进行了进一步的特征提取, 了改进,将不同卷积阶段所提取的特征进行维度 可以很好地保留不同维度的时空信息,更有利于 上的密集连接,可以保留更丰富的信息。DenseN- 时空特征的提取。 et建立了一个denseblock内前面层和后面所有层 2.5引入时空卷积层提取时空信息 的密集连接,即每层的输入是其前面所有层的特 结合2.1节提出加入4个大小为33×33的大
为加快不同帧中相邻空间像素点之间关系 的建立,本文对 16 帧图像进行翻转的操作,如 图 7 所示,其中 H 代表水平翻转, V 代表垂直 翻转。 (a) 翻转拼接图像 (b) 视频帧顺序 (c) 翻转操作示意 256×256 256×256 256×256 256×256 1 5 9 13 0 H 0 H 0 H 0 H V HV V HV V HV V HV 2 6 10 14 3 7 11 15 4 8 12 16 图 7 图像翻转设计 Fig. 7 Image reversal design r0 在卷积核位于多帧交界处时,能够在首次卷 积中就建立范围 间像素点之间的关系。随着 卷积核的移动,该范围不会只影响单帧图像的 边缘,随着深度 d 的加深,当 r 的大小变 为 64 时,覆盖了所有单帧空间上的像素点,过程如 图 8 所示。 rn rn rn 图 8 像素点覆盖 Fig. 8 Pixel point coverage 通过此操作可以加快部分相邻帧间对应像 素点之间联系的提取,使相邻帧图像帧之间的时 空联系在更低的层次上建立起来。对比无翻转 的组织形式,能够在相同深度下更好地提取时空 信息。 2.4 DenseNet 的选择 DenseNet 是 CVPR2017 的最佳论文,不同于 之前的神经网络在宽度 (inception 结构) 和深度 (resblock 结构) 上的改进,在模型的特征维度进行 了改进,将不同卷积阶段所提取的特征进行维度 上的密集连接,可以保留更丰富的信息。DenseNet 建立了一个 denseblock 内前面层和后面所有层 的密集连接,即每层的输入是其前面所有层的特 征图,第 l 层的输出 xl 可以表示为如下恒等函数: xl = Hl({x0, x1,··· , xl−1}) (5) {x0, x1,··· , xl−1} 0 ∼ l−1 l 式 (5) 中: 表示 层的输出特 征图的集合,在运算时按照通道的维度拼接在一 起,作为第 层的输入。 xl xl x 对本文提出的方法来说,不同卷积阶段所提 取的特征 表征了不同时空维度的信息,经过 DenseNet 架构训练,对 进行卷积运算意味着对 所有已得的特征 都进行了进一步的特征提取, 可以很好地保留不同维度的时空信息,更有利于 时空特征的提取。 2.5 引入时空卷积层提取时空信息 结合 2.1 节提出加入 4 个大小为 33×33 的大 ·904· 智 能 系 统 学 报 第 15 卷
第5期 刘董经典,等:一种基于2D时空信息提取的行为识别算法 ·905· 卷积核作为时空卷积层预提取层,每个卷积层后 Keras框架,在训练过程中使用2个单精度 加入BN层,仿照resnet的resblock以及DenseN- GPU进行加速,型号为Pascal架构下的GTX et的densblock思想,本文设计了两种结构,如图g 1080Ti。 所示,由式(4)可知,此时4=128。在时空卷积层 3.1翻转操作的验证 之后使用DenseNet20l作为模型的baseline进行 本文对每一个视频等分采样16帧,设单个视 分类的训练。本文采用了与keras内置版本不同, 频的总帧数为FL,对应的采样帧间隔为F/16。将 在每次BN操作之后加入Scale层操作。连续的 得到的16帧图像进行翻转或拼接操作,分别得到 4次33×33的卷积操作,能够快速建立输入数据 直接拼接的BGR图像和使用翻转拼接的BGR图 的时空关系,使得baseline网络能够对更高层次 像。视频数据集按照相同的随机系数进行打乱, 的时空关系进行学习。最终结构如图2所示,结 训练集和验证集按照8:2的比例划分。本文将获 合图9可得2个不同的网络:2 DSDCN R和 得的数据集直接送入没有进行预训练的DenseN- 2DSDCN D. et-201网络进行训练,训练轮次为100轮。训练 的结果如图10所示。 输人层 1.0 (981.0) 卷积层 97,0.925) 0.8 卷积层 0. 卷积核33×33,步长1,卷积核数3 0.4 卷积层 0.2 ■训练集 一验证集 卷积层 20 4060 80100 轮次 累加操作 (a)无翻折操作模型准确率 (a)Res结构 (98,0.999) 1.0 输入层 0.8 0.6 卷积层 的 04 一训练集 卷积层 0.2 一验证集 卷积核33×33,步长1,卷积核数3 卷积层 0 20 4060 80100 轮次 (b)含翻折操作模型准确率 卷积层 图10无翻转操作与带翻转操作准确率对比 Fig.10 Accuracy comparison between no flipping opera- 级联操作 tion and flipping operation (b)Dense结构 没有进行翻转操作的模型训练后的准确率 图9时空卷积层结构 为92.5%,而带翻转操作的模型训练后的准确率 Fig.9 Structure of spatiotemporal convolutional layer 则为93.4%,有1%的效果提升,说明加快相邻帧 3实验 间对应像素点之间关系的建立对模型学习时空信 息起到了一定的促进作用。 本文首先通过对比实验来验证2 DSDCN各个 3.2时空卷积层效果提升与特征可视化 部分的设计,然后对输入视频采用不同的帧选取 本文基于resblock和denseblock设计实现了 方式,来验证模型的鲁棒性。实验所采用的数据 2种不同的网络作为时空卷积层,并将翻转拼接 集为UCF101数据集,选用以tensorflow为后端的 图像数据集的BGR形式分别送入两个网络进行
r4 = 128 33×33 卷积核作为时空卷积层预提取层,每个卷积层后 加入 BN 层,仿照 resnet 的 resblock 以及 DenseNet 的 densblock 思想,本文设计了两种结构,如图 9 所示,由式 (4) 可知,此时 。在时空卷积层 之后使用 DenseNet 201 作为模型的 baseline 进行 分类的训练。本文采用了与 keras 内置版本不同, 在每次 BN 操作之后加入 Scale 层操作。连续的 4 次 的卷积操作,能够快速建立输入数据 的时空关系,使得 baseline 网络能够对更高层次 的时空关系进行学习。最终结构如图 2 所示,结 合 图 9 可 得 2 个不同的网络: 2DSDCN_R 和 2DSDCN_D。 (a) Res结构 输入层 卷积层 卷积层 卷积层 卷积层 级联操作 (b) Dense结构 卷积核33×33, 步长1, 卷积核数3 输入层 卷积层 卷积层 卷积层 卷积层 累加操作 卷积核33×33, 步长1, 卷积核数3 图 9 时空卷积层结构 Fig. 9 Structure of spatiotemporal convolutional layer 3 实验 本文首先通过对比实验来验证 2DSDCN 各个 部分的设计,然后对输入视频采用不同的帧选取 方式,来验证模型的鲁棒性。实验所采用的数据 集为 UCF101 数据集,选用以 tensorflow 为后端的 Kera s 框架,在训练过程中使 用 2 个单精 度 GPU 进行加速,型号为 Pascal 架构下的 GTX 1080Ti。 3.1 翻转操作的验证 本文对每一个视频等分采样 16 帧,设单个视 频的总帧数为 Fl,对应的采样帧间隔为 Fl/16。将 得到的 16 帧图像进行翻转或拼接操作,分别得到 直接拼接的 BGR 图像和使用翻转拼接的 BGR 图 像。视频数据集按照相同的随机系数进行打乱, 训练集和验证集按照 8:2 的比例划分。本文将获 得的数据集直接送入没有进行预训练的 DenseNet-201 网络进行训练,训练轮次为 100 轮。训练 的结果如图 10 所示。 训练集 验证集 (a) 无翻折操作模型准确率 (b) 含翻折操作模型准确率 准确率 1.0 0.8 0.6 0.4 0.2 0 20 40 60 80 100 轮次 准确率 1.0 0.8 0.6 0.4 0.2 0 20 40 60 80 100 轮次 (98, 1.0) (97, 0.925) (81, 0.934) (98, 0.999) 训练集 验证集 图 10 无翻转操作与带翻转操作准确率对比 Fig. 10 Accuracy comparison between no flipping operation and flipping operation 没有进行翻转操作的模型训练后的准确率 为 92.5%,而带翻转操作的模型训练后的准确率 则为 93.4%,有 1% 的效果提升,说明加快相邻帧 间对应像素点之间关系的建立对模型学习时空信 息起到了一定的促进作用。 3.2 时空卷积层效果提升与特征可视化 本文基于 resblock 和 denseblock 设计实现了 2 种不同的网络作为时空卷积层,并将翻转拼接 图像数据集的 BGR 形式分别送入两个网络进行 第 5 期 刘董经典,等:一种基于 2D 时空信息提取的行为识别算法 ·905·
·906· 智能系统学报 第15卷 训练,训练轮次为100轮,训练结果如图11所 升。为了直观展现时空卷积层的效果,本文进 示。可以看出,二者在大卷积核操作的促进下, 行了特征的可视化,对每一层的输出,如图12 效果差距不大,均能达到94.4%的准确率,并且相 所示。 比原始的DenseNet-201网络,有1%的效果提 1.0 (9721.0) 1.0 (99,1.0) (86,0.944 (86,0.944)vY 0.8 0.8 0.6 解0.6 0.4 0.4 -一es架构训练集 --·dense架构训练集 一res架构验证集 一dense架构验证集 0.2 0.2 20 40 60 80 100 20 406080100 轮次 轮次 (a)2 DSDCN R准确率 (b)2 DSDCN D准确率 0.95 res架构验证集 dense架构验证集 (86,0.944) 0.94 0.93 0.92 0.91 0 60 70 80 90100 轮次 (c)2 DSDCN R与2 DSDCN D对比 图112 DSDCN R和2 DSDCN D的准确率对比 Fig.11 Accuracy comparison between 2DSDCN R and 2DSDCN D (a)Dense架构特征图可视化 (b)Rse架构特征图可视化 图12 denseblock和resblock设计的特征可视化 Fig.12 Feature of visualization denseblock and resblock 3.3不同的帧选取方式下模型鲁棒性的验证 视频进行随机划分,送入3.2节设计的两个网络 在之前的帧选取方法的基础上,本文又对同 中进行训练。之所以这样选取是因为在实际使用 视频片段每隔5帧进行16帧的选取,对每一个 中,视频的获取方式往往是连续的。采用这种方
训练,训练轮次为 100 轮,训练结果如图 11 所 示。可以看出,二者在大卷积核操作的促进下, 效果差距不大,均能达到 94.4% 的准确率,并且相 比原始的 DenseNet-201 网络,有 1% 的效果提 升。为了直观展现时空卷积层的效果,本文进 行了特征的可视化,对每一层的输出,如图 12 所示。 (c) 2DSDCN_R与2DSDCN_D对比 准确率 0.94 0.95 0.93 0.92 0.91 50 60 70 80 90 100 轮次 res架构验证集 dense架构验证集 (86, 0.944) (b) 2DSDCN_D准确率 准确率 1.0 0.8 0.6 0.4 0.2 0 20 40 60 80 100 轮次 dense架构训练集 dense架构验证集 (86, 0.944) (99, 1.0) (a) 2DSDCN_R准确率 准确率 1.0 0.8 0.6 0.4 0.2 0 20 40 60 80 100 轮次 res架构训练集 res架构验证集 (86, 0.944) (97, 1.0) 图 11 2DSDCN_R 和 2DSDCN_D 的准确率对比 Fig. 11 Accuracy comparison between 2DSDCN_R and 2DSDCN_D (a) Dense架构特征图可视化 (b) Rse架构特征图可视化 图 12 denseblock 和 resblock 设计的特征可视化 Fig. 12 Feature of visualization denseblock and resblock 3.3 不同的帧选取方式下模型鲁棒性的验证 在之前的帧选取方法的基础上,本文又对同 一视频片段每隔 5 帧进行 16 帧的选取,对每一个 视频进行随机划分,送入 3.2 节设计的两个网络 中进行训练。之所以这样选取是因为在实际使用 中,视频的获取方式往往是连续的。采用这种方 ·906· 智 能 系 统 学 报 第 15 卷
第5期 刘董经典,等:一种基于2D时空信息提取的行为识别算法 ·907· 式获取的动作信息在时序上是等时分布的,符合 示,可以发现模型准确率在denseblock设计上达 实时识别的数据采样形式。训练结果如图13所 到了94.2%,在resblock设计上达到了94.6%。 1.0 (63.10 (80.1.0) 860.946) 10 (61.0.942 0.8 0.8 0.6 盖a6 0.4 0.4 --res架构训练集 -一dense架构训练集 一res架构险证集 一dense?架构验证集 0.2 0.2 20 40 60 80100 20 40 6080100 轮次 轮次 (a)2 DSDCN R准确率 (b)2 DSDCN_D准确率 0.96 (61,0.942) (86.0.946 0.94 MM 0.92 0.90 0.86 -res架构验证集 0.84 --dense架构验证集 50 60 708090100 轮次 (C)2 DSDCN R与2 DSDCN D对比 图13每5帧采样下2 DSDCN_R和2 DSDCN_D的准确率对比 Fig.13 Accuracy comparison between 2DSDCN_R and 2DSDCN_D with sampling every 5 frames 3.4实验分析 均能达到相同的水准,并且在不同的视频数据采 本文对之前的实验进行汇总,详细内容参见 样形式下保持稳定的准确率,表示基于2D时空 表1.2 DSDCN结合翻转平铺的数据组织形式对 平展图的大卷积核时空特征提取能够有效加速时 比无附加操作时,准确率更高,收敛速度更快。 空关系的建立。 本文所设计的两种时空特征层提取结构在实验中 表1实验结果 Table 1 Experiment result 模型 拼接方式 时空卷积层 帧选取间隔 最佳轮次 准确率% DenseNet-201 无翻转 无 F/16 97 92.5 DenseNet-201 含翻转 无 Fl/16 81 93.4 2DSDCN_R 含翻转 Resblock FV16 86 94.4 2DSDCN D 含翻转 Denseblock F/16 86 94.4 2DSDCN_R 含翻转 Resblock 5 86 94.6 2DSDCN_D 含翻转 Denseblock 5 61 94.2 4结束语 基于视频的2D卷积行为识别算法2 DSDCN以及 一种新的时空信息数据的组织形式,并对2D卷 本文在对过往行为识别特别是基于卷积的行 积在像素级别上进行分析,引入dense结构来进 为识别算法总结分析的基础上,提出了一种新的 行时空信息的提取
式获取的动作信息在时序上是等时分布的,符合 实时识别的数据采样形式。训练结果如图 13 所 示,可以发现模型准确率在 denseblock 设计上达 到了 94.2%,在 resblock 设计上达到了 94.6%。 3.4 实验分析 本文对之前的实验进行汇总,详细内容参见 表 1。2DSDCN 结合翻转平铺的数据组织形式对 比无附加操作时,准确率更高,收敛速度更快。 本文所设计的两种时空特征层提取结构在实验中 均能达到相同的水准,并且在不同的视频数据采 样形式下保持稳定的准确率,表示基于 2D 时空 平展图的大卷积核时空特征提取能够有效加速时 空关系的建立。 表 1 实验结果 Table 1 Experiment result 模型 拼接方式 时空卷积层 帧选取间隔 最佳轮次 准确率/% DenseNet-201 无翻转 无 Fl/16 97 92.5 DenseNet-201 含翻转 无 Fl/16 81 93.4 2DSDCN_R 含翻转 Resblock Fl/16 86 94.4 2DSDCN_D 含翻转 Denseblock Fl/16 86 94.4 2DSDCN_R 含翻转 Resblock 5 86 94.6 2DSDCN_D 含翻转 Denseblock 5 61 94.2 4 结束语 本文在对过往行为识别特别是基于卷积的行 为识别算法总结分析的基础上,提出了一种新的 基于视频的 2D 卷积行为识别算法 2DSDCN 以及 一种新的时空信息数据的组织形式,并对 2D 卷 积在像素级别上进行分析,引入 dense 结构来进 行时空信息的提取。 (c) 2DSDCN_R与2DSDCN_D对比 准确率 0.94 0.96 0.92 0.90 0.88 0.86 0.84 50 60 70 80 90 100 轮次 res架构验证集 dense架构验证集 (61, 0.942) (86, 0.946) (b) 2DSDCN_D准确率 准确率 1.0 0.8 0.6 0.4 0.2 0 20 40 60 80 100 轮次 dense架构训练集 dense架构验证集 (61, 0.942) (80, 1.0) (a) 2DSDCN_R准确率 准确率 1.0 0.8 0.6 0.4 0.2 0 20 40 60 80 100 轮次 res架构训练集 res架构验证集 (86, 0.946) (63, 1.0) 图 13 每 5 帧采样下 2DSDCN_R 和 2DSDCN_D 的准确率对比 Fig. 13 Accuracy comparison between 2DSDCN_R and 2DSDCN_D with sampling every 5 frames 第 5 期 刘董经典,等:一种基于 2D 时空信息提取的行为识别算法 ·907·
·908· 智能系统学报 第15卷 本文以基础CNN分类网络对BGR图像组织 for human detection[C]//2005 IEEE Computer Society 形式的良好支持为源起,通过合理的组织输入数 Conference on Computer Vision and Pattern Recognition. 据,结合CNN网络的特性,最终设计出两种性能 San Diego,USA,2005.1:886-893 稳定的网络2 DSDCN R和2 DSDCN D,并在 [11]CHAUDHRY R.RAVICHANDRAN A.HAGER G.et UC℉101数据集上取到了最高94.6%的准确率。 al.Histograms of oriented optical flow and binet-cauchy 图像识别和视频行为识别领域存在着一定的 kernels on nonlinear dynamical systems for the recogni- 技术隔阂,本文尝试通过合理的组织数据将图像 tion of human actions[C]//2009 IEEE Conference on 识别和视频识别有机统一,一定程度上促进了图 Computer Vision and Pattern Recognition.Miami,USA 像识别与视频识别的同步发展,但还需要进一步 2009:1932-1939. 的研究,以支持视频分割以及视频语义理解等研 [12]DALAL N.TRIGGS B.SCHMID C.Human detection 究方向。 using oriented histograms of flow and appearan- 参考文献: ce[C]//European Conference on Computer Vision.Graz, Austria,2006:428-441 [1]WANG H.SCHMID C.Action recognition with improved [13]WANG H,Klaser A,SCHMID C,et al.Action recogni- trajectories[C1//2013 IEEE International Conference on tion by dense trajectories[Cl//Proceedings of the IEEE In- Computer Vision.Sydney,AUS,2013:3551-3558. ternational Conference on Computer Vision.Colorado [2]KRIZHEVSKY A,SUTSKEVER I,HINTON G.ImageN- Springs,USA,2011:3169-3176. et classification with deep convolutional neural networks[CV/ [14]CARREIRA J.ZISSERMAN A.Quo vadis,action recog- Proceedings of the 25th International Conference on Neur- nition?a new model and the kinetics dataset[Cl//Proceed- al Information Processing Systems.Lake Tahoe,USA. ings of the IEEE Conference on Computer Vision and 2012:1097-1105 Pattern Recognition.Venice,Italy,2017:6299-6308 [3]RUSSAKOVSKY O,DENG J,SU H,et al.ImageNet [15]FEICHTENHOFER C,PINZ A,ZISSERMAN A.Convo- large scale visual recognition challenge[J].International lutional two-stream network fusion for video action re- journal of computer vision,2014,115(3):211-252 cognition[C]//Proceedings of the IEEE Conference on [4]SZEGEDY C,LIU W,JIA Y,et al.Going deeper with Computer Vision and Pattern Recognition.Las Vegas, convolutions[C]//2015 IEEE Conference on Computer Vis- USA,2016:1933-1941 ion and Pattern Recognition.Boston,USA,2015:1-9. [16]NG Y H.HAUSKENCHT M.VIJAYANARASIMHAN [5]HE K,ZHANG X,REN S,et al.Deep residual learning for S,et al.Beyond short snippets:Deep networks for video image recognition[C]//2016 IEEE Conference on Com- classification[C]//Proceedings of the IEEE Conference on puter Vision and Pattern Recognition.Las Vegas,USA, Computer Vision and Pattern Recognition.Boston,USA, 2016:770-778 2015:4694-4702 [6]HUANG G,LIN Z,LAURENS V D M,et al.Densely con- [17]WANG L,XIONG Y,WANG Z,et al.Temporal seg- nected convolutional networks[C]//2017 IEEE Conference ment networks:Towards good practices for deep action on Computer Vision and Pattern Recognition.Honolulu, recognition[C]//European Conference on Computer Vis- USA.2017:2261-2269. ion.Amsterdam,The Netherlands,2016:20-36. [7]SOOMRO K.ZAMIR A R.SHAH M.UCF101:A dataset [18]LAN Z,ZHU Y,HAUPTMANN A G,et al.Deep local of 101 human actions classes from videos in the wild[J]. video feature for action recognition[C]//Proceedings of arXiv:1212.0402.2012. the IEEE Conference on Computer Vision and Pattern Re- [8]LECUN Y,BOTTOU L,BENGIO Y,et al.Gradient-based cognition Workshops.Venice,Italy,2017:1-7. learning applied to document recognition[J].Proceedings [19]张培浩.基于姿态估计的行为识别方法研究D].南京 of the IEEE,1998,86(11):2278-2324 南京航空航天大学,2015. [9]CHEN P H.LIN C J,Scholkopf B.A tutorial on v-support ZHANG Peihao.Research on action recognition based on vector machines.Applied stochastic models in business pose estimation[D].Nanjing:Nanjing University of Aero- and industry,2005,21(2):111-136 nautics and Astronautics,2015 [10]DALAL N.TRIGGS B.Histograms of oriented gradients [20]马森.视频中人体姿态估计、跟踪与行为识别研究D]
本文以基础 CNN 分类网络对 BGR 图像组织 形式的良好支持为源起,通过合理的组织输入数 据,结合 CNN 网络的特性,最终设计出两种性能 稳定的网络 2DSDCN_R 和 2DSDCN_D,并在 UCF101 数据集上取到了最高 94.6% 的准确率。 图像识别和视频行为识别领域存在着一定的 技术隔阂,本文尝试通过合理的组织数据将图像 识别和视频识别有机统一,一定程度上促进了图 像识别与视频识别的同步发展,但还需要进一步 的研究,以支持视频分割以及视频语义理解等研 究方向。 参考文献: WANG H, SCHMID C. Action recognition with improved trajectories[C]//2013 IEEE International Conference on Computer Vision. Sydney, AUS, 2013: 3551−3558. [1] KRIZHEVSKY A, SUTSKEVER I, HINTON G. ImageNet classification with deep convolutional neural networks[C]// Proceedings of the 25th International Conference on Neural Information Processing Systems. Lake Tahoe, USA, 2012: 1097−1105. [2] RUSSAKOVSKY O, DENG J, SU H, et al. ImageNet large scale visual recognition challenge[J]. International journal of computer vision, 2014, 115(3): 211–252. [3] SZEGEDY C, LIU W, JIA Y, et al. Going deeper with convolutions[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA, 2015: 1−9. [4] HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA, 2016: 770−778. [5] HUANG G, LIN Z, LAURENS V D M, et al. Densely connected convolutional networks[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA, 2017: 2261−2269. [6] SOOMRO K, ZAMIR A R, SHAH M. UCF101: A dataset of 101 human actions classes from videos in the wild[J]. arXiv: 1212.0402, 2012. [7] LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278–2324. [8] CHEN P H, LIN C J, Schölkopf B. A tutorial on v-support vector machines[J]. Applied stochastic models in business and industry, 2005, 21(2): 111–136. [9] [10] DALAL N, TRIGGS B. Histograms of oriented gradients for human detection[C]//2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Diego, USA, 2005, 1: 886−893. CHAUDHRY R, RAVICHANDRAN A, HAGER G, et al. Histograms of oriented optical flow and binet-cauchy kernels on nonlinear dynamical systems for the recognition of human actions[C]//2009 IEEE Conference on Computer Vision and Pattern Recognition. Miami, USA, 2009: 1932−1939. [11] DALAL N, TRIGGS B, SCHMID C. Human detection using oriented histograms of flow and appearance[C]//European Conference on Computer Vision. Graz, Austria, 2006: 428−441. [12] WANG H, Kläser A, SCHMID C, et al. Action recognition by dense trajectories[C]//Proceedings of the IEEE International Conference on Computer Vision. Colorado Springs, USA, 2011: 3169−3176. [13] CARREIRA J, ZISSERMAN A. Quo vadis, action recognition? a new model and the kinetics dataset[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Venice, Italy, 2017: 6299−6308. [14] FEICHTENHOFER C, PINZ A, ZISSERMAN A. Convolutional two-stream network fusion for video action recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA, 2016: 1933−1941. [15] NG Y H, HAUSKENCHT M, VIJAYANARASIMHAN S, et al. Beyond short snippets: Deep networks for video classification[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA, 2015: 4694−4702. [16] WANG L, XIONG Y, WANG Z, et al. Temporal segment networks: Towards good practices for deep action recognition[C]//European Conference on Computer Vision. Amsterdam, The Netherlands, 2016: 20−36. [17] LAN Z, ZHU Y, HAUPTMANN A G, et al. Deep local video feature for action recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops. Venice, Italy, 2017: 1−7. [18] 张培浩. 基于姿态估计的行为识别方法研究 [D]. 南京: 南京航空航天大学, 2015. ZHANG Peihao. Research on action recognition based on pose estimation[D]. Nanjing: Nanjing University of Aeronautics and Astronautics, 2015. [19] [20] 马淼. 视频中人体姿态估计、跟踪与行为识别研究 [D]. ·908· 智 能 系 统 学 报 第 15 卷
第5期 刘董经典,等:一种基于2D时空信息提取的行为识别算法 ·909· 山东:山东大学,2017, Proceedings of the IEEE Conference on Computer Vision MA Miao.Study on human pose estimation,tracking and and Pattern Recognition.Salt Lake City,USA,2018: human action recognition in videos[D].Shandong:Shan- 6450-6459 dong University,2017. [27]SIMONYAN K,ZISSERMAN A.Two-stream convolu- [21]TRAN D,BOURDEY L,FERGUS R,et al.Learning spa- tional networks for action recognition in videos[C]//Ad- tiotemporal features with 3D convolutional Networks[Cl/ vances in Neural Information Processing Systems. Proceedings of the IEEE International Conference on Computer Vision.Santiago,Chile,2015:4489-4497. Montreal,Canada,2014:568-576. [22]HARA K,KATAOKA H,SATOH Y.Learning spatio- 作者简介: temporal features with 3D residual networks for action re- 刘董经典,博士研究生,主要研究 cognition[C]//Proceedings of the IEEE International Con- 方向为行为识别、计算机视觉。 ference on Computer Vision Workshops.Venice,Italy, 2017:3154-3160 [23]QIU Z,YAO T,MEI T.Learning spatio-temporal repres- entation with pseudo-3d residual networks[C]//Proceed- ings of the IEEE International Conference on Computer 张紫欣,硕士研究生,主要研究方 Vision.Venice,Italy,2017:5533-5541. 向为行为识别、推荐系统、智慧医疗。 [24]DIBA A,FAYYAZ M,SHARMA V,et al.Temporal 3d convnets:new architecture and transfer learning for video classification[J].arXiv preprint arXiv:1711.08200,2017. [25]SUN L,JIA K,YEUNG D Y,et al.Human action recog- nition using factorized spatio-temporal convolutional net- 牛强,教授,主要研究方向为人工 works[C]//Proceedings of the IEEE International Confer- 智能、数据挖掘和无线传感器网络。 ence on Computer Vision.Santiago,Chile,2015: 发表学术论文40余篇。 4597-4605. [26]TRAN D,WANG H,TORRESANI L,et al.A closer look at spatiotemporal convolutions for action recognition[Cl// [责任编辑:李雪莲]
山东: 山东大学, 2017. MA Miao. Study on human pose estimation, tracking and human action recognition in videos[D]. Shandong: Shandong University, 2017. TRAN D, BOURDEY L, FERGUS R, et al. Learning spatiotemporal features with 3D convolutional Networks[C]// Proceedings of the IEEE International Conference on Computer Vision. Santiago, Chile, 2015: 4489−4497. [21] HARA K, KATAOKA H, SATOH Y. Learning spatiotemporal features with 3D residual networks for action recognition[C]//Proceedings of the IEEE International Conference on Computer Vision Workshops. Venice, Italy, 2017: 3154−3160. [22] QIU Z, YAO T, MEI T. Learning spatio-temporal representation with pseudo-3d residual networks[C]//Proceedings of the IEEE International Conference on Computer Vision. Venice, Italy, 2017: 5533−5541. [23] DIBA A, FAYYAZ M, SHARMA V, et al. Temporal 3d convnets: new architecture and transfer learning for video classification[J]. arXiv preprint arXiv: 1711.08200, 2017. [24] SUN L, JIA K, YEUNG D Y, et al. Human action recognition using factorized spatio-temporal convolutional networks[C]//Proceedings of the IEEE International Conference on Computer Vision. Santiago, Chile, 2015: 4597−4605. [25] TRAN D, WANG H, TORRESANI L, et al. A closer look at spatiotemporal convolutions for action recognition[C]// [26] Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA, 2018: 6450−6459. SIMONYAN K, ZISSERMAN A. Two-stream convolutional networks for action recognition in videos[C]//Advances in Neural Information Processing Systems. Montreal, Canada, 2014: 568−576. [27] 作者简介: 刘董经典,博士研究生,主要研究 方向为行为识别、计算机视觉。 张紫欣,硕士研究生,主要研究方 向为行为识别、推荐系统、智慧医疗。 牛强,教授,主要研究方向为人工 智能、数据挖掘和无线传感器网络。 发表学术论文 40 余篇。 [ 责任编辑:李雪莲 ] 第 5 期 刘董经典,等:一种基于 2D 时空信息提取的行为识别算法 ·909·