第13卷第6期 智能系统学报 Vol.13 No.6 2018年12月 CAAI Transactions on Intelligent Systems Dec.2018 D0:10.11992/tis.201801025 网络出版地址:http:/kns.cnki.net/kcms/detail/23.1538.tp.20180420.1029.004.html 基于Faster R-CNN的人体行为检测研究 莫宏伟,汪海波 (哈尔滨工程大学自动化学院,黑龙江哈尔滨150001) 摘要:由于人体行为类内差异大,类间相似性大,而且还存在视觉角度与遮挡等问题,使用人工提取特征的方 法特征提取难度大并且难以提取有效特征,使得人体行为检测率较低。针对这个问题,本文在物体检测的基础 上使用检测效果较好的Faster R-CNN算法来进行人体行为检测,并对Faster R-CNN算法与批量规范化算法和 在线难例挖掘算法进行结合,有效利用了深度学习算法实现人体行为检测。对此改进算法进行实验验证,验证 的分类和位置精度达到了80%以上,实验结果表明,改进的算法具有识别精度高的特点。 关键词:人体行为检测:更快速区域卷积神经网络:在线难例挖掘:深度学习:目标检测:卷积神经网络:批规范化: 迁移学习 中图分类号:TP181文献标志码:A文章编号:1673-4785(2018)06-0967-07 中文引用格式:莫宏伟,汪海波.基于Faster R-CNN的人体行为检测研究J智能系统学报,2018,13(6):967-973. 英文引用格式:MO Hongwei,,WANG Haibo..Research on human behavior detection based on Faster R-CNNIJI.CAAI transac- tions on intelligent systems,2018,13(6):967-973. Research on human behavior detection based on Faster R-CNN MO Hongwei,WANG Haibo (College of Automation,Harbin Engineering University,Harbin 150001,China) Abstract:Because of large intra-class difference and large inter-class similarity of human behaviors,as well as prob- lems such as visual angle and occlusion,it is difficult to extract features,especially effective features,using the manual feature extraction method.This results in low accuracy of human behavior detection.To solve this problem,this paper applies a faster region-based convolutional neural network(Faster R-CNN)algorithm,which has a better detection ef- fect,to detect human behavior on the basis of object detection.By combining the Faster-RCNN algorithm with batch normalization algorithm and an online hard example mining algorithm,the deep learning algorithm is effectively util- ized to detect human behavior.Experimental results show that the accuracy of classification and position of the im- proved algorithm exceeds 80%,thereby verifying its high recognition accuracy. Keywords:human behavior detection;faster R-CNN;OHEM;deep learning;object detection;convolutional neural net- work:batch normalization;transfer learning 人体行为检测作为人机交互的重要技术始终 展,各种网络结构层出不穷,但是所用的训练方 受到计算机视觉的广泛关注。但在现实环境中存 式都是随机梯度下降算法,该算法简单高效,但 在的一些繁杂背景、人体被物体遮盖、人体动 是需要训练者自主设置超参数,调参过程乏味而 作千姿百态等问题,使得人体行为检测任务难度 耗时,批量规范化(batch normalization,BN)算法 较大。 是针对该问题提出的,作为2016年以来深度学习 领域的重要研究结果,已成为深度学习算法的重 近几年深度学习在图像检测领域获得长足发 要组成部分。 收稿日期:2018-01-16.网络出版日期:2018-04-24 基金项目:国家自然科学基金项目(60035117) R-CNN(regions with CNN features))2I模型是 通信作者:莫宏伟.E-mail:honwei2004@126.com. 应用于物体检测任务的经典算法,该模型的算
DOI: 10.11992/tis.201801025 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.tp.20180420.1029.004.html 基于 Faster R-CNN 的人体行为检测研究 莫宏伟,汪海波 (哈尔滨工程大学 自动化学院,黑龙江 哈尔滨 150001) 摘 要:由于人体行为类内差异大,类间相似性大,而且还存在视觉角度与遮挡等问题,使用人工提取特征的方 法特征提取难度大并且难以提取有效特征,使得人体行为检测率较低。针对这个问题,本文在物体检测的基础 上使用检测效果较好的 Faster R-CNN 算法来进行人体行为检测,并对 Faster R-CNN 算法与批量规范化算法和 在线难例挖掘算法进行结合,有效利用了深度学习算法实现人体行为检测。对此改进算法进行实验验证,验证 的分类和位置精度达到了 80% 以上,实验结果表明,改进的算法具有识别精度高的特点。 关键词:人体行为检测;更快速区域卷积神经网络;在线难例挖掘;深度学习;目标检测;卷积神经网络;批规范化; 迁移学习 中图分类号:TP181 文献标志码:A 文章编号:1673−4785(2018)06−0967−07 中文引用格式:莫宏伟, 汪海波. 基于 Faster R-CNN 的人体行为检测研究[J]. 智能系统学报, 2018, 13(6): 967–973. 英文引用格式:MO Hongwei, WANG Haibo. Research on human behavior detection based on Faster R-CNN[J]. CAAI transactions on intelligent systems, 2018, 13(6): 967–973. Research on human behavior detection based on Faster R-CNN MO Hongwei,WANG Haibo (College of Automation, Harbin Engineering University, Harbin 150001, China) Abstract: Because of large intra-class difference and large inter-class similarity of human behaviors, as well as problems such as visual angle and occlusion, it is difficult to extract features, especially effective features, using the manual feature extraction method. This results in low accuracy of human behavior detection. To solve this problem, this paper applies a faster region-based convolutional neural network (Faster R-CNN) algorithm, which has a better detection effect, to detect human behavior on the basis of object detection. By combining the Faster-RCNN algorithm with batch normalization algorithm and an online hard example mining algorithm, the deep learning algorithm is effectively utilized to detect human behavior. Experimental results show that the accuracy of classification and position of the improved algorithm exceeds 80%, thereby verifying its high recognition accuracy. Keywords: human behavior detection; faster R-CNN; OHEM; deep learning; object detection; convolutional neural network; batch normalization; transfer learning 人体行为检测作为人机交互的重要技术始终 受到计算机视觉的广泛关注。但在现实环境中存 在的一些繁杂背景、人体被物体遮盖、人体动 作千姿百态等问题,使得人体行为检测任务难度 较大。 近几年深度学习在图像检测领域获得长足发 展,各种网络结构层出不穷,但是所用的训练方 式都是随机梯度下降算法,该算法简单高效,但 是需要训练者自主设置超参数,调参过程乏味而 耗时,批量规范化 (batch normalization, BN)[1]算法 是针对该问题提出的,作为 2016 年以来深度学习 领域的重要研究结果,已成为深度学习算法的重 要组成部分。 R-CNN(regions with CNN features)[2]模型是 应用于物体检测任务的经典算法,该模型的算 收稿日期:2018−01−16. 网络出版日期:2018−04−24. 基金项目:国家自然科学基金项目 (60035117). 通信作者:莫宏伟. E-mail:honwei2004@126.com. 第 13 卷第 6 期 智 能 系 统 学 报 Vol.13 No.6 2018 年 12 月 CAAI Transactions on Intelligent Systems Dec. 2018
·968· 智能系统学报 第13卷 法思路是首先读入图像后为输入的图像生成大约 学习结构,将方法扩展到大型输入,并从视频中 2000个类别独立的候选区域,之后使用卷积神经 捕获抽象的结构特征,这一方法在Hollywood2, 网络从每个候选区域中获取长度相同的特征向 KTH和UCF Sports等体行为数据集上的测试也 量,然后使用支持向量机(SVM)对每一个候选 获得了很好的检测效果。 区域中的物体进行检测分类。R-CNN模型采用 Donahue等提出了一个长期递归卷积网络 图像仿射变形计算每一个候选窗口固定大小的卷 模型。结合深层次的视觉特征提取器(例如 积神经网络输入,不受窗口形状影响。 CNN)和模型,可以用于学习识别语言、视觉信息 在R-CNN基础上发展而来的Fast R-CNN 等任务,科研人员将这一方法应用到人体行为检 Faster R-CNN等在物体检测方面更为有效。Fast 测任务中,并且在UCF101数据集上检验了模型 R-CNN模型基于R-CNN模型融合了SPPNet7网 的准确性。 络特点,提高训练和测试速度,同时提高了模型 Gkioxari等提出了利用卷积神经网络进行 检测精度。Fast R-CNN模型主要解决了R-CNN 人体姿势预测和人体行为检测的方法,在PASCAL 和SPPNet3个方面的问题:测试速度慢、训练速 VOC数据集上对这一方法进行了检验,并将其与 度慢和训练占用空间大。 已有的主要方法进行了对比。 传统目标检测方法包括有区域建议方法和基 Gkioxari等I提出了一种根据图像中的情境 于区域的卷积神经网络的方法,但基于区域的卷 线索来进行人体行为检测的方法,并取得了较高 积神经网络计算量较大,之后通过共享卷积大大 的识别正确率,此外这一方法还可用于属性分类 降低了深度计算量,Fast R-CNN可以用非常深的 任务。Khan等4提出了一种语义金字塔的姿态 网络实现了接近实时的检测速度,这是在忽略生 归一化方法来识别静态图像中的人体行为,并在 成区域建议框的基础之上实现的,因此如何降低 PASCAL VOC2010和stanford-40数据集上进行测 区域建议框的生成时间成为制约卷积神经网络在 试,取得了较高的识别精度。 目标检测领域应用的一大瓶颈。Faster R-CNN网 Christoph等ls提出了一种通用卷积构架,这 络通过RPN网络生成区域建议框,结合到Fast 一架构基于时空特征的乘性交互对视频中人体行 R-CNN网络进行训练,两者共享卷积层,极大降 为进行检测。此架构是完全时空卷积,并能够在 低了计算复杂度。 单一的视频通道进行视频评估。实验表明,该模 1相关工作 型在两个标准动作数据集上均具有较好的效果。 Gkioxari等I通过研究人体部件对动作和属 在人体行为检测方面,J等在研究中将卷积 性分类的重要性,提出了一种基于人体部件,利 神经网络拓展到三维形式.设计出了3-D卷积神 用卷积神经网络进行人体行为检测的方法。实验 经网络(3-D convolutional neural networks,.3-DCNN, 表明,该方法对人体动作的分类具有较好的效果。 提出了由3-D卷积操作进行视频信息时空特性获 Kar等提出了一种新的视频帧合并方法,用 取的方法。作者在KTH人体行为数据库上采用 于人类行为检测的任务。该方法发现少量的视频 这一方法进行了测试,获得了90.2%的识别正 帧有可能包含了足够的信息,以此为依据进行视 确率。 频中的行为分类。并在两个标准数据集上实验 Karpathy等采用Sports-lM数据集对卷积神 实现了较高的识别效果。 经网络进行训练。在框架级别处理所有视频,使 Feichtenhofer等I1将双流卷积神经网络和残 用近似重复查找算法确定了具体视频中包含的重 差网络ResNet进行结合,提出了一种时空域上的 复帧数,实验结果显示了尽管存在着小部分标签 人体行为检测方法,该方法依然使用了两个流, 错误的干扰,但是网络仍然能够保持着较好的学 运动流和外观流,运动流接收的输入依然是堆叠 习状态。 的多帧光流灰度图片。该方法刷新了HMDB51 Sun等Io采用慢特征分析方法(slow feature 数据库和UCF101数据库行为检测的精度。 analysis,SFA)来实现人体行为检测任务。慢特征 Herath等对过去10年的人体行为检测从传 分析方法可以从输入的图像信息中学习不变或微 统方法到深度学习的方法进行了系统的综述,筹 弱改变的特征,研究人员将SFA方法与深度学习 集了新的问题,对人体行为检测的进一步研究指 技术结合起来,用以学习视频数据本身的层次表 明了方向。 示,使用具有3-D卷积和最大池化操作的双层SFA 中国科学技术大学邓利群研究团队提出了
法思路是首先读入图像后为输入的图像生成大约 2 000 个类别独立的候选区域,之后使用卷积神经 网络从每个候选区域中获取长度相同的特征向 量,然后使用支持向量机 (SVM)[3]对每一个候选 区域中的物体进行检测分类[4]。R-CNN 模型采用 图像仿射变形计算每一个候选窗口固定大小的卷 积神经网络输入,不受窗口形状影响。 在 R-CNN 基础上发展而来的 Fast R-CNN[5] 、 Faster R-CNN[6]等在物体检测方面更为有效。Fast R-CNN 模型基于 R-CNN 模型融合了 SPPNet[7]网 络特点,提高训练和测试速度,同时提高了模型 检测精度。Fast R-CNN 模型主要解决了 R-CNN 和 SPPNet 3 个方面的问题:测试速度慢、训练速 度慢和训练占用空间大。 传统目标检测方法包括有区域建议方法和基 于区域的卷积神经网络的方法,但基于区域的卷 积神经网络计算量较大,之后通过共享卷积大大 降低了深度计算量,Fast R-CNN 可以用非常深的 网络实现了接近实时的检测速度,这是在忽略生 成区域建议框的基础之上实现的,因此如何降低 区域建议框的生成时间成为制约卷积神经网络在 目标检测领域应用的一大瓶颈。Faster R-CNN 网 络通过 RPN 网络生成区域建议框,结合到 Fast R-CNN 网络进行训练,两者共享卷积层,极大降 低了计算复杂度。 1 相关工作 在人体行为检测方面,Ji 等 [8]在研究中将卷积 神经网络拓展到三维形式,设计出了 3-D 卷积神 经网络 (3-D convolutional neural networks,3-D CNN), 提出了由 3-D 卷积操作进行视频信息时空特性获 取的方法。作者在 KTH 人体行为数据库上采用 这一方法进行了测试,获得了 90.2% 的识别正 确率。 Karpathy 等 [9]采用 Sports-1M 数据集对卷积神 经网络进行训练。在框架级别处理所有视频,使 用近似重复查找算法确定了具体视频中包含的重 复帧数,实验结果显示了尽管存在着小部分标签 错误的干扰,但是网络仍然能够保持着较好的学 习状态。 Sun 等 [10]采用慢特征分析方法 (slow feature analysis,SFA) 来实现人体行为检测任务。慢特征 分析方法可以从输入的图像信息中学习不变或微 弱改变的特征,研究人员将 SFA 方法与深度学习 技术结合起来,用以学习视频数据本身的层次表 示,使用具有 3-D 卷积和最大池化操作的双层 SFA 学习结构,将方法扩展到大型输入,并从视频中 捕获抽象的结构特征,这一方法在 Hollywood2, KTH 和 UCF Sports 等体行为数据集上的测试也 获得了很好的检测效果。 Donahue 等 [11]提出了一个长期递归卷积网络 模型。结合深层次的视觉特征提取 器 (例 如 CNN) 和模型,可以用于学习识别语言、视觉信息 等任务,科研人员将这一方法应用到人体行为检 测任务中,并且在 UCF101 数据集上检验了模型 的准确性。 Gkioxari 等 [12]提出了利用卷积神经网络进行 人体姿势预测和人体行为检测的方法,在 PASCAL VOC 数据集上对这一方法进行了检验,并将其与 已有的主要方法进行了对比。 Gkioxari 等 [13]提出了一种根据图像中的情境 线索来进行人体行为检测的方法,并取得了较高 的识别正确率,此外这一方法还可用于属性分类 任务。Khan 等 [14]提出了一种语义金字塔的姿态 归一化方法来识别静态图像中的人体行为,并在 PASCAL VOC 2010 和 stanford-40数据集上进行测 试,取得了较高的识别精度。 Christoph 等 [15]提出了一种通用卷积构架,这 一架构基于时空特征的乘性交互对视频中人体行 为进行检测。此架构是完全时空卷积,并能够在 单一的视频通道进行视频评估。实验表明,该模 型在两个标准动作数据集上均具有较好的效果。 Gkioxari 等 [16]通过研究人体部件对动作和属 性分类的重要性,提出了一种基于人体部件,利 用卷积神经网络进行人体行为检测的方法。实验 表明,该方法对人体动作的分类具有较好的效果。 Kar 等 [17]提出了一种新的视频帧合并方法,用 于人类行为检测的任务。该方法发现少量的视频 帧有可能包含了足够的信息,以此为依据进行视 频中的行为分类。并在两个标准数据集上实验, 实现了较高的识别效果。 Feichtenhofer 等 [18]将双流卷积神经网络和残 差网络 ResNet 进行结合,提出了一种时空域上的 人体行为检测方法,该方法依然使用了两个流, 运动流和外观流,运动流接收的输入依然是堆叠 的多帧光流灰度图片。该方法刷新了 HMDB51 数据库和 UCF101 数据库行为检测的精度。 Herath 等 [19]对过去 10 年的人体行为检测从传 统方法到深度学习的方法进行了系统的综述,筹 集了新的问题,对人体行为检测的进一步研究指 明了方向。 中国科学技术大学邓利群研究团队[20]提出了 ·968· 智 能 系 统 学 报 第 13 卷
第6期 莫宏伟,等:基于Faster R-CNN的人体行为检测研究 ·969· 一种以动作检索表为主要依据的识别方法,该方 算法与Fast R-CNN进行结合使检测算法得到了 法提出了将动作信息分割成5个片段,然后针对 一定程度的提升,所以在理论上将OHEM算法与 各片段执行聚类操作和映射操作等,每种动作的 Faster R-CNN算法进行结合,可以进一步提高 检测任务都需要经过全局检索对比和类型匹配等 Faster R-CNN的检测效果。 操作来完成。申晓霞等2提出了基于深度图和 简单来说,OHEM算法就是从RoI中选择难 RGB图像的行为描述算法,并将其应用到了人体 例,而不是简单的采用。难例挖掘一般需要迭代 行为检测领域;王忠民等2将卷积神经网络应用 地进行模型的训练和用模型寻找难例,这些难例 于人体行为检测中,在应用中将经过简单处理的 无非就是那些分错了并且置信度还很高的样本, 原始数据直接作为卷积神经网络的输入,然后由 这要是放在网络里面,这个样本对应的训练损失 卷积神经网络进行特征获取,再将得到的特征交 就应该很大,因此一个基本思路是利用网络训练 由分类器执行分类操作,该方法对测试人员的行 损失找到这些难例,具体方法如下: 为识别正确率达到了84.8%,验证了算法的有效性: 1)对于一张输入图像,首先利用卷积网络计 迟元峰等2通过对卷积神经网络和循环神经网络 算出特征图。 结构的研究分析,提出了一种新的深度神经网络 2)RoI网络利用1)中计算好的特征图和 结构用于检测视频中的人体行为,实验结果表现 RPN网络得到的RoI进行一次前向传播,最后的 出了该方法应用在人体行为检测方面所取得的良 Ioss表示Rol网络对这个RoI检测的好坏程度,将 好效果;朱煜等2对近年来人体行为检测方法出 每一个RoI对应的Ioss进行排序,取前面B/W个 现的新进展进行了分析总结和算法综述。 RoI进行反向传播。 2改进Faster R-CNN算法 3)因为在同一张图中的Ro很多之间相互重 叠,如果一个RoI是难例,那么和它重叠较大的 BN层的基本思想很直观:BN就是通过一定 RoI很大程度上也是难例,这样在反向传播的时 的规范化手段,把每层神经网络任意神经元输入 候就进行了一次重复的梯度计算。为了避免这种 值的分布强行拉回到均值为0,方差为1的标准 情况,首先根据损失大小进行排序,然后进行非 正态分布,这样可以大大加快训练速度,同时避 极大值抑制,最后再选择BW个RoI进行反向传 免了因参数变化而导致的梯度消失的问题。 播,实验中,非极大值抑制的阈值选取0.7。 如果说批量规范化算法是在网络的结构上对 4)提出的在线难例挖掘算法主要是通过两 算法进行优化,那么在线难例挖掘(online-hard-ex- 个RoI网络实现的:只读RoI网络(图1上部分所 ample-mining,OHEM)2算法则关注如何利用现有 示)和标准RoI网络(图1下部分所示),只读的 的样本对网络进行更有效的训练。 RoI网络进行前向传播并计算出所有的RoI的损 在Fast R-CNN算法中提出的mini-batch用来 失;之后标准RoI样本挖掘模块进行样本挖掘,得 进行随机梯度下降时并不具有高效和最优的状 到困难样本并输入到只读RoI网络中,网络只读 态,而OHEM算法可以取得更低的训练损失和更 困难样本进行前向和后向传播,计算梯度并传播 高的平均类别和位置精度(mAP)。最初的OHEM 到卷积神经网络。 Rol池化层 Rol网络 只读候选框层 卷积网络 oftmax 输入图像 rpn 全连接层 Harl Rol sampler 建议框-2000 bbdx回归 oftmax 全连接层 bbox回归 图1 Faster_.RCNN_OHEM算法原理图 Fig.1 Faster R_CNN_OHEM algorithm schematic 在改进算法中,首先使用更深的预训练模型 BN算法对输入样本和隐藏层中的每个输入都进 ResNet进行参数初始化和特征提取。其次使用 行批量规范化处理,以允许网络使用较大的学习
一种以动作检索表为主要依据的识别方法,该方 法提出了将动作信息分割成 5 个片段,然后针对 各片段执行聚类操作和映射操作等,每种动作的 检测任务都需要经过全局检索对比和类型匹配等 操作来完成。申晓霞等[21]提出了基于深度图和 RGB 图像的行为描述算法,并将其应用到了人体 行为检测领域;王忠民等[22]将卷积神经网络应用 于人体行为检测中,在应用中将经过简单处理的 原始数据直接作为卷积神经网络的输入,然后由 卷积神经网络进行特征获取,再将得到的特征交 由分类器执行分类操作,该方法对测试人员的行 为识别正确率达到了 84.8%,验证了算法的有效性; 迟元峰等[23]通过对卷积神经网络和循环神经网络 结构的研究分析,提出了一种新的深度神经网络 结构用于检测视频中的人体行为,实验结果表现 出了该方法应用在人体行为检测方面所取得的良 好效果;朱煜等[24]对近年来人体行为检测方法出 现的新进展进行了分析总结和算法综述。 2 改进 Faster R-CNN 算法 BN 层的基本思想很直观:BN 就是通过一定 的规范化手段,把每层神经网络任意神经元输入 值的分布强行拉回到均值为 0,方差为 1 的标准 正态分布,这样可以大大加快训练速度,同时避 免了因参数变化而导致的梯度消失的问题。 如果说批量规范化算法是在网络的结构上对 算法进行优化,那么在线难例挖掘 (online-hard-example-mining,OHEM)[25]算法则关注如何利用现有 的样本对网络进行更有效的训练。 在 Fast R-CNN 算法中提出的 mini-batch 用来 进行随机梯度下降时并不具有高效和最优的状 态,而 OHEM 算法可以取得更低的训练损失和更 高的平均类别和位置精度 (mAP)。最初的 OHEM 算法与 Fast R-CNN 进行结合使检测算法得到了 一定程度的提升,所以在理论上将 OHEM 算法与 Faster R-CNN 算法进行结合,可以进一步提高 Faster R-CNN 的检测效果。 简单来说,OHEM 算法就是从 RoI 中选择难 例,而不是简单的采用。难例挖掘一般需要迭代 地进行模型的训练和用模型寻找难例,这些难例 无非就是那些分错了并且置信度还很高的样本, 这要是放在网络里面,这个样本对应的训练损失 就应该很大,因此一个基本思路是利用网络训练 损失找到这些难例,具体方法如下: 1) 对于一张输入图像,首先利用卷积网络计 算出特征图。 2)Ro I 网络利 用 1 ) 中计算好的特征图 和 RPN 网络得到的 RoI 进行一次前向传播,最后的 loss 表示 RoI 网络对这个 RoI 检测的好坏程度,将 每一个 RoI 对应的 loss 进行排序,取前面 B/N 个 RoI 进行反向传播。 3) 因为在同一张图中的 RoI 很多之间相互重 叠,如果一个 RoI 是难例,那么和它重叠较大的 RoI 很大程度上也是难例,这样在反向传播的时 候就进行了一次重复的梯度计算。为了避免这种 情况,首先根据损失大小进行排序,然后进行非 极大值抑制,最后再选择 B/N 个 RoI 进行反向传 播,实验中,非极大值抑制的阈值选取 0.7。 4) 提出的在线难例挖掘算法主要是通过两 个 RoI 网络实现的:只读 RoI 网络 (图 1 上部分所 示) 和标准 RoI 网络 (图 1 下部分所示),只读的 RoI 网络进行前向传播并计算出所有的 RoI 的损 失;之后标准 RoI 样本挖掘模块进行样本挖掘,得 到困难样本并输入到只读 RoI 网络中,网络只读 困难样本进行前向和后向传播,计算梯度并传播 到卷积神经网络。 在改进算法中,首先使用更深的预训练模型 ResNet 进行参数初始化和特征提取。其次使用 BN 算法对输入样本和隐藏层中的每个输入都进 行批量规范化处理,以允许网络使用较大的学习 输入图像 卷积网络 RoI 池化层 RoI 网络 全连接层 只读候选框层 bbox 回归 bbox 回归 softmax softmax 全连接层 rpn Harl Rol sampler 建议框-2 000 图 1 Faster_RCNN_OHEM 算法原理图 Fig. 1 Faster R_CNN_OHEM algorithm schematic 第 6 期 莫宏伟,等:基于 Faster R-CNN 的人体行为检测研究 ·969·
·970· 智能系统学报 第13卷 速率进行训练,加快网络的训练速度,具体做法 RPN模型再次初始化,但不更新RPN与FstR-CNN 如图2所示。最后使用OHEM算法选择难例进 共享的卷积层参数,仅对RPN网铬特有层参数进 行前向和后向传播,计算梯度并传播到卷积神经 行更新,再进行训练,此时已实现了两个共享,之 网络,以获得更低的训练损失和更高的类别和位 后再对Fast R-CNN模型进行训练,如此交替进行 置精度。改进算法的整体流程见图2。 训练。 在训练之前首先修改文件中的相关的参数, 标准化x 标准化t 将类型换成人体行为数据集中的标签。将相应输 出的类别数改为类别数加一(类别加上背景)。 4实验结果与对比分析 隐藏层 测试的结果见表1。表2为ZF+RPN、VGG+ No+E Rol (s)im RPN实验结果和改进算法的实验结果。 表1改进Faster R-CNN算法检测各类别的AP值 图2批量规范化处理 Table 1 AP of actions of improved Faster R-CN Fig.2 Batch normalization AP 3实验过程 人体行为 拍照 0.747 3.1数据集及实验环境 打电话 0.786 本文实验数据是从VOC2012 Action选取包 玩电脑 0.853 括8个目标类别的人体行为数据集,3347张标记 阅读 0.735 图像,每类动作大约400张。在数据集中,训练验 骑马 0.932 证集大约占整个数据集的50%,测试集大约占整 骑车 0.891 个数据集的50%,训练集大约是训练验证集的 跳 0.783 50%,验证集大约占训练验证集的50%。算法利 玩乐器 0.696 用caffe开源框架,在Ubuntu14.04系统下实现,所 表2ZF和VGG16的mAP 用的计算机配置是,显卡为GeForce GTX1080Ti, Table 2 mAP for ZF and VGG16 内存11GB。 3.2参数选择 训练 propos 测试 proposals mAP/% als 使用变学习率策略训练改进的Faster R-CNN RPN+ZF 300 RPN+ZF 300 0.58 算法模型,初始学习率Base Ir为:0.001,批大小 RPN+VGG16 300 RPN+VGG16 300 0.68 Batchs为128,训练步数Stepsize为6000,变学习 RPN+OHEM+BN 300 RPN+OHEM+BN 300 0.825 率参数gamma为0.l。采用了变学习率策略公式: r=baserxgammaoo号 (1) 图3为ZF+RPN、VGG+RPN和改进算法识 式中iter为当前的迭代次数。 别:8个类别的平均精度(AP)柱状图。 合硬件条件和学习效率之后,在用Fast R-CNN 1.0 0.9 进行人体行为检测时选择Batch size为l28。 0.8 3.3模型训练 0.7 Faster R-CNN模型训练阶段使用训练好的 0.6 20.5 ResNet模型参数对RPN模型进行初始化,然后独 0.4 立地对RPN模型进行训练,之后依旧采用在 0.3 0.2 ImageNet上训练好的ResNet模型参数对Fast 0.1 Rpn+VGG16 Rpn+Resnet101 R-CNN模型参数进行初始化,可以看出RPN网 0 络与Fast R-CNN模型的训练是单独进行的,两个 打电话 玩乐器 网络不进行参数共享,将上一步中RPN模型生成 行为类别 的建议窗口作为输入样本对Fast R-CNN模型进 图33种方法的AP比较 行训练,再使用训练后的Fast R-CNN模型参数对 Fig.3 AP comparison of three methods
速率进行训练,加快网络的训练速度,具体做法 如图 2 所示。最后使用 OHEM 算法选择难例进 行前向和后向传播,计算梯度并传播到卷积神经 网络,以获得更低的训练损失和更高的类别和位 置精度。改进算法的整体流程见图 2。 3 实验过程 3.1 数据集及实验环境 本文实验数据是从 VOC 2012 Action 选取包 括 8 个目标类别的人体行为数据集,3 347 张标记 图像,每类动作大约 400 张。在数据集中,训练验 证集大约占整个数据集的 50%,测试集大约占整 个数据集的 50%,训练集大约是训练验证集的 50%,验证集大约占训练验证集的 50%。算法利 用 caffe 开源框架,在 Ubuntu14.04 系统下实现,所 用的计算机配置是,显卡为 GeForce GTX1080Ti, 内存 11 GB。 3.2 参数选择 使用变学习率策略训练改进的 Faster R-CNN 算法模型,初始学习率 Base_lr 为:0.001,批大小 Batchs 为 128,训练步数 Stepsize 为 6 000,变学习 率参数 gamma 为 0.1。采用了变学习率策略公式: lr = baselr×gammafloor iter stepsize (1) 式中 iter 为当前的迭代次数。 合硬件条件和学习效率之后,在用 Fast R-CNN 进行人体行为检测时选择 Batch_size 为 128。 3.3 模型训练 Faster R-CNN 模型训练阶段使用训练好的 ResNet 模型参数对 RPN 模型进行初始化,然后独 立地对 RPN 模型进行训练,之后依旧采用在 ImageNet 上训练好的 ResNet 模型参数对 Fast R-CNN 模型参数进行初始化,可以看出 RPN 网 络与 Fast R-CNN 模型的训练是单独进行的,两个 网络不进行参数共享,将上一步中 RPN 模型生成 的建议窗口作为输入样本对 Fast R-CNN 模型进 行训练,再使用训练后的 Fast R-CNN 模型参数对 RPN 模型再次初始化,但不更新 RPN 与 Fast R-CNN 共享的卷积层参数,仅对 RPN 网络特有层参数进 行更新,再进行训练,此时已实现了两个共享,之 后再对 Fast R-CNN 模型进行训练,如此交替进行 训练。 在训练之前首先修改文件中的相关的参数, 将类型换成人体行为数据集中的标签。将相应输 出的类别数改为类别数加一 (类别加上背景)。 4 实验结果与对比分析 测试的结果见表 1。表 2 为 ZF+RPN、VGG+ RPN 实验结果和改进算法的实验结果。 图 3 为 ZF+RPN、VGG+RPN 和改进算法识 别:8 个类别的平均精度 (AP) 柱状图。 表 1 改进 Faster R-CNN 算法检测各类别的 AP 值 Table 1 AP of actions of improved Faster R-CN 人体行为 AP 拍照 0.747 打电话 0.786 玩电脑 0.853 阅读 0.735 骑马 0.932 骑车 0.891 跳 0.783 玩乐器 0.696 表 2 ZF 和 VGG16 的 mAP Table 2 mAP for ZF and VGG16 训练 propos als 测试 proposals mAP/% RPN+ZF 300 RPN+ZF 300 0.58 RPN+VGG16 300 RPN+VGG16 300 0.68 RPN+OHEM+BN 300 RPN+OHEM+BN 300 0.825 标准化 x 标准化 t 第 1 层 h1 h2 h3 h4 隐藏层 x Wh 2 ·x s1 s2 s3 h1 s1−μ2 σ 2 s+ξ r·s2+β RoI (s2 ) 图 2 批量规范化处理 Fig. 2 Batch normalization 拍照 打电话 玩电脑 阅读 骑马 骑车 跳 玩乐器 1.0 0.8 0.9 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 行为类别 Rpn+ZF Rpn+VGG16 Rpn+Resnet101 AP 图 3 3 种方法的 AP 比较 Fig. 3 AP comparison of three methods ·970· 智 能 系 统 学 报 第 13 卷
第6期 莫宏伟,等:基于Faster R-CNN的人体行为检测研究 ·971· 在测试数据中随机选取了12张人体行为图 但是相对于原始算法识别类别和位置的精度都有 片进行抽样测试,测试的结果分别展现在图4~5 着较为明显的改善。并且对于这8种动作,改进Fast 中。图4表示未改进算法的测试结果,从左至右 R-CNN算法识别效果有着显著提升,平均分类效 从上至下的人体行为分别为骑马(1.000)、用电脑 果和位置精确度均达到80%以上,证明改进算法 (0.954)、玩乐器(0.981)、打电话(0.994)、阅读(0.997)、 对人体行为检测任务的有效性。 骑车(0.996)、阅读(1.000)、玩乐器(1.000)、跳 (0897)、阅读(未检测出)、拍照(未检测出)和骑 车(未检测出),其中括号中为检测的位置精确 度。图5表示改进算法的测试效果,从左至右从 上至下的人体行为分别为骑马(1.000)、用电脑 (1.000)、玩乐器(1.000)、打电话(1.000)、阅读 (0.999)、骑车(0.996)、阅读(1.000)、玩乐器(1.000)、 跳(0.999)、阅读(0.987)、拍照(0.934)和骑车 (0.926),其中括号中为检测的位置精确度。对比 随机选取的测试数据,图4中最后3个动作分别 为阅读、拍照和骑车,使用VGGNet时算法并未 检测出图中的动作。在图5中同样的图片、同样 的行为,改进算法对3种动作均作出了精确的识 别,并且图片中的动作均比原始算法的识别精确 度要高。相比两种算法,改进的算法不仅能准确 地识别出抽样测试图像中所有的人体行为,并且 图5改进算法检测结果 在精度上有所提升。 Fig.5 The improved algorithm detection results 5结束语 Faster R-CNN算法在物体检测方面有着较好 的识别效果,本文针对人体行为检测关键问题将 OHEM算法和批量规范化算法与Faster R-CNN算 法进行结合改进。在改进算法中,利用OHEM算 法的优势可以有效地识别出静态图像中存在的小 样本难例,对于人体行为识别整体的识别正确率 都有所改善。今后将在通过搜集更多测试样本, 增加类别,来测试所提出方法的有效性。 参考文献: [1]IOFFE S,SZEGEDY C.Batch normalization:accelerating deep network training by reducing internal covariate shift[Cl//Proceedings of the 32nd International Conference 图4原始算法检测结果 on International Conference on Machine Learning.Lille. Fig.4 The original algorithm detection results. France,.2015:448-456 结合表2和图5的实验结果以及随机抽样测 [2]GIRSHICK R.DONAHUE J,DARRELL T,et al.Region- 试的结果可知,在8种不同的人体行为中,改进 based convolutional networks for accurate object detection 的Faster R-CNN算法对玩电脑、骑马和骑车这 and segmentation[J].IEEE transactions on pattern analysis 3种动作的识别效果较好,虽然阅读和玩乐器这 and machine intelligence,2016,38(1):142-158. 两种动作的识别效果相比于其他动作效果略差, [3]李航.统计学习方法[M).北京:清华大学出版社,2012
在测试数据中随机选取了 12 张人体行为图 片进行抽样测试,测试的结果分别展现在图 4~5 中。图 4 表示未改进算法的测试结果,从左至右 从上至下的人体行为分别为骑马 (1.000)、用电脑 (0.954)、玩乐器 (0.981)、打电话 (0.994)、阅读 (0.997)、 骑车 (0.996)、阅读 (1.000)、玩乐器 (1.000)、跳 (0.897)、阅读 (未检测出)、拍照 (未检测出) 和骑 车 (未检测出),其中括号中为检测的位置精确 度。图 5 表示改进算法的测试效果,从左至右从 上至下的人体行为分别为骑马 (1.000)、用电脑 (1.000)、玩乐器 (1.000)、打电话 (1.000)、阅读 (0.999)、骑车 (0.996)、阅读 (1.000)、玩乐器 (1.000)、 跳 (0.999)、阅读 (0.987)、拍照 (0.934) 和骑车 (0.926),其中括号中为检测的位置精确度。对比 随机选取的测试数据,图 4 中最后 3 个动作分别 为阅读、拍照和骑车,使用 VGGNet 时算法并未 检测出图中的动作。在图 5 中同样的图片、同样 的行为,改进算法对 3 种动作均作出了精确的识 别,并且图片中的动作均比原始算法的识别精确 度要高。相比两种算法,改进的算法不仅能准确 地识别出抽样测试图像中所有的人体行为,并且 在精度上有所提升。 结合表 2 和图 5 的实验结果以及随机抽样测 试的结果可知,在 8 种不同的人体行为中,改进 的 Faster R-CNN 算法对玩电脑、骑马和骑车这 3 种动作的识别效果较好,虽然阅读和玩乐器这 两种动作的识别效果相比于其他动作效果略差, 但是相对于原始算法识别类别和位置的精度都有 着较为明显的改善。并且对于这 8 种动作,改进 Faster R-CNN 算法识别效果有着显著提升,平均分类效 果和位置精确度均达到 80% 以上,证明改进算法 对人体行为检测任务的有效性。 5 结束语 Faster R-CNN 算法在物体检测方面有着较好 的识别效果,本文针对人体行为检测关键问题将 OHEM 算法和批量规范化算法与 Faster R-CNN 算 法进行结合改进。在改进算法中,利用 OHEM 算 法的优势可以有效地识别出静态图像中存在的小 样本难例,对于人体行为识别整体的识别正确率 都有所改善。今后将在通过搜集更多测试样本, 增加类别,来测试所提出方法的有效性。 参考文献: IOFFE S, SZEGEDY C. Batch normalization: accelerating deep network training by reducing internal covariate shift[C]//Proceedings of the 32nd International Conference on International Conference on Machine Learning. Lille, France, 2015: 448–456. [1] GIRSHICK R, DONAHUE J, DARRELL T, et al. Regionbased convolutional networks for accurate object detection and segmentation[J]. IEEE transactions on pattern analysis and machine intelligence, 2016, 38(1): 142–158. [2] [3] 李航. 统计学习方法[M]. 北京: 清华大学出版社, 2012: 图 4 原始算法检测结果 Fig. 4 The original algorithm detection results. 图 5 改进算法检测结果 Fig. 5 The improved algorithm detection results 第 6 期 莫宏伟,等:基于 Faster R-CNN 的人体行为检测研究 ·971·
·972· 智能系统学报 第13卷 36-58. IEEE International Conference on Computer Vision.San- LI Hang.Statistical learning method[M].Beijing:Tsinghua tiago,.Chile,2015:1080-1088 University Press.2012:36-58. [14]KHAN F S,VAN DE WEIJER J,ANWER R M,et al [4]张文达,许悦雷,倪嘉成,等.基于多尺度分块卷积神经 Semantic pyramids for gender and action recognition[]. 网络的图像目标识别算法[).计算机应用,2016,36(4): IEEE transactions on image processing,2014,23(8): 1033-1038 3633-3645. ZHANG Wenda,XU Yuelei,NI Jiacheng,et al.Image tar- [15]FEICHTENHOFER C,PINZ A,WILDES R P.Spati- get recognition method based on multi-scale block convo- otemporal multiplier networks for video action recogni- lutional neural network[J].Journal of computer applica- tion[C]//Proceedings of 2017 IEEE Conference on Com- tions,.2016.36(4):1033-1038 puter Vision and Pattern Recognition.Honolulu,USA, [5]GIRSHICK R.Fast R-CNN[C]//Proceedings of 2015 IEEE 2017:7445-7454. International Conference on Computer Vision.Santiago, [16]GKIOXARI G,GIRSHICK R,MALIK J.Actions and at- Chile,.2015:1440-1448. tributes from wholes and parts[C]//Proceedings of 2015 [6]REN Shaoqing,HE Kaiming,GIRSHICK R,et al.Faster IEEE International Conference on Computer Vision.San- R-CNN:towards real-time object detection with region tiago,.Chile,2015:2470-2478. proposal networks[C]//Proceedings of the 28th Internation- [17]KAR A,RAI N,SIKKA K,et al.Adascan:adaptive scan al Conference on Neural Information Processing Systems. pooling in deep convolutional neural networks for human Montreal,Canada,2015:91-99. action recognition in videos[C]//Proceedings of 2017 [7]HE Kaiming,ZHANG Xiangyu,REN Shaoqing,et al.Spa- IEEE Conference on Computer Vision and Pattern Recog- tial pyramid pooling in deep convolutional networks for nition.Honolulu,USA,2017:5699-5708. visual recognition[C]//Proceedings of the 13th European [18]FEICHTENHOFER C,PINZ A,WILDES R P.Spati- Conference on Computer Vision.Zurich,Switzerland, otemporal residual networks for video action recognition 2014:346-361. [C]//Proceedings of the 30th Conference on Neural In- [8]JI Shuiwang,XU Wei,YANG Ming,et al.3D convolu- formation Processing Systems.Barcelona,Spain,2016: tional neural networks for automatic human action recogni- 3468-3476. tion[P].USA:8345984,2013 [9]KARPATHY A,TODERICI G,SHETTY S,et al.Large- [19]HERATH S,HARANDI M,PORIKLI F.Going deeper scale video classification with convolutional neural net- into action recognition:a survey[J].Image and vision computing,2017,60:4-21. works[Cl//Proceedings of 2014 IEEE Conference on Com- [20]邓利群.三维人体动作识别及其在交互舞蹈系统上的 puter Vision and Pattern Recognition.Columbus,USA, 2014:1725-1732 应用D].合肥:中国科学技术大学,2012 [10]SUN Lin,JIA Kui,CHAN T H,et al.DL-SFA:deeply- DENG Liqun.3D mocap data recognition and its applica- learned slow feature analysis for action recognition[C]/ tion on interactive dancing game[D].Hefei:University of Proceedings of 2014 IEEE Conference on Computer Vis- Science and Technology of China,2012 ion and Pattern Recognition.Columbus,USA,2014: [21]申晓霞,张桦,高赞,等.基于深度信息和RGB图像的 2625-2632. 行为识别算法[J.模式识别与人工智能,2013,26(8): [11]DONAHUE J,HENDRICKS L A,GUADARRAMA S, 722-728 et al.Long-term recurrent convolutional networks for SHEN Xiaoxia,ZHANG Hua,GAO Zan,et al.Behavior visual recognition and description[C]//Proceedings of recognition algorithm based on depth information and 2015 IEEE Conference on Computer Vision and Pattern RGB image[J].Pattern recognition and artificial intelli- Recognition.Boston,USA,2015:2625-2634. gence,.2013,26(8):722-728. [12]GKIOXARI G,HARIHARAN B,GIRSHICK R,et al.R- [22]王忠民,曹洪江,范琳.一种基于卷积神经网络深度学 CNNs for pose estimation and action detection[J].Com- 习的人体行为识别方法).计算机科学,2016,43(11A): puter science,2014,12(8):1221-1229 56-58.87 [13]GKIOXARI G.GIRSHICK R,MALIK J.Contextual ac- WANG Zhongmin,CAO Hongjiang,FAN Lin.Method tion recognition with R*CNN[C]//Proceedings of 2015 on human activity recognition based on convolutional
36–58. LI Hang. Statistical learning method[M]. Beijing: Tsinghua University Press, 2012: 36–58. 张文达, 许悦雷, 倪嘉成, 等. 基于多尺度分块卷积神经 网络的图像目标识别算法[J]. 计算机应用, 2016, 36(4): 1033–1038. ZHANG Wenda, XU Yuelei, NI Jiacheng, et al. Image target recognition method based on multi-scale block convolutional neural network[J]. Journal of computer applications, 2016, 36(4): 1033–1038. [4] GIRSHICK R. Fast R-CNN[C]//Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago, Chile, 2015: 1440–1448. [5] REN Shaoqing, HE Kaiming, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[C]//Proceedings of the 28th International Conference on Neural Information Processing Systems. Montreal, Canada, 2015: 91–99. [6] HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[C]//Proceedings of the 13th European Conference on Computer Vision. Zurich, Switzerland, 2014: 346–361. [7] JI Shuiwang, XU Wei, YANG Ming, et al. 3D convolutional neural networks for automatic human action recognition[P]. USA: 8345984, 2013. [8] KARPATHY A, TODERICI G, SHETTY S, et al. Largescale video classification with convolutional neural networks[C]//Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, USA, 2014: 1725–1732. [9] SUN Lin, JIA Kui, CHAN T H, et al. DL-SFA: deeplylearned slow feature analysis for action recognition[C]// Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, USA, 2014: 2625–2632. [10] DONAHUE J, HENDRICKS L A, GUADARRAMA S, et al. Long-term recurrent convolutional networks for visual recognition and description[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA, 2015: 2625–2634. [11] GKIOXARI G, HARIHARAN B, GIRSHICK R, et al. RCNNs for pose estimation and action detection[J]. Computer science, 2014, 12(8): 1221–1229. [12] GKIOXARI G, GIRSHICK R, MALIK J. Contextual action recognition with R*CNN[C]//Proceedings of 2015 [13] IEEE International Conference on Computer Vision. Santiago, Chile, 2015: 1080–1088. KHAN F S, VAN DE WEIJER J, ANWER R M, et al. Semantic pyramids for gender and action recognition[J]. IEEE transactions on image processing, 2014, 23(8): 3633–3645. [14] FEICHTENHOFER C, PINZ A, WILDES R P. Spatiotemporal multiplier networks for video action recognition[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA, 2017: 7445–7454. [15] GKIOXARI G, GIRSHICK R, MALIK J. Actions and attributes from wholes and parts[C]//Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago, Chile, 2015: 2470–2478. [16] KAR A, RAI N, SIKKA K, et al. Adascan: adaptive scan pooling in deep convolutional neural networks for human action recognition in videos[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA, 2017: 5699–5708. [17] FEICHTENHOFER C, PINZ A, WILDES R P. Spatiotemporal residual networks for video action recognition [C]//Proceedings of the 30th Conference on Neural Information Processing Systems. Barcelona, Spain, 2016: 3468–3476. [18] HERATH S, HARANDI M, PORIKLI F. Going deeper into action recognition: a survey[J]. Image and vision computing, 2017, 60: 4–21. [19] 邓利群. 三维人体动作识别及其在交互舞蹈系统上的 应用[D]. 合肥: 中国科学技术大学, 2012. DENG Liqun. 3D mocap data recognition and its application on interactive dancing game[D]. Hefei: University of Science and Technology of China, 2012. [20] 申晓霞, 张桦, 高赞, 等. 基于深度信息和 RGB 图像的 行为识别算法[J]. 模式识别与人工智能, 2013, 26(8): 722–728. SHEN Xiaoxia, ZHANG Hua, GAO Zan, et al. Behavior recognition algorithm based on depth information and RGB image[J]. Pattern recognition and artificial intelligence, 2013, 26(8): 722–728. [21] 王忠民, 曹洪江, 范琳. 一种基于卷积神经网络深度学 习的人体行为识别方法[J]. 计算机科学, 2016, 43(11A): 56–58, 87. WANG Zhongmin, CAO Hongjiang, FAN Lin. Method on human activity recognition based on convolutional [22] ·972· 智 能 系 统 学 报 第 13 卷
第6期 莫宏伟,等:基于Faster R-CNN的人体行为检测研究 ·973· neural networks[J].Computer science,2016,43(11A): 作者简介: 56-58,87. 莫宏伟,主要研究方向为人工智 [23]迟元峰,顾敏.基于深度学习的人体行为识别研究 能、类脑计算、智能机器人。承担完成 工业控制计算机,2017,31(1)少:104105 国家自然科学基金、国防预研等项目 17项。中国人工智能学会自然计算与 CHI Yuanfeng,GU Min.Human action recognition based 数字城市专业委员会副主任,黑龙江 on deep learning[J].Industrial control computer,2017, 省生物医学工程学会理事。中国生物 31(1):104-105 医学工程学会高级会员。中国计算机 [24]朱煜,赵江坤,王逸宁,等.基于深度学习的人体行为识 学会高级会员。International Journal of Swarm Intelligence 别算法综述.自动化学报,2016,42(6):848-857, Research、《电子学报》编委。IEEE Tran on Industrial In- ZHU Yu,ZHAO Jiangkun,WANG Yi'ning,et al.A re- formatics2018专刊《医疗卫生中的大数据处理》副主编。 发表学术论文70余篇。出版专著6部,授权发明专利7项。 view of human action recognition based on deep learning[J].Acta automatica sinica,2016,42(6):848-857. 汪海波,男,1990年生,硕士研究 [25]SHRIVASTAVA A,GUPTA A,GIRSHICK R.Training 生,主要研究方向为深度学习。 region-based object detectors with online hard example mining[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition.Las Vegas, USA.2016:761-769 2019年第11届机器学习和计算国际会议 2019 11th International Conference on Machine Learning and Computing (ICMLC 2019) 会议网站:http:www,icmlc.org 2019年2月22-24日珠海 文章出版 被录用的文章将出版到ACM会议论文集,并提交EI核心检索,Scopus检索。 ICMLC2017ACM会议论文集(ISBN:978-1-4503-6353-2)已经提交给ACM,很快将会被ACM Digital Lib rary收录,被Ei Compendex和Scopus检索。ICMLC2017ACM会议论文集(ISBN:978-1-4503-4817-1)已被 ACM Digital Library收录,已被Ei Compendex和Scopus检索。 会议主讲人: Prof.Tianrui Li,Southwest Jiaotong University,China Prof.David Greenhalgh,University of Strathclyde,UK Assoc.Prof.Lin Huang,Metropolitan State University of Denver,USA 投稿方式 1.全文(报告和出版): 2.摘要(仅报告)。 请登录网上投稿系统(https:/www.easychair.org/conferences/?conf=icmlc20l9)或直接发邮件到 icmle(@asr.org进行投稿。 联系方式 会议秘书:苗老师: 邮箱:icmlc@asr.org; 电话:+86-13258-11111-7
neural networks[J]. Computer science, 2016, 43(11A): 56–58, 87. 迟元峰, 顾敏. 基于深度学习的人体行为识别研究[J]. 工业控制计算机, 2017, 31(1): 104–105. CHI Yuanfeng, GU Min. Human action recognition based on deep learning[J]. Industrial control computer, 2017, 31(1): 104–105. [23] 朱煜, 赵江坤, 王逸宁, 等. 基于深度学习的人体行为识 别算法综述[J]. 自动化学报, 2016, 42(6): 848–857. ZHU Yu, ZHAO Jiangkun, WANG Yi’ning, et al. A review of human action recognition based on deep learning[J]. Acta automatica sinica, 2016, 42(6): 848–857. [24] SHRIVASTAVA A, GUPTA A, GIRSHICK R. Training region-based object detectors with online hard example mining[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA, 2016: 761–769. [25] 作者简介: 莫宏伟,主要研究方向为人工智 能、类脑计算、智能机器人。承担完成 国家自然科学基金、国防预研等项目 17 项。中国人工智能学会自然计算与 数字城市专业委员会副主任,黑龙江 省生物医学工程学会理事。中国生物 医学工程学会高级会员。中国计算机 学会高级会员。International Journal of Swarm Intelligence Research、《电子学报》编委。IEEE Tran on Industrial Informatics 2018 专刊《医疗卫生中的大数据处理》副主编。 发表学术论文 70 余篇。出版专著 6 部,授权发明专利 7 项。 汪海波,男,1990 年生,硕士研究 生,主要研究方向为深度学习。 2019 年第 11 届机器学习和计算国际会议 2019 11th International Conference on Machine Learning and Computing (ICMLC 2019) 会议网站:http://www.icmlc.org 2019 年 2 月 22-24 日 珠海 文章出版 被录用的文章将出版到 ACM 会议论文集,并提交 EI 核心检索,Scopus 检索。 ICMLC 2017 ACM 会议论文集(ISBN:978-1-4503-6353-2)已经提交给 ACM,很快将会被 ACM Digital Library 收录,被 Ei Compendex 和 Scopus 检索。 ICMLC 2017 ACM 会议论文集(ISBN:978-1-4503-4817-1)已被 ACM Digital Library 收录,已被 Ei Compendex 和 Scopus 检索。 会议主讲人: Prof. Tianrui Li, Southwest Jiaotong University, China Prof. David Greenhalgh, University of Strathclyde, UK Assoc. Prof. Lin Huang, Metropolitan State University of Denver, USA 投稿方式 1.全文 (报告和出版); 2.摘要 (仅报告)。 请登录网上投稿系统(https://www.easychair.org/conferences/?conf=icmlc2019)或直接发邮件到 icmlc@asr.org 进行投稿。 联系方式 会议秘书:苗老师; 邮箱:icmlc@asr.org; 电话:+86-13258-11111-7. 第 6 期 莫宏伟,等:基于 Faster R-CNN 的人体行为检测研究 ·973·