正在加载图片...
第6期 莫宏伟,等:基于Faster R-CNN的人体行为检测研究 ·969· 一种以动作检索表为主要依据的识别方法,该方 算法与Fast R-CNN进行结合使检测算法得到了 法提出了将动作信息分割成5个片段,然后针对 一定程度的提升,所以在理论上将OHEM算法与 各片段执行聚类操作和映射操作等,每种动作的 Faster R-CNN算法进行结合,可以进一步提高 检测任务都需要经过全局检索对比和类型匹配等 Faster R-CNN的检测效果。 操作来完成。申晓霞等2提出了基于深度图和 简单来说,OHEM算法就是从RoI中选择难 RGB图像的行为描述算法,并将其应用到了人体 例,而不是简单的采用。难例挖掘一般需要迭代 行为检测领域;王忠民等2将卷积神经网络应用 地进行模型的训练和用模型寻找难例,这些难例 于人体行为检测中,在应用中将经过简单处理的 无非就是那些分错了并且置信度还很高的样本, 原始数据直接作为卷积神经网络的输入,然后由 这要是放在网络里面,这个样本对应的训练损失 卷积神经网络进行特征获取,再将得到的特征交 就应该很大,因此一个基本思路是利用网络训练 由分类器执行分类操作,该方法对测试人员的行 损失找到这些难例,具体方法如下: 为识别正确率达到了84.8%,验证了算法的有效性: 1)对于一张输入图像,首先利用卷积网络计 迟元峰等2通过对卷积神经网络和循环神经网络 算出特征图。 结构的研究分析,提出了一种新的深度神经网络 2)RoI网络利用1)中计算好的特征图和 结构用于检测视频中的人体行为,实验结果表现 RPN网络得到的RoI进行一次前向传播,最后的 出了该方法应用在人体行为检测方面所取得的良 Ioss表示Rol网络对这个RoI检测的好坏程度,将 好效果;朱煜等2对近年来人体行为检测方法出 每一个RoI对应的Ioss进行排序,取前面B/W个 现的新进展进行了分析总结和算法综述。 RoI进行反向传播。 2改进Faster R-CNN算法 3)因为在同一张图中的Ro很多之间相互重 叠,如果一个RoI是难例,那么和它重叠较大的 BN层的基本思想很直观:BN就是通过一定 RoI很大程度上也是难例,这样在反向传播的时 的规范化手段,把每层神经网络任意神经元输入 候就进行了一次重复的梯度计算。为了避免这种 值的分布强行拉回到均值为0,方差为1的标准 情况,首先根据损失大小进行排序,然后进行非 正态分布,这样可以大大加快训练速度,同时避 极大值抑制,最后再选择BW个RoI进行反向传 免了因参数变化而导致的梯度消失的问题。 播,实验中,非极大值抑制的阈值选取0.7。 如果说批量规范化算法是在网络的结构上对 4)提出的在线难例挖掘算法主要是通过两 算法进行优化,那么在线难例挖掘(online-hard-ex- 个RoI网络实现的:只读RoI网络(图1上部分所 ample-mining,OHEM)2算法则关注如何利用现有 示)和标准RoI网络(图1下部分所示),只读的 的样本对网络进行更有效的训练。 RoI网络进行前向传播并计算出所有的RoI的损 在Fast R-CNN算法中提出的mini-batch用来 失;之后标准RoI样本挖掘模块进行样本挖掘,得 进行随机梯度下降时并不具有高效和最优的状 到困难样本并输入到只读RoI网络中,网络只读 态,而OHEM算法可以取得更低的训练损失和更 困难样本进行前向和后向传播,计算梯度并传播 高的平均类别和位置精度(mAP)。最初的OHEM 到卷积神经网络。 Rol池化层 Rol网络 只读候选框层 卷积网络 oftmax 输入图像 rpn 全连接层 Harl Rol sampler 建议框-2000 bbdx回归 oftmax 全连接层 bbox回归 图1 Faster_.RCNN_OHEM算法原理图 Fig.1 Faster R_CNN_OHEM algorithm schematic 在改进算法中,首先使用更深的预训练模型 BN算法对输入样本和隐藏层中的每个输入都进 ResNet进行参数初始化和特征提取。其次使用 行批量规范化处理,以允许网络使用较大的学习一种以动作检索表为主要依据的识别方法,该方 法提出了将动作信息分割成 5 个片段,然后针对 各片段执行聚类操作和映射操作等,每种动作的 检测任务都需要经过全局检索对比和类型匹配等 操作来完成。申晓霞等[21]提出了基于深度图和 RGB 图像的行为描述算法,并将其应用到了人体 行为检测领域;王忠民等[22]将卷积神经网络应用 于人体行为检测中,在应用中将经过简单处理的 原始数据直接作为卷积神经网络的输入,然后由 卷积神经网络进行特征获取,再将得到的特征交 由分类器执行分类操作,该方法对测试人员的行 为识别正确率达到了 84.8%,验证了算法的有效性; 迟元峰等[23]通过对卷积神经网络和循环神经网络 结构的研究分析,提出了一种新的深度神经网络 结构用于检测视频中的人体行为,实验结果表现 出了该方法应用在人体行为检测方面所取得的良 好效果;朱煜等[24]对近年来人体行为检测方法出 现的新进展进行了分析总结和算法综述。 2 改进 Faster R-CNN 算法 BN 层的基本思想很直观:BN 就是通过一定 的规范化手段,把每层神经网络任意神经元输入 值的分布强行拉回到均值为 0,方差为 1 的标准 正态分布,这样可以大大加快训练速度,同时避 免了因参数变化而导致的梯度消失的问题。 如果说批量规范化算法是在网络的结构上对 算法进行优化,那么在线难例挖掘 (online-hard-ex￾ample-mining,OHEM)[25]算法则关注如何利用现有 的样本对网络进行更有效的训练。 在 Fast R-CNN 算法中提出的 mini-batch 用来 进行随机梯度下降时并不具有高效和最优的状 态,而 OHEM 算法可以取得更低的训练损失和更 高的平均类别和位置精度 (mAP)。最初的 OHEM 算法与 Fast R-CNN 进行结合使检测算法得到了 一定程度的提升,所以在理论上将 OHEM 算法与 Faster R-CNN 算法进行结合,可以进一步提高 Faster R-CNN 的检测效果。 简单来说,OHEM 算法就是从 RoI 中选择难 例,而不是简单的采用。难例挖掘一般需要迭代 地进行模型的训练和用模型寻找难例,这些难例 无非就是那些分错了并且置信度还很高的样本, 这要是放在网络里面,这个样本对应的训练损失 就应该很大,因此一个基本思路是利用网络训练 损失找到这些难例,具体方法如下: 1) 对于一张输入图像,首先利用卷积网络计 算出特征图。 2)Ro I 网络利 用 1 ) 中计算好的特征图 和 RPN 网络得到的 RoI 进行一次前向传播,最后的 loss 表示 RoI 网络对这个 RoI 检测的好坏程度,将 每一个 RoI 对应的 loss 进行排序,取前面 B/N 个 RoI 进行反向传播。 3) 因为在同一张图中的 RoI 很多之间相互重 叠,如果一个 RoI 是难例,那么和它重叠较大的 RoI 很大程度上也是难例,这样在反向传播的时 候就进行了一次重复的梯度计算。为了避免这种 情况,首先根据损失大小进行排序,然后进行非 极大值抑制,最后再选择 B/N 个 RoI 进行反向传 播,实验中,非极大值抑制的阈值选取 0.7。 4) 提出的在线难例挖掘算法主要是通过两 个 RoI 网络实现的:只读 RoI 网络 (图 1 上部分所 示) 和标准 RoI 网络 (图 1 下部分所示),只读的 RoI 网络进行前向传播并计算出所有的 RoI 的损 失;之后标准 RoI 样本挖掘模块进行样本挖掘,得 到困难样本并输入到只读 RoI 网络中,网络只读 困难样本进行前向和后向传播,计算梯度并传播 到卷积神经网络。 在改进算法中,首先使用更深的预训练模型 ResNet 进行参数初始化和特征提取。其次使用 BN 算法对输入样本和隐藏层中的每个输入都进 行批量规范化处理,以允许网络使用较大的学习 输入图像 卷积网络 RoI 池化层 RoI 网络 全连接层 只读候选框层 bbox 回归 bbox 回归 softmax softmax 全连接层 rpn Harl Rol sampler 建议框-2 000 图 1 Faster_RCNN_OHEM 算法原理图 Fig. 1 Faster R_CNN_OHEM algorithm schematic 第 6 期 莫宏伟,等:基于 Faster R-CNN 的人体行为检测研究 ·969·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有