正在加载图片...
第4期 刘召,等:基于改进的Faster R-CNN高压线缆目标检测方法 ·629· 1.1卷积神经网络 换为一个统一的256维的特征向量,这个特征对 卷积神经网络(convolutional neural networks, 应着两部分的输出。一部分表示该“锚”的候选框 CNN)是一类包含卷积计算且具有深度结构的前 中包含物体的概率,每个框对应着两个输出:是 馈神经网络,是深度学习中最具代表性的网络结 物体的概率和不是物体的概率,所以其总的输 构之一。传统的CNN网络一般包括卷积层、池 出长度为2k。另一部分表示框回归,每个框对 化层和全连接层,随着网络层数的加深逐层提取 应4个框回归参数,因此该部分总输出的长度 图像的特征。一个典型是CNN结构如图2所示。 为4k。 类别:2k 包围框:4k 256d 图像卷积层池化层 全连接层 输出类别 图2CNN的一般结构框架 滑动窗口:3×3 Fig.2 General structure of CNN 卷积特征 1.2区域候选网络 图4“锚”与网络输出的对应关系 一般的目标检测方法都是使用选择性搜索来 Fig.4 Corresponding relation between frame and net- work output 获取候选区域,但这种方法不仅耗时且准确率不 1.3 高,因此考虑用一个卷积神经网络来进行候选区 Fast R-CNN目标检测结构 Fast R-CNN网络将特征提取和区域分类两个 域的提取,这也就是RPN网络的核心思想。 RPN的网络结构如图3所示。在RPN网络 步骤融合在一个卷积神经网络中,不同于之前的 之前会用一个卷积神经网络对需要检测的图像进 方法是提取完每个区域的特征之后,再以传统的 行特征提取,这个前置的CNN提取的特征维度为 SVM作为分类器。这样Fast R-CNN就可以同时 51×39×256。对该特征图谱再进行一次卷积操 进行特征提取网络和分类网络的训练,从而获得 作,保持维度不变,同样得到一个51×39×256维 更高的准确度,其网络结构如图5。 度的特征图谱。为了便于下文叙述,先定义一个 分类一 框回归 卷积层 “锚”的概念:对于这个维度为51×39×256的卷积 ROI 特征图谱,认为其一共有51×39个“错”。让该卷 池 积特征图谱的每个“锚”都对原图中对应位置上 9种尺寸的候选框进行检测,检测的目标是判断 ROI 候选框中是否包含一种物体,因此共有51×39×9 特征图谱 特征向量 个候选检测框。这每个“锚”对应的9个候选框的 图5 Fast R-CNN网络结构 面积分别为1282、256、5122。每种面积又分为 Fig.5 Fast R-CNN networks structure 3种长宽比,分别为2:1、1:2、1:1。 对于待检测图像中的候选区域,将它映射到 图像 卷积层+ 前置CNN所提取的卷积特征图谱中对应的区域, 3×640×480 激活层 类别 即图5中的感兴趣区域映射,这样操作是因为卷 特征图谱 积特征图谱实际上和原始图像在位置上存在一定 特征提取层 特征图谱 包围框 51×39×256 51×39×256 的对应关系,即待检测图像中的候选区域是对应 图3RPN网络结构 在卷积特征图谱中相同的位置。然后使用 Fig.3 RPN networks structure ROI池化层对该区域再进行特征提取,如图6所 对于这51×39个“锚”和51×39×9个检测框, 示。ROI池化层对于不同尺寸大小的输入图像都 每个“锚”的计算步骤如图4所示。其中,k为单 能得到一个固定维度的输出向量。一般的卷积神 个“锚”对应的候选框的个数,此时k=9。使用一 经网络的输入需要固定尺寸的图像,而候选区域 个3×3的窗口在特征图谱上滑动,将每个“锚”转 的尺寸是大小不一的。如果先将不同尺寸的区域1.1 卷积神经网络 卷积神经网络 (convolutional neural networks, CNN) 是一类包含卷积计算且具有深度结构的前 馈神经网络,是深度学习中最具代表性的网络结 构之一。传统的 CNN 网络一般包括卷积层、池 化层和全连接层,随着网络层数的加深逐层提取 图像的特征。一个典型是 CNN 结构如图 2 所示。 图像 卷积层 池化层 全连接层 输出类别 图 2 CNN 的一般结构框架 Fig. 2 General structure of CNN 1.2 区域候选网络 一般的目标检测方法都是使用选择性搜索来 获取候选区域,但这种方法不仅耗时且准确率不 高,因此考虑用一个卷积神经网络来进行候选区 域的提取,这也就是 RPN 网络的核心思想。 51×39×256 51×39×256 51×39×256 51×39 51×39×9 1282 2562 5122 2 : 1 1 : 2 1 : 1 RPN 的网络结构如图 3 所示。在 RPN 网络 之前会用一个卷积神经网络对需要检测的图像进 行特征提取,这个前置的 CNN 提取的特征维度为 。对该特征图谱再进行一次卷积操 作,保持维度不变,同样得到一个 维 度的特征图谱。为了便于下文叙述,先定义一个 “锚”的概念:对于这个维度为 的卷积 特征图谱,认为其一共有 个“锚”。让该卷 积特征图谱的每个“锚”都对原图中对应位置上 9 种尺寸的候选框进行检测,检测的目标是判断 候选框中是否包含一种物体,因此共有 个候选检测框。这每个“锚”对应的 9 个候选框的 面积分别为 、 、 。每种面积又分为 3 种长宽比,分别为 、 、 。 特征提取层 卷积层+ 激活层 类别 包围框 图像 3×640×480 特征图谱 51×39×256 特征图谱 51×39×256 图 3 RPN 网络结构 Fig. 3 RPN networks structure 51×39 51×39×9 k = 9 3×3 对于这 个“锚”和 个检测框, 每个“锚”的计算步骤如图 4 所示。其中,k 为单 个“锚”对应的候选框的个数,此时 。使用一 个 的窗口在特征图谱上滑动,将每个“锚”转 2k 4k 换为一个统一的 256 维的特征向量,这个特征对 应着两部分的输出。一部分表示该“锚”的候选框 中包含物体的概率,每个框对应着两个输出:是 物体的概率和不是物体的概率,所以其总的输 出长度为 。另一部分表示框回归,每个框对 应 4 个框回归参数,因此该部分总输出的长度 为 。 256 d 类别:2k 滑动窗口:3×3 包围框:4k 卷积特征 图 4 “锚”与网络输出的对应关系 Fig. 4 Corresponding relation between frame and net￾work output 1.3 Fast R-CNN 目标检测结构 Fast R-CNN 网络将特征提取和区域分类两个 步骤融合在一个卷积神经网络中,不同于之前的 方法是提取完每个区域的特征之后,再以传统的 SVM 作为分类器。这样 Fast R-CNN 就可以同时 进行特征提取网络和分类网络的训练,从而获得 更高的准确度,其网络结构如图 5。 卷积层 特征图谱 分类 框回归 ROI 映射 ROI 池化 ROI 特征向量 图 5 Fast R-CNN 网络结构 Fig. 5 Fast R-CNN networks structure 对于待检测图像中的候选区域,将它映射到 前置 CNN 所提取的卷积特征图谱中对应的区域, 即图 5 中的感兴趣区域映射,这样操作是因为卷 积特征图谱实际上和原始图像在位置上存在一定 的对应关系,即待检测图像中的候选区域是对应 在卷积特征图谱中相同的位置。然后使 用 ROI 池化层对该区域再进行特征提取,如图 6 所 示。ROI 池化层对于不同尺寸大小的输入图像都 能得到一个固定维度的输出向量。一般的卷积神 经网络的输入需要固定尺寸的图像,而候选区域 的尺寸是大小不一的。如果先将不同尺寸的区域 第 4 期 刘召,等:基于改进的 Faster R-CNN 高压线缆目标检测方法 ·629·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有