正在加载图片...
·700· 智能系统学报 第15卷 3×3卷积 3×3卷积 3×3卷积 分类分支 2×2最大池化 1×1×2 输入图像大小 12×12×3 5×5×8 3×3×16 1×1×32 边框回归分支 Stage-1 1XI×4 3×3卷积 3×3卷积3×3卷积3×3卷积 2×2最大池化 2×2最大池化 分类分支 1×1×2 输入图像大小 24×24×3 11×11×16 4×4×32 3×3×641×1×128 边框回归分支 Stage-2 1×1×4 图3网络结构 Fig.3 Network structure 3.2网络具体结构 为l5.9万,RetinaNet大约产生12万个),为了减 P-Net该网络负责对目标进行粗略定位。 少计算量,在进行第一次NMS的时候,只选择置 为了使网络能够应对不同尺寸的输入图像,P 信度最高的1.2万个候选区域作为输入,在输出 Net采用了全卷积神经网络的设计,并且由于只 时只保留置信度最高的6000个候选区域。而在 包含4个卷积层,网络的参数量也非常小。 第2次NMS时,选择置信度最高的1万个候选 给定一张图片,推理时首先需要对图像建立 区域作为输入,只保留置信度最高的2000的候 图像金字塔,金字塔的每一层都会作为P-Net的 选区域。 输入并得到相应的特征图。由图3可知,一个 R-Net上一个阶段输出的所有候选区域将 12像素×12像素的区域经过3层卷积后尺寸变为 会作为R-Net的输入,同样经过分类和边框回归 1×1。因此,一张输人为H×W的图片经过3层卷 2个分支输出结果,得到置信度和偏移量,筛除置 积后得到大小为1,10 2 像素x/W-10 信度较低的边框并根据偏移量调整边框,最终通 2 像素的 过NMS输出检测结果。 特征图,特征图上的每一点对应输入图像上的一 由于R-Net含有全连接层,其输入图像大小 个12像素×12像素的区域。该特征图进一步送 必须是固定的,因此必须在输入前将窗口全部调 入两个并行的1×1的卷积得到分类和边框回归结 整至24像素x24像素。本文采用了各向异性、各 果。分类分支得到的特征图上的每一点代表了对 向同性、Rol Pooling、Rol Align等4种方法进 应区域包含飞机的置信度,回归分支的每一点代 行比较。各向异性方法将候选区域的宽和高分别 表了对应区域的偏移量。根据输入图像的大小和 缩放到24像素,各向同性方法则首先用0将候选 缩放尺度可以计算得到所有候选框,去除置信度 区域填充成正方形,然后再缩放到24像素x24像 较低的区域并利用偏移量对候选框的位置进行调 素,缩放前后候选框区域的宽高比保持不变。RoI 整,然后通过非极大值抑制(non-maximum sup- Pooling是Fast R-CNN中提出的一种池化方法,可 pression,NMS)减少冗余。由于P-Net的输入图像 以将任意大小的区域池化成固定尺寸。RoI Align 是测试图像经过多尺度变换得到的,输入图像上 利用双线性插值法对RoI Pooling进行了改进,使 的12像素×12像素区域会对应测试图像上不同 得池化过程中的位置信息损失更少。实验结果表 大小的区域,从而保证PNt可以产生不同大小的候选 明RoI Align表现最好。 区域。 3.3P-Net和R-Net的训练策略 最后,对每一层输出的候选框取并集然后再 在每个阶段的训练中都要考虑分类和边框回 次进行NMS来抑制重复的检测。由于P-Net所 归2个任务。 生成的锚框数量非常大(一张800像素x800像素 分类对于飞机检测,该任务是一个二分类 的图像会产生大约32.2万个错框,而采用ResNet+- 问题,因此本文使用交叉嫡损失函数,对每个样 FPN结构的Faster R-CNN产生的锚框数量大约 本x,损失为输入图像大小 12×12×3 5×5×8 3×3×16 1×1×32 1×1×2 1×1×4 1×1×2 1×1×4 分类分支 边框回归分支 3×3 卷积 3×3 卷积 3×3 卷积 3×3 卷积 2×2 最大池化 2×2 最大池化 3×3 卷积 3×3 卷积 3×3 卷积 2×2 最大池化 输入图像大小 24×24×3 11×11×16 4×4×32 3×3×64 分类分支 1×1×128 边框回归分支 Stage-1 Stage-2 图 3 网络结构 Fig. 3 Network structure 3.2 网络具体结构 P-Net 该网络负责对目标进行粗略定位。 为了使网络能够应对不同尺寸的输入图像,P￾Net 采用了全卷积神经网络的设计,并且由于只 包含 4 个卷积层,网络的参数量也非常小。 ⌊ H −10 2 ⌋ × ⌊ W −10 2 ⌋ × 给定一张图片,推理时首先需要对图像建立 图像金字塔,金字塔的每一层都会作为 P-Net 的 输入并得到相应的特征图。由图 3 可知,一个 12 像素×12 像素的区域经过 3 层卷积后尺寸变为 1×1。因此,一张输入为 H×W 的图片经过 3 层卷 积后得到大小为 像素 像素的 特征图,特征图上的每一点对应输入图像上的一 个 12 像素×12 像素的区域。该特征图进一步送 入两个并行的 1×1 的卷积得到分类和边框回归结 果。分类分支得到的特征图上的每一点代表了对 应区域包含飞机的置信度,回归分支的每一点代 表了对应区域的偏移量。根据输入图像的大小和 缩放尺度可以计算得到所有候选框,去除置信度 较低的区域并利用偏移量对候选框的位置进行调 整,然后通过非极大值抑制 (non-maximum sup￾pression, NMS) 减少冗余。由于 P-Net 的输入图像 是测试图像经过多尺度变换得到的,输入图像上 的 12 像素 12 像素区域会对应测试图像上不同 大小的区域,从而保证P-Net可以产生不同大小的候选 区域。 × 最后,对每一层输出的候选框取并集然后再 次进行 NMS 来抑制重复的检测。由于 P-Net 所 生成的锚框数量非常大 (一张 800 像素 800 像素 的图像会产生大约 32.2 万个锚框,而采用 ResNet+ FPN 结构的 Faster R-CNN 产生的锚框数量大约 为 15.9 万,RetinaNet 大约产生 12 万个),为了减 少计算量,在进行第一次 NMS 的时候,只选择置 信度最高的 1.2 万个候选区域作为输入,在输出 时只保留置信度最高的 6 000 个候选区域。而在 第 2 次 NMS 时,选择置信度最高的 1 万个候选 区域作为输入,只保留置信度最高的 2 000 的候 选区域。 R-Net 上一个阶段输出的所有候选区域将 会作为 R-Net 的输入,同样经过分类和边框回归 2 个分支输出结果,得到置信度和偏移量,筛除置 信度较低的边框并根据偏移量调整边框,最终通 过 NMS 输出检测结果。 × × 由于 R-Net 含有全连接层,其输入图像大小 必须是固定的,因此必须在输入前将窗口全部调 整至 24 像素 24 像素。本文采用了各向异性、各 向同性、RoI Pooling[14] 、RoI Align[25] 等 4 种方法进 行比较。各向异性方法将候选区域的宽和高分别 缩放到 24 像素,各向同性方法则首先用 0 将候选 区域填充成正方形,然后再缩放到 24 像素 24 像 素,缩放前后候选框区域的宽高比保持不变。RoI Pooling 是 Fast R-CNN 中提出的一种池化方法,可 以将任意大小的区域池化成固定尺寸。RoI Align 利用双线性插值法对 RoI Pooling 进行了改进,使 得池化过程中的位置信息损失更少。实验结果表 明 RoI Align 表现最好。 3.3 P-Net 和 R-Net 的训练策略 在每个阶段的训练中都要考虑分类和边框回 归 2 个任务。 xi 分类 对于飞机检测,该任务是一个二分类 问题,因此本文使用交叉熵损失函数,对每个样 本 ,损失为 ·700· 智 能 系 统 学 报 第 15 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有