输入图像大小 12×12×3 5×5_中国高校课件下载中心

正在加载图片...

·700· 智能系统学报第15卷 3×3卷积 3×3卷积 3×3卷积分类分支 2×2最大池化 1×1×2 输入图像大小 12×12×3 5×5×8 3×3×16 1×1×32 边框回归分支 Stage-1 1XI×4 3×3卷积 3×3卷积3×3卷积3×3卷积 2×2最大池化 2×2最大池化分类分支 1×1×2 输入图像大小 24×24×3 11×11×16 4×4×32 3×3×641×1×128 边框回归分支 Stage-2 1×1×4 图3网络结构 Fig.3 Network structure 3.2网络具体结构为l5.9万，RetinaNet大约产生12万个)，为了减 P-Net该网络负责对目标进行粗略定位。少计算量，在进行第一次NMS的时候，只选择置为了使网络能够应对不同尺寸的输入图像，P 信度最高的1.2万个候选区域作为输入，在输出 Net采用了全卷积神经网络的设计，并且由于只时只保留置信度最高的6000个候选区域。而在包含4个卷积层，网络的参数量也非常小。第2次NMS时，选择置信度最高的1万个候选给定一张图片，推理时首先需要对图像建立区域作为输入，只保留置信度最高的2000的候图像金字塔，金字塔的每一层都会作为P-Net的选区域。输入并得到相应的特征图。由图3可知，一个 R-Net上一个阶段输出的所有候选区域将 12像素×12像素的区域经过3层卷积后尺寸变为会作为R-Net的输入，同样经过分类和边框回归 1×1。因此，一张输人为H×W的图片经过3层卷 2个分支输出结果，得到置信度和偏移量，筛除置积后得到大小为1,10 2 像素x/W-10 信度较低的边框并根据偏移量调整边框，最终通 2 像素的过NMS输出检测结果。特征图，特征图上的每一点对应输入图像上的一由于R-Net含有全连接层，其输入图像大小个12像素×12像素的区域。该特征图进一步送必须是固定的，因此必须在输入前将窗口全部调入两个并行的1×1的卷积得到分类和边框回归结整至24像素x24像素。本文采用了各向异性、各果。分类分支得到的特征图上的每一点代表了对向同性、Rol Pooling、Rol Align等4种方法进应区域包含飞机的置信度，回归分支的每一点代行比较。各向异性方法将候选区域的宽和高分别表了对应区域的偏移量。根据输入图像的大小和缩放到24像素，各向同性方法则首先用0将候选缩放尺度可以计算得到所有候选框，去除置信度区域填充成正方形，然后再缩放到24像素x24像较低的区域并利用偏移量对候选框的位置进行调素，缩放前后候选框区域的宽高比保持不变。RoI 整，然后通过非极大值抑制(non-maximum sup- Pooling是Fast R-CNN中提出的一种池化方法，可 pression,NMS)减少冗余。由于P-Net的输入图像以将任意大小的区域池化成固定尺寸。RoI Align 是测试图像经过多尺度变换得到的，输入图像上利用双线性插值法对RoI Pooling进行了改进，使的12像素×12像素区域会对应测试图像上不同得池化过程中的位置信息损失更少。实验结果表大小的区域，从而保证PNt可以产生不同大小的候选明RoI Align表现最好。区域。 3.3P-Net和R-Net的训练策略最后，对每一层输出的候选框取并集然后再在每个阶段的训练中都要考虑分类和边框回次进行NMS来抑制重复的检测。由于P-Net所归2个任务。生成的锚框数量非常大（一张800像素x800像素分类对于飞机检测，该任务是一个二分类的图像会产生大约32.2万个错框，而采用ResNet+- 问题，因此本文使用交叉嫡损失函数，对每个样 FPN结构的Faster R-CNN产生的锚框数量大约本x,损失为输入图像大小 12×12×3 5×5×8 3×3×16 1×1×32 1×1×2 1×1×4 1×1×2 1×1×4 分类分支边框回归分支 3×3 卷积 3×3 卷积 3×3 卷积 3×3 卷积 2×2 最大池化 2×2 最大池化 3×3 卷积 3×3 卷积 3×3 卷积 2×2 最大池化输入图像大小 24×24×3 11×11×16 4×4×32 3×3×64 分类分支 1×1×128 边框回归分支 Stage-1 Stage-2 图 3 网络结构 Fig. 3 Network structure 3.2 网络具体结构 P-Net 该网络负责对目标进行粗略定位。为了使网络能够应对不同尺寸的输入图像，PNet 采用了全卷积神经网络的设计，并且由于只包含 4 个卷积层，网络的参数量也非常小。 ⌊ H −10 2 ⌋ × ⌊ W −10 2 ⌋ × 给定一张图片，推理时首先需要对图像建立图像金字塔，金字塔的每一层都会作为 P-Net 的输入并得到相应的特征图。由图 3 可知，一个 12 像素×12 像素的区域经过 3 层卷积后尺寸变为 1×1。因此，一张输入为 H×W 的图片经过 3 层卷积后得到大小为像素像素的特征图，特征图上的每一点对应输入图像上的一个 12 像素×12 像素的区域。该特征图进一步送入两个并行的 1×1 的卷积得到分类和边框回归结果。分类分支得到的特征图上的每一点代表了对应区域包含飞机的置信度，回归分支的每一点代表了对应区域的偏移量。根据输入图像的大小和缩放尺度可以计算得到所有候选框，去除置信度较低的区域并利用偏移量对候选框的位置进行调整，然后通过非极大值抑制 (non-maximum suppression, NMS) 减少冗余。由于 P-Net 的输入图像是测试图像经过多尺度变换得到的，输入图像上的 12 像素 12 像素区域会对应测试图像上不同大小的区域，从而保证P-Net可以产生不同大小的候选区域。 × 最后，对每一层输出的候选框取并集然后再次进行 NMS 来抑制重复的检测。由于 P-Net 所生成的锚框数量非常大 (一张 800 像素 800 像素的图像会产生大约 32.2 万个锚框，而采用 ResNet+ FPN 结构的 Faster R-CNN 产生的锚框数量大约为 15.9 万，RetinaNet 大约产生 12 万个)，为了减少计算量，在进行第一次 NMS 的时候，只选择置信度最高的 1.2 万个候选区域作为输入，在输出时只保留置信度最高的 6 000 个候选区域。而在第 2 次 NMS 时，选择置信度最高的 1 万个候选区域作为输入，只保留置信度最高的 2 000 的候选区域。 R-Net 上一个阶段输出的所有候选区域将会作为 R-Net 的输入，同样经过分类和边框回归 2 个分支输出结果，得到置信度和偏移量，筛除置信度较低的边框并根据偏移量调整边框，最终通过 NMS 输出检测结果。 × × 由于 R-Net 含有全连接层，其输入图像大小必须是固定的，因此必须在输入前将窗口全部调整至 24 像素 24 像素。本文采用了各向异性、各向同性、RoI Pooling[14] 、RoI Align[25] 等 4 种方法进行比较。各向异性方法将候选区域的宽和高分别缩放到 24 像素，各向同性方法则首先用 0 将候选区域填充成正方形，然后再缩放到 24 像素 24 像素，缩放前后候选框区域的宽高比保持不变。RoI Pooling 是 Fast R-CNN 中提出的一种池化方法，可以将任意大小的区域池化成固定尺寸。RoI Align 利用双线性插值法对 RoI Pooling 进行了改进，使得池化过程中的位置信息损失更少。实验结果表明 RoI Align 表现最好。 3.3 P-Net 和 R-Net 的训练策略在每个阶段的训练中都要考虑分类和边框回归 2 个任务。 xi 分类对于飞机检测，该任务是一个二分类问题，因此本文使用交叉熵损失函数，对每个样本，损失为 ·700· 智能系统学报第 15 卷

<<向上翻页向下翻页>>

点击下载：【机器学习】一种基于级联神经网络的飞机检测方法