正在加载图片...
第4期 魏文戈,等:密集堆叠下的高相似度木块横截面检测 ·645· 选取距离目标位置最近的像素点而没有考虑空间 一次创建。为了减少计算量同时降低内存负载, 对称性。文献[4]中发现了这种算法可能在一定 本文将滑窗移动步长改进为2,候选框的数量因 范围内损失空间上的对称性,因此提出了o 此缩小到了原来的1/4,而检测精度并没有出现下 Align,具体表现在将最近邻插值替换为了更合 降。由于减少了候选框数量所带来的计算量降 理的双线性插值。 低,算法检测速度明显加快。在一块8GB显存的 考虑到具体的问题需求,通过仔细分析本文 显卡上,Wood R-CNN对输入大小为1024×1024 任务的数据集样本特性发现,由于木块密集堆 的木块横截面图片进行检测,检测速度相比改进 叠、木块横截面相似度高且边界不明显,因此木 前的模型平均提高了0.47fs。 块横截面检测得到的边界框必须具有很高的位置 2.4实现细节 精确度。因此,Wood R-CNN受文献[4]启发,改 2.4.1数据扩充 用RoIAlign结构以替代传统的RoIPooling结 由于公共网络上未提供开源的木块横截面数 构,保证了在池化感兴趣区域(Ro)的过程中不 据集,因此本文采用某木材厂提供的一批木块横 丢失位置对称信息,从而提高了模型算法的检测 截面拍摄图像作为数据集。但由于拍摄成本较 精度。 高,图像数据数量有限。深度卷积神经网络需要 2.3检测速度的提升 大量有效数据来驱动模型的正常训练,否则往往 直接使用现有的目标检测算法,由于结构的 会陷人过拟合的困境。通过仔细观察图像样本, 复杂性,会不可避免地存在检测速度慢的问题。 注意到木块横截面多为轮廓简单且形状方正的长 如何有效提升检测速度,是保证模型算法性能所 矩形,因此原图像经过翻转或抠取之后依然会符 需要克服的挑战。在Wood R-CNN中,通过简化 合该检测任务的常规数据特性。根据这一数据特 网络结构和改进特征金字塔网络,成功地提升了 性,本文采用了图像水平翻转、图像垂直翻转、图 模型算法的检测速度。 像水平垂直翻转、随机抠取和尺度变换等一系列 2.3.1网络结构的简化 数据扩充手段,成功地将图像样本数量扩充至原 考虑到本任务针对木块横截面进行检测,主 有数量的数倍,同时增加了训练样本的多样性。 要提取的特征为木块横截面的自然纹理、轮廓 不仅可以很好地降低过拟合风险,也使模型性能 等,属于比较低级的特征,因而并不需要太深的 得到一定程度上的提升。 网络结构去提取过于高级的目标特征。但同时太 2.4.2数据标记 浅的网络结构又无法满足该任务的高精度要求。 在标记过程中,通过标记工具记录图片中每 基于这些考量,选择了ResNet--50P作为Wood R- 个木块横截面实例4个角点的二维坐标并生成坐 CNN前半部分的卷积神经网络主体,主要任务是 标列表,由该表可以生成该图片中每个木块横截 进行图像的特征提取。相比ResNeXt-.l0121这种 面实例的边界框分布图。 更深的网络结构,ResNet-.502可以在保证检测精 2.4.3实际训练 度的同时,减少计算量和内存要求,并加快模型 在实际训练过程中,将木块横截面图像数据 在训练时的收敛速度。 集分为训练集、验证集及测试集,分配比例为 2.3.2特征金字塔网络的改进 8:1:I。由于该任务与Mask R-CNN的多目标检测 目标检测算法中,往往只在卷积结构提取的 任务具有一定的相似度,Wood R-CNN模型训练 最后一层特征图上生成候选区域,该设计易造成 采用在Mask R-CNN已收敛的成熟模型上做进 小尺度目标的漏检。而特征金字塔网络(FPN)2 步的迁移学习。学习率初始设置为0.002,经过 则在多层不同尺度的特征图上进行生成候选区域 10个训练周期降为0.0002,30个周期后结束 的操作,充分降低了对小目标的漏检率。考虑到 训练。 本任务图像样本中多为狭长形的小尺度目标,因 卷积神经网络输入原始图片,得到预测结果 此Wood R-CNN采用特征金字塔网络以生成候选 并与真实分布计算误差损失,对网络参数进行负 区域。但在研究中发现,该结构生成的候选框数 反馈调节,引导神经网络学习到对木块横截面的 量过多且过密,计算量较大,影响了检测速度。 特征提取能力和检测能力。 所以本文在特征金字塔网络(RPN)上进行了改进。 经过一定轮数训练,在最终的收敛模型上进 特征金字塔的最低层级相对于图像具有4像 行木块横截面检测的测试。测试结果表明Wood 素的跨度,因此候选框是每隔4个像素间隔进行 R-CNN模型在测试集上取得了较佳的木块横截选取距离目标位置最近的像素点而没有考虑空间 对称性。文献 [4] 中发现了这种算法可能在一定 范围内损失空间上的对称性,因此提出了 RoI￾Align[4] ,具体表现在将最近邻插值替换为了更合 理的双线性插值。 考虑到具体的问题需求,通过仔细分析本文 任务的数据集样本特性发现,由于木块密集堆 叠、木块横截面相似度高且边界不明显,因此木 块横截面检测得到的边界框必须具有很高的位置 精确度。因此,Wood R-CNN 受文献 [4] 启发,改 用 RoIAlign[4] 结构以替代传统的 RoIPooling[3] 结 构,保证了在池化感兴趣区域 (RoI) 的过程中不 丢失位置对称信息,从而提高了模型算法的检测 精度。 2.3 检测速度的提升 直接使用现有的目标检测算法,由于结构的 复杂性,会不可避免地存在检测速度慢的问题。 如何有效提升检测速度,是保证模型算法性能所 需要克服的挑战。在 Wood R-CNN 中,通过简化 网络结构和改进特征金字塔网络,成功地提升了 模型算法的检测速度。 2.3.1 网络结构的简化 考虑到本任务针对木块横截面进行检测,主 要提取的特征为木块横截面的自然纹理、轮廓 等,属于比较低级的特征,因而并不需要太深的 网络结构去提取过于高级的目标特征。但同时太 浅的网络结构又无法满足该任务的高精度要求。 基于这些考量,选择了 ResNet-50[25] 作为 Wood R￾CNN 前半部分的卷积神经网络主体,主要任务是 进行图像的特征提取。相比 ResNeXt-101[28] 这种 更深的网络结构,ResNet-50[25] 可以在保证检测精 度的同时,减少计算量和内存要求,并加快模型 在训练时的收敛速度。 2.3.2 特征金字塔网络的改进 目标检测算法中,往往只在卷积结构提取的 最后一层特征图上生成候选区域,该设计易造成 小尺度目标的漏检。而特征金字塔网络 (FPN)[26] 则在多层不同尺度的特征图上进行生成候选区域 的操作,充分降低了对小目标的漏检率。考虑到 本任务图像样本中多为狭长形的小尺度目标,因 此 Wood R-CNN 采用特征金字塔网络以生成候选 区域。但在研究中发现,该结构生成的候选框数 量过多且过密,计算量较大,影响了检测速度。 所以本文在特征金字塔网络 (RPN) 上进行了改进。 特征金字塔的最低层级相对于图像具有 4 像 素的跨度,因此候选框是每隔 4 个像素间隔进行 一次创建。为了减少计算量同时降低内存负载, 本文将滑窗移动步长改进为 2,候选框的数量因 此缩小到了原来的 1/4,而检测精度并没有出现下 降。由于减少了候选框数量所带来的计算量降 低,算法检测速度明显加快。在一块 8 GB 显存的 显卡上,Wood R-CNN 对输入大小为 1 024×1 024 的木块横截面图片进行检测,检测速度相比改进 前的模型平均提高了 0.47 f/s。 2.4 实现细节 2.4.1 数据扩充 由于公共网络上未提供开源的木块横截面数 据集,因此本文采用某木材厂提供的一批木块横 截面拍摄图像作为数据集。但由于拍摄成本较 高,图像数据数量有限。深度卷积神经网络需要 大量有效数据来驱动模型的正常训练,否则往往 会陷入过拟合的困境。通过仔细观察图像样本, 注意到木块横截面多为轮廓简单且形状方正的长 矩形,因此原图像经过翻转或抠取之后依然会符 合该检测任务的常规数据特性。根据这一数据特 性,本文采用了图像水平翻转、图像垂直翻转、图 像水平垂直翻转、随机抠取和尺度变换等一系列 数据扩充手段,成功地将图像样本数量扩充至原 有数量的数倍,同时增加了训练样本的多样性。 不仅可以很好地降低过拟合风险,也使模型性能 得到一定程度上的提升。 2.4.2 数据标记 在标记过程中,通过标记工具记录图片中每 个木块横截面实例 4 个角点的二维坐标并生成坐 标列表,由该表可以生成该图片中每个木块横截 面实例的边界框分布图。 2.4.3 实际训练 在实际训练过程中,将木块横截面图像数据 集分为训练集、验证集及测试集,分配比例为 8:1:1。由于该任务与 Mask R-CNN 的多目标检测 任务具有一定的相似度,Wood R-CNN 模型训练 采用在 Mask R-CNN 已收敛的成熟模型上做进一 步的迁移学习。学习率初始设置为 0.002,经过 10 个训练周期降为 0.000 2,30 个周期后结束 训练。 卷积神经网络输入原始图片,得到预测结果 并与真实分布计算误差损失,对网络参数进行负 反馈调节,引导神经网络学习到对木块横截面的 特征提取能力和检测能力。 经过一定轮数训练,在最终的收敛模型上进 行木块横截面检测的测试。测试结果表明 Wood R-CNN 模型在测试集上取得了较佳的木块横截 第 4 期 魏文戈,等:密集堆叠下的高相似度木块横截面检测 ·645·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有