正在加载图片...
ResNeSt模块在外层设计上保留了ResNet的跳跃映射连接,延续ResNeXt!2o分组卷积的思想, 使用了基数的概念,按照基数的设置,将ResNeSt模块输入按通道拆分成k份输送到k个相同的网 络结构,每个网络结构被称作一个是Cardinal。分组卷积的显著优势就是使用少量的参数量和运算 量生成更多的特征图,更多的特征图就可以编码更多的特征信息。所以ResNeSt模块外层设计使得 ResNeSt相比于其他ResNet变体22,能够在不明显增加参数量级的情况下提升了模型的准确率。 每个Cardinal的内部结构如图2(b)所示,结构设计主要借鉴了SENetP2中的基于通道注意力机 制的思想和SKNt2四中的基于特征图注意力机制思想,能够学习出不同特征图之间重要程度以及特 征图不同通道之间的重要程度,利于获取更加有效的信息。ResNeSt模块每个Cardinal的大致结构类 似于SKNt注意力机制模块,不同之处在于每个分支使用相同尺寸的卷积核,便于外层分组卷积的 模块化。 故本文利用ResNeSt对原始YOLCAT网络中的主干网络进行改进,使用ResNeSt101代替 ResNet11Ol嵌入到YOLACT网络,并与YOLACT的特征金字塔结构进行对援提取出ResNeSt101 每个阶段的最后一个ResNeSt模块的输出,选中感受野分别为91、811、97个般 是特征图(分别对 应图1中的C3、C4、C5)输送到特征金字塔结构参与后续运算。 1.2原型模板生成模块 原型模板生成模块分支是YOLACT生成语义分割模板的分支,用来实现像素级别的分类任务, 原型模板生成模块分支的作用并不是直接生成最终的像素分类模板而是生成一系列原型模板,在 后续阶段用于组合生成整幅图最终的分割模板。原型模板生成模块的闷络结构基于FCN4设计,以 550*550的输入图像为例的原型模板生成模块网络结构如图所示,接收主干网络获取的感受野为 91的特征图作为输入,首先不改变特征图尺寸和通道数莲续使用了3个3*3步长为1的卷积层,然 后利用双线性插值的方式进行了上采样,使得特征尺纣达到原图尺寸的1/4,这样做提高了后续 生成原型模板的分辨率,也就提高了分割模板整体的质量以及对于小目标的分割精度,保持当前尺 寸紧接着通过两个卷积层获得一个k通道的输出,输出中的每一个通道就是一个原型模板。 用稿德 图3原型模板生成模块 Fig.3 Prototype mask generation module 1.3 目标检测模块 目标检测分支以主干网络生成的所有尺寸的特征图作为输入,每个尺寸的特征图都通过相同的 网络结构进行处理,图4以感受野为91的特征图为例展示了目标检测分支的网络结构。首先通过一 个公共的步长为1的3*3卷积层,公共卷积层的存在使得网络结构利用更高效,运算速度更快,接 下来分成三个分支,分别通过一个卷积层预测目标的位置、类别和分割模板。网络在每个位置上设置 [0.5,1,2]三种比例的锚框来检测位置,并且针对特征金字塔生成的5种不同尺寸的特征图设置5 种不同的尺寸的锚框。最终目标检测分支针对特征金字塔生成的特征图上每个位置的锚框都预测4 个表示位置的参数,C个代表目标类别的参数以及与原型模板个数相对应的k个组合系数。在模板加 权组合系数的分支上,补充了一个tanh激活函数,tanh的值域覆盖了正负值,保证在输出的加权系 数中存在正负值。ResNeSt 模块在外层设计上保留了 ResNet 的跳跃映射连接,延续 ResNeXt[20]分组卷积的思想, 使用了基数的概念,按照基数的设置,将 ResNeSt 模块输入按通道拆分成 k 份输送到 k 个相同的网 络结构,每个网络结构被称作一个是 Cardinal。分组卷积的显著优势就是使用少量的参数量和运算 量生成更多的特征图,更多的特征图就可以编码更多的特征信息。所以 ResNeSt 模块外层设计使得 ResNeSt 相比于其他 ResNet 变体[21-23],能够在不明显增加参数量级的情况下提升了模型的准确率。 每个 Cardinal 的内部结构如图 2(b)所示,结构设计主要借鉴了 SENet[21]中的基于通道注意力机 制的思想和 SKNet[22]中的基于特征图注意力机制思想,能够学习出不同特征图之间重要程度以及特 征图不同通道之间的重要程度,利于获取更加有效的信息。ResNeSt 模块每个 Cardinal 的大致结构类 似于 SKNet 注意力机制模块,不同之处在于每个分支使用相同尺寸的卷积核,便于外层分组卷积的 模块化。 故本文利用 ResNeSt 对原始 YOLCAT 网络中的主干网络进行改进,使用 ResNeSt101 代替 ResNet101 嵌入到 YOLACT 网络,并与 YOLACT 的特征金字塔结构进行对接,提取出 ResNeSt101 每个阶段的最后一个 ResNeSt 模块的输出,选中感受野分别为 91、811、971 的三层特征图(分别对 应图 1 中的 C3、C4、C5)输送到特征金字塔结构参与后续运算。 1.2 原型模板生成模块 原型模板生成模块分支是 YOLACT 生成语义分割模板的分支,用来实现像素级别的分类任务, 原型模板生成模块分支的作用并不是直接生成最终的像素分类模板,而是生成一系列原型模板,在 后续阶段用于组合生成整幅图最终的分割模板。原型模板生成模块的网络结构基于 FCN[24]设计,以 550*550 的输入图像为例的原型模板生成模块网络结构如图 3 所示,接收主干网络获取的感受野为 91 的特征图作为输入,首先不改变特征图尺寸和通道数连续使用了 3 个 3*3 步长为 1 的卷积层,然 后利用双线性插值的方式进行了上采样,使得特征图尺寸达到原图尺寸的 1/4,这样做提高了后续 生成原型模板的分辨率,也就提高了分割模板整体的质量以及对于小目标的分割精度,保持当前尺 寸紧接着通过两个卷积层获得一个 k 通道的输出,输出中的每一个通道就是一个原型模板。 69*69 *256 69*69 *256 69*69 *256 138*138 *256 69*69 *256 138*138 *256 138*138 *k 图 3 原型模板生成模块 Fig.3 Prototype mask generation module 1.3 目标检测模块 目标检测分支以主干网络生成的所有尺寸的特征图作为输入,每个尺寸的特征图都通过相同的 网络结构进行处理,图 4 以感受野为 91 的特征图为例展示了目标检测分支的网络结构。首先通过一 个公共的步长为 1 的 3*3 卷积层,公共卷积层的存在使得网络结构利用更高效,运算速度更快,接 下来分成三个分支,分别通过一个卷积层预测目标的位置、类别和分割模板。网络在每个位置上设置 [0.5,1,2]三种比例的锚框来检测位置,并且针对特征金字塔生成的 5 种不同尺寸的特征图设置 5 种不同的尺寸的锚框。最终目标检测分支针对特征金字塔生成的特征图上每个位置的锚框都预测 4 个表示位置的参数,c 个代表目标类别的参数以及与原型模板个数相对应的 k 个组合系数。在模板加 权组合系数的分支上,补充了一个 tanh 激活函数,tanh 的值域覆盖了正负值,保证在输出的加权系 数中存在正负值。 录用稿件,非最终出版稿
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有