正在加载图片...
第3期 洪恺临,等:改进Center-.Net网络的自主喷涂机器人室内窗户检测 ·427· l.1 Center-Net特征提取网络 所示,图中绿色箭头对应DA,红色方框对应HDA。 原始的Center--Net分别使用Resnet-l8(resid- HDA的作用是将数据的浅层与深层表达进行更 ual networks-18)DLA-34(deep layer aggregation- 好地融合,这种融合方式比简单的残差网络(R©s- 34)和Hourglass-104编码,解码(encoder--decoder) Net)和稠密网络(DenseNet)P更好。而IDA的作 结构作为特征提取网络,实验结果表明,DLA-34 用则是通过不断迭代将浅层特征重新定义从而完 网络在速度和准确性上得到了很好的平衡。因此 善最终输出的特征。网络的编码阶段就是将 本文窗户检测算法也是在DLA-34网络基础上进 IDA与HDA相结合。解码部分则是对相邻的 行的改进。 HDA结构的输出进行合并,在合并的过程中将小 DLA是Yu等20于2019年提出的一种特征 分辨率的特征使用逆卷积(deconv)2四操作进行上 聚合的方式,分为迭代深层聚合(iterative deep ag- 采样并将得到的结果与相邻HDA的输出进行可 gregation,IDA)和层次深度聚合(hierarchical deep 形变卷积(deformconv)2),最后再相加,以该种方 aggregation,.HDA)。Center-Net特征提取网络还对 式迭代生成树状结构,最终得到256×128×128 原始DLA-34进行了一些改进,网络框架如图2 的输出。 下采样 解码部分 上采样 输出尺寸 迭代深层聚合 ■ 256×128×128 可形变卷积 聚合节点 ☐卷积模块 ■层次深度聚合 输出尺寸 3×512×512 输出尺寸 db石b 输出尺寸 64×128×128 输出尺寸 输出尺寸 128×64×64编码部分 512×16×16 256×32×2 一一一一一 图2 Center-Net中的DLA-34算法框架 Fig.2 DLA-34 algorithm framework in Center-Net l.2 Center-Net检测框回归网络 了4次下采样,所以特征图重新映射到原始图像 将特征提取网络的结果分别送入3个网络分 上的时候会带来精度损失,因此对于每一个中心 支中,分别是关键点预测层、中心点偏移量回归 点,都额外用一个偏移量去补偿它。这两个层的 层以及检测框宽高回归层。 损失函数都使用L,损失函数: 其中关键点预测层的输出为80×128×128, 128对应输出特征的长宽,而80则对应COC0数 u=R∑o,-(层-p 据集的80类目标。首先将关键点通过高斯核分 布到128×l28分辨率的热图(heatmap)上,再将热 图与网络的输出逐点计算损失函数。该损失函数 式中:R对应下采样的次数;O是网络预测的偏 为了解决正负样本不平衡的问题,使用了Focal 移量;币是对实际框下采样之后进行取整。目标 Loss损失函数o的思想,其公式为 框长宽的回归也类似,其中S为回归后的尺寸, (1-)°1g(位,立c=1 54为原图尺寸。 N之1-yy(9n)g(1-) 其他 e 在网络的测试阶段,将测试图片送入到网络 式中:N是图像中待检测目标的数量;a和B是 得到3个分支的输出之后,由于该网络没有使用 Focal Loss的超参数;Yc是真实框映射到heatmap anchor所以在进行多余检测框别除的时候不使用 之后的各点像素值;P是网络输出结果的像素值。 NMS,而是使用一个3×3的最大池化操作(max- 目标框长宽和目标框的中心点坐标偏移量估 poo),以此抑制关键点预测输出中极大值的8邻 计层的输出都是2×128×128。中心点坐标偏移量 域,起到去掉多余框的作用。最后将得到的输出 估计层存在的意义是由于该网络中对图像进行 进行解码得到检测框。1.1 Center-Net 特征提取网络 原始的 Center-Net 分别使用 Resnet-18(resid￾ual networks-18)[18] 、DLA-34(deep layer aggregation- 34) 和 Hourglass-104[19] 编码解码 (encoder-decoder) 结构作为特征提取网络,实验结果表明,DLA-34 网络在速度和准确性上得到了很好的平衡。因此 本文窗户检测算法也是在 DLA-34 网络基础上进 行的改进。 DLA 是 Yu 等 [20] 于 2019 年提出的一种特征 聚合的方式,分为迭代深层聚合 (iterative deep ag￾gregation, IDA) 和层次深度聚合 (hierarchical deep aggregation,HDA)。Center-Net 特征提取网络还对 原始 DLA-34 进行了一些改进,网络框架如图 2 所示,图中绿色箭头对应 IDA,红色方框对应 HDA。 HDA 的作用是将数据的浅层与深层表达进行更 好地融合,这种融合方式比简单的残差网络 (Res￾Net) 和稠密网络 (DenseNet)[21] 更好。而 IDA 的作 用则是通过不断迭代将浅层特征重新定义从而完 善最终输出的特征。网络的编码阶段就是将 IDA 与 HDA 相结合。解码部分则是对相邻的 HDA 结构的输出进行合并,在合并的过程中将小 分辨率的特征使用逆卷积 (deconv)[22] 操作进行上 采样并将得到的结果与相邻 HDA 的输出进行可 形变卷积 (deformconv)[23] ,最后再相加,以该种方 式迭代生成树状结构,最终得到 256×128×128 的输出。 输出尺寸 64×128×128 输出尺寸 128×64×64 输出尺寸 256×32×2 输出尺寸 512×16×16 编码部分 下采样 聚合节点 卷积模块 层次深度聚合 解码部分 输出尺寸 3×512×512 输出尺寸 256×128×128 上采样 迭代深层聚合 可形变卷积 图 2 Center-Net 中的 DLA-34 算法框架 Fig. 2 DLA-34 algorithm framework in Center-Net 1.2 Center-Net 检测框回归网络 将特征提取网络的结果分别送入 3 个网络分 支中,分别是关键点预测层、中心点偏移量回归 层以及检测框宽高回归层。 其中关键点预测层的输出为 80×128×128, 128 对应输出特征的长宽,而 80 则对应 COCO 数 据集的 80 类目标。首先将关键点通过高斯核分 布到 128×128 分辨率的热图 (heatmap) 上,再将热 图与网络的输出逐点计算损失函数。该损失函数 为了解决正负样本不平衡的问题,使用了 Focal Loss 损失函数[10] 的思想,其公式为 Lk = −1 N ∑ xyc    ( 1−Yˆ xyc)α lg( Yˆ xyc) , Yˆ xyc = 1 ( 1−Yxyc)β ( Yˆ xyc)α lg( 1−Yˆ xyc) , 其他 N α β Yxyc Yˆ xyc 式中: 是图像中待检测目标的数量; 和 是 Focal Loss 的超参数; 是真实框映射到 heatmap 之后的各点像素值; 是网络输出结果的像素值。 目标框长宽和目标框的中心点坐标偏移量估 计层的输出都是 2×128×128。中心点坐标偏移量 估计层存在的意义是由于该网络中对图像进行 了 4 次下采样,所以特征图重新映射到原始图像 上的时候会带来精度损失,因此对于每一个中心 点,都额外用一个偏移量去补偿它。这两个层的 损失函数都使用 L1 损失函数: Loff = 1 N ∑ p Oˆ p˜ − ( p R − p˜ ) Lsize = 1 N ∑N k=1 Sˆ pk − sk Oˆ P˜ p˜ Sˆ pk sk 式中:R 对应下采样的次数; 是网络预测的偏 移量; 是对实际框下采样之后进行取整。目标 框长宽的回归也类似,其中 为回归后的尺寸, 为原图尺寸。 在网络的测试阶段,将测试图片送入到网络 得到 3 个分支的输出之后,由于该网络没有使用 anchor 所以在进行多余检测框剔除的时候不使用 NMS,而是使用一个 3×3 的最大池化操作 (max￾pool),以此抑制关键点预测输出中极大值的 8 邻 域,起到去掉多余框的作用。最后将得到的输出 进行解码得到检测框。 第 3 期 洪恺临,等:改进 Center-Net 网络的自主喷涂机器人室内窗户检测 ·427·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有