域的左边界和右边界的距离。 2.2 特征平衡的 YOLOv3 网络 13&

点击下载：【机器感知与模式识别】多视角数据融合的特征平衡YOLOv3行人检测研究

正在加载图片...

·62* 智能系统学报第16卷域的左边界和右边界的距离。相比，处理速度快了1倍，所以Darknet-53是兼顾 2.2特征平衡的YOLOv3网络速度与精度的特征提取网络架构。 YOLOv3网络是一种单阶段目标检测方法，原YOLOv3网络中通过3种不同尺度的特征与RCNN系列的目标检测框架不同，YOLOv3网图直接做预测，不同尺度分别包括13×13、26×26 络不生成候选框，直接在输出层返回边界框的位 52×52。为了更好地使用深层特征与浅层特征进置及其所属类别。YOLOv3借鉴残差网络(resid- 行小尺寸行人检测，本文提出一种特征平衡的YOLO3 ual network,ResNet)I3o、特征金字塔网络I3 网络结构，如图5所示。网络的思想，添加跨层跳跃连接，融合粗细粒度类型卷积核数量卷积核大小步长输出特征图像素大小的特征，能更好地实现检测任务。添加多尺度预卷积 32 3×3 256×256 卷积 64 3×3 128×128 测，即在3个不同尺寸的特征图层进行预测，每种卷积 32 I×1 卷积 A 3×3 尺度预测3个锚框。锚框的设计方式使用聚类，残差链接 128×128 得到9个聚类中心，将其按照大小均分给3个特卷积 128 3×3 2 64×64 卷积 64 1×1 征图层。尺寸分别为13×13、26×26、52×52。本 23 卷积 128 3×3 文将对3个不同尺寸的特征进行融合。残差链接 64×64 卷 256 3x3 2 32×32 YOLOv3的特征提取网络为Darknet--53,其网卷积 128 R 卷 256 1 络结构如图4所示。Darknet--53网络中的Convo- 残差链接 32×32 lutional代表一个激活函数(darknetconv2dBN 卷积 512 3×3 16×16 卷积 256 1×1 leaky,DBL)操作流程，包含卷积层、批量归一化卷积 512 3×3 层(batch normalization,BN)和Leaky_Relu激活函残差链接 16×16 装 1024 3×3 8×8 数。对于YOLOv23来说，BN层和Leaky_Relu是和卷积 512 1×1 卷积层不可分离的部分，共同构成了最小组件。卷积 1024 3×3 残差链接 8×8 此外，还包括Resn残差模块，图4中最左面的数平均池化记全局全连接层 1000 字1、2、8、8、4表示残差单元的个数。 Softmax分类 Darknet-53加深了网络结构，处理速度为78张s, 图4 Darknet-.53网络结构比Darknet--l9慢，但是与相同精度的ResNet-l52 Fig.4 Darknet-53 Network IDarknet-53 DBL残差块×2 残差块×8DBL残差块×8DBL残差块x4 2×5 DBL DBI DBL Conv BN Leaky Relu 下采样上采样多尺度上采样 26×26 下采样 YOLO YOLO YOLO 图5特征平衡YOLO3网络结构 Fig.5 Architecture of balance YOLOv3 network 特征融合是将不同类型、不同尺度的特征进和Concatenate2种。Add方式是特征图相加，行整合，去除冗余信息，从而得到更好的特征表从而增加描述图像特征的信息量，即图像本身的达。在神经网络中直观的融合方式一般分为Add 维度没有增加，只是每一维下的信息量增加了，这域的左边界和右边界的距离。 2.2 特征平衡的 YOLOv3 网络 13×13 26×26 52×52 YOLOv3 网络是一种单阶段目标检测方法，与 RCNN 系列的目标检测框架不同，YOLOv3 网络不生成候选框，直接在输出层返回边界框的位置及其所属类别。YOLOv3 借鉴残差网络（residual network, ResNet） [ 3 0 ] 、特征金字塔网络[ 3 1 ] 网络的思想，添加跨层跳跃连接，融合粗细粒度的特征，能更好地实现检测任务。添加多尺度预测，即在 3 个不同尺寸的特征图层进行预测，每种尺度预测 3 个锚框。锚框的设计方式使用聚类，得到 9 个聚类中心，将其按照大小均分给 3 个特征图层。尺寸分别为、、。本文将对 3 个不同尺寸的特征进行融合。 YOLOv3 的特征提取网络为 Darknet-53，其网络结构如图 4 所示。Darknet-53 网络中的 Convolutional 代表一个激活函数 (darknetconv2d_BN_ leaky, DBL) 操作流程，包含卷积层、批量归一化层（batch normalization, BN）和 Leaky_Relu 激活函数。对于 YOLOv3来说，BN 层和 Leaky_Relu 是和卷积层不可分离的部分，共同构成了最小组件。此外，还包括 Resn残差模块，图 4 中最左面的数字 1、2、8、8、4 表示残差单元的个数。 Darknet-53 加深了网络结构，处理速度为 78 张/s，比 Darknet-19 慢，但是与相同精度的 ResNet-152 相比，处理速度快了 1 倍，所以 Darknet-53 是兼顾速度与精度的特征提取网络架构。 13×13 26×26 52×52 原 YOLOv3 网络中通过 3 种不同尺度的特征图直接做预测，不同尺度分别包括、、。为了更好地使用深层特征与浅层特征进行小尺寸行人检测，本文提出一种特征平衡的YOLOv3 网络结构，如图 5 所示。类型卷积核数量卷积核大小步长输出特征图像素大小卷积卷积卷积卷积卷积卷积卷积卷积卷积卷积卷积卷积卷积卷积卷积卷积 32 3×3 1 256×256 128×128 128×128 64×64 64×64 32×32 32×32 16×16 16×16 8×8 8×8 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 3×3 3×3 3×3 1× 2× 8× 8× 4× 3×3 3×3 3×3 3×3 3×3 3×3 3×3 1×1 1×1 1×1 1×1 1×1 64 32 64 64 128 128 128 256 256 256 512 512 512 1 024 1 024 残差链接残差链接残差链接残差链接残差链接平均池化全局全连接层 1 000 Softmax 分类图 4 Darknet-53 网络结构 Fig. 4 Darknet-53 Network Darknet-53 DBL DBL Conv BN Leaky_Relu DBL DBL DBL 残差块×2 残差块×8 残差块 DBL DBL ×8 残差块×4 52×52 DBL×5 DBL×5 DBL×5 YOLO YOLO YOLO 下采样下采样上采样上采样多尺度融合 26×26 26×26 13×13 图 5 特征平衡 YOLOv3 网络结构 Fig. 5 Architecture of balance YOLOv3 network 特征融合是将不同类型、不同尺度的特征进行整合，去除冗余信息，从而得到更好的特征表达。在神经网络中直观的融合方式一般分为 Add 和 Concatenate 2 种。Add 方式[32] 是特征图相加，从而增加描述图像特征的信息量，即图像本身的维度没有增加，只是每一维下的信息量增加了，这 ·62· 智能系统学报第 16 卷

<<向上翻页向下翻页>>

点击下载：【机器感知与模式识别】多视角数据融合的特征平衡YOLOv3行人检测研究