正在加载图片...
第4期 谭睿俊,等:双层残差语义分割网络及交通场景应用 ·781· 素进行相应类别的分类,为自动驾驶中的车辆控 训练方法对该网络进行训练以及测试。根据交通 制、路径规划等问题提供一个高效的解决方法。 数据集CamVid和Cityscapes的实验结果表明,本 常见的图像分割算法有。传统方法的图像分割和 文提出的DResnet网络对分割小目标物体具有一 深度学习的图像语义分割。传统的图像分割算法 定的优势。 主要有阈值分割法、边缘检测法、交互式图像分 割法等。阈值分割法主要是根据图像中像素的颜 1 DResNet语义分割网络 色或灰度值对不同的分割目标来设定不同的阈 图像语义分割的任务主要包括准确地分类 值,根据不同的阈值对每个像素点进行分类四。 精确地分割物体的边缘轮廓两方面,FCN能够在 在交通应用场景中,当图像像素的灰度值接近甚 一定程度上对图像各物体分类以及预测出物体的 至重叠时,该方法很难得到准确的分割结果。 边缘轮廓,但对于边缘细节的分割,准确度很低, 边缘检测法通过检测确定区域的边界,再根 这是因为FCN中的池化操作,在增大感受野的同 据边界把图像分割成不同的区域。该分割算法 时使图像损失了部分边缘细节信息。 具有一定的局限性,适合分割边缘的灰度值变化 为此,本文提出了DResnet,具体结构如图1 较大且噪声比较小的图像。交互式图像分割法, 所示。DResnet由双层残差网络特征提取、跳跃 是一种基于图划分的方法,该算法针对大量复杂 特征融合网络组成。利用双层残差网络对训练集 交通场景的图像分割存在一定的难度。 图像进行双层特征提取,并将每一层输出特征图 将深度学习与神经网络引人交通场景的图像 进行相应位置融合,输出融合特征图X~X; 语义分割领域中成为发展的潮流,通用的深度神 在跳跃特征融合网络中,首先将最高层(第5层) 经网络主要有:文献[5]提出的AlexNet网络;文 的融合特征图进行2倍反卷积操作,从第4层到 献[6]提出的卷积神经网络模型(visual geometry 第1层,依次将融合特征图与其高一层的反卷积 group,VGG)网络;文献[7]提出的卷积网络模型 操作结果相加融合得到特征图W~W4,然后对其 (GoogLeNet)网络;由微软实验室提出的Resnet 进行2倍反卷积操作,从而添加更多的跳跃连接 网络,该网络由一系列的残差网络堆叠而成,可 结构,将高层信息与底层信息进行充分融合,最 以在增加其网络深度的同时有效地解决梯度消失 终将不同分辨率的特征图上采样恢复至原输入图 与梯度爆炸等问题⑧。 像的相同尺寸。 文献[9]利用卷积神经网络(convolutional 1.1双层残差网络 neural network,CNN)对使用类别定位过滤器对图 从提高网络特征提取能力的角度出发,本文 像粗略地分割,对小目标的分割精度很低。文献[10] 提出了双层残差网络代替原FCN网络的特征提 提出了全卷积神经网络(fully convolutional Net- 取网络VGG,双层网络在提取的特征图融合了更 work,FCN),该网络利用卷积层代替CNN的全连 多的边缘细节特征。还可以解决由神经网络层数 接层,进行上采样操作恢复输人图像的分辨率,并 加深而引起的梯度消失或者梯度爆炸问题4以 在PASCAL VOC2012以及室内环境语义分割数 及网络模型出现的退化问题 据集NYUDv2进行实验。实验结果发现FCN 具体来说,双层残差特征提取网络如图2所 对于小目标边缘细节的分割模糊甚至识别错误。 示。该网络包含两个相同的特征提取网络单元, 文献「l3]提出的U-net网络,通过跳跃连接融合 每一单元均由5层组成。整体网络的输入为 两路径的特征信息,实现图像语义分割,但由于 RGB三维数组,第1层由大小为7x7,步长为2的 该网络未充分考虑各像素与像素之间的关联,缺 卷积核进行卷积操作,输出的特征图尺寸为原输 乏语义特征的空间一致性。 入的1/2,卷积之后进行批量归一化处理、Relu函 基于此,本文提出一种基于双层残差网络的 数激活以及最大池化下采样操作,池化窗口大小 图像语义分割网络(dresnet network,DResnet)。首 为3×3,步长为2:第2层到第4层由不同数量的 先利用双层残差网络对图像进行更加全面的特 Block1模块和Block.2模块构成,对应的Block模 征提取,获得更多高分辨率的细节信息,并将输 块如图3所示,本文的主特征提取网络(第2层) 出的不同尺度的特征图进行融合作为上采样网络 由4个Block1构成;第3层由1个Block2和3个 的输入;其次通过深层跳跃连接将高层信息与底 B1ock1构成;第4层由1个B1ock2和5个 层特征融合,充分利用底层的细节特征;最后将 B1ock1构成;第5层由1个B1ock2和2个 DResnet网络应用到交通场景中,采用网络分支 Block1模块构成。素进行相应类别的分类,为自动驾驶中的车辆控 制、路径规划等问题提供一个高效的解决方法。 常见的图像分割算法有。传统方法的图像分割和 深度学习的图像语义分割。传统的图像分割算法 主要有阈值分割法、边缘检测法、交互式图像分 割法等。阈值分割法主要是根据图像中像素的颜 色或灰度值对不同的分割目标来设定不同的阈 值,根据不同的阈值对每个像素点进行分类[1]。 在交通应用场景中,当图像像素的灰度值接近甚 至重叠时,该方法很难得到准确的分割结果。 边缘检测法通过检测确定区域的边界,再根 据边界把图像分割成不同的区域[2]。该分割算法 具有一定的局限性,适合分割边缘的灰度值变化 较大且噪声比较小的图像。交互式图像分割法, 是一种基于图划分的方法,该算法针对大量复杂 交通场景的图像分割存在一定的难度[3-4]。 将深度学习与神经网络引入交通场景的图像 语义分割领域中成为发展的潮流,通用的深度神 经网络主要有:文献 [5] 提出的 AlexNet 网络;文 献 [6] 提出的卷积神经网络模型(visual geometry group,VGG)网络;文献 [7] 提出的卷积网络模型 (GoogLeNet)网络;由微软实验室提出的 Resnet 网络,该网络由一系列的残差网络堆叠而成,可 以在增加其网络深度的同时有效地解决梯度消失 与梯度爆炸等问题[8]。 文献 [9] 利用卷积神经网络(convolutional neural network, CNN)对使用类别定位过滤器对图 像粗略地分割,对小目标的分割精度很低。文献 [10] 提出了全卷积神经网络(fully convolutional Net￾work, FCN),该网络利用卷积层代替 CNN 的全连 接层,进行上采样操作恢复输入图像的分辨率,并 在 PASCAL VOC2012[11] 以及室内环境语义分割数 据集 NYUDv2[12] 进行实验。实验结果发现 FCN 对于小目标边缘细节的分割模糊甚至识别错误。 文献 [13] 提出的 U-net 网络,通过跳跃连接融合 两路径的特征信息,实现图像语义分割,但由于 该网络未充分考虑各像素与像素之间的关联,缺 乏语义特征的空间一致性。 基于此,本文提出一种基于双层残差网络的 图像语义分割网络(dresnet network, DResnet)。首 先利用双层残差网络对图像进行更加全面的特 征提取,获得更多高分辨率的细节信息,并将输 出的不同尺度的特征图进行融合作为上采样网络 的输入;其次通过深层跳跃连接将高层信息与底 层特征融合,充分利用底层的细节特征;最后将 DResnet 网络应用到交通场景中,采用网络分支 训练方法对该网络进行训练以及测试。根据交通 数据集 CamVid 和 Cityscapes 的实验结果表明,本 文提出的 DResnet 网络对分割小目标物体具有一 定的优势。 1 DResNet 语义分割网络 图像语义分割的任务主要包括准确地分类、 精确地分割物体的边缘轮廓两方面,FCN 能够在 一定程度上对图像各物体分类以及预测出物体的 边缘轮廓,但对于边缘细节的分割,准确度很低, 这是因为 FCN 中的池化操作,在增大感受野的同 时使图像损失了部分边缘细节信息。 为此,本文提出了 DResnet,具体结构如图 1 所示。DResnet 由双层残差网络特征提取、跳跃 特征融合网络组成。利用双层残差网络对训练集 图像进行双层特征提取,并将每一层输出特征图 进行相应位置融合,输出融合特征 图 X1~X5; 在跳跃特征融合网络中,首先将最高层(第 5 层) 的融合特征图进行 2 倍反卷积操作,从第 4 层到 第 1 层,依次将融合特征图与其高一层的反卷积 操作结果相加融合得到特征图 W1~W4,然后对其 进行 2 倍反卷积操作,从而添加更多的跳跃连接 结构,将高层信息与底层信息进行充分融合,最 终将不同分辨率的特征图上采样恢复至原输入图 像的相同尺寸。 1.1 双层残差网络 从提高网络特征提取能力的角度出发,本文 提出了双层残差网络代替原 FCN 网络的特征提 取网络 VGG,双层网络在提取的特征图融合了更 多的边缘细节特征。还可以解决由神经网络层数 加深而引起的梯度消失或者梯度爆炸问题[14-15] 以 及网络模型出现的退化问题[16]。 具体来说,双层残差特征提取网络如图 2 所 示。该网络包含两个相同的特征提取网络单元, 每一单元均 由 5 层组成。整体网络的输入 为 RGB 三维数组,第 1 层由大小为 7×7,步长为 2 的 卷积核进行卷积操作,输出的特征图尺寸为原输 入的 1/2,卷积之后进行批量归一化处理、Relu 函 数激活以及最大池化下采样操作,池化窗口大小 为 3×3,步长为 2;第 2 层到第 4 层由不同数量的 Block1 模块和 Block2 模块构成,对应的 Block 模 块如图 3 所示,本文的主特征提取网络(第 2 层) 由 4 个 Block1 构成;第 3 层由 1 个 Block2 和 3 个 Block 1 构成; 第 4 层 由 1 个 Block 2 和 5 个 Block 1 构成; 第 5 层 由 1 个 Block 2 和 2 个 Block1 模块构成。 第 4 期 谭睿俊,等:双层残差语义分割网络及交通场景应用 ·781·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有