第15卷第6期 智能系统学报 Vol.15 No.6 2020年11月 CAAI Transactions on Intelligent Systems Nov.2020 D0L:10.11992tis.201811009 一种改进的深度学习的道路交通标识识别算法 何锐波2,狄岚',梁久祯 (1.江南大学人工智能与计算机学院,江苏无锡214122,2.中国电子科技集团公司第二十八研究所,江苏南 京210007:3.常州大学信息科学与工程学院,江苏常州213164) 摘要:针对复杂的环境,结合图像预处理与深度学习神经网络,提出了一种道路交通标识识别算法。该方法 不仅利用图像分割技术,而且利用卷积神经网络模型对道路交通标识进行了更准确的识别。首先,通过调节光 照影响、去除复杂背景、数据增强和归一化等批量预处理操作,形成一个完整的数据集;然后,结合squeeze-and- excitation思想和残差网络结构,充分训练出自己的卷积神经网络模型;最后,将优化的网络模型用于道路交通 标识的识别。实验结果表明,该方法使训练时间缩短了12%左右,识别精度可达99.26%。 关键词:道路交通标识识别;图像分割;卷积神经网络:去除复杂背景;数据增强;归一化;压缩和激励网络:残 差连接 中图分类号:TP391.4文献标志码:A文章编号:1673-4785(2020)06-1121-10 中文引用格式:何锐波,狄岚,梁久祯.一种改进的深度学习的道路交通标识识别算法J.智能系统学报,2020,15(6): 1121-1130. 英文引用格式:HE Ruibo,DI Lan,LIANG Jiuzhen..An improved deep learning algorithm for road traffic identificationJ.CAAl transactions on intelligent systems,2020,15(6):1121-1130. An improved deep learning algorithm for road traffic identification HE Ruibo2,DI Lan',LIANG Jiuzhen (1.School of Artificial Intelligence and Computer Science,Jiangnan University,Wuxi 214122,China:2.The 28th Research Institute of China Electronics Technology Group Corporation,Nanjing 210007,China;3.School of Information Science and Engineering, Changzhou University,Changzhou 213164,China) Abstract:This study proposes a road traffic identification algorithm based on image preprocessing and deep-learning neural networks for complex environments.The proposed method uses not only the image segmentation technology but also the convolutional neural network model to more accurately identify the road traffic signs.First,a complete dataset is obtained via batch preprocessing operations,including illumination effect adjustment,complex background elimina- tion,data enhancement,and normalization.Next,the convolutional neural network model is sufficiently trained based on the combination of the squeeze-and-excitation network and residual network structure concepts.Finally,the optimized network model is used to identify the road traffic signs.The experimental result shows that the proposed method re- duces the training time by approximately 12%and that the recognition accuracy can reach 99.26%. Keywords:road traffic identification;image segmentation;convolutional neural network;complex background elimina- tion:data enhancement;normalization:squeeze-and-excitation network;residual connection 道路交通标识的探测和检验在快速发展的智 道路交通的通行效率和通行安全提供了保障,对 能交通领域受到了广泛的关注,其含有的限速、 其内容的研究具有重要意义。 限行、限高提示、车道方向的指示等提示信息,为 现今有许多针对路标的检测方法,如:采用不 收稿日期:2018-11-11. 同色彩空间进行匹配检测的方法,对形状及轮 基金项目:江苏省研究生科研与实践创新计划项目(KYCXI8 廓进行分割提取的方法,或融合形状与色彩特 1872). 通信作者:狄岚.E-mail:dilan@jiangnan.edu.cn 征m的检测方法、或采用深度学习、神经网络有
DOI: 10.11992/tis.201811009 一种改进的深度学习的道路交通标识识别算法 何锐波1,2,狄岚1 ,梁久祯3 (1. 江南大学 人工智能与计算机学院,江苏 无锡 214122; 2. 中国电子科技集团公司第二十八研究所,江苏 南 京 210007; 3. 常州大学 信息科学与工程学院,江苏 常州 213164) 摘 要:针对复杂的环境,结合图像预处理与深度学习神经网络,提出了一种道路交通标识识别算法。该方法 不仅利用图像分割技术,而且利用卷积神经网络模型对道路交通标识进行了更准确的识别。首先,通过调节光 照影响、去除复杂背景、数据增强和归一化等批量预处理操作,形成一个完整的数据集;然后,结合 squeeze-andexcitation 思想和残差网络结构,充分训练出自己的卷积神经网络模型;最后,将优化的网络模型用于道路交通 标识的识别。实验结果表明,该方法使训练时间缩短了 12% 左右,识别精度可达 99.26%。 关键词:道路交通标识识别;图像分割;卷积神经网络;去除复杂背景;数据增强;归一化;压缩和激励网络;残 差连接 中图分类号:TP391.4 文献标志码:A 文章编号:1673−4785(2020)06−1121−10 中文引用格式:何锐波, 狄岚, 梁久祯. 一种改进的深度学习的道路交通标识识别算法 [J]. 智能系统学报, 2020, 15(6): 1121–1130. 英文引用格式:HE Ruibo, DI Lan, LIANG Jiuzhen. An improved deep learning algorithm for road traffic identification[J]. CAAI transactions on intelligent systems, 2020, 15(6): 1121–1130. An improved deep learning algorithm for road traffic identification HE Ruibo1,2 ,DI Lan1 ,LIANG Jiuzhen3 (1. School of Artificial Intelligence and Computer Science, Jiangnan University, Wuxi 214122, China; 2. The 28th Research Institute of China Electronics Technology Group Corporation, Nanjing 210007, China; 3. School of Information Science and Engineering, Changzhou University, Changzhou 213164, China) Abstract: This study proposes a road traffic identification algorithm based on image preprocessing and deep-learning neural networks for complex environments. The proposed method uses not only the image segmentation technology but also the convolutional neural network model to more accurately identify the road traffic signs. First, a complete dataset is obtained via batch preprocessing operations, including illumination effect adjustment, complex background elimination, data enhancement, and normalization. Next, the convolutional neural network model is sufficiently trained based on the combination of the squeeze-and-excitation network and residual network structure concepts. Finally, the optimized network model is used to identify the road traffic signs. The experimental result shows that the proposed method reduces the training time by approximately 12% and that the recognition accuracy can reach 99.26%. Keywords: road traffic identification; image segmentation; convolutional neural network; complex background elimination; data enhancement; normalization; squeeze-and-excitation network; residual connection 道路交通标识的探测和检验在快速发展的智 能交通领域受到了广泛的关注,其含有的限速、 限行、限高提示、车道方向的指示等提示信息,为 道路交通的通行效率和通行安全提供了保障,对 其内容的研究具有重要意义。 现今有许多针对路标的检测方法,如:采用不 同色彩空间[1-3] 进行匹配检测的方法,对形状及轮 廓 [4-6] 进行分割提取的方法,或融合形状与色彩特 征 [7] 的检测方法、或采用深度学习、神经网络有 收稿日期:2018−11−11. 基金项目:江苏省研究生科研与实践创新计划项目 (KYCX18_ 1872). 通信作者:狄岚. E-mail:dilan@jiangnan.edu.cn. 第 15 卷第 6 期 智 能 系 统 学 报 Vol.15 No.6 2020 年 11 月 CAAI Transactions on Intelligent Systems Nov. 2020
·1122· 智能系统学报 第15卷 关知识进行检测的方法1。以色彩空间为模板 道的取值范围为[0,1]。YCbCr色彩空间较 的检测方法最早由Yang等提出,通过提取 RGB色彩空间能显示图像整体的亮度信息。将 R层信息,构建待选模板,对路标图像进行粗略分 RGB图像转换成YCbCr空间表示的具体转换公 割;因YCbCr色彩空间具有受亮度变化影响较 式20为 小的特点,采用依据图像Cb、Cr分量进行图像分 16 0.257 0.504 0.098 R 割;提取形状特征模板的检测识别方法最早由 128 -0.148 -0.291 0.439 G Piccioli等I)提出,后逐渐改进为SNCC算法 Cr 128 0.439 -0.368 -0.071 B 现今采用多尺度的算法来识别检测,如马尔科夫 经过空间换算,经过大量实验得到图像亮度 随机场和基于贝叶斯的)、基于特征点采样和 阈值在Y∈[85,200]内较为正常,通过图像增强等 OSPA距离的16识别检测路标的算法,这些算法 方式对阈值外图像进行处理。通过RGB色彩空 虽然在速度和准确率上有着特有的优势,但却有 间的叠加或删减来对图像进行增强,具体效果如图1 着严苛的限制条件,缺乏普适性。深度学习模型 所示,对曝光不足图像的处理公式为 可以看作由多个人工神经网络层组成叨,通过构 R=R+k(1-R)R 建含有多个隐层的神经网络模型,将低层特征通 式中k为一个可调节参数。 过逐层非线性特征组合变换,形成更加抽象的高 层特征表达。加深模型网络是常用于提高检测识 别准确率的方法之一,但随之而来会出现“退化” 问题。He等usI就提出了ResNet(residual neural network),缓解了“退化现象,但并没有解决梯度 爆炸问题。WMW团队提出了SENet(squeeze- and-excitation networks)模型,使用特征通道融 合的方式,通过建模展现特征通道间依赖关系, 从而强化有用特征并抑制无用特征。本文结合 (a)原图 b)Y空间 SENet和ResNet模型的原理,取各自优点,使用 (©)图像增强 较小的网络层数来达到较高的识别水平。 图1曝光不足图像增强 因此针对上述存在的问题,本文所做的工 Fig.1 Insufficient exposure image enhancement 作是: 对于过曝图片的增强公式R=R-k(1-)R, 1)提出了将HU不变量与色彩空间多尺度相 k是一个可调节参数,实验效果如图2。 结合进行处理的方法,减少光照影响,并除去复 杂背景,降低无用特征被学习到的几率; 2)通过旋转数据增强及归一化操作,对小型 数据集进行增强,满足网络训练要求,提高识别 准确率; 3)结合SE网络和残差网络结构,构建了自己 的网络模型。同时,通过调整相应的参数以适应 路标图像的特点,采用浅层网络模型使训练时间 得到大幅减少,保证具有较高识别准确率。 (a)原图 (b)Y空间 (c)图像增强 1 图像预处理 图2过曝图像增强 1.1数据集的光照处理 Fig.2 Overexposure image enhancement 环境因素会给交通标识的图像采集工作带来 1.2 特征匹配 很大的负面影响,从而造成识别困难。本文从 数字图像处理中,通过提取轮廓边界及形状 RGB和YCbCr两个不同的颜色空间对图像进行 特征进行分割是图像识别领域的一种常用的方 阈值划分,从而实现对图像的预处理,降低环境 法。本文整合交通标识图像的共有形状特征进行 因素干扰。RGB色彩空间模型通过构建红、绿、 特征提取,降低神经网络在数据集训练时的无用 蓝3个通道的笛卡尔坐标系,来表示色彩图像,通 特征学习。图3所示为交通标识形状特征图
关知识进行检测的方法[8-10]。以色彩空间为模板 的检测方法最早由 Yang 等 [ 1 1 ] 提出,通过提取 R 层信息,构建待选模板,对路标图像进行粗略分 割;因 YCbCr 色彩空间[12] 具有受亮度变化影响较 小的特点,采用依据图像 Cb、Cr 分量进行图像分 割;提取形状特征模板的检测识别方法最早由 Piccioli 等 [13] 提出,后逐渐改进为 SNCC 算法[14]。 现今采用多尺度的算法来识别检测,如马尔科夫 随机场和基于贝叶斯的[15] 、基于特征点采样和 OSPA 距离的[16] 识别检测路标的算法,这些算法 虽然在速度和准确率上有着特有的优势,但却有 着严苛的限制条件,缺乏普适性。深度学习模型 可以看作由多个人工神经网络层组成[17] ,通过构 建含有多个隐层的神经网络模型,将低层特征通 过逐层非线性特征组合变换,形成更加抽象的高 层特征表达。加深模型网络是常用于提高检测识 别准确率的方法之一,但随之而来会出现“退化” 问题。He 等 [18] 就提出了 ResNet (residual neural network),缓解了“退化”现象,但并没有解决梯度 爆炸问题。WMW 团队提出了 SENet (squeezeand-excitation networks) 模型[19] ,使用特征通道融 合的方式,通过建模展现特征通道间依赖关系, 从而强化有用特征并抑制无用特征。本文结合 SENet 和 ResNet 模型的原理,取各自优点,使用 较小的网络层数来达到较高的识别水平。 因此针对上述存在的问题,本文所做的工 作是: 1) 提出了将 HU 不变量与色彩空间多尺度相 结合进行处理的方法,减少光照影响,并除去复 杂背景,降低无用特征被学习到的几率; 2) 通过旋转数据增强及归一化操作,对小型 数据集进行增强,满足网络训练要求,提高识别 准确率; 3) 结合 SE 网络和残差网络结构,构建了自己 的网络模型。同时,通过调整相应的参数以适应 路标图像的特点,采用浅层网络模型使训练时间 得到大幅减少,保证具有较高识别准确率。 1 图像预处理 1.1 数据集的光照处理 环境因素会给交通标识的图像采集工作带来 很大的负面影响,从而造成识别困难。本文从 RGB 和 YCbCr 两个不同的颜色空间对图像进行 阈值划分,从而实现对图像的预处理,降低环境 因素干扰。RGB 色彩空间模型通过构建红、绿、 蓝 3 个通道的笛卡尔坐标系,来表示色彩图像,通 道的取值范围 为 [0,1]。 YCbCr 色彩空间 较 RGB 色彩空间能显示图像整体的亮度信息。将 RGB 图像转换成 YCbCr 空间表示的具体转换公 式 [20] 为 Y Cb Cr = 16 128 128 + 0.257 0.504 0.098 −0.148 −0.291 0.439 0.439 −0.368 −0.071 R G B Y ∈ [85,200] 经过空间换算,经过大量实验得到图像亮度 阈值在 内较为正常,通过图像增强等 方式对阈值外图像进行处理。通过 RGB 色彩空 间的叠加或删减来对图像进行增强,具体效果如图 1 所示,对曝光不足图像的处理公式为 R = R+k(1− R)·R 式中 k 为一个可调节参数。 (a) 原图 (b) Y 空间 (c) 图像增强 图 1 曝光不足图像增强 Fig. 1 Insufficient exposure image enhancement R = R−k(1− R)·R k 对于过曝图片的增强公式 , 是一个可调节参数,实验效果如图 2。 (a) 原图 (b) Y 空间 (c) 图像增强 图 2 过曝图像增强 Fig. 2 Overexposure image enhancement 1.2 特征匹配 数字图像处理中,通过提取轮廓边界及形状 特征进行分割是图像识别领域的一种常用的方 法。本文整合交通标识图像的共有形状特征进行 特征提取,降低神经网络在数据集训练时的无用 特征学习。图 3 所示为交通标识形状特征图。 ·1122· 智 能 系 统 学 报 第 15 卷
第6期 何锐波,等:一种改进的深度学习的道路交通标识识别算法 ·1123· M5=(030-312)(30+12)[30+12)2-3(721+a)P]+ (3n21-7a3)21+70m)[3(721+o))2-(21+7o3)3] M6=(720-7m)[730+112)2-(21+)P]+ 4711(730+712)21+0s) 图3交通标识形状特征图 Fig.3 Traffic-sign shape feature chart M,=(20-72)[730+12)2-(721+)2]+ 4711(730+712)721+1as) 通过形态学的开闭操作降低图像中的噪声, 后用最大类间方差法寻找图像阈值,以阈值为界 这7个不变矩构成了一组特征向量,通过将 灰度图像转换为二值图像;最后使用孔洞填充提 交通标识图像与标准轮廓图像形状进行特征向量 取图像特征形状。图4为操作示意图。 的匹配,形成mask掩膜,进行路标特征的提取。图5 表示mask掩膜的匹配生成及数据集图片的特征 提取去背景。 (a)mask掩膜 TOP STOP STOP STOP STOP (b)特征提取 (a)原图 (b)开操作(c)闭操作(d最大类(e)孔洞填充 图5掩膜与特征提取 间方差 Fig.5 Mask and decontextualization 图4图像形状特征提取 1.3归一化与数据增强 Fig.4 Shape feature extraction 本文采用三次样条插值的方法将深度学习 在取得图像的形状特征后,可通过对比轮廓 模型所需的训练集归一化处理到128×128的尺寸 矩21的方式判断形状相似度。轮廓的(p,q)矩 大小。对小于尺寸的图片,根据深度学习模型的 定义为 特性,可以通过图像的几何变换(如平移、旋转、 尺度拉伸、对比度调整以及颜色变换)进行数据 增强;对于大尺寸的,则采用均值缩减降低图像 式中:p=1,2,;q=12,…。对于离散图像fx,y), 尺寸。本文对数据量较少的进行旋转变换来扩充 其阶标准矩网定义公式为 数据集。 N M m x"yf(x.y), p=01,2,…q=1,2,… 2模型与算法 =1=1 p+q阶中心矩定义为 2.1卷积神经网络结构 44-∑∑c-0-驴f在 随着人们对神经网络的深入探索研究,衍生 3=1=1 出了名为深度学习的思维理念,其中较为常用的 p=0,1,2,…9=1,2 叫卷积神经网络模型。其核心思想是通过反复 式中元和)代表图像的重心,归一化的中心矩定 的迭代,逐层反向调节网络中的权重参数来最小 义为7m=4g/o,其中,r=(p+q/2+1o 化损失函数同时提高识别率。为解决参数多、复 通过二阶和三阶归一化中心矩可以构造出 杂度高等问题采用权值共享策略,而其稀疏连接 7个不变矩M1~M: 的特性提高了并行处理能力及误差的容忍程 M1=2o+7m2 度。卷积层(convolution layer)、池化层(pooling M2=(720-o2)2+47ii layer)和全连接层(Full-connection Layer)是卷积 M3=(730-37122+(321-0)P 神经网络的主要构成部分;卷积神经网络结构示 M4=(730+12)2+(21+7)P 意图如图6
图 3 交通标识形状特征图 Fig. 3 Traffic-sign shape feature chart 通过形态学的开闭操作降低图像中的噪声, 后用最大类间方差法寻找图像阈值,以阈值为界 灰度图像转换为二值图像;最后使用孔洞填充提 取图像特征形状。图 4 为操作示意图。 (a) 原图 (b) 开操作 (c) 闭操作 (d) 最大类 间方差 (e) 孔洞填充 图 4 图像形状特征提取 Fig. 4 Shape feature extraction (p,q) 在取得图像的形状特征后,可通过对比轮廓 矩 [ 2 1 ] 的方式判断形状相似度。轮廓的 矩 定义为 mp,q = ∫ ∞ −∞ ∫ ∞ −∞ I(x, y)x p y q f (x, y)dxdy 式中: p = 1,2,···; q = 1,2,···。对于离散图像 f(x, y), 其阶标准矩[22] 定义公式为 mp,q = ∑N y=1 ∑M x=1 x p y q f(x, y), p = 0,1,2,··· ;q = 1,2,··· p+q 阶中心矩定义为 µp,q = ∑N y=1 ∑M x=1 (x− x¯) p (y−y¯) q f(x, y) p = 0,1,2,··· ;q = 1,2,··· x¯ y¯ ηpq = µpq/µr 00 r = (p+q)/2+1 式中 和 代表图像的重心,归一化的中心矩定 义为 ,其中, 。 M1 M7 通过二阶和三阶归一化中心矩可以构造出 7 个不变矩 ~ : M1 = η20 +η02 M2 = (η20 −η02) 2 +4η 2 11 M3 = (η30 −3η12) 2 +(3η21 −η03) 2 M4 = (η30 +η12) 2 +(η21 +η03) 2 M5 = (η30 −3η12)(η30 +η12)[(η30 +η12) 2 −3(η21 +η03) 2 ]+ (3η21 −η03)(η21 +η03)[3(η21 +η03) 2 −(η21 +η03) 2 ] M6 = (η20 −η02)[(η30 +η12) 2 −(η21 +η03) 2 ]+ 4η11(η30 +η12)(η21 +η03) M7 = (η20 −η02)[(η30 +η12) 2 −(η21 +η03) 2 ]+ 4η11(η30 +η12)(η21 +η03) 这 7 个不变矩构成了一组特征向量,通过将 交通标识图像与标准轮廓图像形状进行特征向量 的匹配,形成 mask 掩膜,进行路标特征的提取。图 5 表示 mask 掩膜的匹配生成及数据集图片的特征 提取去背景。 (a) mask 掩膜 (b) 特征提取 图 5 掩膜与特征提取 Fig. 5 Mask and decontextualization 1.3 归一化与数据增强 128×128 本文采用三次样条插值的方法[23] 将深度学习 模型所需的训练集归一化处理到 的尺寸 大小。对小于尺寸的图片,根据深度学习模型的 特性,可以通过图像的几何变换 (如平移、旋转、 尺度拉伸、对比度调整以及颜色变换) 进行数据 增强;对于大尺寸的,则采用均值缩减降低图像 尺寸。本文对数据量较少的进行旋转变换来扩充 数据集。 2 模型与算法 2.1 卷积神经网络结构 随着人们对神经网络的深入探索研究,衍生 出了名为深度学习的思维理念,其中较为常用的 叫卷积神经网络模型。其核心思想是通过反复 的迭代,逐层反向调节网络中的权重参数来最小 化损失函数同时提高识别率。为解决参数多、复 杂度高等问题采用权值共享策略,而其稀疏连接 的特性提高了并行处理能力及误差的容忍程 度。卷积层 (convolution layer)、池化层 (pooling layer) 和全连接层 (Full-connection Layer) 是卷积 神经网络的主要构成部分;卷积神经网络结构示 意图如图 6。 第 6 期 何锐波,等:一种改进的深度学习的道路交通标识识别算法 ·1123·
·1124· 智能系统学报 第15卷 输入层 C:特征层 S:池化层 S:池化层 C:特征层 输出层 卷积操作 池化操作 …(卷积-池化-卷积操作) 全连接操作 图6卷积神经网络结构 Fig.6 Structure of the convolutional neural network 2.2局部响应归一化与残差连接 鉴侧抑制思想,利用附近几层对特征中间层进行 文献[24]针对梯度爆炸问题,提出了一种局 平滑处理,计算公式为 部响应归一化的思想,为提高网络模型的泛化能 力减少过拟合程度,采用竞争机制,增大局部特 min(N-1.i+) k+a 征值的差距分化;文献[25]提出一种恒等映射拟 ∑a j户nax(0.-) 合的方法优化深层网络的训练学习。局部响应归 式中:k、n、a、B为超参数;d,表示第i个核在 一化(local response normalization)如图7所示:借 (x,y)位置的输出;N表示该层中核的总数。 (a) 0 (at 0 (d人 +∑ (a) 0 a (a 0 图7局部响应归一化示意图 Fig.7 Local response normalization diagram 图8为残差连接示意图,为降低梯度爆炸 2.3 Squeeze-and-Excitation模块 问题,简化训练学习过程,利用数学运算把式 深度学习模型的改进方法中,许多都从空间 H(x)=F(x)+x转化成F(x)=H(x)-x的思想,其中 维度进行考量;而SENet(squeeze-.and-excitation 当F(x)=0时H(x)=x;若F()≈0,则只考虑H(x) networks)通过使用特征重标定方法,不引入新的 与x的相差部分,残差连接用此思想,保留了学 空间维度并考虑特征通道间的关系来进行特征通 道融合。Squeeze-and-Excitation可以被任何形式 习到的深层特征,又简化了层级梯度。 如:Fr:X→U,XERHxWxc,UE RHXWXC的运算定义, 本质是个计算模块,把F.视为一种卷积运算,让 V=M2…e表示滤波核的集合,其中'c为第 权重层 c层滤波的参数。输出结果可以被表示为U= F(x) [山…4c],其中 ReLU 恒等 x 权重层 4e=ye*X=) *r 式中:=[足…]和X=[x2…](为 H(x)=F(x)+x 了简化符号,省略了偏差项),其中是一个二维 空间内核,'中包含了通道与通道之间的相互依 图8残差连接 赖关系。 Fig.8 Residual connection 图9是Squeeze-and-Excitation模块思想的直观图
2.2 局部响应归一化与残差连接 文献 [24] 针对梯度爆炸问题,提出了一种局 部响应归一化的思想,为提高网络模型的泛化能 力减少过拟合程度,采用竞争机制,增大局部特 征值的差距分化;文献 [25] 提出一种恒等映射拟 合的方法优化深层网络的训练学习。局部响应归 一化 (local response normalization) 如图 7 所示:借 鉴侧抑制思想,利用附近几层对特征中间层进行 平滑处理,计算公式为 b i x,y = a i x,y k+α min(N−1,i+ n 2 ∑ ) j=max(0,i− n 2 ) (a j x,y ) 2 β k、n、α、β a i x,y i (x, y) N 式中: 为超参数; 表示第 个核在 位置的输出; 表示该层中核的总数。 ( )2 ax,y j−2 ax,y j−2 ax,y j−1 ax,y j+1 ax,y j+2 ax,y j bx,y j ax,y j ( )2 ax,y j−1 ( )2 ax,y j+1 ( )2 ax,y j+2 ax,y j ( )2 ÷ 0 0 0 0 ∑ ( )β k + ( )·∑• n α − 图 7 局部响应归一化示意图 Fig. 7 Local response normalization diagram H(x) = F(x)+ x F(x) = H(x)− x F(x) = 0 H(x) = x F(x) ≈ 0 H(x) x 图 8 为残差连接示意图,为降低梯度爆炸 问题,简化训练学习过程,利用数学运算把式 转化成 的思想,其中 当 时 ;若 ,则只考虑 与 的相差部分,残差连接用此思想,保留了学 习到的深层特征,又简化了层级梯度。 权重层 权重层 H(x)=F(x)+x + F(x) x ReLU 恒等 x 图 8 残差连接 Fig. 8 Residual connection 2.3 Squeeze-and-Excitation 模块 Ftr:X → U,X ∈ R H ′ ×W ′ ×C ′ ,U ∈ R H×W×C Ftr V = [ v1 v2 ··· vC ] vC U = [ u1 u2 ··· uC ] 深度学习模型的改进方法中,许多都从空间 维度进行考量;而 SENet(squeeze-and-excitation networks) 通过使用特征重标定方法,不引入新的 空间维度并考虑特征通道间的关系来进行特征通 道融合。Squeeze-and-Excitation 可以被任何形式 如 : 的运算定义, 本质是个计算模块,把 视为一种卷积运算,让 表示滤波核的集合,其中 为第 c 层滤波的参数。输出结果可以被表示为 ,其中 uc = vc ∗ X = C∑′ s=1 v s c ∗ x s vc = [ v 1 c v 2 c ··· v C ′ c ] X = [ x 1 x 2 ··· x C ′ ] v s c vc 式中: 和 (为 了简化符号,省略了偏差项),其中 是一个二维 空间内核, 中包含了通道与通道之间的相互依 赖关系。 图 9 是 Squeeze-and-Excitation 模块思想的直观图。 输入层 卷积操作 池化操作 ...(卷积-池化-卷积操作) 全连接操作 C1 : 特征层 S1 : 池化层 Sn : 池化层 Cn+1: 特征层 输出层 图 6 卷积神经网络结构 Fig. 6 Structure of the convolutional neural network ·1124· 智 能 系 统 学 报 第 15 卷
第6期 何锐波,等:一种改进的深度学习的道路交通标识识别算法 ·1125· Fa(,W 差连接思想,形成本文的算法,具体流程如图10: 1)对数据集进行特征提取及亮度值批量预处 理操作; 2)对数据集进行归一化及数据增强操作: 图9 Squeeze-.and-Excitation模块 3)结合Squeeze-.and-Excitation模块及残差连 Fig.9 A Squeeze-and-Excitation block 接思想,调节参数优化网络模型结构,构建自己 2.4基于深度学习改进的路标识别算法 的网络模型,并对训练集进行充分训练学习: 通过整合上述理论与公式,优化网络结构 4)利用训练好的模型结构对任意交通标识图 调节模型参数、结合Squeeze-and-Excitation与残 像进行识别检测,验证模型算法。 训 光照处理 局 去背景 完整数 进的卷积神经网 响应 充分训练 的交通 测试 化 数据增强 测试集 型 图10基于深度学习改进的路标识别算法流程 Fig.10 Improved road sign recognition algorithm flow using deep learning 3实验结果与分析 验。表1为经典网络及本文模型训练时间表。图11 为模型层级及参数设定,图12和图13为不同深度 实验采用德国交通标识标准数据库(GTSRB), 模型在BelgiumTSC和GTSRB两数据集上的实验 其包含39209张训练集路标图像及12630张测试 结果,迭代次数设置为30000,是多次实验抽取的 集路标图像,共有43类:以及比利时交通标识数 结果展示,通过实验可得准确率与网络层级并非 据库(BelgiumTSC),其包含4590张训练集图像及 线性正相关关系,因为梯度爆炸问题,导致实验层 2520张测试集图像,共62类。数据集中的图像 级增加到10层之后模型开始无法收敛。 大小从15×15到250×250不等,通过对训练集 进行归一化和数据增强,得到增强后的Belgi- 表1训练时间(比利时数据库) umTSC训练集含图像6272张,GTSRB的训练集 Table 1 Training time(BelgiumTSC) 含图像51989张,图像大小统一为(128×128)。 模型名称 训练时间(仕10min) 5层LeNet模型 实验所用电脑型号为Dell Precision T7910,中央处 1 h25 min AlexNet 1 h30 min 理器为E5-2600v4八核,内存大小为32GB,图形 8层网络结构模型 2h 处理器为NVIDIA QUADRO M2000,具有4GB显 残差网络 6h 存,使用软件为MATLAB2016b及VisualStudio SENets 4h40 min 2010,并采用Caffe框架26,为减少对比实验误 本文网络模型 2 h20 min 差,将非对比项参数固定,如初始学习率设置为 0.001,训练集图像一次处理量设为100,测试集图 本文的网络模型结构如图14所示,分别为与 像一次处理量为10,优化算法为随机梯度下降法 经典的网络进行原始数据、数据增强及预处理操 (stochastic gradient dscent,SGD),学习率下降函数 作不同训练集的对比分析。表2和表3给出了多 为step函数,momentum值为0.9。模型的好坏通 次实验下不同网络模型的准确率及损失值。由表 过损失函数来衡量,当损失函数值趋于平稳则代 格实验结果横向对比可知,对数据集进行归一化 表模型已充分学习。 处理、数据增强操作以及预处理操作能防止过拟 整合Squeeze--and-Excitation Networks思想和 合现象,增加模型的识别准确率;同时通过实验 残差连接到经典AlexNet网络模型中进行对比实 结果纵向对比发现残差连接及SENet的思想均能
X X ~ U Fsq (·) Fex (·,W) Fsxale (·,·) H H H Ftr ′ W′ C′ C C 1×1×C 1×1×C W W 图 9 Squeeze-and-Excitation 模块 Fig. 9 A Squeeze-and-Excitation block 2.4 基于深度学习改进的路标识别算法 通过整合上述理论与公式,优化网络结构、 调节模型参数、结合 Squeeze-and-Excitation 与残 差连接思想,形成本文的算法,具体流程如图 10: 1) 对数据集进行特征提取及亮度值批量预处 理操作; 2) 对数据集进行归一化及数据增强操作; 3) 结合 Squeeze-and-Excitation 模块及残差连 接思想,调节参数优化网络模型结构,构建自己 的网络模型,并对训练集进行充分训练学习; 4) 利用训练好的模型结构对任意交通标识图 像进行识别检测,验证模型算法。 光照处理 充分训练 测试 测试集 完 整 数 据 集 改 进 的 卷 积 神 经 网 络 训 练 好 的 交 通 标 识 卷 积 模 型 局 部 响 应 归 一 化 整合残差连接和 Squeeze-and-Excitation 模块 去背景 归一化 数据增强 图 10 基于深度学习改进的路标识别算法流程 Fig. 10 Improved road sign recognition algorithm flow using deep learning 3 实验结果与分析 15×15 250×250 (128×128) 实验采用德国交通标识标准数据库 (GTSRB), 其包含 39 209 张训练集路标图像及 12 630 张测试 集路标图像,共有 43 类;以及比利时交通标识数 据库 (BelgiumTSC),其包含 4 590 张训练集图像及 2 520 张测试集图像,共 62 类。数据集中的图像 大小从 到 不等,通过对训练集 进行归一化和数据增强,得到增强后的 BelgiumTSC 训练集含图像 6 272 张,GTSRB 的训练集 含图像 51 989张,图像大小统一为 。 实验所用电脑型号为 Dell Precision T7910,中央处 理器为 E5-2600v4八核,内存大小为 32 GB,图形 处理器为 NVIDIA QUADRO M2000,具有 4 GB 显 存,使用软件为 MATLAB2016b 及 VisualStudio 2010,并采用 Caffe 框架[26] ,为减少对比实验误 差,将非对比项参数固定,如初始学习率设置为 0.001,训练集图像一次处理量设为 100,测试集图 像一次处理量为 10,优化算法为随机梯度下降法 (stochastic gradient dscent, SGD),学习率下降函数 为 step 函数,momentum 值为 0.9。模型的好坏通 过损失函数来衡量,当损失函数值趋于平稳则代 表模型已充分学习。 整合 Squeeze-and-Excitation Networks 思想和 残差连接到经典 AlexNet 网络模型中进行对比实 验。表 1 为经典网络及本文模型训练时间表。图 11 为模型层级及参数设定,图 12 和图 13 为不同深度 模型在 BelgiumTSC 和 GTSRB 两数据集上的实验 结果,迭代次数设置为 30 000,是多次实验抽取的 结果展示,通过实验可得准确率与网络层级并非 线性正相关关系,因为梯度爆炸问题,导致实验层 级增加到 10 层之后模型开始无法收敛。 表 1 训练时间 (比利时数据库) Table 1 Training time(BelgiumTSC) 模型名称 训练时间(±10 min) 5层LeNet模型 1 h 25 min AlexNet 1 h 30 min 8层网络结构模型 2 h 残差网络 6 h SENets 4 h 40 min 本文网络模型 2 h 20 min 本文的网络模型结构如图 14 所示,分别为与 经典的网络进行原始数据、数据增强及预处理操 作不同训练集的对比分析。表 2 和表 3 给出了多 次实验下不同网络模型的准确率及损失值。由表 格实验结果横向对比可知,对数据集进行归一化 处理、数据增强操作以及预处理操作能防止过拟 合现象,增加模型的识别准确率;同时通过实验 结果纵向对比发现残差连接及 SENet 的思想均能 第 6 期 何锐波,等:一种改进的深度学习的道路交通标识识别算法 ·1125·
·1126· 智能系统学报 第15卷 提高网络模型的识别率。综合上述实验结果可 增加了模型的计算复杂度,延长了训练时间,而 得,神经网络模型学习需要大量数据支持,对数 残差连接思想简化了网络层级间的运算,降低了 据集进行数据增强能有效避免过拟合现象,而对 训练时间,同时保障了识别准确率。结合两种算 数据的预处理能够减少无效特征的学习从而增加 法思想形成的本文网络模型结构,在GTSRB数 识别准确率;Squeeze-and-Excitation block思想是 据集上的实验结果表明其识别准确率可以达到 一个特征重标定的计算模块,为提高识别准确率 99.26%,并且有着较优的训练时长。 Conv1:96×5×5,2,0 Conv1:96×5×5.2.0 Pool1:3×3.2.0 Conv1:96×5×5.2.0 Pool1:3×3.2.0 Conw2:256×5×5.2.2 Conv1:96×5×5,2,0 Pool1:3×3.2.0 Conv2:256×5×5,2,2 Conv3:384×5×5,2,2 Pool1:3×3,2,0 Conv2:256×5×5,2,2 Cov3:384×5×5,2,2 Pool3:3×3,2,0 Conv2:256×5×5,2,2 Pool2:3×3,2,0 Pool3:3×3,2,0 Conv4:384×3×3,1,1 Pool2:3×3,2,0 Conv3:384×3×3,1,1 Conw4:384×3×3,1,1 Conv5:384×3×3,1,1 Conw3:384×3×3,1,1 Conv4:384×3×3,1,1 Cov5:256×3×3,1,1 Conv6:256×3×3,L,1 Conv4:256×3×3,L,1 Conv5:256×3×3,1,1 Conv6:256×3×3,1,1 Conv7:256×3×3,L,1 Pool4:3×3,2,0 Pool5:3×3,2,0 Pool6:3×3,2,0 Pool7:3×3,2,0 fc1:4096×1,dropout fe6:4096×1,dropout fc7:4096×1,dropout fc8:4096×l,dropout fc2:43×l×1,dropout fe7:43×1×l,dropout fc8:43×l×l,dropout fe9:43×1×1,dropout (a)6层结构及参数 (b)7层结构及参数 (c)8层结构及参数 (d)9层结构及参数 图11网络结构模型及参数设置图 Fig.11 Network structure model and parameter setting 90 0.008 88 ,6层网络 签0.006 86 层网 004 84 8层网络 0.002 9层网络 4 2 5 实验次数 实验次数 (a)准确率 (b)损失值 ◆6层网络 图3不同网络深度下的准确率以及损失值(德国标准 0.007 0.006 8 层网 数据库) 0.005 ◆一9层网绍 Fig.13 Accuracy and loss values of different network 0.004 0.003 depths(GTSRB) 0.002 0.001 0 Conv1:64×3×3,2,1 2 实验次数 Pool 1: ×3.2.0 (b)损失值 Conv2:64×3×3,2,1 图12不同网络深度下的准确率以及损失值(比利时数 Conv3:64×3×3,1,1 据库) ------------- Fig.12 Accuracy and loss values of different network SE 1 Conv4:64×3×3,1,1 Conv5:64×3×3,1,1 res 1 depths (BelgiumTSC) =---=------- Conv6:128×3×3,2,1 Conv7:128×3×3,1,1 92.0 SE 2 Conv8:128×3×3,1,I res2 Conv9:128×3×3,1,1 90.0 Pool2:3×3.2.0 88.5 fe18:43×1×1 87.5 2 3 实验次数 图14本文网络结构模型及参数设置 (a)准确率 Fig.14 Network structure model and parameter setting
提高网络模型的识别率。综合上述实验结果可 得,神经网络模型学习需要大量数据支持,对数 据集进行数据增强能有效避免过拟合现象,而对 数据的预处理能够减少无效特征的学习从而增加 识别准确率;Squeeze-and-Excitation block 思想是 一个特征重标定的计算模块,为提高识别准确率 增加了模型的计算复杂度,延长了训练时间,而 残差连接思想简化了网络层级间的运算,降低了 训练时间,同时保障了识别准确率。结合两种算 法思想形成的本文网络模型结构,在 GTSRB 数 据集上的实验结果表明其识别准确率可以达到 99.26%,并且有着较优的训练时长。 Conv 1: 96×5×5, 2, 0 Pool 1: 3×3, 2, 0 Conv 2: 256×5×5, 2, 2 Pool 2: 3×3, 2, 0 Conv 3: 384×3×3, 1, 1 Conv 4: 256×3×3, 1, 1 Pool 4: 3×3, 2, 0 fc 1: 4096×1, dropout fc 2: 43×1×1, dropout Conv 1: 96×5×5, 2, 0 Pool 1: 3×3, 2, 0 Conv 2: 256×5×5, 2, 2 Pool 2: 3×3, 2, 0 Conv 3: 384×3×3, 1, 1 Conv 5:256×3×3, 1, 1 Pool 5: 3×3, 2, 0 fc 6: 4096×1, dropout fc 7: 43×1×1, dropout Conv 4: 384×3×3, 1, 1 Conv 1: 96×5×5, 2, 0 Pool 1: 3×3, 2, 0 Conv 2: 256×5×5, 2, 2 Pool 3: 3×3, 2, 0 Conv 4: 384×3×3, 1, 1 Conv 6: 256×3×3, 1, 1 Pool 6: 3×3, 2, 0 fc 7: 4096×1, dropout fc 8: 43×1×1, dropout Conv 5: 256×3×3, 1, 1 Conv 3: 384×5×5, 2, 2 Conv 1: 96×5×5, 2, 0 Pool 1: 3×3, 2, 0 Conv 2: 256×5×5, 2, 2 Pool 3: 3×3, 2, 0 Conv 4: 384×3×3, 1, 1 Conv 6: 256×3×3, 1, 1 Pool 7: 3×3, 2, 0 fc 8: 4096×1, dropout fc 9: 43×1×1, dropout Conv 3: 384×5×5, 2, 2 Conv 7: 256×3×3, 1, 1 Conv 5: 384×3×3, 1, 1 (a) 6 层结构及参数 (b) 7 层结构及参数 (c) 8 层结构及参数 (d) 9 层结构及参数 图 11 网络结构模型及参数设置图 Fig. 11 Network structure model and parameter setting 准确率/% 实验次数 90 88 86 84 82 0.007 0.006 0.005 0.004 损失值 实验次数 0.003 0.002 0.001 0 1 2 3 4 5 1 2 3 4 5 6 层网络 7 层网络 8 层网络 9 层网络 6 层网络 7 层网络 8 层网络 9 层网络 (b) 损失值 (a) 准确率 图 12 不同网络深度下的准确率以及损失值 (比利时数 据库) Fig. 12 Accuracy and loss values of different network depths (BelgiumTSC) 92.0 91.0 90.0 88.5 87.5 1 2 3 实验次数 4 5 准确率/% 6 7 8 9 (a) 准确率 实验次数 0.008 损失值 (b) 损失值 0.006 0.004 0.002 0 1 2 3 4 5 6 7 8 9 图 13 不同网络深度下的准确率以及损失值 (德国标准 数据库) Fig. 13 Accuracy and loss values of different network depths (GTSRB) Conv 1: 64×3×3, 2, 1 Pool 1: 3×3, 2, 0 Conv 2: 64×3×3, 2, 1 Conv 3: 64×3×3, 1, 1 Conv 4: 64×3×3, 1, 1 Conv 5: 64×3×3, 1, 1 Conv 6: 128×3×3, 2, 1 Conv 7: 128×3×3, 1, 1 res 1 Conv 8: 128×3×3, 1, 1 Conv 9: 128×3×3, 1, 1 res 2 Pool 2: 3×3, 2, 0 fc 18: 43×1×1 SE 1 SE 2 图 14 本文网络结构模型及参数设置 Fig. 14 Network structure model and parameter setting ·1126· 智 能 系 统 学 报 第 15 卷
第6期 何锐波,等:一种改进的深度学习的道路交通标识识别算法 ·1127· 表2图像预处理与残差连接对网络模型影响(比利时数据库) Table 2 Influence of image preprocessing and residual connection on a network model(BelgiumTSC) 原始数据 归一化与数据增强 预处理数据 模型名称 损失值 准确率% 损失值 准确率/% 损失值 准确率% 0.012691 80.9767 0.012205 82.3215 0.008716 85.4107 0.011784 80.8957 0.010177 83.0012 0.009872 85.1258 LeNet-5 0.010335 81.3458 0.017484 81.9824 0.011178 84.8424 0.016348 80.8816 0.014532 82.1958 0.009867 85.0191 0.009871 81.2183 0.012031 82.6507 0.009915 84.9438 0.003014 93.2184 0.003717 93.4281 0.003928 95.9938 0.002958 93.1048 0.002458 93.5214 0.003215 96.1741 ResNet-50 0.003234 92.9437 0.002714 94.1697 0.003001 96.3481 0.002917 93.4414 0.002848 94.1548 0.003128 96.1749 0.003418 92.2184 0.003171 93.6281 0.002714 97.1284 0.003478 92.6481 0.002917 94.2483 0.003288 96.2042 0.002951 93.1008 0.003058 94.1231 0.002114 97.1425 SENet 0.003104 92.9861 0.003014 94.1927 0.003018 96.7657 0.002719 93.4266 0.004048 93.6335 0.003141 96.5283 0.002814 93.1528 0.004175 92.6281 0.002101 97.2177 0.004827 88.0827 0.003527 90.2180 0.004282 91.8472 0.004897 87.3413 0.003208 90.1382 0.003019 92.4582 AlexNet 0.005316 88.8632 0.004083 89.6472 0.002318 92.0069 0.003037 90.0012 0.002544 91.0401 0.001827 93.3101 0.004096 89.0825 0.004218 89.5438 0.004148 91.9811 0.003028 90.1058 0.005487 90.3284 0.004281 91.5287 0.004017 90.9521 0.005284 90.6248 0.005414 90.1857 8层结构 0.004857 88.7632 0.004018 91.5187 0.001217 94.0010 0.004247 89.8211 0.003528 92.5284 0.002108 93.8284 0.003848 89.3844 0.004281 91.2584 0.003031 93.3226 0.002561 94.1011 0.002017 95.0807 0.001727 97.9615 0.003151 93.8217 0.003093 93.8468 0.001958 97.7668 本文模型 0.003039 93.0124 0.003442 93.7649 0.002018 97.5821 0.003096 92.7192 0.003031 93.5246 0.003001 96.9918 0.002189 94.2158 0.002515 94.1218 0.002364 98.0837
表 2 图像预处理与残差连接对网络模型影响 (比利时数据库) Table 2 Influence of image preprocessing and residual connection on a network model (BelgiumTSC) 模型名称 原始数据 归一化与数据增强 预处理数据 损失值 准确率/% 损失值 准确率/% 损失值 准确率/% LeNet-5 0.012 691 80.9767 0.012 205 82.321 5 0.008716 85.410 7 0.011 784 80.8957 0.010 177 83.001 2 0.009872 85.125 8 0.010 335 81.3458 0.017 484 81.982 4 0.011178 84.842 4 0.016 348 80.8816 0.014 532 82.195 8 0.009867 85.019 1 0.009 871 81.2183 0.012 031 82.650 7 0.009915 84.943 8 ResNet-50 0.003 014 93.2184 0.003 717 93.428 1 0.003928 95.993 8 0.002 958 93.1048 0.002 458 93.521 4 0.003215 96.174 1 0.003 234 92.9437 0.002 714 94.169 7 0.003001 96.348 1 0.002 917 93.4414 0.002 848 94.154 8 0.003128 96.174 9 0.003 418 92.2184 0.003 171 93.628 1 0.002714 97.128 4 SENet 0.003 478 92.6481 0.002 917 94.248 3 0.003288 96.204 2 0.002 951 93.1008 0.003 058 94.123 1 0.002114 97.142 5 0.003 104 92.9861 0.003 014 94.192 7 0.003018 96.765 7 0.002 719 93.4266 0.004 048 93.633 5 0.003141 96.528 3 0.002 814 93.1528 0.004 175 92.628 1 0.002101 97.217 7 AlexNet 0.004 827 88.0827 0.003 527 90.218 0 0.004282 91.847 2 0.004 897 87.3413 0.003 208 90.138 2 0.003019 92.458 2 0.005 316 88.8632 0.004 083 89.647 2 0.002318 92.006 9 0.003 037 90.0012 0.002 544 91.040 1 0.001827 93.310 1 0.004 096 89.0825 0.004 218 89.543 8 0.004148 91.981 1 8层结构 0.003 028 90.1058 0.005 487 90.328 4 0.004281 91.528 7 0.004 017 90.9521 0.005 284 90.624 8 0.005414 90.185 7 0.004 857 88.7632 0.004 018 91.518 7 0.001217 94.001 0 0.004 247 89.8211 0.003 528 92.528 4 0.002108 93.828 4 0.003 848 89.3844 0.004 281 91.258 4 0.003031 93.322 6 本文模型 0.002 561 94.1011 0.002 017 95.080 7 0.001727 97.961 5 0.003 151 93.8217 0.003 093 93.846 8 0.001958 97.766 8 0.003 039 93.0124 0.003 442 93.764 9 0.002018 97.582 1 0.003 096 92.7192 0.003 031 93.524 6 0.003001 96.991 8 0.002 189 94.2158 0.002 515 94.121 8 0.002364 98.083 7 第 6 期 何锐波,等:一种改进的深度学习的道路交通标识识别算法 ·1127·
·1128· 智能系统学报 第15卷 表3图像预处理与残差连接对网络模型影响(德国数据库) Table 3 Influence of image preprocessing and residual connection on a network model(GTSRB) 原始数据 归一化与数据增强 预处理数据 模型名称 损失值 准确率% 损失值 准确率/% 损失值 准确率% 0.092814 83.9382 0.008746 85.9271 0.009894 86.2814 0.008988 85.5620 0.011276 83.5247 0.008892 87.0185 LeNet-5 0.010205 84.5821 0.009687 86.3691 0.010583 86.0019 0.010018 84.6411 0.009825 86.1827 0.009571 86.5147 0.012530 82.1582 0.009825 85.2428 0.011759 85.4862 0.002727 94.0121 0.001978 96.2142 0.001872 97.9501 0.002715 94.7283 0.002214 95.5827 0.001378 98.2605 ResNet-50 0.002428 94.7151 0.003014 94.8517 0.001457 97.7568 0.002823 94.2184 0.002013 96.0851 0.001311 98.6647 0.003410 93.9281 0.002401 95.4724 0.001554 98.0258 0.002979 94.0713 0.003478 94.9212 0.001002 99.0013 0.002807 94.8411 0.002814 95.5287 0.001498 98.2605 SENet 0.003101 93.7151 0.002717 95.7547 0.002052 97.7568 0.002914 94.2634 0.003071 95.5898 0.002118 97.6647 0.003075 93.9826 0.002401 96.4801 0.001559 98.0258 0.003248 89.8255 0.003421 90.0785 0.002952 91.8287 0.003180 90.2402 0.003718 90.8287 0.004859 91.2584 AlexNet 0.002861 90.3042 0.004182 89.9387 0.002148 93.0019 0.003225 89.9821 0.003655 90.0072 0.002281 92.180 0.002962 90.3902 0.004557 89.8718 0.002881 91.8851 0.003058 91.2827 0.004272 91.8552 0.003048 94.5284 0.003180 91.3542 0.003229 92.4632 0.002917 93.4812 8层结构 0.003055 91.2102 0.003138 92.0439 0.003017 94.0021 0.004085 90.9087 0.002927 93.3847 0.002837 95.0528 0.003017 91.2921 0.004317 91.9282 0.002827 93.9223 0.002176 96.0020 0.002488 96.2212 0.000972 99.0500 0.002707 95.8123 0.001914 96.5287 0.000198 99.2605 本文模型 0.002801 95.7151 0.002418 95.8557 0.001458 98.7568 0.002018 96.2184 0.002041 96.5853 0.001510 98.6647 0.002675 95.9916 0.001901 96.4827 0.001154 99.0258
表 3 图像预处理与残差连接对网络模型影响 (德国数据库) Table 3 Influence of image preprocessing and residual connection on a network model (GTSRB) 模型名称 原始数据 归一化与数据增强 预处理数据 损失值 准确率/% 损失值 准确率/% 损失值 准确率/% LeNet-5 0.092 814 83.9382 0.008 746 85.927 1 0.009894 86.281 4 0.008 988 85.5620 0.011 276 83.524 7 0.008892 87.018 5 0.010 205 84.5821 0.009 687 86.369 1 0.010583 86.001 9 0.010 018 84.6411 0.009 825 86.182 7 0.009571 86.514 7 0.012 530 82.1582 0.009 825 85.242 8 0.011759 85.486 2 ResNet-50 0.002 727 94.0121 0.001 978 96.214 2 0.001872 97.950 1 0.002 715 94.7283 0.002 214 95.582 7 0.001378 98.260 5 0.002 428 94.7151 0.003 014 94.851 7 0.001457 97.756 8 0.002 823 94.2184 0.002 013 96.085 1 0.001311 98.664 7 0.003 410 93.9281 0.002 401 95.472 4 0.001554 98.025 8 SENet 0.002 979 94.0713 0.003 478 94.921 2 0.001002 99.001 3 0.002 807 94.8411 0.002 814 95.528 7 0.001498 98.260 5 0.003 101 93.7151 0.002 717 95.754 7 0.002052 97.756 8 0.002 914 94.2634 0.003 071 95.589 8 0.002118 97.664 7 0.003 075 93.9826 0.002 401 96.480 1 0.001559 98.025 8 AlexNet 0.003 248 89.8255 0.003 421 90.078 5 0.002952 91.828 7 0.003 180 90.2402 0.003 718 90.828 7 0.004859 91.258 4 0.002 861 90.3042 0.004 182 89.938 7 0.002148 93.001 9 0.003 225 89.9821 0.003 655 90.007 2 0.002281 92.180 0.002 962 90.3902 0.004 557 89.871 8 0.002881 91.885 1 8层结构 0.003 058 91.2827 0.004 272 91.855 2 0.003048 94.528 4 0.003 180 91.3542 0.003 229 92.463 2 0.002917 93.481 2 0.003 055 91.2102 0.003 138 92.043 9 0.003017 94.002 1 0.004 085 90.9087 0.002 927 93.384 7 0.002837 95.052 8 0.003 017 91.2921 0.004 317 91.928 2 0.002827 93.922 3 本文模型 0.002 176 96.0020 0.002 488 96.221 2 0.000972 99.050 0 0.002 707 95.8123 0.001 914 96.528 7 0.000198 99.260 5 0.002 801 95.7151 0.002 418 95.855 7 0.001458 98.756 8 0.002 018 96.2184 0.002 041 96.585 3 0.001510 98.664 7 0.002 675 95.9916 0.001 901 96.482 7 0.001154 99.025 8 ·1128· 智 能 系 统 学 报 第 15 卷
第6期 何锐波,等:一种改进的深度学习的道路交通标识识别算法 ·1129· 4结束语 2006,17(4):675-685 [8]STALLKAMP J,SCHLIPSING M,SALMEN J,et al.Man 本文提出用基于深度学习方法来实现道路交 vs.computer:benchmarking machine learning algorithms 通标志识别。该方法分为两部分:图像预处理和 for traffic sign recognition[J].Neural networks,2012,32: 卷积神经网络模型。在第一部分中,利用不变矩 323-332. 运算、多色彩空间融合和形状特征提取等方法 [9]SEEBOCK P.Deep learning in medical image analysis[D]. 对数据集图像进行归一化、数据增强及去背景特 Vienna,Vienna:Vienna University of Technology,2015: 征提取。在第二部分中,结合残差连接思想及 333-338. Squeeze--and-Excitation block思想形成本文网络模 [10]丁頠洋,刘格,王贤哲,等.基于深度学习的游行示威视 型。由实验可得,本文建立的网络模型识别准确 频图像检测方法).指挥信息系统与技术,2018,9(6): 75-79. 率可达99.26%,并且训练学习时间SENt减少了 DING Weiyang,LIU Ge,WANG Xianzhe,et al.Demon- 12%。进一步工作,通过结合主成分分析法思想 stration video image detection method based on deep 及自适应阈值调整方法的思想,提取图像特征并 learning[J.Command information system and techno- 进行增强,从而达到尽量减少人工干预的方式, 1ogy,2018,96):75-79 减少神经网络参数的调整和输入,并保证识别的 [11]YANG H M,LIU CL,LIU K H,et al.Traffic sign recog- 准确率。 nition in disturbing environments[C]//Foundations of In- 参考文献: telligent Systems,14th International Symposium,ISMIS 2003.Maebashi,Japan,2003:28-31. [1]KHAN J F,ADHAMI RR,et al.Traffic sign recognition [12]ISLAM K T.RAJ R G.Real-time (vision-based)road based on pictogram contours[J].IEEE ninth international sign recognition using an artificial neural network]] workshop on image analysis for multimedia interactive ser- Sensors,2017,14(4)853. vices,.2011,1(1):83-96. [13]PICCIOLI G,DE MICHELI E,PARODI P,et al.Robust [2]YANG H M.LIU Chaolin,LIU Kunhao,et al.Traffic sign method for road sign detection and recognition[J].Image recognition in disturbing environments[Cl//Proceedings of and vision computing,1996,14(3):209-223. the 14th International Symposium on Methodologies for [14]房泽平,段建民,郑榜贵.基于特征颜色和SNCC的交 Intelligent Systems.Maebashi City,Japan,2003:252-261 通标志识别与跟踪[J).交通运输系统工程与信息, [3]BARTNECK N,RITTER W.Colour segmentation with 2014.14(1:47-52 polynomial classification[C]//Proceedings of the 11th FANG Zeping,DUAN Jianmin,ZHENG Banggui.Traffic IAPR International Conference on Pattern Recognition. signs recognition and tracking based on feature color and Vol.II.Conference B:Pattern Recognition Methodology SNCC algorithm[J].Journal of transportation systems en- and Systems.The Hague,Netherlands,1992:635-638 gineering and information technology,2014,14(1): [4]SANDOVAL H,HATTORI T,KITAGAWA S,et al. 47-52. Angle-dependent edge detection for traffic signs recogni- [15]ZHOU Jun,BAO Xu,LI Dawei,et al.Traffic video im- tion[C]//Proceedings of 2000 IEEE Intelligent Vehicles age segmentation model based on Bayesian and spatio- Symposium.Dearborn,USA,2000:308-313. temporal Markov random field[J].Journal of physics: [5]BARNES N.ZELINSKY A.FLETCHER L S.Real-time conference series,2017,910(1):012041. speed sign detection using the radial symmetry detector[J]. [16]陈利,刘伟峰,杨爱兰.基于OSPA距离和特征点采样 IEEE transactions on intelligent transportation systems, 的路标识别算法[).哈尔滨师范大学自然科学学报 2008.9(2):322-332 2017,33(2:55-57 [6]PAULO C F,CORREIA P L.Traffic sign recognition CHEN Li,LIU Weifeng,YANG Ailan.A recognition al- based on pictogram contours[C]//Proceedings of 2008 gorithm for road signs based on the OSPA metric and IEEE Ninth International Workshop on Image Analysis for characteristic point sampling[J].Natural Science Journal Multimedia Interactive Services.Klagenfurt,Austria, of Harbin Normal University,2017,33(2):55-57. 2008:67-70 [17]SHEN Dinggang,WU Guorong,SUK H I.Deep learning [7]GAO X W,PODLADCHIKOVA L,SHAPOSHNIKOV in medical image analysis[J].Annual review of biomedic- D.et al.Recognition of traffic signs based on their colour al engineering,2017,19:221-248. and shape features extracted using human vision models[J]. [18]HE Kaiming,ZHANG Xiangyu,REN Shaoqing,et al. Journal of visual communication and image representation, Deep residual learning for image recognition[Cl//Proceed-
4 结束语 本文提出用基于深度学习方法来实现道路交 通标志识别。该方法分为两部分:图像预处理和 卷积神经网络模型。在第一部分中,利用不变矩 运算、多色彩空间融合和形状特征提取等方法 对数据集图像进行归一化、数据增强及去背景特 征提取。在第二部分中,结合残差连接思想及 Squeeze-and-Excitation block 思想形成本文网络模 型。由实验可得,本文建立的网络模型识别准确 率可达 99.26%,并且训练学习时间 SENet 减少了 12%。进一步工作,通过结合主成分分析法思想 及自适应阈值调整方法的思想,提取图像特征并 进行增强,从而达到尽量减少人工干预的方式, 减少神经网络参数的调整和输入,并保证识别的 准确率。 参考文献: KHAN J F, ADHAMI R R, et al. Traffic sign recognition based on pictogram contours[J]. IEEE ninth international workshop on image analysis for multimedia interactive services, 2011, 1(1): 83–96. [1] YANG H M, LIU Chaolin, LIU Kunhao, et al. Traffic sign recognition in disturbing environments[C]//Proceedings of the 14th International Symposium on Methodologies for Intelligent Systems. Maebashi City, Japan, 2003: 252−261. [2] BARTNECK N, RITTER W. Colour segmentation with polynomial classification[C]//Proceedings of the 11th IAPR International Conference on Pattern Recognition. Vol. II. Conference B: Pattern Recognition Methodology and Systems. The Hague, Netherlands, 1992: 635−638. [3] SANDOVAL H, HATTORI T, KITAGAWA S, et al. Angle-dependent edge detection for traffic signs recognition[C]//Proceedings of 2000 IEEE Intelligent Vehicles Symposium. Dearborn, USA, 2000: 308−313. [4] BARNES N, ZELINSKY A, FLETCHER L S. Real-time speed sign detection using the radial symmetry detector[J]. IEEE transactions on intelligent transportation systems, 2008, 9(2): 322–332. [5] PAULO C F, CORREIA P L. Traffic sign recognition based on pictogram contours[C]//Proceedings of 2008 IEEE Ninth International Workshop on Image Analysis for Multimedia Interactive Services. Klagenfurt, Austria, 2008: 67−70. [6] GAO X W, PODLADCHIKOVA L, SHAPOSHNIKOV D, et al. Recognition of traffic signs based on their colour and shape features extracted using human vision models[J]. Journal of visual communication and image representation, [7] 2006, 17(4): 675–685. STALLKAMP J, SCHLIPSING M, SALMEN J, et al. Man vs. computer: benchmarking machine learning algorithms for traffic sign recognition[J]. Neural networks, 2012, 32: 323–332. [8] SEEBÖCK P. Deep learning in medical image analysis[D]. Vienna, Vienna: Vienna University of Technology, 2015: 333−338. [9] 丁頠洋, 刘格, 王贤哲, 等. 基于深度学习的游行示威视 频图像检测方法 [J]. 指挥信息系统与技术, 2018, 9(6): 75–79. DING Weiyang, LIU Ge, WANG Xianzhe, et al. Demonstration video image detection method based on deep learning[J]. Command information system and technology, 2018, 9(6): 75–79. [10] YANG H M, LIU C L, LIU K H, et al. Traffic sign recognition in disturbing environments[C]//Foundations of Intelligent Systems, 14th International Symposium, ISMIS 2003.Maebashi, Japan, 2003:28–31. [11] ISLAM K T, RAJ R G. Real-time (vision-based) road sign recognition using an artificial neural network[J]. Sensors, 2017, 14(4): 853. [12] PICCIOLI G, DE MICHELI E, PARODI P, et al. Robust method for road sign detection and recognition[J]. Image and vision computing, 1996, 14(3): 209–223. [13] 房泽平, 段建民, 郑榜贵. 基于特征颜色和 SNCC 的交 通标志识别与跟踪 [J]. 交通运输系统工程与信息, 2014, 14(1): 47–52. FANG Zeping, DUAN Jianmin, ZHENG Banggui. Traffic signs recognition and tracking based on feature color and SNCC algorithm[J]. Journal of transportation systems engineering and information technology, 2014, 14(1): 47–52. [14] ZHOU Jun, BAO Xu, LI Dawei, et al. Traffic video image segmentation model based on Bayesian and spatiotemporal Markov random field[J]. Journal of physics: conference series, 2017, 910(1): 012041. [15] 陈利, 刘伟峰, 杨爱兰. 基于 OSPA 距离和特征点采样 的路标识别算法 [J]. 哈尔滨师范大学自然科学学报, 2017, 33(2): 55–57. CHEN Li, LIU Weifeng, YANG Ailan. A recognition algorithm for road signs based on the OSPA metric and characteristic point sampling[J]. Natural Science Journal of Harbin Normal University, 2017, 33(2): 55–57. [16] SHEN Dinggang, WU Guorong, SUK H I. Deep learning in medical image analysis[J]. Annual review of biomedical engineering, 2017, 19: 221–248. [17] HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al. Deep residual learning for image recognition[C]//Proceed- [18] 第 6 期 何锐波,等:一种改进的深度学习的道路交通标识识别算法 ·1129·
·1130· 智能系统学报 第15卷 ings of 2016 IEEE Conference on Computer Vision and works[C]//Proceedings of the 25th International Confer- Pattern Recognition.Las Vegas,USA,2016:770-778. ence on Neural Information Processing Systems.Lake [19]HU Jie,SHEN Li,SUN Gang.Squeeze-and-excitation Tahoe,USA,2012:1097-1105. networks[C]//Proceedings of 2018 IEEE/CVF Confer- [26]JIA Yangqing,SHELHAMER E,DONAHUE J,et al. ence on Computer Vision and Pattern Recognition.Salt Caffe:convolutional architecture for fast feature embed- Lake City,USA,2018:7132-7141. ding[C]//Proceedings of the 22nd ACM International [20]张懿,刘旭,李海峰.数字RGB与YCbCr颜色空间转 Conference on Multimedia.Orlando,USA,2014: 换的精度[).江南大学学报(自然科学版),2007,6(2: 675-678. 200-202. 作者简介: ZHANG Yi,LIU Xu,LI Haifeng.The precision of RGB 何锐波,硕士研究生,主要研究方 color space convert to YCbCr color space[J].Journal of 向为人工智能和数字图像处理。 JiangNan University (Natural Science Edition),2007, 6(2):200-202. [21]HU M K.Visual pattern recognition by moment invari- ants[J].IRE transactions on information theory,1962, 8(2):179-187. [22]孙即祥,模式识别中的特征提取与计算机视觉不变 狄岚,副教授,中国人工智能学会 量M.北京:国防工业出版社,2001. 粒计算与知识发现专业委员会委员, [23]温佩芝,陈晓,吴晓军,等.基于三次样条插值的 主要研究方向为数字图像处理和计算 GrabCut自动目标分割算法).计算机应用研究,2014, 机仿真。近年主持及参与国家级、省 部级科研项目7项,主持校级科研项 31(7):2187-2190 目4项、企业合作项目近20项,获得 WEN Peizhi,CHEN Xiao,WU Xiaojun,et al.Automatic 省级自然科学学术奖1次,行业联合 target segmentation algorithm of GrabCut based on cubic 会技术奖3次。发表学术论文50余篇。 spline interpolation[J].Application research of computers, 2014,31(7:2187-2190. 梁久祯,教授,博士,中国计算机 [24]ZEILER M D.FERGUS R.Visualizing and understand- 学会多媒体专业委员会委员,江苏省 人工智能学会理事,主要研究方向为 ing convolutional networks[C]//Proceedings of the 13th 计算机视觉和数字图像处理。主持项 European Conference on Computer Vision.Zurich, 目10余项,曾获得浙江省青年英才 Switzerland.2014:818-833. 奖。取得专利成果57项,软件著作 [25]KRIZHEVSKY A,SUTSKEVER I,HINTON G E.Im- 7项。发表学术论文160余篇.出版 ageNet classification with deep convolutional neural net- 教材及专著4部
ings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA, 2016: 770−778. HU Jie, SHEN Li, SUN Gang. Squeeze-and-excitation networks[C]//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA, 2018: 7132−7141. [19] 张懿, 刘旭, 李海峰. 数字 RGB 与 YCbCr 颜色空间转 换的精度 [J]. 江南大学学报(自然科学版), 2007, 6(2): 200–202. ZHANG Yi, LIU Xu, LI Haifeng. The precision of RGB color space convert to YCbCr color space[J]. Journal of JiangNan University (Natural Science Edition), 2007, 6(2): 200–202. [20] HU M K. Visual pattern recognition by moment invariants[J]. IRE transactions on information theory, 1962, 8(2): 179–187. [21] 孙即祥. 模式识别中的特征提取与计算机视觉不变 量 [M]. 北京: 国防工业出版社, 2001. [22] 温佩芝, 陈晓, 吴晓军, 等. 基于三次样条插值的 GrabCut 自动目标分割算法 [J]. 计算机应用研究, 2014, 31(7): 2187–2190. WEN Peizhi, CHEN Xiao, WU Xiaojun, et al. Automatic target segmentation algorithm of GrabCut based on cubic spline interpolation[J]. Application research of computers, 2014, 31(7): 2187–2190. [23] ZEILER M D, FERGUS R. Visualizing and understanding convolutional networks[C]//Proceedings of the 13th European Conference on Computer Vision. Zurich, Switzerland, 2014: 818−833. [24] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural net- [25] works[C]//Proceedings of the 25th International Conference on Neural Information Processing Systems. Lake Tahoe, USA, 2012: 1097−1105. JIA Yangqing, SHELHAMER E, DONAHUE J, et al. Caffe: convolutional architecture for fast feature embedding[C]//Proceedings of the 22nd ACM International Conference on Multimedia. Orlando, USA, 2014: 675−678. [26] 作者简介: 何锐波,硕士研究生,主要研究方 向为人工智能和数字图像处理。 狄岚,副教授,中国人工智能学会 粒计算与知识发现专业委员会委员, 主要研究方向为数字图像处理和计算 机仿真。近年主持及参与国家级、省 部级科研项目 7 项,主持校级科研项 目 4 项、企业合作项目近 20 项,获得 省级自然科学学术奖 1 次,行业联合 会技术奖 3 次。发表学术论文 50 余篇。 梁久祯,教授,博士,中国计算机 学会多媒体专业委员会委员,江苏省 人工智能学会理事,主要研究方向为 计算机视觉和数字图像处理。主持项 目 10 余项,曾获得浙江省青年英才 奖。取得专利成果 57 项,软件著作 7 项。发表学术论文 160 余篇,出版 教材及专著 4 部。 ·1130· 智 能 系 统 学 报 第 15 卷