正在加载图片...
王志明等:基于深度学习的高效火车号识别 1527 Mask R-CNNI21 Grid R-CNNI31 Cascade R-CNNI41 可.但对于具有校验位的火车号识别,其他次要类 等;典型的一阶段方法有SSD、YOLO6及改进 别概率信息也具有应用价值.当由于噪声造成单 其损失函数的GIOUL7和DIOUUs、RetinaNet!9、 个字符可能识别错误时,可以利用后续的选项进 DSOD201等.近两年还涌现出一些不依赖于锚点 行校验纠错.因此,在应用中本文修改网络输出部 (Anchor free)的方法,如CornerNetR1、CenterNet 分的结构,对每一个检测位置输出多个可能的目 MatrixNets2]等,旨在进一步改进对目标的定位精 标类别及相应的概率 度.二阶段方法具有较高的准确率,但是检测流程 2整体识别框架 复杂,因此相对速度比较慢;一阶段方法在检测速 度和内存效率上有很大的优势,在实际工程中得 本文的火车号图像采用线阵相机拍摄,即在 到广泛的应用.综合考虑后,本文选择速度和精度 固定位置放置由多个光学传感纵向排列组成的拍 都比较好的YOLOv3P进行火车号识别 摄装置,每次曝光获取一列图像,当火车通过时采 为了能检测不同大小的目标,YOLOV3算法在 用固定的曝光频率不断拍摄,最终所有列组成一 三个不同尺度的特征层上进行预测.YOLOv:3算 个二维图像.图像的高度由传感器数量决定,是一 法采用网格化的思想,将每个特征层划分成固 个固定的值:图像的宽度由曝光频率和拍摄时间 定大小的网格,每个网格设置3个锚框(Anchor)作 来确定,当曝光频率固定时,由火车车体长度和运 为预定义的形状来预测目标.锚框可使用k-means 行速度来决定,宽度不固定.在本文的火车号识别 聚类算法根据训练集上目标的形状分布计算聚类得 中,图像高度固定为2048像素,宽度范围为5000~ 到,从而减少预测误差并加速训练过程的收敛速度 11000像素.图1是一个典型的火车号图像,其分 网络对每一个锚框预测四个坐标值:4x、4, 辨率为2048像素×7168像素,图中红框所标为火 4w、h,其中4和5,是目标中心点的偏移量,w和 车号位置,在全图中占比非常小 是目标宽高相对于锚框的偏移量.中心点偏移 整个车箱图像的分辨率很高,直接利用目标 量是相对于网格单元左上角的坐标,算法采用逻 检测算法进行检测和识别计算量巨大,难以满足 辑回归函数将预测值4,和4,限制值在[0,1]区间 实时应用的需求.因此,本文提出一种由粗到细的 内;宽高偏移量是相对锚框的比例,采用指数函数 两阶段识别策略.第一阶段,根据火车号分布的统 将[-0,+o]区间映射到[0,+o]区间. 计热力图从高分辨率完整图像中提取固定大小为 假设某个网格单元相对于图像左上角的偏移 1200像素×2400像素的区域,再降低分辨率缩小 是(cpC,),锚框的宽和高是Pw和P,那么包围框 至288像素×576像素进行火车号区域检测;第二 (Bounding box)的预测值如下: 阶段,根据第一阶段检测结果从原始高分辨图像 中提取出火车号区域图像,并缩放至288像素× bx logistic(tx)+cx,by logistic(ty)+cy (1) 416像素大小进行字符检测与识别.得到字符检测 bw =pwetw,bn =phe'h (2) 结果后,根据位置排列搜索完整火车号,并根据字 目标检测算法在定位的同时进行识别,除位 符识别概率进行校验纠错.最后,对训练好的检测 置信息外还会同时预测这一包围框属于每个类别 模型运用剪枝算法进行剪枝,并对简化的网络进 的概率P,0≤i<C(C为目标类别数).对于一般目 行再次精调训练得到最终的高效检测模型 标检测应用,取概率最高的类别作为识别结果即 整个识别流程如图2所示 图1火车号图像示例 Fig.I Example of a wagon number imageMask R-CNN[12]、Grid R-CNN[13]、Cascade R-CNN[14] 等;典型的一阶段方法有 SSD[15]、YOLO[16] 及改进 其损失函数 的 GIOU[17] 和 DIOU[18]、 RetinaNet[19]、 DSOD[20] 等. 近两年还涌现出一些不依赖于锚点 (Anchor free)的方法,如 CornerNet[21]、CenterNet[22]、 MatrixNets[23] 等,旨在进一步改进对目标的定位精 度. 二阶段方法具有较高的准确率,但是检测流程 复杂,因此相对速度比较慢;一阶段方法在检测速 度和内存效率上有很大的优势,在实际工程中得 到广泛的应用. 综合考虑后,本文选择速度和精度 都比较好的 YOLOv3[24] 进行火车号识别. 为了能检测不同大小的目标,YOLOv3 算法在 三个不同尺度的特征层上进行预测. YOLOv3 算 法采用网格化的思想,将每个特征层划分成固 定大小的网格,每个网格设置 3 个锚框(Anchor)作 为预定义的形状来预测目标. 锚框可使用 k-means 聚类算法根据训练集上目标的形状分布计算聚类得 到,从而减少预测误差并加速训练过程的收敛速度. 网络对每一个锚框预测四个坐标值 : tx、 ty、 tw、th,其中 tx 和 ty 是目标中心点的偏移量, tw 和 th 是目标宽高相对于锚框的偏移量. 中心点偏移 量是相对于网格单元左上角的坐标,算法采用逻 辑回归函数将预测值 tx 和 ty 限制值在 [0, 1] 区间 内;宽高偏移量是相对锚框的比例,采用指数函数 将 [−∞, +∞] 区间映射到 [0, +∞] 区间. 假设某个网格单元相对于图像左上角的偏移 是(cx , cy),锚框的宽和高是 pw 和 ph,那么包围框 (Bounding box)的预测值如下: bx = logistic(tx)+cx, by = logistic(ty)+cy (1) bw = pwe tw , bh = phe th (2) Pi , 0 ⩽ i < C 目标检测算法在定位的同时进行识别,除位 置信息外还会同时预测这一包围框属于每个类别 的概率 (C 为目标类别数). 对于一般目 标检测应用,取概率最高的类别作为识别结果即 可. 但对于具有校验位的火车号识别,其他次要类 别概率信息也具有应用价值. 当由于噪声造成单 个字符可能识别错误时,可以利用后续的选项进 行校验纠错. 因此,在应用中本文修改网络输出部 分的结构,对每一个检测位置输出多个可能的目 标类别及相应的概率. 2    整体识别框架 本文的火车号图像采用线阵相机拍摄,即在 固定位置放置由多个光学传感纵向排列组成的拍 摄装置,每次曝光获取一列图像,当火车通过时采 用固定的曝光频率不断拍摄,最终所有列组成一 个二维图像. 图像的高度由传感器数量决定,是一 个固定的值;图像的宽度由曝光频率和拍摄时间 来确定,当曝光频率固定时,由火车车体长度和运 行速度来决定,宽度不固定. 在本文的火车号识别 中,图像高度固定为 2048 像素,宽度范围为 5000~ 11000 像素. 图 1 是一个典型的火车号图像,其分 辨率为 2048 像素×7168 像素,图中红框所标为火 车号位置,在全图中占比非常小. 整个车箱图像的分辨率很高,直接利用目标 检测算法进行检测和识别计算量巨大,难以满足 实时应用的需求. 因此,本文提出一种由粗到细的 两阶段识别策略. 第一阶段,根据火车号分布的统 计热力图从高分辨率完整图像中提取固定大小为 1200 像素×2400 像素的区域,再降低分辨率缩小 至 288 像素×576 像素进行火车号区域检测;第二 阶段,根据第一阶段检测结果从原始高分辨图像 中提取出火车号区域图像,并缩放至 288 像素× 416 像素大小进行字符检测与识别. 得到字符检测 结果后,根据位置排列搜索完整火车号,并根据字 符识别概率进行校验纠错. 最后,对训练好的检测 模型运用剪枝算法进行剪枝,并对简化的网络进 行再次精调训练得到最终的高效检测模型. 整个识别流程如图 2 所示. 图 1    火车号图像示例 Fig.1    Example of a wagon number image 王志明等: 基于深度学习的高效火车号识别 · 1527 ·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有