正在加载图片...
第1期 赵文清,等:注意力机制和Faster RCNN相结合的绝缘子识别 ·95· anchor的比例调整为(2:1、4:1、5:1、6:1),同时,为 向量。 更好地识别出尺寸较小的绝缘子,调整尺度为 2)对步骤1)中每个目标建议框P和j个周围 (642、1282、256),特征图上每个点生成12种anchor, 建议框求IoU值,并记录IoU值不小于阈值T的 总共生成W×H×l2个anchor。. 周围建议框,用这些建议框对应的特征向量来更 0.6 0.55 新目标建议框P对应的特征向量。其中阈值T需 0.5 要根据实验来选取最合适的取值。 04 3)使用注意力机制。计算目标建议框P与步 女0.3 0.27 骤2)中记录的建议框两两对应的特征向量之间 0.2 0.13 0. 的权重关系,首先将两个特征向量连接成8192 0.05 01 维,然后传递给多层感知机,如式(6)所示,再 2:1 4:1 5:1 6:1 长宽比 经过Softmax分类器输出权值a,如式(7)所示, 图3绝缘子长宽比统计结果 Wr和W。为多层感知机需要学习的参数,y:和 Fig.3 Statistical results of length-width ratio of insulators f,分别表示与目标建议框向量的第i个和第j个 然后,对每个anchor进行二分类,将与某个 周围建议框对应在全连接层1上的特征向量,,小 真实框的交并比值(IoU,两个建议框交集与它们 表示两个特征向量的连接操作。 并集的比值)最大或者与任一真实框的IoU值大 e=Wσ(W.[fv,fvdD (6) 于0.7的anchor分类为前景(正样本):将与所有真 aj=Softmax(e) (7) 实框的IoU值都小于0.3的anchor分类为背景 4)融合周围建议框对应的特征向量来更新 (负样本),再使用Softmax分类器计算得到分类为 目标建议框P对应的特征向量FV,如式(8): 前景anchor的置信度分数。同时,对前景anchor FVi=aa.FVi+a2FV2+...+aiFV (8) 使用边界框回归进行位置的初步修正。 5)将更新后的目标建议框对应的4096维特 最后,使用NMS算法筛选出置信度分数较高 征向量输入全连接层2,进行后续的精确分类和 的建议框作为目标建议框输入后续的精确分类和 定位任务。 定位,本文设定NMS阈值参数为0.7。 2.5输出识别结果 2.4基于注意力机制的建议框融合 对全连接层2输出的特征向量再次利用So- 首先,将2.3节RPN得到的目标建议框映射 max分类器计算每个目标建议框分类为绝缘子的 到2.2节得到的特征图上;然后,按照1.2节步骤 置信度分数,同时对每个目标建议框进行边界框 4)的ROI池化操作,将每个目标建议框对应在特 回归,得到每个目标建议框相对真实框的偏移量 征图上的区域大小固定为7×7,接着输人到全连 预测值,用于对目标建议框进行修正,得到定位 接层1中。 更精确的目标建议框,输出置信度分数较高的目 考虑到由RPN得到的目标建议框定位不够 标建议框作为最终识别结果。 精确,对后续的精确分类和定位造成影响:同时, 3实验及结果分析 与目标建议框交并比值较大的周围建议框包含较 多有用的位置信息,能够帮助修正目标建议框, 本文实验使用的操作系统为Ubuntu16.04LTS, 但不同的周围建议框对修正绝缘子目标建议框的 GPU选用NVIDIA GeForce GTX 108OTi,深度学习 重要性不同,本文使用注意力机制,选取与目标 框架为TensorFlow1.3.0。 建议框IoU值不小于阈值T的周围建议框,自动 3.1数据集及实验参数 学习每个周围建议框的重要程度(即权值α),再 本文实验采用TAOX16提供的绝缘子图像 将周围建议框以加权求和的方式进行融合并更新 数据。该数据为无人机采集的复合绝缘子图像, 绝缘子目标建议框在全连接层1上的特征向量 共有840张,每幅图像为1152像素×864像素像素, FV=[fv,fy2,·,fl,更新后的特征向量位置信 通过图像旋转、放缩的方式将绝缘子数据扩充为 息更加准确,有利于后续目标建议框的精确分类 2000张。实验过程中对绝缘子数据按照VOC2007 和位置回归,提升模型识别的精度。基于注意力 数据集格式进行标注,并随机划分训练集为1500 机制的建议框融合算法详细步骤如下: 张,测试集为500张。 1)输入RPN选取的i个目标建议框P= RPN训练过程中,在mini-batch的一幅图像 [p1,P2,…,p]对应在全连接层1上的4096维特征 上,随机采样256个目标建议框,其中正样本与负642 1282 2562 W × H ×12 anchor 的比例调整为 (2:1、4:1、5:1、6:1),同时,为 更好地识别出尺寸较小的绝缘子,调整尺度为 ( 、 、 ),特征图上每个点生成 12 种 anchor, 总共生成 个 anchor。 0.13 0.55 0.27 0.05 0 0.1 0.2 0.3 0.4 0.5 0.6 2:1 4:1 5:1 6:1 百分比 长宽比 图 3 绝缘子长宽比统计结果 Fig. 3 Statistical results of length-width ratio of insulators 然后,对每个 anchor 进行二分类,将与某个 真实框的交并比值 (IoU,两个建议框交集与它们 并集的比值) 最大或者与任一真实框的 IoU 值大 于 0.7 的 anchor 分类为前景 (正样本);将与所有真 实框的 IoU 值都小于 0.3 的 anchor 分类为背景 (负样本),再使用 Softmax 分类器计算得到分类为 前景 anchor 的置信度分数。同时,对前景 anchor 使用边界框回归进行位置的初步修正。 最后,使用 NMS 算法筛选出置信度分数较高 的建议框作为目标建议框输入后续的精确分类和 定位,本文设定 NMS 阈值参数为 0.7。 2.4 基于注意力机制的建议框融合 7×7 首先,将 2.3 节 RPN 得到的目标建议框映射 到 2.2 节得到的特征图上;然后,按照 1.2 节步骤 4) 的 ROI 池化操作,将每个目标建议框对应在特 征图上的区域大小固定为 ,接着输入到全连 接层 1 中。 αi j FV = [f v1, f v2,··· , f vi] 考虑到由 RPN 得到的目标建议框定位不够 精确,对后续的精确分类和定位造成影响;同时, 与目标建议框交并比值较大的周围建议框包含较 多有用的位置信息,能够帮助修正目标建议框, 但不同的周围建议框对修正绝缘子目标建议框的 重要性不同,本文使用注意力机制,选取与目标 建议框 IoU 值不小于阈值 T 的周围建议框,自动 学习每个周围建议框的重要程度 (即权值 ),再 将周围建议框以加权求和的方式进行融合并更新 绝缘子目标建议框在全连接层 1 上的特征向量 ,更新后的特征向量位置信 息更加准确,有利于后续目标建议框的精确分类 和位置回归,提升模型识别的精度。基于注意力 机制的建议框融合算法详细步骤如下: P = [p1, p2,··· , pi] 1) 输 入 R PN 选 取 的 i 个目标建议框 对应在全连接层 1 上的 4 096 维特征 向量。 2) 对步骤 1) 中每个目标建议框 P 和 j 个周围 建议框求 IoU 值,并记录 IoU 值不小于阈值 T 的 周围建议框,用这些建议框对应的特征向量来更 新目标建议框 P 对应的特征向量。其中阈值 T 需 要根据实验来选取最合适的取值。 αi j WT Wα f vi f vj [·,·] 3) 使用注意力机制。计算目标建议框 P 与步 骤 2) 中记录的建议框两两对应的特征向量之间 的权重关系,首先将两个特征向量连接成 8 192 维,然后传递给多层感知机[15] ,如式(6)所示,再 经过 Softmax 分类器输出权值 ,如式(7)所示, 和 为多层感知机需要学习的参数, 和 分别表示与目标建议框向量的第 i 个和第 j 个 周围建议框对应在全连接层 1 上的特征向量, 表示两个特征向量的连接操作。 ei j = WTσ(Wα [ f vi , f vj ] ) (6) αi j = Softmax(ei j) (7) FV 4) 融合周围建议框对应的特征向量来更新 目标建议框 P 对应的特征向量 ,如式 (8): FVi = αi1 · FV1 +αi2 · FV2 +···+αi j · FVj (8) 5) 将更新后的目标建议框对应的 4 096 维特 征向量输入全连接层 2,进行后续的精确分类和 定位任务。 2.5 输出识别结果 对全连接层 2 输出的特征向量再次利用 Soft￾max 分类器计算每个目标建议框分类为绝缘子的 置信度分数,同时对每个目标建议框进行边界框 回归,得到每个目标建议框相对真实框的偏移量 预测值,用于对目标建议框进行修正,得到定位 更精确的目标建议框,输出置信度分数较高的目 标建议框作为最终识别结果。 3 实验及结果分析 本文实验使用的操作系统为 Ubuntu 16.04LTS, GPU 选用 NVIDIA GeForce GTX 1080Ti,深度学习 框架为 TensorFlow 1.3.0。 3.1 数据集及实验参数 本文实验采用 TAO X[16] 提供的绝缘子图像 数据。该数据为无人机采集的复合绝缘子图像, 共有 840 张,每幅图像为 1 152 像素×864 像素像素, 通过图像旋转、放缩的方式将绝缘子数据扩充为 2 000 张。实验过程中对绝缘子数据按照 VOC2007 数据集格式进行标注,并随机划分训练集为 1 500 张,测试集为 500 张。 RPN 训练过程中,在 mini-batch 的一幅图像 上,随机采样 256 个目标建议框,其中正样本与负 第 1 期 赵文清,等:注意力机制和 Faster RCNN 相结合的绝缘子识别 ·95·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有