检测大型机械是否存在，对目标的个数没有很高的要求，因此每个网格只预测至多

正在加载图片...

512 工程科学学报，第42卷，第4期 Input image Confidence Feature Feature Input imag哭 extraction sharing layer Regression Input image Coordinates Rol pooling Detection result 图3 TATLNet结构图 Fig.3 Structure of TATLNet 384 384 96 48 24 192 256 1024 1024 024 Conv Conv Conv Conv Conv Conv 图4 VRGNet结构图 Fig.4 Structure of VRGNet 检测大型机械是否存在，对目标的个数没有很高 Coordinates 的要求，因此每个网格只预测至多一个目标出现的坐标和概率.由于需要检测的目标只有吊车这 Rol 一类，所以VRGNet并不需要单独的分类器，因而舍弃了目标类别预测的分支，采用置信度来衡量 Uniform size Conv Conv Fc Rol feature map map 边框中存在目标的概率.根据对数据集中吊车尺图5 VTCNet结构图寸的统计，可以发现图像中目标的尺寸大小没有 Fig.5 Structure of VTCNet 大的波动，因此舍弃了特征金字塔结构来减小计算量.经过实验，将图像划分为9×9的网格时模 2.3.3损失函数设计型准确率最高由于TATLNet只需要检测一类目标而不用进 2.3.2 VTCNet结构设计行多类别分类，所以最终的分类损失函数只需要对于由VRGNet经过回归计算得到的可疑区判断单类别的置信度，目标置信度Lcr采用交叉域坐标，将其映射到VRGNet得到的特征图上.由嫡损失函数，具体如公式(1)所示 s2 此VTCNet与VRGNet实现了部分特征共享，所以 Lconf cnc;+1-c)n1-C】 (1) VTCNet对候选区域图像的判别不必从原图开始 i=0 对候选区域进行特征提取，因此VTCNet层数不必其中，S2表示网格单元的总数，C,表示第i个网格太多，由此可以大幅度减少由图像特征提取带来目标检测器所产生的预测结果的置信度，C,表示的计算量.如图5所示，VTCNet根据区域坐标在预测目标框与真实目标之间的交并比.目标坐标特征图上得到候选区域，通过RolPooling以及双线的损失函数Lioe如公式(2)所示，其中pro代表所性插值将候选区域缩放至统一尺寸，经过两个卷有目标，(x,》表示第i个网格所产生的预测结果积层后通过一个全连接层生成固定长度的特征向的中心点坐标，(xny)为真实的中心点坐标.相应量，该向量通过Softmax算法实现对候选区域的地，(wh,)和(w,h)分别代表预测目标和真实目判别. 标的宽、高检测大型机械是否存在，对目标的个数没有很高的要求，因此每个网格只预测至多一个目标出现的坐标和概率. 由于需要检测的目标只有吊车这一类，所以 VRGNet 并不需要单独的分类器，因而舍弃了目标类别预测的分支，采用置信度来衡量边框中存在目标的概率. 根据对数据集中吊车尺寸的统计，可以发现图像中目标的尺寸大小没有大的波动，因此舍弃了特征金字塔结构[14] 来减小计算量. 经过实验，将图像划分为 9×9 的网格时模型准确率最高. 2.3.2 VTCNet 结构设计对于由 VRGNet 经过回归计算得到的可疑区域坐标，将其映射到 VRGNet 得到的特征图上. 由此 VTCNet 与 VRGNet 实现了部分特征共享，所以 VTCNet 对候选区域图像的判别不必从原图开始对候选区域进行特征提取，因此 VTCNet 层数不必太多，由此可以大幅度减少由图像特征提取带来的计算量. 如图 5 所示，VTCNet 根据区域坐标在特征图上得到候选区域，通过 RoIPooling 以及双线性插值将候选区域缩放至统一尺寸，经过两个卷积层后通过一个全连接层生成固定长度的特征向量，该向量通过 Softmax 算法实现对候选区域的判别. 2.3.3 损失函数设计由于 TATLNet 只需要检测一类目标而不用进行多类别分类，所以最终的分类损失函数只需要判断单类别的置信度，目标置信度 Lconf 采用交叉熵损失函数，具体如公式（1）所示. Lconf = S ∑2 i=0 [ Ci lnC ∗ i +(1−Ci)ln( 1−C ∗ i )] （1）其中，S 2 表示网格单元的总数，Ci 表示第 i 个网格目标检测器所产生的预测结果的置信度，C * i 表示预测目标框与真实目标之间的交并比. 目标坐标的损失函数 Lloc 如公式（2）所示，其中 pro 代表所有目标，(xi , yi ) 表示第 i 个网格所产生的预测结果的中心点坐标，(x * i , y * i ) 为真实的中心点坐标. 相应地，(wi , hi ) 和 (w * i , h * i ) 分别代表预测目标和真实目标的宽、高. Feature extraction Feature sharing layer Regression Confidence Detection result RoI pooling Input image Coordinates Input image Input image 图 3 TATLNet 结构图 Fig.3 Structure of TATLNet 1 024 6 12 512 24 24 256 48 48 192 96 96 3 384 384 1 024 12 6 Conv Fc Fc 6 6 6 6 1 024 4 096 10 Conv Conv Conv Conv Conv 图 4 VRGNet 结构图 Fig.4 Structure of VRGNet Softmax Coordinates Feature map RoI Uniform size RoI feature map Conv Conv Fc 图 5 VTCNet 结构图 Fig.5 Structure of VTCNet · 512 · 工程科学学报，第 42 卷，第 4 期

<<向上翻页向下翻页>>

点击下载：基于TATLNet的输电场景威胁检测