正在加载图片...
512 工程科学学报,第42卷,第4期 Input image Confidence Feature Feature Input imag哭 extraction sharing layer Regression Input image Coordinates Rol pooling Detection result 图3 TATLNet结构图 Fig.3 Structure of TATLNet 384 384 96 48 24 192 256 1024 1024 024 Conv Conv Conv Conv Conv Conv 图4 VRGNet结构图 Fig.4 Structure of VRGNet 检测大型机械是否存在,对目标的个数没有很高 Coordinates 的要求,因此每个网格只预测至多一个目标出现 的坐标和概率.由于需要检测的目标只有吊车这 Rol 一类,所以VRGNet并不需要单独的分类器,因而 舍弃了目标类别预测的分支,采用置信度来衡量 Uniform size Conv Conv Fc Rol feature map map 边框中存在目标的概率.根据对数据集中吊车尺 图5 VTCNet结构图 寸的统计,可以发现图像中目标的尺寸大小没有 Fig.5 Structure of VTCNet 大的波动,因此舍弃了特征金字塔结构来减小 计算量.经过实验,将图像划分为9×9的网格时模 2.3.3损失函数设计 型准确率最高 由于TATLNet只需要检测一类目标而不用进 2.3.2 VTCNet结构设计 行多类别分类,所以最终的分类损失函数只需要 对于由VRGNet经过回归计算得到的可疑区 判断单类别的置信度,目标置信度Lcr采用交叉 域坐标,将其映射到VRGNet得到的特征图上.由 嫡损失函数,具体如公式(1)所示 s2 此VTCNet与VRGNet实现了部分特征共享,所以 Lconf cnc;+1-c)n1-C】 (1) VTCNet对候选区域图像的判别不必从原图开始 i=0 对候选区域进行特征提取,因此VTCNet层数不必 其中,S2表示网格单元的总数,C,表示第i个网格 太多,由此可以大幅度减少由图像特征提取带来 目标检测器所产生的预测结果的置信度,C,表示 的计算量.如图5所示,VTCNet根据区域坐标在 预测目标框与真实目标之间的交并比.目标坐标 特征图上得到候选区域,通过RolPooling以及双线 的损失函数Lioe如公式(2)所示,其中pro代表所 性插值将候选区域缩放至统一尺寸,经过两个卷 有目标,(x,》表示第i个网格所产生的预测结果 积层后通过一个全连接层生成固定长度的特征向 的中心点坐标,(xny)为真实的中心点坐标.相应 量,该向量通过Softmax算法实现对候选区域的 地,(wh,)和(w,h)分别代表预测目标和真实目 判别. 标的宽、高检测大型机械是否存在,对目标的个数没有很高 的要求,因此每个网格只预测至多一个目标出现 的坐标和概率. 由于需要检测的目标只有吊车这 一类,所以 VRGNet 并不需要单独的分类器,因而 舍弃了目标类别预测的分支,采用置信度来衡量 边框中存在目标的概率. 根据对数据集中吊车尺 寸的统计,可以发现图像中目标的尺寸大小没有 大的波动,因此舍弃了特征金字塔结构[14] 来减小 计算量. 经过实验,将图像划分为 9×9 的网格时模 型准确率最高. 2.3.2    VTCNet 结构设计 对于由 VRGNet 经过回归计算得到的可疑区 域坐标,将其映射到 VRGNet 得到的特征图上. 由 此 VTCNet 与 VRGNet 实现了部分特征共享,所以 VTCNet 对候选区域图像的判别不必从原图开始 对候选区域进行特征提取,因此 VTCNet 层数不必 太多,由此可以大幅度减少由图像特征提取带来 的计算量. 如图 5 所示,VTCNet 根据区域坐标在 特征图上得到候选区域,通过 RoIPooling 以及双线 性插值将候选区域缩放至统一尺寸,经过两个卷 积层后通过一个全连接层生成固定长度的特征向 量,该向量通过 Softmax 算法实现对候选区域的 判别. 2.3.3    损失函数设计 由于 TATLNet 只需要检测一类目标而不用进 行多类别分类,所以最终的分类损失函数只需要 判断单类别的置信度,目标置信度 Lconf 采用交叉 熵损失函数,具体如公式(1)所示. Lconf = S ∑2 i=0 [ Ci lnC ∗ i +(1−Ci)ln( 1−C ∗ i )] (1) 其中,S 2 表示网格单元的总数,Ci 表示第 i 个网格 目标检测器所产生的预测结果的置信度,C * i 表示 预测目标框与真实目标之间的交并比. 目标坐标 的损失函数 Lloc 如公式(2)所示,其中 pro 代表所 有目标,(xi , yi ) 表示第 i 个网格所产生的预测结果 的中心点坐标,(x * i , y * i ) 为真实的中心点坐标. 相应 地,(wi , hi ) 和 (w * i , h * i ) 分别代表预测目标和真实目 标的宽、高. Feature extraction Feature sharing layer Regression Confidence Detection result RoI pooling Input image Coordinates Input image Input image 图 3    TATLNet 结构图 Fig.3    Structure of TATLNet 1 024 6 12 512 24 24 256 48 48 192 96 96 3 384 384 1 024 12 6 Conv Fc Fc 6 6 6 6 1 024 4 096 10 Conv Conv Conv Conv Conv 图 4    VRGNet 结构图 Fig.4    Structure of VRGNet Softmax Coordinates Feature map RoI Uniform size RoI feature map Conv Conv Fc 图 5    VTCNet 结构图 Fig.5    Structure of VTCNet · 512 · 工程科学学报,第 42 卷,第 4 期
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有