正在加载图片...
·1148· 智能系统学报 第14卷 gn=2∑.- 和对应的类别信息。 mElcx.cy.w.h 2.1 PASCAL VOC 在PASCAL VOC数据上,所有的算法模型都 8g=(g5-d/d",8=(g-d)/d (4) 在VOC2007和VOC2012数据集上进行训练,测 log)log() (5) 试在VOC2007数据集上进行测试。一共训练了 140k次,学习率不断衰减,设置0~80k的学习率 其中:cx、cy、w、h分别表示包围盒的中心坐标以及 为103,80k到100k的学习率下降为10-,100k 宽和高。(g,g,g",g)表示图像标注信息中的包围盒 到120k学习率下降为105,120k~140k的学习率 对应的中心坐标以及宽和高,(d,dP,d",d)表示 为10。考虑到GPU的处理能力,设置不同步长 默认包围盒的中心坐标以及宽和高,(,x,x",x) 的学习批次,对于输人大小为320×320的图像, 表示预测的包围盒的中心坐标以及宽和高。 处理批次设置为32,而对于输入图像512×512, 2实验结果及分析 设置的批次为16。动量和权值衰减分别设置为0.9 和0.0005。 本文以VGG162四作为基础的特征提取网络, 表1为本文的实验结果和其他网络检测结果 并且在ILSVRC CLS-LOC数据集上进行了预训 的对比。输入图像的尺寸对模型的输出结果有较 练。为了验证所提出算法的有效性,分别在PAS 大影响。从表中可以看出,在输人图像的尺寸为 CAL VOC1到和MS coco数据集上进行了实 320×320时,平均准确率为80.1%,速度为31.2fs。 验。PASCAL VOC和MS COCO数据集中类别数 在输入图像的尺寸为512×512时,平均准确率为 量分别为20和80,并且每个类别都有标注信息 81.9%,速度为18.2fs。 表1 PASCAL VOC2007的不同网络模型的检测结果 Table 1 Detection results on PASCAL VOC dataset 方法 基础网络 准确率 检测速度 图像尺寸 Faster VGG16 73.2 > 1000×600 Faster4 Residual-1010 76.4 2.4 1000×600 R-FCNI5T Residual-101 80.5 9 1000×600 DS0D30016 DS/64-192-4 77.7 17.4 300×300 YOLOv2l7 Darknet-19 78.6 90 544×544 SSD300同 VGG16 77.5 46 300×300 DSSD32119 Residual-101 79.5 9.5 321×321 STDN321图 DenseNet-169 79.2 41.5 321×321 Ours320 VGG16 80.1 31.2 320×320 SSD512161 VGG16 78.6 19 512×512 DSSD51311 Residual-101 81.5 5.5 513×513 STDN513018) DenseNet-169 80.9 28.6 513×513 Ours512 VGG16 81.9 18.2 512×512 表2为网络模型在PASCAL VOC:2007测试 的平均准确率高于其他网络1%,其中如bird、sheep 集的不同类别平均准确率的结果。从表中可以看 plat等小目标比其他网络最优准确率分别高2.5%、 出,本文方法在小目标类别中的平均检测准确率 3.2%、2.7%,证明了提出网络的有效性。 明显高于其他网络模型。本文所提出的网络整体lr(x,g ∗ ,l ∗ ) = ∑N i∈Pos ∑ m∈{cx,cy,w,h} [l ∗ ⩾ 1]smoothL1(x m i −bg m j ) (3) bg cx j = (g cx j −d cx i )/d w i ,bg cy j = (g cy j −d cy i )/d h i (4) bg w j = log( g w j d w i ),bg h j = log( g h j d h i ) (5) cx、cy、w、h (g cx ,g cy ,g w ,g h ) (d cx ,d cy ,d w ,d h ) (x cx , x cy , x w , x h ) 其中: 分别表示包围盒的中心坐标以及 宽和高。 表示图像标注信息中的包围盒 对应的中心坐标以及宽和高, 表示 默认包围盒的中心坐标以及宽和高, 表示预测的包围盒的中心坐标以及宽和高。 2 实验结果及分析 本文以 VGG16[12] 作为基础的特征提取网络, 并且在 ILSVRC CLS-LOC 数据集上进行了预训 练。为了验证所提出算法的有效性,分别在 PAS￾CAL VOC[13] 和 MS COCO[14] 数据集上进行了实 验。PASCAL VOC 和 MS COCO 数据集中类别数 量分别为 20 和 80,并且每个类别都有标注信息 和对应的类别信息。 2.1 PASCAL VOC 10−3 10−4 10−5 10−6 320×320512×512 在 PASCAL VOC 数据上,所有的算法模型都 在 VOC2007 和 VOC2012 数据集上进行训练,测 试在 VOC2007 数据集上进行测试。一共训练了 140 k 次,学习率不断衰减,设置 0~80 k 的学习率 为 ,80 k 到 100 k 的学习率下降为 ,100 k 到 120 k 学习率下降为 ,120k~140 k 的学习率 为 。考虑到 GPU 的处理能力,设置不同步长 的学习批次,对于输入大小为 的图像, 处理批次设置为 32,而对于输入图像 , 设置的批次为 16。动量和权值衰减分别设置为 0.9 和 0.000 5。 320×320 512×512 表 1 为本文的实验结果和其他网络检测结果 的对比。输入图像的尺寸对模型的输出结果有较 大影响。从表中可以看出,在输入图像的尺寸为 时,平均准确率为 80.1%,速度为 31.2 f/s。 在输入图像的尺寸为 时,平均准确率为 81.9%,速度为 18.2 f/s。 表 1 PASCAL VOC2007 的不同网络模型的检测结果 Table 1 Detection results on PASCAL VOC dataset 方法 基础网络 准确率 检测速度 图像尺寸 Faster[4] VGG16 73.2 7 1 000×600 Faster[4] Residual-101[10] 76.4 2.4 1 000×600 R-FCN[15] Residual-101 80.5 9 1 000×600 DSOD300[16] DS/64-192-4 77.7 17.4 300×300 YOLOv2[17] Darknet-19 78.6 40 544×544 SSD300[6] VGG16 77.5 46 300×300 DSSD321[9] Residual-101 79.5 9.5 321×321 STDN321[18] DenseNet-169 79.2 41.5 321×321 Ours320 VGG16 80.1 31.2 320×320 SSD512[6] VGG16 78.6 19 512×512 DSSD513[9] Residual-101 81.5 5.5 513×513 STDN513[18] DenseNet-169 80.9 28.6 513×513 Ours512 VGG16 81.9 18.2 512×512 表 2 为网络模型在 PASCAL VOC2007 测试 集的不同类别平均准确率的结果。从表中可以看 出,本文方法在小目标类别中的平均检测准确率 明显高于其他网络模型。本文所提出的网络整体 的平均准确率高于其他网络 1%,其中如 bird、sheep、 plant 等小目标比其他网络最优准确率分别高 2.5%、 3.2%、2.7%,证明了提出网络的有效性。 ·1148· 智 能 系 统 学 报 第 14 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有