lr(x,g ∗ ,l ∗ ) = ∑N i∈Pos ∑ m∈{cx,cy

正在加载图片...

·1148· 智能系统学报第14卷 gn=2∑.- 和对应的类别信息。 mElcx.cy.w.h 2.1 PASCAL VOC 在PASCAL VOC数据上，所有的算法模型都 8g=(g5-d/d",8=(g-d)/d (4) 在VOC2007和VOC2012数据集上进行训练，测 log)log() (5) 试在VOC2007数据集上进行测试。一共训练了 140k次，学习率不断衰减，设置0~80k的学习率其中：cx、cy、w、h分别表示包围盒的中心坐标以及为103,80k到100k的学习率下降为10-，100k 宽和高。(g,g,g",g)表示图像标注信息中的包围盒到120k学习率下降为105,120k~140k的学习率对应的中心坐标以及宽和高，(d,dP,d",d)表示为10。考虑到GPU的处理能力，设置不同步长默认包围盒的中心坐标以及宽和高，(，x,x",x) 的学习批次，对于输人大小为320×320的图像，表示预测的包围盒的中心坐标以及宽和高。处理批次设置为32，而对于输入图像512×512， 2实验结果及分析设置的批次为16。动量和权值衰减分别设置为0.9 和0.0005。本文以VGG162四作为基础的特征提取网络，表1为本文的实验结果和其他网络检测结果并且在ILSVRC CLS-LOC数据集上进行了预训的对比。输入图像的尺寸对模型的输出结果有较练。为了验证所提出算法的有效性，分别在PAS 大影响。从表中可以看出，在输人图像的尺寸为 CAL VOC1到和MS coco数据集上进行了实 320×320时，平均准确率为80.1%，速度为31.2fs。验。PASCAL VOC和MS COCO数据集中类别数在输入图像的尺寸为512×512时，平均准确率为量分别为20和80，并且每个类别都有标注信息 81.9%,速度为18.2fs。表1 PASCAL VOC2007的不同网络模型的检测结果 Table 1 Detection results on PASCAL VOC dataset 方法基础网络准确率检测速度图像尺寸 Faster VGG16 73.2 > 1000×600 Faster4 Residual-1010 76.4 2.4 1000×600 R-FCNI5T Residual-101 80.5 9 1000×600 DS0D30016 DS/64-192-4 77.7 17.4 300×300 YOLOv2l7 Darknet-19 78.6 90 544×544 SSD300同 VGG16 77.5 46 300×300 DSSD32119 Residual-101 79.5 9.5 321×321 STDN321图 DenseNet-169 79.2 41.5 321×321 Ours320 VGG16 80.1 31.2 320×320 SSD512161 VGG16 78.6 19 512×512 DSSD51311 Residual-101 81.5 5.5 513×513 STDN513018) DenseNet-169 80.9 28.6 513×513 Ours512 VGG16 81.9 18.2 512×512 表2为网络模型在PASCAL VOC:2007测试的平均准确率高于其他网络1%，其中如bird、sheep 集的不同类别平均准确率的结果。从表中可以看 plat等小目标比其他网络最优准确率分别高2.5%、出，本文方法在小目标类别中的平均检测准确率 3.2%、2.7%,证明了提出网络的有效性。明显高于其他网络模型。本文所提出的网络整体lr(x,g ∗ ,l ∗ ) = ∑N i∈Pos ∑ m∈{cx,cy,w,h} [l ∗ ⩾ 1]smoothL1(x m i −bg m j ) (3) bg cx j = (g cx j −d cx i )/d w i ，bg cy j = (g cy j −d cy i )/d h i (4) bg w j = log( g w j d w i )，bg h j = log( g h j d h i ) (5) cx、cy、w、h (g cx ,g cy ,g w ,g h ) (d cx ,d cy ,d w ,d h ) (x cx , x cy , x w , x h ) 其中：分别表示包围盒的中心坐标以及宽和高。表示图像标注信息中的包围盒对应的中心坐标以及宽和高，表示默认包围盒的中心坐标以及宽和高，表示预测的包围盒的中心坐标以及宽和高。 2 实验结果及分析本文以 VGG16[12] 作为基础的特征提取网络，并且在 ILSVRC CLS-LOC 数据集上进行了预训练。为了验证所提出算法的有效性，分别在 PASCAL VOC[13] 和 MS COCO[14] 数据集上进行了实验。PASCAL VOC 和 MS COCO 数据集中类别数量分别为 20 和 80，并且每个类别都有标注信息和对应的类别信息。 2.1 PASCAL VOC 10−3 10−4 10−5 10−6 320×320512×512 在 PASCAL VOC 数据上，所有的算法模型都在 VOC2007 和 VOC2012 数据集上进行训练，测试在 VOC2007 数据集上进行测试。一共训练了 140 k 次，学习率不断衰减，设置 0~80 k 的学习率为，80 k 到 100 k 的学习率下降为，100 k 到 120 k 学习率下降为，120k~140 k 的学习率为。考虑到 GPU 的处理能力，设置不同步长的学习批次，对于输入大小为的图像，处理批次设置为 32，而对于输入图像，设置的批次为 16。动量和权值衰减分别设置为 0.9 和 0.000 5。 320×320 512×512 表 1 为本文的实验结果和其他网络检测结果的对比。输入图像的尺寸对模型的输出结果有较大影响。从表中可以看出，在输入图像的尺寸为时，平均准确率为 80.1%，速度为 31.2 f/s。在输入图像的尺寸为时，平均准确率为 81.9%，速度为 18.2 f/s。表 1 PASCAL VOC2007 的不同网络模型的检测结果 Table 1 Detection results on PASCAL VOC dataset 方法基础网络准确率检测速度图像尺寸 Faster[4] VGG16 73.2 7 1 000×600 Faster[4] Residual-101[10] 76.4 2.4 1 000×600 R-FCN[15] Residual-101 80.5 9 1 000×600 DSOD300[16] DS/64-192-4 77.7 17.4 300×300 YOLOv2[17] Darknet-19 78.6 40 544×544 SSD300[6] VGG16 77.5 46 300×300 DSSD321[9] Residual-101 79.5 9.5 321×321 STDN321[18] DenseNet-169 79.2 41.5 321×321 Ours320 VGG16 80.1 31.2 320×320 SSD512[6] VGG16 78.6 19 512×512 DSSD513[9] Residual-101 81.5 5.5 513×513 STDN513[18] DenseNet-169 80.9 28.6 513×513 Ours512 VGG16 81.9 18.2 512×512 表 2 为网络模型在 PASCAL VOC2007 测试集的不同类别平均准确率的结果。从表中可以看出，本文方法在小目标类别中的平均检测准确率明显高于其他网络模型。本文所提出的网络整体的平均准确率高于其他网络 1%，其中如 bird、sheep、 plant 等小目标比其他网络最优准确率分别高 2.5%、 3.2%、2.7%，证明了提出网络的有效性。 ·1148· 智能系统学报第 14 卷

<<向上翻页向下翻页>>

点击下载：【机器学习】基于跳跃连接金字塔模型的小目标检测