【人工智能】基于F1值的非极大值抑制阈值自动选取方法

团购合买资源类别：文库，文档格式：PDF，文档页数：7，文件大小：4.32MB

第15卷第5期智能系统学报 Vol.15 No.5 2020年9月 CAAI Transactions on Intelligent Systems Sep.2020 D0:10.11992/tis.202006056 网络出版地址：https:/ns.cnki.net/kcms/detail/23.1538.TP.20200820.0956.002.html 基于F1值的非极大值抑制阈值自动选取方法王照国，张红云2，苗夺谦 (1.同济大学电子与信息工程学院，上海201804：2.同济大学嵌入式系统与服务计算教有部重点实验室，上海 201804) 摘要：传统的NMS算法的过滤阈值是人为设定的，由于阈值的选取不当可能会造成漏检和误检。在应用 NMS算法时，所有图像的最佳阈值不是完全相同的，根据图像自身信息的不同而发生变化。针对上述问题，提出基于F1值的非极大值抑制阈值自动选取方法，综合考虑检测算法的准确率与召回率，选取使F1值最高的最佳过滤阈值，构建映射关系。测试阶段，利用映射关系和图像信息自动选取对应的过滤阈值。实验结果表明，本文提出的改进版本NMS算法将检测精度mAP值提高了1.1%。与现有的先进算法做对比，证明了本文算法的有效性。关键词：计算机视觉；目标检测：非极大值抑制算法；卷积神经网络：深度学习：检测框：F1值：自适应算法中图分类号：TP391 文献标志码：A文章编号：1673-4785(2020)05-1006-07 中文引用格式：王照国，张红云，苗夺谦.基于F1值的非极大值抑制阈值自动选取方法J.智能系统学报，2020,15(5)： 1006-1012. 英文引用格式：VANG Zhaoguo,ZHANG Hongyun,.MIAO Duoqian.Automatic selection method of non-maximum suppression threshold based on F1 score[Jl.CAAI transactions on intelligent systems,2020,15(5):1006-1012. Automatic selection method of non-maximum suppression threshold based on F1 score WANG Zhaoguo',ZHANG Hongyun',MIAO Duoqian (1.College of Computer Science and Technology,Tongji University,Shanghai 201804,China;2.Key Laboratory of Embedded Sys- tem and Service Computing of Ministry of Education,Tongji University,Shanghai 201804,China) Abstract:The filtering threshold of the traditional non-maximum suppression (NMS)algorithm is artificially set. However,the improper selection of the threshold may result in leak and error detection.When applying the NMS al- gorithm,the optimal threshold for all images differs because the information obtained from the image itself changes. Given the aforementioned problems,we propose an automatic selection method of the NMS threshold based on the FI score,which comprehensively considers the accuracy and recall rates of the detection algorithm and selects the best fil- tering threshold based on the highest FI score to establish a relationship map.Experimental results show that the im- proved version of the NMS algorithm proposed in this study enhances the detection accuracy mAP value by 1.1%.Com- pared with the existing advanced algorithms,the proposed algorithm has been proven to be more effective. Keywords:computer vision;object detection;non-maximum suppression algorithm;convolutional neural network;deep learning;detection boxes;FI value;self-adaptive algorithm 目标检测是数字图像处理里面一个重要的方深度学习技术的火热发展，目标检测也从基于手向，近年来在各个领域得到了广泛应用。随着工提取特征的方法转换为基于深度学习的检测技收稿日期：2020-06-30.网络出版日期：2020-08-20. 术。基于深度学习的目标检测算法，依据是否产基金项目：国家自然科学基金项目(61573255,61976158，生候选区域可以分为两类，一类是单阶段目标检 61673301):国家重点研发计划项目(213). 通信作者：张红云.E-mail:zhanghongyun@tongji.edu.cn. 测算法，这一类的代表性算法有YOLO9、SSD

DOI: 10.11992/tis.202006056 网络出版地址: https://kns.cnki.net/kcms/detail/23.1538.TP.20200820.0956.002.html 基于 F1 值的非极大值抑制阈值自动选取方法王照国1 ，张红云2 ，苗夺谦2 （1. 同济大学电子与信息工程学院，上海 201804; 2. 同济大学嵌入式系统与服务计算教育部重点实验室，上海 201804）摘要：传统的 NMS 算法的过滤阈值是人为设定的，由于阈值的选取不当可能会造成漏检和误检。在应用 NMS 算法时，所有图像的最佳阈值不是完全相同的，根据图像自身信息的不同而发生变化。针对上述问题，提出基于 F1 值的非极大值抑制阈值自动选取方法，综合考虑检测算法的准确率与召回率，选取使 F1 值最高的最佳过滤阈值，构建映射关系。测试阶段，利用映射关系和图像信息自动选取对应的过滤阈值。实验结果表明，本文提出的改进版本 NMS 算法将检测精度 mAP 值提高了 1.1%。与现有的先进算法做对比，证明了本文算法的有效性。关键词：计算机视觉；目标检测；非极大值抑制算法；卷积神经网络；深度学习；检测框；F1 值；自适应算法中图分类号：TP391 文献标志码：A 文章编号：1673−4785(2020)05−1006−07 中文引用格式：王照国, 张红云, 苗夺谦. 基于 F1 值的非极大值抑制阈值自动选取方法 [J]. 智能系统学报, 2020, 15(5): 1006–1012. 英文引用格式：WANG Zhaoguo, ZHANG Hongyun, MIAO Duoqian. Automatic selection method of non-maximum suppression threshold based on F1 score[J]. CAAI transactions on intelligent systems, 2020, 15(5): 1006–1012. Automatic selection method of non-maximum suppression threshold based on F1 score WANG Zhaoguo1 ，ZHANG Hongyun2 ，MIAO Duoqian2 (1. College of Computer Science and Technology, Tongji University, Shanghai 201804, China; 2. Key Laboratory of Embedded System and Service Computing of Ministry of Education, Tongji University, Shanghai 201804, China) Abstract: The filtering threshold of the traditional non-maximum suppression (NMS) algorithm is artificially set. However, the improper selection of the threshold may result in leak and error detection. When applying the NMS algorithm, the optimal threshold for all images differs because the information obtained from the image itself changes. Given the aforementioned problems, we propose an automatic selection method of the NMS threshold based on the F1 score, which comprehensively considers the accuracy and recall rates of the detection algorithm and selects the best filtering threshold based on the highest F1 score to establish a relationship map. Experimental results show that the improved version of the NMS algorithm proposed in this study enhances the detection accuracy mAP value by 1.1%. Compared with the existing advanced algorithms, the proposed algorithm has been proven to be more effective. Keywords: computer vision; object detection; non-maximum suppression algorithm; convolutional neural network; deep learning; detection boxes; F1 value; self-adaptive algorithm 目标检测是数字图像处理里面一个重要的方向，近年来在各个领域得到了广泛应用[1-4]。随着深度学习技术的火热发展，目标检测也从基于手工提取特征的方法转换为基于深度学习的检测技术。基于深度学习的目标检测算法，依据是否产生候选区域可以分为两类，一类是单阶段目标检测算法，这一类的代表性算法有 YOLO[5] 、SSD[6] 、收稿日期：2020−06−30. 网络出版日期：2020−08−20. 基金项目：国家自然科学基金项目 (61573255， 61976158， 61673301)；国家重点研发计划项目 (213). 通信作者：张红云. E-mail：zhanghongyun@tongji.edu.cn. 第 15 卷第 5 期智能系统学报 Vol.15 No.5 2020 年 9 月 CAAI Transactions on Intelligent Systems Sep. 2020

第5期王照国，等：基于F1值的非极大值抑制阈值自动选取方法 ·1007· YOLOv3m等。另外一类就是双阶段目标检测算间，并且引入网络的参数调整十分困难，实验过法，如R-CNN、Fast R-CNN9、Faster R-CNNIOI等。程中很难获得一个性能表现良好的模型。无论是单阶段检测算法还是双阶段目标检测虽然很多算法对传统NMS算法做出了改进，算法，都不能直接得到令人满意的检测结果，产但是大多数仍然依赖于人为设定阈值。例如生的检测结果往往是冗余的。这时就需要采用 Soft-NMS,Soft-NMS算法在一定程度上缓解了 NMS)算法根据检测框之间的IOU(intersection NMS算法的漏检问题，但是在实验过程中发现， over union)值进行过滤，去除多余的检测框，获得 Soft-NMS会比传统的NMS算法产生更多的误检最佳的检测结果。样本。Softer-NMS基于Soft-NMS,对预测标注方传统的NMS算法首先需要人为设定一个阈差范围内的检测框加权平均，使高定位置信度的值，根据候选框之间重合度IOU进行过滤，但是检测框具有较高的分类置信度。但是无论上述哪这样由于阈值设定的不合理，可能会造成检测的种方法，应用过程中，仍然需要通过大量的实验漏检和误检。针对NMS算法存在的问题，Bodia 来调整一个相对合理的阈值。等提出Soft-NMS,对于IOU值大于阈值的候选针对上述问题，本文提出一种基于F1值的非框，不再是直接过滤掉，而是衰减其对应的置信极大值抑制阈值自动选取方法。根据图像自身信度值，文章中提供了两种衰减策略降低检测框置息的不同，我们提出的算法在过滤检测框时自动信度，在一定程度上面减少了漏检问题的出现，调整对应的过滤阈值，同时考虑了漏检、误检问但是却增加了误检问题。He等]提出Softer- 题，以及阈值调整带来的计算负担。 NMS,利用KL散度作为损失函数，训练模型首先 1NMS算法及阈值对算法的影响利用KL损失函数学习定位置信度，然后将大于重叠度阈值的候选框根据置信度加权平均。侯志 1.1 基本定义强等提出双阈值NMS,算法规定两个阈值对候一幅图像经过检测之后，对图像中的每个物选框进行过滤，同时避免了重叠度过高和过低带体，都会产生多个冗余检测框，检测算法最终的来的性能下降，缺点是增加了额外的阈值超参目的是使得每个物体只保留一个与真实框符合度数。赵文清等阿利用分段比例惩罚因子NMS和最高的检测框，NMS算法会根据检测框之间的连续比例惩罚因子NMS降低边界框置信度，多 IOU值进行过滤，从而保留最佳的检测框。NMS 次迭代之后移除置信度低于阈值的边界框，作者算法的步骤如下：通过实验证明，算法对于阈值设定的敏感度远远 1)图像经过检测算法之后，产生检测框集合低于传统NMS算法。Liu等u6针对曲线文本检 B,所有检测框对应的置信度集合S。设定NMS 测问题，提出了多边形NMS,考虑到文字图像中算法的过滤阈值N,建立空集D用于存放最终的经常出现的曲线情况，利用多边形检测框代替矩检测框。形框进行检测，具体流程与传统NMS算法类似。 2)从置信度集合S中选出最高得分m,在 Jiang等1m指出定位置信度与分类置信度不匹配 B中选择m对应的检测框M。的问题，将IOU置信度加入到日标检测的流程 3)将M从B中取出，放入D中。中，作者利用预测的IOU值替换置信度作为 4)遍历B中所有的检测框，计算B中检测框 NMS算法排名的关键依据，有助于消除分类置信 b,与M的IOU值，如果IOU值大于阈值N,则将度指导下的错误。Hosang等I]同样是考虑到 b,从B中别除，将b,对应的得分S,从S中剔除 IOU阈值如果设定的过高，可能导致抑制不够充 5)重复步骤2)~4)，直至集合B为空集。分，而过低又会出现多个真实检测框被过滤的情从NMS算法的步骤中可以看出，是否过滤检况，其设计一个卷积神经网络，组合含有不同重测框取决于阈值N的设定，而N的值往往是人为叠度阈值的NMS结果，通过学习的方法获取最规定的，需要通过大量实验来寻找一个较为合理佳输出。Liu等针对行人检测中目标过于密集的值，在实际应用的过程中，很难找到一个统一的问题，提出了一种自适应的非极大值抑制算的N,使得NMS算法能够同时保证检测结果的准法，作者通过设计一个卷积神经网络来学习密度确率和召回率。而由于NMS算法阈值设定的不的置信度，利用网络预测对应的阈值，但是作者合理，可能会导致最终检测结果的漏检和误检引入了一个新的网络，网络训练需要耗费大量时 (图1)

YOLOv3[7] 等。另外一类就是双阶段目标检测算法，如 R-CNN[8] 、Fast R-CNN[9] 、Faster R-CNN[10] 等。无论是单阶段检测算法还是双阶段目标检测算法，都不能直接得到令人满意的检测结果，产生的检测结果往往是冗余的。这时就需要采用 NMS[11] 算法根据检测框之间的 IOU(intersection over union) 值进行过滤，去除多余的检测框，获得最佳的检测结果。传统的 NMS 算法首先需要人为设定一个阈值，根据候选框之间重合度 IOU 进行过滤，但是这样由于阈值设定的不合理，可能会造成检测的漏检和误检。针对 NMS 算法存在的问题，Bodia[12] 等提出 Soft-NMS，对于 IOU 值大于阈值的候选框，不再是直接过滤掉，而是衰减其对应的置信度值，文章中提供了两种衰减策略降低检测框置信度，在一定程度上面减少了漏检问题的出现，但是却增加了误检问题。He 等 [13] 提出 SofterNMS，利用 KL 散度作为损失函数，训练模型首先利用 KL 损失函数学习定位置信度，然后将大于重叠度阈值的候选框根据置信度加权平均。侯志强等[14] 提出双阈值 NMS，算法规定两个阈值对候选框进行过滤，同时避免了重叠度过高和过低带来的性能下降，缺点是增加了额外的阈值超参数。赵文清等[15] 利用分段比例惩罚因子 NMS 和连续比例惩罚因子 NMS 降低边界框置信度，多次迭代之后移除置信度低于阈值的边界框，作者通过实验证明，算法对于阈值设定的敏感度远远低于传统 NMS 算法。Liu 等 [16] 针对曲线文本检测问题，提出了多边形 NMS，考虑到文字图像中经常出现的曲线情况，利用多边形检测框代替矩形框进行检测，具体流程与传统 NMS算法类似。 Jiang 等 [17] 指出定位置信度与分类置信度不匹配的问题，将 IOU 置信度加入到目标检测的流程中，作者利用预测的 I OU 值替换置信度作为 NMS 算法排名的关键依据，有助于消除分类置信度指导下的错误。Hosang 等 [ 1 8 ] 同样是考虑到 IOU 阈值如果设定的过高，可能导致抑制不够充分，而过低又会出现多个真实检测框被过滤的情况，其设计一个卷积神经网络，组合含有不同重叠度阈值的 NMS 结果，通过学习的方法获取最佳输出。Liu 等 [19] 针对行人检测中目标过于密集的问题，提出了一种自适应的非极大值抑制算法，作者通过设计一个卷积神经网络来学习密度的置信度，利用网络预测对应的阈值，但是作者引入了一个新的网络，网络训练需要耗费大量时间，并且引入网络的参数调整十分困难，实验过程中很难获得一个性能表现良好的模型。虽然很多算法对传统 NMS 算法做出了改进，但是大多数仍然依赖于人为设定阈值。例如 Soft-NMS，Soft-NMS 算法在一定程度上缓解了 NMS 算法的漏检问题，但是在实验过程中发现， Soft-NMS 会比传统的 NMS 算法产生更多的误检样本。Softer-NMS 基于 Soft-NMS，对预测标注方差范围内的检测框加权平均，使高定位置信度的检测框具有较高的分类置信度。但是无论上述哪种方法，应用过程中，仍然需要通过大量的实验来调整一个相对合理的阈值。针对上述问题，本文提出一种基于 F1 值的非极大值抑制阈值自动选取方法。根据图像自身信息的不同，我们提出的算法在过滤检测框时自动调整对应的过滤阈值，同时考虑了漏检、误检问题，以及阈值调整带来的计算负担。 1 NMS 算法及阈值对算法的影响 1.1 基本定义一幅图像经过检测之后，对图像中的每个物体，都会产生多个冗余检测框，检测算法最终的目的是使得每个物体只保留一个与真实框符合度最高的检测框，NMS 算法会根据检测框之间的 IOU 值进行过滤，从而保留最佳的检测框。NMS 算法的步骤如下： 1) 图像经过检测算法之后，产生检测框集合 B，所有检测框对应的置信度集合 S。设定 NMS 算法的过滤阈值 N，建立空集 D 用于存放最终的检测框。 2) 从置信度集合 S 中选出最高得分 m，在 B 中选择 m 对应的检测框 M。 3) 将 M 从 B 中取出，放入 D 中。 4) 遍历 B 中所有的检测框，计算 B 中检测框 bi 与 M 的 IOU 值，如果 IOU 值大于阈值 N，则将 bi 从 B 中剔除，将 bi 对应的得分 si 从 S 中剔除 5) 重复步骤 2)～4)，直至集合 B 为空集。从 NMS 算法的步骤中可以看出，是否过滤检测框取决于阈值 N 的设定，而 N 的值往往是人为规定的，需要通过大量实验来寻找一个较为合理的值，在实际应用的过程中，很难找到一个统一的 N，使得 NMS 算法能够同时保证检测结果的准确率和召回率。而由于 NMS 算法阈值设定的不合理，可能会导致最终检测结果的漏检和误检 (图 1)。第 5 期王照国，等：基于 F1 值的非极大值抑制阈值自动选取方法 ·1007·

·1008· 智能系统学报第15卷样即便两个检测框之间的IOU值较大，置信度较低的检测框也会得到保留，只是置信度值降低而不是直接过滤。 So-NMS置信度分段抑制策略： Uou (M,b)<N, s={xd-Uu(M.b》.UaM.b)≥N (2) 1.2阈值对NMS算法的影响前文中我们提到，无论是NMS还是Soft- NMS以及Softer-.NMS算法，最终都需要设定一个固定阈值进行过滤，对阈值的设定具有很大的依 (a)NMS中的漏检赖性，阈值设定得是否合理会对算法的性能产生很大的影响。表1为在相同实验条件下，NMS、 Soft-NMS、Softer-NMS在不同阈值之下的检测精度(mAP,mean average precision)。从表l中可以看到，随着阈值的变化，这3种算法的mAP都会发生明显变化，且性能最优点对应的阈值并不相同，在实际应用中需要根据数据以及模型，通过大量实验进行调整。图3为在不同阈值下NMS 算法针对一幅图像检测框的过滤结果，通过图3 可以看到，阈值的调整会在很大程度上影响算法 (b)NMS中的误检实际应用效果。图1NMS算法中的漏检和误检表1阈值对NMS、Soft-NMS以及Softer-.NMS算法的 Fig.1 Leak and error detection in NMS 影响 Table 1 Influence of threshold on NMS,Soft-NMS and NMS算法对于置信度抑制策略是： Softer-NMS Sis Uiou (M,bi)<N. 5= (1) 阈值 0,Uiou(M,b)≥Ng 算法 0.3 0.35 0.4 0.45 0.5 当两个检测框距离非常近的时候，其中分数 NMS 73.6 74.0 74.8 75.4 74.1 较低的框很可能因为与当前得分最高的框之间 Soft-NMS 73.8 74.5 75.9 75.2 74.6 的IOU值高于阈值而被抑制，置信度直接置为0， Softer-NMS 73.4 73.7 74.5 74.8 74.0 这样就会造成漏检问题（图2）。 (a)阈值0.3 (b)阈值0.5 (c)阈值0.7 图3阈值不同带来的性能差异 Fig.3 Performance differences due to different thresholds 2非极大值抑制阈值自动选取方法如上所述，传统的NMS算法存在误检和漏检图2阈值设定不合理导致的漏检问题问题，改进算法Soft-NMS虽然在一定程度上缓解 Fig.2 Leak detection caused by improper threshold 了漏检问题，但是仍然依赖人为规定阈值，需要针对漏检问题的出现，近年来产生了很多对进行大量实验进行调整。因此，本文提出了基于于NMS算法的改进。经典的Soft-NMS采用衰减 F1值（式(3）)的非极大值抑制阈值自动选取方函数来衰减检测框的分值，而不是直接置为0，这法，每幅图像根据图像中物体密度选择对应的过

(a) NMS 中的漏检 (b) NMS 中的误检图 1 NMS 算法中的漏检和误检 Fig. 1 Leak and error detection in NMS NMS 算法对于置信度抑制策略是： si =    si , UIoU (M,bi) < Nt 0, UIoU (M,bi) ⩾ Nt (1) 当两个检测框距离非常近的时候，其中分数较低的框很可能因为与当前得分最高的框之间的 IOU 值高于阈值而被抑制，置信度直接置为 0，这样就会造成漏检问题 (图 2)。图 2 阈值设定不合理导致的漏检问题 Fig. 2 Leak detection caused by improper threshold 针对漏检问题的出现，近年来产生了很多对于 NMS 算法的改进。经典的 Soft-NMS 采用衰减函数来衰减检测框的分值，而不是直接置为 0，这样即便两个检测框之间的 IOU 值较大，置信度较低的检测框也会得到保留，只是置信度值降低而不是直接过滤。 Soft-NMS 置信度分段抑制策略： si = { si , UIoU (M,bi) < Nt si ×(1−UIoU (M,bi)), UIoU (M,bi) ⩾ Nt (2) 1.2 阈值对 NMS 算法的影响前文中我们提到，无论是 NMS 还是 SoftNMS 以及 Softer-NMS 算法，最终都需要设定一个固定阈值进行过滤，对阈值的设定具有很大的依赖性，阈值设定得是否合理会对算法的性能产生很大的影响。表 1 为在相同实验条件下，NMS、 Soft-NMS、Softer-NMS 在不同阈值之下的检测精度 (mAP, mean average precision)。从表 1 中可以看到，随着阈值的变化，这 3 种算法的 mAP 都会发生明显变化，且性能最优点对应的阈值并不相同，在实际应用中需要根据数据以及模型，通过大量实验进行调整。图 3 为在不同阈值下 NMS 算法针对一幅图像检测框的过滤结果，通过图 3 可以看到，阈值的调整会在很大程度上影响算法实际应用效果。表 1 阈值对 NMS、Soft-NMS 以及 Softer-NMS 算法的影响 Table 1 Influence of threshold on NMS, Soft-NMS and Softer-NMS 算法阈值 0.3 0.35 0.4 0.45 0.5 NMS 73.6 74.0 74.8 75.4 74.1 Soft-NMS 73.8 74.5 75.9 75.2 74.6 Softer-NMS 73.4 73.7 74.5 74.8 74.0 (a) 阈值0.3 (b) 阈值0.5 (c) 阈值0.7 图 3 阈值不同带来的性能差异 Fig. 3 Performance differences due to different thresholds 2 非极大值抑制阈值自动选取方法如上所述，传统的 NMS 算法存在误检和漏检问题，改进算法 Soft-NMS 虽然在一定程度上缓解了漏检问题，但是仍然依赖人为规定阈值，需要进行大量实验进行调整。因此，本文提出了基于 F1 值 (式 (3)) 的非极大值抑制阈值自动选取方法，每幅图像根据图像中物体密度选择对应的过 ·1008· 智能系统学报第 15 卷

第5期王照国，等：基于F1值的非极大值抑制阈值自动选取方法 ·1009· 滤阈值，图像的密度由模型检测框数目来表示。集合B,记录B的数目numb: F1值为检测结果准确率和召回率的调和平均，在 2)在thresh domain内遍历阈值，利用阈值运目标检测任务中，准确率采用检测结果中真实框行NMS算法，计算F1值，记录使得F1值最高的所占比例来表示，而召回率采用真实框中占检测 NMS阈值best t; 框比例表示，这样同时考虑了检测模型的准确率 3)得到所有图像未经过NMS处理的检测框和召回率。数目numb,以及使得F1值最高的阈值best t; FI=2x PXR 4)利用(num_b,best t)构建映射关系map。 P+R (3) 有了映射关系，在测试阶段，将测试图片输入式中：P表示检测模型的准确率；R表示检测的召检测算法，得到未经过滤的检测框集合，根据检回率。测框数目numb以及映射关系map得到对应的当一幅图像中物体较多时，也就意味着图像阈值best t,利用best t来运行NMS算法。中物体密度可能相对更大，物体之间重叠的可能通过采用F1值作为优化指标，本算法综合考性就越高，针对物体数目多的图像，在应用虑了检测算法的召回率和准确率，使得NMS算 NMS算法时应该设定一个较大的阈值，这样可以法的阈值根据每幅图像的物体密度自动化调整，解决重叠物体带来的漏检问题，避免过滤真实物避免了对于人为设定超参数的依赖性，减少了超体。而对物体稀疏的图像而言，产生重叠的可能参数调整的时间成本，同时在一定程度上解决了性就会越小，因此阈值可以设置为一个较低的检测的漏检和误检问题，在检测任务上面的性能值，以此避免误检现象的出现。也获得了提升。首先，我们需要明确合理阈值存在的范围界限。应用NMS处理目标检测问题时，阈值通常 3实验分析选择在0.4~0.6，为了保证结果的合理性，避免异常值出现，我们将阈值范围限定在0.3~0.7，因为实验采用的是YOLOv3模型，YOLOv3网络基在实验过程中发现阈值设定过高或者过低都会对于Darknet网络构建，一共有53个卷积层。由于算法性能产生负面影响。 YOLO3是端到端的检测模型，所以并不需要像双明确阈值范围之后，就可以构建映射关系。阶段目标检测算法那样分开进行训练。我们采用首先我们需要在训练数据集上面应用训练好的检作者提供的预训练权重进行训练，这样能够取得更测算法产生检测框集合B,记录B中检测框数目快的收敛速度。我们提出的算法额外的存储空间 numb,接下来在阈值范围内遍历可能的阈值，利仅仅为一个映射关系模型，相较于我们的检测模用选定的阈值应用NMS算法得到过滤后的检测型，大小可以忽略。时间上面，在构建映射关系的结果，然后根据样本标签与检测结果计算检测的过程中，需要的时间小于检测模型训练一轮的时间，因此额外的时间开销在可接受的范围内。准确率和召回率，从而计算它们的F1值。在目标检测任务中，准确率采用检测结果中真实框所占 3.1实验数据以及实验参数比例来表示，而召回率采用真实框中占检测框比本实验采用的数据集是Pascal VOC20072o 例表示。记录使得F1值最高的NMS阈值best_t, 数据集，其中包括训练集VOC2007 trainval、测试遍历训练数据之后，就可以得到每一幅图像未经集VOC2007test以及验证集VOC2007val三部过NMS处理的检测框数目numb,以及使得分。原始Pascal VOC2007数据集对于每一个边 F1值最高的阈值best_t,然后利用(numb, 界框的标注格式是(x,1,x2,2),表示边界框左上 best t)构建映射关系map。这里我们尝试了几种和右下点坐标值，我们首先需要将其转换为(x,y 不同的映射关系，从最简单的线性回归到K均值 w,)格式，即表示中间点坐标以及边界框长宽的以及朴素贝叶斯方法：格式。除此之外，为了保证模型训练效果，需要 P(best_tnum_b)=P(best_t)P(num_bbest_t) 将标注数据按照图片尺寸进行归一化操作。 (4) P(num b) 在训练过程中设置batch size大小为16，并作为本文的核心部分，在构建映射关系阶段，应用了学习率衰减策略，学习率衰减权重设置为本文提出的算法流程如下： 07,此外，还应用了多尺度训练技巧，每隔一定输入检测模型model,,训练数据集data,阈的iteration随机选取一个尺度进行训练来提高精值范围thresh_domain。度。除此之外我们对模型添加了数据增强，能够输出映射关系map。进一步提高模型精度。 l)在数据集data上面应用model产生检测框图4为训练过程中检测衡量指标mAP值的

滤阈值，图像的密度由模型检测框数目来表示。 F1 值为检测结果准确率和召回率的调和平均，在目标检测任务中，准确率采用检测结果中真实框所占比例来表示，而召回率采用真实框中占检测框比例表示，这样同时考虑了检测模型的准确率和召回率。 F1 = 2× P×R P+R (3) 式中：P 表示检测模型的准确率；R 表示检测的召回率。当一幅图像中物体较多时，也就意味着图像中物体密度可能相对更大，物体之间重叠的可能性就越高，针对物体数目多的图像，在应用 NMS 算法时应该设定一个较大的阈值，这样可以解决重叠物体带来的漏检问题，避免过滤真实物体。而对物体稀疏的图像而言，产生重叠的可能性就会越小，因此阈值可以设置为一个较低的值，以此避免误检现象的出现。首先，我们需要明确合理阈值存在的范围界限。应用 NMS 处理目标检测问题时，阈值通常选择在 0.4～0.6，为了保证结果的合理性，避免异常值出现，我们将阈值范围限定在 0.3～0.7，因为在实验过程中发现阈值设定过高或者过低都会对算法性能产生负面影响。明确阈值范围之后，就可以构建映射关系。首先我们需要在训练数据集上面应用训练好的检测算法产生检测框集合 B，记录 B 中检测框数目 num_b，接下来在阈值范围内遍历可能的阈值，利用选定的阈值应用 NMS 算法得到过滤后的检测结果，然后根据样本标签与检测结果计算检测的准确率和召回率，从而计算它们的 F1 值。在目标检测任务中，准确率采用检测结果中真实框所占比例来表示，而召回率采用真实框中占检测框比例表示。记录使得 F1 值最高的 NMS 阈值 best_t，遍历训练数据之后，就可以得到每一幅图像未经过 NMS 处理的检测框数目 num_b，以及使得 F1 值最高的阈值 best_t，然后利用 (num_b， best_t) 构建映射关系 map。这里我们尝试了几种不同的映射关系，从最简单的线性回归到 K 均值以及朴素贝叶斯方法： P(best_t|num_b) = P(best_t)P(num_b|best_t) P(num_b) (4) 作为本文的核心部分，在构建映射关系阶段，本文提出的算法流程如下：输入检测模型 model，训练数据集 data，阈值范围 thresh_domain。输出映射关系 map。 1) 在数据集 data 上面应用 model 产生检测框集合 B，记录 B 的数目 num_b； 2) 在 thresh_domain 内遍历阈值，利用阈值运行 NMS 算法，计算 F1 值，记录使得 F1 值最高的 NMS 阈值 best_t； 3) 得到所有图像未经过 NMS 处理的检测框数目 num_b，以及使得 F1 值最高的阈值 best_t； 4) 利用 (num_b，best_t) 构建映射关系 map。有了映射关系，在测试阶段，将测试图片输入检测算法，得到未经过滤的检测框集合，根据检测框数目 num_b 以及映射关系 map 得到对应的阈值 best_t，利用 best_t 来运行 NMS 算法。通过采用 F1 值作为优化指标，本算法综合考虑了检测算法的召回率和准确率，使得 NMS 算法的阈值根据每幅图像的物体密度自动化调整，避免了对于人为设定超参数的依赖性，减少了超参数调整的时间成本，同时在一定程度上解决了检测的漏检和误检问题，在检测任务上面的性能也获得了提升。 3 实验分析实验采用的是 YOLOv3 模型，YOLOv3 网络基于 Darknet 网络构建，一共有 53 个卷积层。由于 YOLOv3 是端到端的检测模型，所以并不需要像双阶段目标检测算法那样分开进行训练。我们采用作者提供的预训练权重进行训练，这样能够取得更快的收敛速度。我们提出的算法额外的存储空间仅仅为一个映射关系模型，相较于我们的检测模型，大小可以忽略。时间上面，在构建映射关系的过程中，需要的时间小于检测模型训练一轮的时间，因此额外的时间开销在可接受的范围内。 3.1 实验数据以及实验参数本实验采用的数据集是 Pascal VOC 2007[20] 数据集，其中包括训练集 VOC 2007 trainval、测试集 VOC 2007 test 以及验证集 VOC 2007 val 三部分。原始 Pascal VOC 2007 数据集对于每一个边界框的标注格式是 (x1 , y1 , x2 , y2 )，表示边界框左上和右下点坐标值，我们首先需要将其转换为 (x, y, w, h) 格式，即表示中间点坐标以及边界框长宽的格式。除此之外，为了保证模型训练效果，需要将标注数据按照图片尺寸进行归一化操作。在训练过程中设置 batch_size 大小为 16，并应用了学习率衰减策略，学习率衰减权重设置为 0.7，此外，还应用了多尺度训练技巧，每隔一定的 iteration 随机选取一个尺度进行训练来提高精度。除此之外我们对模型添加了数据增强，能够进一步提高模型精度。图 4 为训练过程中检测衡量指标 mAP 值的第 5 期王照国，等：基于 F1 值的非极大值抑制阈值自动选取方法 ·1009·

·1010· 智能系统学报第15卷变化情况。可以从图中看到，在训练经过40轮迭通过观察发现，大多数图像的预测框数目介代训练之后，mAP变化值趋于稳定。于0~200，最佳阈值的范围在0.3~0.7，所以我们 0.80 构建了横坐标为0~200，纵坐标范围为0.3~0.7 0.75 0.70 MW 的线性回归作为映射，同时，我们尝试了k-means 分类、朴素贝叶斯分类、SVC分类等方法来构建 0.65 映射，最终选择性能具有最佳表现的朴素贝叶斯 0.60 分类算法。 0.55 3.4实验效果对比 0.50 为了突出本文算法在解决目标漏检与误检 0.45 问题上面的表现，将本算法分别与NMS、Soft- 10 2030 4050 epoch NMS以及Softer-NMS在Pascal VOC数据集上面做了对比（图6），从图6中可以看到，本文提出的图4训练过程中的mAP Fig.4 mAP during training 算法性能并不受阈值的影响，且mAP值高于其他 3.2边界框数目与物体密度之间的相关性算法。本文出发点是利用边界框数目信息反应物体 76.5 密度，所以首先需要首先验证两者之间的相关 NMS 76.0 Soft-NMS 性。如图5所示，横坐标表示图像中真实的物体 --Softer-NMS 75.5 -…Our method 数目，纵坐标表示模型预测后未经过NMS算法过滤之前的边界框数目，可以看到，两者之间存在一 275.0 种强线性相关关系，这也就证实了本文改进算法 74.5 的合理性。 74.0 73.5 300 250 、、、分、、、、、、 200 阈值图6算法性能对比 Fig.6 Algorithm performance comparison 50 在图7和图8分别表示在Pascal数据集和 10 1520 25 30 真实的物体数目 COC0数据集2]上，本文提出的算法在实际应用中与NMS算法以及Soft-NMS算法之间的效果对图5边界框数目相关性分析 Fig.5 Correlation analysis of the number of bounding 比，我们提出的算法在实际应用过程中具有更好 boxes 的检测效果。 33映射关系选择构建检测框数目-最佳阈值之间的映射关系，采取了不同的模型算法，观察对比这几种不同映射函数之间的性能差异。表2为不同映射函数性 (a)NMS 能表现。表2不同映射函数的性能表现 Table 2 Performance of different mapping functions (b)Soft-NM 算法 mAP 线性回归 75.8 支持向量回归 (c)本文方法 76.3 k均值聚类图7本文提出算法与其他算法实验效果对比VOC数据集) 76.0 Fig.7 Comparison of experimental results between the 朴素贝叶斯 76.5 proposed algorithm and other algorithms (VOC dataset)

变化情况。可以从图中看到，在训练经过 40 轮迭代训练之后，mAP 变化值趋于稳定。 0.45 0 10 20 30 epoch 40 50 0.50 0.55 0.60 mAP 0.65 0.70 0.75 0.80 图 4 训练过程中的 mAP Fig. 4 mAP during training 3.2 边界框数目与物体密度之间的相关性本文出发点是利用边界框数目信息反应物体密度，所以首先需要首先验证两者之间的相关性。如图 5 所示，横坐标表示图像中真实的物体数目，纵坐标表示模型预测后未经过 NMS 算法过滤之前的边界框数目，可以看到，两者之间存在一种强线性相关关系，这也就证实了本文改进算法的合理性。 0 5 10 15 真实的物体数目 20 25 30 预测物体数目 50 100 150 200 300 250 0 图 5 边界框数目相关性分析 Fig. 5 Correlation analysis of the number of bounding boxes 3.3 映射关系选择构建检测框数目−最佳阈值之间的映射关系，采取了不同的模型算法，观察对比这几种不同映射函数之间的性能差异。表 2 为不同映射函数性能表现。表 2 不同映射函数的性能表现 Table 2 Performance of different mapping functions 算法 mAP 线性回归 75.8 支持向量回归 76.3 k均值聚类 76.0 朴素贝叶斯 76.5 通过观察发现，大多数图像的预测框数目介于 0～200，最佳阈值的范围在 0.3～0.7，所以我们构建了横坐标为 0～200，纵坐标范围为 0.3～0.7 的线性回归作为映射，同时，我们尝试了 k-means 分类、朴素贝叶斯分类、SVC 分类等方法来构建映射，最终选择性能具有最佳表现的朴素贝叶斯分类算法。 3.4 实验效果对比为了突出本文算法在解决目标漏检与误检问题上面的表现，将本算法分别与 NMS、SoftNMS 以及 Softer-NMS 在 Pascal VOC 数据集上面做了对比 (图 6)，从图 6 中可以看到，本文提出的算法性能并不受阈值的影响，且 mAP 值高于其他算法。 0.300 73.5 74.0 74.5 75.0 mAP 75.5 76.0 76.5 NMS Soft-NMS Softer-NMS Our method 0.325 0.350 0.375 0.400 阈值 0.425 0.450 0.475 0.500 图 6 算法性能对比 Fig. 6 Algorithm performance comparison 在图 7 和图 8 分别表示在 Pascal 数据集和 COCO 数据集[21] 上，本文提出的算法在实际应用中与 NMS 算法以及 Soft-NMS 算法之间的效果对比，我们提出的算法在实际应用过程中具有更好的检测效果。 (a) NMS (b) Soft-NMS (c) 本文方法图 7 本文提出算法与其他算法实验效果对比 (VOC 数据集) Fig. 7 Comparison of experimental results between the proposed algorithm and other algorithms (VOC dataset) ·1010· 智能系统学报第 15 卷

第5期王照国，等：基于F1值的非极大值抑制阈值自动选取方法 ·1011· image processing,2015,24(12):5706-5722 [5]REDMON J.DIVVALA S.GIRSHICK R,et al.You only (a)NMS look once:unified,real-time object detection[C]//Proceed- ings of 2016 IEEE Conference on Computer Vision and Pattern Recognition.Las Vegas,USA,2016:779-788. [6]LIU Wei,ANGUELOV D,ERHAN D,et al.SSD:single (b)Soft-NMS shot MultiBox detector[C]//Proceedings of the 14th European Conference on Computer Vision.Amsterdam, the Netherlands.2016:21-37. (c)本文算法 [7]REDMON J,FARHADI A.YOLOv3:an incremental im- 图8本文提出算法与其他算法实验效果对比(COC0数 provement[J].arXiv preprint arXiv:1804.02767,2018. 据集) [8]GIRSHICK R,DONAHUE J,DARRELL T,et al.Rich Fig.8 Comparison of experimental results between the proposed algorithm and other algorithms (COCO feature hierarchies for accurate object detection and se- dataset) mantic segmentation[C]//Proceedings of 2014 IEEE Con- 4结束语 ference on Computer Vision and Pattern Recognition. Columbus,USA,2014:580-587 传统的非极大值抑制算法需要大量实验调整 [9]GIRSHICK R.Fast R-CNN[C//Proceedings of 2015 IEEE 阈值，阈值设定的不合理会导致漏检和误检，阈 International Conference on Computer Vision.Santiago, 值调整需要耗费大量时间。基于此，本文提出了 USA,2015:1440-1448. 基于F1值的非极大值抑制阈值自动选取方法，减 [10]REN Shaoqing,HE Kaiming,GIRSHICK R,et al.Faster 弱了检测算法对于人为设定阈值的依赖，减少了 R-CNN:Towards real-time object detection with region 阈值调整耗费的时间。利用YOLOv.3模型在Pas cal VOC2007数据集上面进行训练，通过与传统 proposal networks[J].IEEE transactions on pattern ana- lysis and machine intelligence,2017,39(6):1137-1149. NMS、Soft-NMS以及Softer-NMS算法进行性能对比，证明了本算法在检测准确率方面的提高。 [11]ROSENFELD A,THURSTON M.Edge and curve detec- 本文可以采用更多的映射模型来获取最佳阈值， tion for visual scene analysis[J].IEEE transactions on 期望未来能够使用卷积神经网络获取更加精准的 computers,1971,C-20(5):562-569. 映射关系模型。 [12]BODLA N,SINGH B,CHELLAPPA R,et al.Soft- 参考文献： NMS-improving object detection with one line of code[Cl//Proceedings of 2017 IEEE International Confer- [1]FELZENSZWALB P F,GIRSHICK R B,MCALLESTER ence on Computer Vision.Venice,Italy,2017: D,et al.Object detection with discriminatively trained 5561-5569 part-based models[J].IEEE transactions on pattern analys- [13]HE Yihui,ZHU Chenchen,WANG Jianren,et al.Bound- is and machine intelligence,2010,32(9):1627-1645 ing box regression with uncertainty for accurate object de- [2]HAN Junwei,ZHANG Dingwen,CHENG Gong,et al.Ad- tection[C]//Proceedings of 2019 IEEE/CVF Conference vanced deep-learning techniques for salient and category- on Computer Vision and Pattern Recognition.Long specific object detection:a survey[J].IEEE signal pro- Beach,USA,2019:2888-2897. cessing magazine,2018,35(1):84-100. [14]侯志强，刘晓义，余旺盛，等.基于双阈值-非极大值抑制 [3]XIE Cihang,WANG Jianyu,ZHANG Zhishuai,et al.Ad- 的Faster R-CNN改进算法[.光电工程，2019,46(12)」 versarial examples for semantic segmentation and object 190159. detection[C]//Proceedings of 2017 IEEE International Con- HOU Zhiqiang,LIU Xiaoyi,YU Wangsheng,et al.Im- ference on Computer Vision.Venice,Italy,2017: proved algorithm of Faster R-CNN based on double 1369-1378. threshold-non-maximum suppression[J].Opto-electronic [4]BORJI A,CHENG Mingming,JIANG Huaizu,et al.Sali- engineering,2019,46(12):190159 ent object detection:a benchmark[J].IEEE transactions on [15]赵文清，严海，邵绪强.改进的非极大值抑制算法的目

(a) NMS (b) Soft-NMS (c) 本文算法图 8 本文提出算法与其他算法实验效果对比 (COCO 数据集) Fig. 8 Comparison of experimental results between the proposed algorithm and other algorithms (COCO dataset) 4 结束语传统的非极大值抑制算法需要大量实验调整阈值，阈值设定的不合理会导致漏检和误检，阈值调整需要耗费大量时间。基于此，本文提出了基于 F1 值的非极大值抑制阈值自动选取方法，减弱了检测算法对于人为设定阈值的依赖，减少了阈值调整耗费的时间。利用 YOLOv3 模型在 Pascal VOC 2007 数据集上面进行训练，通过与传统 NMS、Soft-NMS 以及 Softer-NMS 算法进行性能对比，证明了本算法在检测准确率方面的提高。本文可以采用更多的映射模型来获取最佳阈值，期望未来能够使用卷积神经网络获取更加精准的映射关系模型。参考文献： FELZENSZWALB P F, GIRSHICK R B, MCALLESTER D, et al. Object detection with discriminatively trained part-based models[J]. IEEE transactions on pattern analysis and machine intelligence, 2010, 32(9): 1627–1645. [1] HAN Junwei, ZHANG Dingwen, CHENG Gong, et al. Advanced deep-learning techniques for salient and categoryspecific object detection: a survey[J]. IEEE signal processing magazine, 2018, 35(1): 84–100. [2] XIE Cihang, WANG Jianyu, ZHANG Zhishuai, et al. Adversarial examples for semantic segmentation and object detection[C]//Proceedings of 2017 IEEE International Conference on Computer Vision. Venice, Italy, 2017: 1369−1378. [3] BORJI A, CHENG Mingming, JIANG Huaizu, et al. Salient object detection: a benchmark[J]. IEEE transactions on [4] image processing, 2015, 24(12): 5706–5722. REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: unified, real-time object detection[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA, 2016: 779−788. [5] LIU Wei, ANGUELOV D, ERHAN D, et al. SSD: single shot MultiBox detector[C]//Proceedings of the 14th European Conference on Computer Vision. Amsterdam, the Netherlands, 2016: 21−37. [6] REDMON J, FARHADI A. YOLOv3: an incremental improvement[J]. arXiv preprint arXiv: 1804.02767, 2018. [7] GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, USA, 2014: 580−587. [8] GIRSHICK R. Fast R-CNN[C]//Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago, USA, 2015: 1440−1448. [9] REN Shaoqing, HE Kaiming, GIRSHICK R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[J]. IEEE transactions on pattern analysis and machine intelligence, 2017, 39(6): 1137–1149. [10] ROSENFELD A, THURSTON M. Edge and curve detection for visual scene analysis[J]. IEEE transactions on computers, 1971, C-20(5): 562–569. [11] BODLA N, SINGH B, CHELLAPPA R, et al. SoftNMS—improving object detection with one line of code[C]//Proceedings of 2017 IEEE International Conference on Computer Vision. Venice, Italy, 2017: 5561−5569. [12] HE Yihui, ZHU Chenchen, WANG Jianren, et al. Bounding box regression with uncertainty for accurate object detection[C]//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA, 2019: 2888−2897. [13] 侯志强, 刘晓义, 余旺盛, 等. 基于双阈值-非极大值抑制的 Faster R-CNN 改进算法 [J]. 光电工程, 2019, 46(12): 190159. HOU Zhiqiang, LIU Xiaoyi, YU Wangsheng, et al. Improved algorithm of Faster R-CNN based on double threshold-non-maximum suppression[J]. Opto-electronic engineering, 2019, 46(12): 190159. [14] [15] 赵文清, 严海, 邵绪强. 改进的非极大值抑制算法的目第 5 期王照国，等：基于 F1 值的非极大值抑制阈值自动选取方法 ·1011·

点击进入文档下载页（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录