第15卷第5期 智能系统学报 Vol.15 No.5 2020年9月 CAAI Transactions on Intelligent Systems Sep.2020 D0:10.11992/tis.202006056 网络出版地址:https:/ns.cnki.net/kcms/detail/23.1538.TP.20200820.0956.002.html 基于F1值的非极大值抑制阈值自动选取方法 王照国,张红云2,苗夺谦 (1.同济大学电子与信息工程学院,上海201804:2.同济大学嵌入式系统与服务计算教有部重点实验室,上海 201804) 摘要:传统的NMS算法的过滤阈值是人为设定的,由于阈值的选取不当可能会造成漏检和误检。在应用 NMS算法时,所有图像的最佳阈值不是完全相同的,根据图像自身信息的不同而发生变化。针对上述问题,提 出基于F1值的非极大值抑制阈值自动选取方法,综合考虑检测算法的准确率与召回率,选取使F1值最高的最 佳过滤阈值,构建映射关系。测试阶段,利用映射关系和图像信息自动选取对应的过滤阈值。实验结果表明, 本文提出的改进版本NMS算法将检测精度mAP值提高了1.1%。与现有的先进算法做对比,证明了本文算法 的有效性。 关键词:计算机视觉;目标检测:非极大值抑制算法;卷积神经网络:深度学习:检测框:F1值:自适应算法 中图分类号:TP391 文献标志码:A文章编号:1673-4785(2020)05-1006-07 中文引用格式:王照国,张红云,苗夺谦.基于F1值的非极大值抑制阈值自动选取方法J.智能系统学报,2020,15(5): 1006-1012. 英文引用格式:VANG Zhaoguo,ZHANG Hongyun,.MIAO Duoqian.Automatic selection method of non-maximum suppression threshold based on F1 score[Jl.CAAI transactions on intelligent systems,2020,15(5):1006-1012. Automatic selection method of non-maximum suppression threshold based on F1 score WANG Zhaoguo',ZHANG Hongyun',MIAO Duoqian (1.College of Computer Science and Technology,Tongji University,Shanghai 201804,China;2.Key Laboratory of Embedded Sys- tem and Service Computing of Ministry of Education,Tongji University,Shanghai 201804,China) Abstract:The filtering threshold of the traditional non-maximum suppression (NMS)algorithm is artificially set. However,the improper selection of the threshold may result in leak and error detection.When applying the NMS al- gorithm,the optimal threshold for all images differs because the information obtained from the image itself changes. Given the aforementioned problems,we propose an automatic selection method of the NMS threshold based on the FI score,which comprehensively considers the accuracy and recall rates of the detection algorithm and selects the best fil- tering threshold based on the highest FI score to establish a relationship map.Experimental results show that the im- proved version of the NMS algorithm proposed in this study enhances the detection accuracy mAP value by 1.1%.Com- pared with the existing advanced algorithms,the proposed algorithm has been proven to be more effective. Keywords:computer vision;object detection;non-maximum suppression algorithm;convolutional neural network;deep learning;detection boxes;FI value;self-adaptive algorithm 目标检测是数字图像处理里面一个重要的方 深度学习技术的火热发展,目标检测也从基于手 向,近年来在各个领域得到了广泛应用。随着 工提取特征的方法转换为基于深度学习的检测技 收稿日期:2020-06-30.网络出版日期:2020-08-20. 术。基于深度学习的目标检测算法,依据是否产 基金项目:国家自然科学基金项目(61573255,61976158, 生候选区域可以分为两类,一类是单阶段目标检 61673301):国家重点研发计划项目(213). 通信作者:张红云.E-mail:zhanghongyun@tongji.edu.cn. 测算法,这一类的代表性算法有YOLO9、SSD
DOI: 10.11992/tis.202006056 网络出版地址: https://kns.cnki.net/kcms/detail/23.1538.TP.20200820.0956.002.html 基于 F1 值的非极大值抑制阈值自动选取方法 王照国1 ,张红云2 ,苗夺谦2 (1. 同济大学 电子与信息工程学院,上海 201804; 2. 同济大学 嵌入式系统与服务计算教育部重点实验室,上海 201804) 摘 要:传统的 NMS 算法的过滤阈值是人为设定的,由于阈值的选取不当可能会造成漏检和误检。在应用 NMS 算法时,所有图像的最佳阈值不是完全相同的,根据图像自身信息的不同而发生变化。针对上述问题,提 出基于 F1 值的非极大值抑制阈值自动选取方法,综合考虑检测算法的准确率与召回率,选取使 F1 值最高的最 佳过滤阈值,构建映射关系。测试阶段,利用映射关系和图像信息自动选取对应的过滤阈值。实验结果表明, 本文提出的改进版本 NMS 算法将检测精度 mAP 值提高了 1.1%。与现有的先进算法做对比,证明了本文算法 的有效性。 关键词:计算机视觉;目标检测;非极大值抑制算法;卷积神经网络;深度学习;检测框;F1 值;自适应算法 中图分类号:TP391 文献标志码:A 文章编号:1673−4785(2020)05−1006−07 中文引用格式:王照国, 张红云, 苗夺谦. 基于 F1 值的非极大值抑制阈值自动选取方法 [J]. 智能系统学报, 2020, 15(5): 1006–1012. 英文引用格式:WANG Zhaoguo, ZHANG Hongyun, MIAO Duoqian. Automatic selection method of non-maximum suppression threshold based on F1 score[J]. CAAI transactions on intelligent systems, 2020, 15(5): 1006–1012. Automatic selection method of non-maximum suppression threshold based on F1 score WANG Zhaoguo1 ,ZHANG Hongyun2 ,MIAO Duoqian2 (1. College of Computer Science and Technology, Tongji University, Shanghai 201804, China; 2. Key Laboratory of Embedded System and Service Computing of Ministry of Education, Tongji University, Shanghai 201804, China) Abstract: The filtering threshold of the traditional non-maximum suppression (NMS) algorithm is artificially set. However, the improper selection of the threshold may result in leak and error detection. When applying the NMS algorithm, the optimal threshold for all images differs because the information obtained from the image itself changes. Given the aforementioned problems, we propose an automatic selection method of the NMS threshold based on the F1 score, which comprehensively considers the accuracy and recall rates of the detection algorithm and selects the best filtering threshold based on the highest F1 score to establish a relationship map. Experimental results show that the improved version of the NMS algorithm proposed in this study enhances the detection accuracy mAP value by 1.1%. Compared with the existing advanced algorithms, the proposed algorithm has been proven to be more effective. Keywords: computer vision; object detection; non-maximum suppression algorithm; convolutional neural network; deep learning; detection boxes; F1 value; self-adaptive algorithm 目标检测是数字图像处理里面一个重要的方 向,近年来在各个领域得到了广泛应用[1-4]。随着 深度学习技术的火热发展,目标检测也从基于手 工提取特征的方法转换为基于深度学习的检测技 术。基于深度学习的目标检测算法,依据是否产 生候选区域可以分为两类,一类是单阶段目标检 测算法,这一类的代表性算法有 YOLO[5] 、SSD[6] 、 收稿日期:2020−06−30. 网络出版日期:2020−08−20. 基金项目:国家自然科学基金项 目 (61573255, 61976158, 61673301);国家重点研发计划项目 (213). 通信作者:张红云. E-mail:zhanghongyun@tongji.edu.cn. 第 15 卷第 5 期 智 能 系 统 学 报 Vol.15 No.5 2020 年 9 月 CAAI Transactions on Intelligent Systems Sep. 2020
第5期 王照国,等:基于F1值的非极大值抑制阈值自动选取方法 ·1007· YOLOv3m等。另外一类就是双阶段目标检测算 间,并且引入网络的参数调整十分困难,实验过 法,如R-CNN、Fast R-CNN9、Faster R-CNNIOI等。 程中很难获得一个性能表现良好的模型。 无论是单阶段检测算法还是双阶段目标检测 虽然很多算法对传统NMS算法做出了改进, 算法,都不能直接得到令人满意的检测结果,产 但是大多数仍然依赖于人为设定阈值。例如 生的检测结果往往是冗余的。这时就需要采用 Soft-NMS,Soft-NMS算法在一定程度上缓解了 NMS)算法根据检测框之间的IOU(intersection NMS算法的漏检问题,但是在实验过程中发现, over union)值进行过滤,去除多余的检测框,获得 Soft-NMS会比传统的NMS算法产生更多的误检 最佳的检测结果。 样本。Softer-NMS基于Soft-NMS,对预测标注方 传统的NMS算法首先需要人为设定一个阈 差范围内的检测框加权平均,使高定位置信度的 值,根据候选框之间重合度IOU进行过滤,但是 检测框具有较高的分类置信度。但是无论上述哪 这样由于阈值设定的不合理,可能会造成检测的 种方法,应用过程中,仍然需要通过大量的实验 漏检和误检。针对NMS算法存在的问题,Bodia 来调整一个相对合理的阈值。 等提出Soft-NMS,对于IOU值大于阈值的候选 针对上述问题,本文提出一种基于F1值的非 框,不再是直接过滤掉,而是衰减其对应的置信 极大值抑制阈值自动选取方法。根据图像自身信 度值,文章中提供了两种衰减策略降低检测框置 息的不同,我们提出的算法在过滤检测框时自动 信度,在一定程度上面减少了漏检问题的出现, 调整对应的过滤阈值,同时考虑了漏检、误检问 但是却增加了误检问题。He等]提出Softer- 题,以及阈值调整带来的计算负担。 NMS,利用KL散度作为损失函数,训练模型首先 1NMS算法及阈值对算法的影响 利用KL损失函数学习定位置信度,然后将大于 重叠度阈值的候选框根据置信度加权平均。侯志 1.1 基本定义 强等提出双阈值NMS,算法规定两个阈值对候 一幅图像经过检测之后,对图像中的每个物 选框进行过滤,同时避免了重叠度过高和过低带 体,都会产生多个冗余检测框,检测算法最终的 来的性能下降,缺点是增加了额外的阈值超参 目的是使得每个物体只保留一个与真实框符合度 数。赵文清等阿利用分段比例惩罚因子NMS和 最高的检测框,NMS算法会根据检测框之间的 连续比例惩罚因子NMS降低边界框置信度,多 IOU值进行过滤,从而保留最佳的检测框。NMS 次迭代之后移除置信度低于阈值的边界框,作者 算法的步骤如下: 通过实验证明,算法对于阈值设定的敏感度远远 1)图像经过检测算法之后,产生检测框集合 低于传统NMS算法。Liu等u6针对曲线文本检 B,所有检测框对应的置信度集合S。设定NMS 测问题,提出了多边形NMS,考虑到文字图像中 算法的过滤阈值N,建立空集D用于存放最终的 经常出现的曲线情况,利用多边形检测框代替矩 检测框。 形框进行检测,具体流程与传统NMS算法类似。 2)从置信度集合S中选出最高得分m,在 Jiang等1m指出定位置信度与分类置信度不匹配 B中选择m对应的检测框M。 的问题,将IOU置信度加入到日标检测的流程 3)将M从B中取出,放入D中。 中,作者利用预测的IOU值替换置信度作为 4)遍历B中所有的检测框,计算B中检测框 NMS算法排名的关键依据,有助于消除分类置信 b,与M的IOU值,如果IOU值大于阈值N,则将 度指导下的错误。Hosang等I]同样是考虑到 b,从B中别除,将b,对应的得分S,从S中剔除 IOU阈值如果设定的过高,可能导致抑制不够充 5)重复步骤2)~4),直至集合B为空集。 分,而过低又会出现多个真实检测框被过滤的情 从NMS算法的步骤中可以看出,是否过滤检 况,其设计一个卷积神经网络,组合含有不同重 测框取决于阈值N的设定,而N的值往往是人为 叠度阈值的NMS结果,通过学习的方法获取最 规定的,需要通过大量实验来寻找一个较为合理 佳输出。Liu等针对行人检测中目标过于密集 的值,在实际应用的过程中,很难找到一个统一 的问题,提出了一种自适应的非极大值抑制算 的N,使得NMS算法能够同时保证检测结果的准 法,作者通过设计一个卷积神经网络来学习密度 确率和召回率。而由于NMS算法阈值设定的不 的置信度,利用网络预测对应的阈值,但是作者 合理,可能会导致最终检测结果的漏检和误检 引入了一个新的网络,网络训练需要耗费大量时 (图1)
YOLOv3[7] 等。另外一类就是双阶段目标检测算 法,如 R-CNN[8] 、Fast R-CNN[9] 、Faster R-CNN[10] 等。 无论是单阶段检测算法还是双阶段目标检测 算法,都不能直接得到令人满意的检测结果,产 生的检测结果往往是冗余的。这时就需要采用 NMS[11] 算法根据检测框之间的 IOU(intersection over union) 值进行过滤,去除多余的检测框,获得 最佳的检测结果。 传统的 NMS 算法首先需要人为设定一个阈 值,根据候选框之间重合度 IOU 进行过滤,但是 这样由于阈值设定的不合理,可能会造成检测的 漏检和误检。针对 NMS 算法存在的问题,Bodia[12] 等提出 Soft-NMS,对于 IOU 值大于阈值的候选 框,不再是直接过滤掉,而是衰减其对应的置信 度值,文章中提供了两种衰减策略降低检测框置 信度,在一定程度上面减少了漏检问题的出现, 但是却增加了误检问题。He 等 [13] 提出 SofterNMS,利用 KL 散度作为损失函数,训练模型首先 利用 KL 损失函数学习定位置信度,然后将大于 重叠度阈值的候选框根据置信度加权平均。侯志 强等[14] 提出双阈值 NMS,算法规定两个阈值对候 选框进行过滤,同时避免了重叠度过高和过低带 来的性能下降,缺点是增加了额外的阈值超参 数。赵文清等[15] 利用分段比例惩罚因子 NMS 和 连续比例惩罚因子 NMS 降低边界框置信度,多 次迭代之后移除置信度低于阈值的边界框,作者 通过实验证明,算法对于阈值设定的敏感度远远 低于传统 NMS 算法。Liu 等 [16] 针对曲线文本检 测问题,提出了多边形 NMS,考虑到文字图像中 经常出现的曲线情况,利用多边形检测框代替矩 形框进行检测,具体流程与传统 NMS算法类似。 Jiang 等 [17] 指出定位置信度与分类置信度不匹配 的问题,将 IOU 置信度加入到目标检测的流程 中,作者利用预测 的 I OU 值替换置信度作 为 NMS 算法排名的关键依据,有助于消除分类置信 度指导下的错误。Hosang 等 [ 1 8 ] 同样是考虑到 IOU 阈值如果设定的过高,可能导致抑制不够充 分,而过低又会出现多个真实检测框被过滤的情 况,其设计一个卷积神经网络,组合含有不同重 叠度阈值的 NMS 结果,通过学习的方法获取最 佳输出。Liu 等 [19] 针对行人检测中目标过于密集 的问题,提出了一种自适应的非极大值抑制算 法,作者通过设计一个卷积神经网络来学习密度 的置信度,利用网络预测对应的阈值,但是作者 引入了一个新的网络,网络训练需要耗费大量时 间,并且引入网络的参数调整十分困难,实验过 程中很难获得一个性能表现良好的模型。 虽然很多算法对传统 NMS 算法做出了改进, 但是大多数仍然依赖于人为设定阈值。例如 Soft-NMS,Soft-NMS 算法在一定程度上缓解了 NMS 算法的漏检问题,但是在实验过程中发现, Soft-NMS 会比传统的 NMS 算法产生更多的误检 样本。Softer-NMS 基于 Soft-NMS,对预测标注方 差范围内的检测框加权平均,使高定位置信度的 检测框具有较高的分类置信度。但是无论上述哪 种方法,应用过程中,仍然需要通过大量的实验 来调整一个相对合理的阈值。 针对上述问题,本文提出一种基于 F1 值的非 极大值抑制阈值自动选取方法。根据图像自身信 息的不同,我们提出的算法在过滤检测框时自动 调整对应的过滤阈值,同时考虑了漏检、误检问 题,以及阈值调整带来的计算负担。 1 NMS 算法及阈值对算法的影响 1.1 基本定义 一幅图像经过检测之后,对图像中的每个物 体,都会产生多个冗余检测框,检测算法最终的 目的是使得每个物体只保留一个与真实框符合度 最高的检测框,NMS 算法会根据检测框之间的 IOU 值进行过滤,从而保留最佳的检测框。NMS 算法的步骤如下: 1) 图像经过检测算法之后,产生检测框集合 B,所有检测框对应的置信度集合 S。设定 NMS 算法的过滤阈值 N,建立空集 D 用于存放最终的 检测框。 2) 从置信度集合 S 中选出最高得分 m,在 B 中选择 m 对应的检测框 M。 3) 将 M 从 B 中取出,放入 D 中。 4) 遍历 B 中所有的检测框,计算 B 中检测框 bi 与 M 的 IOU 值,如果 IOU 值大于阈值 N,则将 bi 从 B 中剔除,将 bi 对应的得分 si 从 S 中剔除 5) 重复步骤 2)~4),直至集合 B 为空集。 从 NMS 算法的步骤中可以看出,是否过滤检 测框取决于阈值 N 的设定,而 N 的值往往是人为 规定的,需要通过大量实验来寻找一个较为合理 的值,在实际应用的过程中,很难找到一个统一 的 N,使得 NMS 算法能够同时保证检测结果的准 确率和召回率。而由于 NMS 算法阈值设定的不 合理,可能会导致最终检测结果的漏检和误检 (图 1)。 第 5 期 王照国,等:基于 F1 值的非极大值抑制阈值自动选取方法 ·1007·
·1008· 智能系统学报 第15卷 样即便两个检测框之间的IOU值较大,置信度较 低的检测框也会得到保留,只是置信度值降低而 不是直接过滤。 So-NMS置信度分段抑制策略: Uou (M,b)<N, s={xd-Uu(M.b》.UaM.b)≥N (2) 1.2阈值对NMS算法的影响 前文中我们提到,无论是NMS还是Soft- NMS以及Softer-.NMS算法,最终都需要设定一个 固定阈值进行过滤,对阈值的设定具有很大的依 (a)NMS中的漏检 赖性,阈值设定得是否合理会对算法的性能产生 很大的影响。表1为在相同实验条件下,NMS、 Soft-NMS、Softer-NMS在不同阈值之下的检测精 度(mAP,mean average precision)。从表l中可以 看到,随着阈值的变化,这3种算法的mAP都会 发生明显变化,且性能最优点对应的阈值并不相 同,在实际应用中需要根据数据以及模型,通过 大量实验进行调整。图3为在不同阈值下NMS 算法针对一幅图像检测框的过滤结果,通过图3 可以看到,阈值的调整会在很大程度上影响算法 (b)NMS中的误检 实际应用效果。 图1NMS算法中的漏检和误检 表1阈值对NMS、Soft-NMS以及Softer-.NMS算法的 Fig.1 Leak and error detection in NMS 影响 Table 1 Influence of threshold on NMS,Soft-NMS and NMS算法对于置信度抑制策略是: Softer-NMS Sis Uiou (M,bi)<N. 5= (1) 阈值 0,Uiou(M,b)≥Ng 算法 0.3 0.35 0.4 0.45 0.5 当两个检测框距离非常近的时候,其中分数 NMS 73.6 74.0 74.8 75.4 74.1 较低的框很可能因为与当前得分最高的框之间 Soft-NMS 73.8 74.5 75.9 75.2 74.6 的IOU值高于阈值而被抑制,置信度直接置为0, Softer-NMS 73.4 73.7 74.5 74.8 74.0 这样就会造成漏检问题(图2)。 (a)阈值0.3 (b)阈值0.5 (c)阈值0.7 图3阈值不同带来的性能差异 Fig.3 Performance differences due to different thresholds 2非极大值抑制阈值自动选取方法 如上所述,传统的NMS算法存在误检和漏检 图2阈值设定不合理导致的漏检问题 问题,改进算法Soft-NMS虽然在一定程度上缓解 Fig.2 Leak detection caused by improper threshold 了漏检问题,但是仍然依赖人为规定阈值,需要 针对漏检问题的出现,近年来产生了很多对 进行大量实验进行调整。因此,本文提出了基于 于NMS算法的改进。经典的Soft-NMS采用衰减 F1值(式(3))的非极大值抑制阈值自动选取方 函数来衰减检测框的分值,而不是直接置为0,这 法,每幅图像根据图像中物体密度选择对应的过
(a) NMS 中的漏检 (b) NMS 中的误检 图 1 NMS 算法中的漏检和误检 Fig. 1 Leak and error detection in NMS NMS 算法对于置信度抑制策略是: si = si , UIoU (M,bi) < Nt 0, UIoU (M,bi) ⩾ Nt (1) 当两个检测框距离非常近的时候,其中分数 较低的框很可能因为与当前得分最高的框之间 的 IOU 值高于阈值而被抑制,置信度直接置为 0, 这样就会造成漏检问题 (图 2)。 图 2 阈值设定不合理导致的漏检问题 Fig. 2 Leak detection caused by improper threshold 针对漏检问题的出现,近年来产生了很多对 于 NMS 算法的改进。经典的 Soft-NMS 采用衰减 函数来衰减检测框的分值,而不是直接置为 0,这 样即便两个检测框之间的 IOU 值较大,置信度较 低的检测框也会得到保留,只是置信度值降低而 不是直接过滤。 Soft-NMS 置信度分段抑制策略: si = { si , UIoU (M,bi) < Nt si ×(1−UIoU (M,bi)), UIoU (M,bi) ⩾ Nt (2) 1.2 阈值对 NMS 算法的影响 前文中我们提到,无论是 NMS 还是 SoftNMS 以及 Softer-NMS 算法,最终都需要设定一个 固定阈值进行过滤,对阈值的设定具有很大的依 赖性,阈值设定得是否合理会对算法的性能产生 很大的影响。表 1 为在相同实验条件下,NMS、 Soft-NMS、Softer-NMS 在不同阈值之下的检测精 度 (mAP, mean average precision)。从表 1 中可以 看到,随着阈值的变化,这 3 种算法的 mAP 都会 发生明显变化,且性能最优点对应的阈值并不相 同,在实际应用中需要根据数据以及模型,通过 大量实验进行调整。图 3 为在不同阈值下 NMS 算法针对一幅图像检测框的过滤结果,通过图 3 可以看到,阈值的调整会在很大程度上影响算法 实际应用效果。 表 1 阈值对 NMS、Soft-NMS 以及 Softer-NMS 算法的 影响 Table 1 Influence of threshold on NMS, Soft-NMS and Softer-NMS 算法 阈值 0.3 0.35 0.4 0.45 0.5 NMS 73.6 74.0 74.8 75.4 74.1 Soft-NMS 73.8 74.5 75.9 75.2 74.6 Softer-NMS 73.4 73.7 74.5 74.8 74.0 (a) 阈值0.3 (b) 阈值0.5 (c) 阈值0.7 图 3 阈值不同带来的性能差异 Fig. 3 Performance differences due to different thresholds 2 非极大值抑制阈值自动选取方法 如上所述,传统的 NMS 算法存在误检和漏检 问题,改进算法 Soft-NMS 虽然在一定程度上缓解 了漏检问题,但是仍然依赖人为规定阈值,需要 进行大量实验进行调整。因此,本文提出了基于 F1 值 (式 (3)) 的非极大值抑制阈值自动选取方 法,每幅图像根据图像中物体密度选择对应的过 ·1008· 智 能 系 统 学 报 第 15 卷
第5期 王照国,等:基于F1值的非极大值抑制阈值自动选取方法 ·1009· 滤阈值,图像的密度由模型检测框数目来表示。 集合B,记录B的数目numb: F1值为检测结果准确率和召回率的调和平均,在 2)在thresh domain内遍历阈值,利用阈值运 目标检测任务中,准确率采用检测结果中真实框 行NMS算法,计算F1值,记录使得F1值最高的 所占比例来表示,而召回率采用真实框中占检测 NMS阈值best t; 框比例表示,这样同时考虑了检测模型的准确率 3)得到所有图像未经过NMS处理的检测框 和召回率。 数目numb,以及使得F1值最高的阈值best t; FI=2x PXR 4)利用(num_b,best t)构建映射关系map。 P+R (3) 有了映射关系,在测试阶段,将测试图片输入 式中:P表示检测模型的准确率;R表示检测的召 检测算法,得到未经过滤的检测框集合,根据检 回率。 测框数目numb以及映射关系map得到对应的 当一幅图像中物体较多时,也就意味着图像 阈值best t,利用best t来运行NMS算法。 中物体密度可能相对更大,物体之间重叠的可能 通过采用F1值作为优化指标,本算法综合考 性就越高,针对物体数目多的图像,在应用 虑了检测算法的召回率和准确率,使得NMS算 NMS算法时应该设定一个较大的阈值,这样可以 法的阈值根据每幅图像的物体密度自动化调整, 解决重叠物体带来的漏检问题,避免过滤真实物 避免了对于人为设定超参数的依赖性,减少了超 体。而对物体稀疏的图像而言,产生重叠的可能 参数调整的时间成本,同时在一定程度上解决了 性就会越小,因此阈值可以设置为一个较低的 检测的漏检和误检问题,在检测任务上面的性能 值,以此避免误检现象的出现。 也获得了提升。 首先,我们需要明确合理阈值存在的范围界 限。应用NMS处理目标检测问题时,阈值通常 3实验分析 选择在0.4~0.6,为了保证结果的合理性,避免异 常值出现,我们将阈值范围限定在0.3~0.7,因为 实验采用的是YOLOv3模型,YOLOv3网络基 在实验过程中发现阈值设定过高或者过低都会对 于Darknet网络构建,一共有53个卷积层。由于 算法性能产生负面影响。 YOLO3是端到端的检测模型,所以并不需要像双 明确阈值范围之后,就可以构建映射关系。 阶段目标检测算法那样分开进行训练。我们采用 首先我们需要在训练数据集上面应用训练好的检 作者提供的预训练权重进行训练,这样能够取得更 测算法产生检测框集合B,记录B中检测框数目 快的收敛速度。我们提出的算法额外的存储空间 numb,接下来在阈值范围内遍历可能的阈值,利 仅仅为一个映射关系模型,相较于我们的检测模 用选定的阈值应用NMS算法得到过滤后的检测 型,大小可以忽略。时间上面,在构建映射关系的 结果,然后根据样本标签与检测结果计算检测的 过程中,需要的时间小于检测模型训练一轮的时 间,因此额外的时间开销在可接受的范围内。 准确率和召回率,从而计算它们的F1值。在目标 检测任务中,准确率采用检测结果中真实框所占 3.1实验数据以及实验参数 比例来表示,而召回率采用真实框中占检测框比 本实验采用的数据集是Pascal VOC20072o 例表示。记录使得F1值最高的NMS阈值best_t, 数据集,其中包括训练集VOC2007 trainval、测试 遍历训练数据之后,就可以得到每一幅图像未经 集VOC2007test以及验证集VOC2007val三部 过NMS处理的检测框数目numb,以及使得 分。原始Pascal VOC2007数据集对于每一个边 F1值最高的阈值best_t,然后利用(numb, 界框的标注格式是(x,1,x2,2),表示边界框左上 best t)构建映射关系map。这里我们尝试了几种 和右下点坐标值,我们首先需要将其转换为(x,y 不同的映射关系,从最简单的线性回归到K均值 w,)格式,即表示中间点坐标以及边界框长宽的 以及朴素贝叶斯方法: 格式。除此之外,为了保证模型训练效果,需要 P(best_tnum_b)=P(best_t)P(num_bbest_t) 将标注数据按照图片尺寸进行归一化操作。 (4) P(num b) 在训练过程中设置batch size大小为16,并 作为本文的核心部分,在构建映射关系阶段, 应用了学习率衰减策略,学习率衰减权重设置为 本文提出的算法流程如下: 07,此外,还应用了多尺度训练技巧,每隔一定 输入检测模型model,,训练数据集data,阈 的iteration随机选取一个尺度进行训练来提高精 值范围thresh_domain。 度。除此之外我们对模型添加了数据增强,能够 输出映射关系map。 进一步提高模型精度。 l)在数据集data上面应用model产生检测框 图4为训练过程中检测衡量指标mAP值的
滤阈值,图像的密度由模型检测框数目来表示。 F1 值为检测结果准确率和召回率的调和平均,在 目标检测任务中,准确率采用检测结果中真实框 所占比例来表示,而召回率采用真实框中占检测 框比例表示,这样同时考虑了检测模型的准确率 和召回率。 F1 = 2× P×R P+R (3) 式中:P 表示检测模型的准确率;R 表示检测的召 回率。 当一幅图像中物体较多时,也就意味着图像 中物体密度可能相对更大,物体之间重叠的可能 性就越高,针对物体数目多的图像,在应 用 NMS 算法时应该设定一个较大的阈值,这样可以 解决重叠物体带来的漏检问题,避免过滤真实物 体。而对物体稀疏的图像而言,产生重叠的可能 性就会越小,因此阈值可以设置为一个较低的 值,以此避免误检现象的出现。 首先,我们需要明确合理阈值存在的范围界 限。应用 NMS 处理目标检测问题时,阈值通常 选择在 0.4~0.6,为了保证结果的合理性,避免异 常值出现,我们将阈值范围限定在 0.3~0.7,因为 在实验过程中发现阈值设定过高或者过低都会对 算法性能产生负面影响。 明确阈值范围之后,就可以构建映射关系。 首先我们需要在训练数据集上面应用训练好的检 测算法产生检测框集合 B,记录 B 中检测框数目 num_b,接下来在阈值范围内遍历可能的阈值,利 用选定的阈值应用 NMS 算法得到过滤后的检测 结果,然后根据样本标签与检测结果计算检测的 准确率和召回率,从而计算它们的 F1 值。在目标 检测任务中,准确率采用检测结果中真实框所占 比例来表示,而召回率采用真实框中占检测框比 例表示。记录使得 F1 值最高的 NMS 阈值 best_t, 遍历训练数据之后,就可以得到每一幅图像未经 过 NMS 处理的检测框数目 num_b,以及使得 F1 值最高的阈 值 best_t,然后利 用 (num_b, best_t) 构建映射关系 map。这里我们尝试了几种 不同的映射关系,从最简单的线性回归到 K 均值 以及朴素贝叶斯方法: P(best_t|num_b) = P(best_t)P(num_b|best_t) P(num_b) (4) 作为本文的核心部分,在构建映射关系阶段, 本文提出的算法流程如下: 输入 检测模型 model,训练数据集 data,阈 值范围 thresh_domain。 输出 映射关系 map。 1) 在数据集 data 上面应用 model 产生检测框 集合 B,记录 B 的数目 num_b; 2) 在 thresh_domain 内遍历阈值,利用阈值运 行 NMS 算法,计算 F1 值,记录使得 F1 值最高的 NMS 阈值 best_t; 3) 得到所有图像未经过 NMS 处理的检测框 数目 num_b,以及使得 F1 值最高的阈值 best_t; 4) 利用 (num_b,best_t) 构建映射关系 map。 有了映射关系,在测试阶段,将测试图片输入 检测算法,得到未经过滤的检测框集合,根据检 测框数目 num_b 以及映射关系 map 得到对应的 阈值 best_t,利用 best_t 来运行 NMS 算法。 通过采用 F1 值作为优化指标,本算法综合考 虑了检测算法的召回率和准确率,使得 NMS 算 法的阈值根据每幅图像的物体密度自动化调整, 避免了对于人为设定超参数的依赖性,减少了超 参数调整的时间成本,同时在一定程度上解决了 检测的漏检和误检问题,在检测任务上面的性能 也获得了提升。 3 实验分析 实验采用的是 YOLOv3 模型,YOLOv3 网络基 于 Darknet 网络构建,一共有 53 个卷积层。由于 YOLOv3 是端到端的检测模型,所以并不需要像双 阶段目标检测算法那样分开进行训练。我们采用 作者提供的预训练权重进行训练,这样能够取得更 快的收敛速度。我们提出的算法额外的存储空间 仅仅为一个映射关系模型,相较于我们的检测模 型,大小可以忽略。时间上面,在构建映射关系的 过程中,需要的时间小于检测模型训练一轮的时 间,因此额外的时间开销在可接受的范围内。 3.1 实验数据以及实验参数 本实验采用的数据集是 Pascal VOC 2007[20] 数据集,其中包括训练集 VOC 2007 trainval、测试 集 VOC 2007 test 以及验证集 VOC 2007 val 三部 分。原始 Pascal VOC 2007 数据集对于每一个边 界框的标注格式是 (x1 , y1 , x2 , y2 ),表示边界框左上 和右下点坐标值,我们首先需要将其转换为 (x, y, w, h) 格式,即表示中间点坐标以及边界框长宽的 格式。除此之外,为了保证模型训练效果,需要 将标注数据按照图片尺寸进行归一化操作。 在训练过程中设置 batch_size 大小为 16,并 应用了学习率衰减策略,学习率衰减权重设置为 0.7,此外,还应用了多尺度训练技巧,每隔一定 的 iteration 随机选取一个尺度进行训练来提高精 度。除此之外我们对模型添加了数据增强,能够 进一步提高模型精度。 图 4 为训练过程中检测衡量指标 mAP 值的 第 5 期 王照国,等:基于 F1 值的非极大值抑制阈值自动选取方法 ·1009·
·1010· 智能系统学报 第15卷 变化情况。可以从图中看到,在训练经过40轮迭 通过观察发现,大多数图像的预测框数目介 代训练之后,mAP变化值趋于稳定。 于0~200,最佳阈值的范围在0.3~0.7,所以我们 0.80 构建了横坐标为0~200,纵坐标范围为0.3~0.7 0.75 0.70 MW 的线性回归作为映射,同时,我们尝试了k-means 分类、朴素贝叶斯分类、SVC分类等方法来构建 0.65 映射,最终选择性能具有最佳表现的朴素贝叶斯 0.60 分类算法。 0.55 3.4实验效果对比 0.50 为了突出本文算法在解决目标漏检与误检 0.45 问题上面的表现,将本算法分别与NMS、Soft- 10 2030 4050 epoch NMS以及Softer-NMS在Pascal VOC数据集上面 做了对比(图6),从图6中可以看到,本文提出的 图4训练过程中的mAP Fig.4 mAP during training 算法性能并不受阈值的影响,且mAP值高于其他 3.2边界框数目与物体密度之间的相关性 算法。 本文出发点是利用边界框数目信息反应物体 76.5 密度,所以首先需要首先验证两者之间的相关 NMS 76.0 Soft-NMS 性。如图5所示,横坐标表示图像中真实的物体 --Softer-NMS 75.5 -…Our method 数目,纵坐标表示模型预测后未经过NMS算法过 滤之前的边界框数目,可以看到,两者之间存在一 275.0 种强线性相关关系,这也就证实了本文改进算法 74.5 的合理性。 74.0 73.5 300 250 、、、分、、、、、、 200 阈值 图6算法性能对比 Fig.6 Algorithm performance comparison 50 在图7和图8分别表示在Pascal数据集和 10 1520 25 30 真实的物体数目 COC0数据集2]上,本文提出的算法在实际应用 中与NMS算法以及Soft-NMS算法之间的效果对 图5边界框数目相关性分析 Fig.5 Correlation analysis of the number of bounding 比,我们提出的算法在实际应用过程中具有更好 boxes 的检测效果。 33映射关系选择 构建检测框数目-最佳阈值之间的映射关系, 采取了不同的模型算法,观察对比这几种不同映 射函数之间的性能差异。表2为不同映射函数性 (a)NMS 能表现。 表2不同映射函数的性能表现 Table 2 Performance of different mapping functions (b)Soft-NM 算法 mAP 线性回归 75.8 支持向量回归 (c)本文方法 76.3 k均值聚类 图7本文提出算法与其他算法实验效果对比VOC数据集) 76.0 Fig.7 Comparison of experimental results between the 朴素贝叶斯 76.5 proposed algorithm and other algorithms (VOC dataset)
变化情况。可以从图中看到,在训练经过 40 轮迭 代训练之后,mAP 变化值趋于稳定。 0.45 0 10 20 30 epoch 40 50 0.50 0.55 0.60 mAP 0.65 0.70 0.75 0.80 图 4 训练过程中的 mAP Fig. 4 mAP during training 3.2 边界框数目与物体密度之间的相关性 本文出发点是利用边界框数目信息反应物体 密度,所以首先需要首先验证两者之间的相关 性。如图 5 所示,横坐标表示图像中真实的物体 数目,纵坐标表示模型预测后未经过 NMS 算法过 滤之前的边界框数目,可以看到,两者之间存在一 种强线性相关关系,这也就证实了本文改进算法 的合理性。 0 5 10 15 真实的物体数目 20 25 30 预测物体数目 50 100 150 200 300 250 0 图 5 边界框数目相关性分析 Fig. 5 Correlation analysis of the number of bounding boxes 3.3 映射关系选择 构建检测框数目−最佳阈值之间的映射关系, 采取了不同的模型算法,观察对比这几种不同映 射函数之间的性能差异。表 2 为不同映射函数性 能表现。 表 2 不同映射函数的性能表现 Table 2 Performance of different mapping functions 算法 mAP 线性回归 75.8 支持向量回归 76.3 k均值聚类 76.0 朴素贝叶斯 76.5 通过观察发现,大多数图像的预测框数目介 于 0~200,最佳阈值的范围在 0.3~0.7,所以我们 构建了横坐标为 0~200,纵坐标范围为 0.3~0.7 的线性回归作为映射,同时,我们尝试了 k-means 分类、朴素贝叶斯分类、SVC 分类等方法来构建 映射,最终选择性能具有最佳表现的朴素贝叶斯 分类算法。 3.4 实验效果对比 为了突出本文算法在解决目标漏检与误检 问题上面的表现,将本算法分别与 NMS、SoftNMS 以及 Softer-NMS 在 Pascal VOC 数据集上面 做了对比 (图 6),从图 6 中可以看到,本文提出的 算法性能并不受阈值的影响,且 mAP 值高于其他 算法。 0.300 73.5 74.0 74.5 75.0 mAP 75.5 76.0 76.5 NMS Soft-NMS Softer-NMS Our method 0.325 0.350 0.375 0.400 阈值 0.425 0.450 0.475 0.500 图 6 算法性能对比 Fig. 6 Algorithm performance comparison 在图 7 和图 8 分别表示在 Pascal 数据集和 COCO 数据集[21] 上,本文提出的算法在实际应用 中与 NMS 算法以及 Soft-NMS 算法之间的效果对 比,我们提出的算法在实际应用过程中具有更好 的检测效果。 (a) NMS (b) Soft-NMS (c) 本文方法 图 7 本文提出算法与其他算法实验效果对比 (VOC 数据集) Fig. 7 Comparison of experimental results between the proposed algorithm and other algorithms (VOC dataset) ·1010· 智 能 系 统 学 报 第 15 卷
第5期 王照国,等:基于F1值的非极大值抑制阈值自动选取方法 ·1011· image processing,2015,24(12):5706-5722 [5]REDMON J.DIVVALA S.GIRSHICK R,et al.You only (a)NMS look once:unified,real-time object detection[C]//Proceed- ings of 2016 IEEE Conference on Computer Vision and Pattern Recognition.Las Vegas,USA,2016:779-788. [6]LIU Wei,ANGUELOV D,ERHAN D,et al.SSD:single (b)Soft-NMS shot MultiBox detector[C]//Proceedings of the 14th European Conference on Computer Vision.Amsterdam, the Netherlands.2016:21-37. (c)本文算法 [7]REDMON J,FARHADI A.YOLOv3:an incremental im- 图8本文提出算法与其他算法实验效果对比(COC0数 provement[J].arXiv preprint arXiv:1804.02767,2018. 据集) [8]GIRSHICK R,DONAHUE J,DARRELL T,et al.Rich Fig.8 Comparison of experimental results between the proposed algorithm and other algorithms (COCO feature hierarchies for accurate object detection and se- dataset) mantic segmentation[C]//Proceedings of 2014 IEEE Con- 4结束语 ference on Computer Vision and Pattern Recognition. Columbus,USA,2014:580-587 传统的非极大值抑制算法需要大量实验调整 [9]GIRSHICK R.Fast R-CNN[C//Proceedings of 2015 IEEE 阈值,阈值设定的不合理会导致漏检和误检,阈 International Conference on Computer Vision.Santiago, 值调整需要耗费大量时间。基于此,本文提出了 USA,2015:1440-1448. 基于F1值的非极大值抑制阈值自动选取方法,减 [10]REN Shaoqing,HE Kaiming,GIRSHICK R,et al.Faster 弱了检测算法对于人为设定阈值的依赖,减少了 R-CNN:Towards real-time object detection with region 阈值调整耗费的时间。利用YOLOv.3模型在Pas cal VOC2007数据集上面进行训练,通过与传统 proposal networks[J].IEEE transactions on pattern ana- lysis and machine intelligence,2017,39(6):1137-1149. NMS、Soft-NMS以及Softer-NMS算法进行性能 对比,证明了本算法在检测准确率方面的提高。 [11]ROSENFELD A,THURSTON M.Edge and curve detec- 本文可以采用更多的映射模型来获取最佳阈值, tion for visual scene analysis[J].IEEE transactions on 期望未来能够使用卷积神经网络获取更加精准的 computers,1971,C-20(5):562-569. 映射关系模型。 [12]BODLA N,SINGH B,CHELLAPPA R,et al.Soft- 参考文献: NMS-improving object detection with one line of code[Cl//Proceedings of 2017 IEEE International Confer- [1]FELZENSZWALB P F,GIRSHICK R B,MCALLESTER ence on Computer Vision.Venice,Italy,2017: D,et al.Object detection with discriminatively trained 5561-5569 part-based models[J].IEEE transactions on pattern analys- [13]HE Yihui,ZHU Chenchen,WANG Jianren,et al.Bound- is and machine intelligence,2010,32(9):1627-1645 ing box regression with uncertainty for accurate object de- [2]HAN Junwei,ZHANG Dingwen,CHENG Gong,et al.Ad- tection[C]//Proceedings of 2019 IEEE/CVF Conference vanced deep-learning techniques for salient and category- on Computer Vision and Pattern Recognition.Long specific object detection:a survey[J].IEEE signal pro- Beach,USA,2019:2888-2897. cessing magazine,2018,35(1):84-100. [14]侯志强,刘晓义,余旺盛,等.基于双阈值-非极大值抑制 [3]XIE Cihang,WANG Jianyu,ZHANG Zhishuai,et al.Ad- 的Faster R-CNN改进算法[.光电工程,2019,46(12)」 versarial examples for semantic segmentation and object 190159. detection[C]//Proceedings of 2017 IEEE International Con- HOU Zhiqiang,LIU Xiaoyi,YU Wangsheng,et al.Im- ference on Computer Vision.Venice,Italy,2017: proved algorithm of Faster R-CNN based on double 1369-1378. threshold-non-maximum suppression[J].Opto-electronic [4]BORJI A,CHENG Mingming,JIANG Huaizu,et al.Sali- engineering,2019,46(12):190159 ent object detection:a benchmark[J].IEEE transactions on [15]赵文清,严海,邵绪强.改进的非极大值抑制算法的目
(a) NMS (b) Soft-NMS (c) 本文算法 图 8 本文提出算法与其他算法实验效果对比 (COCO 数 据集) Fig. 8 Comparison of experimental results between the proposed algorithm and other algorithms (COCO dataset) 4 结束语 传统的非极大值抑制算法需要大量实验调整 阈值,阈值设定的不合理会导致漏检和误检,阈 值调整需要耗费大量时间。基于此,本文提出了 基于 F1 值的非极大值抑制阈值自动选取方法,减 弱了检测算法对于人为设定阈值的依赖,减少了 阈值调整耗费的时间。利用 YOLOv3 模型在 Pascal VOC 2007 数据集上面进行训练,通过与传统 NMS、Soft-NMS 以及 Softer-NMS 算法进行性能 对比,证明了本算法在检测准确率方面的提高。 本文可以采用更多的映射模型来获取最佳阈值, 期望未来能够使用卷积神经网络获取更加精准的 映射关系模型。 参考文献: FELZENSZWALB P F, GIRSHICK R B, MCALLESTER D, et al. Object detection with discriminatively trained part-based models[J]. IEEE transactions on pattern analysis and machine intelligence, 2010, 32(9): 1627–1645. [1] HAN Junwei, ZHANG Dingwen, CHENG Gong, et al. Advanced deep-learning techniques for salient and categoryspecific object detection: a survey[J]. IEEE signal processing magazine, 2018, 35(1): 84–100. [2] XIE Cihang, WANG Jianyu, ZHANG Zhishuai, et al. Adversarial examples for semantic segmentation and object detection[C]//Proceedings of 2017 IEEE International Conference on Computer Vision. Venice, Italy, 2017: 1369−1378. [3] BORJI A, CHENG Mingming, JIANG Huaizu, et al. Salient object detection: a benchmark[J]. IEEE transactions on [4] image processing, 2015, 24(12): 5706–5722. REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: unified, real-time object detection[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA, 2016: 779−788. [5] LIU Wei, ANGUELOV D, ERHAN D, et al. SSD: single shot MultiBox detector[C]//Proceedings of the 14th European Conference on Computer Vision. Amsterdam, the Netherlands, 2016: 21−37. [6] REDMON J, FARHADI A. YOLOv3: an incremental improvement[J]. arXiv preprint arXiv: 1804.02767, 2018. [7] GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, USA, 2014: 580−587. [8] GIRSHICK R. Fast R-CNN[C]//Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago, USA, 2015: 1440−1448. [9] REN Shaoqing, HE Kaiming, GIRSHICK R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[J]. IEEE transactions on pattern analysis and machine intelligence, 2017, 39(6): 1137–1149. [10] ROSENFELD A, THURSTON M. Edge and curve detection for visual scene analysis[J]. IEEE transactions on computers, 1971, C-20(5): 562–569. [11] BODLA N, SINGH B, CHELLAPPA R, et al. SoftNMS—improving object detection with one line of code[C]//Proceedings of 2017 IEEE International Conference on Computer Vision. Venice, Italy, 2017: 5561−5569. [12] HE Yihui, ZHU Chenchen, WANG Jianren, et al. Bounding box regression with uncertainty for accurate object detection[C]//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA, 2019: 2888−2897. [13] 侯志强, 刘晓义, 余旺盛, 等. 基于双阈值-非极大值抑制 的 Faster R-CNN 改进算法 [J]. 光电工程, 2019, 46(12): 190159. HOU Zhiqiang, LIU Xiaoyi, YU Wangsheng, et al. Improved algorithm of Faster R-CNN based on double threshold-non-maximum suppression[J]. Opto-electronic engineering, 2019, 46(12): 190159. [14] [15] 赵文清, 严海, 邵绪强. 改进的非极大值抑制算法的目 第 5 期 王照国,等:基于 F1 值的非极大值抑制阈值自动选取方法 ·1011·
·1012· 智能系统学报 第15卷 标检测[J1.中国图象图形学报,2018,23(11) 88(2:303-338 1676-1685 [21]LIN T Y,MAIRE M,BELONGIE S,et al.Microsoft ZHAO Wenging,YAN Hai,SHAO Xuqiang.Object de- COCO:common objects in context[C]//Proceedings of tection based on improved non-maximum suppression al- the 13th European Conference on Computer Vision. gorithm[J].Journal of image and graphics,2018,23(11): 1676-1685 Zurich,Switzerland,2014:740-755. [16]LIU Yuliang,JIN Lianwen,ZHANG Shuaitao,et al.De- 作者简介: tecting curve text in the wild:new dataset and new solu- 王照国,硕士研究生,主要研究方 tion[J].arXiv preprint arXiv:1712.02170,2017. 向为目标检测、深度学习、粒计算。 [17]JIANG Borui,LUO Ruixuan,MAO Jiayuan,et al.Ac- quisition of localization confidence for accurate object de- tection[C]//Proceedings of the 15th European Conference on Computer Vision.Munich,Germany,2018:784-799. [18]HOSANG J.BENENSON R.SCHIELE B.A Convnet for 张红云,副教授,博士生导师,博 Non-maximum Suppression[C]//Proceedings of the 38th 士,主要研究方向为主曲线算法、粒计 German Conference on Pattern Recognition.Hannover, 算、模糊集。发表学术论文近50篇。 Germany,2016:192-204. [19]LIU Songtao,HUANG Di,WANG Yunhong.Adaptive NMS:refining pedestrian detection in a crowd[C]//Pro- ceedings of 2019 IEEE/CVF Conference on Computer 苗夺谦,教授,博士生导师,博士 Vision and Pattern Recognition.Long Beach,USA,2019: 主要研究方向为人工智能、机器学习、 6459-6468. 大数据分析、粒计算。授权专利9项, 发表学术论文180余篇,出版教材和 [20]EVERINGHAM M.VAN GOOL L,WILLIAMS C K I, 学术著作9部。 et al.The PASCAL visual object classes (VOC)chal- lenge[J].International journal of computer vision,2010
标检测 [J]. 中国图象图形学报, 2018, 23(11): 1676–1685. ZHAO Wenqing, YAN Hai, SHAO Xuqiang. Object detection based on improved non-maximum suppression algorithm[J]. Journal of image and graphics, 2018, 23(11): 1676–1685. LIU Yuliang, JIN Lianwen, ZHANG Shuaitao, et al. Detecting curve text in the wild: new dataset and new solution[J]. arXiv preprint arXiv: 1712.02170, 2017. [16] JIANG Borui, LUO Ruixuan, MAO Jiayuan, et al. Acquisition of localization confidence for accurate object detection[C]//Proceedings of the 15th European Conference on Computer Vision. Munich, Germany, 2018: 784−799. [17] HOSANG J, BENENSON R, SCHIELE B. A Convnet for Non-maximum Suppression[C]//Proceedings of the 38th German Conference on Pattern Recognition. Hannover, Germany, 2016: 192−204. [18] LIU Songtao, HUANG Di, WANG Yunhong. Adaptive NMS: refining pedestrian detection in a crowd[C]//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA, 2019: 6459−6468. [19] EVERINGHAM M, VAN GOOL L, WILLIAMS C K I, et al. The PASCAL visual object classes (VOC) challenge[J]. International journal of computer vision, 2010, [20] 88(2): 303–338. LIN T Y, MAIRE M, BELONGIE S, et al. Microsoft COCO: common objects in context[C]//Proceedings of the 13th European Conference on Computer Vision. Zurich, Switzerland, 2014: 740−755. [21] 作者简介: 王照国,硕士研究生,主要研究方 向为目标检测、深度学习、粒计算。 张红云,副教授,博士生导师,博 士,主要研究方向为主曲线算法、粒计 算、模糊集。发表学术论文近 50 篇。 苗夺谦,教授,博士生导师,博士, 主要研究方向为人工智能、机器学习、 大数据分析、粒计算。授权专利 9 项, 发表学术论文 180 余篇,出版教材和 学术著作 9 部。 ·1012· 智 能 系 统 学 报 第 15 卷