第16卷第4期 智能系统学报 Vol.16 No.4 2021年7月 CAAI Transactions on Intelligent Systems Jul.2021 D0:10.11992/tis.202007042 网络出版地址:https:/kns.cnki.net/kcms/detail/23.1538.TP.20210507.1642.002.html 基于反馈注意力机制和上下文融合的非模式实例分割 董俊杰',刘华平2,谢琚,续欣莹,孙富春 (1.太原理工大学信息与计算机学院,山西晋中030600:2.清华大学智能技术与系统国家重点实验室,北京 100084,3.太原理工大学电气与动力工程学院,山西太原030024) 摘要:非模式实例分割是最近提出的对实例分割的扩展,其任务是对每个对象实例的可见区域和被遮挡区域 都进行预测,感知完整的物理结构和语义概念。在预测对象被遮挡部分的形状和语义时,往往由于特征表示的 识别能力不够和对上下文信息缺乏而导致对遮挡区域预测欠拟合甚至错误。针对这个问题,提出一个上下文 注意模块和反馈注意力机制的特征金字塔结构,引人反馈连接进行再学习。该方法能够有效捕获全局语义信 息和精细的空间细节,通过在COCO-amodal数据集训练和验证,非模式实例分割掩码平均精确率从8.4%提高 到14.3%,平均召回率从16.6%提高到20.8%。实验结果表明,该方法能够显著提高对物体被遮挡部分预测的 准确率,有效解决欠拟合问题。 关键词:非模式实例分割:遮挡预测:反馈连接:注意力机制:上下文信息:深度学习:神经网络:计算机视觉 中图分类号:TP183文献标志码:A文章编号:1673-4785(2021)04-0801-10 中文引用格式:董俊杰,刘华平,谢裙,等.基于反馈注意力机制和上下文融合的非模式实例分割J.智能系统学报,2021, 16(4):801-810. 英文引用格式:DONGJunjie,LIU Huaping,XIEJun,,etal.Feedback attention mechanism and context fusion based amodal in- stance segmentation[J].CAAI transactions on intelligent systems,2021,16(4):801-810. Feedback attention mechanism and context fusion based amodal instance segmentation DONG Junjie',LIU Huaping,XIE Jun',XU Xinying,SUN Fuchun (1.College of Information and Computer,Taiyuan University of Technology,Jinzhong 030600,China;2.State Key Lab.of Intelli- gent Technology and Systems,Tsinghua University,Beijing 100084,China;3.College of Electrical and Power Engineering,Taiyuan University of Technology,Taiyuan 030024,China) Abstract:Recently,model instance segmentation has been proposed as an extension of instance segmentation to predict the visible and occluded areas of each object instance and perceive the complete physical structure and semantic con- cepts.When the shapes and meanings of occluded objects are being predicted,underfitting or even wrong results are ob- tained in the occlusion prediction due to the insufficient recognition capability of feature representation and the lack of contextual information.To solve this problem,this paper proposes a contextual attention module and feature pyramid structure of feedback attention mechanism and introduces feedback connections for relearning.The proposed method can effectively capture global semantic information and fine spatial details.Through training and verification in the COCO-amodal dataset,the average precision of the amodal instance segmentation mask increases from 8.4%to 14.3%, and the average recall rate increases from 16.6%to 20.8%.Experimental results show that this method can significantly improve the accuracy of occlusion prediction and effectively end underfitting. Keywords:amodal instance segmentation;occlusion prediction;feedback connection;attention mechanism;context in- formation;deep learning;neural network;computer vision 收稿日期:2020-07-24.网络出版日期:2021-05-07. 基金项目:山西省自然科学基金项目(201801D121144, 近年来,图像分类、目标检测361、语义分 201801D221190):辽宁省科技厅机器人技术国家重 点实验室联合基金项目(2020-KF-22-06). 割7-、实例分割90等视觉识别任务取得了巨大 通信作者:刘华平.E-mail:hpliu@tsinghua.edu.cn 的进展。计算机视觉系统的性能在精度上越来越
DOI: 10.11992/tis.202007042 网络出版地址: https://kns.cnki.net/kcms/detail/23.1538.TP.20210507.1642.002.html 基于反馈注意力机制和上下文融合的非模式实例分割 董俊杰1 ,刘华平2 ,谢珺1 ,续欣莹3 ,孙富春2 (1. 太原理工大学 信息与计算机学院,山西 晋中 030600; 2. 清华大学 智能技术与系统国家重点实验室,北京 100084; 3. 太原理工大学 电气与动力工程学院,山西 太原 030024) 摘 要:非模式实例分割是最近提出的对实例分割的扩展,其任务是对每个对象实例的可见区域和被遮挡区域 都进行预测,感知完整的物理结构和语义概念。在预测对象被遮挡部分的形状和语义时,往往由于特征表示的 识别能力不够和对上下文信息缺乏而导致对遮挡区域预测欠拟合甚至错误。针对这个问题,提出一个上下文 注意模块和反馈注意力机制的特征金字塔结构,引入反馈连接进行再学习。该方法能够有效捕获全局语义信 息和精细的空间细节,通过在 COCO-amodal 数据集训练和验证,非模式实例分割掩码平均精确率从 8.4% 提高 到 14.3%,平均召回率从 16.6% 提高到 20.8%。实验结果表明,该方法能够显著提高对物体被遮挡部分预测的 准确率,有效解决欠拟合问题。 关键词:非模式实例分割;遮挡预测;反馈连接;注意力机制;上下文信息;深度学习;神经网络;计算机视觉 中图分类号:TP183 文献标志码:A 文章编号:1673−4785(2021)04−0801−10 中文引用格式:董俊杰, 刘华平, 谢珺, 等. 基于反馈注意力机制和上下文融合的非模式实例分割 [J]. 智能系统学报, 2021, 16(4): 801–810. 英文引用格式:DONG Junjie, LIU Huaping, XIE Jun, et al. Feedback attention mechanism and context fusion based amodal instance segmentation[J]. CAAI transactions on intelligent systems, 2021, 16(4): 801–810. Feedback attention mechanism and context fusion based amodal instance segmentation DONG Junjie1 ,LIU Huaping2 ,XIE Jun1 ,XU Xinying3 ,SUN Fuchun2 (1. College of Information and Computer, Taiyuan University of Technology, Jinzhong 030600, China; 2. State Key Lab. of Intelligent Technology and Systems, Tsinghua University, Beijing 100084, China; 3. College of Electrical and Power Engineering, Taiyuan University of Technology, Taiyuan 030024, China) Abstract: Recently, model instance segmentation has been proposed as an extension of instance segmentation to predict the visible and occluded areas of each object instance and perceive the complete physical structure and semantic concepts. When the shapes and meanings of occluded objects are being predicted, underfitting or even wrong results are obtained in the occlusion prediction due to the insufficient recognition capability of feature representation and the lack of contextual information. To solve this problem, this paper proposes a contextual attention module and feature pyramid structure of feedback attention mechanism and introduces feedback connections for relearning. The proposed method can effectively capture global semantic information and fine spatial details. Through training and verification in the COCO-amodal dataset, the average precision of the amodal instance segmentation mask increases from 8.4% to 14.3%, and the average recall rate increases from 16.6% to 20.8%. Experimental results show that this method can significantly improve the accuracy of occlusion prediction and effectively end underfitting. Keywords: amodal instance segmentation; occlusion prediction; feedback connection; attention mechanism; context information; deep learning; neural network; computer vision 近年来,图像分类[1-2] 、目标检测[3-6] 、语义分 割 [7-8] 、实例分割[9-10] 等视觉识别任务取得了巨大 的进展。计算机视觉系统的性能在精度上越来越 收稿日期:2020−07−24. 网络出版日期:2021−05−07. 基金项目:山西省自然科学基金项 目 (201801D121144 , 201801D221190);辽宁省科技厅机器人技术国家重 点实验室联合基金项目 (2020-KF-22-06). 通信作者:刘华平. E-mail:hpliu@tsinghua.edu.cn. 第 16 卷第 4 期 智 能 系 统 学 报 Vol.16 No.4 2021 年 7 月 CAAI Transactions on Intelligent Systems Jul. 2021
·802· 智能系统学报 第16卷 接近于甚至超过人类水平。尽管如此,人类的视 转化为卷积层,采用反卷积的方法进行上采样, 觉系统具有感知物体完整物理结构的能力,即使 并引入跳跃连接来改善上采样效果,实现对图像 物体在部分遮挡甚至重度遮挡的情况下也能准确 中的每个像素预测和分类的任务,但是FCN 预测物体的形状,这种能力被称为非模式感知 没有考虑像素之间的关系,导致分割精度不够: (即amodal perception),使得人类对物体的不可见 He等1提出了一种高效的实例分割框架一 的、被遮挡的部分进行推理,针对遮挡有一定的 Mask-RCNN,该算法通过特征金字塔(feature pyr- 鲁棒性,从而仅在部分可见的情况下感知物体完 amid network,FPN)和ROI Align层,极大地提升 整形状和语义概念。 了算法的精度,但仍然没有考虑到卷积特征的通 在非模式实例分割)的任务中,amodal masks 道和空间的上下文依赖关系;Zhang等2)提出 定义为物体visible masks和occlusion masks的并 SLN模型,该方法完成了非模式实例分割的任 集。预测amodal mask和visible mask可以加深对 务,引入一种新的表示方法即语义感知距离映 场景的理解:例如,非模式感知可以使自动驾驶 射,根据物体的可见性将物体的不同区域放置在 汽车能够在视觉范围内推断出车辆和行人的整体 不同的层次上,进而对物体被遮挡部分预测,尽 形状,即使其中的一部分是看不见的,这能够显 管实现了对不可见部分的感知,但是忽略了空间 著降低碰撞的风险;还有机器人在拾取或放置对 相关性,使算法缺乏全局上下文语义信息,很容 象时,需要知道对象是否被一个或多个其他对象 易导致预测的欠拟合。 所遮挡,通过对被遮挡部分的感知计算遮挡区 在识别物体的时候,人类的视觉感知通过反 域,然后指导机器人朝哪个方向移动或者将某些 馈连接和注意力机制传递高级语义信息,选择性 对象移除,帮助机器人获取感兴趣对象的完整结 地增强和抑制神经元的激活。然而非模式实例 构和语义。 分割任务的特点是仅仅从对象的可见部分提供的 预测物体的不可见部分是非常具有挑战性 线索来合理预测该对象的被遮挡部分,并且被遮 的。一个计算机视觉系统如果要感知物体被遮 挡部分的空间形状具有不确定性。通过反馈过程 挡、不可见部分的形状和语义概念,首先需要识 和注意力机制的学习建立丰富的全局上下文关系 别和定位这个物体,这涉及到了目标检测的技 是非常有帮助的,从而根据已有的提示推断出对 术;第二,需要从可见部分提供的线索去推断出 象最可能的外观特征。针对以上问题,受人类视 物体被遮挡部分的最可能外观特征,并且为物体 觉系统的启发,为了提高非模式实例分割中特征 遮挡部分的像素进行标记,这涉及到语义分割的 表示的鉴别能力和充分聚合上下文信息,本文精 技术,与此同时在此过程中往往会遭受来自附近 心设计了一个反馈注意力机制的特征金字塔结 其他对象实例信息的误导:第三,实际上物体往 构,以及在实例分割分支引入Context Attention 往被多个不同的实例遮挡,这将导致被遮挡的对 Module 象会处于不同的深度顺序中,如何探索对象之间 1相关工作 的相对深度顺序关系也给非模式感知带来很大的 困难。 1.1 实例分割 为了有效地完成非模式实例分割的任务,需 两阶段实例分割通常将此任务描述为“先检 要区分一些容易混淆的类别,并考虑不同外观的 测后分割”。它们通常先检测到边界框,然后在每 对象。我们可以粗略地将所有对象分为两类: 个边界框的区域中执行像素分割。FCIS的主 “Things”和“Stuff”,其中“Things'”是感兴趣的对 要思想是利用全卷积层预测一组位置敏感的输出 象且具有相对规范的形状,例如行人、汽车等, 通道,这些通道能够同时预测对象的类别、边界 Stuf可以具有相对任意的范围,例如树木、墙 框和掩码;Mask R-CNN9建立在Faster-.RCNN基 壁等。因此,在像素级识别中,有必要提高特征 础上,只需添加一个额外的Mask分支,并使用 表示的识别能力,充分融合上下文信息,捕获全 ROI Align层代替ROI池化操作,以提高精确度; 局特征。 在Mask R-CNN之后,PANet!is]引入了自底向上 研究人员基于深度神经网络对目标分割提出 的路径扩充、自适应特征池化和全连接融合,以 了一系列方法,提升了分割算法的精度和灵活 提高实例分割的性能;单阶段实例分割的研究受 性。Jonathan等提出全卷积网络(fully convolu- 到了单阶段目标检测器的启发,如YOLACTO将 tional networks,FCN),将CNN网络中的全连接层 图像分割分成两个子任务:原型掩码(prototype
接近于甚至超过人类水平。尽管如此,人类的视 觉系统具有感知物体完整物理结构的能力,即使 物体在部分遮挡甚至重度遮挡的情况下也能准确 预测物体的形状,这种能力被称为非模式感知[11] (即 amodal perception),使得人类对物体的不可见 的、被遮挡的部分进行推理,针对遮挡有一定的 鲁棒性,从而仅在部分可见的情况下感知物体完 整形状和语义概念。 在非模式实例分割[11] 的任务中,amodal masks 定义为物体 visible masks 和 occlusion masks 的并 集。预测 amodal mask 和 visible mask 可以加深对 场景的理解;例如,非模式感知可以使自动驾驶 汽车能够在视觉范围内推断出车辆和行人的整体 形状,即使其中的一部分是看不见的,这能够显 著降低碰撞的风险;还有机器人在拾取或放置对 象时,需要知道对象是否被一个或多个其他对象 所遮挡,通过对被遮挡部分的感知计算遮挡区 域,然后指导机器人朝哪个方向移动或者将某些 对象移除,帮助机器人获取感兴趣对象的完整结 构和语义。 预测物体的不可见部分是非常具有挑战性 的。一个计算机视觉系统如果要感知物体被遮 挡、不可见部分的形状和语义概念,首先需要识 别和定位这个物体,这涉及到了目标检测的技 术;第二,需要从可见部分提供的线索去推断出 物体被遮挡部分的最可能外观特征,并且为物体 遮挡部分的像素进行标记,这涉及到语义分割的 技术,与此同时在此过程中往往会遭受来自附近 其他对象实例信息的误导;第三,实际上物体往 往被多个不同的实例遮挡,这将导致被遮挡的对 象会处于不同的深度顺序中,如何探索对象之间 的相对深度顺序关系也给非模式感知带来很大的 困难。 为了有效地完成非模式实例分割的任务,需 要区分一些容易混淆的类别,并考虑不同外观的 对象。我们可以粗略地将所有对象分为两类: “Things”和“Stuff”,其中“Things”是感兴趣的对 象且具有相对规范的形状,例如行人、汽车等, “Stuff”可以具有相对任意的范围,例如树木、墙 壁等。因此,在像素级识别中,有必要提高特征 表示的识别能力,充分融合上下文信息,捕获全 局特征。 研究人员基于深度神经网络对目标分割提出 了一系列方法,提升了分割算法的精度和灵活 性。Jonathan 等 [7] 提出全卷积网络 (fully convolutional networks,FCN),将 CNN 网络中的全连接层 转化为卷积层,采用反卷积的方法进行上采样, 并引入跳跃连接来改善上采样效果,实现对图像 中的每个像素预测和分类的任务,但 是 FCN 没有考虑像素之间的关系,导致分割精度不够; He 等 [ 9 ] 提出了一种高效的实例分割框架— Mask-RCNN,该算法通过特征金字塔 (feature pyramid network,FPN) 和 ROI Align 层,极大地提升 了算法的精度,但仍然没有考虑到卷积特征的通 道和空间的上下文依赖关系;Zhang 等 [ 1 2 ] 提出 SLN 模型,该方法完成了非模式实例分割的任 务,引入一种新的表示方法即语义感知距离映 射,根据物体的可见性将物体的不同区域放置在 不同的层次上,进而对物体被遮挡部分预测,尽 管实现了对不可见部分的感知,但是忽略了空间 相关性,使算法缺乏全局上下文语义信息,很容 易导致预测的欠拟合。 在识别物体的时候,人类的视觉感知通过反 馈连接和注意力机制传递高级语义信息,选择性 地增强和抑制神经元的激活[13]。然而非模式实例 分割任务的特点是仅仅从对象的可见部分提供的 线索来合理预测该对象的被遮挡部分,并且被遮 挡部分的空间形状具有不确定性。通过反馈过程 和注意力机制的学习建立丰富的全局上下文关系 是非常有帮助的,从而根据已有的提示推断出对 象最可能的外观特征。针对以上问题,受人类视 觉系统的启发,为了提高非模式实例分割中特征 表示的鉴别能力和充分聚合上下文信息,本文精 心设计了一个反馈注意力机制的特征金字塔结 构,以及在实例分割分支引入 Context Attention Module。 1 相关工作 1.1 实例分割 两阶段实例分割通常将此任务描述为“先检 测后分割”。它们通常先检测到边界框,然后在每 个边界框的区域中执行像素分割。FCIS[14] 的主 要思想是利用全卷积层预测一组位置敏感的输出 通道,这些通道能够同时预测对象的类别、边界 框和掩码;Mask R-CNN[9] 建立在 Faster-RCNN 基 础上,只需添加一个额外的 Mask 分支,并使用 ROI Align 层代替 ROI 池化操作,以提高精确度; 在 Mask R-CNN 之后,PANet[15] 引入了自底向上 的路径扩充、自适应特征池化和全连接融合,以 提高实例分割的性能;单阶段实例分割的研究受 到了单阶段目标检测器的启发,如 YOLACT[10] 将 图像分割分成两个子任务:原型掩码 (prototype ·802· 智 能 系 统 学 报 第 16 卷
第4期 董俊杰,等:基于反馈注意力机制和上下文融合的非模式实例分割 ·803· masks)的生成和预测每个实例掩码的掩码系数 类和实例标签,然而组成每个实例的不同像素点 (mask coefficients);然后,通过原型掩码和掩码系 之间具有紧密联系,同时有必要区分相同类别的 数的线性组合来生成实例掩码;TensorMask6研 不同实例对象,由于注意力机制可以获取全局信 究了在密集滑动窗口上的实例分割,使用结构化 息,建立上下文长期依赖关系,因此一些研究引 的4D张量来表示空间域上的掩码;PolarMask7 入注意力机制来提高实例分割的性能。Cao等网 提出使用极坐标表示对掩码进行编码,并将逐像 提出了GCNet,引入Context Modeling和Trans- 素掩码预测转换为距离回归。但这些方法都仅仅 form模块从而建立一个轻量级的注意力机制模 预测对象可见部分的掩码,而没有对被遮挡、不 型,进行全局上下文建模和捕获通道间的相互依 可见部分进行预测。 赖,并采用逐像素加法进行特征融合,极大提高 1.2非模式实例分割 了实例分割的效率;FGNet2是将一般实例分割 图像非模式实例分割的研究才刚刚起步。 和Few-shot学习范式结合起来,在Mask-RCNN Zhu等基于COCO原始数据集为非模式实例分 的各个关键组件中引入了不同的指导机制,包括 割提供了一个新的开创性数据集COCO-amodal, 注意力指导RPN,关系指导检测器和注意力指导 并提出了AmodalMask模型,该模型对于提议的 FCN用于指导基本实例分割的预测,能够更好地 对象候选具有较高的召回率,实现对物体不可见 适应类间泛化:Liu等提出的Celr-cnnv3模型 部分的推理;Zhang等提出的SLN模型,引入 属于生物医学图像领域的实例分割,包含残差注 语义感知距离映射,根据物体的可见性程度将物 意力特征融合机制、掩码质量预测分支,前者促 体的不同区域放置在不同的层次上来对物体不可 进实例分支中语义上下文信息的学习,后者使每 见部分进行预测:Li等提出的amodal实例分割 个目标的置信度得分与掩码预测的质量对齐,提 方法,主要通过迭代地将对象的边界框扩大到具 高了实例分割的性能。 有高热力图值的方向,并且重新计算热力图来实 以上方法,模仿人类视觉系统引入注意力机 现对物体被遮挡部分的预测;Follmann等u提出 制,通过对全局上下文信息的建模,捕获远程长 ARCNN模型,该模型基于Mask RCNN,通过扩展 期依赖关系,使得实例分割性能显著提升;然而 其预测分支,分为amodal mask预测分支和visible 对于非模式的实例分割任务而言,对被遮挡、不 mask预测分支,实现非模式实例分割;Ehsani等o 可见区域的像素点进行语义预测则具有更大的挑 试图通过生成对抗网络(GAN)来生成物体的不 战,并且由于需要对物体被遮挡部分进行补全, 可见部分。 这将导致同一个像素点可能会分配多个标签,对 1.3注意力机制 提取的特征表达能力和空间细节具有更高的要 注意力机制可以建立长期依赖关系,提高特 求。因此,本文工作将注意力机制引入非模式实 征表达能力,并且成为了许多具有挑战性任务的 例分割的任务中,引入反馈连接进行再学习,建 有效方法,包括图像分类、语义和实例分割等。 立丰富的上下文融合关系,有选择地聚合全局信 目前视觉识别领域主要包括3种注意力机制的方 息,显著提高了预测的精度,极大地解决了分割 式:通道注意力机制、空间注意力机制和混合注 欠拟合问题。 意力机制。Hu等Pl提出了SENet模型,该模型通 过在卷积网络的不同通道间探索各个通道的重要 2本文方法 程度,从而显式地建模通道之间的相互依赖关 2.1反馈注意力机制的FPN 系,自适应地重新校准通道的特征响应;Wang等四 鉴别特征表示是图像理解的关键,它可以通 提出的空间注意力机制利用特征图中所有位置的 过捕获远程上下文信息来获得。然而,许多研究 加权和计算出一个特征的响应,建立起像素之间 表明,由传统FCN(全卷积网络)生成的局部特征 的上下文依赖关系;Sanghyun等提出的混合注 可能导致“Things”和“Stuff的错误分类;与此同 意力机制通过融合通道和空间两种注意力机制, 时,基于特征金字塔(feature pyramid network, 充分挖掘全局语义信息,极大地提升了图像识别 FPN)的分层检测方法虽然取得了很好的效果,但 的性能。 是FPN仍然主要对局部特征进行建模,并没有充 1.4基于注意力机制的实例分割 分考虑全局上下文依赖关系。 实例分割试图为输入图像中的每个像素获取 在利用卷积神经网络对图像进行特征提取的
masks) 的生成和预测每个实例掩码的掩码系数 (mask coefficients);然后,通过原型掩码和掩码系 数的线性组合来生成实例掩码;TensorMask[16] 研 究了在密集滑动窗口上的实例分割,使用结构化 的 4D 张量来表示空间域上的掩码;PolarMask[17] 提出使用极坐标表示对掩码进行编码,并将逐像 素掩码预测转换为距离回归。但这些方法都仅仅 预测对象可见部分的掩码,而没有对被遮挡、不 可见部分进行预测。 1.2 非模式实例分割 图像非模式实例分割的研究才刚刚起步。 Zhu 等 [11] 基于 COCO 原始数据集为非模式实例分 割提供了一个新的开创性数据集 COCO-amodal, 并提出了 AmodalMask 模型,该模型对于提议的 对象候选具有较高的召回率,实现对物体不可见 部分的推理;Zhang 等 [12] 提出的 SLN 模型,引入 语义感知距离映射,根据物体的可见性程度将物 体的不同区域放置在不同的层次上来对物体不可 见部分进行预测;Li 等 [18] 提出的 amodal 实例分割 方法,主要通过迭代地将对象的边界框扩大到具 有高热力图值的方向,并且重新计算热力图来实 现对物体被遮挡部分的预测;Follmann 等 [19] 提出 ARCNN 模型,该模型基于 Mask RCNN,通过扩展 其预测分支,分为 amodal mask 预测分支和 visible mask 预测分支,实现非模式实例分割;Ehsani 等 [20] 试图通过生成对抗网络 (GAN) 来生成物体的不 可见部分。 1.3 注意力机制 注意力机制可以建立长期依赖关系,提高特 征表达能力,并且成为了许多具有挑战性任务的 有效方法,包括图像分类、语义和实例分割等。 目前视觉识别领域主要包括 3 种注意力机制的方 式:通道注意力机制、空间注意力机制和混合注 意力机制。Hu 等 [21] 提出了 SENet 模型,该模型通 过在卷积网络的不同通道间探索各个通道的重要 程度,从而显式地建模通道之间的相互依赖关 系,自适应地重新校准通道的特征响应;Wang 等 [22] 提出的空间注意力机制利用特征图中所有位置的 加权和计算出一个特征的响应,建立起像素之间 的上下文依赖关系;Sanghyun 等 [23] 提出的混合注 意力机制通过融合通道和空间两种注意力机制, 充分挖掘全局语义信息,极大地提升了图像识别 的性能。 1.4 基于注意力机制的实例分割 实例分割试图为输入图像中的每个像素获取 类和实例标签,然而组成每个实例的不同像素点 之间具有紧密联系,同时有必要区分相同类别的 不同实例对象,由于注意力机制可以获取全局信 息,建立上下文长期依赖关系,因此一些研究引 入注意力机制来提高实例分割的性能。Cao 等 [24] 提出了 GCNet,引入 Context Modeling 和 Transform 模块从而建立一个轻量级的注意力机制模 型,进行全局上下文建模和捕获通道间的相互依 赖,并采用逐像素加法进行特征融合,极大提高 了实例分割的效率;FGNet[25] 是将一般实例分割 和 Few-shot 学习范式结合起来,在 Mask-RCNN 的各个关键组件中引入了不同的指导机制,包括 注意力指导 RPN,关系指导检测器和注意力指导 FCN 用于指导基本实例分割的预测,能够更好地 适应类间泛化;Liu 等 [26] 提出的 Cell r-cnn v3 模型 属于生物医学图像领域的实例分割,包含残差注 意力特征融合机制、掩码质量预测分支,前者促 进实例分支中语义上下文信息的学习,后者使每 个目标的置信度得分与掩码预测的质量对齐,提 高了实例分割的性能。 以上方法,模仿人类视觉系统引入注意力机 制,通过对全局上下文信息的建模,捕获远程长 期依赖关系,使得实例分割性能显著提升;然而 对于非模式的实例分割任务而言,对被遮挡、不 可见区域的像素点进行语义预测则具有更大的挑 战,并且由于需要对物体被遮挡部分进行补全, 这将导致同一个像素点可能会分配多个标签,对 提取的特征表达能力和空间细节具有更高的要 求。因此,本文工作将注意力机制引入非模式实 例分割的任务中,引入反馈连接进行再学习,建 立丰富的上下文融合关系,有选择地聚合全局信 息,显著提高了预测的精度,极大地解决了分割 欠拟合问题。 2 本文方法 2.1 反馈注意力机制的 FPN 鉴别特征表示是图像理解的关键,它可以通 过捕获远程上下文信息来获得。然而,许多研究 表明,由传统 FCN(全卷积网络) 生成的局部特征 可能导致“Things”和“Stuff”的错误分类;与此同 时,基于特征金字塔 (feature pyramid network, FPN) 的分层检测方法虽然取得了很好的效果,但 是 FPN 仍然主要对局部特征进行建模,并没有充 分考虑全局上下文依赖关系。 在利用卷积神经网络对图像进行特征提取的 第 4 期 董俊杰,等:基于反馈注意力机制和上下文融合的非模式实例分割 ·803·
·804· 智能系统学报 第16卷 过程中,高层次特征的每个通道图都可以看作是 CAM的结构如图2所示。我们直接从原始特征 一个特定于类的响应,不同的语义响应相互关 图X∈RCxHxW计算通道注意图DERCxC,通道注意 联:通过挖掘通道图之间的相互依赖关系,强调 图D相当于一个相关矩阵,它代表了C个通道之 特征图之间的相关性,提高特定语义的特征表 间的相关性程度。 示;与此同时,人脑是具有层级结构的,不仅执行 XR时 从下层到上层的前馈过程,而且执行从上层到下 层的反馈过程。因此,本文引入反馈过程和注意 力机制来学习语义信息,首先构建一个通道注意 Reshape Reshape Reshape& 模块),它可以捕获通道维度远程上下文依赖关 CHW CxHW Transpose EWxC 系,然后将通道注意模块嵌入到FPN中:第一轮 获取的特征经过通道注意模块建立全局依赖关系 后引入反馈过程进行再学习提取第二轮的特征, Softmax 构成一个循环特征金字塔结构,并将两次提取的 特征进行自适应加权,整体的结构如图1所示。 +预测 Reshape 预测 +预测 图2通道注意模块 Fig.2 Channel attention module (a)FPN 具体来说,首先将原始特征图X变换为 +预测 X∈Rxw,这里N=H×W,然后在X和X之间执 预测 行矩阵乘法,最后应用Softmax函数来获得通道 CAM 预测 注意图DERCxC: CAM d=- exp(X·X) CAM- (b)FCAM-FPN expxX) 图1反馈注意力机制的FPN结构 式中:d:表示第i个通道和第j个通道之间的相 Fig.1 FPN with feedback attention mechanism 关程度。与此同时,对通道注意图D与原始特 本文基于ResNet101引入反馈连接的FPN。 征图X变换后的X∈RCxw执行矩阵乘法并重新变 首先如图l(a)所示为特征金字塔结构(FPN),左 换为RCxHxW,将此结果与原始特征图X执行逐元 侧为ResNet1(0l主干网络,右侧为金字塔网络,主 素求和运算,以获得最终输出特征E∈RCxHxW」 干网络提取图像特征,然后经过自顶向下和横向 C 连接将每一阶段的特征图进行融合。例如,P,层 E=240 (1) 经过B,层和P,层融合得到,P,层是B,层经过 式(1)表明,每个通道的最终特征与所有通道 1×1卷积和上采样得到,具有高级语义信息,而B 建立了紧密的相互依赖关系,通过跳跃连接使得 层是位于主干网络的较浅层,具有底层的细节信息。 输出特征表示为所有通道特征和原始特征的和, 为了更充分合理地模拟人脑捕获高级语义信 建立了通道特征图之间的上下文依赖关系模型。 息,本文在原来FPN结构的基础上,添加了反馈 接下来将从通道注意模块(CAM)得到的输 连接和通道注意模块,构成反馈注意力机制 出特征,采用反馈连接,重新输入到ResNet101主 FPN结构,简记为FCAM-FPN,如图I(b)所示。 干网络中,进行第二次特征提取。假设B,表示自 将第一轮FPN提取的特征,经过通道注意模块建 底向上主干网络的第i级,F:表示自顶而下 立远程依赖关系后得到的输出特征,采用反馈连 FPN操作的第i级,R表示经过通道注意模块 接输入到主干网络得到第二轮FPN提取的特征, (CAM)后的输出特征,那么具有反馈过程的输出 引入了注意力机制和反馈过程的二次学习,这样 特征f:定义为 将捕获富含注意力的前后两次特征。 f=F(f.x),x:=B(x1R(f)) 通道注意模块(channel attention module, 式中:x表示输入图像;x,表示主干网络经过多
过程中,高层次特征的每个通道图都可以看作是 一个特定于类的响应,不同的语义响应相互关 联;通过挖掘通道图之间的相互依赖关系,强调 特征图之间的相关性,提高特定语义的特征表 示;与此同时,人脑是具有层级结构的,不仅执行 从下层到上层的前馈过程,而且执行从上层到下 层的反馈过程。因此,本文引入反馈过程和注意 力机制来学习语义信息,首先构建一个通道注意 模块[27] ,它可以捕获通道维度远程上下文依赖关 系,然后将通道注意模块嵌入到 FPN 中;第一轮 获取的特征经过通道注意模块建立全局依赖关系 后引入反馈过程进行再学习提取第二轮的特征, 构成一个循环特征金字塔结构,并将两次提取的 特征进行自适应加权,整体的结构如图 1 所示。 B4 B3 B2 P4 P3 P2 预测 预测 预测 预测 预测 预测 (a) FPN CAM CAM CAM (b) FCAM-FPN 图 1 反馈注意力机制的 FPN 结构 Fig. 1 FPN with feedback attention mechanism 1×1 本文基于 ResNet101 引入反馈连接的 FPN。 首先如图 1(a) 所示为特征金字塔结构 (FPN),左 侧为 ResNet101 主干网络,右侧为金字塔网络,主 干网络提取图像特征,然后经过自顶向下和横向 连接将每一阶段的特征图进行融合。例如,P3 层 经过 B3 层和 P4 层融合得到,P4 层是 B4 层经过 卷积和上采样得到,具有高级语义信息,而 B3 层是位于主干网络的较浅层,具有底层的细节信息。 为了更充分合理地模拟人脑捕获高级语义信 息,本文在原来 FPN 结构的基础上,添加了反馈 连接和通道注意模块,构成反馈注意力机 制 FPN 结构,简记为 FCAM-FPN,如图 1(b) 所示。 将第一轮 FPN 提取的特征,经过通道注意模块建 立远程依赖关系后得到的输出特征,采用反馈连 接输入到主干网络得到第二轮 FPN 提取的特征, 引入了注意力机制和反馈过程的二次学习,这样 将捕获富含注意力的前后两次特征。 通道注意模块 (channel attention module, X ∈ R C×H×W D ∈ R C×C D C CAM) 的结构如图 2 所示。我们直接从原始特征 图 计算通道注意图 ,通道注意 图 相当于一个相关矩阵,它代表了 个通道之 间的相关性程度。 XϵRC×H×W DϵRC×C EϵRC×H×W Reshape C×HW Reshape C×HW Reshape& Transpose HW×C Softmax Reshape 图 2 通道注意模块 Fig. 2 Channel attention module X X ∈ R C×N N = H ×W X X T D ∈ R C×C 具体来说 ,首先将原始特征图 变换为 ,这里 ,然后在 和 之间执 行矩阵乘法,最后应用 Softmax 函数来获得通道 注意图 : dji = exp(Xi · Xj) ∑C i=1 exp(Xi · Xj) dji i j D T X X ∈ R C×N R C×H×W X E ∈ R C×H×W 式中: 表示第 个通道和第 个通道之间的相 关程度。与此同时,对通道注意图 与原始特 征图 变换后的 执行矩阵乘法并重新变 换为 ,将此结果与原始特征图 执行逐元 素求和运算,以获得最终输出特征 : Ej = ∑C i=1 (djiXi)+Xj (1) 式 (1) 表明,每个通道的最终特征与所有通道 建立了紧密的相互依赖关系,通过跳跃连接使得 输出特征表示为所有通道特征和原始特征的和, 建立了通道特征图之间的上下文依赖关系模型。 Bi i Fi i Ri fi 接下来将从通道注意模块 (CAM) 得到的输 出特征,采用反馈连接,重新输入到 ResNet101 主 干网络中,进行第二次特征提取。假设 表示自 底向上主干网络的第 级 , 表示自顶而 下 FPN 操作的第 级 , 表示经过通道注意模块 (CAM) 后的输出特征,那么具有反馈过程的输出 特征 定义为 fi = Fi(fi+1, xi), xi = Bi(xi−1,Ri(fi)) 式中: x0 表示输入图像; xi 表示主干网络经过多 ·804· 智 能 系 统 学 报 第 16 卷
第4期 董俊杰,等:基于反馈注意力机制和上下文融合的非模式实例分割 ·805· 个阶段生成的输出特征,表示经过自顶而下 2.2上下文注意模块 FPN的输出特征,i=1,2,…,S,S是主干残差网络 为了主动捕获像素之间的语义依赖关系,引 的阶段数,令f+1=0。这样就使得FPN形成一个 入了基于自注意机制的上下文注意模块28(con- 循环网络;可将其展开成具有序列的网络结构, text attention module,CxAM)。对于非模式实例分 那么此时输出特征表示为 割任务而言,物体之间的位置关系复杂,并且被 f=F(f).x=B:(R(f)) 遮挡部分的外观具有不确定性。基于这些特征, 其中i=1,2,…,S,t=1,2,…,T,令f°=0,在本文 CxAM编码了一个像素级别的远程上下文依赖关 的实验中令T=2。最后基于反馈注意力机制的 系,能够自适应地关注更相关的区域。因此, FPN结构的输出特征q:表示为 CxAM的输出特征将具有全局的语义信息,并包 q:=f+af月 (2) 含周围对象中的上下文关系。 其中α被初始化为0,并逐渐学习分配更多的权重。 CxAM的结构如图3所示,本文将CxAM模 式(2)表明输出特征为经过通道注意模块前后两 块仅用于Mask head,,在语义分割时用来捕获像素 次FPN提取到特征f和f的自适应加权和;这 之间的语义和位置依赖关系。图3中,在给定的 样既可以保留前一次FPN的信息,又可以充分利 特征图F∈RxxW的情况下,分别使用1×1卷积 用反馈注意力机制再学习到的特征表达,建立起 层Wm和W,按式(3)计算得到转换后的特征图为 通道间的上下文关系,提取更丰富的语义信息。 M=WF和N=WrF (3) Reshapc& Conw1×L Transpose Reshape softmax Conv I×1 softmax Reshape &expand (C. Conv 1×1 (HW,1) B Reshape Conw1×1 Reshape (C.) 图3上下文注意模块 Fig.3 Context attention module 这里,M,N∈RCxHxw,接着将M和N变换 到大小为HW×1的相关性矩阵,然后复制自身 为RCxk,其中K=H×W。为了建立每个像素之 大小变为Q∈R,将Q和P执行逐元素求和得 间的依赖关系,将MT和N执行矩阵乘法,然后 到A。 应用Softmax函数来计算它的上下文注意力特征 将原始特征图F∈RCxHxW使用另外一个1×1 映射得到一个相关性矩阵P∈Rxk: 卷积层W。变换为B=WFF,这里BERCXK,将B和 exp(M:·N) A执行矩阵相乘操作并将其结果变换为RCxExW, P= pOt:N) 原始特征图F∈RCxHxW经过跳跃连接与此结果执 行逐元素求和,得到最后的输出特征图F'。 式中:P:表示第i个像素与第j个像素之间的相 经过CxAM模块后,每个位置产生的特征F 关程度。与此同时,另外一条路径将原始特征图 是跨越所有位置的特征和原始特征的加权和。因 FERCxHxW经过一个1×1×1卷积层后得到一个大 此,它可以有选择地聚合全局信息,建立上下文 小为1×H×W的特征融合图,将此特征融合图变 依赖关系,相似的语义特征相互促进,从而提高 换为CERWx1,将C再经过一个Softmax函数得 了语义一致性
fi i = 1,2,··· ,S S fS+1 = 0 fi 个阶段生成的输出特征, 表示经过自顶而下 FPN 的输出特征, , 是主干残差网络 的阶段数,令 。这样就使得 FPN 形成一个 循环网络;可将其展开成具有序列的网络结构, 那么此时输出特征 表示为 fi t = Fi t (f t i+1 , xi t ), xi t = Bi t (x t i−1 ,Ri t (fi t−1 )) ∀i = 1,2,··· ,S, t = 1,2,··· ,T f 0 i = 0 T = 2 qi 其中 ,令 ,在本文 的实验中令 。最后基于反馈注意力机制的 FPN 结构的输出特征 表示为 qi = f t−1 i +α f t i (2) α fi t fi t−1 其中 被初始化为 0,并逐渐学习分配更多的权重。 式 (2) 表明输出特征为经过通道注意模块前后两 次 FPN 提取到特征 和 的自适应加权和;这 样既可以保留前一次 FPN 的信息,又可以充分利 用反馈注意力机制再学习到的特征表达,建立起 通道间的上下文关系,提取更丰富的语义信息。 2.2 上下文注意模块 为了主动捕获像素之间的语义依赖关系,引 入了基于自注意机制的上下文注意模块[28] (context attention module, CxAM)。对于非模式实例分 割任务而言,物体之间的位置关系复杂,并且被 遮挡部分的外观具有不确定性。基于这些特征, CxAM 编码了一个像素级别的远程上下文依赖关 系,能够自适应地关注更相关的区域。因此, CxAM 的输出特征将具有全局的语义信息,并包 含周围对象中的上下文关系。 F ∈ R C×H×W 1×1 Wm Wn CxAM 的结构如图 3 所示,本文将 CxAM 模 块仅用于 Mask head,在语义分割时用来捕获像素 之间的语义和位置依赖关系。图 3 中,在给定的 特征图 的情况下,分别使用 卷积 层 和 ,按式 (3) 计算得到转换后的特征图为 M = WT m F 和 N = WT n F (3) M N C Q P A F′ Conv 1×1 Conv 1×1 Conv 1×1 Conv 1×1 Reshapc& Transpose F softmax softmax &expand B Reshape Reshape Reshape Reshape (C, H, W) (C, H, W) (HW, 1) 图 3 上下文注意模块 Fig. 3 Context attention module {M , N} ∈ R C ′×H×W M N R C ′×K K = H ×W MT N P ∈ R K×K 这里, ,接着将 和 变换 为 ,其中 。为了建立每个像素之 间的依赖关系,将 和 执行矩阵乘法,然后 应用 Softmax 函数来计算它的上下文注意力特征 映射得到一个相关性矩阵 : pji = exp(Mi · Nj) ∑K i=1 exp(Mi · Nj) pji i j F ∈ R C×H×W 1×1×1 1× H ×W C ∈ R HW×1 C 式中: 表示第 个像素与第 个像素之间的相 关程度。与此同时,另外一条路径将原始特征图 经过一个 卷积层后得到一个大 小为 的特征融合图,将此特征融合图变 换为 ,将 再经过一个 Softmax 函数得 HW ×1 Q ∈ R K×K Q P A 到大小为 的相关性矩阵,然后复制自身 大小变为 ,将 和 执行逐元素求和得 到 。 F ∈ R C×H×W 1×1 Wb B = WT b F B ∈ R C×K B A R C×H×W F ∈ R C×H×W F ′ 将原始特征图 使用另外一个 卷积层 变换为 ,这里 ,将 和 执行矩阵相乘操作并将其结果变换为 , 原始特征图 经过跳跃连接与此结果执 行逐元素求和,得到最后的输出特征图 。 F 经过 CxAM 模块后,每个位置产生的特征 ′ 是跨越所有位置的特征和原始特征的加权和。因 此,它可以有选择地聚合全局信息,建立上下文 依赖关系,相似的语义特征相互促进,从而提高 了语义一致性。 第 4 期 董俊杰,等:基于反馈注意力机制和上下文融合的非模式实例分割 ·805·
·806- 智能系统学报 第16卷 3实验验证 33评价指标 为了验证本文所提出的基于反馈注意力机制 为了验证本文提出的算法,本节对改进的 和上下文注意模块算法在非模式实例分割任务中 SLN算法进行实验。采用COCO-amodal数据 的有效性,采用平均精确率(average precision, 集对该模型进行训练,实验运行环境为深度学习 AP)和平均召回率(average recall,.AR)作为对该算 框架Pytorch0.4.0,操作系统为Ubantu16.04,Py- 法性能的评价指标。平均精确率是指在图像分割 thon3.6,GPU显卡型号为NVIDIA GeForce RTX2060。 时,将IoU阈值在0.5~0.95进行十等分,计算这 3.1实验数据集 10个不同IoU阈值下交并比的平均值:同样地, 本文采用文献[11]中发布的COCO-amod- 平均召回率指的是在0.5~0.95内10个不同 al数据集。COCO-amodal数据集是由5072幅图 【oU阈值下召回率的平均值。本文分别计算每幅 像组成的非模式实例分割数据集,其中2500、1250 图像在All regions、Things only和Stuff only情况 和1322幅图像分别用于训练、验证和测试。COC0- 下AP和AR值来评估算法性能,其中ARI°和 amodal数据集的注释包括每个对象的可见/不可 AR分别表示每张图片中每个类别分类置信度 见区域以及每张图像中所有对象的相对深度顺 最高的前10和前100个预测框的平均召回率。 序,作者没有将注释限制为通常的COCO类,可 由于本文研究的是非模式实例分割的任务, 以为对象指定任意名称;此外,作者还提供了背 重点关注的是物体在被遮挡情况下对不可见部分 景区域的注释,这些区域有时扩展到整个图像 的预测,所以有必要关注物体在不同遮挡强度下 域,标记为“Stuff”。因此COCO-amodal数据集中 预测的准确性。因此,本文还统计了每幅图像中 的所有对象可以分为两类:“Things'”和“Stuff”, Things'”和“Stuff在部分遮挡(partial occlusion) 其中“Things?”是具有规范形状的对象,“Stuff具 或重度遮挡(heavy occlusion)状态下的AR值,将 有一致的视觉外观,但可以具有任意范围。 其表示为AR和AR“。 3.2实验细节 3.4实验结果分析 实验首先利用在COCO2014数据集上预训练 在COCO-amodal数据集上,将本文所提出的 的Mask RCNN模型来初始化网络参数,算法的主 方法与AmodalMask、aRCNNIS9、ARCNn+I例 干网络是ResNetl0l。在训练区域提议网络 SLN2在平均精确率和平均召回率进行对比,其 (RPN)时,本文对RPN的网络参数进行了适当的 中ARCNN++表示ARCNN with visible mask,实验 调整,设置非最大抑制的阈值为0.6,以便生成更 结果如表1所示。从表1可知,在C0C0-amod- 多的区域提议。模型使用的损失函数和其他超参 al数据集上比较结果,本文所提出的方法,在 数均按照文献[12]中描述的策略进行设置和初始 AP和AR两个方面都有显著的提升,在All re- 化。具体的训练过程中,借鉴离散下降学习率设 gions情况下的AP从8.4%提高到14.3%,AR°从 置方法,以初始学习率1,=0.001训练网络的 16.6%提高到20.8%,AR10°从36.5%提高到 head部分,训练l2个epochs,然后将学习率降低 40.3%,分别具有5.9%、4.2%和3.8%的收益。实 为l,=0.0001来微调整个网络,训练8个epochs, 验数据表明,本文的方法通过反馈注意力机制再 总计训练20个epochs。所有目标均采用随机梯 学习和上下文注意模块,有效建立远程上下文依 度下降法(SGD)进行优化,并设置weight_decay= 赖关系,捕获丰富的全局语义信息,增强了非模 0.0001,momentum=0.9。 式实例分割的性能。 表1COCO-amodal测试集上的分割结果对比 Table 1 Comparison of segmentation results on COCO-amodal test set All regions Things only Stuff only 算法 AP AR100 ARP ARH AP AR10 AR”ARH AP AR AR AmodalMask 5.7413.529.2331.021.3 6.1216.5 33.137.023.6 0.78 5.4 18.1 16.118.0 ARCNN 4.1 10.2 21.322.0 13.3 4.4 12.0 23.9.34.715.2 0.3 4.8 13.8 15.1 10.1 ARCNN++ 6.6 15.3 32.4 34.817.1 7.8 19.5 37.6 40.819.9 0.5 3.3 17.1 19.9 12.5 SLN 8.4 16.6 36.5 40.122.5 9.6 20.5 40.543.624.9 0.8 5.3 25.0 31.3 18.6 OURS 14.320.8 40.344.325.5 16.324.8 44.348.028.11.4 9.3 28.635.321.4
3 实验验证 为了验证本文提出的算法,本节对改进的 SLN[12] 算法进行实验。采用 COCO-amodal 数据 集对该模型进行训练,实验运行环境为深度学习 框架 Pytorch 0.4.0,操作系统为 Ubantu 16.04,Python 3.6,GPU 显卡型号为 NVIDIA GeForce RTX 2060。 3.1 实验数据集 本文采用文献 [11] 中发布的 COCO-amodal 数据集。COCO-amodal 数据集是由 5 072 幅图 像组成的非模式实例分割数据集,其中 2500、1250 和 1322 幅图像分别用于训练、验证和测试。COCOamodal 数据集的注释包括每个对象的可见/不可 见区域以及每张图像中所有对象的相对深度顺 序,作者没有将注释限制为通常的 COCO 类,可 以为对象指定任意名称;此外,作者还提供了背 景区域的注释,这些区域有时扩展到整个图像 域,标记为“Stuff”。因此 COCO-amodal 数据集中 的所有对象可以分为两类:“Things”和“Stuff”, 其中“Things”是具有规范形状的对象,“Stuff”具 有一致的视觉外观,但可以具有任意范围。 3.2 实验细节 lr = 0.001 lr = 0.000 1 weight_decay = 0.000 1 momentum = 0.9 实验首先利用在 COCO2014 数据集上预训练 的 Mask RCNN 模型来初始化网络参数,算法的主 干网络 是 ResNet101。在训练区域提议网 络 (RPN) 时,本文对 RPN 的网络参数进行了适当的 调整,设置非最大抑制的阈值为 0.6,以便生成更 多的区域提议。模型使用的损失函数和其他超参 数均按照文献 [12] 中描述的策略进行设置和初始 化。具体的训练过程中,借鉴离散下降学习率设 置方法,以初始学习率 训练网络 的 head 部分,训练 12 个 epochs,然后将学习率降低 为 来微调整个网络,训练 8 个 epochs, 总计训练 20 个 epochs。所有目标均采用随机梯 度下降法 (SGD) 进行优化,并设置 , 。 3.3 评价指标 为了验证本文所提出的基于反馈注意力机制 和上下文注意模块算法在非模式实例分割任务中 的有效性,采用平均精确率 (average precision, AP) 和平均召回率 (average recall,AR) 作为对该算 法性能的评价指标。平均精确率是指在图像分割 时,将 IoU 阈值在 0.5~0.95 进行十等分,计算这 10 个不同 IoU 阈值下交并比的平均值;同样地, 平均召回率指的是 在 0.5~0.9 5 内 1 0 个 不 同 IoU 阈值下召回率的平均值。本文分别计算每幅 图像在 All regions、Things only 和 Stuff only 情况 下 AP 和 AR 值来评估算法性能,其中 AR1 0 和 AR100 分别表示每张图片中每个类别分类置信度 最高的前 10 和前 100 个预测框的平均召回率。 由于本文研究的是非模式实例分割的任务, 重点关注的是物体在被遮挡情况下对不可见部分 的预测,所以有必要关注物体在不同遮挡强度下 预测的准确性。因此,本文还统计了每幅图像中 “Things”和“Stuff”在部分遮挡 (partial occlusion) 或重度遮挡 (heavy occlusion) 状态下的 AR 值,将 其表示为 ARP 和 ARH。 3.4 实验结果分析 在 COCO-amodal 数据集上,将本文所提出的 方法与 AmodalMask[11] 、ARCNN[19] 、ARCNN ++[19] 、 SLN[12] 在平均精确率和平均召回率进行对比,其 中 ARCNN ++表示 ARCNN with visible mask,实验 结果如表 1 所示。从表 1 可知,在 COCO-amodal 数据集上比较结果,本文所提出的方法,在 AP 和 AR 两个方面都有显著的提升,在 All regions 情况下的 AP 从 8.4% 提高到 14.3%,AR10 从 16.6% 提高到 20.8%, AR1 0 0 从 36.5% 提高到 40.3%,分别具有 5.9%、4.2% 和 3.8% 的收益。实 验数据表明,本文的方法通过反馈注意力机制再 学习和上下文注意模块,有效建立远程上下文依 赖关系,捕获丰富的全局语义信息,增强了非模 式实例分割的性能。 表 1 COCO-amodal 测试集上的分割结果对比 Table 1 Comparison of segmentation results on COCO-amodal test set 算法 All regions Things only Stuff only AP AR10 AR100 ARP ARH AP AR10 AR100 ARP ARH AP AR10 AR100 ARP ARH AmodalMask 5.74 13.5 29.23 31.0 21.3 6.12 16.5 33.1 37.0 23.6 0.78 5.4 18.1 16.1 18.0 ARCNN 4.1 10.2 21.3 22.0 13.3 4.4 12.0 23.9 34.7 15.2 0.3 4.8 13.8 15.1 10.1 ARCNN++ 6.6 15.3 32.4 34.8 17.1 7.8 19.5 37.6 40.8 19.9 0.5 3.3 17.1 19.9 12.5 SLN 8.4 16.6 36.5 40.1 22.5 9.6 20.5 40.5 43.6 24.9 0.8 5.3 25.0 31.3 18.6 OURS 14.3 20.8 40.3 44.3 25.5 16.3 24.8 44.3 48.0 28.1 1.4 9.3 28.6 35.3 21.4 ·806· 智 能 系 统 学 报 第 16 卷
第4期 董俊杰,等:基于反馈注意力机制和上下文融合的非模式实例分割 ·807· 观察表1在All regions下AR”和ARH的结果 下文注意模块,使网络能够学习到全局的语义依 可知,当物体处于部分遮挡或重度遮挡状态下, 赖关系,充分挖掘像素的空间相关性,在非模式 本文提出的方法对于像素的平均召回率仍然具有 实例分割的任务中,该方法能够有效帮助检测器 很大的提高,AR°从40.1%提高到44.3%,AR“从 仅仅从物体可见部分提供的线索去准确推断出物 22.5%提高到25.5%,分别具有4.2%和3%的收 体被遮挡部分的最可能外观特征,定性的可视化 益,这表明,通过反馈注意力机制的再学习和上 结果见图4。 (a)原图 (b)Ground truth (c)SLN (d)本文模型 图4在COCO-amodal数据集上非模式实例分割的定性结果 Fig.4 Qualitative results of amodal instance segmentation on coco-amodal dataset 与此同时,在Things only'”和“Stuff only”的 1.4%,具有0.6%的绝对收益,75%的相对收益。 情况下,本文算法无论是在AP还是AR,即使在 为了进一步证明本文提出方法的有效性,本 部分遮挡或重度遮挡的状态下,都表现出一致的 文对COCO-amodal测试集的一些图片进行定性 优势:在“Things only”时AP从9.6%提高到 分析,非模式实例分割的定性实验结果如图4所 16.3%,具有6.7%的绝对收益,69.8%的相对收 示,观察第1行的对比图可以看出,图中的“冰箱 益;同样地,在“Stuff only'”时AP从0.8%提高到 存在部分遮挡,SLN算法在预测被遮挡、不可见
观察表 1 在 All regions 下 ARP 和 ARH 的结果 可知,当物体处于部分遮挡或重度遮挡状态下, 本文提出的方法对于像素的平均召回率仍然具有 很大的提高,ARP 从 40.1% 提高到 44.3%,ARH 从 22.5% 提高到 25.5%,分别具有 4.2% 和 3% 的收 益,这表明,通过反馈注意力机制的再学习和上 下文注意模块,使网络能够学习到全局的语义依 赖关系,充分挖掘像素的空间相关性,在非模式 实例分割的任务中,该方法能够有效帮助检测器 仅仅从物体可见部分提供的线索去准确推断出物 体被遮挡部分的最可能外观特征,定性的可视化 结果见图 4。 (a) 原图 (b) Ground truth (c) SLN (d) 本文模型 图 4 在 COCO-amodal 数据集上非模式实例分割的定性结果 Fig. 4 Qualitative results of amodal instance segmentation on coco-amodal dataset 与此同时,在“Things only”和“Stuff only”的 情况下,本文算法无论是在 AP 还是 AR,即使在 部分遮挡或重度遮挡的状态下,都表现出一致的 优势:在“Things only”时 AP 从 9.6% 提高到 16.3%,具有 6.7% 的绝对收益,69.8% 的相对收 益;同样地,在“Stuff only”时 AP 从 0.8% 提高到 1.4%,具有 0.6% 的绝对收益,75% 的相对收益。 为了进一步证明本文提出方法的有效性,本 文对 COCO-amodal 测试集的一些图片进行定性 分析,非模式实例分割的定性实验结果如图 4 所 示,观察第 1 行的对比图可以看出,图中的“冰箱” 存在部分遮挡,SLN 算法在预测被遮挡、不可见 第 4 期 董俊杰,等:基于反馈注意力机制和上下文融合的非模式实例分割 ·807·
·808· 智能系统学报 第16卷 部分时存在一定的欠拟合问题,本文提出的方法 CD=4a1 kk+1) 通过建立丰富的上下文依赖关系,获取全局语义 6N (5) 信息,实现了更准确的预测;从第3行对比图可 由式(⑤)计算出临界值域CD后,画出Friedman 知,在复杂的场景情况下,SLN算法对小目标分 检验结果图,如图5所示。其中,中心圆点表示每个 割存在一定程度的漏分割现象,如图中有的“人” 算法的平均序值,以圆点为中心的横线段表示临界 没有检测出来,并且这些样本属于小目标,本文 值域的大小。Friedman检验结果表示,如果两种 的方法由于捕获了像素级的全局语义信息,加强 方法的横线段有较多重叠,则表明两种算法的差 了上下文信息的融合,对于小目标对象的漏分 异性较小,否则,说明两种算法具有显著的差异性。 割、分割不准确的情况有了显著改善,不仅检测 OURS +ARCNN 到图像中的小目标,同时对小目标对象的遮挡部 ◆AmodalMask 分也能合理预测,使得分割质量得到大幅提升。 SLN *2 ■OURS 3.5统计检验分析 CD=3.522 3.33 ARCNN+ 为了对比不同的算法在数据集上的性能差 3.67 异,本文采用Friedman检验来分析本文提出的算 AmodalMask ◆ 法是否具有显著性。本文在COCO-amodal数据 ARCNN 集上对该方法进行了充分的实验,表1从Alre- gions、Things only和Stuff only3个维度分析了不 -101234567 同算法之间的性能差异。本文把表1转换成按 图5 Friedman检验结果 AP从高到低排序的排序表,最后获得不同方法 Fig.5 Graph of Friedman test result 在COCO-amodal数据集不同维度上的排序情况, 观察图5可知,直线AmodalMask与AR- 结果如表2所示。 CNN++重叠的部分比例最高,说明了算法Amod- alMask和ARCNN+没有显著差别;直线OURS 表2不同算法在C0C0-amodal测试集不同维度的 AP排序表 与直线SLN有较多重叠部分,直线OURS与直线 Table 2 AP ranking tables of different algorithms in dif- AmodalMask、直线ARCNN++具有较少的重叠部 ferent dimensions on COCO-amodal test set 分,直线OURS与直线ARCNN基本无重叠部 算法 All regions Things only Stuff only平均序值r 分。也就是说本文所提出的算法仍然优于其他 AmodalMask 4 3.67 4种算法,显著优于算法ARCNN,这也验证了表1 ARCNN 5 J 的实验结果。 ARCNN++ 3 4 3.33 4结束语 SLN 2 2 2 本文提出一个反馈注意力机制的特征金字塔 OURS 1 结构和上下文注意模块的方法并将其应用到非模 在获得不同算法的AP排序表之后,采用 式实例分割任务中。该方法在特征金字塔结构基 Frie-dman检验来判断这些算法是否性能都相同, 础上引入反馈连接进行再学习,有效建立起通道 同时做出假设“所有的算法性能相同”。变量τF 之间的远程上下文依赖关系,并结合像素上下文 服从自由度为(k-1)和(k-1)N-1)的F分布,计 注意力模块学习特征的空间相关性,捕获精细的 算方法为 空间细节,充分利用全局信息。在SLN网络的基 12W k(k+1)2 础上,加入本文提出的方法构成新的网络结构, Te= k(k+1) 通过在COCO-amodal数据集上训练和测试,实验 (4) (N-1)Te 结果表明,本文方法能对物体被遮挡、不可见部 TF=N(k-1)-Tx 分的最可能外观做出合理预测,并改善了其他方 通过式(4)计算得到的变量值与临界值 法中存在的漏分割、分割不准确的情况,但离实 F=os进行比较,假设“所有的算法性能相同”被拒 时处理仍有较大差距,后续将对此进行优化。 绝,说明了不同算法之间的性能显著不同,其中 参考文献: F=0s=3.8379,k=5,N=3。为了进一步区分各算 法,采用Nemenyi检验作为“后续检验”。Ne- [1]SIMONYAN K,ZISSERMAN A.Very deep convolution- menyi检验临界值域CD的计算公式为 al networks for large-scale image recognition[EB/OL].(20
部分时存在一定的欠拟合问题,本文提出的方法 通过建立丰富的上下文依赖关系,获取全局语义 信息,实现了更准确的预测;从第 3 行对比图可 知,在复杂的场景情况下,SLN 算法对小目标分 割存在一定程度的漏分割现象,如图中有的“人” 没有检测出来,并且这些样本属于小目标,本文 的方法由于捕获了像素级的全局语义信息,加强 了上下文信息的融合,对于小目标对象的漏分 割、分割不准确的情况有了显著改善,不仅检测 到图像中的小目标,同时对小目标对象的遮挡部 分也能合理预测,使得分割质量得到大幅提升。 3.5 统计检验分析 为了对比不同的算法在数据集上的性能差 异,本文采用 Friedman 检验来分析本文提出的算 法是否具有显著性。本文在 COCO-amodal 数据 集上对该方法进行了充分的实验,表 1 从 All regions、Things only 和 Stuff only 3 个维度分析了不 同算法之间的性能差异。本文把表 1 转换成按 AP 从高到低排序的排序表,最后获得不同方法 在 COCO-amodal 数据集不同维度上的排序情况, 结果如表 2 所示。 表 2 不同算法在 COCO-amodal 测试集不同维度的 AP 排序表 Table 2 AP ranking tables of different algorithms in different dimensions on COCO-amodal test set 算法 All regions Things only Stuff only 平均序值 ri AmodalMask 4 4 3 3.67 ARCNN 5 5 5 5 ARCNN++ 3 3 4 3.33 SLN 2 2 2 2 OURS 1 1 1 1 τF (k−1) (k−1)(N −1) F 在获得不同算法的 AP 排序表之后,采用 Frie-dman 检验来判断这些算法是否性能都相同, 同时做出假设“所有的算法性能相同”。变量 服从自由度为 和 的 分布,计 算方法为 τχ 2= 12N k(k+1) ∑k i=1 r 2 i − k(k+1)2 4 τF = (N −1)τχ 2 N(k−1)−τχ 2 (4) τF Fα=0.05 Fα=0.05= 3.837 9 k = 5 N = 3 CD 通过式 (4) 计算得到的变量值 与临界值 进行比较,假设“所有的算法性能相同”被拒 绝,说明了不同算法之间的性能显著不同,其中 , , 。为了进一步区分各算 法,采用 Nemenyi 检验作为“后续检验”。Nemenyi 检验临界值域 的计算公式为 CD = qα √ k(k+1) 6N (5) 由式 (5) 计算出临界值域 CD 后,画出 Friedman 检验结果图,如图 5 所示。其中,中心圆点表示每个 算法的平均序值,以圆点为中心的横线段表示临界 值域的大小。Friedman 检验结果表示,如果两种 方法的横线段有较多重叠,则表明两种算法的差 异性较小,否则,说明两种算法具有显著的差异性。 1 2 3.33 3.67 5 SLN ARCNN AmodalMask ARCNN++ OURS CD=3.522 −1 0 1 2 3 4 5 6 7 OURS SLN ARCNN++ AmodalMask ARCNN 图 5 Friedman 检验结果 Fig. 5 Graph of Friedman test result 观察图 5 可知,直线 AmodalMask 与 ARCNN++重叠的部分比例最高,说明了算法 AmodalMask 和 ARCNN++没有显著差别;直线 OURS 与直线 SLN 有较多重叠部分,直线 OURS 与直线 AmodalMask、直线 ARCNN++具有较少的重叠部 分,直线 OURS 与直线 ARCNN 基本无重叠部 分。也就是说本文所提出的算法仍然优于其他 4 种算法,显著优于算法 ARCNN,这也验证了表 1 的实验结果。 4 结束语 本文提出一个反馈注意力机制的特征金字塔 结构和上下文注意模块的方法并将其应用到非模 式实例分割任务中。该方法在特征金字塔结构基 础上引入反馈连接进行再学习,有效建立起通道 之间的远程上下文依赖关系,并结合像素上下文 注意力模块学习特征的空间相关性,捕获精细的 空间细节,充分利用全局信息。在 SLN 网络的基 础上,加入本文提出的方法构成新的网络结构, 通过在 COCO-amodal 数据集上训练和测试,实验 结果表明,本文方法能对物体被遮挡、不可见部 分的最可能外观做出合理预测,并改善了其他方 法中存在的漏分割、分割不准确的情况,但离实 时处理仍有较大差距,后续将对此进行优化。 参考文献: SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[EB/OL]. (20 [1] ·808· 智 能 系 统 学 报 第 16 卷
第4期 董俊杰,等:基于反馈注意力机制和上下文融合的非模式实例分割 ·809· 15-04-10)[2020-07-21]https:/axiv.org/abs/1409.1556 tchable atrous convolution[EB/OL].(2020-06-03)[2020- [2]HE Kaiming,ZHANG Xiangyu,REN Shaoging,et al. 07-21]https://arxiv.org/abs/2006.02334 Deep residual learning for image recognition[C]//Pro- [14]LI Yi,QI Haozhi,DAI Jifeng,et al.Fully convolutional ceedings of 2016 IEEE Conference on Computer Vision instance-aware semantic segmentation[C]//Proceedings of and Pattern Recognition(CVPR).Las Vegas,NV,USA, 2017 IEEE Conference on Computer Vision and Pattern 2016:770-778. Recognition.Honolulu,United States,2017:4438-4446. [3]LIU Wei,ANGUELOV D,ERHAN D,et al.SSD:single [15]LIU Shu,QI Lu,QIN Haifang,et al.Path aggregation net- shot MultiBox detector[Cl//Proceedings of the 14th Euro- work for instance segmentation[C]//Proceedings of 2018 pean Conference on Computer Vision.Amsterdam,The IEEE/CVF Conference on Computer Vision and Pattern Netherlands,2016:21-37 Recognition.Salt Lake City,United States,2018: [4]REN Shaoqing,HE Kaiming,GIRSHICK R,et al.Faster 8759-8768. R-CNN:towards real-time object detection with region [16]CHEN Xinlei,GIRSHICK R,HE Kaiming,et al proposal networks[J].IEEE transactions on pattern analys- Tensormask:a foundation for dense object segmenta- is and machine intelligence,2017,39(6):1137-1149. tion[C]//Proceedings of 2019 IEEE/CVF International [5]LIN T Y,GOYAL P,GIRSHICK R,et al.Focal loss for Conference on Computer Vision.Seoul,South Korea, dense object detection[Cl//Proceedings of 2017 IEEE In- 2019:2061-2069. ternational Conference on Computer Vision.Venice,Italy, [17]XIE Enze,SUN Peize,SONG Xiaoge,et al.PolarMask: 2017:2999-3007 single shot instance segmentation with polar representa- [6]GIRSHICK R.Fast R-CNNICV//Proceedings of 2015 IEEE tion[C]//Proceedings of the IEEE/CVF Conference on International Conference on Computer Vision(ICCV). Computer Vision and Pattern Recognition.Seattle,United Santiago,Chile,2015:1440-1448 States,2020:12190-12199. [7]LONG J,SHELHAMER E,DARRELL T.Fully convolu- [18]LI Ke,MALIK J.Amodal instance segmentation[C]//Pro- tional networks for semantic segmentation[C]//Pr-oceed- ceedings of the 14th European Conference on Computer ings of 2015 IEEE Conference on Computer Vision and Vision.Amsterdam,The Netherlands,2016:677-693. Pattern Recognition.Boston,America,2015:3431-3440. [19]FOLLMANN P,KONIG R,HARTINGER P,et al. [8]CHEN L C,PAPANDREOU G,SCHROFF F,et al.Re- Learning to see the invisible:end-to-end trainable amodal thinking atrous convolution for semantic image segme-nt- instance segmentation[C]//2019 IEEE Winter Conference ation[EB/OL].(2017-10-05)[2020-07-21]https://arxiv.org/ on Applications of Computer Vision (WACV).Waikoloa, abs/1706.05587 United States,2019:1328-1336 [9]HE Kaiming,GKIOXARI G,DOLLAR P,et al.Mask R- [20]EHSANI K,MOTTAGHI R,FARHADI A.SeGAN:seg- CNN[C]//Proceedings of 2017 IEEE International Confer- menting and generating the invisible[C]//Proceedings of ence on Computer Vision.Venice,Italy,2017:2980-2988. 2018 IEEE/CVF Conference on Computer Vision and [10]BOLYA D,ZHOU Chong,XIAO Fanyi,et al.YOLACT: Pattern Recognition.Salt Lake City,United States,2018: real-time instance segmentation[Cl/Proceedings of 2019 6144-6153. IEEE/CVF International Conference on Computer Vision. [21]HU Jie,SHEN Li,SUN Gang.Squeeze-and-excitation Seoul,South Korea,2019:9156-9165. networks[Cl//Proceedings of 2018 IEEE/CVF Confer- [11]ZHU Yan,TIAN Yuandong,METAXAS D,et al.Se- ence on Computer Vision and Pattern Recognition.Salt mantic amodal segmentation[Cl//Proceedings of the 30th Lake City,United States,2018:7132-7141. IEEE Conference on Computer Vision and Pattern Recog- [22]WANG Xiaolong,GIRSHICK R,GUPTA A,et al.Non- nition.Honolulu.United States,2017:3001-3009 local neural networks[C]//Proceedings of 2018 IEEE/CVF [12]ZHANG Ziheng,CHEN Aapei,XIE Ling,et al.Learning Conference on Computer Vision and Pattern Recognition semantics-aware distance map with semantics layering Salt Lake City,United States,2018:7794-7803 network for amodal instance segmentation[C]//Pro-ceed- [23]WOO S,PARK J,LEE J Y,et al.CBAM:convolutional ings of the 27th ACM International Conference on Multi- block attention module[C]//Proceedings of the 15th Euro- media.Nice,France,2019:2124-2132 pean Conference on Computer Vision (ECCV).Munich, [13]QIAO Siyuan,CHEN L C,YUILLE A.DetectoRS:de- Germany,.2018:3-19. tecting objects with recursive feature pyramid and swi- [24]CAO Yun,XU Jiarui,LIN S,et al.GCNet:non-local net-
15-04-10)[2020-07-21] https://arxiv.org/abs/1409.1556. HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al. Deep residual learning for image recognition[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, NV, USA, 2016: 770−778. [2] LIU Wei, ANGUELOV D, ERHAN D, et al. SSD: single shot MultiBox detector[C]//Proceedings of the 14th European Conference on Computer Vision. Amsterdam, The Netherlands, 2016: 21−37. [3] REN Shaoqing, HE Kaiming, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE transactions on pattern analysis and machine intelligence, 2017, 39(6): 1137–1149. [4] LIN T Y, GOYAL P, GIRSHICK R, et al. Focal loss for dense object detection[C]//Proceedings of 2017 IEEE International Conference on Computer Vision. Venice, Italy, 2017: 2999−3007. [5] GIRSHICK R. Fast R-CNN[C]//Proceedings of 2015 IEEE International Conference on Computer Vision (ICCV). Santiago, Chile, 2015: 1440−1448. [6] LONG J, SHELHAMER E, DARRELL T. Fully convolutional networks for semantic segmentation[C]//Pr- oceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, America, 2015: 3431−3440. [7] CHEN L C, PAPANDREOU G, SCHROFF F, et al. Rethinking atrous convolution for semantic image segme- ntation[EB/OL]. (2017-10-05)[2020-07-21] https://arxiv.org/ abs/1706.05587. [8] HE Kaiming, GKIOXARI G, DOLLÁR P, et al. Mask RCNN[C]//Proceedings of 2017 IEEE International Conference on Computer Vision. Venice, Italy, 2017: 2980−2988. [9] BOLYA D, ZHOU Chong, XIAO Fanyi, et al. YOLACT: real-time instance segmentation[C]//Proceedings of 2019 IEEE/CVF International Conference on Computer Vision. Seoul, South Korea, 2019: 9156−9165. [10] ZHU Yan, TIAN Yuandong, METAXAS D, et al. Semantic amodal segmentation[C]//Proceedings of the 30th IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, United States, 2017: 3001−3009. [11] ZHANG Ziheng, CHEN Aapei, XIE Ling, et al. Learning semantics-aware distance map with semantics layering network for amodal instance segmentation[C]//Pro- ceedings of the 27th ACM International Conference on Multimedia. Nice, France, 2019: 2124−2132. [12] QIAO Siyuan, CHEN L C, YUILLE A. DetectoRS: detecting objects with recursive feature pyramid and swi- [13] tchable atrous convolution[EB/OL]. (2020-06-03)[2020- 07- 21] https://arxiv.org/abs/2006.02334. LI Yi, QI Haozhi, DAI Jifeng, et al. Fully convolutional instance-aware semantic segmentation[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, United States, 2017: 4438−4446. [14] LIU Shu, QI Lu, QIN Haifang, et al. Path aggregation network for instance segmentation[C]//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, United States, 2018: 8759−8768. [15] CHEN Xinlei, GIRSHICK R, HE Kaiming, et al. Tensormask: a foundation for dense object segmentation[C]//Proceedings of 2019 IEEE/CVF International Conference on Computer Vision. Seoul, South Korea, 2019: 2061−2069. [16] XIE Enze, SUN Peize, SONG Xiaoge, et al. PolarMask: single shot instance segmentation with polar representation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle, United States, 2020: 12190−12199. [17] LI Ke, MALIK J. Amodal instance segmentation[C]//Proceedings of the 14th European Conference on Computer Vision. Amsterdam, The Netherlands, 2016: 677−693. [18] FOLLMANN P, KÖNIG R, HÄRTINGER P, et al. Learning to see the invisible: end-to-end trainable amodal instance segmentation[C]//2019 IEEE Winter Conference on Applications of Computer Vision (WACV). Waikoloa, United States, 2019: 1328−1336. [19] EHSANI K, MOTTAGHI R, FARHADI A. SeGAN: segmenting and generating the invisible[C]//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, United States, 2018: 6144−6153. [20] HU Jie, SHEN Li, SUN Gang. Squeeze-and-excitation networks[C]//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, United States, 2018: 7132−7141. [21] WANG Xiaolong, GIRSHICK R, GUPTA A, et al. Nonlocal neural networks[C]//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, United States, 2018: 7794−7803. [22] WOO S, PARK J, LEE J Y, et al. CBAM: convolutional block attention module[C]//Proceedings of the 15th European Conference on Computer Vision (ECCV). Munich, Germany, 2018: 3−19. [23] [24] CAO Yun, XU Jiarui, LIN S, et al. GCNet: non-local net- 第 4 期 董俊杰,等:基于反馈注意力机制和上下文融合的非模式实例分割 ·809·
·810· 智能系统学报 第16卷 works meet squeeze-excitation networks and beyo- 作者简介: nd[Cl/Proceedings of 2019 IEEE/CVF International Con- 董俊杰,硕士研究生,主要研究方 ference on Computer Vision Workshops.Seoul,South 向为智能信息处理、计算机视觉和图 Korea.2019:1971-1980. 像识别。 [25]FAN Zhibo,YU Jingang,LIANG Zhihao,et al.FGN: fully guided network for few-shot instance segmenta- tion[Cl//Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Seattle, United States,2020:9169-9178. 刘华平,副教授,博士生导师, [26]LIU Dongnan,ZHANG Donghao,SONG Yang,et al. IEEE Senior Member、中国人工智能学 Cell R-CNN v3:a novel panoptic paradigm for instance 会理事、中国人工智能学会认知系统 与信息处理专业委员会秘书长。主要 segmentation in biomedical images[EB/OL].(2020-02- 研究方向为机器人感知、学习与控制、 15)[2020-07-21]https:/axiv.org/abs/2002.06345. 多模态信息融合。发表学术论文 [27]FU Jun,LIU Jing,TIAN Haijie,et al.Dual attention net- 340余篇。 work for scene segmentation[C]//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern 谢珺,副教授,主要研究方向为粗 糙集、粒计算、数据挖掘和智能信息 Recognition.Long Beach,United States,2019: 处理。 3141-3149. [28]CAO Junxu,CHEN Qi,GUO Jun,et al.Attention-guided context feature pyramid network for object detecti- onEB/OL].(2020-05-23)[2020-07-21]https:/arxiv..org abs/2005.11475. 大数据智能高峰论坛 举办时间:2021年10月-11月 举办地点:重庆 会议官网:htp://bdaiid.cqupt..edu.cn/#/introduction 会议简介: 论坛始办于2015年,是全国第一个关于大数据智能主题的专业学术会议,已连续成功举办6届。本次 论坛将围绕智能科技前沿和智能产业创新发展的焦点问题展开研讨,为大数据与人工智能领域的专家学 者、企业技术领军者提供一个高端交流、合作的平台
works meet squeeze-excitation networks and beyond[C]//Proceedings of 2019 IEEE/CVF International Conference on Computer Vision Workshops. Seoul, South Korea, 2019: 1971−1980. FAN Zhibo, YU Jingang, LIANG Zhihao, et al. FGN: fully guided network for few-shot instance segmentation[C]//Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle, United States, 2020: 9169−9178. [25] LIU Dongnan, ZHANG Donghao, SONG Yang, et al. Cell R-CNN v3: a novel panoptic paradigm for instance segmentation in biomedical images[EB/OL]. (2020-02- 15) [2020-07-21] https://arxiv.org/abs/2002.06345. [26] FU Jun, LIU Jing, TIAN Haijie, et al. Dual attention network for scene segmentation[C]//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, United States, 2019: 3141−3149. [27] CAO Junxu, CHEN Qi, GUO Jun, et al. Attention-guided context feature pyramid network for object detection[EB/OL]. (2020-05-23)[2020-07-21] https://arxiv.org/ abs/2005.11475. [28] 作者简介: 董俊杰,硕士研究生,主要研究方 向为智能信息处理、计算机视觉和图 像识别。 刘华平,副教授,博士生导师, IEEE Senior Member、中国人工智能学 会理事、中国人工智能学会认知系统 与信息处理专业委员会秘书长。主要 研究方向为机器人感知、学习与控制、 多模态信息融合。发表学术论 文 340 余篇。 谢珺,副教授,主要研究方向为粗 糙集、粒计算、数据挖掘和智能信息 处理。 大数据智能高峰论坛 举办时间:2021 年 10 月−11 月 举办地点:重庆 会议官网:http://bdaiid.cqupt.edu.cn/#/introduction 会议简介: 论坛始办于 2015 年,是全国第一个关于大数据智能主题的专业学术会议,已连续成功举办 6 届。本次 论坛将围绕智能科技前沿和智能产业创新发展的焦点问题展开研讨,为大数据与人工智能领域的专家学 者、企业技术领军者提供一个高端交流、合作的平台。 ·810· 智 能 系 统 学 报 第 16 卷