正在加载图片...
第4期 董俊杰,等:基于反馈注意力机制和上下文融合的非模式实例分割 ·803· masks)的生成和预测每个实例掩码的掩码系数 类和实例标签,然而组成每个实例的不同像素点 (mask coefficients);然后,通过原型掩码和掩码系 之间具有紧密联系,同时有必要区分相同类别的 数的线性组合来生成实例掩码;TensorMask6研 不同实例对象,由于注意力机制可以获取全局信 究了在密集滑动窗口上的实例分割,使用结构化 息,建立上下文长期依赖关系,因此一些研究引 的4D张量来表示空间域上的掩码;PolarMask7 入注意力机制来提高实例分割的性能。Cao等网 提出使用极坐标表示对掩码进行编码,并将逐像 提出了GCNet,引入Context Modeling和Trans- 素掩码预测转换为距离回归。但这些方法都仅仅 form模块从而建立一个轻量级的注意力机制模 预测对象可见部分的掩码,而没有对被遮挡、不 型,进行全局上下文建模和捕获通道间的相互依 可见部分进行预测。 赖,并采用逐像素加法进行特征融合,极大提高 1.2非模式实例分割 了实例分割的效率;FGNet2是将一般实例分割 图像非模式实例分割的研究才刚刚起步。 和Few-shot学习范式结合起来,在Mask-RCNN Zhu等基于COCO原始数据集为非模式实例分 的各个关键组件中引入了不同的指导机制,包括 割提供了一个新的开创性数据集COCO-amodal, 注意力指导RPN,关系指导检测器和注意力指导 并提出了AmodalMask模型,该模型对于提议的 FCN用于指导基本实例分割的预测,能够更好地 对象候选具有较高的召回率,实现对物体不可见 适应类间泛化:Liu等提出的Celr-cnnv3模型 部分的推理;Zhang等提出的SLN模型,引入 属于生物医学图像领域的实例分割,包含残差注 语义感知距离映射,根据物体的可见性程度将物 意力特征融合机制、掩码质量预测分支,前者促 体的不同区域放置在不同的层次上来对物体不可 进实例分支中语义上下文信息的学习,后者使每 见部分进行预测:Li等提出的amodal实例分割 个目标的置信度得分与掩码预测的质量对齐,提 方法,主要通过迭代地将对象的边界框扩大到具 高了实例分割的性能。 有高热力图值的方向,并且重新计算热力图来实 以上方法,模仿人类视觉系统引入注意力机 现对物体被遮挡部分的预测;Follmann等u提出 制,通过对全局上下文信息的建模,捕获远程长 ARCNN模型,该模型基于Mask RCNN,通过扩展 期依赖关系,使得实例分割性能显著提升;然而 其预测分支,分为amodal mask预测分支和visible 对于非模式的实例分割任务而言,对被遮挡、不 mask预测分支,实现非模式实例分割;Ehsani等o 可见区域的像素点进行语义预测则具有更大的挑 试图通过生成对抗网络(GAN)来生成物体的不 战,并且由于需要对物体被遮挡部分进行补全, 可见部分。 这将导致同一个像素点可能会分配多个标签,对 1.3注意力机制 提取的特征表达能力和空间细节具有更高的要 注意力机制可以建立长期依赖关系,提高特 求。因此,本文工作将注意力机制引入非模式实 征表达能力,并且成为了许多具有挑战性任务的 例分割的任务中,引入反馈连接进行再学习,建 有效方法,包括图像分类、语义和实例分割等。 立丰富的上下文融合关系,有选择地聚合全局信 目前视觉识别领域主要包括3种注意力机制的方 息,显著提高了预测的精度,极大地解决了分割 式:通道注意力机制、空间注意力机制和混合注 欠拟合问题。 意力机制。Hu等Pl提出了SENet模型,该模型通 过在卷积网络的不同通道间探索各个通道的重要 2本文方法 程度,从而显式地建模通道之间的相互依赖关 2.1反馈注意力机制的FPN 系,自适应地重新校准通道的特征响应;Wang等四 鉴别特征表示是图像理解的关键,它可以通 提出的空间注意力机制利用特征图中所有位置的 过捕获远程上下文信息来获得。然而,许多研究 加权和计算出一个特征的响应,建立起像素之间 表明,由传统FCN(全卷积网络)生成的局部特征 的上下文依赖关系;Sanghyun等提出的混合注 可能导致“Things”和“Stuff的错误分类;与此同 意力机制通过融合通道和空间两种注意力机制, 时,基于特征金字塔(feature pyramid network, 充分挖掘全局语义信息,极大地提升了图像识别 FPN)的分层检测方法虽然取得了很好的效果,但 的性能。 是FPN仍然主要对局部特征进行建模,并没有充 1.4基于注意力机制的实例分割 分考虑全局上下文依赖关系。 实例分割试图为输入图像中的每个像素获取 在利用卷积神经网络对图像进行特征提取的masks) 的生成和预测每个实例掩码的掩码系数 (mask coefficients);然后,通过原型掩码和掩码系 数的线性组合来生成实例掩码;TensorMask[16] 研 究了在密集滑动窗口上的实例分割,使用结构化 的 4D 张量来表示空间域上的掩码;PolarMask[17] 提出使用极坐标表示对掩码进行编码,并将逐像 素掩码预测转换为距离回归。但这些方法都仅仅 预测对象可见部分的掩码,而没有对被遮挡、不 可见部分进行预测。 1.2 非模式实例分割 图像非模式实例分割的研究才刚刚起步。 Zhu 等 [11] 基于 COCO 原始数据集为非模式实例分 割提供了一个新的开创性数据集 COCO-amodal, 并提出了 AmodalMask 模型,该模型对于提议的 对象候选具有较高的召回率,实现对物体不可见 部分的推理;Zhang 等 [12] 提出的 SLN 模型,引入 语义感知距离映射,根据物体的可见性程度将物 体的不同区域放置在不同的层次上来对物体不可 见部分进行预测;Li 等 [18] 提出的 amodal 实例分割 方法,主要通过迭代地将对象的边界框扩大到具 有高热力图值的方向,并且重新计算热力图来实 现对物体被遮挡部分的预测;Follmann 等 [19] 提出 ARCNN 模型,该模型基于 Mask RCNN,通过扩展 其预测分支,分为 amodal mask 预测分支和 visible mask 预测分支,实现非模式实例分割;Ehsani 等 [20] 试图通过生成对抗网络 (GAN) 来生成物体的不 可见部分。 1.3 注意力机制 注意力机制可以建立长期依赖关系,提高特 征表达能力,并且成为了许多具有挑战性任务的 有效方法,包括图像分类、语义和实例分割等。 目前视觉识别领域主要包括 3 种注意力机制的方 式:通道注意力机制、空间注意力机制和混合注 意力机制。Hu 等 [21] 提出了 SENet 模型,该模型通 过在卷积网络的不同通道间探索各个通道的重要 程度,从而显式地建模通道之间的相互依赖关 系,自适应地重新校准通道的特征响应;Wang 等 [22] 提出的空间注意力机制利用特征图中所有位置的 加权和计算出一个特征的响应,建立起像素之间 的上下文依赖关系;Sanghyun 等 [23] 提出的混合注 意力机制通过融合通道和空间两种注意力机制, 充分挖掘全局语义信息,极大地提升了图像识别 的性能。 1.4 基于注意力机制的实例分割 实例分割试图为输入图像中的每个像素获取 类和实例标签,然而组成每个实例的不同像素点 之间具有紧密联系,同时有必要区分相同类别的 不同实例对象,由于注意力机制可以获取全局信 息,建立上下文长期依赖关系,因此一些研究引 入注意力机制来提高实例分割的性能。Cao 等 [24] 提出了 GCNet,引入 Context Modeling 和 Trans￾form 模块从而建立一个轻量级的注意力机制模 型,进行全局上下文建模和捕获通道间的相互依 赖,并采用逐像素加法进行特征融合,极大提高 了实例分割的效率;FGNet[25] 是将一般实例分割 和 Few-shot 学习范式结合起来,在 Mask-RCNN 的各个关键组件中引入了不同的指导机制,包括 注意力指导 RPN,关系指导检测器和注意力指导 FCN 用于指导基本实例分割的预测,能够更好地 适应类间泛化;Liu 等 [26] 提出的 Cell r-cnn v3 模型 属于生物医学图像领域的实例分割,包含残差注 意力特征融合机制、掩码质量预测分支,前者促 进实例分支中语义上下文信息的学习,后者使每 个目标的置信度得分与掩码预测的质量对齐,提 高了实例分割的性能。 以上方法,模仿人类视觉系统引入注意力机 制,通过对全局上下文信息的建模,捕获远程长 期依赖关系,使得实例分割性能显著提升;然而 对于非模式的实例分割任务而言,对被遮挡、不 可见区域的像素点进行语义预测则具有更大的挑 战,并且由于需要对物体被遮挡部分进行补全, 这将导致同一个像素点可能会分配多个标签,对 提取的特征表达能力和空间细节具有更高的要 求。因此,本文工作将注意力机制引入非模式实 例分割的任务中,引入反馈连接进行再学习,建 立丰富的上下文融合关系,有选择地聚合全局信 息,显著提高了预测的精度,极大地解决了分割 欠拟合问题。 2 本文方法 2.1 反馈注意力机制的 FPN 鉴别特征表示是图像理解的关键,它可以通 过捕获远程上下文信息来获得。然而,许多研究 表明,由传统 FCN(全卷积网络) 生成的局部特征 可能导致“Things”和“Stuff”的错误分类;与此同 时,基于特征金字塔 (feature pyramid network, FPN) 的分层检测方法虽然取得了很好的效果,但 是 FPN 仍然主要对局部特征进行建模,并没有充 分考虑全局上下文依赖关系。 在利用卷积神经网络对图像进行特征提取的 第 4 期 董俊杰,等:基于反馈注意力机制和上下文融合的非模式实例分割 ·803·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有