第16卷第6期 智能系统学报 Vol.16 No.6 2021年11月 CAAI Transactions on Intelligent Systems Nov.2021 D0:10.11992/tis.202108013 网络出版地址:https:/ns.cnki.net/kcms/detail/23.1538.TP.20210922.1142.004html 一致性协议匹配的跨模态图像文本检索方法 宫大汉2,陈辉,陈仕江,包勇军5,丁贵广2 (1.清华大学软件学院,北京100084;2.清华大学北京信息科学与技术国家研究中心,北京100084,3.清华大 学自动化系,北京100084:4.涿溪脑与智能研究所,浙江杭州311121:5.京东集团,北京100176) 摘要:跨模态图像文本检索的任务对于理解视觉和语言之间的对应关系很重要,大多数现有方法利用不同的 注意力模块挖掘区域到词和词到区域的对齐来探索细粒度的跨模态关联。然而,现有的方法没有考虑到基于 双重注意力会导致对齐不一致的问题。为此,本文提出了一种一致性协议匹配方法,旨在利用一致性对齐来增 强跨模态检索的性能。本文采用注意力实现跨模态关联对齐,并基于跨模态对齐结果设计了基于竞争性投票 的跨模态协议,该协议衡量了跨模态对齐的一致性,可以有效提升跨模态图像文本检索的性能。在Flickr30K 和MS COCO两个基准数据集上,本文通过大量的实验证明了所提出的方法的有效性。 关键词:人工智能:计算机视觉;视觉和语言;跨模态检索:一致性协议匹配:注意力;卷积神经网络;循环神经 网络:门控循环单元 中图分类号:TP18文献标志码:A文章编号:1673-4785(2021)06-1143-08 中文引用格式:宫大汉,陈辉,陈仕江,等.一致性协议匹配的跨模态图像文本检索方法J.智能系统学报,2021,16(6): 1143-1150. 英文引用格式:GONG Dahan,,CHEN Hui,.CHEN Shijiang,etal.Matching with agreement for cross-modal image-text retrievall,. CAAI transactions on intelligent systems,2021,16(6):1143-1150. Matching with agreement for cross-modal image-text retrieval GONG Dahan2,CHEN Hui23,CHEN Shijiang',BAO Yongjun,DING Guiguang'2 (1.School of Software,Tsinghua University,Beijing 100084,China;2.Beijing National Research Center for Information Science and Technology,Tsinghua University,Beijing 100084,China;3.Department of Automation,Tsinghua University,Beijing 100084, China:4.Zhuoxi Institute of Brain and Intelligence,Hangzhou 311121,China;5.Jd.Com,Inc,Beijing 100176,China) Abstract:The task of cross-modal image-text retrieval is important to understand the correspondence between vision and language.Most existing methods leverage different attention modules to explore region-to-word and word-to-region alignments and study fine-grained cross-modal correlations.However,the inconsistent alignment problem based on at- tention has rarely been considered.This study proposes a matching with agreement(MAG)method,which aims to take advantage of the alignment consistency,enhancing the cross-modal retrieval performance.The attention mechanism is adopted to achieve the cross-modal association alignment,which is then used to perform a cross-modal matching agree- ment with a novel competitive voting strategy.This agreement evaluates the cross-modal matching consistency and ef- fectively improves the performance.The extensive experiments on two benchmark datasets,namely,Flickr30K and MS COCO,show that our MAG method can achieve state-of-the-art performance,demonstrating its effectiveness well. Keywords:artificial intelligence;computer vision;vision and language;cross-modal retrieval;matching with agree- ment:attention:convolutional neural network:recurrent neural network:gated recurrent unit 随着社交媒体的空前发展,互联网上积累了大量的用户数据,比如图像、文本、语音等。利用 收稿日期:2021-08-13.网络出版日期:2021-09-23 这些跨模态数据挖掘用户需求,提升产品服务,成 基金项目:国家自然科学基金项目(61925107,U1936202):中国 为了工业界的迫切需求之一。跨模态图像文本检 博士后科学基金创新人才支持计划项目(BX2021161). 通信作者:丁贵广.E-mail:dinggg@tsinghua.edu.cn 索是实现跨模态数据挖掘的关键技术之一。它旨
DOI: 10.11992/tis.202108013 网络出版地址: https://kns.cnki.net/kcms/detail/23.1538.TP.20210922.1142.004.html 一致性协议匹配的跨模态图像文本检索方法 宫大汉1,2,陈辉2,3,陈仕江4 ,包勇军5 ,丁贵广1,2 (1. 清华大学 软件学院,北京 100084; 2. 清华大学 北京信息科学与技术国家研究中心,北京 100084; 3. 清华大 学 自动化系,北京 100084; 4. 涿溪脑与智能研究所,浙江 杭州 311121; 5. 京东集团,北京 100176) 摘 要:跨模态图像文本检索的任务对于理解视觉和语言之间的对应关系很重要,大多数现有方法利用不同的 注意力模块挖掘区域到词和词到区域的对齐来探索细粒度的跨模态关联。然而,现有的方法没有考虑到基于 双重注意力会导致对齐不一致的问题。为此,本文提出了一种一致性协议匹配方法,旨在利用一致性对齐来增 强跨模态检索的性能。本文采用注意力实现跨模态关联对齐,并基于跨模态对齐结果设计了基于竞争性投票 的跨模态协议,该协议衡量了跨模态对齐的一致性,可以有效提升跨模态图像文本检索的性能。在 Flickr30K 和 MS COCO 两个基准数据集上,本文通过大量的实验证明了所提出的方法的有效性。 关键词:人工智能;计算机视觉;视觉和语言;跨模态检索;一致性协议匹配;注意力;卷积神经网络;循环神经 网络;门控循环单元 中图分类号:TP18 文献标志码:A 文章编号:1673−4785(2021)06−1143−08 中文引用格式:宫大汉, 陈辉, 陈仕江, 等. 一致性协议匹配的跨模态图像文本检索方法 [J]. 智能系统学报, 2021, 16(6): 1143–1150. 英文引用格式:GONG Dahan, CHEN Hui, CHEN Shijiang, et al. Matching with agreement for cross-modal image-text retrieval[J]. CAAI transactions on intelligent systems, 2021, 16(6): 1143–1150. Matching with agreement for cross-modal image-text retrieval GONG Dahan1,2 ,CHEN Hui2,3 ,CHEN Shijiang4 ,BAO Yongjun5 ,DING Guiguang1,2 (1. School of Software, Tsinghua University, Beijing 100084, China; 2. Beijing National Research Center for Information Science and Technology, Tsinghua University, Beijing 100084, China; 3. Department of Automation, Tsinghua University, Beijing 100084, China; 4. Zhuoxi Institute of Brain and Intelligence, Hangzhou 311121, China; 5. Jd.Com, Inc, Beijing 100176, China) Abstract: The task of cross-modal image-text retrieval is important to understand the correspondence between vision and language. Most existing methods leverage different attention modules to explore region-to-word and word-to-region alignments and study fine-grained cross-modal correlations. However, the inconsistent alignment problem based on attention has rarely been considered. This study proposes a matching with agreement (MAG) method, which aims to take advantage of the alignment consistency, enhancing the cross-modal retrieval performance. The attention mechanism is adopted to achieve the cross-modal association alignment, which is then used to perform a cross-modal matching agreement with a novel competitive voting strategy. This agreement evaluates the cross-modal matching consistency and effectively improves the performance. The extensive experiments on two benchmark datasets, namely, Flickr30K and MS COCO, show that our MAG method can achieve state-of-the-art performance, demonstrating its effectiveness well. Keywords: artificial intelligence; computer vision; vision and language; cross-modal retrieval; matching with agreement; attention; convolutional neural network; recurrent neural network; gated recurrent unit 随着社交媒体的空前发展,互联网上积累了 大量的用户数据,比如图像、文本、语音等。利用 这些跨模态数据挖掘用户需求,提升产品服务,成 为了工业界的迫切需求之一。跨模态图像文本检 索是实现跨模态数据挖掘的关键技术之一。它旨 收稿日期:2021−08−13. 网络出版日期:2021−09−23. 基金项目:国家自然科学基金项目 (61925107,U1936202);中国 博士后科学基金创新人才支持计划项目 (BX2021161). 通信作者:丁贵广. E-mail:dinggg@tsinghua.edu.cn. 第 16 卷第 6 期 智 能 系 统 学 报 Vol.16 No.6 2021 年 11 月 CAAI Transactions on Intelligent Systems Nov. 2021
·1144· 智能系统学报 第16卷 在探索图像和文本之间的对应关系,实现图像和 文本的跨模态信息理解,以及文本检索图像或图 区域 像检索文本的智能服务。图像和文本的跨模态检 :s1- 单词 不一致 索在实际社交媒体领域有广泛的技术应用价值, beautiful 一致 比如在人机交互、商业化广告文案推荐以及内容推 单词 区域 荐等领域,因此吸引了众多研究人员的注意力。 A girl dressed up in a beautiful dress. 在实际场景中,跨模态图像文本检索面临两 r 大挑战:1)不同模态数据的异质性阻碍了模型学 图1对齐不一致问题 习到优异的跨模态表示;2)视觉和语言之间关联 Fig.1 Inconsistent alignment problem 丰富而复杂,准确挖掘两者的对应关系十分困 本文旨在充分挖掘不同对齐方式的一致性信 难。为了解决以上挑战,前人工作提出了特征嵌 息,来增强跨模态图像和文本的匹配准确性。本 入表示技术来联合学习图像和文本的特征。Wang 文提出了一种一致性协议匹配的方法(matching 等四使用双视图网络分别将图像和文本映射到共 with agreement,MAG),如图2所示,在使用注意力 享嵌入空间中,然后采用一个保结构的双向目标 机制得到对齐上下文特征后,构建了区域-单词 函数来优化网络。Faghri等回提出使用难负例来 关联信息表示和单词-区域关联信息表示,并在 增强嵌入空间的学习,实现了性能的显著性提 此基础上,提出关联信息一致性协议的匹配策 升。然而特征嵌入表示方法将图像和文本信息映 略,提升图像和文本的跨模态检索性能。 射到统一的向量空间中,忽视了图像和文本信息 的复杂性,以及两者之间信息关联的多样性和复 不同意 杂性。近年来,研究人员提出了许多方法来挖掘 关联信息表示 0 Beautiful 图像和文本之间的细粒度的跨模态关联信息。 Dress Karpathy等将图像中的每个区域与文本中的每 Dress 个单词对齐,提出了一种基于片段的匹配方法。 ④ Dress →Dress Nam等使用注意力机制和记忆机制来动态探 同意 索图像和文本之间的微妙交互。Lee等o提出了 一种堆叠交叉注意力模型,称为SCAN,取得了先 图2一致性协议匹配 进的图像文本检索性能。 Fig.2 Matching with agreement 所提出的一致性协议匹配(MAG)方法包含 1本文工作 4个层,即表示层、对齐层、协议层和匹配层。其 SCAN的成功很好地展示了细粒度跨模态关 中,在表示层,本文使用卷积神经网络(convolu- 联关系挖掘的优势。然而,这种方式依靠注意力 tional neural network,.CNN)和循环神经网络(recur-- 来实现片段(即区域和单词)之间的匹配,只关注 rent neural network,RNN)分别提取了图像区域和 两者的一阶关系,并不能反映两种不同匹配方式 单词的特征:在对齐层,使用注意力机制得到区 之间的一致性。具体来说,SCAN分别用注意力 域-单词对齐和单词-区域对齐;接着在协议层 构建了区域-单词和单词-区域的两种对齐方式, 中,两种不同的对齐可以通过融合注意力机制里 其中区域-单词是计算所有单词跟给定区域的相 的上下文特征得到关联信息表示,并采用竞争性 似性得分,并经过规范化操作得到相似性分布, 投票的方案得到对齐一致性得分;最后在匹配层 同样地,单词-区域是计算所有区域跟给定单词 通过聚合不同的匹配线索,获得图像文本对之间 的规范化后的相似性得分。由于规范化操作,单 的相似性。 词和区域的相似性度量在两种对齐方式中会得到 本文在两个大型的跨模态图像文本检索的基 不一样的得分,使得出现不同的情况。比如在图1 准数据集(Flickr30K和MS COCO)上进行了大量 中,在区域-单词匹配方式中,和区域,最相关的 的实验,实验结果表明,相比于一系列先进的跨 词是dress,而和beautiful的相关性较弱,而在单 模态图像文本检索基线模型,本文提出的一致性 词-区域匹配方式中,区域2却是和beautiful最相 协议匹配方法在两个数据集上都具有显著的性能 关的区域。这种矛盾说明了两种方式不一致的 优势,进一步的模型分析和实例分析很好地验证 问题。 了所提出方法的有效性和优越性
在探索图像和文本之间的对应关系,实现图像和 文本的跨模态信息理解,以及文本检索图像或图 像检索文本的智能服务。图像和文本的跨模态检 索在实际社交媒体领域有广泛的技术应用价值, 比如在人机交互、商业化广告文案推荐以及内容推 荐等领域,因此吸引了众多研究人员的注意力。 在实际场景中,跨模态图像文本检索面临两 大挑战:1) 不同模态数据的异质性阻碍了模型学 习到优异的跨模态表示;2) 视觉和语言之间关联 丰富而复杂,准确挖掘两者的对应关系十分困 难。为了解决以上挑战,前人工作提出了特征嵌 入表示技术来联合学习图像和文本的特征。Wang 等 [1] 使用双视图网络分别将图像和文本映射到共 享嵌入空间中,然后采用一个保结构的双向目标 函数来优化网络。Faghri 等 [2] 提出使用难负例来 增强嵌入空间的学习,实现了性能的显著性提 升。然而特征嵌入表示方法将图像和文本信息映 射到统一的向量空间中,忽视了图像和文本信息 的复杂性,以及两者之间信息关联的多样性和复 杂性。近年来,研究人员提出了许多方法来挖掘 图像和文本之间的细粒度的跨模态关联信息。 Karpathy 等 [3] 将图像中的每个区域与文本中的每 个单词对齐,提出了一种基于片段的匹配方法。 Nam 等 [4] 使用注意力机制[5] 和记忆机制来动态探 索图像和文本之间的微妙交互。Lee 等 [6] 提出了 一种堆叠交叉注意力模型,称为 SCAN,取得了先 进的图像文本检索性能。 1 本文工作 SCAN 的成功很好地展示了细粒度跨模态关 联关系挖掘的优势。然而,这种方式依靠注意力 来实现片段 (即区域和单词) 之间的匹配,只关注 两者的一阶关系,并不能反映两种不同匹配方式 之间的一致性。具体来说,SCAN 分别用注意力 构建了区域−单词和单词−区域的两种对齐方式, 其中区域−单词是计算所有单词跟给定区域的相 似性得分,并经过规范化操作得到相似性分布, 同样地,单词−区域是计算所有区域跟给定单词 的规范化后的相似性得分。由于规范化操作,单 词和区域的相似性度量在两种对齐方式中会得到 不一样的得分,使得出现不同的情况。比如在图 1 中,在区域−单词匹配方式中,和区域 r2 最相关的 词是 dress,而和 beautiful 的相关性较弱,而在单 词−区域匹配方式中,区域 r2 却是和 beautiful 最相 关的区域。这种矛盾说明了两种方式不一致的 问题。 A girl dressed up in a beautiful dress. 一致 不一致 beautiful dress 区域- 单词 单词- 区域 r1 r2 r3 r1 r2 r3 图 1 对齐不一致问题 Fig. 1 Inconsistent alignment problem 本文旨在充分挖掘不同对齐方式的一致性信 息,来增强跨模态图像和文本的匹配准确性。本 文提出了一种一致性协议匹配的方法 (matching with agreement,MAG),如图 2 所示,在使用注意力 机制得到对齐上下文特征后,构建了区域−单词 关联信息表示和单词−区域关联信息表示,并在 此基础上,提出关联信息一致性协议的匹配策 略,提升图像和文本的跨模态检索性能。 2 4 1 3 1 2 3 4 1 2 3 4 不同意 同意 Beautiful Beautiful Dress Dress Dress Dress Beautiful 关联信息表示 Beautiful 图 2 一致性协议匹配 Fig. 2 Matching with agreement 所提出的一致性协议匹配 (MAG) 方法包含 4 个层,即表示层、对齐层、协议层和匹配层。其 中,在表示层,本文使用卷积神经网络 (convolutional neural network, CNN) 和循环神经网络 (recurrent neural network, RNN) 分别提取了图像区域和 单词的特征;在对齐层,使用注意力机制得到区 域−单词对齐和单词−区域对齐;接着在协议层 中,两种不同的对齐可以通过融合注意力机制里 的上下文特征得到关联信息表示,并采用竞争性 投票的方案得到对齐一致性得分;最后在匹配层 通过聚合不同的匹配线索,获得图像文本对之间 的相似性。 本文在两个大型的跨模态图像文本检索的基 准数据集 (Flickr30K 和 MS COCO) 上进行了大量 的实验,实验结果表明,相比于一系列先进的跨 模态图像文本检索基线模型,本文提出的一致性 协议匹配方法在两个数据集上都具有显著的性能 优势,进一步的模型分析和实例分析很好地验证 了所提出方法的有效性和优越性。 ·1144· 智 能 系 统 学 报 第 16 卷
第6期 宫大汉,等:一致性协议匹配的跨模态图像文本检索方法 ·1145· 2 相关工作 泛使用的目标函数。 基于细粒度对齐的方法旨在探索图像和文本 跨模态图像文本检索的相关工作通常使用深 之间潜在的细粒度对应关系。Karpathy等)将图 度神经网络来避免使用手工制作的特征。它们可 像和文本的片段对齐到公共空间中,并通过聚合 以大致分为两类:基于嵌入的方法和基于细粒度 局部对齐来计算图像和文本的全局相似度。 对齐的方法。 Niu等提出了一种分层模型,其中图像和文本 基于嵌入的方法通常学习一个共享的嵌入空 通过分层策略实现实例到特征的全局和局部联合 间,并通过计算嵌入空间中图像和文本特征之间 映射。Lee等6提出了一个堆叠交叉注意力模 的距离来估计图像和文本之间的相似性。Frome 等忉尝试通过CNN和Skip-Gram模型9来学习 型,旨在发现图像区域和文本词之间的完整潜在 跨模态表示。类似地,Kiros等o采用CNN来提 对齐,并在多个基准数据集上实现先进的性能。 取视觉特征,并采用门循环单元(gated recurrent 3 一致性协议匹配 unit,GRU)u来提取文本特征。Faghri等提出了 一种难负例挖掘的三元组损失函数,取得了显著 本节讨论所提出的一致性协议匹配方法,如 的性能提升,并成为跨模态图像文本检索领域广 图3所示。 表示层 对齐层 协议层 匹配层 区域单词对齐 1 Z1Z.…Z AG 语义一 致损失 NN Z + Bi-GRUs .Cn AG A horse walkson 排序 the road. 单词区域对齐 损失 图3一致性协议匹配方法框架 Fig.3 Framework of the proposed MAG method 3.1表示层 用V={li=1,2,…,my,∈R}来表示图像特征。 在表示层,本文的目标是在潜在共享特征空 给定有n个词的文本S={w1,w2,…,wl,本文 间中对图像和文本的信息进行特征表达,以估计 使用一个双向门控循环单元(bidirectional GRU, 它们之间的相似性。给定一个包含N个图像文 Bi-GRU充当文本编码器。首先,本文首先将每个 本对的数据集D={(L,S)心,其中,1代表图像,S 离散的单词w,使用独热码进行表示,接着使用一 代表文本。本文使用两个不同的编码器分别提取 个可学习的嵌入矩阵将独热码转化为一个词向量 图像的视觉信息和文本的文本信息。 e。然后使用一个Bi-GRU分别从左到右(前向) 具体来说,给定图像1,本文使用一个预训练 和从右到左(后向)两个方向对词向量进行处理: 的对象检测模型Faster R-CNN)来充当图像编码 器。Faster R-CNN会推断出图像中的显著性对象 威e5 (2) 信息,并以包围框的方式定位到对象的区域,记 式中方和方分别表示前向GRU和后向GRU的 为,并将经过区域池化操作得到对象的特征记 隐藏状态向量。最后,单词w的上下文表示可以 为。接着,本文使用一个线性变换层将区域特 通过公式获得:1=(,+五)2。为了使单词特征 征映射到一个d隐层特征空间中: 和图像区域特征,可以在特征空间中进行计 v:=W f+b (1) 算,这里设置Bi-GRU的隐藏状态向量维度和, 式中:是区域”在隐层特征空间中的特征表示: 一样,有teR。为了方便下文描述,本文用T={tj= W,和b,是线性变换的可学习参数。为了方便描 1,2,…,nt∈R4来表示文本S的特征。 述,假定图像I,Faster R-CNN检测到m个对象区 3.2对齐层 域,则最终可以得到m个特征来表示图像1,本文 对齐层旨在探索视觉信息和文本信息之间的
2 相关工作 跨模态图像文本检索的相关工作通常使用深 度神经网络来避免使用手工制作的特征。它们可 以大致分为两类:基于嵌入的方法和基于细粒度 对齐的方法。 基于嵌入的方法通常学习一个共享的嵌入空 间,并通过计算嵌入空间中图像和文本特征之间 的距离来估计图像和文本之间的相似性。Frome 等 [7] 尝试通过 CNN[8] 和 Skip-Gram 模型[9] 来学习 跨模态表示。类似地,Kiros 等 [10] 采用 CNN 来提 取视觉特征,并采用门循环单元 (gated recurrent unit, GRU)[11] 来提取文本特征。Faghri 等 [2] 提出了 一种难负例挖掘的三元组损失函数,取得了显著 的性能提升,并成为跨模态图像文本检索领域广 泛使用的目标函数。 基于细粒度对齐的方法旨在探索图像和文本 之间潜在的细粒度对应关系。Karpathy 等 [3] 将图 像和文本的片段对齐到公共空间中,并通过聚合 局部对齐来计算图像和文本的全局相似度。 Niu 等 [12] 提出了一种分层模型,其中图像和文本 通过分层策略实现实例到特征的全局和局部联合 映射。Lee 等 [6] 提出了一个堆叠交叉注意力模 型,旨在发现图像区域和文本词之间的完整潜在 对齐,并在多个基准数据集上实现先进的性能。 3 一致性协议匹配 本节讨论所提出的一致性协议匹配方法,如 图 3 所示。 CNN v1 vi vm c1 v cm v ci v c1 t cn t cj t t1 tj tm v1 vi vn t1 tj tn I S … Bi-GRUs A horse walkson the road. … … … … … … … … … … … … … … … … … … 表示层 对齐层 协议层 匹配层 + + + 排序 损失 语义一 致损失 区域-单词对齐 单词-区域对齐 y1 yj yn x1 Z1, : Z, : 1 Z2, : Z, : 2 Z, : m AGi v AGj t Zn, : xi xm 图 3 一致性协议匹配方法框架 Fig. 3 Framework of the proposed MAG method 3.1 表示层 N D = { (Ik ,S k) N k=1 } I S 在表示层,本文的目标是在潜在共享特征空 间中对图像和文本的信息进行特征表达,以估计 它们之间的相似性。给定一个包含 个图像文 本对的数据集 ,其中, 代表图像, 代表文本。本文使用两个不同的编码器分别提取 图像的视觉信息和文本的文本信息。 I ri fi d 具体来说,给定图像 ,本文使用一个预训练 的对象检测模型 Faster R-CNN[13] 来充当图像编码 器。Faster R-CNN 会推断出图像中的显著性对象 信息,并以包围框的方式定位到对象的区域,记 为 ,并将经过区域池化操作得到对象的特征记 为 。接着,本文使用一个线性变换层将区域特 征映射到一个 隐层特征空间中: vi = Wv fi +bv (1) vi ri Wv bv I m m I 式中: 是区域 在隐层特征空间中的特征表示; 和 是线性变换的可学习参数。为了方便描 述,假定图像 ,Faster R-CNN 检测到 个对象区 域,则最终可以得到 个特征来表示图像 ,本文 V = { vi |i = 1,2,··· ,m; vi ∈ R d 用 } 来表示图像特征。 n S = {w1,w2,··· ,wn} wj ej 给定有 个词的文本 ,本文 使用一个双向门控循环单元 (bidirectional GRU, Bi-GRU) 充当文本编码器。首先,本文首先将每个 离散的单词 使用独热码进行表示,接着使用一 个可学习的嵌入矩阵将独热码转化为一个词向量 。然后使用一个 Bi-GRU 分别从左到右 (前向) 和从右到左 (后向) 两个方向对词向量进行处理: →hj = →GRU ( ej ,→hj−1 ) ;←hj = ←GRU ( ej ,←hj+1 ) (2) −→h ←−h wj tj = ( −→h j + ←−h j) / 2 tj vi vi tj ∈ R d T = {tj | j = 1,2,··· ,n;tj ∈ R d } S 式中 和 分别表示前向 GRU 和后向 GRU 的 隐藏状态向量。最后,单词 的上下文表示可以 通过公式获得: 。为了使单词特征 和图像区域特征 可以在特征空间中进行计 算,这里设置 Bi-GRU 的隐藏状态向量维度和 一样,有 。为了方便下文描述,本文用 来表示文本 的特征。 3.2 对齐层 对齐层旨在探索视觉信息和文本信息之间的 第 6 期 宫大汉,等:一致性协议匹配的跨模态图像文本检索方法 ·1145·
·1146· 智能系统学报 第16卷 细粒度关联关系。和前人工作一样,我们采用 性矩阵A的不同维度来计算注意力权重,使得同 双向注意力机制将图像中的区域和文本中的单词 一个区域和单词计算得到的区域-单词对齐和单 巧妙地对齐。具体来说,给定图像特征V和文本 词-区域对齐可能被赋予不同的重要性,导致对 特征T,首先计算图像中每个区域特征:和每个 齐不一致(如图1所示)。本文旨在利用这种不一 单词特征,之间的相关性:具体来说,给定图像 致的特点来强化对图像和文本的相似性的建模。 特征V和文本特征T,首先计算图像中每个区域 为此,本文提出了一种基于协议的匹配策略,以 特征,和每个单词特征t之间的相关性: 利用这种对齐不一致的特点。本文首先将对齐层 viti 的对齐操作进行特征实例化,并使用竞争性投票 A=al- Vie[1,m],vje[1,n] (3) 的策略将不同对齐在特征空间中进行一致性度 这里,本文用余弦距离来度量两个向量间的 量,度量结果作为协议层的输出,表征图像和文 相似性,向量上标表示向量转置。A∈Rmx为相 本之间的一致性分数。 似性矩阵。本文使用注意力机制计算每个区域的 具体来说,首先定义对齐操作的特征表示为 文本上下文特征和每个单词的图像上下文特征。 每个区域或者单词和其对应上下文特征的加和: 对于区域,在相似性矩阵A中的第i行表示该区 xi=vi+ci yi=ti+ci (9) 域和文本S的每个单词的相似性,为此,对应的 式中:x表示区域-单词对齐(,c)的特征表示; 文本上下文特征可以对文本特征T和相似性A: 表示单词-区域对齐(,c))的特征表示。遍历 进行加权和得到: i和方,可以得到一组区域-单词对齐特征实例X={xi= d=ou- exp(Aaii) 1,2,…,m,x∈R和单词-区域对齐特征Y=yj=1, exp(aa) (4) 2,…,n,yjeR。 式中:A是一个温度因子;c是区域:对应的文本 其次,使用余弦距离来衡量两种对齐特征的 上下文特征;a是相似性矩阵A按列规范后的元 相似性: 素,即 y Z=k- ie[1,ml,Hi∈[1,n (10) (Au) (5) 式中:Z,衡量以区域:为核心的区域-单词对齐 特征和以单词w;为核心的单词-区域对齐特征之 同理,可以为每个单词计算它对应的图像上 间的相似性。如果区域:和单词w,在对方的对 下文特征: 齐方式中同等重要,即对齐一致,那么Z会很大,反之, exp(Ab) (6) 则是对齐不一致的问题,则Z会较小。因此,Z 〉exp(db 刻画了两种对齐方式是否一致,我们称式(10)为 式中:c是单词w对应的图像上下文特征;b是 协议操作。 相似性矩阵A按行规范后的元素,即 为了鼓励一致性的局部对齐(即区域-单词对 齐和单词-区域对齐)能够在后续计算图像和文 σ(A) b (7) 本的相似性过程中被赋予更高的重要性,本文对 (A)月 Z的每一行和每一列分别选取最大值,得到两种 和Chen等工作一样,给定一个图像文本对 协议得分: (I,S),可以通过聚合每个区域特征和其对应的文 AG;max Zij AG=max Zij (11) 本上下文特征的相似性以及聚合每个文本特征和 按行取最值可以让每个单词-区域对齐互相 其对应的图像上下文特征的相似性得到图像和文 竞争,胜者跟区域-单词对齐(,c)最一致。同 本的相似性: 理,按列取最值可以竞争出跟单词-区域对齐 F0,s)=1e+15 (t,c)最一致的区域-单词对齐。 m之阿+之小阿 (8) 最后,本文将所有的协议得分进行平均,得到 因为(y,c)和(G,c)是成对存在的,分别表示 图像和文本的协议分数: 区域-单词对齐和单词-区域对齐,因此这里定义 (12) F(L,S)为图像文本对(L,S)的对齐分数。 Fs=∑AG+2AG 3.3协议层 对比对齐分数(见式(8)),协议分数F(I,S) 从式(4)和式(6)可以看出,对齐层利用相似 可以看成区域和单词的二阶对齐分数,因此作为
V T vi tj V T vi tj 细粒度关联关系。和前人工作[14] 一样,我们采用 双向注意力机制将图像中的区域和文本中的单词 巧妙地对齐。具体来说,给定图像特征 和文本 特征 ,首先计算图像中每个区域特征 和每个 单词特征 之间的相关性:具体来说,给定图像 特征 和文本特征 ,首先计算图像中每个区域 特征 和每个单词特征 之间的相关性: Ai j = vi T t j ∥vi∥ · ∥t j∥ , ∀i ∈ [1,m],∀ j ∈ [1,n] (3) A ∈ R m×n ri A i S T Ai 这里,本文用余弦距离来度量两个向量间的 相似性,向量上标表示向量转置。 为相 似性矩阵。本文使用注意力机制计算每个区域的 文本上下文特征和每个单词的图像上下文特征。 对于区域 ,在相似性矩阵 中的第 行表示该区 域和文本 的每个单词的相似性,为此,对应的 文本上下文特征可以对文本特征 和相似性 进行加权和得到: c t i = ∑n j=1 αi j t j , αi j = exp( λai j) ∑ k exp(λaik) (4) λ c t i ri ai j A 式中: 是一个温度因子; 是区域 对应的文本 上下文特征; 是相似性矩阵 按列规范后的元 素,即 ai j = σ(Ai j) / √∑ k σ ( Ak j)2 (5) 同理,可以为每个单词计算它对应的图像上 下文特征: c v j = ∑m i=1 βi jvi , βi j = exp( λbi j) ∑ k exp( λbk j) (6) c v j wj bi j A 式中: 是单词 对应的图像上下文特征; 是 相似性矩阵 按行规范后的元素,即 bi j = σ ( Ai j) √∑ k σ(Aik) 2 (7) (I,S ) 和 Chen 等 [14] 工作一样,给定一个图像文本对 ,可以通过聚合每个区域特征和其对应的文 本上下文特征的相似性以及聚合每个文本特征和 其对应的图像上下文特征的相似性得到图像和文 本的相似性: Faln (I,S ) = 1 m ∑m i vi T c t i ∥vi∥· c t i + 1 n ∑n j t j T c v j t j · c v j (8) (vi , c t i ) (tj , c v j ) Faln(I,S ) (I,S ) 因为 和 是成对存在的,分别表示 区域−单词对齐和单词−区域对齐,因此这里定义 为图像文本对 的对齐分数。 3.3 协议层 从式 (4) 和式 (6) 可以看出,对齐层利用相似 性矩阵 A 的不同维度来计算注意力权重,使得同 一个区域和单词计算得到的区域–单词对齐和单 词–区域对齐可能被赋予不同的重要性,导致对 齐不一致 (如图 1 所示)。本文旨在利用这种不一 致的特点来强化对图像和文本的相似性的建模。 为此,本文提出了一种基于协议的匹配策略,以 利用这种对齐不一致的特点。本文首先将对齐层 的对齐操作进行特征实例化,并使用竞争性投票 的策略将不同对齐在特征空间中进行一致性度 量,度量结果作为协议层的输出,表征图像和文 本之间的一致性分数。 具体来说,首先定义对齐操作的特征表示为 每个区域或者单词和其对应上下文特征的加和: xi = vi + c t i , yj = t j + c v j (9) xi ( vi , c t i ) yj ( ti , c v j ) X = {xi |i = 1,2,··· ,m, xi ∈ R d } Y = {yj | j = 1, 2,··· ,n, yj ∈ R d } 式中: 表示区域−单词对齐 的特征表示; 表示单词−区域对齐 的特征表示。遍历 i和j,可以得到一组区域−单词对齐特征实例 和单词−区域对齐特征 。 其次,使用余弦距离来衡量两种对齐特征的 相似性: Zi j = x T i yj ∥xi∥· yj , ∀i ∈ [1,m],∀ j ∈ [1,n] (10) Zi j ri wj ri wj Zi j Zi j Zi j 式中: 衡量以区域 为核心的区域−单词对齐 特征和以单词 为核心的单词−区域对齐特征之 间的相似性。如果区域 和单词 在对方的对 齐方式中同等重要,即对齐一致,那么 会很大,反之, 则是对齐不一致的问题,则 会较小。因此, 刻画了两种对齐方式是否一致,我们称式 (10) 为 协议操作。 Zi j 为了鼓励一致性的局部对齐 (即区域−单词对 齐和单词−区域对齐) 能够在后续计算图像和文 本的相似性过程中被赋予更高的重要性,本文对 的每一行和每一列分别选取最大值,得到两种 协议得分: AGv i = max j Zi j, AGt j = max i Zi j (11) (vi , c t i ) (ti , c v j ) 按行取最值可以让每个单词−区域对齐互相 竞争,胜者跟区域−单词对齐 最一致。同 理,按列取最值可以竞争出跟单词−区域对齐 最一致的区域–单词对齐。 最后,本文将所有的协议得分进行平均,得到 图像和文本的协议分数: Fagr (I,S ) = 1 m ∑m i AGv i + 1 n ∑n j AGt j (12) 对比对齐分数 (见式 (8)),协议分数 Fagr(I,S ) 可以看成区域和单词的二阶对齐分数,因此作为 ·1146· 智 能 系 统 学 报 第 16 卷
第6期 宫大汉,等:一致性协议匹配的跨模态图像文本检索方法 ·1147· 对齐分数的补充,可以更好地衡量图像和文本之 图片(用MS COCO1K)表示)的平均值。 间的相似性。 2)评价指标。本文进行了图像检索文本和文 3.4匹配层 本检索图像两类不同的检索任务,采用前K召回 匹配层的目的是累积所有匹配线索以估计图 率(R@)来评测两种跨模态检索性能,并且和前 像和文本之间的相似性。本文将对齐层的对齐分 人的工作进行对比。具体来说,本文展示R@1 数和协议层的协议分数结合起来计算给定图像- R@5和R@l0的结果,并且,跟Chen等的工作 文本对(L,S)的相似度: 一样,本文将所有的指标加起来来综合评价模型 F(I,S)=Fan(I,S)+Fagr(I.S) (13) 的性能,该指标用R@sum表示。 训练时,本文采用Faghri等提出的基于难 3)实现细节。本文使用Pytorch1.0来实现 负例的三元组排序损失函数来训练模型: 所提出的方法。在构建模型时,本文将图像区域 Cak(L,S)=[☑-F(I,S)+F(I,S)】++ (14) 特征的维度设置为1024。Bi-GRU的隐藏向量的 [-F(I.S)+F(I',S)]. 维度也是1024,使得图像区域特征和单词特征的 式中:(亿,S)表示一对正例样本;P和S'分别是文 维度一致。训练过程中,三元组损失函数中的排 本S和图像I的负例样本;[x:=max(0,x):4表示 排序间隔,即希望查询样本和正例样本之间的相 序间隔设置为0.2,即式(14)中的△默认为0.2, 式(4)中的温度因子λ默认设置为9。在更新网 似性比查询样本和最难负例样本之间的相似性大 络参数时,本文采用Adam8优化器来优化,并且 一个4。 此外,考虑到在协议层中本文希望能够挖掘 每批次数据容量为128张图像文本对。 更多的一致性对齐来增强对图像和文本相似性的 4.2模型对比分析 度量,为此本文采用Chen等的方法引入语义 为了验证所提出的一致性协议匹配方法的先 一致性损失函数: 进性,本文引入了目前相关的先进的跨模态图像 文本检索方法,并在Flickr30K和MS COCO两个 - c (15) 数据集上都进行了模型对比。本文对比的基线模 型有DVSA、VSE+、DPC9、SCO2O、SCAN 在训练过程中,从数据集中采样一批次图像 PFAN2、PVSE2和SC。其中,SCAN、PFAN、 文本对进行训练,即{(I,S)~D,最终的损失函 PVSE和SC跟本文一样,都是致力于挖掘图像和 数是排序损失和一致性损失的加权和: 文本之间的细粒度跨模态关联来提升跨模态检索 ∑Can(,S) (16) 性能。表1、2、3分别给出了本文的方法和基线 模型在Flickr30K和MS COCO上的对比结果,其 式中入n是一个可调节平衡超参数。 中,表格中第1列中带*标记的方法表示该结果是 采用模型集成的结果,“一”表示该结果未在原始 4有效性验证 论文中给出。 4.1实验配置 表1 Flickr30K上对比结果 1)数据集。本文采用了两个跨模态图像文本 Table 1 Comparison with state-of-the-art methods on Flickr30K 标准基线数据集来验证所提出的一致性协议匹配 方法。①F1ickr30K。这个数据集由31000张图 图像检索文本 文本检索图像 方法 R@sum 片组成,每张图片都至少标注了5个英文文本。 R@1R@5R@I0R@1R@5R@I0 本文采用29000张图片作为训练集,1000张图片 DVSA 22.248.261.4 15.237.750.5 235.2 作为验证集,剩下的1000张图片作为测试集,这 VSE++ 52.9 87.2 39.6 795 也是标准的数据划分。②MSCOCO1。COCO DPC 55.681.989.539.169.280.9 4162 数据集大概有123000张图片,每张图片标注了至 SCO 55.582.089.3 41.170.580.1 418.0 少5个英文句子。和前人工作0一样,本文将123287 SCAN* 67.490.395.848.677.785.2 465.0 张图片划分为113287、5000和5000,分别构成 PFAN* 70.091.095.0 50.478.786.1 472.0 了训练集、验证集和测试集。为了能够公平地评 SC* 69.791.796.4 54.079.787.2 478.7 价模型的结果以及跟别人的工作进行对比,本文 同时展示在5000张测试图片上的整体性能(用 MAG(本文)72.192.896.7 52.880.287.1 481.8 MS COCO(5K)表示)以及5次实验(每次1000张 MAG*(本文)74.493.096.854.381.087.9 487.4
对齐分数的补充,可以更好地衡量图像和文本之 间的相似性。 3.4 匹配层 (I,S ) 匹配层的目的是累积所有匹配线索以估计图 像和文本之间的相似性。本文将对齐层的对齐分 数和协议层的协议分数结合起来计算给定图像– 文本对 的相似度: F (I,S ) = Faln (I,S )+ Fagr (I,S ) (13) 训练时,本文采用 Faghri 等 [2] 提出的基于难 负例的三元组排序损失函数来训练模型: Lrank(I,S ) = [∆− F (I,S )+ F (I,S ′ )]++ [−F (I,S )+ F (I ′ ,S )]+ (14) (I,S ) I ′ S ′ S I [x]+ = max(0, x) ∆ ∆ 式中: 表示一对正例样本; 和 分别是文 本 和图像 的负例样本; ; 表示 排序间隔,即希望查询样本和正例样本之间的相 似性比查询样本和最难负例样本之间的相似性大 一个 。 此外,考虑到在协议层中本文希望能够挖掘 更多的一致性对齐来增强对图像和文本相似性的 度量,为此本文采用 Chen 等 [14] 的方法引入语义 一致性损失函数: Laln (I,S ) = 1 m ∑m i v T i c t i ∥vi∥· c t i − 1 n ∑n j t T j c v j tj · c v j 2 (15) {(Ik ,S k)} Nb ∼ D 在训练过程中,从数据集中采样一批次图像 文本对进行训练,即 ,最终的损失函 数是排序损失和一致性损失的加权和: L = ∑Nb k Lrank (Ik ,S k)+λaln∑Nb k,l Laln (Ik ,S l) (16) 式中 λaln 是一个可调节平衡超参数。 4 有效性验证 4.1 实验配置 1) 数据集。本文采用了两个跨模态图像文本 标准基线数据集来验证所提出的一致性协议匹配 方法。①Flickr30K[15]。这个数据集由 31 000 张图 片组成,每张图片都至少标注了 5 个英文文本。 本文采用 29 000 张图片作为训练集,1 000 张图片 作为验证集,剩下的 1 000 张图片作为测试集,这 也是标准的数据划分。②MSCOCO[16]。COCO 数据集大概有 123 000 张图片,每张图片标注了至 少 5 个英文句子。和前人工作[1]一样,本文将 123 287 张图片划分为 113 287、5 000 和 5 000,分别构成 了训练集、验证集和测试集。为了能够公平地评 价模型的结果以及跟别人的工作进行对比,本文 同时展示在 5 000 张测试图片上的整体性能 (用 MS COCO(5K) 表示) 以及 5 次实验 (每次 1 000 张 图片 (用 MS COCO(1K) 表示) 的平均值。 2) 评价指标。本文进行了图像检索文本和文 本检索图像两类不同的检索任务,采用前 K 召回 率 (R@K) 来评测两种跨模态检索性能,并且和前 人的工作进行对比。具体来说,本文展示 R@1、 R@5 和 R@10 的结果,并且,跟 Chen 等 [14] 的工作 一样,本文将所有的指标加起来来综合评价模型 的性能,该指标用 R@sum 表示。 ∆ λ 3) 实现细节。本文使用 Pytorch1.0[17] 来实现 所提出的方法。在构建模型时,本文将图像区域 特征的维度设置为 1 024。Bi-GRU 的隐藏向量的 维度也是 1 024,使得图像区域特征和单词特征的 维度一致。训练过程中,三元组损失函数中的排 序间隔设置为 0.2,即式 (14) 中的 默认为 0.2, 式 (4) 中的温度因子 默认设置为 9。在更新网 络参数时,本文采用 Adam[18] 优化器来优化,并且 每批次数据容量为 128 张图像文本对。 4.2 模型对比分析 为了验证所提出的一致性协议匹配方法的先 进性,本文引入了目前相关的先进的跨模态图像 文本检索方法,并在 Flickr30K 和 MS COCO 两个 数据集上都进行了模型对比。本文对比的基线模 型有 DVSA[3] 、VSE++[2] 、DPC[19] 、SCO[20] 、SCAN[6] 、 PFAN[21] 、PVSE[22] 和 SC[14]。其中,SCAN、PFAN、 PVSE 和 SC 跟本文一样,都是致力于挖掘图像和 文本之间的细粒度跨模态关联来提升跨模态检索 性能。表 1、2、3 分别给出了本文的方法和基线 模型在 Flickr30K 和 MS COCO 上的对比结果,其 中,表格中第 1 列中带*标记的方法表示该结果是 采用模型集成的结果,“—”表示该结果未在原始 论文中给出。 表 1 Flickr30K 上对比结果 Table 1 Comparison with state-of-the-art methods on Flickr30K 方法 图像检索文本 文本检索图像 R@sum R@1 R@5 R@10 R@1 R@5 R@10 DVSA 22.2 48.2 61.4 15.2 37.7 50.5 235.2 VSE++ 52.9 — 87.2 39.6 — 795 — DPC 55.6 81.9 89.5 39.1 69.2 80.9 416.2 SCO 55.5 82.0 89.3 41.1 70.5 80.1 418.0 SCAN* 67.4 90.3 95.8 48.6 77.7 85.2 465.0 PFAN* 70.0 91.0 95.0 50.4 78.7 86.1 472.0 SC* 69.7 91.7 96.4 54.0 79.7 87.2 478.7 MAG(本文) 72.1 92.8 96.7 52.8 80.2 87.1 481.8 MAG*(本文) 74.4 93.0 96.8 54.3 81.0 87.9 487.4 第 6 期 宫大汉,等:一致性协议匹配的跨模态图像文本检索方法 ·1147·
·1148- 智能系统学报 第16卷 表2 MS COCO(1K上对比结果 的一致性匹配方法的有效性。 Table 2 Comparison with state-of-the-art methods on MS 4.3模块分析 COCO(1K) 本节对所提出的一致性协议匹配方法中的重 图像检素文本 文本检索图像 方法 R@sum 要因素进行分析。首先分析匹配层中语义一致性 R@l R@5 R@10 Ral Ras R@10 损失的作用。语义一致性损失可以驱动两个独立 DVSA 38.469.9 80.5 27.460.274.8 351.2 注意力模块的对齐保持一致,有助于后续基于协 VSE++ 64.6 95.752.0 92.0 议的匹配过程。因此,本文通过调节式(16)中的 DPC 65.689.895.5 47.179.990.0 467.9 入超参数来观察模型性能的变化,结果展示在 SCO 69.992.997.556.787.594.8499.3 表4中。从表4可以看出,当没有对模型施加语 SCAN* 72.794.898.458.888.494.8507.9 义一致性约束时(=0),模型的性能较低,当 入n>0,模型都有一定的性能的提升,当an=1时, PVSE 69.291.698.355.286.593.7 492.8 模型取得了最好的性能。 SC* 73.895.398.359.988.994.9511.1 表4语义一致性损失函数的影响 MAG(本文)75.295.498.359.187.994.3 510.2 Table 4 Effect of the semantic consistency objective MAG*(本文)76.195.798.560.688.995.8 514.8 图像检索文本 文本检索图像 表3 MS COCO(5K)上对比结果 R@1 R@10 R@l R@10 Table 3 Comparison with state-of-the-art methods on MS 0.0 70.6 96.6 50.6 85.6 COCO(5K) 0.5 71.2 96.7 52.0 86.8 图像检索文本 文本检索图像 方法 R@sum 1.0 72.1 96.7 52.8 87.1 R@1R@5R@10R@1R@5R@10 1.5 70.9 96.2 52.3 86.7 VSE++ 41.3 81.230.3- 72.4 DPC 41.270.581.125.353.466.4 337.9 本文接着对图像和文本的相似性度量进行分 析。为了观察所提出的协议层的影响,本文通过 SCO 42.872.383.0 33.162.975.5 369.6 逐步擦除F(I,S)的组成来分析各个项对模型的 SCAN* 50.482.290.0 38.669.380.4 410.0 影响。分析结果见表5,第1行是本文提出的 PVSE 45.274.384.532.463.075.0374.4 MAG的默认使用方式,即Fh+Fg,第2行是去 MAG(本文)52.081.390.037.265.477.9 404.8 掉了F中的右边一项,只保留AG;那一项(见 MAG*(本文)54.182.790.838.667.879.0413.0 式(12),第3行是去掉了Fg中的左边一项,只保 从表1、2、3中可以看到,本文提出的一致性 留AG那一项,最后一行是把F全部去掉得到 协议匹配方法在两个数据集上都取得了比基线模 的模型,即去掉整个协议层。可以看出,跟去掉 型更优异的跨模态图像文本检索性能。具体来 协议层的模型(最后一行)相比,不管是仅保留 说,1)在Flickr30K上,本文的MAG*取得了比最 AG;、仅保留AG还是两者都保留,只要有协议层 好的基线模型SC*更好的性能,特别是在图像检 存在,模型都能取得显著的性能提升,特别是, 索文本任务的R@1上提高了4.7%,在文本检索 AG:和AG都保留的话,模型取得了最好的性 图像的R@1上取得了0.3%的性能提升,整体上 能。这些结果显示了所提出的一致性协议匹配的 提升了8.7%(R@sum):2)在MSC0CO(1K)中,本 有效性。 文的MAG*获得了更先进的性能,与SC*相比, 4.4实例分析 本文的MAG*在图像检索文本任务的R@1上可 本文对模型进行进一步的实例分析。在图4 以获得76.1%的召回率,提高了2.3%,在文本检 中,本文展示了两个实例,在每个可视化示例中, 索图像任务的R@1上,MAG*取得了60.6%的性 分别在左侧和右侧的图像展示了给定文本中的两 能,提升了0.7%;3)在MSC0C05K)中,本文的 个单词(分别用蓝色和绿色标记)及其在图像区 MAG*在大多数评价指标上也获得了优于最佳基 域上的注意力结果,这种注意力结果可以被看作 线SCAN*的卓越性能。相比于SCAN*,MAG*在 是单词-区域对齐。对于中间的图像,本文展示 图像检索文本任务上最多可以获得3.7%(R@1)的 了一个显著性区域跟文本中单词的注意力结果, 性能提升,整体提升3%。这些结果证明了所提出 这可以看作是区域-单词对齐。这里用红色的双
表 2 MS COCO(1K) 上对比结果 Table 2 Comparison with state-of-the-art methods on MS COCO(1K) 方法 图像检索文本 文本检索图像 R@sum R@1 R@5 R@10 R@1 R@5 R@10 DVSA 38.4 69.9 80.5 27.4 60.2 74.8 351.2 VSE++ 64.6 — 95.7 52.0 — 92.0 — DPC 65.6 89.8 95.5 47.1 79.9 90.0 467.9 SCO 69.9 92.9 97.5 56.7 87.5 94.8 499.3 SCAN* 72.7 94.8 98.4 58.8 88.4 94.8 507.9 PVSE 69.2 91.6 98.3 55.2 86.5 93.7 492.8 SC* 73.8 95.3 98.3 59.9 88.9 94.9 511.1 MAG(本文) 75.2 95.4 98.3 59.1 87.9 94.3 510.2 MAG*(本文) 76.1 95.7 98.5 60.6 88.9 95.8 514.8 表 3 MS COCO(5K)上对比结果 Table 3 Comparison with state-of-the-art methods on MS COCO(5K) 方法 图像检索文本 文本检索图像 R@sum R@1 R@5 R@10 R@1 R@5 R@10 VSE++ 41.3 — 81.2 30.3 — 72.4 — DPC 41.2 70.5 81.1 25.3 53.4 66.4 337.9 SCO 42.8 72.3 83.0 33.1 62.9 75.5 369.6 SCAN* 50.4 82.2 90.0 38.6 69.3 80.4 410.0 PVSE 45.2 74.3 84.5 32.4 63.0 75.0 374.4 MAG(本文) 52.0 81.3 90.0 37.2 65.4 77.9 404.8 MAG*(本文) 54.1 82.7 90.8 38.6 67.8 79.0 413.0 从表 1、2、3 中可以看到,本文提出的一致性 协议匹配方法在两个数据集上都取得了比基线模 型更优异的跨模态图像文本检索性能。具体来 说,1) 在 Flickr30K 上,本文的 MAG*取得了比最 好的基线模型 SC*更好的性能,特别是在图像检 索文本任务的 R@1 上提高了 4.7%,在文本检索 图像的 R@1 上取得了 0.3% 的性能提升,整体上 提升了 8.7%(R@sum);2) 在 MS COCO(1K) 中,本 文的 MAG*获得了更先进的性能,与 SC* 相比, 本文的 MAG*在图像检索文本任务的 R@1 上可 以获得 76.1% 的召回率,提高了 2.3%,在文本检 索图像任务的 R@1 上,MAG*取得了 60.6% 的性 能,提升了 0.7%;3) 在 MS COCO(5K) 中,本文的 MAG*在大多数评价指标上也获得了优于最佳基 线 SCAN*的卓越性能。相比于 SCAN*,MAG*在 图像检索文本任务上最多可以获得 3.7%(R@1) 的 性能提升,整体提升 3%。这些结果证明了所提出 的一致性匹配方法的有效性。 4.3 模块分析 λaln λaln = 0 λaln > 0 λaln = 1 本节对所提出的一致性协议匹配方法中的重 要因素进行分析。首先分析匹配层中语义一致性 损失的作用。语义一致性损失可以驱动两个独立 注意力模块的对齐保持一致,有助于后续基于协 议的匹配过程。因此,本文通过调节式 (16) 中的 超参数来观察模型性能的变化,结果展示在 表 4 中。从表 4 可以看出,当没有对模型施加语 义一致性约束时 ( ),模型的性能较低,当 ,模型都有一定的性能的提升,当 时, 模型取得了最好的性能。 表 4 语义一致性损失函数的影响 Table 4 Effect of the semantic consistency objective λaln 图像检索文本 文本检索图像 R@1 R@10 R@1 R@10 0.0 70.6 96.6 50.6 85.6 0.5 71.2 96.7 52.0 86.8 1.0 72.1 96.7 52.8 87.1 1.5 70.9 96.2 52.3 86.7 Fagr(I,S ) Faln + Fagr Fagr AGv i Fagr AGt j Fagr AGv i AGt j AGv i AGt j 本文接着对图像和文本的相似性度量进行分 析。为了观察所提出的协议层的影响,本文通过 逐步擦除 的组成来分析各个项对模型的 影响。分析结果见表 5,第 1 行是本文提出的 MAG 的默认使用方式,即 ,第 2 行是去 掉了 中的右边一项,只保留 那一项 (见 式 (12)),第 3 行是去掉了 中的左边一项,只保 留 那一项,最后一行是把 全部去掉得到 的模型,即去掉整个协议层。可以看出,跟去掉 协议层的模型 (最后一行) 相比,不管是仅保留 、仅保留 还是两者都保留,只要有协议层 存在,模型都能取得显著的性能提升,特别是, 和 都保留的话,模型取得了最好的性 能。这些结果显示了所提出的一致性协议匹配的 有效性。 4.4 实例分析 本文对模型进行进一步的实例分析。在图 4 中,本文展示了两个实例,在每个可视化示例中, 分别在左侧和右侧的图像展示了给定文本中的两 个单词 (分别用蓝色和绿色标记) 及其在图像区 域上的注意力结果,这种注意力结果可以被看作 是单词–区域对齐。对于中间的图像,本文展示 了一个显著性区域跟文本中单词的注意力结果, 这可以看作是区域–单词对齐。这里用红色的双 ·1148· 智 能 系 统 学 报 第 16 卷
第6期 宫大汉,等:一致性协议匹配的跨模态图像文本检索方法 ·1149· 向箭头表示两种对齐之间的一致性得分。 词之间的单词-区域和区域-单词的对齐方式,接 表5协议层的影响 着提出跨模态协议来估计对齐的一致性。本文将 Table 5 Effect of the agreement layer 协议的推导过程实例化为模型的协议层,并采用 图像检索文本 文本检索图像 了一种新颖的竞争性投票方案,为细粒度跨模态 F(I.S) R@1 R@10 R@1 R@10 关联关系提供强有力的协议准则,促进模型对图 Faln+Fagr 像文本之间的相似性的准确建模。本文在两个基 72.1 96.7 52.8 87.1 准数据集(Flickr30K和MS COCO)上进行了广泛 Faln+AG: 70.7 96.0 50.8 86.1 的实验。实验结果表明,本文提出的方法取得了 Faln+AG 70.8 96.2 52.3 86.4 先进的跨模态图像文本检索性能,很好地验证了 Fain 69.7 95.8 51.1 85.9 方法的有效性。 A young helmeted man,in his team uniform,is swinging his 参考文献: bat at an incoming baseball. BasebalL:0.5 [1]WANG Liwei,LI Yin,LAZEBNIK S.Learning deep Baseball incoming:0.1 structure-preserving image-text embeddings[C]//Proceed- 0.72 0.34 ings of 2016 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Las Vegas,USA,2016: 5005-5013. (a)实例1 [2]FAGHRI F.FLEET D J.KIROS J R.et al.VSE++:Im- proving visual-semantic embeddings with hard negatives Two dogs run across stones near a body of water. [EB/OL].(2018-07-29)[2021-07-30]https://arxiv.org/pdf/ Baseball:0.55 ter incoming:0.11 Body 1707.05612 [3]KARPATHY A,LI Feifei.Deep visual-semantic align- 0.92 0.51 ments for generating image descriptions[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition.Boston,USA,2015:3128-3137. (b)实例2 [4]NAM H.HA J W.KIM J.Dual attention networks for mul- timodal reasoning and matching[C]//Proceedings of 2017 图4一致性协议匹配实例分析 IEEE Conference on Computer Vision and Pattern Recog- Fig.4 Examples of the proposed MAG method nition.Honolulu,USA,2017:2156-2164. 可以看到,在两个单词-区域对齐(左和右) [5]XU K.BA J.KIROS R.et al.Show.attend and tell:Neur- 中,对应的词都与红色框中的区域高度相关。而 al image caption generation with visual attention[C]//Inter- 在区域-单词对齐(中间)中,左侧的单词与区域 national Conference on Machine Learning.Sydney,Aus- 的相关性更高,导致左侧的对齐一致性得分高于 tralia.2015:2048-2057. 右侧。例如,在图4(a)中,左边和右边的图像中 [6]LEE K H.CHEN Xi,HUA Gang,et al.Stacked cross at- 的注意力结果表明“Baseball”和“incoming?”都与 tention for image-text matching[M]//FERRARI V, 红框中的区域有很强的相关性。然而,中间的图 HEBERT M,SMINCHISESCU C,et al.Proceedings of 像显示红色区域与单词“Baseball”的相关性高于 the 15th European Conference on Computer Vision-ECCV 2018.Munich,Germany:Springer,2018:201-216. 单词incoming”,使得左侧单词-区域对齐和中间 [7]FROME A,CORRADO G S,SHLENS J,et al.DeViSE:A 区域-单词对齐之间的一致性得分更高。未来, deep visual-semantic embedding model[C]//Proceedings of 本文将继续在跨模态行人再识别22,跨模态哈 the 26th International Conference on Neural Information 希检索2等其他跨模态任务挖掘这种关联一致 Processing Systems.Nevada,USA,2013:2121-2129. 性问题,并将本文的方法进行应用扩展,促进跨 [8]SIMONYAN K,ZISSERMAN A.Very deep convolution- 模态学习的发展。 al networks for large-scale image recognition[EB/OL]. (2015-04-10).htps://arxiv.org/pdf1409.1556 5结束语 [9]MIKOLOV T,CHEN Kai,CORRADO G,et al.Efficient estimation of word representations in vector space 本文针对跨模态图像文本任务提出了一种一 [EB/OL].(2013-09-07)[2021-07-30]https:/arxiv.org/ 致性协议匹配方法。与之前的工作一样,首先使 pdf1301.3781 用注意力机制充分探索了图像中区域和文本中单 [10]KIROS R.SALAKHUTDINOV R,ZEMEL R S.Unify-
向箭头表示两种对齐之间的一致性得分。 表 5 协议层的影响 Table 5 Effect of the agreement layer F(I,S ) 图像检索文本 文本检索图像 R@1 R@10 R@1 R@10 Faln + Fagr 72.1 96.7 52.8 87.1 Faln +AGv i 70.7 96.0 50.8 86.1 Faln +AGt j 70.8 96.2 52.3 86.4 Faln 69.7 95.8 51.1 85.9 Baseball (b) 实例 2 (a) 实例 1 A young helmeted man, in his team uniform, is swinging his bat at an incoming baseball. 0.72 0.34 0.92 0.51 Two dogs run across stones near a body of water. Water Incoming Baseball: 0.5 incoming: 0.1 Baseball: 0.55 incoming: 0.11 Body 图 4 一致性协议匹配实例分析 Fig. 4 Examples of the proposed MAG method 可以看到,在两个单词–区域对齐 (左和右) 中,对应的词都与红色框中的区域高度相关。而 在区域–单词对齐 (中间) 中,左侧的单词与区域 的相关性更高,导致左侧的对齐一致性得分高于 右侧。例如,在图 4(a) 中,左边和右边的图像中 的注意力结果表明“Baseball”和“incoming”都与 红框中的区域有很强的相关性。然而,中间的图 像显示红色区域与单词“Baseball”的相关性高于 单词“incoming”,使得左侧单词–区域对齐和中间 区域–单词对齐之间的一致性得分更高。未来, 本文将继续在跨模态行人再识别[23-24] ,跨模态哈 希检索[25] 等其他跨模态任务挖掘这种关联一致 性问题,并将本文的方法进行应用扩展,促进跨 模态学习的发展。 5 结束语 本文针对跨模态图像文本任务提出了一种一 致性协议匹配方法。与之前的工作一样,首先使 用注意力机制充分探索了图像中区域和文本中单 词之间的单词–区域和区域–单词的对齐方式,接 着提出跨模态协议来估计对齐的一致性。本文将 协议的推导过程实例化为模型的协议层,并采用 了一种新颖的竞争性投票方案,为细粒度跨模态 关联关系提供强有力的协议准则,促进模型对图 像文本之间的相似性的准确建模。本文在两个基 准数据集 (Flickr30K 和 MS COCO) 上进行了广泛 的实验。实验结果表明,本文提出的方法取得了 先进的跨模态图像文本检索性能,很好地验证了 方法的有效性。 参考文献: WANG Liwei, LI Yin, LAZEBNIK S. Learning deep structure-preserving image-text embeddings[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, USA, 2016: 5005−5013. [1] FAGHRI F, FLEET D J, KIROS J R, et al. VSE++: Improving visual-semantic embeddings with hard negatives [EB/OL]. (2018-07-29)[2021-07-30] https://arxiv.org/pdf/ 1707.05612. [2] KARPATHY A, LI Feifei. Deep visual-semantic alignments for generating image descriptions[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA, 2015: 3128−3137. [3] NAM H, HA J W, KIM J. Dual attention networks for multimodal reasoning and matching[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA, 2017: 2156−2164. [4] XU K, BA J, KIROS R, et al. Show, attend and tell: Neural image caption generation with visual attention[C]//International Conference on Machine Learning. Sydney, Australia, 2015: 2048−2057. [5] LEE K H, CHEN Xi, HUA Gang, et al. Stacked cross attention for image-text matching[M]//FERRARI V, HEBERT M, SMINCHISESCU C, et al. Proceedings of the 15th European Conference on Computer Vision-ECCV 2018. Munich, Germany: Springer, 2018: 201−216. [6] FROME A, CORRADO G S, SHLENS J, et al. DeViSE: A deep visual-semantic embedding model[C]//Proceedings of the 26th International Conference on Neural Information Processing Systems. Nevada, USA, 2013: 2121–2129. [7] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[EB/OL]. (2015-04-10). https://arxiv.org/pdf/1409.1556. [8] MIKOLOV T, CHEN Kai, CORRADO G, et al. Efficient estimation of word representations in vector space [EB/OL]. (2013-09-07)[2021-07-30] https://arxiv.org/ pdf/1301.3781. [9] [10] KIROS R, SALAKHUTDINOV R, ZEMEL R S. Unify- 第 6 期 宫大汉,等:一致性协议匹配的跨模态图像文本检索方法 ·1149·
·1150· 智能系统学报 第16卷 ing visual-semantic embeddings with multimodal neural matching[C]//Proceedings of the Twenty-Eighth Interna- language models[EB/OL].(2014-11-10).https://arxiv tional Joint Conference on Artificial Intelligence.Macao, org/pdf1411.2539. China,2019:3792-3798. [11]CHUNG J,GULCEHRE C,CHO K,et al.Empirical eval- [22]SONG Yale,SOLEYMANI M.Polysemous visual-se- uation of gated recurrent neural networks on sequence mantic embedding for cross-modal retrieval[C]//2019 modeling[EB/OL].(2014-12-11)[2021-07-30]https://arx- IEEE/CVF Conference on Computer Vision and Pattern iv.org/pdf/1412.3555 Recognition.Long Beach,USA,2019. [12]NIU Zhenxing,ZHOU Mo,WANG Le,et al.Hierarchic- [23]陈丹,李永忠,于沛泽,等.跨模态行人重识别研究与展 al multimodal LSTM for dense visual-semantic embed- 望).计算机系统应用,2020,29(10):20-28. ding[C]//2017 IEEE International Conference on Com- CHEN Dan,LI Yongzhong,YU Peizhe,et al.Research puter Vision.Venice,Italy,2017:1899-1907. and prospect of cross modality person re-identifica- [13]REN Shaoqing,HE Kaiming,GIRSHICK R,et al.Faster tion[J].Computer systems applications,2020,29(10): R-CNN:Towards real-time object detection with region 20-28. proposal networks[C]//Proceedings of the 28th Interna- [24]刘天瑜,刘正熙.跨模态行人重识别研究综述[仞.现代 tional Conference on Neural Information Processing Sys- 计算机,2021,27(7):135-139. tems.Montreal,Canada,2015:91-99. LIU Tianyu,LIU Zhengxi.Overview of cross modality [14]CHEN Hui,DING Guiguang,LIN Zijia,et al.Cross-mod- person Re-identification research[J].Modern computer, al image-text retrieval with semantic consistency [C//Pro- 2021,27(7):135-139. ceedings of the 27th ACM International Conference on [25]姚伟娜.基于深度哈希算法的图像一文本跨模态检索 Multimedia.Nice,French,2019:1749-1757 研究D1.北京:北京交通大学,2018. [15]YOUNG P,LAI A,HODOSH M,et al.From image de- YAO Weina.Image-text cross-modal retrieval based on scriptions to visual denotations:New similarity metrics deep hashing method[D].Beijing:Beijing Jiaotong Uni- for semantic inference over event descriptions[J].Trans- versity,2018. actions of the association for computational linguistics, 作者简介: 2014.2(1上67-78. [16]LIN T Y,MAIRE M,BELONGIE S,et al.Microsoft 宫大汉,博士研究生,主要研究方 coco:Common objects in context[C]//13th European 向为图像语义理解、卷积神经网络压 Conference on Computer Vision-ECCV 2014.Zurich, 缩加速。 Switzerland.2014:740-755. [17]PASZKE A.GROSS S.CHINTALA S.et al.Automatic differentiation in PyTorch[Cl//31st Conference on Neural Information Processing Systems.Long Beach,USA, 2017. 陈辉,助理研究员,博士,主要研 [18]KINGMA D P,BA J L.Adam:A method for stochastic 究方向为图像语义理解、多媒体信息 optimization[EB/OL].(2015-04-23)[2021-08-01]https:// 处理。 arxiv.org/pdf/1412.6980. [19]ZHENG Zhedong,ZHENG Liang,GARRETT M,et al. Dual-path convolutional image-text embeddings with in- stance loss[J.ACM transactions on multimedia comput- ing,communications,and applications,2020,16(2):51. 丁贵广,副教授,博土,主要研究 [20]HUANG Yan,WANG Wei,WANG Liang.Instance- 方向为多媒体信息处理、计算机视觉 aware image and sentence matching with selective mul- 感知。主持基金委重点项目、重点研 timodal LSTM[C]//Proceedings of 2017 IEEE Confer- 发项目等国家级项目数十项。曾获国 ence on Computer Vision and Pattern Recognition. 家科技进步二等奖、吴文俊人工智能 Hawaii,USA,2017:2310-2318. 科技进步一等奖、中国电子学会技术 [21]WANG Yaxiong,YANG Hao,QIAN Xueming,et al.Po- 发明一等奖等。发表学术论文近百 sition focused attention network for image-text 篇,引用量近7000次
ing visual-semantic embeddings with multimodal neural language models[EB/OL]. (2014-11-10). https://arxiv. org/pdf/1411.2539. CHUNG J, GULCEHRE C, CHO K, et al. Empirical evaluation of gated recurrent neural networks on sequence modeling[EB/OL]. (2014-12-11)[2021-07-30] https://arxiv.org/pdf/1412.3555. [11] NIU Zhenxing, ZHOU Mo, WANG Le, et al. Hierarchical multimodal LSTM for dense visual-semantic embedding[C]//2017 IEEE International Conference on Computer Vision. Venice, Italy, 2017: 1899−1907. [12] REN Shaoqing, HE Kaiming, GIRSHICK R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[C]//Proceedings of the 28th International Conference on Neural Information Processing Systems. Montreal, Canada, 2015: 91−99. [13] CHEN Hui, DING Guiguang, LIN Zijia, et al. Cross-modal image-text retrieval with semantic consistency[C]//Proceedings of the 27th ACM International Conference on Multimedia. Nice, French, 2019: 1749−1757. [14] YOUNG P, LAI A, HODOSH M, et al. From image descriptions to visual denotations: New similarity metrics for semantic inference over event descriptions[J]. Transactions of the association for computational linguistics, 2014, 2(1): 67–78. [15] LIN T Y, MAIRE M, BELONGIE S, et al. Microsoft coco: Common objects in context[C]//13th European Conference on Computer Vision-ECCV 2014. Zurich, Switzerland, 2014: 740−755. [16] PASZKE A, GROSS S, CHINTALA S, et al. Automatic differentiation in PyTorch[C]//31st Conference on Neural Information Processing Systems. Long Beach, USA, 2017. [17] KINGMA D P, BA J L. Adam: A method for stochastic optimization[EB/OL]. (2015-04-23)[2021-08-01] https:// arxiv.org/pdf/1412.6980. [18] ZHENG Zhedong, ZHENG Liang, GARRETT M, et al. Dual-path convolutional image-text embeddings with instance loss[J]. ACM transactions on multimedia computing, communications, and applications, 2020, 16(2): 51. [19] HUANG Yan, WANG Wei, WANG Liang. Instanceaware image and sentence matching with selective multimodal LSTM[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Hawaii, USA, 2017: 2310−2318. [20] WANG Yaxiong, YANG Hao, QIAN Xueming, et al. Position focused attention network for image-text [21] matching[C]//Proceedings of the Twenty-Eighth International Joint Conference on Artificial Intelligence. Macao, China, 2019: 3792−3798. SONG Yale, SOLEYMANI M. Polysemous visual-semantic embedding for cross-modal retrieval[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA, 2019. [22] 陈丹, 李永忠, 于沛泽, 等. 跨模态行人重识别研究与展 望 [J]. 计算机系统应用, 2020, 29(10): 20–28. CHEN Dan, LI Yongzhong, YU Peizhe, et al. Research and prospect of cross modality person re-identification[J]. Computer systems & applications, 2020, 29(10): 20–28. [23] 刘天瑜, 刘正熙. 跨模态行人重识别研究综述 [J]. 现代 计算机, 2021, 27(7): 135–139. LIU Tianyu, LIU Zhengxi. Overview of cross modality person Re-identification research[J]. Modern computer, 2021, 27(7): 135–139. [24] 姚伟娜. 基于深度哈希算法的图像—文本跨模态检索 研究 [D]. 北京: 北京交通大学, 2018. YAO Weina. Image-text cross-modal retrieval based on deep hashing method[D]. Beijing: Beijing Jiaotong University, 2018. [25] 作者简介: 宫大汉,博士研究生,主要研究方 向为图像语义理解、卷积神经网络压 缩加速。 陈辉,助理研究员,博士,主要研 究方向为图像语义理解、多媒体信息 处理。 丁贵广,副教授,博士,主要研究 方向为多媒体信息处理、计算机视觉 感知。主持基金委重点项目、重点研 发项目等国家级项目数十项。曾获国 家科技进步二等奖、吴文俊人工智能 科技进步一等奖、中国电子学会技术 发明一等奖等。发表学术论文近百 篇,引用量近 7 000 次。 ·1150· 智 能 系 统 学 报 第 16 卷