正在加载图片...
第6期 宫大汉,等:一致性协议匹配的跨模态图像文本检索方法 ·1145· 2 相关工作 泛使用的目标函数。 基于细粒度对齐的方法旨在探索图像和文本 跨模态图像文本检索的相关工作通常使用深 之间潜在的细粒度对应关系。Karpathy等)将图 度神经网络来避免使用手工制作的特征。它们可 像和文本的片段对齐到公共空间中,并通过聚合 以大致分为两类:基于嵌入的方法和基于细粒度 局部对齐来计算图像和文本的全局相似度。 对齐的方法。 Niu等提出了一种分层模型,其中图像和文本 基于嵌入的方法通常学习一个共享的嵌入空 通过分层策略实现实例到特征的全局和局部联合 间,并通过计算嵌入空间中图像和文本特征之间 映射。Lee等6提出了一个堆叠交叉注意力模 的距离来估计图像和文本之间的相似性。Frome 等忉尝试通过CNN和Skip-Gram模型9来学习 型,旨在发现图像区域和文本词之间的完整潜在 跨模态表示。类似地,Kiros等o采用CNN来提 对齐,并在多个基准数据集上实现先进的性能。 取视觉特征,并采用门循环单元(gated recurrent 3 一致性协议匹配 unit,GRU)u来提取文本特征。Faghri等提出了 一种难负例挖掘的三元组损失函数,取得了显著 本节讨论所提出的一致性协议匹配方法,如 的性能提升,并成为跨模态图像文本检索领域广 图3所示。 表示层 对齐层 协议层 匹配层 区域单词对齐 1 Z1Z.…Z AG 语义一 致损失 NN Z + Bi-GRUs .Cn AG A horse walkson 排序 the road. 单词区域对齐 损失 图3一致性协议匹配方法框架 Fig.3 Framework of the proposed MAG method 3.1表示层 用V={li=1,2,…,my,∈R}来表示图像特征。 在表示层,本文的目标是在潜在共享特征空 给定有n个词的文本S={w1,w2,…,wl,本文 间中对图像和文本的信息进行特征表达,以估计 使用一个双向门控循环单元(bidirectional GRU, 它们之间的相似性。给定一个包含N个图像文 Bi-GRU充当文本编码器。首先,本文首先将每个 本对的数据集D={(L,S)心,其中,1代表图像,S 离散的单词w,使用独热码进行表示,接着使用一 代表文本。本文使用两个不同的编码器分别提取 个可学习的嵌入矩阵将独热码转化为一个词向量 图像的视觉信息和文本的文本信息。 e。然后使用一个Bi-GRU分别从左到右(前向) 具体来说,给定图像1,本文使用一个预训练 和从右到左(后向)两个方向对词向量进行处理: 的对象检测模型Faster R-CNN)来充当图像编码 器。Faster R-CNN会推断出图像中的显著性对象 威e5 (2) 信息,并以包围框的方式定位到对象的区域,记 式中方和方分别表示前向GRU和后向GRU的 为,并将经过区域池化操作得到对象的特征记 隐藏状态向量。最后,单词w的上下文表示可以 为。接着,本文使用一个线性变换层将区域特 通过公式获得:1=(,+五)2。为了使单词特征 征映射到一个d隐层特征空间中: 和图像区域特征,可以在特征空间中进行计 v:=W f+b (1) 算,这里设置Bi-GRU的隐藏状态向量维度和, 式中:是区域”在隐层特征空间中的特征表示: 一样,有teR。为了方便下文描述,本文用T={tj= W,和b,是线性变换的可学习参数。为了方便描 1,2,…,nt∈R4来表示文本S的特征。 述,假定图像I,Faster R-CNN检测到m个对象区 3.2对齐层 域,则最终可以得到m个特征来表示图像1,本文 对齐层旨在探索视觉信息和文本信息之间的2 相关工作 跨模态图像文本检索的相关工作通常使用深 度神经网络来避免使用手工制作的特征。它们可 以大致分为两类:基于嵌入的方法和基于细粒度 对齐的方法。 基于嵌入的方法通常学习一个共享的嵌入空 间,并通过计算嵌入空间中图像和文本特征之间 的距离来估计图像和文本之间的相似性。Frome 等 [7] 尝试通过 CNN[8] 和 Skip-Gram 模型[9] 来学习 跨模态表示。类似地,Kiros 等 [10] 采用 CNN 来提 取视觉特征,并采用门循环单元 (gated recurrent unit, GRU)[11] 来提取文本特征。Faghri 等 [2] 提出了 一种难负例挖掘的三元组损失函数,取得了显著 的性能提升,并成为跨模态图像文本检索领域广 泛使用的目标函数。 基于细粒度对齐的方法旨在探索图像和文本 之间潜在的细粒度对应关系。Karpathy 等 [3] 将图 像和文本的片段对齐到公共空间中,并通过聚合 局部对齐来计算图像和文本的全局相似度。 Niu 等 [12] 提出了一种分层模型,其中图像和文本 通过分层策略实现实例到特征的全局和局部联合 映射。Lee 等 [6] 提出了一个堆叠交叉注意力模 型,旨在发现图像区域和文本词之间的完整潜在 对齐,并在多个基准数据集上实现先进的性能。 3 一致性协议匹配 本节讨论所提出的一致性协议匹配方法,如 图 3 所示。 CNN v1 vi vm c1 v cm v ci v c1 t cn t cj t t1 tj tm v1 vi vn t1 tj tn I S … Bi-GRUs A horse walkson the road. … … … … … … … … … … … … … … … … … … 表示层 对齐层 协议层 匹配层 + + + 排序 损失 语义一 致损失 区域-单词对齐 单词-区域对齐 y1 yj yn x1 Z1, : Z, : 1 Z2, : Z, : 2 Z, : m AGi v AGj t Zn, : xi xm 图 3 一致性协议匹配方法框架 Fig. 3 Framework of the proposed MAG method 3.1 表示层 N D = { (Ik ,S k) N k=1 } I S 在表示层,本文的目标是在潜在共享特征空 间中对图像和文本的信息进行特征表达,以估计 它们之间的相似性。给定一个包含 个图像文 本对的数据集 ,其中, 代表图像, 代表文本。本文使用两个不同的编码器分别提取 图像的视觉信息和文本的文本信息。 I ri fi d 具体来说,给定图像 ,本文使用一个预训练 的对象检测模型 Faster R-CNN[13] 来充当图像编码 器。Faster R-CNN 会推断出图像中的显著性对象 信息,并以包围框的方式定位到对象的区域,记 为 ,并将经过区域池化操作得到对象的特征记 为 。接着,本文使用一个线性变换层将区域特 征映射到一个 隐层特征空间中: vi = Wv fi +bv (1) vi ri Wv bv I m m I 式中: 是区域 在隐层特征空间中的特征表示; 和 是线性变换的可学习参数。为了方便描 述,假定图像 ,Faster R-CNN 检测到 个对象区 域,则最终可以得到 个特征来表示图像 ,本文 V = { vi |i = 1,2,··· ,m; vi ∈ R d 用 } 来表示图像特征。 n S = {w1,w2,··· ,wn} wj ej 给定有 个词的文本 ,本文 使用一个双向门控循环单元 (bidirectional GRU, Bi-GRU) 充当文本编码器。首先,本文首先将每个 离散的单词 使用独热码进行表示,接着使用一 个可学习的嵌入矩阵将独热码转化为一个词向量 。然后使用一个 Bi-GRU 分别从左到右 (前向) 和从右到左 (后向) 两个方向对词向量进行处理: →hj = →GRU ( ej ,→hj−1 ) ;←hj = ←GRU ( ej ,←hj+1 ) (2) −→h ←−h wj tj = ( −→h j + ←−h j) / 2 tj vi vi tj ∈ R d T = {tj | j = 1,2,··· ,n;tj ∈ R d } S 式中 和 分别表示前向 GRU 和后向 GRU 的 隐藏状态向量。最后,单词 的上下文表示可以 通过公式获得: 。为了使单词特征 和图像区域特征 可以在特征空间中进行计 算,这里设置 Bi-GRU 的隐藏状态向量维度和 一样,有 。为了方便下文描述,本文用 来表示文本 的特征。 3.2 对齐层 对齐层旨在探索视觉信息和文本信息之间的 第 6 期 宫大汉,等:一致性协议匹配的跨模态图像文本检索方法 ·1145·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有