第15卷第4期 智能系统学报 Vol.15 No.4 2020年7月 CAAI Transactions on Intelligent Systems Jul.2020 D0L:10.11992tis.201910039 基于注意力融合的图像描述生成方法 莫宏伟,田朋 (哈尔滨工程大学自动化学院,黑龙江哈尔滨150001) 摘要:空间注意力机制和高层语义注意力机制都能够提升图像描述的效果,但是通过直接划分卷积神经网络 提取图像空间注意力的方式不能准确地提取图像中目标对应的特征。为了提高基于注意力的图像描述效果, 提出了一种基于注意力融合的图像描述模型,使用Faster R-CNN(faster region with convolutional neural network) 作为编码器在提取图像特征的同时可以检测出目标的准确位置和名称属性特征,再将这些特征分别作为高层 语义注意力和空间注意力来指导单词序列的生成。在COCO数据集上的实验结果表明,基于注意力融合的图 像描述模型的性能优于基于空间注意力的图像描述模型和多数主流的图像描述模型。在使用交叉嫡训练方法 的基础上,使用强化学习方法直接优化图像描述评价指标对模型进行训练,提升了基于注意力融合的图像描述 模型的准确率。 关键词:图像描述;卷积神经网络;空间注意力:Faster R-CNN:注意力机制;名称属性;高层语义;强化学习 中图分类号:TP181文献标志码:A文章编号:1673-4785(2020)04-0740-10 中文引用格式:莫宏伟,田朋.基于注意力融合的图像描述生成方法J.智能系统学报,2020,15(4):740-749. 英文引用格式:MO Hongwei,,TIAN Peng.An image caption generation method based on attention fusion.CAAI transactions on intelligent systems,2020,15(4):740-749. An image caption generation method based on attention fusion MO Hongwei,TIAN Peng (College of Automation,Harbin Engineering University,Harbin 150001,China) Abstract:The spatial attention mechanism and the high-level semantic attention mechanism can improve the effect of image captioning,but the method for extracting the spatial attention of image by directly dividing the convolutional neural network cannot accurately extract the features corresponding to target in the image.In order to improve the effect of image captioning based on attention,this paper proposes an image caption model based on attention fusion,using Faster R-CNN(faster region with convolutional neural network)as an encoder to exect image features and simultan- eously detect the features of accurate position and noun attribute of the target object,then those features as high-level se- mantic attention and spatial attention respectively to guide the generation of word sequence.The experimental results on COCO dataset show that the performance of the image caption model based on attention fusion outperforms the image caption models based on spatial attention and most mainstream image caption models.Based on the cross entropy train- ing method,we use reinforcement learning method to directly optimize the image caption evaluation index to train the model,which significantly improves the accuracy of the image caption model based on attention fusion. Keywords:image caption;convolutional neural network;spatial attention;Faster R-CNN;attention mechanism;noun attribute:high-level semantic;reinforcement learning 图像描述是计算机视觉和自然语言处理的交点和难点问题。图像描述是让计算机生成给定 叉学科,也是当前人工智能领域中研究的一个热 图像内容的文字性表述,相比于图像分类和目标 收稿日期:2019-10-29. 检测识别等视觉任务,图像描述不仅需要检测识 基金项目:国家重点研发计划新一代人工智能重大专项 别出图像中的物体和关系,还需要使用自然语言 (2018AAA0102702). 通信作者:莫宏伟.E-mail:honwei2004@126.com. 将图像的主要语义信息进行准确地表述
DOI: 10.11992/tis.201910039 基于注意力融合的图像描述生成方法 莫宏伟,田朋 (哈尔滨工程大学 自动化学院,黑龙江 哈尔滨 150001) 摘 要:空间注意力机制和高层语义注意力机制都能够提升图像描述的效果,但是通过直接划分卷积神经网络 提取图像空间注意力的方式不能准确地提取图像中目标对应的特征。为了提高基于注意力的图像描述效果, 提出了一种基于注意力融合的图像描述模型,使用 Faster R-CNN(faster region with convolutional neural network) 作为编码器在提取图像特征的同时可以检测出目标的准确位置和名称属性特征,再将这些特征分别作为高层 语义注意力和空间注意力来指导单词序列的生成。在 COCO 数据集上的实验结果表明,基于注意力融合的图 像描述模型的性能优于基于空间注意力的图像描述模型和多数主流的图像描述模型。在使用交叉熵训练方法 的基础上,使用强化学习方法直接优化图像描述评价指标对模型进行训练,提升了基于注意力融合的图像描述 模型的准确率。 关键词:图像描述;卷积神经网络; 空间注意力;Faster R-CNN;注意力机制;名称属性; 高层语义;强化学习 中图分类号:TP181 文献标志码:A 文章编号:1673−4785(2020)04−0740−10 中文引用格式:莫宏伟, 田朋. 基于注意力融合的图像描述生成方法 [J]. 智能系统学报, 2020, 15(4): 740–749. 英文引用格式:MO Hongwei, TIAN Peng. An image caption generation method based on attention fusion[J]. CAAI transactions on intelligent systems, 2020, 15(4): 740–749. An image caption generation method based on attention fusion MO Hongwei,TIAN Peng (College of Automation, Harbin Engineering University, Harbin 150001, China) Abstract: The spatial attention mechanism and the high-level semantic attention mechanism can improve the effect of image captioning, but the method for extracting the spatial attention of image by directly dividing the convolutional neural network cannot accurately extract the features corresponding to target in the image. In order to improve the effect of image captioning based on attention, this paper proposes an image caption model based on attention fusion, using Faster R-CNN (faster region with convolutional neural network) as an encoder to exect image features and simultaneously detect the features of accurate position and noun attribute of the target object, then those features as high-level semantic attention and spatial attention respectively to guide the generation of word sequence. The experimental results on COCO dataset show that the performance of the image caption model based on attention fusion outperforms the image caption models based on spatial attention and most mainstream image caption models. Based on the cross entropy training method, we use reinforcement learning method to directly optimize the image caption evaluation index to train the model, which significantly improves the accuracy of the image caption model based on attention fusion. Keywords: image caption; convolutional neural network; spatial attention; Faster R-CNN; attention mechanism; noun attribute; high-level semantic; reinforcement learning 图像描述是计算机视觉和自然语言处理的交 叉学科,也是当前人工智能领域中研究的一个热 点和难点问题[1]。图像描述是让计算机生成给定 图像内容的文字性表述,相比于图像分类和目标 检测识别等视觉任务,图像描述不仅需要检测识 别出图像中的物体和关系,还需要使用自然语言 将图像的主要语义信息进行准确地表述[2]。 收稿日期:2019−10−29. 基金项目:国家重点研发计划新一代人工智能重大专项 ( 2018AAA0102702). 通信作者:莫宏伟. E-mail:honwei2004@126.com.. 第 15 卷第 4 期 智 能 系 统 学 报 Vol.15 No.4 2020 年 7 月 CAAI Transactions on Intelligent Systems Jul. 2020
第4期 莫宏伟,等:基于注意力融合的图像描述生成方法 ·741· 人类获取外部世界信息主要是通过视觉系 进一步提高模型的性能。 统,人类大脑的注意力机制能从环境中选择出感 1 兴趣的目标区域,并重点关注这些目标区域的相 相关研究 关信息。受此启发,研究人员成功地将注意力机 图像描述涉及计算机视觉与自然语言处理两 制应用于机器翻译和图像描述等诸多深度学习任 个研究领域,近年来成为深度学习中的研究热点。 务中B 图像描述的方法可以分为三大类:基于模板的方 在基于编码解码结构的图像描述模型中,卷 法、基于检索的方法和基于编码解码结构的方法。 积神经网络作为编码器将图像的主要特征提取为 早期的图像描述研究主要是基于模板的方 一个固定大小的特征向量,长短期记忆网络作为 法,该方法首先检测出图像中的物体及其属性等 解码器利用该特征向量生成描述文本561。长短 关键信息,然后将这些信息通过特定的模板、语 期记忆网络沿着时间展开,其网络中包含的图像 言模型或句法模型生成对应的描述。Farhadi等图 特征信息会逐渐减少,而且一次将全部特征信息 将图像中的物体、动作和场景检测出来,形成对 送入到解码器中,这不能使解码器充分地利用特 应的三元组,根据模型信息生成描述;Girish等例 征信息,因此该模型无法取得非常好的描述效果。 使用检测器识别图像中的物体、物体属性和相互 在基于注意力机制的图像描述模型中,卷积 关系,然后使用条件随机场预测标签,最后使用 神经网络将提取的图像特征按照图像的空间位置 文本语料库生成图像的描述;Li等o将图像中物 划分为一定数量的局部特征向量,注意力机制根 体的相关信息表示为关系短语,通过语言模型将 据长短期记忆网络的隐藏状态从图像局部特征向 短语组合生成描述语句。 量集合中动态选择与当前时刻生成单词有关的图 基于模板的方法生成描述的质量依赖于特征 像局部特征来指导当前时刻单词的生成。使用注 提取部分的性能和模板的设定,由于使用的模板 意力机制改进的图像描述模型能够充分地利用图 是固定的,其生成的描述虽然能够包含图像的主 像的特征信息,显著地提升了模型生成描述的效果口 要语义信息,但其描述格式单调,表达生硬,效果 然而使用固定值均匀地划分图像获取空间注 并不理想。 意力的方法存在着注意力不精确的问题,分割出 基于检索的方法将图像描述问题转化成图像 来的图像区域一般与目标的大小不符,不利于单 检索问题,在提取图像特征信息后通过相似度量 词序列的生成。为了解决基于空间注意力机制存 算法来比较图像之间的相似度,然后利用数据集 在的不能准确选取目标对应特征的问题,本文提 中相似图像的描述经过合理地组织生成新的描 出了一种基于空间注意力和高层语义注意力融合 述。Polina等在图像数据集中检索出与要描述 的图像描述模型,使用具有卷积神经网络的快速 图像相似的图像,将这些图像对应的描述文本通 区域目标检测模型(faster region with convolutional 过随机树形结构算法提取出词组以生成图像的描 neural network,Faster R-CNN)作为图像描述模型 述语句。Yashaswi等使用图像的视觉特征作 的编码器,使用高层语义注意力机制在提取图像 为衡量图像相似度的指标,将与要描述图像相似 特征的同时检测图像中的物体和显著视觉区域的 的描述文本分解成短语,通过图像的相似性等指 位置和名称属性,将位置特征和名称属性特征分 标确定最优描述。Jacob等]使用视觉几何组网 别作为空间注意力机制和高层语义注意力机制的 络(visual geometry group network,VGG)模型提 输入,从而提高图像描述的准确性。 取图像特征,使用KNN9找到与描述图像相似的 本文的主要贡献如下: 图像以确定目标图像的描述。 1)针对空间注意力机制中存在的注意力不精 基于检索的方法将图像描述看作是一种检索 确的问题,提出使用Faster R-CNN作为编码器对 任务,其性能依赖于标注的图像数据集的大小和 空间注意力机制进行改进,提高空间注意力机制 检索算法的准确程度,该方法过于依赖描述数据 的精度; 集,所生成的图像描述局限于数据集中的描述。 2)提出一种融合空间注意力与高层语义注意 基于编码解码结构的图像描述模型使用卷积 力的注意力机制,在提取图像特征的同时检测出 神经网络作为编码器提取图像特征向量,使用循 图像中目标的准确位置和名称属性特征以指导单 环神经网络作为解码器,根据提取到的图像特征 词的生成: 向量来生成图像对应的描述文本。 3)使用强化学习方法训练基于注意力融合的 Mao等16首先提出编码解码结构的图像描述 图像描述模型,提升模型在评价指标上的得分, 模型m-RNN,使用卷积神经网络将图像转化成特
人类获取外部世界信息主要是通过视觉系 统,人类大脑的注意力机制能从环境中选择出感 兴趣的目标区域,并重点关注这些目标区域的相 关信息。受此启发,研究人员成功地将注意力机 制应用于机器翻译和图像描述等诸多深度学习任 务中[3-4]。 在基于编码解码结构的图像描述模型中,卷 积神经网络作为编码器将图像的主要特征提取为 一个固定大小的特征向量,长短期记忆网络作为 解码器利用该特征向量生成描述文本[5-6]。长短 期记忆网络沿着时间展开,其网络中包含的图像 特征信息会逐渐减少,而且一次将全部特征信息 送入到解码器中,这不能使解码器充分地利用特 征信息,因此该模型无法取得非常好的描述效果。 在基于注意力机制的图像描述模型中,卷积 神经网络将提取的图像特征按照图像的空间位置 划分为一定数量的局部特征向量,注意力机制根 据长短期记忆网络的隐藏状态从图像局部特征向 量集合中动态选择与当前时刻生成单词有关的图 像局部特征来指导当前时刻单词的生成。使用注 意力机制改进的图像描述模型能够充分地利用图 像的特征信息,显著地提升了模型生成描述的效果[7]。 然而使用固定值均匀地划分图像获取空间注 意力的方法存在着注意力不精确的问题,分割出 来的图像区域一般与目标的大小不符,不利于单 词序列的生成。为了解决基于空间注意力机制存 在的不能准确选取目标对应特征的问题,本文提 出了一种基于空间注意力和高层语义注意力融合 的图像描述模型,使用具有卷积神经网络的快速 区域目标检测模型(faster region with convolutional neural network, Faster R-CNN)作为图像描述模型 的编码器,使用高层语义注意力机制在提取图像 特征的同时检测图像中的物体和显著视觉区域的 位置和名称属性,将位置特征和名称属性特征分 别作为空间注意力机制和高层语义注意力机制的 输入,从而提高图像描述的准确性。 本文的主要贡献如下: 1) 针对空间注意力机制中存在的注意力不精 确的问题,提出使用 Faster R-CNN 作为编码器对 空间注意力机制进行改进,提高空间注意力机制 的精度; 2) 提出一种融合空间注意力与高层语义注意 力的注意力机制,在提取图像特征的同时检测出 图像中目标的准确位置和名称属性特征以指导单 词的生成; 3) 使用强化学习方法训练基于注意力融合的 图像描述模型,提升模型在评价指标上的得分, 进一步提高模型的性能。 1 相关研究 图像描述涉及计算机视觉与自然语言处理两 个研究领域,近年来成为深度学习中的研究热点。 图像描述的方法可以分为三大类:基于模板的方 法、基于检索的方法和基于编码解码结构的方法。 早期的图像描述研究主要是基于模板的方 法,该方法首先检测出图像中的物体及其属性等 关键信息,然后将这些信息通过特定的模板、语 言模型或句法模型生成对应的描述。Farhadi 等 [8] 将图像中的物体、动作和场景检测出来,形成对 应的三元组,根据模型信息生成描述;Girish 等 [9] 使用检测器识别图像中的物体、物体属性和相互 关系,然后使用条件随机场预测标签,最后使用 文本语料库生成图像的描述;Li 等 [10] 将图像中物 体的相关信息表示为关系短语,通过语言模型将 短语组合生成描述语句。 基于模板的方法生成描述的质量依赖于特征 提取部分的性能和模板的设定,由于使用的模板 是固定的,其生成的描述虽然能够包含图像的主 要语义信息,但其描述格式单调,表达生硬,效果 并不理想。 基于检索的方法将图像描述问题转化成图像 检索问题,在提取图像特征信息后通过相似度量 算法来比较图像之间的相似度,然后利用数据集 中相似图像的描述经过合理地组织生成新的描 述。Polina 等 [11] 在图像数据集中检索出与要描述 图像相似的图像,将这些图像对应的描述文本通 过随机树形结构算法提取出词组以生成图像的描 述语句。Yashaswi 等 [12] 使用图像的视觉特征作 为衡量图像相似度的指标,将与要描述图像相似 的描述文本分解成短语,通过图像的相似性等指 标确定最优描述。Jacob 等 [13] 使用视觉几何组网 络(visual geometry group network, VGG)模型[14] 提 取图像特征,使用 KNN[15] 找到与描述图像相似的 图像以确定目标图像的描述。 基于检索的方法将图像描述看作是一种检索 任务,其性能依赖于标注的图像数据集的大小和 检索算法的准确程度,该方法过于依赖描述数据 集,所生成的图像描述局限于数据集中的描述。 基于编码解码结构的图像描述模型使用卷积 神经网络作为编码器提取图像特征向量,使用循 环神经网络作为解码器,根据提取到的图像特征 向量来生成图像对应的描述文本。 Mao 等 [16] 首先提出编码解码结构的图像描述 模型 m-RNN,使用卷积神经网络将图像转化成特 第 4 期 莫宏伟,等:基于注意力融合的图像描述生成方法 ·741·
·742· 智能系统学报 第15卷 征向量,利用循环神经网络根据之前生成的单词 该机制的难点是如何找到与预测词对应的隐状 和图像的特征向量生成下一个单词,循环此过程 态。Xu等21对图像描述的网络结构进行了改 直至生成完整的描述。Oriol等1刀提出的图像描 进,使用卷积层提取图像特征,每个时刻传入 述模型使用长短期记忆网络(long short-.term LSTM的是上一时刻的状态和经过加权处理后的 memory,.LSTM)18!替代循环神经网络作为解码 卷积层特征,使用注意力机制对提取的特征进行 器,LSTM不仅能够记忆长期信息,而且能够解决 加权。 梯度消失和梯度爆炸问题。 2017年,Marc0等241提出使用一种区域注意 与基于模板和基于检索的方法相比,基于编 力模型,考虑了状态与预测单词以及图像区域与 码解码结构的方法利用卷积神经网络提取图像特 单词和状态之间的关系,使用卷积神经网络提取 征和循环神经网络生成序列数据上的优势,所生 图像特征并生成描述单词。Li等2提出一种使 成的描述结构灵活、表达自然,而且模型泛化能 用注意力机制将局部特征与全局特征的权重进行 力强、性能良好。 组合的模型,首先分别提取全局特征与局部特 受到人的注意力会集中在感兴趣的物体上的 征,然后使用注意力机制对全局特征和局部特征 启发,研究人员将视觉注意力机制引入到编码解 进行权重分配。Lu等2提出一种带有视觉标记 码模型中,使得模型在生成不同的单词时关注图 的自适应注意力模型,在解码过程中依据语义信 像中对应区域的特征。注意力机制改变了编码器 息对不同的单词分配不同的注意力权重。 与解码器之间的连接方式,使得模型生成的描述 20l8年,Anderson等21提出使用Faster R- 更符合图像的内容。目前使用的注意力机制主要 CNN2I作为编码器在提取图像特征的同时检测 分以下3类: 目标及其所在的区域,将这些区域对应的特征向 1)空间注意力 量送入到空间注意力模型中,经过注意力机制的 Xu等最先提出将空间注意机制加入到编 动态分配来指导单词序列的生成。 码解码模型中,将编码器提取到的图像特征先划 当前大多数图像描述算法使用交叉熵作为损 分为不同的区域,利用当前时刻长短期记忆单元 失函数训练模型存在着曝光偏差和衡量标准不 的隐藏状态和图像区域特征经过注意力模型决定 致的问题,曝光偏差会导致生成的单词与图像内 各区域特征的权重,动态地选择与当前时刻生成 容具有差异,影响下一个单词生成的准确性,衡 单词相关的图像区域特征来指导单词的生成。 量标准不一致导致模型在训练时无法充分地优化 2)高层语义注意力 评价指标。为了解这个问题,研究人员提出了使 You等20提出使用目标检测算法检测图像中 用强化学习方法29来改进图像描述模型。Marc 主要目标的名称属性,并将其作为高层语义信 aurelio等o使用强化学习方法优化序列生成模 息,由此提出了基于高层语义注意力机制模型。 型,Liu等使用全连接网络来估计基线,并使用 该模型先将提取的物体名称属性向量送入注意力 更符合人类评价标准的图像描述指标SPICE(se: 机制模型,然后通过动态地选择名称属性向量来 mantic propositional image caption evaluation). 指导单词序列的生成,从而提高生成描述的质量。 文使用REINFORCE算法B对图像描述模型进行 3)层级注意力 训练,将该算法应用到基于注意力融合的图像描 Chen等2)提出了融合空间和高层语义注意 述模型中,解决了交叉嫡训练方法存在的曝光偏 力的基于层级注意力的图像描述模型,使用层级 差和衡量标准不一致的问题,提高了基于注意力 注意力机制动态地选择卷积神经网络的卷积特征 融合的图像描述模型生成描述的准确率。 图来指导单词的生成。该模型结合空间注意力机 2模型框架 制、语义注意力机制和层级注意力机制,所生成 的图像描述效果超过了同时期的其他图像描述 2.1整体模型 模型。 基于注意力融合的图像描述模型主要由图像 伴随着深度学习技术的快速发展,基于编码 特征提取、特征编码、注意力模型和特征解码等 解码结构的图像描述方法逐渐成为主流,由于注 部分组成。使用ResNet-1O1BI作为Faster R- 意力机制的应用,图像描述的效果也在不断地提 CNN的特征提取网络以提高图像特征提取的能 升。2015年,Minh-thang等四提出全局注意力和 力和目标检测的精度,Faster R-CNN作为编码器 局部注意力模型,全局注意力考虑输人的隐状态 能够提取图像中物体和显著视觉区域的位置和名 来生成语境向量,局部注意力关注部分隐状态, 称属性信息,将目标对应的特征向量和名称属性
征向量,利用循环神经网络根据之前生成的单词 和图像的特征向量生成下一个单词,循环此过程 直至生成完整的描述。Oriol 等 [17] 提出的图像描 述模型使用长短期记忆网络( long short-term memory, LSTM) [18] 替代循环神经网络作为解码 器,LSTM 不仅能够记忆长期信息,而且能够解决 梯度消失和梯度爆炸问题。 与基于模板和基于检索的方法相比,基于编 码解码结构的方法利用卷积神经网络提取图像特 征和循环神经网络生成序列数据上的优势,所生 成的描述结构灵活、表达自然,而且模型泛化能 力强、性能良好。 受到人的注意力会集中在感兴趣的物体上的 启发,研究人员将视觉注意力机制引入到编码解 码模型中,使得模型在生成不同的单词时关注图 像中对应区域的特征。注意力机制改变了编码器 与解码器之间的连接方式,使得模型生成的描述 更符合图像的内容。目前使用的注意力机制主要 分以下 3 类: 1) 空间注意力 Xu 等 [19] 最先提出将空间注意机制加入到编 码解码模型中,将编码器提取到的图像特征先划 分为不同的区域,利用当前时刻长短期记忆单元 的隐藏状态和图像区域特征经过注意力模型决定 各区域特征的权重,动态地选择与当前时刻生成 单词相关的图像区域特征来指导单词的生成。 2) 高层语义注意力 You 等 [20] 提出使用目标检测算法检测图像中 主要目标的名称属性,并将其作为高层语义信 息,由此提出了基于高层语义注意力机制模型。 该模型先将提取的物体名称属性向量送入注意力 机制模型,然后通过动态地选择名称属性向量来 指导单词序列的生成,从而提高生成描述的质量。 3) 层级注意力 Chen 等 [21] 提出了融合空间和高层语义注意 力的基于层级注意力的图像描述模型,使用层级 注意力机制动态地选择卷积神经网络的卷积特征 图来指导单词的生成。该模型结合空间注意力机 制、语义注意力机制和层级注意力机制,所生成 的图像描述效果超过了同时期的其他图像描述 模型。 伴随着深度学习技术的快速发展,基于编码 解码结构的图像描述方法逐渐成为主流,由于注 意力机制的应用,图像描述的效果也在不断地提 升。2015 年,Minh-thang 等 [22] 提出全局注意力和 局部注意力模型,全局注意力考虑输入的隐状态 来生成语境向量,局部注意力关注部分隐状态, 该机制的难点是如何找到与预测词对应的隐状 态。Xu 等 [23] 对图像描述的网络结构进行了改 进,使用卷积层提取图像特征,每个时刻传入 LSTM 的是上一时刻的状态和经过加权处理后的 卷积层特征,使用注意力机制对提取的特征进行 加权。 2017 年,Marco 等 [24] 提出使用一种区域注意 力模型,考虑了状态与预测单词以及图像区域与 单词和状态之间的关系,使用卷积神经网络提取 图像特征并生成描述单词。Li 等 [25] 提出一种使 用注意力机制将局部特征与全局特征的权重进行 组合的模型,首先分别提取全局特征与局部特 征,然后使用注意力机制对全局特征和局部特征 进行权重分配。Lu 等 [26] 提出一种带有视觉标记 的自适应注意力模型,在解码过程中依据语义信 息对不同的单词分配不同的注意力权重。 2018 年,Anderson 等 [27] 提出使用 Faster RCNN[28] 作为编码器在提取图像特征的同时检测 目标及其所在的区域,将这些区域对应的特征向 量送入到空间注意力模型中,经过注意力机制的 动态分配来指导单词序列的生成。 当前大多数图像描述算法使用交叉熵作为损 失函数训练模型存在着曝光偏差和衡量标准不一 致的问题,曝光偏差会导致生成的单词与图像内 容具有差异,影响下一个单词生成的准确性,衡 量标准不一致导致模型在训练时无法充分地优化 评价指标。为了解这个问题,研究人员提出了使 用强化学习方法[29] 来改进图像描述模型。Marc’ aurelio 等 [30] 使用强化学习方法优化序列生成模 型,Liu 等 [31]使用全连接网络来估计基线,并使用 更符合人类评价标准的图像描述指标 SPICE(semantic propositional image caption evaluation)。本 文使用 REINFORCE 算法[32] 对图像描述模型进行 训练,将该算法应用到基于注意力融合的图像描 述模型中,解决了交叉熵训练方法存在的曝光偏 差和衡量标准不一致的问题,提高了基于注意力 融合的图像描述模型生成描述的准确率。 2 模型框架 2.1 整体模型 基于注意力融合的图像描述模型主要由图像 特征提取、特征编码、注意力模型和特征解码等 部分组成。使用 ResNet-101[ 3 3 ] 作为 Faster RCNN 的特征提取网络以提高图像特征提取的能 力和目标检测的精度,Faster R-CNN 作为编码器 能够提取图像中物体和显著视觉区域的位置和名 称属性信息,将目标对应的特征向量和名称属性 ·742· 智 能 系 统 学 报 第 15 卷
第4期 莫宏伟,等:基于注意力融合的图像描述生成方法 ·743· 信息分别作为空间注意力机制和高层语义注意力 码器,最终由解码器生成单词序列,基于注意力 机制的输入,经过注意力模型整合处理后送入解 融合的图像描述模型结构如图1所示。 two women are playing soccer 单词概率分布 V) p V.) 输出词嵌入 Vo04 LSTM ho LSTM LSTM LSTM LSTM LSTM LSTM 7T=0 T=1 7T=2 T=3 =4 T=5 T=6 输入词嵌人 eplayin socce 输入单词 me are aying 注意力机制 图像全局 Wil 特征1 Faster R-CNN 目标特征 全局平均池化 目标图像特征向五 目标名称 词嵌入 目标名称属性向量 图1基于注意力融合的图像描述模型结构 Fig.I Image caption model structure based on attention fusion 使用Faster R-CNN模型对输入图像进行检 相等,使用注意力模型同时决定两者的权重。 测,并提供空间注意力和高层语义注意力,目标 2.2注意力机制 对应的图像特征隐式地包含了名称属性信息,对 本文使用的注意力模型选取目标对应的特征 该图像特征进行推断得到目标的名称属性,在其 向量{,2,…,V}和名称属性向量{a,2,…,an}以 中筛选置信度大于0.3的目标作为注意力机制的 及解码器中长短期记忆网络上一时刻的隐藏状态 输入。被检测到目标的空间位置信息对应在Res h-1来决定当前时刻选取的特征向量和名称属性 Net-l01最后一层卷积层的特征图,将其进行平均 向量的权重,计算公式为 池化处理得到2048维的图像特征向量作为空间 ey=f(h-l,Vaj) (1) 注意机制的输入,将目标的名称属性经过词嵌入 exp(eii) 表示为512维的名称属性向量作为高层语义注意 qi= (2) 力的输入。将ResNet-l01最后一层卷积层的特征 图经过平均池化处理得到2048维的图像全局特 p6 T 其中注意力机制f血是一个多层感知机模型,对其 征向量作为编码器初始时刻的输入,目标对应的 输出结果使用Softmax进行归一化可以得到目标 图像特征向量和名称属性向量经过注意力机制的 分配在解码器生成单词的过程中动态地指导单词 对应的特征在时刻i的权重分布,这些权重就表 序列的生成。使用在ImageNet数据集上预先训 示描述模型对图像各目标的重视程度。 练好的Faster R-CNN作为编码器,在训练图像描 当前时刻输人的视觉上下文信息为 述模型时固定Faster R-CNN的参数,仅对注意力 4= (3) 机制和解码器的参数进行训练。本文直接设置目 标对应的特征向量的权重与名称属性向量的权重 将图像全局特征V分别通过两个独立的多层
信息分别作为空间注意力机制和高层语义注意力 机制的输入,经过注意力模型整合处理后送入解 码器,最终由解码器生成单词序列,基于注意力 融合的图像描述模型结构如图 1 所示。 单词概率分布 输出词嵌入 输入词嵌入 输入单词 注意力机制 图像全局 特征 1 目标特征 目标名称 词嵌入 全局平均池化 目标图像特征向量 目标名称属性向量 two p (y1 ) p (y2 ) p (y3 ) p (y4 ) p (y5 ) p (y6 ) WoO1 WoO2 WoO3 WoO4 WoO5 WoO6 LSTM h0 T=0 LSTM T=1 LSTM T=2 LSTM T=3 LSTM T=4 LSTM T=5 LSTM T=6 We Wetwo Wewomen Weare Weplaying Wesoccer two women Faster R-CNN WiI are playing soccer h1 h2 h3 h4 h5 women are playing soccer 图 1 基于注意力融合的图像描述模型结构 Fig. 1 Image caption model structure based on attention fusion 使用 Faster R-CNN 模型对输入图像进行检 测,并提供空间注意力和高层语义注意力,目标 对应的图像特征隐式地包含了名称属性信息,对 该图像特征进行推断得到目标的名称属性,在其 中筛选置信度大于 0.3 的目标作为注意力机制的 输入。被检测到目标的空间位置信息对应在 ResNet-101 最后一层卷积层的特征图,将其进行平均 池化处理得到 2 048 维的图像特征向量作为空间 注意机制的输入,将目标的名称属性经过词嵌入 表示为 512 维的名称属性向量作为高层语义注意 力的输入。将 ResNet-101 最后一层卷积层的特征 图经过平均池化处理得到 2 048 维的图像全局特 征向量作为编码器初始时刻的输入,目标对应的 图像特征向量和名称属性向量经过注意力机制的 分配在解码器生成单词的过程中动态地指导单词 序列的生成。使用在 ImageNet 数据集上预先训 练好的 Faster R-CNN 作为编码器,在训练图像描 述模型时固定 Faster R-CNN 的参数,仅对注意力 机制和解码器的参数进行训练。本文直接设置目 标对应的特征向量的权重与名称属性向量的权重 相等,使用注意力模型同时决定两者的权重。 2.2 注意力机制 {v1, v2,··· , vn} {α1,α2,··· ,αn} hi−1 αi j 本文使用的注意力模型选取目标对应的特征 向量 和名称属性向量 以 及解码器中长短期记忆网络上一时刻的隐藏状态 来决定当前时刻选取的特征向量和名称属性 向量的权重 ,计算公式为 ei j = fatt( hi−1, vj ,aj ) (1) αi j = exp( ei j) ∑Tx k=1 exp(eik) (2) f 其中注意力机制 att 是一个多层感知机模型,对其 输出结果使用 Softmax 进行归一化可以得到目标 对应的特征在时刻 i 的权重分布,这些权重就表 示描述模型对图像各目标的重视程度。 当前时刻输入的视觉上下文信息 zi 为 zi = ∑L j=1 αi jvj , ∑L j=1 αi jaj (3) 将图像全局特征 V 分别通过两个独立的多层 第 4 期 莫宏伟,等:基于注意力融合的图像描述生成方法 ·743·
·744· 智能系统学报 第15卷 感知机计算得到长短期记忆网络的细胞单元状态 损失函数关于参数θ的梯度为 co和隐藏状态的初始值: VoL(0)=-E,-p.[r(y)Vologpo(y)] (12) Co=finite (V) (4) 训练时使用蒙特卡罗方法从概率分布P%中 ho=finit (V) (5) 采样得到的句子序列y可以近似得到期望梯度, 然后,根据前一时刻的输出y-1、前一时刻的 对于每个训练样本有: 隐藏状态h-1和视觉上下文z可以计算得到当前 VL(0≈-ry)7 logpe(y) (13) 时刻的隐藏状态,由长短期记忆网络的公式计 使用链式法则,将损失函数关于参数0的梯 算可得: 度表示为 h;LSTM(y1,h1) (6) 由当前时刻的隐藏状态、视觉上下文信息以 10=乃@2 台品a0 (14) 及前一时刻的输出通过Softmax可以得到当前输 其中z,表示softmax层的输入。 出单词的概率分布: 将模型通过贪婪解码方法得到的句子y= p(yilzi,y-1)=softmax(Ey1+Lih+L)(7) y12,…y}在图像描述指标上的得分ry)作为 模型使用交叉熵损失函数进行训练,给定人 基线,可以得到: 工标注描述y,使用0表示模型中的参数,交叉嫡 损失函数L(0的表达式为 aL@≈ry-r6ph)-l) (15) L(0=- ∑1og(p6ya,1》+l6Ig 由式(1)可得,当采样所得句子的得分高于 (8) 基线时,模型会向增大生成该类型句子概率的方 其中I0匠表示L2正则化项,可以防止模型过 向调整参数,若低于基线,模型会向降低生成该 拟合,加快模型收敛的速度。 类型句子概率的方向调整参数。这种训练方法可 2.3模型优化 使模型在训练时通过采样得到的结果优于测试测 REINFORCE算法是强化学习中一种常用的 时通过贪婪解码方式得到的结果,不仅能减少梯 策略梯度算法,首先将策略参数化用以估计目标 度的方差,而且使模型的训练更加稳定。 函数对策略参数的梯度,然后根据梯度下降算法 3实验设置 不断对策略参数进行更新,直至找到最优策略。 由于REINFORCE算法在模型的训练过程中 3.1 数据集预处理 能够对离散和不可微的指标进行优化,适用于处 本文使用COCO341数据集,采用Karpathy 理文本序列生成问题,在训练时可以直接优化评 分割方法B将数据集分为训练集、验证集和测试 价指标对模型进行训练以提高模型生成描述的效 集,选取113287张图像和对应的人工标注描述 果。所以将REINFORCE算法应用到基于注意力 作为训练集,分别选取5000张图像和对应的人 融合的图像描述模型中,将图像描述评价指标作 工标注描述作为验证集和测试集。 为奖励函数,把模型的参数看成状态,把生成的 训练模型之前需要先对数据集中的图像和人 描述在图像描述评价指标上的得分作为奖励,并 工标注描述进行预处理。对于人工标注描述,先 利用得到的奖励来更新模型参数。 将其中所有单词转换成小写的形式,使用空格替 使用图像描述评价指标CIDEr作为奖励函 代标点符号,然后统计所有单词出现的次数,将 数,模型生成的图像描述为y,数据集中图像对应 出现频率超过5次的单词构成单词表,并使用 的人工标注描述为s,则奖励ry)表示为 替换出现频率小于5次的单词,以避免罕 r(y)=CIDEr(y.s) (9) 见单词不利于描述文本的生成,最终得到的单词 图像描述模型训练的目标是最大化期望奖 表包含9487个单词。 励,其表达式为 3.2模型训练 L(0=-Em[r(y刀 (10) 实验中使用的图像全局特征和目标对应的局 其中y=,…,y}表示模型采样得到的单词所 部特征的维度均设置为2048,词向量的维度设置 构成的单词序列,图像描述生成的单词是从单词 为512,长短期记忆网络隐藏层的维度设置为 的概率分布P。中采样得到的,单个采样样本对应 512,生成的描述文本最大长度设置为16。 的损失函数可以近似为 模型训练使用的批量大小设置为64,最大迭 L(0≈-ry),y~pg (11) 代周期设置为30。使用Adam优化算法作为训
c0 感知机计算得到长短期记忆网络的细胞单元状态 和隐藏状态的初始值: c0 = finit,c (V) (4) h0 = finit,h (V) (5) yi−1 hi−1 zi hi 然后,根据前一时刻的输出 、前一时刻的 隐藏状态 和视觉上下文 可以计算得到当前 时刻的隐藏状态 ,由长短期记忆网络的公式计 算可得: hi = LSTM(yi−1,hi−1,zi) (6) 由当前时刻的隐藏状态、视觉上下文信息以 及前一时刻的输出通过 Softmax 可以得到当前输 出单词的概率分布: p(yi |zi , yi−1) = softmax(Eyi−1 + Lhhi + Lzzi) (7) y ∗ θ L(θ) 模型使用交叉熵损失函数进行训练,给定人 工标注描述 ,使用 表示模型中的参数,交叉熵 损失函数 的表达式为 L(θ) = − ∑N i=1 log(p ( y ∗ i zi , y ∗ i−1 ))+λθ∥ θ ∥ 2 2 (8) λθ∥ θ ∥ 2 其中 2 表示 L2 正则化项,可以防止模型过 拟合,加快模型收敛的速度。 2.3 模型优化 REINFORCE 算法是强化学习中一种常用的 策略梯度算法,首先将策略参数化用以估计目标 函数对策略参数的梯度,然后根据梯度下降算法 不断对策略参数进行更新,直至找到最优策略。 由于 REINFORCE 算法在模型的训练过程中 能够对离散和不可微的指标进行优化,适用于处 理文本序列生成问题,在训练时可以直接优化评 价指标对模型进行训练以提高模型生成描述的效 果。所以将 REINFORCE 算法应用到基于注意力 融合的图像描述模型中,将图像描述评价指标作 为奖励函数,把模型的参数看成状态,把生成的 描述在图像描述评价指标上的得分作为奖励,并 利用得到的奖励来更新模型参数。 r(y) 使用图像描述评价指标 CIDEr 作为奖励函 数,模型生成的图像描述为 y,数据集中图像对应 的人工标注描述为 s,则奖励 表示为 r(y) = CIDEr(y,s) (9) 图像描述模型训练的目标是最大化期望奖 励,其表达式为 L(θ) = −Ey s∼pθ [r( y s )] (10) y s = { y s 1 , y s 2 ,··· , y s T } pθ 其中 表示模型采样得到的单词所 构成的单词序列,图像描述生成的单词是从单词 的概率分布 中采样得到的,单个采样样本对应 的损失函数可以近似为 L(θ) ≈ −r(y s ), y s ∼ pθ (11) 损失函数关于参数 θ 的梯度为 ∇θL(θ) = −Ey s∼pθ [ r(y s )∇θ logpθ ( y s )] (12) pθ y s 训练时使用蒙特卡罗方法从概率分布 中 采样得到的句子序列 可以近似得到期望梯度, 对于每个训练样本有: ∇θL(θ) ≈ −r(y s )∇θ logpθ (y s ) (13) 使用链式法则,将损失函数关于参数 θ 的梯 度表示为 ∇θL(θ) = ∑T t=1 ∂L(θ) ∂zt ∂zt ∂θ (14) 其中 zt 表示 softmax 层的输入。 y = {y1, y2,··· , yT } r(y) 将模型通过贪婪解码方法得到的句子 在图像描述指标上的得分 作为 基线,可以得到: ∂L(θ) ∂zt ≈ (r( y s )−r(y ))(pθ (yt |ht)−1y s t ) (15) 由式(1)可得,当采样所得句子的得分高于 基线时,模型会向增大生成该类型句子概率的方 向调整参数,若低于基线,模型会向降低生成该 类型句子概率的方向调整参数。这种训练方法可 使模型在训练时通过采样得到的结果优于测试测 时通过贪婪解码方式得到的结果,不仅能减少梯 度的方差,而且使模型的训练更加稳定。 3 实验设置 3.1 数据集预处理 本文使用 COCO[ 3 4 ] 数据集,采用 Karpathy 分割方法[35] 将数据集分为训练集、验证集和测试 集,选取 113 287 张图像和对应的人工标注描述 作为训练集,分别选取 5 000 张图像和对应的人 工标注描述作为验证集和测试集。 训练模型之前需要先对数据集中的图像和人 工标注描述进行预处理。对于人工标注描述,先 将其中所有单词转换成小写的形式,使用空格替 代标点符号,然后统计所有单词出现的次数,将 出现频率超过 5 次的单词构成单词表,并使用 替换出现频率小于 5 次的单词,以避免罕 见单词不利于描述文本的生成,最终得到的单词 表包含 9 487 个单词。 3.2 模型训练 实验中使用的图像全局特征和目标对应的局 部特征的维度均设置为 2 048,词向量的维度设置 为 512,长短期记忆网络隐藏层的维度设置为 512,生成的描述文本最大长度设置为 16。 模型训练使用的批量大小设置为 64,最大迭 代周期设置为 30。使用 Adam 优化算法[36] 作为训 ·744· 智 能 系 统 学 报 第 15 卷
第4期 莫宏伟,等:基于注意力融合的图像描述生成方法 ·745· 练的优化器,参数设置为a=0.9,B=0.999,s=108。 Sofi-Attention模型和Hard-Attention模型、You等 学习率的初始值设置为0.004,为了加快模型收敛 提出的基于高层语义注意机制Semantic-Atten- 使得模型更接近最优解,在第6轮之后,学习率的 tion模型和Lu等2提出的自适应注意力机制Ad- 初始值每3轮减小为原来的0.8倍。模型在测试 aptive-Attention模型。使用预先训练好的ResNet- 时解码器使用Beam Search!37方法进行解码,集束 101模型对注意力机制和解码器的参数进行训 大小设置为5,然后从生成的描述结果中选取在 练,将训练好的模型作为基线模型(Baseline)。 CIDEr指标上得分最大的句子作为最终的描述 为验证基于Faster R-CNN改进的空间注意力 语句。 机制描述模型的生成效果,将仅使用空间注意力 机制的模型记为Spatial-.Attention,.将基于空间注 4实验结果分析 意力和高层语义注意力融合的图像描述模型记 为SA-Attention。表1给出了Baseline模型、Spa- 4.1不同注意力机制对比实验结果分析 tial-Attention模型和SA-Attention模型以及上述几 将基于注意力融合的图像描述模型SA-At- 种对比模型在COCO上的测试结果,各指标数值 tention与当前主流的几种图像描述模型在COCO 没有单位,模型在指标上的得分数值越大表示生 数据集上的生成效果进行对比,对比的图像描述 成的图像描述与数据集中的人工标注描述越相 模型包括Xu等1提出的基于空间注意力机制 近,所生成的描述效果越好。 表1基于注意力融合的图像描述模型与其他主流模型实验结果对比 Table 1 Comparison of experimental results between the image caption models based on attention fusion and other main- stream models 模型 B1 B2 B3 Ba M R C Baseline 0.741 0.573 0.431 0.323 0.257 0.541 1.019 0.191 Spatial-Attention 0.752 0.590 0.450 0.342 0.263 0.552 1.060 0.196 Soft-Attention 0.707 0.592 0.344 0.243 0.239 Hard-Attention 0.718 0.504 0.357 0.250 0.230 0.516 0.865 Semantic-Attention 0.709 0.537 0.402 0.304 0.243 0.543 1.042 Adaptive-Attention 0.742 0.580 0.439 0.332 0.266 0.550 1.037 SA-Attention 0.771 0.612 0.473 0.364 0.275 0.568 1.132 0.208 注:B表示BLEU-B、B,表示BLEU-2、B表示BLEU-3、B,表示BLEU-4、M表示METEOR!、R表示ROUGE_LI40、C表示 CIDEr4、S表示SPICE2。 由表1可得,Spatial-.Attention模型在各个指 tion在上述评价指标上的得分均具有显著地提升, 标上的得分都高于Baseline模型,在CIDEr指标 这说明本文所提出的基于空间注意力和高层语义 下,Spatial-Attention模型得分最高,这说明基于 注意力融合的图像描述模型能够有效提升图像描 Faster R-CNN改进的空间注意力机制优于当前多 述的准确性。与其他几种主流图像描述模型相比 个主流的图像描述模型所使用的空间注意力机 基于空间注意力和高层语义注意力融合的模型 制,证明了基于Faster R-CNN改进的空间注意力 SA-Attention在以上指标上的得分都高于对比的主 机制的有效性。 流图像描述模型,在B,指标下,SA-Attention模型 从表1可以得出,基于空间注意力和高层语义 得分比Soft-Attention模型得分高出0.064,在B,指 注意力融合的模型SA-Attention在上述指标上的 标下,SA-Attention模型得分比Hard-Attention模型 得分均高于空间注意力机制模型Spatial-Attention, 得分高出0.108,在B,指标下,SA-Attention模型得 在CIDEr指标下,SA-Attention模型得分比Spatial- 分比Soft-Attention模型得分高出0.l29,在B,指标 Attention模型的得分高出0.072,这表明高层语义 下,SA-Attention模型得分比Soft-Attention模型得 注意力可以进一步提升模型的效果。与基线模型 分高出0.121,在M指标下,SA-Attention模型得分 相比,基于注意力融合的图像描述模型SA-Atten- 比Hard-Attention模型得分高出0.045,以上对比结
a = 0.9 β = 0.999 ε = 10 练的优化器,参数设置为 −8 , , 。 学习率的初始值设置为 0.004,为了加快模型收敛 使得模型更接近最优解,在第 6 轮之后,学习率的 初始值每 3 轮减小为原来的 0.8 倍。模型在测试 时解码器使用 Beam Search[37] 方法进行解码,集束 大小设置为 5,然后从生成的描述结果中选取在 CIDEr 指标上得分最大的句子作为最终的描述 语句。 4 实验结果分析 4.1 不同注意力机制对比实验结果分析 将基于注意力融合的图像描述模型 SA-Attention 与当前主流的几种图像描述模型在 COCO 数据集上的生成效果进行对比,对比的图像描述 模型包括 Xu 等 [19] 提出的基于空间注意力机制 Soft-Attention 模型和 Hard-Attention 模型、You 等 [20] 提出的基于高层语义注意机制 Semantic-Attention 模型和 Lu 等 [26] 提出的自适应注意力机制 Adaptive-Attention 模型。使用预先训练好的 ResNet- 101 模型对注意力机制和解码器的参数进行训 练,将训练好的模型作为基线模型(Baseline)。 为验证基于 Faster R-CNN 改进的空间注意力 机制描述模型的生成效果,将仅使用空间注意力 机制的模型记为 Spatial-Attention,将基于空间注 意力和高层语义注意力融合的图像描述模型记 为 SA-Attention。表 1 给出了 Baseline 模型、Spatial-Attention 模型和 SA-Attention 模型以及上述几 种对比模型在 COCO 上的测试结果,各指标数值 没有单位,模型在指标上的得分数值越大表示生 成的图像描述与数据集中的人工标注描述越相 近,所生成的描述效果越好。 表 1 基于注意力融合的图像描述模型与其他主流模型实验结果对比 Table 1 Comparison of experimental results between the image caption models based on attention fusion and other mainstream models 模型 B1 B2 B3 B4 M R C S Baseline 0.741 0.573 0.431 0.323 0.257 0.541 1.019 0.191 Spatial-Attention 0.752 0.590 0.450 0.342 0.263 0.552 1.060 0.196 Soft-Attention 0.707 0.592 0.344 0.243 0.239 — — — Hard-Attention 0.718 0.504 0.357 0.250 0.230 0.516 0.865 — Semantic-Attention 0.709 0.537 0.402 0.304 0.243 0.543 1.042 — Adaptive-Attention 0.742 0.580 0.439 0.332 0.266 0.550 1.037 — SA-Attention 0.771 0.612 0.473 0.364 0.275 0.568 1.132 0.208 注:B1表示BLEU-1[38] 、B2表示BLEU-2、B3表示BLEU-3、B4表示BLEU-4、M表示METEOR[39] 、R表示ROUGE_L[40] 、C表示 CIDEr[41] 、S表示SPICE[42]。 由表 1 可得,Spatial-Attention 模型在各个指 标上的得分都高于 Baseline 模型,在 CIDEr 指标 下,Spatial-Attention 模型得分最高,这说明基于 Faster R-CNN 改进的空间注意力机制优于当前多 个主流的图像描述模型所使用的空间注意力机 制,证明了基于 Faster R-CNN 改进的空间注意力 机制的有效性。 从表 1 可以得出,基于空间注意力和高层语义 注意力融合的模型 SA-Attention 在上述指标上的 得分均高于空间注意力机制模型 Spatial-Attention, 在 CIDEr 指标下,SA-Attention 模型得分比 SpatialAttention 模型的得分高出 0.072,这表明高层语义 注意力可以进一步提升模型的效果。与基线模型 相比,基于注意力融合的图像描述模型 SA-Attention 在上述评价指标上的得分均具有显著地提升, 这说明本文所提出的基于空间注意力和高层语义 注意力融合的图像描述模型能够有效提升图像描 述的准确性。与其他几种主流图像描述模型相比, 基于空间注意力和高层语义注意力融合的模型 SA-Attention 在以上指标上的得分都高于对比的主 流图像描述模型,在 B1 指标下,SA-Attention 模型 得分比 Soft-Attention 模型得分高出 0.064,在 B2 指 标下,SA-Attention 模型得分比 Hard-Attention 模型 得分高出 0.108,在 B3 指标下,SA-Attention 模型得 分比 Soft-Attention 模型得分高出 0.129,在 B4 指标 下,SA-Attention 模型得分比 Soft-Attention 模型得 分高出 0.121,在 M 指标下,SA-Attention 模型得分 比 Hard-Attention 模型得分高出 0.045,以上对比结 第 4 期 莫宏伟,等:基于注意力融合的图像描述生成方法 ·745·
·746· 智能系统学报 第15卷 果表明,使用Faster R-CNN改进的将空间注意力 数训练得到的模型SA-Attention(XE)和使用强化 和高层语义注意力进行融合的方法能够有效提升 学习优化CIDEr评价指标训练得到的模型SA-At- 图像描述的性能。图2给出了使用交叉熵损失函 tention(CDEr)的部分图像描述效果。 SA-Attention (XE): SA-Attention (XE): SA-Attention (XE): a dog and a cat are sitting on a table a group of children playing soccer on afield panda bear sitting on a tree branch SA-Attention(CIDEr): SA-Attention(CIDEr): SA-Attention (CIDEr): a dog and a cat playing with each other a group of young children playing soccer on two panda bears sitting on the top of a field a tree branch (a)示例i (b)示例2 (C)示例3 SA-Attention (XE): SA-Attention (XE): SA-Attention (XE): a man skiing down a snowy hill on skis a little girl holding a toothbrush in her a horse drawn carriage with a man SA-Attention (CIDEr): mouth standing in front of it a woman is skiing down a snowy hill SA-Attention (CIDEr): SA-Attention(CIDEr): a little girl brushing her teeth with a a black and white photo of horses pulling toothbrush drawn carriage (d示例4 (e)示例5 (⑤示例6 图2SA-Attention(XE)模型和SA-Attention(CIDEr)模型生成图像描述 Fig.2 Image caption generated by SA-Attention(XE)model and SA-Attention(CIDEr)model 4.2不同训练方法对比实验结果分析 嫡损失训练模型,再使用REINFORCE算法直接优 使用交叉嫡损失和强化学习两种训练方法对 化CIDEr评价指标对模型进一步训练,模型记为 基于注意力融合的图像描述模型进行训练,将使 SA-Attention(CIDEr)。将使用强化学习方法训练 用交叉熵损失训练得到的模型表示为SA-Atten- 得到的模型与使用交叉熵损失训练得到的模型 tion(XE)。在强化学习训练过程中首先使用交叉 在COC0数据集上进行测试,测试结果如表2所示。 表2强化学习使用不同指标优化模型的实验结果 Table 2 Experimental results of reinforcement learning uses different indicators to optimization model 模型 B B2 B3 Ba M R C SA-Attention(XE)】 0.771 0.612 0.473 0.364 0.275 0.568 1.132 0.208 SA-Attention(CIDEr) 0.794 0.633 0.484 0.364 0.277 0.574 1.231 0.212 在表2中,对比使用强化学习方法训练模型 述模型的性能,证明了使用强化学习训练方法的 与使用交叉嫡损失训练模型的实验结果,可以看 有效性。 出使用强化学习方法优化CIDE评价指标训练 当使用交叉熵方法将模型训练稳定时,再使 的模型在多数指标上的得分均高于使用交叉熵 用强化学习优化评价指标对模型进一步训练。使 损失训练的模型,这说明使用强化学习的训练方 用强化学习方法优化CIDEr指标训练时,模型在 法可以在评价指标上进一步优化使用交叉嫡损 CDEr指标上的得分随训练步数的变化情况如图3 失训练方法得到的模型,能够显著地提高图像描 所示,从5.3万次迭代开始使用强化学习方法直
果表明,使用 Faster R-CNN 改进的将空间注意力 和高层语义注意力进行融合的方法能够有效提升 图像描述的性能。图 2 给出了使用交叉熵损失函 数训练得到的模型 SA-Attention(XE)和使用强化 学习优化 CIDEr 评价指标训练得到的模型 SA-Attention(CIDEr)的部分图像描述效果。 SA-Attention (XE): a dog and a cat are sitting on a table SA-Attention (CIDEr): a dog and a cat playing with each other (a) 示例 1 (b) 示例 2 (c) 示例 3 (d) 示例 4 (e) 示例 5 (f) 示例 6 SA-Attention (XE): a group of children playing soccer on afield SA-Attention (CIDEr): a group of young children playing soccer on a field SA-Attention (XE): panda bear sitting on a tree branch SA-Attention (CIDEr): two panda bears sitting on the top of a tree branch SA-Attention (XE): a man skiing down a snowy hill on skis SA-Attention (CIDEr): a woman is skiing down a snowy hill SA-Attention (XE): a little girl holding a toothbrush in her mouth SA-Attention (CIDEr): a little girl brushing her teeth with a toothbrush SA-Attention (XE): a horse drawn carriage with a man standing in front of it SA-Attention (CIDEr): a black and white photo of horses pulling drawn carriage 图 2 SA-Attention(XE)模型和 SA-Attention(CIDEr)模型生成图像描述 Fig. 2 Image caption generated by SA-Attention (XE) model and SA-Attention (CIDEr) model 4.2 不同训练方法对比实验结果分析 使用交叉熵损失和强化学习两种训练方法对 基于注意力融合的图像描述模型进行训练,将使 用交叉熵损失训练得到的模型表示为 SA-Attention(XE)。在强化学习训练过程中首先使用交叉 熵损失训练模型,再使用 REINFORCE算法直接优 化 CIDEr 评价指标对模型进一步训练,模型记为 SA-Attention(CIDEr)。将使用强化学习方法训练 得到的模型与使用交叉熵损失训练得到的模型 在 COCO 数据集上进行测试,测试结果如表 2 所示。 表 2 强化学习使用不同指标优化模型的实验结果 Table 2 Experimental results of reinforcement learning uses different indicators to optimization model 模型 B1 B2 B3 B4 M R C S SA-Attention(XE) 0.771 0.612 0.473 0.364 0.275 0.568 1.132 0.208 SA-Attention(CIDEr) 0.794 0.633 0.484 0.364 0.277 0.574 1.231 0.212 在表 2 中,对比使用强化学习方法训练模型 与使用交叉熵损失训练模型的实验结果,可以看 出使用强化学习方法优化 CIDEr 评价指标训练 的模型在多数指标上的得分均高于使用交叉熵 损失训练的模型,这说明使用强化学习的训练方 法可以在评价指标上进一步优化使用交叉熵损 失训练方法得到的模型,能够显著地提高图像描 述模型的性能,证明了使用强化学习训练方法的 有效性。 当使用交叉熵方法将模型训练稳定时,再使 用强化学习优化评价指标对模型进一步训练。使 用强化学习方法优化 CIDEr 指标训练时,模型在 CIDEr 指标上的得分随训练步数的变化情况如图 3 所示,从 5.3 万次迭代开始使用强化学习方法直 ·746· 智 能 系 统 学 报 第 15 卷
第4期 莫宏伟,等:基于注意力融合的图像描述生成方法 ·747· 接优化CIDEr评价指标对模型进行训练,模型在 能够精确地选取与生成单词相关的目标特征,使 CIDEr评价指标上的得分有了大幅度的提升。使 生成的单词更切合图像内容,准确性更高。 用强化学习方法在CDEr评价指标上对基于注意 力融合的图像描述模型进行优化能够进一步提高 5结束语 模型的性能,使得模型在各评价指标上的得分均 本文提出一种基于注意力融合的图像描述模 有一定幅度的增加,这表明了使用强化学习训练 型,使用Faster R-CNN作为编码器来检测提取图 方法的有效性。 像中目标的准确位置和名称属性信息,将目标的 1.250 名称属性和位置信息分别作为高层语义注意力与 1.200 空间注意力来指导单词序列的生成,以提高图像 1.150 描述的准确性。使用强化学习方法训练模型,先 1.100 1.050 使用交叉熵损失训练模型至稳定状态,再使用 1.000 REINFORCE算法直接优化评价指标对模型进一 0.950 步训练,该方法显著地提高了基于注意力融合的 020406080100120140160 图像描述模型的生成效果。 训练步数 ×10 参考文献: 图3在CDE指标上模型得分随训练步数变化曲线 Fig.3 Score change curve with the number of training [1]李亚栋,莫红,王世豪.基于图像描述的人物检索方 steps on the CIDEr indicator 法[.系统仿真学报,2018,30(7):377-383. 4.3改进的空间注意力机制运行机制分析 LI Yadong,MO Hong,WANG Shihao.Person retrieval 对基于Faster R-CNN改进的空间注意力机制 method based on image caption[J].Journal of system simu- 进行进一步分析,在测试时记录生成每个单词的 lation,.2018,30(7):377-383 注意力机制权重,通过可视化的方式还原生成单 [2]WU Jie,XIE Siya,SHI Xinbao,et al.Global-local feature 词时注意力机制的工作过程。图4给出了空间注 attention network with reranking strategy for image cap- 意力机制在生成单词时的可视化过程。 tion generation[J].Optoelectronics letters,2017,13(6): 448-451 [3】]邓珍荣,张宝军,蒋周琴.融合word2vec和注意力机制 的图像描述模型[).计算机科学,2019,46(4):274-279, DENG Zhenrong,ZHANG Baojun,JIANG Zhouqin.Im- age description model fusing Word2vec and attention mechanism[J].Journal of computer science,2019,46(4): 274279 [4]陶云松,张丽红.基于双向注意力机制图像描述方法研 究[).测试技术学报,2019,33(4):346-351 图4 基于Faster R-CNN改进的空间注意力机制的工作 TAO Yunsong,ZHANG Lihong.Research on image de- 过程可视化 Fig.4 Visualization of the working process of spatial at- scription method based on bidirectional attentional mech tention mechanism improved based on Faster anism[J].Journal of test and measurement technology. R-CNN 2019,33(4):346-351 从图4中可以得出,当生成与图像中目标相 [5]QU Shiru,XI Yuling.Visual attention based on long-short 关的单词时,模型会关注到与当前时刻生成单词 term memory model for image caption generation[C]// 相关的图像区域,注意力机制会将目标对应区域 2017 29th Chinese Control and Decision Conference. 的图像特征送入到解码器,例如,当生成单词 Chongqing,China,2017:4789-4794 “cake”时,图像描述模型会选取图像中被检测到 [6]XU Jia,EFSTRATIOS G.Guiding the Long-Short Term 的“cake”目标区域的特征。基于Faster R-CNN改 Memory Model for Image Caption Generation[C]//2015 进的注意力机制能够自适应地选择与当前时刻生 IEEE International Conference on Computer Vision.Santi- 成单词相关的目标区域的图像特征来指导单词的 ago,Chile,2015:2407-2415 生成,基于Faster R-CNN改进的空间注意力机制 [7]JIN Junqi,FU Kun,CUI Runpeng,et al.Aligning where to
接优化 CIDEr 评价指标对模型进行训练,模型在 CIDEr 评价指标上的得分有了大幅度的提升。使 用强化学习方法在 CIDEr 评价指标上对基于注意 力融合的图像描述模型进行优化能够进一步提高 模型的性能,使得模型在各评价指标上的得分均 有一定幅度的增加,这表明了使用强化学习训练 方法的有效性。 模型得分 1.250 1.200 1.150 1.100 1.050 1.000 0.950 0 20 40 60 80 100 120 140 160 ×103 训练步数 图 3 在 CIDEr 指标上模型得分随训练步数变化曲线 Fig. 3 Score change curve with the number of training steps on the CIDEr indicator 4.3 改进的空间注意力机制运行机制分析 对基于 Faster R-CNN 改进的空间注意力机制 进行进一步分析,在测试时记录生成每个单词的 注意力机制权重,通过可视化的方式还原生成单 词时注意力机制的工作过程。图 4 给出了空间注 意力机制在生成单词时的可视化过程。 图 4 基于 Faster R-CNN 改进的空间注意力机制的工作 过程可视化 Fig. 4 Visualization of the working process of spatial attention mechanism improved based on Faster R-CNN 从图 4 中可以得出,当生成与图像中目标相 关的单词时,模型会关注到与当前时刻生成单词 相关的图像区域,注意力机制会将目标对应区域 的图像特征送入到解码器,例如,当生成单词 “cake”时,图像描述模型会选取图像中被检测到 的“cake”目标区域的特征。基于 Faster R-CNN 改 进的注意力机制能够自适应地选择与当前时刻生 成单词相关的目标区域的图像特征来指导单词的 生成,基于 Faster R-CNN 改进的空间注意力机制 能够精确地选取与生成单词相关的目标特征,使 生成的单词更切合图像内容,准确性更高。 5 结束语 本文提出一种基于注意力融合的图像描述模 型,使用 Faster R-CNN 作为编码器来检测提取图 像中目标的准确位置和名称属性信息,将目标的 名称属性和位置信息分别作为高层语义注意力与 空间注意力来指导单词序列的生成,以提高图像 描述的准确性。使用强化学习方法训练模型,先 使用交叉熵损失训练模型至稳定状态,再使用 REINFORCE 算法直接优化评价指标对模型进一 步训练,该方法显著地提高了基于注意力融合的 图像描述模型的生成效果。 参考文献: 李亚栋, 莫红, 王世豪. 基于图像描述的人物检索方 法 [J]. 系统仿真学报, 2018, 30(7): 377–383. LI Yadong, MO Hong, WANG Shihao. Person retrieval method based on image caption[J]. Journal of system simulation, 2018, 30(7): 377–383. [1] WU Jie, XIE Siya, SHI Xinbao, et al. Global-local feature attention network with reranking strategy for image caption generation[J]. Optoelectronics letters, 2017, 13(6): 448–451. [2] 邓珍荣, 张宝军, 蒋周琴. 融合 word2vec 和注意力机制 的图像描述模型 [J]. 计算机科学, 2019, 46(4): 274–279. DENG Zhenrong, ZHANG Baojun, JIANG Zhouqin. Image description model fusing Word2vec and attention mechanism[J]. Journal of computer science, 2019, 46(4): 274–279. [3] 陶云松, 张丽红. 基于双向注意力机制图像描述方法研 究 [J]. 测试技术学报, 2019, 33(4): 346–351. TAO Yunsong, ZHANG Lihong. Research on image description method based on bidirectional attentional mechanism[J]. Journal of test and measurement technology, 2019, 33(4): 346–351. [4] QU Shiru, XI Yuling. Visual attention based on long-short term memory model for image caption generation[C]// 2017 29th Chinese Control and Decision Conference. Chongqing, China, 2017: 4789-4794 [5] XU Jia, EFSTRATIOS G. Guiding the Long-Short Term Memory Model for Image Caption Generation[C]// 2015 IEEE International Conference on Computer Vision. Santiago, Chile, 2015: 2407-2415 [6] [7] JIN Junqi, FU Kun, CUI Runpeng, et al. Aligning where to 第 4 期 莫宏伟,等:基于注意力融合的图像描述生成方法 ·747·
·748· 智能系统学报 第15卷 see and what to tell:image caption with region-based atten- al attention[C]//International Conference on Machine tion and scene factorization[J].IEEE transactions on pat- Learning.Lille,France,2015:2048-2057 tern analysis and machine intelligence,2015,39(12): [20]YOU Quanzeng,JIN Hailin,WANG Zhaowen,et al.Im- 2321-2334 age captioning with semantic attention[C]//Proceedings of [8]FARHADI A,HEJRATI M.Every picture tells a story: the IEEE Conference on Computer Vision and Pattern Re- Generating sentences from images[C]//European Confer- cognition.Las Vegas,USA,2016:4651-4659. ence on Computer Vision.Berlin,Heidelberg,2010:15-29. [21]CHEN Long,ZHANG Hanwang,XIAO Jun,et al.SCA- [9]GIRISH K.VISRUTH P,SAGNIK D,et al.Babytalk:Un- CNN:spatial and channel-wise attention in convolutional derstanding and generating simple image descriptions[J]. networks for image captioning[C]//Proceedings of the IEEE transactions on pattern analysis and machine intelli- IEEE Conference on Computer Vision and Pattern Recog- gence,2013,35(12):2891-2903. nition.Honolulu.USA.2017:5659-5667. [10]LI Siming,GIRISH K,TAMARA L B,et al.Composing [22]MINH-THANG L,HIEU P,CHRISTOPHER D.Man- simple image descriptions using web-scale n-grams[C]// ning.Effective approaches to attention-based neural ma- Proceedings of the Fifteenth Conference on Computation- chine translation[C]//Proceedings of the 2015 Confer- al Natural Language Learning.Portland,Oregon,USA, ence on Empirical Methods in Natural Language Pro- 2011:220-228 cessing.Lisbon,Portugal,2015:1412-1421. [11]POLINA K.VICENTE O.ALEXANDER C.et al.Col- [23]XU K,JIMMY L B.Show,attend and tell:neural image lective generation of natural image descriptions[C]// caption generation with visual attention [C]//Proceedings Proceedings of the 50th Annual Meeting of the Associ- of the 32th International Conference on Machine Learn- ation for Computational Linguistics.Jeju:Republic of ing.Lille,France,2015:2048-2057. Korea,2012:359-368 [24]MARCO P,THOMAS L,CORDELIA S,et al.Areas of [12]YASHASWI V,ANKUSH G.Generating image descrip- attention for image captioning[C]//Proceedings of the tions using semantic similarities in the output space[C]// IEEE International Conference on Computer Vision. Proceedings of the IEEE Conference on Computer Vision Venice,.Italy,2017:1242-1250. and Pattern Recognition Workshops.Washington,USA, [25]LI Linghui,TANG Sheng,DENG Lixi,et al.Image cap- 2013:288-293. tion with global-local attention[C]//Thirty-First AAAI [13]JACOB D,CHENG Hao,FANG Hao,et al.Language Conference on Artificial Intelligence.San Francisco, models for image captioning:The quirks and what USA,2017:4133-4138. works[J].arXiv preprint arXiv:1505.01809,2015. [26]LU Jiasen,XIONG Caiming,DEVI P,et al.Knowing [14]KAREN S,ANDREW Z.Very deep convolutional net- when to look:adaptive attention via a visual sentinel for works for large-scale image recognition[J].arXiv pre- image captioning[C]//Proceedings of the IEEE Confer- print arXiv:1409.1556,2014. ence on Computer Vision and Pattern Recognition.Hon- [15]NAOMI.S ALTMAN.An introduction to kernel and olulu.USA,2017:375-383. nearest-neighbor nonparametric regression[J].The amer- [27]ANDERSON P,HE Xiaodong,BUEHLER C,et al.Bot- ican statistician,1992,46(3):175-185. tom-up and top-down attention for image captioning and [16]MAO Junhua,XU Wei,YANG Yi,et al.Explain images visual question answering[C]//Proceedings of the IEEE with multimodal recurrent neural networks[J].arXiv pre- Conference on Computer Vision and Pattern Recognition. print arXiv:1410.1090,2014. Salt Lake,,USA,2018:6077-6086. [17]ORIOL V,ALEXANDER T,SAMY B,et al.Show and [28]REN Shaoqing,HE Kaiming,GIRSHICK R,et al.Faster tell:a neural image caption generator [C]//Proceedings of r-cnn:towards real-time object detection with region pro- the IEEE Conference on Computer Vision and Pattern Re- posal networks[J].IEEE transactions on pattern analysis cognition.Boston,USA,2015:3156-3164. machine intelligence,2017,39(6):1137-1149 [18]HOCHREITER S,SCHMIDHUBER J.Long short-term [29]RICHARD S,SUTTON A.BARTO G.Reinforcement memory[J].Neural computation,1997,9(8):1735-1780. learning:an introduction[M].Cambridge:MIT Press, [19]XU KELVIN,BA JIMMY,KIROS RYAN,et al.Show, 1998. attend and tell:neural image caption generation with visu- [30]MARC'AURELIO R,SUMIT C,MICHAEL A,et al.Se-
see and what to tell: image caption with region-based attention and scene factorization[J]. IEEE transactions on pattern analysis and machine intelligence, 2015, 39(12): 2321–2334. FARHADI A, HEJRATI M. Every picture tells a story: Generating sentences from images[C]//European Conference on Computer Vision. Berlin, Heidelberg, 2010: 15-29. [8] GIRISH K, VISRUTH P, SAGNIK D, et al. Babytalk: Understanding and generating simple image descriptions[J]. IEEE transactions on pattern analysis and machine intelligence, 2013, 35(12): 2891–2903. [9] LI Siming, GIRISH K, TAMARA L B, et al. Composing simple image descriptions using web-scale n-grams[C]// Proceedings of the Fifteenth Conference on Computational Natural Language Learning. Portland, Oregon, USA, 2011: 220-228. [10] POLINA K, VICENTE O, ALEXANDER C, et al. Collective generation of natural image descriptions[C]// Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics. Jeju: Republic of Korea, 2012: 359-368. [11] YASHASWI V, ANKUSH G. Generating image descriptions using semantic similarities in the output space[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops. Washington, USA, 2013: 288-293. [12] JACOB D, CHENG Hao, FANG Hao, et al. Language models for image captioning: The quirks and what works[J]. arXiv preprint arXiv:1505.01809, 2015. [13] KAREN S, ANDREW Z. Very deep convolutional networks for large-scale image recognition[J]. arXiv preprint arXiv:1409.1556, 2014. [14] NAOMI.S ALTMAN. An introduction to kernel and nearest-neighbor nonparametric regression[J]. The american statistician, 1992, 46(3): 175–185. [15] MAO Junhua, XU Wei, YANG Yi, et al. Explain images with multimodal recurrent neural networks[J]. arXiv preprint arXiv:1410.1090, 2014. [16] ORIOL V, ALEXANDER T, SAMY B, et al. Show and tell: a neural image caption generator [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA, 2015: 3156-3164. [17] HOCHREITER S, SCHMIDHUBER J. Long short-term memory[J]. Neural computation, 1997, 9(8): 1735–1780. [18] XU KELVIN, BA JIMMY, KIROS RYAN, et al. Show, attend and tell: neural image caption generation with visu- [19] al attention[C]//International Conference on Machine Learning. Lille, France, 2015: 2048-2057. YOU Quanzeng, JIN Hailin, WANG Zhaowen, et al. Image captioning with semantic attention[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA, 2016: 4651-4659. [20] CHEN Long, ZHANG Hanwang, XIAO Jun, et al. SCACNN: spatial and channel-wise attention in convolutional networks for image captioning[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA, 2017: 5659-5667. [21] MINH-THANG L, HIEU P, CHRISTOPHER D. Manning. Effective approaches to attention-based neural machine translation[C]// Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. Lisbon, Portugal, 2015: 1412-1421. [22] XU K, JIMMY L B. Show, attend and tell: neural image caption generation with visual attention [C]// Proceedings of the 32th International Conference on Machine Learning. Lille, France, 2015: 2048-2057. [23] MARCO P, THOMAS L, CORDELIA S, et al. Areas of attention for image captioning[C]//Proceedings of the IEEE International Conference on Computer Vision. Venice, Italy, 2017: 1242-1250. [24] LI Linghui, TANG Sheng, DENG Lixi, et al. Image caption with global-local attention[C]//Thirty-First AAAI Conference on Artificial Intelligence. San Francisco, USA, 2017: 4133-4138. [25] LU Jiasen, XIONG Caiming, DEVI P, et al. Knowing when to look: adaptive attention via a visual sentinel for image captioning[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA, 2017: 375-383. [26] ANDERSON P, HE Xiaodong, BUEHLER C, et al. Bottom-up and top-down attention for image captioning and visual question answering[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake, USA, 2018: 6077-6086. [27] REN Shaoqing, HE Kaiming, GIRSHICK R, et al. Faster r-cnn: towards real-time object detection with region proposal networks[J]. IEEE transactions on pattern analysis & machine intelligence, 2017, 39(6): 1137–1149. [28] RICHARD S, SUTTON A, BARTO G. Reinforcement learning: an introduction[M]. Cambridge: MIT Press, 1998. [29] [30] MARC’AURELIO R, SUMIT C, MICHAEL A, et al. Se- ·748· 智 能 系 统 学 报 第 15 卷
第4期 莫宏伟,等:基于注意力融合的图像描述生成方法 ·749· quence level training with recurrent neural networks[J]. [39]SATANJEEV B.ALON L.METEOR:An automatic met- arXiv preprint arXiv:1511.06732,2015. ric for MT evaluation with improved correlation with hu- [31]LIU Siqi,ZHU Zhenhai,YE Ning,et al.Improved image man judgments[C]//Proceedings of the acl workshop on captioning via policy gradient optimization of spider[Cl// Intrinsic and Extrinsic Evaluation Measures for Machine Proceedings of the IEEE International Conference on Translation and/or Summarization.Michigan,USA,2005: Computer Vision.Venice,Italy,2017:873-881 65-72. [32]RONALD J.Simple statistical gradient-following al- [40]LIN C,EDUARD H.Automatic evaluation of summaries gorithms for connectionist reinforcement learning[J].Ma- using n-gram co-occurrence statistics [C]//Proceedings of chine learning,1992,8:229-256 the 2003 Human Language Technology Conference of the [33]HE Kaiming,ZHANG Xiangyu,REN Shaoqing,et al. North American Chapter of the Association for Computa- Deep residual learning for image recognition[C]//2016 tional Linguistics.Edmonton,Canada,2003:71-78 IEEE Conference on Computer Vision and Pattern Recog- [41]VEDANTAM R.C.ZITNICK L.PARIKH D.Cider: nition.Las Vegas,USA,2016. Consensus-based image description evaluation [C]//Pro- [34]LIN Tsungyi,MICHAEL M,SERGE B,et al.Microsoft ceedings of the IEEE Conference on Computer Vision coco:common objects in context[C]//European Confer- and Pattern Recognition.Boston,USA,2015:4566-4575. ence on Computer Vision.Zurich,Switzerland,2014: [42]ANDERSON P,FERNANDO B,JOHNSON M,et al. 740-755. Spice:Semantic propositional image caption evaluation [35]ANDREJ K,LI Feifei.Deep visual-semantic alignments [C]//European Conference on Computer Vision.Amster- for generating image descriptions[J].IEEE transactions on dam,Netherlands,2016:382-398. pattern analysis and machine intelligence,2016:664-676. 作者简介: [36]DIEDERIK P.Adam:A method for stochastic optimiza- 莫宏伟,教授,博士生导师,主要 tion[J].arXiv preprint ar Xiv:1412.6980.2014. 研究方向为人工智能、类脑计算、智能 [37]WANG Pidong,HWEEe T N.A beam-search decoder for 机器人。承担完成国家自然科学基 normalization of social media text with application to ma- 金、国防预研等项目17项,授权发明 chine translation[C]//Conference of the North American 专利7项。发表学术论文70余篇,出 Chapter of the Association for Computational Linguistics: 版专著6部。 Human Language Technologies.Atlanta,Georgia,2013: 471-481 田朋,博士研究生,主要研究方向 [38]KISHORE P.SALIM R,TODD W,et al.BLEU:a meth- 为图像描述、视觉关系检测和场景 理解。 od for automatic evaluation of machine translation[Cl/ Proceedings of the 40th Annual Meeting on Association for Computational Linguistics.Philadelphia,USA,2002: 311-318
quence level training with recurrent neural networks[J]. arXiv preprint arXiv:1511.06732, 2015. LIU Siqi, ZHU Zhenhai, YE Ning, et al. Improved image captioning via policy gradient optimization of spider[C]// Proceedings of the IEEE International Conference on Computer Vision. Venice, Italy, 2017: 873-881. [31] RONALD J. Simple statistical gradient-following algorithms for connectionist reinforcement learning[J]. Machine learning, 1992, 8: 229–256. [32] HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al. Deep residual learning for image recognition[C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA, 2016. [33] LIN Tsungyi, MICHAEL M, SERGE B, et al. Microsoft coco: common objects in context[C]//European Conference on Computer Vision. Zürich, Switzerland, 2014: 740-755. [34] ANDREJ K, LI Feifei. Deep visual-semantic alignments for generating image descriptions[J]. IEEE transactions on pattern analysis and machine intelligence, 2016: 664–676. [35] DIEDERIK P. Adam: A method for stochastic optimization[J]. arXiv preprint arXiv: 1412.6980, 2014. [36] WANG Pidong, HWEEe T N. A beam-search decoder for normalization of social media text with application to machine translation[C]//Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Atlanta, Georgia, 2013: 471-481. [37] KISHORE P, SALIM R, TODD W, et al. BLEU: a method for automatic evaluation of machine translation[C]// Proceedings of the 40th Annual Meeting on Association for Computational Linguistics. Philadelphia, USA, 2002: 311-318. [38] SATANJEEV B, ALON L. METEOR: An automatic metric for MT evaluation with improved correlation with human judgments[C]// Proceedings of the acl workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation and/or Summarization. Michigan, USA, 2005: 65-72. [39] LIN C, EDUARD H. Automatic evaluation of summaries using n-gram co-occurrence statistics [C]//Proceedings of the 2003 Human Language Technology Conference of the North American Chapter of the Association for Computational Linguistics. Edmonton, Canada, 2003: 71-78. [40] VEDANTAM R, C. ZITNICK L, PARIKH D. Cider: Consensus-based image description evaluation [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA, 2015: 4566-4575. [41] ANDERSON P, FERNANDO B, JOHNSON M, et al. Spice: Semantic propositional image caption evaluation [C]//European Conference on Computer Vision. Amsterdam, Netherlands, 2016: 382-398. [42] 作者简介: 莫宏伟,教授,博士生导师,主要 研究方向为人工智能、类脑计算、智能 机器人。承担完成国家自然科学基 金、国防预研等项目 17 项,授权发明 专利 7 项。发表学术论文 70 余篇,出 版专著 6 部。 田朋,博士研究生,主要研究方向 为图像描述、视觉关系检测和场景 理解。 第 4 期 莫宏伟,等:基于注意力融合的图像描述生成方法 ·749·