正在加载图片...
·1148- 智能系统学报 第16卷 表2 MS COCO(1K上对比结果 的一致性匹配方法的有效性。 Table 2 Comparison with state-of-the-art methods on MS 4.3模块分析 COCO(1K) 本节对所提出的一致性协议匹配方法中的重 图像检素文本 文本检索图像 方法 R@sum 要因素进行分析。首先分析匹配层中语义一致性 R@l R@5 R@10 Ral Ras R@10 损失的作用。语义一致性损失可以驱动两个独立 DVSA 38.469.9 80.5 27.460.274.8 351.2 注意力模块的对齐保持一致,有助于后续基于协 VSE++ 64.6 95.752.0 92.0 议的匹配过程。因此,本文通过调节式(16)中的 DPC 65.689.895.5 47.179.990.0 467.9 入超参数来观察模型性能的变化,结果展示在 SCO 69.992.997.556.787.594.8499.3 表4中。从表4可以看出,当没有对模型施加语 SCAN* 72.794.898.458.888.494.8507.9 义一致性约束时(=0),模型的性能较低,当 入n>0,模型都有一定的性能的提升,当an=1时, PVSE 69.291.698.355.286.593.7 492.8 模型取得了最好的性能。 SC* 73.895.398.359.988.994.9511.1 表4语义一致性损失函数的影响 MAG(本文)75.295.498.359.187.994.3 510.2 Table 4 Effect of the semantic consistency objective MAG*(本文)76.195.798.560.688.995.8 514.8 图像检索文本 文本检索图像 表3 MS COCO(5K)上对比结果 R@1 R@10 R@l R@10 Table 3 Comparison with state-of-the-art methods on MS 0.0 70.6 96.6 50.6 85.6 COCO(5K) 0.5 71.2 96.7 52.0 86.8 图像检索文本 文本检索图像 方法 R@sum 1.0 72.1 96.7 52.8 87.1 R@1R@5R@10R@1R@5R@10 1.5 70.9 96.2 52.3 86.7 VSE++ 41.3 81.230.3- 72.4 DPC 41.270.581.125.353.466.4 337.9 本文接着对图像和文本的相似性度量进行分 析。为了观察所提出的协议层的影响,本文通过 SCO 42.872.383.0 33.162.975.5 369.6 逐步擦除F(I,S)的组成来分析各个项对模型的 SCAN* 50.482.290.0 38.669.380.4 410.0 影响。分析结果见表5,第1行是本文提出的 PVSE 45.274.384.532.463.075.0374.4 MAG的默认使用方式,即Fh+Fg,第2行是去 MAG(本文)52.081.390.037.265.477.9 404.8 掉了F中的右边一项,只保留AG;那一项(见 MAG*(本文)54.182.790.838.667.879.0413.0 式(12),第3行是去掉了Fg中的左边一项,只保 从表1、2、3中可以看到,本文提出的一致性 留AG那一项,最后一行是把F全部去掉得到 协议匹配方法在两个数据集上都取得了比基线模 的模型,即去掉整个协议层。可以看出,跟去掉 型更优异的跨模态图像文本检索性能。具体来 协议层的模型(最后一行)相比,不管是仅保留 说,1)在Flickr30K上,本文的MAG*取得了比最 AG;、仅保留AG还是两者都保留,只要有协议层 好的基线模型SC*更好的性能,特别是在图像检 存在,模型都能取得显著的性能提升,特别是, 索文本任务的R@1上提高了4.7%,在文本检索 AG:和AG都保留的话,模型取得了最好的性 图像的R@1上取得了0.3%的性能提升,整体上 能。这些结果显示了所提出的一致性协议匹配的 提升了8.7%(R@sum):2)在MSC0CO(1K)中,本 有效性。 文的MAG*获得了更先进的性能,与SC*相比, 4.4实例分析 本文的MAG*在图像检索文本任务的R@1上可 本文对模型进行进一步的实例分析。在图4 以获得76.1%的召回率,提高了2.3%,在文本检 中,本文展示了两个实例,在每个可视化示例中, 索图像任务的R@1上,MAG*取得了60.6%的性 分别在左侧和右侧的图像展示了给定文本中的两 能,提升了0.7%;3)在MSC0C05K)中,本文的 个单词(分别用蓝色和绿色标记)及其在图像区 MAG*在大多数评价指标上也获得了优于最佳基 域上的注意力结果,这种注意力结果可以被看作 线SCAN*的卓越性能。相比于SCAN*,MAG*在 是单词-区域对齐。对于中间的图像,本文展示 图像检索文本任务上最多可以获得3.7%(R@1)的 了一个显著性区域跟文本中单词的注意力结果, 性能提升,整体提升3%。这些结果证明了所提出 这可以看作是区域-单词对齐。这里用红色的双表 2 MS COCO(1K) 上对比结果 Table 2 Comparison with state-of-the-art methods on MS COCO(1K) 方法 图像检索文本 文本检索图像 R@sum R@1 R@5 R@10 R@1 R@5 R@10 DVSA 38.4 69.9 80.5 27.4 60.2 74.8 351.2 VSE++ 64.6 — 95.7 52.0 — 92.0 — DPC 65.6 89.8 95.5 47.1 79.9 90.0 467.9 SCO 69.9 92.9 97.5 56.7 87.5 94.8 499.3 SCAN* 72.7 94.8 98.4 58.8 88.4 94.8 507.9 PVSE 69.2 91.6 98.3 55.2 86.5 93.7 492.8 SC* 73.8 95.3 98.3 59.9 88.9 94.9 511.1 MAG(本文) 75.2 95.4 98.3 59.1 87.9 94.3 510.2 MAG*(本文) 76.1 95.7 98.5 60.6 88.9 95.8 514.8 表 3 MS COCO(5K)上对比结果 Table 3 Comparison with state-of-the-art methods on MS COCO(5K) 方法 图像检索文本 文本检索图像 R@sum R@1 R@5 R@10 R@1 R@5 R@10 VSE++ 41.3 — 81.2 30.3 — 72.4 — DPC 41.2 70.5 81.1 25.3 53.4 66.4 337.9 SCO 42.8 72.3 83.0 33.1 62.9 75.5 369.6 SCAN* 50.4 82.2 90.0 38.6 69.3 80.4 410.0 PVSE 45.2 74.3 84.5 32.4 63.0 75.0 374.4 MAG(本文) 52.0 81.3 90.0 37.2 65.4 77.9 404.8 MAG*(本文) 54.1 82.7 90.8 38.6 67.8 79.0 413.0 从表 1、2、3 中可以看到,本文提出的一致性 协议匹配方法在两个数据集上都取得了比基线模 型更优异的跨模态图像文本检索性能。具体来 说,1) 在 Flickr30K 上,本文的 MAG*取得了比最 好的基线模型 SC*更好的性能,特别是在图像检 索文本任务的 R@1 上提高了 4.7%,在文本检索 图像的 R@1 上取得了 0.3% 的性能提升,整体上 提升了 8.7%(R@sum);2) 在 MS COCO(1K) 中,本 文的 MAG*获得了更先进的性能,与 SC* 相比, 本文的 MAG*在图像检索文本任务的 R@1 上可 以获得 76.1% 的召回率,提高了 2.3%,在文本检 索图像任务的 R@1 上,MAG*取得了 60.6% 的性 能,提升了 0.7%;3) 在 MS COCO(5K) 中,本文的 MAG*在大多数评价指标上也获得了优于最佳基 线 SCAN*的卓越性能。相比于 SCAN*,MAG*在 图像检索文本任务上最多可以获得 3.7%(R@1) 的 性能提升,整体提升 3%。这些结果证明了所提出 的一致性匹配方法的有效性。 4.3 模块分析 λaln λaln = 0 λaln > 0 λaln = 1 本节对所提出的一致性协议匹配方法中的重 要因素进行分析。首先分析匹配层中语义一致性 损失的作用。语义一致性损失可以驱动两个独立 注意力模块的对齐保持一致,有助于后续基于协 议的匹配过程。因此,本文通过调节式 (16) 中的 超参数来观察模型性能的变化,结果展示在 表 4 中。从表 4 可以看出,当没有对模型施加语 义一致性约束时 ( ),模型的性能较低,当 ,模型都有一定的性能的提升,当 时, 模型取得了最好的性能。 表 4 语义一致性损失函数的影响 Table 4 Effect of the semantic consistency objective λaln 图像检索文本 文本检索图像 R@1 R@10 R@1 R@10 0.0 70.6 96.6 50.6 85.6 0.5 71.2 96.7 52.0 86.8 1.0 72.1 96.7 52.8 87.1 1.5 70.9 96.2 52.3 86.7 Fagr(I,S ) Faln + Fagr Fagr AGv i Fagr AGt j Fagr AGv i AGt j AGv i AGt j 本文接着对图像和文本的相似性度量进行分 析。为了观察所提出的协议层的影响,本文通过 逐步擦除 的组成来分析各个项对模型的 影响。分析结果见表 5,第 1 行是本文提出的 MAG 的默认使用方式,即 ,第 2 行是去 掉了 中的右边一项,只保留 那一项 (见 式 (12)),第 3 行是去掉了 中的左边一项,只保 留 那一项,最后一行是把 全部去掉得到 的模型,即去掉整个协议层。可以看出,跟去掉 协议层的模型 (最后一行) 相比,不管是仅保留 、仅保留 还是两者都保留,只要有协议层 存在,模型都能取得显著的性能提升,特别是, 和 都保留的话,模型取得了最好的性 能。这些结果显示了所提出的一致性协议匹配的 有效性。 4.4 实例分析 本文对模型进行进一步的实例分析。在图 4 中,本文展示了两个实例,在每个可视化示例中, 分别在左侧和右侧的图像展示了给定文本中的两 个单词 (分别用蓝色和绿色标记) 及其在图像区 域上的注意力结果,这种注意力结果可以被看作 是单词–区域对齐。对于中间的图像,本文展示 了一个显著性区域跟文本中单词的注意力结果, 这可以看作是区域–单词对齐。这里用红色的双 ·1148· 智 能 系 统 学 报 第 16 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有