正在加载图片...
陈鹏等:多模态学习方法综述 565· 用质心对齐的手段,强化对抗学习中跨模态特征 文献[I07]中的GAN-CLS模型是具有开创性的工 对齐的效果 作之一,该文利用细粒度的标签信息训练图像编 4.2基于对抗学习的跨模态生成 码器和文本编码器,提高跨模态编码的相关性,同 根据O'Halloran所给出的细粒度模态划分仰, 时采用流形差值优化等策略,生成与描述内容较 跨模态生成涉及“图像一图像”生成、“图像一文 为契合的图片样本.文献[108]、[109]中提出的 本”生成及“文本一图像”生成三个典型任务 StackGAN系列模型则采用两阶段的生成方法生 在由图像到图像的样本生成任务(如图像风 成具有更高像素的图片,先生成与文本描述相一 格迁移、图像高分辨率重构)中,GAN是最为成功 致的包含轮廓、颜色等基本信息的低分辨率图片, 的方法之一.文献[94]中的LAPGAN算法采用拉 在该图基础上进一步生成高像素、细粒度的图片 普拉斯金字塔结构,以串联的形式在多个尺度采用 样本,两阶段的生成过程均包含文本描述作为条 生成一对抗的学习方法生成高质量图片.文献「951 件输入.文献[110]则采用层次化的生成方法,首 中的SAGAN将自然语言处理领域的Attention机 先根据文本描述生成对象的边界框,进而填充图 制%引入GAN模型,有效利用了图片中的全局信 像细节内容.文献[II1]中的AttnGAN进一步采用 息和局部信息.文献[97]提出SNGAN,采用谱范 注意力机制(Attention)选取文本模态中的细节信 数对网络参数进行归一化,从而能够有效调整梯 息,经由多步的Attention和对抗学习,依次生成低 度,提高GAN的优化性能.文献[98]中提出的 像素、高像素的图片 BigGAN采用ResNet为特征提取器,以图片类别 标签作为条件输入,经过在ImageNet上的大量训l 5结论与展望 练,能够取得极为逼真的高质量图片.基于对抗学 大数据背景下,多模态数据对同一对象的描 习的图片风格迁移方法有pix2pix啊、CycleGANU01、 述存在形式多源异构、内在语义一致的特点.不 StarGANO、MUNIT2等.pix2pixI以CGAN为 同的模态形式分别描述对象在某一特定角度下的 基础,将目标样本作为条件变量,输入给GAN模 特征.随着机器学习技术的发展,多模态学习领域 型,同时采用了改进的CNN特征表示模型(U 的研究热点逐渐从经典的统计学习方法转移到深 Neto).CycleGANUo0采用循环训练方法,首先采 度学习方法.对于视觉模态,CNN逐渐成为最有 用对抗学习在目标域生成具有源域内容、目标域 效的特征表示方法:对于文本模态及相关、类似的 风格的图片,接着将该图片进一步变换至源域,构 序列预测任务,LSTM也逐渐取代概率图模型,取 成一个循环.这种循环训练方式不依赖于大量的 得主导地位.而对抗学习的兴起使得跨模态任务 训练样本,能够实现有效的弱监督图片生成, 更为多样化 StarGAN在CycleGAN的基础上针对多个不同 对于多模态学习方法的研究可以从以下几个 的域进行编码,通过互异的域标签和图片内容的 方向进一步展开:(1)对不同模态的样本进行更为 叠加,实现多个域(模态)的切换.MUNIT2则引 精细化的特征表示,实现有效的跨模态匹配,利用 入ResNet中的残差模块(Residual blocks).设计了更 模态互补构建更为完整的特征描述体系;(2)克服 为巧妙的编码器和解码器,对图片内容和风格分 学习样本数量的限制,研究弱监督、无监督的多模 别进行编码和训练,实现无监督跨模态样本生成. 态学习方法:针对该问题,对抗学习方法是可行的 在由图像生成文本的任务(如图像语义标注) 解决方案之一;(3)研究有效的模型融合框架,一 中,CGAN也是基本的方法.该方法将图片向量作 方面是组合不同的算法以取得高质量的数据分析 为GAN的条件,指导对图片标签的向量生成] 结果,另一方面是用模型融合指导对多模态数据 由于文本模态自身的序列特点,在目前常见的以 的融合:(4)研究效果更为真实、性能更加稳定的 生成描述性句子为目标的图像语义标注任务、基 跨模态生成方法;(5)应用背景从通用领域向垂直 于视觉的问答任务中,RNN、GRU、LSTM等结构 领域拓展,针对特定的应用场景(如医疗场景)实 常被用作文本编码/解码器,并能够取得优于GAN 现可行的解决方案 的效果o4-106部分典型的方法在3.3节中进行了 简要的介绍 参 考文献 根据文本合成图片是较为新颖的跨模态生成 [1] Rhianna K.Pedwell J A.Hardy S L,et al.Effective visual design 问题,也是最近几年中对抗学习领域的研究热点 and communication practices for research posters:Exemplars用质心对齐的手段,强化对抗学习中跨模态特征 对齐的效果. 4.2    基于对抗学习的跨模态生成 根据 O’Halloran 所给出的细粒度模态划分[4] , 跨模态生成涉及“图像—图像”生成、“图像—文 本”生成及“文本—图像”生成三个典型任务. 在由图像到图像的样本生成任务(如图像风 格迁移、图像高分辨率重构)中,GAN 是最为成功 的方法之一. 文献 [94] 中的 LAPGAN 算法采用拉 普拉斯金字塔结构,以串联的形式在多个尺度采用 生成—对抗的学习方法生成高质量图片. 文献 [95] 中的 SAGAN 将自然语言处理领域的 Attention 机 制[96] 引入 GAN 模型,有效利用了图片中的全局信 息和局部信息. 文献 [97] 提出 SNGAN,采用谱范 数对网络参数进行归一化,从而能够有效调整梯 度 ,提高 GAN 的优化性能. 文献 [98] 中提出的 BigGAN 采用 ResNet 为特征提取器,以图片类别 标签作为条件输入,经过在 ImageNet 上的大量训 练,能够取得极为逼真的高质量图片. 基于对抗学 习的图片风格迁移方法有 pix2pix[99]、CycleGAN[100]、 StarGAN[101]、MUNIT[102] 等. pix2pix[99] 以 CGAN 为 基础,将目标样本作为条件变量,输入给 GAN 模 型 ,同时采用了改进的 CNN 特征表示模型 ( U￾Net[103] ). CycleGAN[100] 采用循环训练方法,首先采 用对抗学习在目标域生成具有源域内容、目标域 风格的图片,接着将该图片进一步变换至源域,构 成一个循环. 这种循环训练方式不依赖于大量的 训练样本 ,能够实现有效的弱监督图片生成 . StarGAN[101] 在 CycleGAN 的基础上针对多个不同 的域进行编码,通过互异的域标签和图片内容的 叠加,实现多个域(模态)的切换. MUNIT[102] 则引 入 ResNet 中的残差模块(Residual blocks),设计了更 为巧妙的编码器和解码器,对图片内容和风格分 别进行编码和训练,实现无监督跨模态样本生成. 在由图像生成文本的任务(如图像语义标注) 中,CGAN 也是基本的方法. 该方法将图片向量作 为 GAN 的条件,指导对图片标签的向量生成[88] . 由于文本模态自身的序列特点,在目前常见的以 生成描述性句子为目标的图像语义标注任务、基 于视觉的问答任务中,RNN、GRU、LSTM 等结构 常被用作文本编码/解码器,并能够取得优于 GAN 的效果[104−106] . 部分典型的方法在 3.3 节中进行了 简要的介绍. 根据文本合成图片是较为新颖的跨模态生成 问题,也是最近几年中对抗学习领域的研究热点. 文献 [107] 中的 GAN-CLS 模型是具有开创性的工 作之一,该文利用细粒度的标签信息训练图像编 码器和文本编码器,提高跨模态编码的相关性,同 时采用流形差值优化等策略,生成与描述内容较 为契合的图片样本. 文献 [108]、[109] 中提出的 StackGAN 系列模型则采用两阶段的生成方法生 成具有更高像素的图片,先生成与文本描述相一 致的包含轮廓、颜色等基本信息的低分辨率图片, 在该图基础上进一步生成高像素、细粒度的图片 样本,两阶段的生成过程均包含文本描述作为条 件输入. 文献 [110] 则采用层次化的生成方法,首 先根据文本描述生成对象的边界框,进而填充图 像细节内容. 文献 [111] 中的 AttnGAN 进一步采用 注意力机制(Attention)选取文本模态中的细节信 息,经由多步的 Attention 和对抗学习,依次生成低 像素、高像素的图片. 5    结论与展望 大数据背景下,多模态数据对同一对象的描 述存在形式多源异构、内在语义一致的特点. 不 同的模态形式分别描述对象在某一特定角度下的 特征. 随着机器学习技术的发展,多模态学习领域 的研究热点逐渐从经典的统计学习方法转移到深 度学习方法. 对于视觉模态,CNN 逐渐成为最有 效的特征表示方法;对于文本模态及相关、类似的 序列预测任务,LSTM 也逐渐取代概率图模型,取 得主导地位. 而对抗学习的兴起使得跨模态任务 更为多样化. 对于多模态学习方法的研究可以从以下几个 方向进一步展开:(1)对不同模态的样本进行更为 精细化的特征表示,实现有效的跨模态匹配,利用 模态互补构建更为完整的特征描述体系;(2)克服 学习样本数量的限制,研究弱监督、无监督的多模 态学习方法;针对该问题,对抗学习方法是可行的 解决方案之一;(3)研究有效的模型融合框架,一 方面是组合不同的算法以取得高质量的数据分析 结果,另一方面是用模型融合指导对多模态数据 的融合;(4)研究效果更为真实、性能更加稳定的 跨模态生成方法;(5)应用背景从通用领域向垂直 领域拓展,针对特定的应用场景(如医疗场景)实 现可行的解决方案. 参    考    文    献 Rhianna K. Pedwell J A. Hardy S L, et al. Effective visual design and  communication  practices  for  research  posters:  Exemplars [1] 陈    鹏等: 多模态学习方法综述 · 565 ·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有