当前位置:高等教育资讯网  >  中国高校课件下载中心  >  大学文库  >  浏览文档

多模态学习方法综述

资源类别:文库,文档格式:PDF,文档页数:14,文件大小:1.31MB,团购合买
大数据是多源异构的。在信息技术飞速发展的今天,多模态数据已成为近来数据资源的主要形式。研究多模态学习方法,赋予计算机理解多源异构海量数据的能力具有重要价值。本文归纳了多模态的定义与多模态学习的基本任务,介绍了多模态学习的认知机理与发展过程。在此基础上,重点综述了多模态统计学习方法与深度学习方法。此外,本文系统归纳了近两年较为新颖的基于对抗学习的跨模态匹配与生成技术。本文总结了多模态学习的主要形式,并对未来可能的研究方向进行思考与展望。
点击下载完整版文档(PDF)

工程科学学报 Chinese Journal of Engineering 多棋态学习方法综述 陈鹂李擎张德政杨宇航蔡铮陆子怡 A survey of multimodal machine learning CHEN Peng.LI Qing.ZHANG De-zheng.YANG Yu-hang,CAI Zheng,LU Zi-vi 引用本文: 陈鹏,李擎,张德政,杨宇航,蔡铮,陆子怡.多模态学习方法综述[.工程科学学报,2020,42(5):557-569.doi: 10.13374j.issn2095-9389.2019.03.21.003 CHEN Peng.LI Qing.ZHANG De-zheng.YANG Yu-hang,CAI Zheng,LU Zi-yi.A survey of multimodal machine learning[J]. Chinese Journal of Engineering,.2020,42(5):557-569.doi:10.13374j.issn2095-9389.2019.03.21.003 在线阅读View online::htps:/doi.org/10.13374.issn2095-9389.2019.03.21.003 您可能感兴趣的其他文章 Articles you may be interested in 基于深度学习的高效火车号识别 Efficient Wagon Number Recognition Based on Deep Learning 工程科学学报.优先发表https:/doi.org/10.13374j.issn2095-9389.2019.12.05.001 基于深度学习的人体低氧状态识别 Recognition of human hypoxic state based on deep learning 工程科学学报.2019.41(6:817htps:/doi.org10.13374.issn2095-9389.2019.06.014 基于DL-T及迁移学习的语音识别研究 Research on Automatic Speech Recognition based on DL-T and Transfer Learning 工程科学学报.优先发表https:ldoi.org/10.13374j.issn2095-9389.2020.01.12.001 文本生成领域的深度强化学习研究进展 Research progress of deep reinforcement learning applied to text generation 工程科学学报.2020,42(4:399 https:ldoi.org10.13374j.issn2095-9389.2019.06.16.030 基于极限学习机ELM的连铸坯质量预测 Quality prediction of the continuous casting bloom based on the extreme learning machine 工程科学学报.2018.40(7):815 https:/doi.org10.13374.issn2095-9389.2018.07.007 基于强化学习的工控系统恶意软件行为检测方法 Reinforcement learning-based detection method for malware behavior in industrial control systems 工程科学学报.2020.42(4:455htps:/doi.org10.13374issn2095-9389.2019.09.16.005

多模态学习方法综述 陈鹏 李擎 张德政 杨宇航 蔡铮 陆子怡 A survey of multimodal machine learning CHEN Peng, LI Qing, ZHANG De-zheng, YANG Yu-hang, CAI Zheng, LU Zi-yi 引用本文: 陈鹏, 李擎, 张德政, 杨宇航, 蔡铮, 陆子怡. 多模态学习方法综述[J]. 工程科学学报, 2020, 42(5): 557-569. doi: 10.13374/j.issn2095-9389.2019.03.21.003 CHEN Peng, LI Qing, ZHANG De-zheng, YANG Yu-hang, CAI Zheng, LU Zi-yi. A survey of multimodal machine learning[J]. Chinese Journal of Engineering, 2020, 42(5): 557-569. doi: 10.13374/j.issn2095-9389.2019.03.21.003 在线阅读 View online: https://doi.org/10.13374/j.issn2095-9389.2019.03.21.003 您可能感兴趣的其他文章 Articles you may be interested in 基于深度学习的高效火车号识别 Efficient Wagon Number Recognition Based on Deep Learning 工程科学学报.优先发表 https://doi.org/10.13374/j.issn2095-9389.2019.12.05.001 基于深度学习的人体低氧状态识别 Recognition of human hypoxic state based on deep learning 工程科学学报. 2019, 41(6): 817 https://doi.org/10.13374/j.issn2095-9389.2019.06.014 基于DL-T及迁移学习的语音识别研究 Research on Automatic Speech Recognition based on DL-T and Transfer Learning 工程科学学报.优先发表 https://doi.org/10.13374/j.issn2095-9389.2020.01.12.001 文本生成领域的深度强化学习研究进展 Research progress of deep reinforcement learning applied to text generation 工程科学学报. 2020, 42(4): 399 https://doi.org/10.13374/j.issn2095-9389.2019.06.16.030 基于极限学习机(ELM)的连铸坯质量预测 Quality prediction of the continuous casting bloom based on the extreme learning machine 工程科学学报. 2018, 40(7): 815 https://doi.org/10.13374/j.issn2095-9389.2018.07.007 基于强化学习的工控系统恶意软件行为检测方法 Reinforcement learning-based detection method for malware behavior in industrial control systems 工程科学学报. 2020, 42(4): 455 https://doi.org/10.13374/j.issn2095-9389.2019.09.16.005

工程科学学报.第42卷,第5期:557-569.2020年5月 Chinese Journal of Engineering,Vol.42,No.5:557-569,May 2020 https://doi.org/10.13374/j.issn2095-9389.2019.03.21.003;http://cje.ustb.edu.cn 多模态学习方法综述 陈 鹏2,李擎,2)四,张德政3,杨宇航,蔡铮,陆子怡) 1)北京科技大学自动化学院,北京1000832)工业过程知识自动化教育部重点实验室,北京1000833)北京科技大学计算机与通信工程 学院.北京1000834)材料领域知识工程北京市重点实验室,北京100083 ☒通信作者,E-mail:liging@ies.ustb.edu.cn 摘要大数据是多源异构的.在信息技术飞速发展的今天,多模态数据已成为近来数据资源的主要形式.研究多模态学习 方法,赋予计算机理解多源异构海量数据的能力具有重要价值.本文归纳了多模态的定义与多模态学习的基本任务,介绍了 多模态学习的认知机理与发展过程在此基础上,重点综述了多模态统计学习方法与深度学习方法.此外,本文系统归纳了 近两年较为新颖的基于对抗学习的跨模态匹配与生成技术.本文总结了多模态学习的主要形式,并对未来可能的研究方向 进行思考与展望 关键词多模态学习:统计学习:深度学习:对抗学习:特征表示 分类号TP18 A survey of multimodal machine learning CHEN Peng2),LI Qing,ZHANG De-zheng,YANG Yu-hang,CAl Zheng,LU Zi-yi) 1)School of Automation and Electrical Engineering,University of Science and Technology Beijing,Beijing 100083,China 2)Key Laboratory of Knowledge Automation for Industrial Processes,Ministry of Education,Beijing 100083,China 3)School of Computer and Communication Engineering,University of Science and Technology Beijing,Beijing 100083,China 4)Beijing Key Laboratory of Knowledge Engineering for Materials Science,Beijing 100083,China Corresponding author,E-mail:liqing@ies.ustb.edu.cn ABSTRACT "Big data"is always collected from different resources that have different data structures.With the rapid development of information technologies,current precious data resources are characteristic of multimodes.As a result,based on classical machine learning strategies,multi-modal learning has become a valuable research topic,enabling computers to process and understand "big data".The cognitive processes of humans involve perception through different sense organs.Signals from eyes,ears,the nose,and hands (tactile sense)constitute a person's understanding of a special scene or the world as a whole.It reasonable to believe that multi-modal methods involving a higher ability to process complex heterogeneous data can further promote the progress of information technologies. The concepts of multimodality stemmed from psychology and pedagogy from hundreds of years ago and have been popular in computer science during the past decade.In contrast to the concept of"media",a"mode"is a more fine-grained concept that is associated with a typical data source or data form.The effective utilization of multi-modal data can aid a computer understand a specific environment in a more holistic way.In this context,we first introduced the definition and main tasks of multi-modal learning.Based on this information, the mechanism and origin of multi-modal machine learning were then briefly introduced.Subsequently,statistical learning methods and deep learning methods for multi-modal tasks were comprehensively summarized.We also introduced the main styles of data fusion in multi-modal perception tasks,including feature representation,shared mapping,and co-training.Additionally,novel adversarial learning strategies for cross-modal matching or generation were reviewed.The main methods for multi-modal learning were outlined in this paper 收稿日期:2019-03-21 基金项目:国家重点研发计划(云计算和大数据专项)资助项目(2017YFB1002304)

多模态学习方法综述 陈    鹏1,2),李    擎1,2) 苣,张德政3,4),杨宇航1),蔡    铮1),陆子怡1) 1) 北京科技大学自动化学院,北京 100083    2) 工业过程知识自动化教育部重点实验室,北京 100083    3) 北京科技大学计算机与通信工程 学院,北京 100083    4) 材料领域知识工程北京市重点实验室,北京 100083 苣通信作者,E-mail:liqing@ies.ustb.edu.cn 摘    要    大数据是多源异构的. 在信息技术飞速发展的今天,多模态数据已成为近来数据资源的主要形式. 研究多模态学习 方法,赋予计算机理解多源异构海量数据的能力具有重要价值. 本文归纳了多模态的定义与多模态学习的基本任务,介绍了 多模态学习的认知机理与发展过程. 在此基础上,重点综述了多模态统计学习方法与深度学习方法. 此外,本文系统归纳了 近两年较为新颖的基于对抗学习的跨模态匹配与生成技术. 本文总结了多模态学习的主要形式,并对未来可能的研究方向 进行思考与展望. 关键词    多模态学习;统计学习;深度学习;对抗学习;特征表示 分类号    TP18 A survey of multimodal machine learning CHEN Peng1,2) ,LI Qing1,2) 苣 ,ZHANG De-zheng3,4) ,YANG Yu-hang1) ,CAI Zheng1) ,LU Zi-yi1) 1) School of Automation and Electrical Engineering, University of Science and Technology Beijing, Beijing 100083, China 2) Key Laboratory of Knowledge Automation for Industrial Processes, Ministry of Education, Beijing 100083, China 3) School of Computer and Communication Engineering, University of Science and Technology Beijing, Beijing 100083, China 4) Beijing Key Laboratory of Knowledge Engineering for Materials Science, Beijing 100083, China 苣 Corresponding author, E-mail: liqing@ies.ustb.edu.cn ABSTRACT    “Big data” is always collected from different resources that have different data structures. With the rapid development of information  technologies,  current  precious  data  resources  are  characteristic  of  multimodes.  As  a  result,  based  on  classical  machine learning  strategies,  multi-modal  learning  has  become  a  valuable  research  topic,  enabling  computers  to  process  and  understand “big data”. The cognitive processes of humans involve perception through different sense organs. Signals from eyes, ears, the nose, and hands (tactile sense) constitute a person’s understanding of a special scene or the world as a whole. It reasonable to believe that multi-modal methods involving a higher ability to process complex heterogeneous data can further promote the progress of information technologies. The concepts of multimodality stemmed from psychology and pedagogy from hundreds of years ago and have been popular in computer science during the past decade. In contrast to the concept of “media”, a “mode” is a more fine-grained concept that is associated with a typical data source or data form. The effective utilization of multi-modal data can aid a computer understand a specific environment in a more holistic way. In this context, we first introduced the definition and main tasks of multi-modal learning. Based on this information, the mechanism and origin of multi-modal machine learning were then briefly introduced. Subsequently, statistical learning methods and deep learning methods for multi-modal tasks were comprehensively summarized. We also introduced the main styles of data fusion in multi-modal perception tasks, including feature representation, shared mapping, and co-training. Additionally, novel adversarial learning strategies for cross-modal matching or generation were reviewed. The main methods for multi-modal learning were outlined in this paper 收稿日期: 2019−03−21 基金项目: 国家重点研发计划(云计算和大数据专项)资助项目(2017YFB1002304) 工程科学学报,第 42 卷,第 5 期:557−569,2020 年 5 月 Chinese Journal of Engineering, Vol. 42, No. 5: 557−569, May 2020 https://doi.org/10.13374/j.issn2095-9389.2019.03.21.003; http://cje.ustb.edu.cn

558 工程科学学报,第42卷,第5期 with a focus on future research issues in this field. KEY WORDS multi-modal learning:statistical learning:deep learning:adversarial learning:feature representation 早在公元前4世纪,多模态的相关概念和理论 等信息.图1即为典型的多模态信息形式 即被哲学家和艺术家所提出,用以定义融合不同 (2)来自不同传感器的同一类媒体数据.如医 内容的表达形式与修辞方法-习.20世纪以来,这 学影像学中不同的检查设备所产生的图像数据, 一概念被语言学家更为广泛地应用于教育学和认 包括B超(B-Scan ultrasonography)、计算机断层扫 知科学领域)近年来,描述相同、相关对象的多 描(CT)、核磁共振等:物联网背景下不同传感器 源数据在互联网场景中呈指数级增长,多模态已 所检测到的同一对象数据等 成为新时期信息资源的主要形式 (3)具有不同的数据结构特点、表示形式的表 人类的认知过程是多模态的.个体对场景进 意符号与信息.如描述同一对象的结构化、非结 行感知时往往能快速地接受视觉、听觉乃至嗅 构化的数据单元;描述同一数学概念的公式、逻辑 觉、触觉的信号,进而对其进行融合处理和语义理 符号、函数图及解释性文本:描述同一语义的词向 解.多模态机器学习方法更贴近人类认识世界的 量、词袋、知识图谱以及其它语义符号单元等 形式.本文首先介绍了多模态的概念与基本任务, 因此,从语义感知的角度切人,多模态数据涉 分析了多模态认知学习的起源与发展.结合互联 及不同的感知通道如视觉、听觉、触觉、嗅觉所接 网大数据形态,本文重点综述了多模态统计学习 收到的信息;在数据层面理解,多模态数据则可被 方法、深度学习方法与对抗学习方法, 看作多种数据类型的组合,如图片、数值、文本、 符号、音频、时间序列,或者集合、树、图等不同 1多模态学习的定义、基本任务与发展过程 数据结构所组成的复合数据形式,乃至来自不同 11多模态学习的定义 数据库、不同知识库的各种信息资源的组合.对 本文主要采用了新加坡国立大学O'Halloran 多源异构数据的挖掘分析可被理解为“多模态学 对“模态”的定义,即相较于图像、语音、文本等多 习(Multimodal machine learning)”,其相关概念有 媒体(Multi--media)数据划分形式,“模态”是一个 “多视角学习”和“多传感器信息融合”来自不同 更为细粒度的概念,同一媒介下可存在不同的模 数据源或由不同特征子集构成的数据被称作多视 态概括来说,“多模态”可能有以下三种形式. 角数据,每个数据源、每种数据类型均可被看作一 (1)描述同一对象的多媒体数据.如互联网环 个视角.卡内基梅隆大学的Morency在ACL2017(The 境下描述某一特定对象的视频、图片、语音、文本 55th Annual Meeting of the Association for Comput- It snowed in the evening.Flakes of snow were drifting down. If you walked in the snow,you can hear a creaking sound. 图1“下雪”场绿的多模态数据(图像、音颜与文本) Fig.1 Multimodal data for a "snow"scene(images,sound and text)

with a focus on future research issues in this field. KEY WORDS    multi-modal learning;statistical learning;deep learning;adversarial learning;feature representation 早在公元前 4 世纪,多模态的相关概念和理论 即被哲学家和艺术家所提出,用以定义融合不同 内容的表达形式与修辞方法[1−2] . 20 世纪以来,这 一概念被语言学家更为广泛地应用于教育学和认 知科学领域[3] . 近年来,描述相同、相关对象的多 源数据在互联网场景中呈指数级增长,多模态已 成为新时期信息资源的主要形式. 人类的认知过程是多模态的. 个体对场景进 行感知时往往能快速地接受视觉、听觉乃至嗅 觉、触觉的信号,进而对其进行融合处理和语义理 解. 多模态机器学习方法更贴近人类认识世界的 形式. 本文首先介绍了多模态的概念与基本任务, 分析了多模态认知学习的起源与发展. 结合互联 网大数据形态,本文重点综述了多模态统计学习 方法、深度学习方法与对抗学习方法. 1    多模态学习的定义、基本任务与发展过程 1.1    多模态学习的定义 本文主要采用了新加坡国立大学 O′Halloran 对“模态”的定义,即相较于图像、语音、文本等多 媒体(Multi-media)数据划分形式,“模态”是一个 更为细粒度的概念,同一媒介下可存在不同的模 态[4] . 概括来说,“多模态”可能有以下三种形式. (1)描述同一对象的多媒体数据. 如互联网环 境下描述某一特定对象的视频、图片、语音、文本 等信息. 图 1 即为典型的多模态信息形式. (2)来自不同传感器的同一类媒体数据. 如医 学影像学中不同的检查设备所产生的图像数据, 包括 B 超(B-Scan ultrasonography)、计算机断层扫 描(CT)、核磁共振等;物联网背景下不同传感器 所检测到的同一对象数据等. (3)具有不同的数据结构特点、表示形式的表 意符号与信息. 如描述同一对象的结构化、非结 构化的数据单元;描述同一数学概念的公式、逻辑 符号、函数图及解释性文本;描述同一语义的词向 量、词袋、知识图谱以及其它语义符号单元等[5] . 因此,从语义感知的角度切入,多模态数据涉 及不同的感知通道如视觉、听觉、触觉、嗅觉所接 收到的信息;在数据层面理解,多模态数据则可被 看作多种数据类型的组合,如图片、数值、文本、 符号、音频、时间序列,或者集合、树、图等不同 数据结构所组成的复合数据形式,乃至来自不同 数据库、不同知识库的各种信息资源的组合. 对 多源异构数据的挖掘分析可被理解为“多模态学 习 (Multimodal machine learning) ” ,其相关概念有 “多视角学习”和“多传感器信息融合”. 来自不同 数据源或由不同特征子集构成的数据被称作多视 角数据,每个数据源、每种数据类型均可被看作一 个视角. 卡内基梅隆大学的Morency 在ACL2017(The 55th  Annual  Meeting  of  the  Association  for  Comput- 图 1    “下雪”场景的多模态数据(图像、音频与文本) Fig.1    Multimodal data for a “snow” scene (images, sound and text) · 558 · 工程科学学报,第 42 卷,第 5 期

陈鹏等:多模态学习方法综述 559· ational Linguistics,CCFA类会议)的Tutorial报告 任务发展较为成熟,由文本到图像的生成任务则 中,将大量的多视角学习方法归类为多模态机器 较为新颖. 学习算法。笔者认为,“多视角学习”强调对数据 多棋态人机对话:即在基本对话(文本模态) “视角”的归纳和分析,“多模态学习”则侧重“模 生成任务的基础上,进一步对人的表情、语调、姿 态”感知和通道.“视角”和“模态”的概念是相通 势等多模态信息进行采集,采用模态融合的方法 的,一个模态即可被视作一个视角.“多传感器信 对多模态信号进行分析处理.多模态人机对话的 息融合(Multi-sensor information fusion)”为在物理 理想状态是在有效感知多模态信号的前提下给出 层面与“多模态学习”相关的术语,即对不同传感 拟人化的多模态输出,构建更为智能、沟通更加顺 器采集的数据进行综合利用,其典型应用场景有 畅的人机交互形式 物联网、自动驾驶等 多模态信息融合:多模态融合要求对多源数 1.2多模态机器学习的基本任务 据进行综合有效地筛选和利用,实现集成化感知 多模态学习的基本任务可包括以下几个方面 与决策的目的,常见的信息融合方式有物理层融 多源数据分类:单模态的分类问题只关注对 合、特征层融合、决策层融合几个类型.物理层融 一类特定数据的分析和处理,相较于单一通道,多 合指在感知的第一阶段,在传感器层级对采集到 模态数据更接近大数据背景下信息流真实的形 的数据进行融合处理,这种处理方式可被概括为 态,具有全面性和复杂性 多传感器信息融合(Multi-sensor information fusion), 多模态情感分析:情感分析问题的本质也是 是工业生产场景中极为常见的信息融合方法:特 分类问题,与常规分类问题不同,情感分类问题所 征层融合指在特征抽取和表达的层级对信息进行 提取的特征往往带有明确的情绪信号:从多模态 融合,如对同一场景中不容摄像头采集到的图像 的角度分析,网络社交场景中所衍生的大量图片、 采用相同的特征表达形式,进而进行相应的叠加 文本、表情符号及音频信息均带有情感倾向, 计算;决策层融合指对不同模态的感知模型所输 多模态语义计算:语义分析是对数据更为高 出的结果进行融合,这种融合方式具有较好的抗 层次的处理,理想状态下,计算机能够处理一个特 干扰性能,对于传感器性能和种类要求相对不高, 定场景下不同数据的概念关系、逻辑结构,进而理 但具有较大的信息损耗 解不同数据中隐含的高层语义;对这种高层语义 13多模态机器学习的发展一从符号计算到深 的理解是有效进行推理决策的前提 度学习 跨模态样本匹配:现阶段,最常见的跨模态信 随着计算机技术的发展,多模态认知的概念 息匹配即为图像、文本的匹配,如Flickr3.0k数据 从传统的教育学、心理学、语言学的范畴拓展至 集中的实例;图像文本匹配任务为较为复杂的机 信息科学领域.20世纪60~70年代,科学家利用 器学习任务,这一任务的核心在于分别对图像、文 符号和逻辑结构模拟人类的思维逻辑,如利用语 本的特征进行合理表示、编码,进而准确度量其相 法树分析文本信息⑧,利用规则库构建专家决策系 似性. 统四.由于人类认知过程的复杂性与流动性,有 跨模态检索:在检索任务中,除了实现匹配 效、实时地制定逻辑结构和规则形式成为制约“符 外,还要求快速的响应速度以及正确的排序:多模 号主义”认知智能的主要因素 态信息检索通过对异构数据进行加工,如直接对 20世纪80年代至21世纪初,统计机器学习 图片进行语义分析,在有效特征匹配的情况下对 方法在智能信息处理的各个领域取得了令人瞩目 图片采用基于内容的自动检索形式;为适应快速 的成就.Cortes和Vapnik提出的支持向量机模型 检索的需要,哈希方法被引入多模态信息检索任 可以快速、准确地处理高维、非线性的模式识别 务中,跨模态哈希方法将不同模态的高维数据映 问题o:Pearl所构建的概率图模型赋予了计算机 射到低维的海明空间,有效减小了数据存储空间, 依据概率推理的能力:进一步地,Jelinek将信息 提高了计算速度 论与隐马尔科夫模型入语音识别与自然语言处 跨模态样本生成:跨模态生成任务可以有效 理领域,奠定了近代统计自然语言处理学派的根 构造多模态训练数据,同时有助于提高跨模态匹 基,使自然语言处理的工程化应用成为可能 配与翻译的效果,目前由图像到文本(如图像语义 在这一阶段,受麦格克效应的启发町,许多计 自动标注)、图像到图像(如图片风格迁移)的生成 算机科学家致力于构建基于视觉信号和声音信号

ational Linguistics,CCF A 类会议)的 Tutorial 报告[6] 中,将大量的多视角学习方法归类为多模态机器 学习算法. 笔者认为,“多视角学习”强调对数据 “视角”的归纳和分析,“多模态学习”则侧重“模 态”感知和通道. “视角”和“模态”的概念是相通 的,一个模态即可被视作一个视角. “多传感器信 息融合(Multi-sensor information fusion)”为在物理 层面与“多模态学习”相关的术语,即对不同传感 器采集的数据进行综合利用,其典型应用场景有 物联网、自动驾驶等. 1.2    多模态机器学习的基本任务 多模态学习的基本任务可包括以下几个方面. 多源数据分类:单模态的分类问题只关注对 一类特定数据的分析和处理,相较于单一通道,多 模态数据更接近大数据背景下信息流真实的形 态,具有全面性和复杂性. 多模态情感分析:情感分析问题的本质也是 分类问题,与常规分类问题不同,情感分类问题所 提取的特征往往带有明确的情绪信号;从多模态 的角度分析,网络社交场景中所衍生的大量图片、 文本、表情符号及音频信息均带有情感倾向. 多模态语义计算:语义分析是对数据更为高 层次的处理,理想状态下,计算机能够处理一个特 定场景下不同数据的概念关系、逻辑结构,进而理 解不同数据中隐含的高层语义;对这种高层语义 的理解是有效进行推理决策的前提. 跨模态样本匹配:现阶段,最常见的跨模态信 息匹配即为图像、文本的匹配,如 Flickr30k[7] 数据 集中的实例;图像文本匹配任务为较为复杂的机 器学习任务,这一任务的核心在于分别对图像、文 本的特征进行合理表示、编码,进而准确度量其相 似性. 跨模态检索:在检索任务中,除了实现匹配 外,还要求快速的响应速度以及正确的排序;多模 态信息检索通过对异构数据进行加工,如直接对 图片进行语义分析,在有效特征匹配的情况下对 图片采用基于内容的自动检索形式;为适应快速 检索的需要,哈希方法被引入多模态信息检索任 务中,跨模态哈希方法将不同模态的高维数据映 射到低维的海明空间,有效减小了数据存储空间, 提高了计算速度. 跨模态样本生成:跨模态生成任务可以有效 构造多模态训练数据,同时有助于提高跨模态匹 配与翻译的效果,目前由图像到文本(如图像语义 自动标注)、图像到图像(如图片风格迁移)的生成 任务发展较为成熟,由文本到图像的生成任务则 较为新颖. 多模态人机对话:即在基本对话(文本模态) 生成任务的基础上,进一步对人的表情、语调、姿 势等多模态信息进行采集,采用模态融合的方法 对多模态信号进行分析处理. 多模态人机对话的 理想状态是在有效感知多模态信号的前提下给出 拟人化的多模态输出,构建更为智能、沟通更加顺 畅的人机交互形式. 多模态信息融合:多模态融合要求对多源数 据进行综合有效地筛选和利用,实现集成化感知 与决策的目的,常见的信息融合方式有物理层融 合、特征层融合、决策层融合几个类型. 物理层融 合指在感知的第一阶段,在传感器层级对采集到 的数据进行融合处理,这种处理方式可被概括为 多传感器信息融合(Multi-sensor information fusion), 是工业生产场景中极为常见的信息融合方法;特 征层融合指在特征抽取和表达的层级对信息进行 融合,如对同一场景中不容摄像头采集到的图像 采用相同的特征表达形式,进而进行相应的叠加 计算;决策层融合指对不同模态的感知模型所输 出的结果进行融合,这种融合方式具有较好的抗 干扰性能,对于传感器性能和种类要求相对不高, 但具有较大的信息损耗. 1.3    多模态机器学习的发展——从符号计算到深 度学习 随着计算机技术的发展,多模态认知的概念 从传统的教育学、心理学、语言学的范畴拓展至 信息科学领域. 20 世纪 60~70 年代,科学家利用 符号和逻辑结构模拟人类的思维逻辑,如利用语 法树分析文本信息[8] ,利用规则库构建专家决策系 统[9] . 由于人类认知过程的复杂性与流动性,有 效、实时地制定逻辑结构和规则形式成为制约“符 号主义”认知智能的主要因素. 20 世纪 80 年代至 21 世纪初,统计机器学习 方法在智能信息处理的各个领域取得了令人瞩目 的成就. Cortes 和 Vapnik 提出的支持向量机模型 可以快速、准确地处理高维、非线性的模式识别 问题[10] ;Pearl 所构建的概率图模型赋予了计算机 依据概率推理的能力[11] ;进一步地,Jelinek 将信息 论与隐马尔科夫模型引入语音识别与自然语言处 理领域,奠定了近代统计自然语言处理学派的根 基,使自然语言处理的工程化应用成为可能[12] . 在这一阶段,受麦格克效应的启发[13] ,许多计 算机科学家致力于构建基于视觉信号和声音信号 陈    鹏等: 多模态学习方法综述 · 559 ·

560 工程科学学报,第42卷,第5期 的多模态语音识别系统,如唇语-声音语音识别系 2 多模态统计学习方法 统,有效提高了识别准确率.这一时期的多模态 信息系统还被应用于人机交互场景,如Fels等提 广义的统计学习(Statistical learning)即采用统 计学的相关理论,赋予计算机处理数据能力的机 出的Glove-talk框架(1992年)采用5个多层神经 网络实现对手势、声音、语义的机器感知吲这一 器学习方法.如统计学家和数学家Breiman提出 的随机森林(Random forest)算法P,Breiman和 神经网络模型的结构还比较简单,其采用的后向 Friedman等一同提出的分类回归树(Classification 传播训练方法易出现过拟合现象,因而无法对复 and regression trees,.CART)算法Bo,Cortes和Vapnik 杂的大规模数据进行处理 2010年至今,随着Dropout训练模式I6的提出、 提出的支持向量机(Support vector machine,SVM) 算法0等.统计学习方法和经典机器学习方法在 Relu激活函数)的引入乃至深度残差结构lI对 概念上是基本重合的.上述统计学习界的领军学 网络的调整,深度神经网络在许多单一模态的感 者分别在不同角度完善了该领域的基本概念和理 知型机器学习任务中取得了优于传统方法的效 论体系.如Breiman在数据建模和算法建模两个 果.以AlexNet!、ResNet!18、GoogleNet2!o为代表的 角度重新解读了机器学习的建模方式,即数据建 改进卷积神经网络(Convolutional neural network, 模方式往往预设数据符合某种分布形式,如线性 CNN)模型在ImageNet2图像分类任务中甚至取 回归、逻辑回归等,进而进行参数估计和假设推 得了超过人类的表现;长短记忆模型(Long short 断;而算法建模则试图通过算法去直接寻找映射 term memory,LSTM)和条件随机场(Conditional 函数以达到由输入预测输出的目的.如决策树与 random field,.CRF)的组合结构在自然语言序列标 神经网络结构Bn.Vapnik和Cervonenkis归纳了他 注特别是命名实体识别任务中实现了极为成功的 的VC(Vapnik-Chervonenkis dimension)维理论, 商业化、工程化应用四多模态深度学习已成为人 不仅对典型的分类器模型与这些模型所能区分的 工智能领域的热点问题.Ngiam等在ICML2011 集合大小进行系统总结,还给出了对模型最大分 (28th International Conference on Machine Learning) 类能力进行分析的有效方法 的大会论文中对多模态深度学习进行了前瞻性的 受计算资源等因素的制约,统计学习方法的 综述,而这一阶段的深度学习主要网络结构为深 处理样本往往是中小规模的数据集,在许多任务 度玻尔兹曼机(Deep boltzmann machines)P]卡内 (如图像处理和自然语言处理任务)的处理过程 基梅隆大学的Baltrusaitis等也开展了大量的多模 中,需要人参与的特征处理过程.多模态机器学习 态深度学习研究24 技术是伴随着统计学习理论的完备、大量新颖有 在国内,北京交通大学的Zhang等,北京邮 效的统计学习方法的提出逐渐发展的.本节将结 电大学的Wang等在跨模态信息匹配和检索领域 合多模态数据的特点,对相应的统计学习方法进 开展了许多卓有成效的工作2,清华大学的Lu等 行介绍 对视觉模态、触觉模态的数据展开研究,并将其应 2.1核学习方法与多核学习 用于机器人综合感知场景:清华大学的Fu等则 核学习(Kernel learning)方法是一种将低维不 在图像语义标注领域取得了若干突破] 可分样本通过核映射的方式映射到高维非线性空 在人工智能技术突飞猛进的今天,开展数据 间,实现对样本有效分类的方法B),如图2所示 驱动的多模态学习方法研究,能够取得更为全面 核学习方法是支持向量机(SVM)算法的有力理论 有效的解决方案.对多模态数据的分析处理可采 支撑,也随着支持向量机的广泛应用被研究者和 用机器学习手段来完成,处理多模态数据的机器 工程技术人员所关注.事实上,早在1909年,英国 学习方法即可被视为多模态学习方法.机器学习 数学家Mercer即提出了其重要的Mercer定理,即 是利用数据优化算法的一种人工智能手段,它涵 任何半正定的函数都可作为核函数,奠定了核学 盖统计学习与深度学习等方法.近几年,对抗学习 习方法的理论基础B.在Mercer定理的基础上,波 技术被广泛地应用于跨模态匹配和生成任务中, 兰裔美国数学家Aronszajn进一步发展了再生核希 并取得了令人瞩目的效果.后文将分别对多模态 尔伯特空间理论,使其能够被引入到模式识别任 统计学习方法、多模态深度学习方法、多模态对 务中31 抗学习方法进行综述与分析 多核学习方法为不同模态的数据和属性选取

的多模态语音识别系统,如唇语−声音语音识别系 统[14] ,有效提高了识别准确率. 这一时期的多模态 信息系统还被应用于人机交互场景,如 Fels 等提 出的 Glove-talk 框架(1992 年)采用 5 个多层神经 网络实现对手势、声音、语义的机器感知[15] . 这一 神经网络模型的结构还比较简单,其采用的后向 传播训练方法易出现过拟合现象,因而无法对复 杂的大规模数据进行处理. 2010 年至今,随着 Dropout 训练模式[16] 的提出、 Relu 激活函数[17] 的引入乃至深度残差结构[18] 对 网络的调整,深度神经网络在许多单一模态的感 知型机器学习任务中取得了优于传统方法的效 果. 以 AlexNet[19]、ResNet[18]、GoogleNet[20] 为代表的 改进卷积神经网络(Convolutional neural network, CNN)模型在 ImageNet[21] 图像分类任务中甚至取 得了超过人类的表现;长短记忆模型(Long short term  memory, LSTM) 和 条 件 随 机 场 ( Conditional random field,CRF)的组合结构在自然语言序列标 注特别是命名实体识别任务中实现了极为成功的 商业化、工程化应用[22] . 多模态深度学习已成为人 工智能领域的热点问题. Ngiam 等在 ICML2011 ( 28th International Conference on Machine Learning) 的大会论文中对多模态深度学习进行了前瞻性的 综述,而这一阶段的深度学习主要网络结构为深 度玻尔兹曼机(Deep boltzmann machines) [23] . 卡内 基梅隆大学的 Baltrusaitis 等也开展了大量的多模 态深度学习研究[24] . 在国内,北京交通大学的 Zhang 等[25] ,北京邮 电大学的 Wang 等在跨模态信息匹配和检索领域 开展了许多卓有成效的工作[26] ;清华大学的 Liu 等 对视觉模态、触觉模态的数据展开研究,并将其应 用于机器人综合感知场景[27] ;清华大学的 Fu 等则 在图像语义标注领域取得了若干突破[28] . 在人工智能技术突飞猛进的今天,开展数据 驱动的多模态学习方法研究,能够取得更为全面 有效的解决方案. 对多模态数据的分析处理可采 用机器学习手段来完成,处理多模态数据的机器 学习方法即可被视为多模态学习方法. 机器学习 是利用数据优化算法的一种人工智能手段,它涵 盖统计学习与深度学习等方法. 近几年,对抗学习 技术被广泛地应用于跨模态匹配和生成任务中, 并取得了令人瞩目的效果. 后文将分别对多模态 统计学习方法、多模态深度学习方法、多模态对 抗学习方法进行综述与分析. 2    多模态统计学习方法 广义的统计学习(Statistical learning)即采用统 计学的相关理论,赋予计算机处理数据能力的机 器学习方法. 如统计学家和数学家 Breiman 提出 的 随 机 森 林 ( Random  forest) 算 法 [29] , Breiman 和 Friedman 等一同提出的分类回归树(Classification and regression trees, CART)算法[30] ,Cortes 和 Vapnik 提出的支持向量机(Support vector machine, SVM) 算法[10] 等. 统计学习方法和经典机器学习方法在 概念上是基本重合的. 上述统计学习界的领军学 者分别在不同角度完善了该领域的基本概念和理 论体系. 如 Breiman 在数据建模和算法建模两个 角度重新解读了机器学习的建模方式,即数据建 模方式往往预设数据符合某种分布形式,如线性 回归、逻辑回归等,进而进行参数估计和假设推 断;而算法建模则试图通过算法去直接寻找映射 函数以达到由输入预测输出的目的,如决策树与 神经网络结构[31] . Vapnik 和 Cervonenkis 归纳了他 的 VC(Vapnik–Chervonenkis dimension)维理论, 不仅对典型的分类器模型与这些模型所能区分的 集合大小进行系统总结,还给出了对模型最大分 类能力进行分析的有效方法[32] . 受计算资源等因素的制约,统计学习方法的 处理样本往往是中小规模的数据集,在许多任务 (如图像处理和自然语言处理任务)的处理过程 中,需要人参与的特征处理过程. 多模态机器学习 技术是伴随着统计学习理论的完备、大量新颖有 效的统计学习方法的提出逐渐发展的. 本节将结 合多模态数据的特点,对相应的统计学习方法进 行介绍. 2.1    核学习方法与多核学习 核学习(Kernel learning)方法是一种将低维不 可分样本通过核映射的方式映射到高维非线性空 间,实现对样本有效分类的方法[33] ,如图 2 所示. 核学习方法是支持向量机(SVM)算法的有力理论 支撑,也随着支持向量机的广泛应用被研究者和 工程技术人员所关注. 事实上,早在 1909 年,英国 数学家 Mercer 即提出了其重要的 Mercer 定理,即 任何半正定的函数都可作为核函数,奠定了核学 习方法的理论基础[34] . 在 Mercer 定理的基础上,波 兰裔美国数学家 Aronszajn 进一步发展了再生核希 尔伯特空间理论,使其能够被引入到模式识别任 务中[35] . 多核学习方法为不同模态的数据和属性选取 · 560 · 工程科学学报,第 42 卷,第 5 期

陈鹏等:多模态学习方法综述 561· Kernel 1 Integrated kernel →Outputs Kemel 2 It snowed in the evening.Flakes snow were drifting down.If you walked in the snow,you can hear creaking sound. Kemel3 图2多核学习 Fig.2 Multi-kemel learing 不同的核函数,进而采用特定方法对不同核函数 对复杂的非线性多模态信息进行拟合可能造成信 进行融合.目前,随着多核学习方法被深入研究并 息的损耗.在CCA的基础上,Akaho提出了与核方 应用于不同的场景,不同形式的核函数及其改进 法结合的非线性的Kernel CCA算法啊.CCA的 形式被提出.如对于数值型数据的分类问题,高斯 其他改进形式还有判别典型相关分析(Discrimi- 核具有较好的处理效果:字符串核对序列型问 nant canonical correlation analysis,.DCCA)I、稀疏典 题的分类处理(如文本、音频、基因表达等)具有 型相关分析(Sparse discriminant canonical correlation 较大的优势B;对于人脸识别问题和行人识别问 analysis,SCCA)等4 题,则可以采用直方图交叉核] 2.3共享子空间学习 多核学习方法可以较好地处理异构数据的分 在高层语义空间中,多源数据具有较强的相 类和识别问题.早期的多核数据融合方法多采用 关性.对于底层的特征表示,不同来源的数据往往 对不同核进行线性叠加组合的形式,为生物医学 具有较大差别.共享子空间学习对多源数据的相 工程领域许多问题的求解(如基因功能分析、蛋白 关关系进行挖掘,得到多模态特征的一致性表示, 质功能预测与定位等)提供了有力的解决方案B 如图3所示 线性叠加的核融合方式具有机理简单、可解释性 共享子空间学习可通过投影的方式实现,最 强、计算速度快等优势,但其叠加系数往往较难确 常见的投影方法即2.2节中给出的CCA方法及其 定,在叠加的同时可能造成一定的信息损失.文 改进形式.SVM-2K算法是投影型共享子空间学 献[40]提出采用“核组合”的方式解决该问题,即 习的典型算法,该算法结合SVM与Kernel CCA] 将不同的核矩阵组合,构成一个更高维的矩阵作 对两个模态的特征进行有效映射、表示和整合8 为新的核矩阵完成映射与分类的任务.文献[41] 张量分析及因子分解也是典型的共享子空间学习 提出了一种改进的判别函数,并采用梯度下降法 方法,这种方法的主要思想是将一个模态的信息 优化该表达式中的核参数.文献[42]则采用粒子 看作一阶张量,通过因子分解、判别式分析等形式 群优化算法对核参数进行优化选择 实现降维并对特征进行相关表示,其典型方法为 2.2典型相关性分析 联合共享非负矩阵分解(Joint shared nnnegative 典型相关性分析(Canonical correlation analysis, matrix factorization,.JSNMF)算法g.从任务驱动的 CCA)是一种用途广泛的统计学分析算法,由 角度来分类,典型的共享子空间学习方法还有基 Hotelling于1935年提出),并由Cooley和Lohnes 于多任务学习的共享子空间学习方法o、基于多 推动其发展.在多模态领域,CCA被广泛地应用 标签学习的共享子空间学习方法等5刚 于度量两种模态信息之间的相关特征,并在计算 基于统计学习的子空间投影的形式相对简 中尽可能保持这种相关性 单,难以处理较为复杂的语义感知任务,对于相似 CCA算法的本质是一种线性映射,采用CCA 模态的数据(如不同传感器的图像数据)优势明

不同的核函数,进而采用特定方法对不同核函数 进行融合. 目前,随着多核学习方法被深入研究并 应用于不同的场景,不同形式的核函数及其改进 形式被提出. 如对于数值型数据的分类问题,高斯 核具有较好的处理效果[36] ;字符串核对序列型问 题的分类处理(如文本、音频、基因表达等)具有 较大的优势[37] ;对于人脸识别问题和行人识别问 题,则可以采用直方图交叉核[38] . 多核学习方法可以较好地处理异构数据的分 类和识别问题. 早期的多核数据融合方法多采用 对不同核进行线性叠加组合的形式,为生物医学 工程领域许多问题的求解(如基因功能分析、蛋白 质功能预测与定位等)提供了有力的解决方案[39] . 线性叠加的核融合方式具有机理简单、可解释性 强、计算速度快等优势,但其叠加系数往往较难确 定,在叠加的同时可能造成一定的信息损失. 文 献 [40] 提出采用“核组合”的方式解决该问题,即 将不同的核矩阵组合,构成一个更高维的矩阵作 为新的核矩阵完成映射与分类的任务. 文献 [41] 提出了一种改进的判别函数,并采用梯度下降法 优化该表达式中的核参数. 文献 [42] 则采用粒子 群优化算法对核参数进行优化选择. 2.2    典型相关性分析 典型相关性分析(Canonical correlation analysis, CCA)是一种用途广泛的统计学分析算法 , 由 Hotelling 于 1935 年提出[43] ,并由 Cooley 和 Lohnes 推动其发展[44] . 在多模态领域,CCA 被广泛地应用 于度量两种模态信息之间的相关特征,并在计算 中尽可能保持这种相关性. CCA 算法的本质是一种线性映射,采用 CCA 对复杂的非线性多模态信息进行拟合可能造成信 息的损耗. 在 CCA 的基础上,Akaho 提出了与核方 法结合的非线性的 Kernel CCA 算法[45] . CCA 的 其他改进形式还有判别典型相关分析(Discrimi￾nant canonical correlation analysis, DCCA) [46]、稀疏典 型相关分析(Sparse discriminant canonical correlation analysis, SCCA)等[47] . 2.3    共享子空间学习 在高层语义空间中,多源数据具有较强的相 关性. 对于底层的特征表示,不同来源的数据往往 具有较大差别. 共享子空间学习对多源数据的相 关关系进行挖掘,得到多模态特征的一致性表示, 如图 3 所示. 共享子空间学习可通过投影的方式实现,最 常见的投影方法即 2.2 节中给出的 CCA 方法及其 改进形式. SVM-2K 算法是投影型共享子空间学 习的典型算法,该算法结合 SVM 与 Kernel CCA[45] 对两个模态的特征进行有效映射、表示和整合[48] . 张量分析及因子分解也是典型的共享子空间学习 方法,这种方法的主要思想是将一个模态的信息 看作一阶张量,通过因子分解、判别式分析等形式 实现降维并对特征进行相关表示,其典型方法为 联合共享非负矩阵分解 ( Joint  shared  nnnegative matrix factorization, JSNMF)算法[49] . 从任务驱动的 角度来分类,典型的共享子空间学习方法还有基 于多任务学习的共享子空间学习方法[50]、基于多 标签学习的共享子空间学习方法等[51] . 基于统计学习的子空间投影的形式相对简 单,难以处理较为复杂的语义感知任务,对于相似 模态的数据(如不同传感器的图像数据)优势明 Kernel 1 Kernel 2 Outputs Kernel 3 Integrated kernel 图 2    多核学习 Fig.2    Multi-kernel learning 陈    鹏等: 多模态学习方法综述 · 561 ·

562 工程科学学报,第42卷,第5期 Feature representation It snowed in the in a common space evening.Flakes of snow were drifting down.If you walked In the snow,you can hear a creaking sound. Multimodal data Feature representation in the mode 图3共享子空间学习 Fig.3 Common subspace learning 显,但在跨度较大的模态上表现不佳.近年来,随 器,进而用这两个分类器对各自模态内的无标签 着深度学习的兴起,许多研究者将深度学习模型 数据进行处理.在此基础上,将分类结果中达到一 应用于多源信息处理领域.从结果上来看,绝大多 定置信度的样本作为训练集的补充,扩大训练集 数的深度学习多源信息处理方法将不同模态的数 规模,进一步对分类器进行训练.在满足一定停止 据通过深度神经网络特征学习映射到了同一个共 条件,如达到一定迭代代数后,将两个分类器的训 享子空间,因此深度学习方法也可被视为共享子 练数据进行交换,即采用X模态中的数据对分类 空间学习.对该方法将在第三部分中作进一步的 器2(Classifier2)进行训练,同时采用X,中的数据 介绍. 对分类器1(Classifier)进行训练.协同训练的原理 2.4协同训练方法 图如图4所示.这种联合训练方法使分类器学习 协同训练(Co-training)是一种典型的弱监督学 到不同数据源中尽可能多的知识,同时具备了较 习方法,该方法由Blum和Mitchel于1998年提出s 好的泛化性能.协同训练假定数据集满足三个条 在多模态数据处理领域,它的大致思想是分别采 件:1)数据之间相互独立;2)单一模态内的数据均 用两个模态的有标签数据X、X训练两个分类 能完整地对对象进行描述:3)存在充分的样本对 Training set New training Classifier New training Classifier New training samples samples samples Class Classification Test set 图4协同训练 Fig.4 Co-training

显,但在跨度较大的模态上表现不佳. 近年来,随 着深度学习的兴起,许多研究者将深度学习模型 应用于多源信息处理领域. 从结果上来看,绝大多 数的深度学习多源信息处理方法将不同模态的数 据通过深度神经网络特征学习映射到了同一个共 享子空间,因此深度学习方法也可被视为共享子 空间学习. 对该方法将在第三部分中作进一步的 介绍. 2.4    协同训练方法 协同训练(Co-training)是一种典型的弱监督学 习方法,该方法由 Blum 和 Mitchel 于 1998 年提出[52] . 在多模态数据处理领域,它的大致思想是分别采 用两个模态的有标签数据 X1、X2 训练两个分类 器,进而用这两个分类器对各自模态内的无标签 数据进行处理. 在此基础上,将分类结果中达到一 定置信度的样本作为训练集的补充,扩大训练集 规模,进一步对分类器进行训练. 在满足一定停止 条件,如达到一定迭代代数后,将两个分类器的训 练数据进行交换,即采用 X1 模态中的数据对分类 器 2(Classifier2)进行训练,同时采用 X2 中的数据 对分类器 1(Classifier1)进行训练. 协同训练的原理 图如图 4 所示. 这种联合训练方法使分类器学习 到不同数据源中尽可能多的知识,同时具备了较 好的泛化性能. 协同训练假定数据集满足三个条 件:1)数据之间相互独立;2)单一模态内的数据均 能完整地对对象进行描述;3)存在充分的样本对 Feature representation in a common space Feature representation in the mode Multimodal data 图 3    共享子空间学习 Fig.3    Common subspace learning New training samples New training samples Training Classifier1 Classification Training Classifier2 Classification New training samples Test set Training set 图 4    协同训练 Fig.4    Co-training · 562 · 工程科学学报,第 42 卷,第 5 期

陈鹏等:多模态学习方法综述 563· 分类器进行训练.然而在实际的应用场景中,往往 CNN同样取得了优于经典图像处理方法的效果 很难满足上述的条件.研究者提出了多种改进手 如目标检测(Object detection)领域的Yolo(You only 段以提升协同训练的性能 look once)模型Io,语义分割(Semantic segmentation) 文献[53]在协同训练中改进了多模态优化函 领域的FCNN(Fully convolutional networks)模型I6]例 数,从而更为精确地处理拼写与上下文间的一致 等.有理由认为,CNN及其改进形式能够较好地 性信息;文献[54]将支持向量机和期望最大算法 对视觉模态特征进行表示和处理 (Expectation maximization,.EM)相结合提出Co-EM 此外,对于文本数据,CNN也体现出卓越的性 算法,提升多模态分析性能;文献[55]在Co-EM的 能.文献[62]采用CNN对短文本进行分类,在保 基础上进一步引入主动学习(Active learning)策略, 证可靠精度的同时提高分类速度.文献[63]提出 提高了算法的鲁棒性 基于序列的深度卷积语义分析模型,采用卷积结 3多模态深度学习方法 构生成句子的向量化表示,进而进行深层分析.文 献[64]中也采用CNN对句子进行建模,并将这种 基本的神经网络模型(浅层结构)可被归纳为 建模方法应用于句子匹配. 一种特殊的统计学习方法.不同于支持向量机的 3.2循环神经网络与自然语言理解 核技巧采用核映射转化问题,神经网络结构直接 近年来,自然语言处理域的研究热点正在从 采用非线性映射(激活函数)的形式拟合数据分布 经典的统计学习方法向深度学习方法转变.典型 规律.神经网络是深度学习的起源,后者是对采用 的深度文本处理模型即循环神经网络(Recurrent 深度神经网络完成机器学习任务的各种机器学习 neural network,RNN)结构Is7.该结构源于蒙特利 方法的概括.近年来,深度学习方法已成为推动人 尔大学Bengio等于2003年提出的神经语言模型s] 工智能技术的主要力量.隐层大于1的神经网络 神经语言模型实现了语言最基本的单元一词的 即可被看作深度神经网络,常见的深度神经网络 向量化表示.受文献[65]启发,C&w词向量6的、 模型有卷积神经网络(Convolutional neural networks,. Word2Vec词向量I67等文本表示模型相继被提出 CNN)I阿、循环神经网络(Recurrent neural networks, 神经语言模型的提出使文本转化为稠密的向 RNN)s7、深度信念网络(Deep belief networks, 量成为可能,已成为目前处理自然语言任务的主 DBN)S]等.深度学习的发展建立在统计学习的 流算法.值得一提的是,文献[65]至[67刀中的文本 高度繁荣之上,得益于不断发展的互联网技术积 表示及学习方法均为较为浅层的结构,其价值在 累了大量的数据资源,以及更为普及的高性能计 于通过弱监督、无监督的手段得到文本的表示形 算硬件.有别于统计学习依赖于专家知识来确定 式,进而供较为深层的神经网络机器学习模型进 特征的限制,深度学习模型可以自动地在数据中 行挖掘分析 学习特征表示,从而能够对海量数据进行处理,在 在神经语言模型的基础上,大量的深度神经 一定程度上实现端到端的机器学习系统 网络结构被改良并进一步应用于自然语言处理任 3.1卷积神经网络与图像处理 务,如RNNs7、LTSM68I被广泛地应用于文本分 Lecun于1998年提出了经典卷积神经网络的 类I69,、实体识别四等任务.由于RNN能够出色地 雏形LeNet,.并将其应用于手写字符识别s]针 学习序列样本中不同时刻的信息及其相互关系, 对CNN训练过程中的过拟合问题,Srivastava等 RNN结构在机器翻译、对话生成等序列分析及序 提出了Dropout方法,即在网络结构中以一定概 列生成任务中的优势极为突出RNN的主要改 率将某些神经元暂时丢弃这种方法被应用于 进形式为LSTMI681和GRU(Gated recurrent unit) AlexNet!中.在AlexNet之后,改进了的CNN结 这些变体在RNN中添加了特殊的“门”结构来判 构不断刷新ImageNet图像分类的记录.如牛津大 断信息的价值,进而模拟人类大脑的记忆和遗忘 学的VGG(Visual geometry group)s模型和Google 过程.在LSTM的基础上,其双向形式BiLSTM网 公司的Inception20!系列模型,在增加CNN网络层 基于Attention的BiLSTM1相继被提出.相较于 数的同时设计了精巧丰富的卷积核结构,从而降 经典的RNNIS7,LSTM6sI和GRU7I可以更有效地 低参数数量,提高训练速度.微软公司的 对序列进行建模,建立更为精确的语义依赖关系 ResNet!4o]模型引入残差结构,有效解决了梯度消 在合理标注的前提下,RNN结构在自然语言实体 失问题.在图像分类之外的计算机视觉任务中, 识别任务中已实现了极为出色的工程应用,其典

分类器进行训练. 然而在实际的应用场景中,往往 很难满足上述的条件. 研究者提出了多种改进手 段以提升协同训练的性能. 文献 [53] 在协同训练中改进了多模态优化函 数,从而更为精确地处理拼写与上下文间的一致 性信息;文献 [54] 将支持向量机和期望最大算法 (Expectation maximization, EM)相结合提出 Co-EM 算法,提升多模态分析性能;文献 [55] 在 Co-EM 的 基础上进一步引入主动学习(Active learning)策略, 提高了算法的鲁棒性. 3    多模态深度学习方法 基本的神经网络模型(浅层结构)可被归纳为 一种特殊的统计学习方法. 不同于支持向量机的 核技巧采用核映射转化问题,神经网络结构直接 采用非线性映射(激活函数)的形式拟合数据分布 规律. 神经网络是深度学习的起源,后者是对采用 深度神经网络完成机器学习任务的各种机器学习 方法的概括. 近年来,深度学习方法已成为推动人 工智能技术的主要力量. 隐层大于 1 的神经网络 即可被看作深度神经网络,常见的深度神经网络 模型有卷积神经网络(Convolutional neural networks, CNN) [56]、循环神经网络(Recurrent neural networks, RNN) [57]、 深 度 信 念 网 络 ( Deep  belief  networks, DBN) [58] 等. 深度学习的发展建立在统计学习的 高度繁荣之上,得益于不断发展的互联网技术积 累了大量的数据资源,以及更为普及的高性能计 算硬件. 有别于统计学习依赖于专家知识来确定 特征的限制,深度学习模型可以自动地在数据中 学习特征表示,从而能够对海量数据进行处理,在 一定程度上实现端到端的机器学习系统. 3.1    卷积神经网络与图像处理 Lécun 于 1998 年提出了经典卷积神经网络的 雏形 LeNet,并将其应用于手写字符识别[56] . 针 对 CNN 训练过程中的过拟合问题, Srivastava 等 提出了 Dropout 方法,即在网络结构中以一定概 率将某些神经元暂时丢弃[16] . 这种方法被应用于 AlexNet[19] 中. 在 AlexNet 之后,改进了的 CNN 结 构不断刷新 ImageNet 图像分类的记录. 如牛津大 学的 VGG (Visual geometry group)[59] 模型和 Google 公司的 Inception[20] 系列模型,在增加 CNN 网络层 数的同时设计了精巧丰富的卷积核结构,从而降 低 参 数 数 量 , 提 高 训 练 速 度 . 微 软 公 司 的 ResNet[40] 模型引入残差结构,有效解决了梯度消 失问题. 在图像分类之外的计算机视觉任务中, CNN 同样取得了优于经典图像处理方法的效果. 如目标检测(Object detection)领域的 Yolo(You only look once)模型[60] ,语义分割(Semantic segmentation) 领域的 FCNN(Fully convolutional networks)模型[61] 等. 有理由认为,CNN 及其改进形式能够较好地 对视觉模态特征进行表示和处理. 此外,对于文本数据,CNN 也体现出卓越的性 能. 文献 [62] 采用 CNN 对短文本进行分类,在保 证可靠精度的同时提高分类速度. 文献 [63] 提出 基于序列的深度卷积语义分析模型,采用卷积结 构生成句子的向量化表示,进而进行深层分析. 文 献 [64] 中也采用 CNN 对句子进行建模,并将这种 建模方法应用于句子匹配. 3.2    循环神经网络与自然语言理解 近年来,自然语言处理域的研究热点正在从 经典的统计学习方法向深度学习方法转变. 典型 的深度文本处理模型即循环神经网络(Recurrent neural network, RNN)结构[57] . 该结构源于蒙特利 尔大学 Bengio 等于 2003 年提出的神经语言模型[65] . 神经语言模型实现了语言最基本的单元——词的 向量化表示. 受文献 [65] 启发,C&W 词向量[66]、 Word2Vec 词向量[67] 等文本表示模型相继被提出. 神经语言模型的提出使文本转化为稠密的向 量成为可能,已成为目前处理自然语言任务的主 流算法. 值得一提的是,文献 [65] 至 [67] 中的文本 表示及学习方法均为较为浅层的结构,其价值在 于通过弱监督、无监督的手段得到文本的表示形 式,进而供较为深层的神经网络机器学习模型进 行挖掘分析. 在神经语言模型的基础上,大量的深度神经 网络结构被改良并进一步应用于自然语言处理任 务 ,如 RNN[57]、LTSM [68] 被广泛地应用于文本分 类[69]、实体识别[22] 等任务. 由于 RNN 能够出色地 学习序列样本中不同时刻的信息及其相互关系, RNN 结构在机器翻译、对话生成等序列分析及序 列生成任务中的优势极为突出[70] . RNN 的主要改 进形式为 LSTM[68] 和 GRU(Gated recurrent unit) [71] . 这些变体在 RNN 中添加了特殊的“门”结构来判 断信息的价值,进而模拟人类大脑的记忆和遗忘 过程. 在 LSTM 的基础上,其双向形式 BiLSTM[72]、 基于 Attention 的 BiLSTM[73] 相继被提出. 相较于 经典的 RNN[57] ,LSTM[68] 和 GRU[71] 可以更有效地 对序列进行建模,建立更为精确的语义依赖关系. 在合理标注的前提下,RNN 结构在自然语言实体 识别任务中已实现了极为出色的工程应用,其典 陈    鹏等: 多模态学习方法综述 · 563 ·

564 工程科学学报,第42卷,第5期 型算法为LSTM+CRF,即通过LSTM提取深度特 4多模态对抗学习方法 征,用条件随机场(Conditional random field,CRF) 模型进行文本序列标注2四] 跨模态迁移与跨模态生成是多模态学习的常 见任务.针对多源异构的复杂数据,迁移学习可以 此外,RNN还能很好地处理时间序列数据,即 对数值模态进行分析预测网在语音识别领域, 在不同模态间转化知识.近年来,基于对抗学习策 RNN是最为出色的算法之一阿该模型还能够出 略的迁移学习方法取得了优于经典迁移学习方法 的性能.跨模态生成任务有助于构造完整的多模 色地处理图像标注阿、视频解析m任务 态认知场景,同时能够提高在不同模态间进行迁 3.3面向多模态数据的深度学习 移、匹配与翻译的能力 通过上文分析,可以发现深度学习模型具有更 生成对抗网络(Generative adversarial networks, 好的跨模态适应性.多模态深度学习始于Ngiam GAN)的基本框架由Goodfellow等于2014年提出I81 等发表于ICML20ll的《Multimodal Deep Learning》, 该框架主要由两个互为博弈的结构一生成器 文中的数据来源为视觉模态(唇语)和音频模态, G(Generator)和判别器D(Discriminator)构成,对 其构建的深度学习模型以玻尔兹曼机(Restricted GAN进行对抗式训练的主要目标在于得到一组高 boltzmann machine,RBM)为基本单元,通过对视频、 性能的G与D,使G能够生成足够真实的样本,而 音频数据进行编码、联合表示、学习和重构,实现 D则能够对以假乱真的样本进行区分.GAN的性 对字母、数字的识别2 能是在交互式的对抗学习中提高的 近年来,已有很多卓有成效的多模态深度学 文献[861中提出的DCGAN方法将CNN结构和 习方法被提出.如文献[76]在学习机制上进行改 GAN结合,赋予对抗学习强大的图片生成能力.在文 良,即在对训练集进行学习时,不再构建图片句子 献[87]中,Wasserstein距离被引入来替代经典的KL 标签之间的映射关系,而是将图片中的对象和句 散度(Kullback-Leibler divergence),该方式可有效 子中的实体匹配起来,首先对图片采取目标检测 避免GAN训练过程中的“模式崩溃”,即只能生成 的任务,进而学习单词和细粒度图像区域之间的 有限模式图片的问题.文献[88]则提出CGAN模 关系,在此基础上生成标注句子.这一方式简化了 型,在GAN结构中结合条件变量,这一“条件”可以 对Image-Caption任务的训练集标注需求,即从句 是类别标签,也可以是跨模态样本的向量化表示 子简化为单词.文献[77)结合LSTM的特性,构建 4.1基于对抗学习的跨模态迁移与域适应 了能够对多幅图像或视频内容进行理解和描述的 迁移学习是跨模态学习的有效方法.在迁移学 深度神经网络框架,实现对视觉序列的文本描述 习中,常采用源域、目标域的概念表述迁移对象 文献[78]设计了CNN-LSTM混合编码器对数据进 源域涉及已学习到的数据源或问题,目标域则包 行编码,进而采用排序损失(Pairwise ranking loss) 含需要采用迁移学习方法进行处理的数据或新问 函数对数据进行训练.文献[79]借鉴了在基于 题.在跨模态问题中,可将数据全面、结果较好的 RNN的机器翻译任务中的研究进展,用CNN替 模态作为源域,将数据资源较为有限的模态作为 代RNN作为图片的编码器.在设计模型框架的同 目标域 时,该文还提出了得到相关细节描述的概率公式 采用GAN的对抗学习域适应(跨模态分类、 文献[80]设计了基于图片的问答模型,该模型能 匹配)方法在近几年取得了令人瞩目的成绩.文 够根据CNN编码的图片和问题句子,生成正确的 献[89]给出了采用GAN结构处理跨模态域适应 问题答案.文献[8)重点研究了采用CNN模型的 问题的基本模型ADDA(Adversarial discriminative 基于内容的图片检索问题,并分析了深度卷积神 domain adaptation).在ADDA中,两个不同模态的 经网络对高维语义特征的有效表达能力,文献[82] 数据分别经由CNN编码.判别器D对源域和目标 则采用多模态深度学习框架,通过构建多个LSTM 域进行判别,该对抗学习的过程能够对齐目标域、 结构处理情感分类问题.文献[83]提出一种多模 源域的特征,从而能够将源域(模态A)的分类器应 态无监督机器翻译方法,采用描述同一内容的图 用于目标域(模态B).在此基础上,文献[90]设计了 片链接跨语种语料,实现语义对应与融合.文献[84] 双向GAN结构进一步优化域适应性能.文献[91]、 采用强化学习的手段对文本和视觉场景进行匹 [92]针对目标域的类别,设计了多个生成-判别单 配,进而对自动驾驶决策进行推理 元.具有针对性地进行跨模态迁移.文献931则采

型算法为 LSTM+CRF,即通过 LSTM 提取深度特 征,用条件随机场(Conditional random field,CRF) 模型进行文本序列标注[22] . 此外,RNN 还能很好地处理时间序列数据,即 对数值模态进行分析预测[74] . 在语音识别领域, RNN 是最为出色的算法之一[75] . 该模型还能够出 色地处理图像标注[76]、视频解析[77] 任务. 3.3    面向多模态数据的深度学习 通过上文分析,可以发现深度学习模型具有更 好的跨模态适应性. 多模态深度学习始于 Ngiam 等发表于 ICML 2011 的《Multimodal Deep Learning》, 文中的数据来源为视觉模态(唇语)和音频模态, 其构建的深度学习模型以玻尔兹曼机(Restricted boltzmann machine,RBM)为基本单元,通过对视频、 音频数据进行编码、联合表示、学习和重构,实现 对字母、数字的识别[23] . 近年来,已有很多卓有成效的多模态深度学 习方法被提出. 如文献 [76] 在学习机制上进行改 良,即在对训练集进行学习时,不再构建图片-句子 标签之间的映射关系,而是将图片中的对象和句 子中的实体匹配起来,首先对图片采取目标检测 的任务,进而学习单词和细粒度图像区域之间的 关系,在此基础上生成标注句子. 这一方式简化了 对 Image-Caption 任务的训练集标注需求,即从句 子简化为单词. 文献 [77] 结合 LSTM 的特性,构建 了能够对多幅图像或视频内容进行理解和描述的 深度神经网络框架,实现对视觉序列的文本描述. 文献 [78] 设计了 CNN-LSTM 混合编码器对数据进 行编码,进而采用排序损失(Pairwise ranking loss) 函数对数据进行训练. 文献 [79] 借鉴了在基于 RNN 的机器翻译任务中的研究进展,用 CNN 替 代 RNN 作为图片的编码器. 在设计模型框架的同 时,该文还提出了得到相关细节描述的概率公式. 文献 [80] 设计了基于图片的问答模型,该模型能 够根据 CNN 编码的图片和问题句子,生成正确的 问题答案. 文献 [81] 重点研究了采用 CNN 模型的 基于内容的图片检索问题,并分析了深度卷积神 经网络对高维语义特征的有效表达能力. 文献 [82] 则采用多模态深度学习框架,通过构建多个 LSTM 结构处理情感分类问题. 文献 [83] 提出一种多模 态无监督机器翻译方法,采用描述同一内容的图 片链接跨语种语料,实现语义对应与融合. 文献 [84] 采用强化学习的手段对文本和视觉场景进行匹 配,进而对自动驾驶决策进行推理. 4    多模态对抗学习方法 跨模态迁移与跨模态生成是多模态学习的常 见任务. 针对多源异构的复杂数据,迁移学习可以 在不同模态间转化知识. 近年来,基于对抗学习策 略的迁移学习方法取得了优于经典迁移学习方法 的性能. 跨模态生成任务有助于构造完整的多模 态认知场景,同时能够提高在不同模态间进行迁 移、匹配与翻译的能力. 生成对抗网络(Generative adversarial networks, GAN)的基本框架由 Goodfellow 等于 2014 年提出[85] . 该框架主要由两个互为博弈的结构——生成器 G(Generator)和判别器 D(Discriminator)构成. 对 GAN 进行对抗式训练的主要目标在于得到一组高 性能的 G 与 D,使 G 能够生成足够真实的样本,而 D 则能够对以假乱真的样本进行区分. GAN 的性 能是在交互式的对抗学习中提高的. 文献 [86] 中提出的 DCGAN 方法将 CNN 结构和 GAN 结合,赋予对抗学习强大的图片生成能力. 在文 献 [87] 中,Wasserstein 距离被引入来替代经典的 KL 散度(Kullback–Leibler divergence),该方式可有效 避免 GAN 训练过程中的“模式崩溃”,即只能生成 有限模式图片的问题. 文献 [88] 则提出 CGAN 模 型,在 GAN 结构中结合条件变量,这一“条件”可以 是类别标签,也可以是跨模态样本的向量化表示. 4.1    基于对抗学习的跨模态迁移与域适应 迁移学习是跨模态学习的有效方法. 在迁移学 习中,常采用源域、目标域的概念表述迁移对象. 源域涉及已学习到的数据源或问题,目标域则包 含需要采用迁移学习方法进行处理的数据或新问 题. 在跨模态问题中,可将数据全面、结果较好的 模态作为源域,将数据资源较为有限的模态作为 目标域. 采用 GAN 的对抗学习域适应(跨模态分类、 匹配)方法在近几年取得了令人瞩目的成绩. 文 献 [89] 给出了采用 GAN 结构处理跨模态域适应 问题的基本模型 ADDA(Adversarial discriminative domain adaptation). 在 ADDA 中,两个不同模态的 数据分别经由 CNN 编码. 判别器 D 对源域和目标 域进行判别,该对抗学习的过程能够对齐目标域、 源域的特征,从而能够将源域(模态 A)的分类器应 用于目标域(模态 B). 在此基础上,文献 [90] 设计了 双向 GAN 结构进一步优化域适应性能. 文献 [91]、 [92] 针对目标域的类别,设计了多个生成-判别单 元,具有针对性地进行跨模态迁移. 文献 [93] 则采 · 564 · 工程科学学报,第 42 卷,第 5 期

陈鹏等:多模态学习方法综述 565· 用质心对齐的手段,强化对抗学习中跨模态特征 文献[I07]中的GAN-CLS模型是具有开创性的工 对齐的效果 作之一,该文利用细粒度的标签信息训练图像编 4.2基于对抗学习的跨模态生成 码器和文本编码器,提高跨模态编码的相关性,同 根据O'Halloran所给出的细粒度模态划分仰, 时采用流形差值优化等策略,生成与描述内容较 跨模态生成涉及“图像一图像”生成、“图像一文 为契合的图片样本.文献[108]、[109]中提出的 本”生成及“文本一图像”生成三个典型任务 StackGAN系列模型则采用两阶段的生成方法生 在由图像到图像的样本生成任务(如图像风 成具有更高像素的图片,先生成与文本描述相一 格迁移、图像高分辨率重构)中,GAN是最为成功 致的包含轮廓、颜色等基本信息的低分辨率图片, 的方法之一.文献[94]中的LAPGAN算法采用拉 在该图基础上进一步生成高像素、细粒度的图片 普拉斯金字塔结构,以串联的形式在多个尺度采用 样本,两阶段的生成过程均包含文本描述作为条 生成一对抗的学习方法生成高质量图片.文献「951 件输入.文献[110]则采用层次化的生成方法,首 中的SAGAN将自然语言处理领域的Attention机 先根据文本描述生成对象的边界框,进而填充图 制%引入GAN模型,有效利用了图片中的全局信 像细节内容.文献[II1]中的AttnGAN进一步采用 息和局部信息.文献[97]提出SNGAN,采用谱范 注意力机制(Attention)选取文本模态中的细节信 数对网络参数进行归一化,从而能够有效调整梯 息,经由多步的Attention和对抗学习,依次生成低 度,提高GAN的优化性能.文献[98]中提出的 像素、高像素的图片 BigGAN采用ResNet为特征提取器,以图片类别 标签作为条件输入,经过在ImageNet上的大量训l 5结论与展望 练,能够取得极为逼真的高质量图片.基于对抗学 大数据背景下,多模态数据对同一对象的描 习的图片风格迁移方法有pix2pix啊、CycleGANU01、 述存在形式多源异构、内在语义一致的特点.不 StarGANO、MUNIT2等.pix2pixI以CGAN为 同的模态形式分别描述对象在某一特定角度下的 基础,将目标样本作为条件变量,输入给GAN模 特征.随着机器学习技术的发展,多模态学习领域 型,同时采用了改进的CNN特征表示模型(U 的研究热点逐渐从经典的统计学习方法转移到深 Neto).CycleGANUo0采用循环训练方法,首先采 度学习方法.对于视觉模态,CNN逐渐成为最有 用对抗学习在目标域生成具有源域内容、目标域 效的特征表示方法:对于文本模态及相关、类似的 风格的图片,接着将该图片进一步变换至源域,构 序列预测任务,LSTM也逐渐取代概率图模型,取 成一个循环.这种循环训练方式不依赖于大量的 得主导地位.而对抗学习的兴起使得跨模态任务 训练样本,能够实现有效的弱监督图片生成, 更为多样化 StarGAN在CycleGAN的基础上针对多个不同 对于多模态学习方法的研究可以从以下几个 的域进行编码,通过互异的域标签和图片内容的 方向进一步展开:(1)对不同模态的样本进行更为 叠加,实现多个域(模态)的切换.MUNIT2则引 精细化的特征表示,实现有效的跨模态匹配,利用 入ResNet中的残差模块(Residual blocks).设计了更 模态互补构建更为完整的特征描述体系;(2)克服 为巧妙的编码器和解码器,对图片内容和风格分 学习样本数量的限制,研究弱监督、无监督的多模 别进行编码和训练,实现无监督跨模态样本生成. 态学习方法:针对该问题,对抗学习方法是可行的 在由图像生成文本的任务(如图像语义标注) 解决方案之一;(3)研究有效的模型融合框架,一 中,CGAN也是基本的方法.该方法将图片向量作 方面是组合不同的算法以取得高质量的数据分析 为GAN的条件,指导对图片标签的向量生成] 结果,另一方面是用模型融合指导对多模态数据 由于文本模态自身的序列特点,在目前常见的以 的融合:(4)研究效果更为真实、性能更加稳定的 生成描述性句子为目标的图像语义标注任务、基 跨模态生成方法;(5)应用背景从通用领域向垂直 于视觉的问答任务中,RNN、GRU、LSTM等结构 领域拓展,针对特定的应用场景(如医疗场景)实 常被用作文本编码/解码器,并能够取得优于GAN 现可行的解决方案 的效果o4-106部分典型的方法在3.3节中进行了 简要的介绍 参 考文献 根据文本合成图片是较为新颖的跨模态生成 [1] Rhianna K.Pedwell J A.Hardy S L,et al.Effective visual design 问题,也是最近几年中对抗学习领域的研究热点 and communication practices for research posters:Exemplars

用质心对齐的手段,强化对抗学习中跨模态特征 对齐的效果. 4.2    基于对抗学习的跨模态生成 根据 O’Halloran 所给出的细粒度模态划分[4] , 跨模态生成涉及“图像—图像”生成、“图像—文 本”生成及“文本—图像”生成三个典型任务. 在由图像到图像的样本生成任务(如图像风 格迁移、图像高分辨率重构)中,GAN 是最为成功 的方法之一. 文献 [94] 中的 LAPGAN 算法采用拉 普拉斯金字塔结构,以串联的形式在多个尺度采用 生成—对抗的学习方法生成高质量图片. 文献 [95] 中的 SAGAN 将自然语言处理领域的 Attention 机 制[96] 引入 GAN 模型,有效利用了图片中的全局信 息和局部信息. 文献 [97] 提出 SNGAN,采用谱范 数对网络参数进行归一化,从而能够有效调整梯 度 ,提高 GAN 的优化性能. 文献 [98] 中提出的 BigGAN 采用 ResNet 为特征提取器,以图片类别 标签作为条件输入,经过在 ImageNet 上的大量训 练,能够取得极为逼真的高质量图片. 基于对抗学 习的图片风格迁移方法有 pix2pix[99]、CycleGAN[100]、 StarGAN[101]、MUNIT[102] 等. pix2pix[99] 以 CGAN 为 基础,将目标样本作为条件变量,输入给 GAN 模 型 ,同时采用了改进的 CNN 特征表示模型 ( U￾Net[103] ). CycleGAN[100] 采用循环训练方法,首先采 用对抗学习在目标域生成具有源域内容、目标域 风格的图片,接着将该图片进一步变换至源域,构 成一个循环. 这种循环训练方式不依赖于大量的 训练样本 ,能够实现有效的弱监督图片生成 . StarGAN[101] 在 CycleGAN 的基础上针对多个不同 的域进行编码,通过互异的域标签和图片内容的 叠加,实现多个域(模态)的切换. MUNIT[102] 则引 入 ResNet 中的残差模块(Residual blocks),设计了更 为巧妙的编码器和解码器,对图片内容和风格分 别进行编码和训练,实现无监督跨模态样本生成. 在由图像生成文本的任务(如图像语义标注) 中,CGAN 也是基本的方法. 该方法将图片向量作 为 GAN 的条件,指导对图片标签的向量生成[88] . 由于文本模态自身的序列特点,在目前常见的以 生成描述性句子为目标的图像语义标注任务、基 于视觉的问答任务中,RNN、GRU、LSTM 等结构 常被用作文本编码/解码器,并能够取得优于 GAN 的效果[104−106] . 部分典型的方法在 3.3 节中进行了 简要的介绍. 根据文本合成图片是较为新颖的跨模态生成 问题,也是最近几年中对抗学习领域的研究热点. 文献 [107] 中的 GAN-CLS 模型是具有开创性的工 作之一,该文利用细粒度的标签信息训练图像编 码器和文本编码器,提高跨模态编码的相关性,同 时采用流形差值优化等策略,生成与描述内容较 为契合的图片样本. 文献 [108]、[109] 中提出的 StackGAN 系列模型则采用两阶段的生成方法生 成具有更高像素的图片,先生成与文本描述相一 致的包含轮廓、颜色等基本信息的低分辨率图片, 在该图基础上进一步生成高像素、细粒度的图片 样本,两阶段的生成过程均包含文本描述作为条 件输入. 文献 [110] 则采用层次化的生成方法,首 先根据文本描述生成对象的边界框,进而填充图 像细节内容. 文献 [111] 中的 AttnGAN 进一步采用 注意力机制(Attention)选取文本模态中的细节信 息,经由多步的 Attention 和对抗学习,依次生成低 像素、高像素的图片. 5    结论与展望 大数据背景下,多模态数据对同一对象的描 述存在形式多源异构、内在语义一致的特点. 不 同的模态形式分别描述对象在某一特定角度下的 特征. 随着机器学习技术的发展,多模态学习领域 的研究热点逐渐从经典的统计学习方法转移到深 度学习方法. 对于视觉模态,CNN 逐渐成为最有 效的特征表示方法;对于文本模态及相关、类似的 序列预测任务,LSTM 也逐渐取代概率图模型,取 得主导地位. 而对抗学习的兴起使得跨模态任务 更为多样化. 对于多模态学习方法的研究可以从以下几个 方向进一步展开:(1)对不同模态的样本进行更为 精细化的特征表示,实现有效的跨模态匹配,利用 模态互补构建更为完整的特征描述体系;(2)克服 学习样本数量的限制,研究弱监督、无监督的多模 态学习方法;针对该问题,对抗学习方法是可行的 解决方案之一;(3)研究有效的模型融合框架,一 方面是组合不同的算法以取得高质量的数据分析 结果,另一方面是用模型融合指导对多模态数据 的融合;(4)研究效果更为真实、性能更加稳定的 跨模态生成方法;(5)应用背景从通用领域向垂直 领域拓展,针对特定的应用场景(如医疗场景)实 现可行的解决方案. 参    考    文    献 Rhianna K. Pedwell J A. Hardy S L, et al. Effective visual design and  communication  practices  for  research  posters:  Exemplars [1] 陈    鹏等: 多模态学习方法综述 · 565 ·

点击下载完整版文档(PDF)VIP每日下载上限内不扣除下载券和下载次数;
按次数下载不扣除下载券;
24小时内重复下载只扣除一次;
顺序:VIP每日次数-->可用次数-->下载券;
共14页,试读已结束,阅读完整版请下载
相关文档

关于我们|帮助中心|下载说明|相关软件|意见反馈|联系我们

Copyright © 2008-现在 cucdc.com 高等教育资讯网 版权所有