正在加载图片...
陈鹏等:多模态学习方法综述 559· ational Linguistics,CCFA类会议)的Tutorial报告 任务发展较为成熟,由文本到图像的生成任务则 中,将大量的多视角学习方法归类为多模态机器 较为新颖. 学习算法。笔者认为,“多视角学习”强调对数据 多棋态人机对话:即在基本对话(文本模态) “视角”的归纳和分析,“多模态学习”则侧重“模 生成任务的基础上,进一步对人的表情、语调、姿 态”感知和通道.“视角”和“模态”的概念是相通 势等多模态信息进行采集,采用模态融合的方法 的,一个模态即可被视作一个视角.“多传感器信 对多模态信号进行分析处理.多模态人机对话的 息融合(Multi-sensor information fusion)”为在物理 理想状态是在有效感知多模态信号的前提下给出 层面与“多模态学习”相关的术语,即对不同传感 拟人化的多模态输出,构建更为智能、沟通更加顺 器采集的数据进行综合利用,其典型应用场景有 畅的人机交互形式 物联网、自动驾驶等 多模态信息融合:多模态融合要求对多源数 1.2多模态机器学习的基本任务 据进行综合有效地筛选和利用,实现集成化感知 多模态学习的基本任务可包括以下几个方面 与决策的目的,常见的信息融合方式有物理层融 多源数据分类:单模态的分类问题只关注对 合、特征层融合、决策层融合几个类型.物理层融 一类特定数据的分析和处理,相较于单一通道,多 合指在感知的第一阶段,在传感器层级对采集到 模态数据更接近大数据背景下信息流真实的形 的数据进行融合处理,这种处理方式可被概括为 态,具有全面性和复杂性 多传感器信息融合(Multi-sensor information fusion), 多模态情感分析:情感分析问题的本质也是 是工业生产场景中极为常见的信息融合方法:特 分类问题,与常规分类问题不同,情感分类问题所 征层融合指在特征抽取和表达的层级对信息进行 提取的特征往往带有明确的情绪信号:从多模态 融合,如对同一场景中不容摄像头采集到的图像 的角度分析,网络社交场景中所衍生的大量图片、 采用相同的特征表达形式,进而进行相应的叠加 文本、表情符号及音频信息均带有情感倾向, 计算;决策层融合指对不同模态的感知模型所输 多模态语义计算:语义分析是对数据更为高 出的结果进行融合,这种融合方式具有较好的抗 层次的处理,理想状态下,计算机能够处理一个特 干扰性能,对于传感器性能和种类要求相对不高, 定场景下不同数据的概念关系、逻辑结构,进而理 但具有较大的信息损耗 解不同数据中隐含的高层语义;对这种高层语义 13多模态机器学习的发展一从符号计算到深 的理解是有效进行推理决策的前提 度学习 跨模态样本匹配:现阶段,最常见的跨模态信 随着计算机技术的发展,多模态认知的概念 息匹配即为图像、文本的匹配,如Flickr3.0k数据 从传统的教育学、心理学、语言学的范畴拓展至 集中的实例;图像文本匹配任务为较为复杂的机 信息科学领域.20世纪60~70年代,科学家利用 器学习任务,这一任务的核心在于分别对图像、文 符号和逻辑结构模拟人类的思维逻辑,如利用语 本的特征进行合理表示、编码,进而准确度量其相 法树分析文本信息⑧,利用规则库构建专家决策系 似性. 统四.由于人类认知过程的复杂性与流动性,有 跨模态检索:在检索任务中,除了实现匹配 效、实时地制定逻辑结构和规则形式成为制约“符 外,还要求快速的响应速度以及正确的排序:多模 号主义”认知智能的主要因素 态信息检索通过对异构数据进行加工,如直接对 20世纪80年代至21世纪初,统计机器学习 图片进行语义分析,在有效特征匹配的情况下对 方法在智能信息处理的各个领域取得了令人瞩目 图片采用基于内容的自动检索形式;为适应快速 的成就.Cortes和Vapnik提出的支持向量机模型 检索的需要,哈希方法被引入多模态信息检索任 可以快速、准确地处理高维、非线性的模式识别 务中,跨模态哈希方法将不同模态的高维数据映 问题o:Pearl所构建的概率图模型赋予了计算机 射到低维的海明空间,有效减小了数据存储空间, 依据概率推理的能力:进一步地,Jelinek将信息 提高了计算速度 论与隐马尔科夫模型入语音识别与自然语言处 跨模态样本生成:跨模态生成任务可以有效 理领域,奠定了近代统计自然语言处理学派的根 构造多模态训练数据,同时有助于提高跨模态匹 基,使自然语言处理的工程化应用成为可能 配与翻译的效果,目前由图像到文本(如图像语义 在这一阶段,受麦格克效应的启发町,许多计 自动标注)、图像到图像(如图片风格迁移)的生成 算机科学家致力于构建基于视觉信号和声音信号ational Linguistics,CCF A 类会议)的 Tutorial 报告[6] 中,将大量的多视角学习方法归类为多模态机器 学习算法. 笔者认为,“多视角学习”强调对数据 “视角”的归纳和分析,“多模态学习”则侧重“模 态”感知和通道. “视角”和“模态”的概念是相通 的,一个模态即可被视作一个视角. “多传感器信 息融合(Multi-sensor information fusion)”为在物理 层面与“多模态学习”相关的术语,即对不同传感 器采集的数据进行综合利用,其典型应用场景有 物联网、自动驾驶等. 1.2    多模态机器学习的基本任务 多模态学习的基本任务可包括以下几个方面. 多源数据分类:单模态的分类问题只关注对 一类特定数据的分析和处理,相较于单一通道,多 模态数据更接近大数据背景下信息流真实的形 态,具有全面性和复杂性. 多模态情感分析:情感分析问题的本质也是 分类问题,与常规分类问题不同,情感分类问题所 提取的特征往往带有明确的情绪信号;从多模态 的角度分析,网络社交场景中所衍生的大量图片、 文本、表情符号及音频信息均带有情感倾向. 多模态语义计算:语义分析是对数据更为高 层次的处理,理想状态下,计算机能够处理一个特 定场景下不同数据的概念关系、逻辑结构,进而理 解不同数据中隐含的高层语义;对这种高层语义 的理解是有效进行推理决策的前提. 跨模态样本匹配:现阶段,最常见的跨模态信 息匹配即为图像、文本的匹配,如 Flickr30k[7] 数据 集中的实例;图像文本匹配任务为较为复杂的机 器学习任务,这一任务的核心在于分别对图像、文 本的特征进行合理表示、编码,进而准确度量其相 似性. 跨模态检索:在检索任务中,除了实现匹配 外,还要求快速的响应速度以及正确的排序;多模 态信息检索通过对异构数据进行加工,如直接对 图片进行语义分析,在有效特征匹配的情况下对 图片采用基于内容的自动检索形式;为适应快速 检索的需要,哈希方法被引入多模态信息检索任 务中,跨模态哈希方法将不同模态的高维数据映 射到低维的海明空间,有效减小了数据存储空间, 提高了计算速度. 跨模态样本生成:跨模态生成任务可以有效 构造多模态训练数据,同时有助于提高跨模态匹 配与翻译的效果,目前由图像到文本(如图像语义 自动标注)、图像到图像(如图片风格迁移)的生成 任务发展较为成熟,由文本到图像的生成任务则 较为新颖. 多模态人机对话:即在基本对话(文本模态) 生成任务的基础上,进一步对人的表情、语调、姿 势等多模态信息进行采集,采用模态融合的方法 对多模态信号进行分析处理. 多模态人机对话的 理想状态是在有效感知多模态信号的前提下给出 拟人化的多模态输出,构建更为智能、沟通更加顺 畅的人机交互形式. 多模态信息融合:多模态融合要求对多源数 据进行综合有效地筛选和利用,实现集成化感知 与决策的目的,常见的信息融合方式有物理层融 合、特征层融合、决策层融合几个类型. 物理层融 合指在感知的第一阶段,在传感器层级对采集到 的数据进行融合处理,这种处理方式可被概括为 多传感器信息融合(Multi-sensor information fusion), 是工业生产场景中极为常见的信息融合方法;特 征层融合指在特征抽取和表达的层级对信息进行 融合,如对同一场景中不容摄像头采集到的图像 采用相同的特征表达形式,进而进行相应的叠加 计算;决策层融合指对不同模态的感知模型所输 出的结果进行融合,这种融合方式具有较好的抗 干扰性能,对于传感器性能和种类要求相对不高, 但具有较大的信息损耗. 1.3    多模态机器学习的发展——从符号计算到深 度学习 随着计算机技术的发展,多模态认知的概念 从传统的教育学、心理学、语言学的范畴拓展至 信息科学领域. 20 世纪 60~70 年代,科学家利用 符号和逻辑结构模拟人类的思维逻辑,如利用语 法树分析文本信息[8] ,利用规则库构建专家决策系 统[9] . 由于人类认知过程的复杂性与流动性,有 效、实时地制定逻辑结构和规则形式成为制约“符 号主义”认知智能的主要因素. 20 世纪 80 年代至 21 世纪初,统计机器学习 方法在智能信息处理的各个领域取得了令人瞩目 的成就. Cortes 和 Vapnik 提出的支持向量机模型 可以快速、准确地处理高维、非线性的模式识别 问题[10] ;Pearl 所构建的概率图模型赋予了计算机 依据概率推理的能力[11] ;进一步地,Jelinek 将信息 论与隐马尔科夫模型引入语音识别与自然语言处 理领域,奠定了近代统计自然语言处理学派的根 基,使自然语言处理的工程化应用成为可能[12] . 在这一阶段,受麦格克效应的启发[13] ,许多计 算机科学家致力于构建基于视觉信号和声音信号 陈    鹏等: 多模态学习方法综述 · 559 ·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有