正在加载图片...
558 工程科学学报,第42卷,第5期 with a focus on future research issues in this field. KEY WORDS multi-modal learning:statistical learning:deep learning:adversarial learning:feature representation 早在公元前4世纪,多模态的相关概念和理论 等信息.图1即为典型的多模态信息形式 即被哲学家和艺术家所提出,用以定义融合不同 (2)来自不同传感器的同一类媒体数据.如医 内容的表达形式与修辞方法-习.20世纪以来,这 学影像学中不同的检查设备所产生的图像数据, 一概念被语言学家更为广泛地应用于教育学和认 包括B超(B-Scan ultrasonography)、计算机断层扫 知科学领域)近年来,描述相同、相关对象的多 描(CT)、核磁共振等:物联网背景下不同传感器 源数据在互联网场景中呈指数级增长,多模态已 所检测到的同一对象数据等 成为新时期信息资源的主要形式 (3)具有不同的数据结构特点、表示形式的表 人类的认知过程是多模态的.个体对场景进 意符号与信息.如描述同一对象的结构化、非结 行感知时往往能快速地接受视觉、听觉乃至嗅 构化的数据单元;描述同一数学概念的公式、逻辑 觉、触觉的信号,进而对其进行融合处理和语义理 符号、函数图及解释性文本:描述同一语义的词向 解.多模态机器学习方法更贴近人类认识世界的 量、词袋、知识图谱以及其它语义符号单元等 形式.本文首先介绍了多模态的概念与基本任务, 因此,从语义感知的角度切人,多模态数据涉 分析了多模态认知学习的起源与发展.结合互联 及不同的感知通道如视觉、听觉、触觉、嗅觉所接 网大数据形态,本文重点综述了多模态统计学习 收到的信息;在数据层面理解,多模态数据则可被 方法、深度学习方法与对抗学习方法, 看作多种数据类型的组合,如图片、数值、文本、 符号、音频、时间序列,或者集合、树、图等不同 1多模态学习的定义、基本任务与发展过程 数据结构所组成的复合数据形式,乃至来自不同 11多模态学习的定义 数据库、不同知识库的各种信息资源的组合.对 本文主要采用了新加坡国立大学O'Halloran 多源异构数据的挖掘分析可被理解为“多模态学 对“模态”的定义,即相较于图像、语音、文本等多 习(Multimodal machine learning)”,其相关概念有 媒体(Multi--media)数据划分形式,“模态”是一个 “多视角学习”和“多传感器信息融合”来自不同 更为细粒度的概念,同一媒介下可存在不同的模 数据源或由不同特征子集构成的数据被称作多视 态概括来说,“多模态”可能有以下三种形式. 角数据,每个数据源、每种数据类型均可被看作一 (1)描述同一对象的多媒体数据.如互联网环 个视角.卡内基梅隆大学的Morency在ACL2017(The 境下描述某一特定对象的视频、图片、语音、文本 55th Annual Meeting of the Association for Comput- It snowed in the evening.Flakes of snow were drifting down. If you walked in the snow,you can hear a creaking sound. 图1“下雪”场绿的多模态数据(图像、音颜与文本) Fig.1 Multimodal data for a "snow"scene(images,sound and text)with a focus on future research issues in this field. KEY WORDS    multi-modal learning;statistical learning;deep learning;adversarial learning;feature representation 早在公元前 4 世纪,多模态的相关概念和理论 即被哲学家和艺术家所提出,用以定义融合不同 内容的表达形式与修辞方法[1−2] . 20 世纪以来,这 一概念被语言学家更为广泛地应用于教育学和认 知科学领域[3] . 近年来,描述相同、相关对象的多 源数据在互联网场景中呈指数级增长,多模态已 成为新时期信息资源的主要形式. 人类的认知过程是多模态的. 个体对场景进 行感知时往往能快速地接受视觉、听觉乃至嗅 觉、触觉的信号,进而对其进行融合处理和语义理 解. 多模态机器学习方法更贴近人类认识世界的 形式. 本文首先介绍了多模态的概念与基本任务, 分析了多模态认知学习的起源与发展. 结合互联 网大数据形态,本文重点综述了多模态统计学习 方法、深度学习方法与对抗学习方法. 1    多模态学习的定义、基本任务与发展过程 1.1    多模态学习的定义 本文主要采用了新加坡国立大学 O′Halloran 对“模态”的定义,即相较于图像、语音、文本等多 媒体(Multi-media)数据划分形式,“模态”是一个 更为细粒度的概念,同一媒介下可存在不同的模 态[4] . 概括来说,“多模态”可能有以下三种形式. (1)描述同一对象的多媒体数据. 如互联网环 境下描述某一特定对象的视频、图片、语音、文本 等信息. 图 1 即为典型的多模态信息形式. (2)来自不同传感器的同一类媒体数据. 如医 学影像学中不同的检查设备所产生的图像数据, 包括 B 超(B-Scan ultrasonography)、计算机断层扫 描(CT)、核磁共振等;物联网背景下不同传感器 所检测到的同一对象数据等. (3)具有不同的数据结构特点、表示形式的表 意符号与信息. 如描述同一对象的结构化、非结 构化的数据单元;描述同一数学概念的公式、逻辑 符号、函数图及解释性文本;描述同一语义的词向 量、词袋、知识图谱以及其它语义符号单元等[5] . 因此,从语义感知的角度切入,多模态数据涉 及不同的感知通道如视觉、听觉、触觉、嗅觉所接 收到的信息;在数据层面理解,多模态数据则可被 看作多种数据类型的组合,如图片、数值、文本、 符号、音频、时间序列,或者集合、树、图等不同 数据结构所组成的复合数据形式,乃至来自不同 数据库、不同知识库的各种信息资源的组合. 对 多源异构数据的挖掘分析可被理解为“多模态学 习 (Multimodal machine learning) ” ,其相关概念有 “多视角学习”和“多传感器信息融合”. 来自不同 数据源或由不同特征子集构成的数据被称作多视 角数据,每个数据源、每种数据类型均可被看作一 个视角. 卡内基梅隆大学的Morency 在ACL2017(The 55th  Annual  Meeting  of  the  Association  for  Comput- 图 1    “下雪”场景的多模态数据(图像、音频与文本) Fig.1    Multimodal data for a “snow” scene (images, sound and text) · 558 · 工程科学学报,第 42 卷,第 5 期
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有