with a focus on f_中国高校课件下载中心

正在加载图片...

558 工程科学学报，第42卷，第5期 with a focus on future research issues in this field. KEY WORDS multi-modal learning:statistical learning:deep learning:adversarial learning:feature representation 早在公元前4世纪，多模态的相关概念和理论等信息.图1即为典型的多模态信息形式即被哲学家和艺术家所提出，用以定义融合不同 (2)来自不同传感器的同一类媒体数据.如医内容的表达形式与修辞方法-习.20世纪以来，这学影像学中不同的检查设备所产生的图像数据，一概念被语言学家更为广泛地应用于教育学和认包括B超(B-Scan ultrasonography)、计算机断层扫知科学领域)近年来，描述相同、相关对象的多描(CT)、核磁共振等：物联网背景下不同传感器源数据在互联网场景中呈指数级增长，多模态已所检测到的同一对象数据等成为新时期信息资源的主要形式 (3)具有不同的数据结构特点、表示形式的表人类的认知过程是多模态的.个体对场景进意符号与信息.如描述同一对象的结构化、非结行感知时往往能快速地接受视觉、听觉乃至嗅构化的数据单元；描述同一数学概念的公式、逻辑觉、触觉的信号，进而对其进行融合处理和语义理符号、函数图及解释性文本：描述同一语义的词向解.多模态机器学习方法更贴近人类认识世界的量、词袋、知识图谱以及其它语义符号单元等形式.本文首先介绍了多模态的概念与基本任务，因此，从语义感知的角度切人，多模态数据涉分析了多模态认知学习的起源与发展.结合互联及不同的感知通道如视觉、听觉、触觉、嗅觉所接网大数据形态，本文重点综述了多模态统计学习收到的信息；在数据层面理解，多模态数据则可被方法、深度学习方法与对抗学习方法，看作多种数据类型的组合，如图片、数值、文本、符号、音频、时间序列，或者集合、树、图等不同 1多模态学习的定义、基本任务与发展过程数据结构所组成的复合数据形式，乃至来自不同 11多模态学习的定义数据库、不同知识库的各种信息资源的组合.对本文主要采用了新加坡国立大学O'Halloran 多源异构数据的挖掘分析可被理解为“多模态学对“模态”的定义，即相较于图像、语音、文本等多习(Multimodal machine learning)”,其相关概念有媒体(Multi--media)数据划分形式，“模态”是一个 “多视角学习”和“多传感器信息融合”来自不同更为细粒度的概念，同一媒介下可存在不同的模数据源或由不同特征子集构成的数据被称作多视态概括来说，“多模态”可能有以下三种形式. 角数据，每个数据源、每种数据类型均可被看作一 (1)描述同一对象的多媒体数据.如互联网环个视角.卡内基梅隆大学的Morency在ACL2017(The 境下描述某一特定对象的视频、图片、语音、文本 55th Annual Meeting of the Association for Comput- It snowed in the evening.Flakes of snow were drifting down. If you walked in the snow,you can hear a creaking sound. 图1“下雪”场绿的多模态数据（图像、音颜与文本） Fig.1 Multimodal data for a "snow"scene(images,sound and text)with a focus on future research issues in this field. KEY WORDS multi-modal learning；statistical learning；deep learning；adversarial learning；feature representation 早在公元前 4 世纪，多模态的相关概念和理论即被哲学家和艺术家所提出，用以定义融合不同内容的表达形式与修辞方法[1−2] . 20 世纪以来，这一概念被语言学家更为广泛地应用于教育学和认知科学领域[3] . 近年来，描述相同、相关对象的多源数据在互联网场景中呈指数级增长，多模态已成为新时期信息资源的主要形式. 人类的认知过程是多模态的. 个体对场景进行感知时往往能快速地接受视觉、听觉乃至嗅觉、触觉的信号，进而对其进行融合处理和语义理解. 多模态机器学习方法更贴近人类认识世界的形式. 本文首先介绍了多模态的概念与基本任务，分析了多模态认知学习的起源与发展. 结合互联网大数据形态，本文重点综述了多模态统计学习方法、深度学习方法与对抗学习方法. 1 多模态学习的定义、基本任务与发展过程 1.1 多模态学习的定义本文主要采用了新加坡国立大学 O′Halloran 对“模态”的定义，即相较于图像、语音、文本等多媒体（Multi-media）数据划分形式，“模态”是一个更为细粒度的概念，同一媒介下可存在不同的模态[4] . 概括来说，“多模态”可能有以下三种形式. （1）描述同一对象的多媒体数据. 如互联网环境下描述某一特定对象的视频、图片、语音、文本等信息. 图 1 即为典型的多模态信息形式. （2）来自不同传感器的同一类媒体数据. 如医学影像学中不同的检查设备所产生的图像数据，包括 B 超（B-Scan ultrasonography）、计算机断层扫描（CT）、核磁共振等；物联网背景下不同传感器所检测到的同一对象数据等. （3）具有不同的数据结构特点、表示形式的表意符号与信息. 如描述同一对象的结构化、非结构化的数据单元；描述同一数学概念的公式、逻辑符号、函数图及解释性文本；描述同一语义的词向量、词袋、知识图谱以及其它语义符号单元等[5] . 因此，从语义感知的角度切入，多模态数据涉及不同的感知通道如视觉、听觉、触觉、嗅觉所接收到的信息；在数据层面理解，多模态数据则可被看作多种数据类型的组合，如图片、数值、文本、符号、音频、时间序列，或者集合、树、图等不同数据结构所组成的复合数据形式，乃至来自不同数据库、不同知识库的各种信息资源的组合. 对多源异构数据的挖掘分析可被理解为“多模态学习（Multimodal machine learning） ” ，其相关概念有 “多视角学习”和“多传感器信息融合”. 来自不同数据源或由不同特征子集构成的数据被称作多视角数据，每个数据源、每种数据类型均可被看作一个视角. 卡内基梅隆大学的Morency 在ACL2017（The 55th Annual Meeting of the Association for Comput- 图 1 “下雪”场景的多模态数据（图像、音频与文本） Fig.1 Multimodal data for a “snow” scene (images, sound and text) · 558 · 工程科学学报，第 42 卷，第 5 期

<<向上翻页向下翻页>>

点击下载：多模态学习方法综述