正在加载图片...
陈鹏等:多模态学习方法综述 563· 分类器进行训练.然而在实际的应用场景中,往往 CNN同样取得了优于经典图像处理方法的效果 很难满足上述的条件.研究者提出了多种改进手 如目标检测(Object detection)领域的Yolo(You only 段以提升协同训练的性能 look once)模型Io,语义分割(Semantic segmentation) 文献[53]在协同训练中改进了多模态优化函 领域的FCNN(Fully convolutional networks)模型I6]例 数,从而更为精确地处理拼写与上下文间的一致 等.有理由认为,CNN及其改进形式能够较好地 性信息;文献[54]将支持向量机和期望最大算法 对视觉模态特征进行表示和处理 (Expectation maximization,.EM)相结合提出Co-EM 此外,对于文本数据,CNN也体现出卓越的性 算法,提升多模态分析性能;文献[55]在Co-EM的 能.文献[62]采用CNN对短文本进行分类,在保 基础上进一步引入主动学习(Active learning)策略, 证可靠精度的同时提高分类速度.文献[63]提出 提高了算法的鲁棒性 基于序列的深度卷积语义分析模型,采用卷积结 3多模态深度学习方法 构生成句子的向量化表示,进而进行深层分析.文 献[64]中也采用CNN对句子进行建模,并将这种 基本的神经网络模型(浅层结构)可被归纳为 建模方法应用于句子匹配. 一种特殊的统计学习方法.不同于支持向量机的 3.2循环神经网络与自然语言理解 核技巧采用核映射转化问题,神经网络结构直接 近年来,自然语言处理域的研究热点正在从 采用非线性映射(激活函数)的形式拟合数据分布 经典的统计学习方法向深度学习方法转变.典型 规律.神经网络是深度学习的起源,后者是对采用 的深度文本处理模型即循环神经网络(Recurrent 深度神经网络完成机器学习任务的各种机器学习 neural network,RNN)结构Is7.该结构源于蒙特利 方法的概括.近年来,深度学习方法已成为推动人 尔大学Bengio等于2003年提出的神经语言模型s] 工智能技术的主要力量.隐层大于1的神经网络 神经语言模型实现了语言最基本的单元一词的 即可被看作深度神经网络,常见的深度神经网络 向量化表示.受文献[65]启发,C&w词向量6的、 模型有卷积神经网络(Convolutional neural networks,. Word2Vec词向量I67等文本表示模型相继被提出 CNN)I阿、循环神经网络(Recurrent neural networks, 神经语言模型的提出使文本转化为稠密的向 RNN)s7、深度信念网络(Deep belief networks, 量成为可能,已成为目前处理自然语言任务的主 DBN)S]等.深度学习的发展建立在统计学习的 流算法.值得一提的是,文献[65]至[67刀中的文本 高度繁荣之上,得益于不断发展的互联网技术积 表示及学习方法均为较为浅层的结构,其价值在 累了大量的数据资源,以及更为普及的高性能计 于通过弱监督、无监督的手段得到文本的表示形 算硬件.有别于统计学习依赖于专家知识来确定 式,进而供较为深层的神经网络机器学习模型进 特征的限制,深度学习模型可以自动地在数据中 行挖掘分析 学习特征表示,从而能够对海量数据进行处理,在 在神经语言模型的基础上,大量的深度神经 一定程度上实现端到端的机器学习系统 网络结构被改良并进一步应用于自然语言处理任 3.1卷积神经网络与图像处理 务,如RNNs7、LTSM68I被广泛地应用于文本分 Lecun于1998年提出了经典卷积神经网络的 类I69,、实体识别四等任务.由于RNN能够出色地 雏形LeNet,.并将其应用于手写字符识别s]针 学习序列样本中不同时刻的信息及其相互关系, 对CNN训练过程中的过拟合问题,Srivastava等 RNN结构在机器翻译、对话生成等序列分析及序 提出了Dropout方法,即在网络结构中以一定概 列生成任务中的优势极为突出RNN的主要改 率将某些神经元暂时丢弃这种方法被应用于 进形式为LSTMI681和GRU(Gated recurrent unit) AlexNet!中.在AlexNet之后,改进了的CNN结 这些变体在RNN中添加了特殊的“门”结构来判 构不断刷新ImageNet图像分类的记录.如牛津大 断信息的价值,进而模拟人类大脑的记忆和遗忘 学的VGG(Visual geometry group)s模型和Google 过程.在LSTM的基础上,其双向形式BiLSTM网 公司的Inception20!系列模型,在增加CNN网络层 基于Attention的BiLSTM1相继被提出.相较于 数的同时设计了精巧丰富的卷积核结构,从而降 经典的RNNIS7,LSTM6sI和GRU7I可以更有效地 低参数数量,提高训练速度.微软公司的 对序列进行建模,建立更为精确的语义依赖关系 ResNet!4o]模型引入残差结构,有效解决了梯度消 在合理标注的前提下,RNN结构在自然语言实体 失问题.在图像分类之外的计算机视觉任务中, 识别任务中已实现了极为出色的工程应用,其典分类器进行训练. 然而在实际的应用场景中,往往 很难满足上述的条件. 研究者提出了多种改进手 段以提升协同训练的性能. 文献 [53] 在协同训练中改进了多模态优化函 数,从而更为精确地处理拼写与上下文间的一致 性信息;文献 [54] 将支持向量机和期望最大算法 (Expectation maximization, EM)相结合提出 Co-EM 算法,提升多模态分析性能;文献 [55] 在 Co-EM 的 基础上进一步引入主动学习(Active learning)策略, 提高了算法的鲁棒性. 3    多模态深度学习方法 基本的神经网络模型(浅层结构)可被归纳为 一种特殊的统计学习方法. 不同于支持向量机的 核技巧采用核映射转化问题,神经网络结构直接 采用非线性映射(激活函数)的形式拟合数据分布 规律. 神经网络是深度学习的起源,后者是对采用 深度神经网络完成机器学习任务的各种机器学习 方法的概括. 近年来,深度学习方法已成为推动人 工智能技术的主要力量. 隐层大于 1 的神经网络 即可被看作深度神经网络,常见的深度神经网络 模型有卷积神经网络(Convolutional neural networks, CNN) [56]、循环神经网络(Recurrent neural networks, RNN) [57]、 深 度 信 念 网 络 ( Deep  belief  networks, DBN) [58] 等. 深度学习的发展建立在统计学习的 高度繁荣之上,得益于不断发展的互联网技术积 累了大量的数据资源,以及更为普及的高性能计 算硬件. 有别于统计学习依赖于专家知识来确定 特征的限制,深度学习模型可以自动地在数据中 学习特征表示,从而能够对海量数据进行处理,在 一定程度上实现端到端的机器学习系统. 3.1    卷积神经网络与图像处理 Lécun 于 1998 年提出了经典卷积神经网络的 雏形 LeNet,并将其应用于手写字符识别[56] . 针 对 CNN 训练过程中的过拟合问题, Srivastava 等 提出了 Dropout 方法,即在网络结构中以一定概 率将某些神经元暂时丢弃[16] . 这种方法被应用于 AlexNet[19] 中. 在 AlexNet 之后,改进了的 CNN 结 构不断刷新 ImageNet 图像分类的记录. 如牛津大 学的 VGG (Visual geometry group)[59] 模型和 Google 公司的 Inception[20] 系列模型,在增加 CNN 网络层 数的同时设计了精巧丰富的卷积核结构,从而降 低 参 数 数 量 , 提 高 训 练 速 度 . 微 软 公 司 的 ResNet[40] 模型引入残差结构,有效解决了梯度消 失问题. 在图像分类之外的计算机视觉任务中, CNN 同样取得了优于经典图像处理方法的效果. 如目标检测(Object detection)领域的 Yolo(You only look once)模型[60] ,语义分割(Semantic segmentation) 领域的 FCNN(Fully convolutional networks)模型[61] 等. 有理由认为,CNN 及其改进形式能够较好地 对视觉模态特征进行表示和处理. 此外,对于文本数据,CNN 也体现出卓越的性 能. 文献 [62] 采用 CNN 对短文本进行分类,在保 证可靠精度的同时提高分类速度. 文献 [63] 提出 基于序列的深度卷积语义分析模型,采用卷积结 构生成句子的向量化表示,进而进行深层分析. 文 献 [64] 中也采用 CNN 对句子进行建模,并将这种 建模方法应用于句子匹配. 3.2    循环神经网络与自然语言理解 近年来,自然语言处理域的研究热点正在从 经典的统计学习方法向深度学习方法转变. 典型 的深度文本处理模型即循环神经网络(Recurrent neural network, RNN)结构[57] . 该结构源于蒙特利 尔大学 Bengio 等于 2003 年提出的神经语言模型[65] . 神经语言模型实现了语言最基本的单元——词的 向量化表示. 受文献 [65] 启发,C&W 词向量[66]、 Word2Vec 词向量[67] 等文本表示模型相继被提出. 神经语言模型的提出使文本转化为稠密的向 量成为可能,已成为目前处理自然语言任务的主 流算法. 值得一提的是,文献 [65] 至 [67] 中的文本 表示及学习方法均为较为浅层的结构,其价值在 于通过弱监督、无监督的手段得到文本的表示形 式,进而供较为深层的神经网络机器学习模型进 行挖掘分析. 在神经语言模型的基础上,大量的深度神经 网络结构被改良并进一步应用于自然语言处理任 务 ,如 RNN[57]、LTSM [68] 被广泛地应用于文本分 类[69]、实体识别[22] 等任务. 由于 RNN 能够出色地 学习序列样本中不同时刻的信息及其相互关系, RNN 结构在机器翻译、对话生成等序列分析及序 列生成任务中的优势极为突出[70] . RNN 的主要改 进形式为 LSTM[68] 和 GRU(Gated recurrent unit) [71] . 这些变体在 RNN 中添加了特殊的“门”结构来判 断信息的价值,进而模拟人类大脑的记忆和遗忘 过程. 在 LSTM 的基础上,其双向形式 BiLSTM[72]、 基于 Attention 的 BiLSTM[73] 相继被提出. 相较于 经典的 RNN[57] ,LSTM[68] 和 GRU[71] 可以更有效地 对序列进行建模,建立更为精确的语义依赖关系. 在合理标注的前提下,RNN 结构在自然语言实体 识别任务中已实现了极为出色的工程应用,其典 陈    鹏等: 多模态学习方法综述 · 563 ·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有