正在加载图片...
第1期 贾晨,等:基于宽度学习方法的多模态信息融合 ·151· 声音、触觉等)相结合能够增强交互的高效性和 关联起来,或者怎样把一种模态映射到另一种模 互补性。将不同隐含层局部模态信息融合得到 态空间中去,是一个巨大的挑战。 的全局特征用于人脸识别,可以多元化检测人脸 3)融合与共同学习:在同一个特征映射空间 并解决遮挡问题。在机器人情感分析方面,有 中,将两种模态相互融合,使每个模态对最终的 效结合文本和图像特征并对融合语义进行训练, 输出都产生相应的影响,即共同学习。 会得到优于单一模态的情感分类效果。此外, 1.2宽度学习方法 对多模态异构数据进行相关性度量有助于提高视 传统的神经网络如BP网络,因其反向传播 频检索效率。实现基于道路场景理解的多模态 计算的运行时间长、容易陷入局部最优等缺陷, 信息(RGB-D、超声、激光雷达等)融合可以提高复 网络的分类性能往往受初始化区域的影响较大。 杂环境下环境感知和道路识别的准确性与可靠性, 为了有效解决这些问题,不少研究者致力于寻求 有助于机器人实时路径规划和自主定位与导航。 简单的单层网络模型,利用广义逆直接求解全局 以上研究大多基于时下流行的深度学习算 最优来优化网络的效率,因此基于宽度的网络结 法。考虑到深度结构运行时间长、难以收敛等性 构逐渐发展起来。典型的方法有单层前馈神经网 质,本文旨在寻求一种简单、高效的机器学习技 (single layer feedforward neural networks,SLFN) 术,在降低模型训练时间、节约成本的基础上对 随机向量功能连接网络(random vector functional 不同模态信息进行融合学习,提高系统识别的准 link neural network,.RVFL)3-l、极限学习机(ex 确率。宽度学习系统(broad learning system,BLS) treme learning machine,.ELM)-i等。 方法以其强大的数学理论支撑、简单的平层网络 宽度学习方法是由澳门大学陈俊龙教授提 结构、快速的增量建模过程等优点,成功地应用 出的一种基于RVFL平面网络结构的增量学习算 于各种分类和回归任务中,尤其在图像分类问题 上表现出优越的性能。因此,本文基于宽度学 法,模型结构如图1所示。与传统RVFL结构不 习方法提出了一种用于解决多模态数据特征融合 同的是,宽度学习系统的输入权值矩阵不是随机 问题的模型框架,通过对各个模态并行学习、联 生成,而是通过稀疏自编码方式经编码后,在解 合映射、串联融合后根据得到的特征实现分类输 码过程中选取了最优权值。宽度学习方法的输入 出。实验结果表明,本文提出的融合方法能有效 样本经过一次线性变换后将特征表达映射在特征 提高系统的分类性能。 平面上形成特征节点,得到的特征节点再经过激 活函数非线性变换生成增强节点。特征节点和增 相关知识 强节点共同连接作为系统的实际输入信号,经由 连接矩阵线性输出。与RVFL相同,考虑到经典 1.1多模态机器学习 BP算法的高时间成本和容易陷人局部最优等缺 一般而言,模态是指事件发生或客观物体存 点,宽度学习方法采用岭回归广义逆直接求取输 在的形态。为了更好地利用人工智能来帮助我们 出连接矩阵。 感知和理解世界,就需要解释和推理出多模态数 据中有用的信息和特征。多模态机器学习旨在建 立一个可以处理和关联多种模态之间交互信息的 模型框架,从早期基于视听语音识别的研究到近 期新兴的语义和视觉领域应用,多模态机器学习 …(H 逐渐发展成一个有巨大挖掘潜力和研究价值的交 介 叉学科。 X 多模态机器学习虽然能够学习不同模态数据 图1BLS基本结构 的深层特征表达,但是由于模态间的差异大小和 Fig.1 Basic BLS structure 影响因子的不同,目前多模态技术还存在以下 给定输入数据X∈RxM,其中N表示输入样 3个方面的挑战。 本个数,M表示每个样本向量的特征维数。假设 1)特征表达:对于同一种物体来说,不同的 特征节点的个数为b,则根据宽度结构可以得到 模态形式可能包含了同样的信息,因此,如何去 特征平面上的特征如式(1): 除冗余属性,更好地总结和表示出不同模态的互 2Nxb =XNxM.WMxh (1) 补信息,仍是值得深人研究和探讨的问题。 式中W是由稀疏自编码求得的最优输入权值矩 2)关联和转换:如何将两个不同模态的信息 阵。若生成d个增强节点,高层特征可表示为声音、触觉等) 相结合能够增强交互的高效性和 互补性[3]。将不同隐含层局部模态信息融合得到 的全局特征用于人脸识别,可以多元化检测人脸 并解决遮挡问题[4]。在机器人情感分析方面,有 效结合文本和图像特征并对融合语义进行训练, 会得到优于单一模态的情感分类效果[5]。此外, 对多模态异构数据进行相关性度量有助于提高视 频检索效率[6]。实现基于道路场景理解的多模态 信息 (RGB-D、超声、激光雷达等) 融合可以提高复 杂环境下环境感知和道路识别的准确性与可靠性, 有助于机器人实时路径规划和自主定位与导航[7-10]。 以上研究大多基于时下流行的深度学习算 法。考虑到深度结构运行时间长、难以收敛等性 质,本文旨在寻求一种简单、高效的机器学习技 术,在降低模型训练时间、节约成本的基础上对 不同模态信息进行融合学习,提高系统识别的准 确率。宽度学习系统 (broad learning system, BLS) 方法以其强大的数学理论支撑、简单的平层网络 结构、快速的增量建模过程等优点,成功地应用 于各种分类和回归任务中,尤其在图像分类问题 上表现出优越的性能[11]。因此,本文基于宽度学 习方法提出了一种用于解决多模态数据特征融合 问题的模型框架,通过对各个模态并行学习、联 合映射、串联融合后根据得到的特征实现分类输 出。实验结果表明,本文提出的融合方法能有效 提高系统的分类性能。 1 相关知识 1.1 多模态机器学习 一般而言,模态是指事件发生或客观物体存 在的形态。为了更好地利用人工智能来帮助我们 感知和理解世界,就需要解释和推理出多模态数 据中有用的信息和特征。多模态机器学习旨在建 立一个可以处理和关联多种模态之间交互信息的 模型框架,从早期基于视听语音识别的研究到近 期新兴的语义和视觉领域应用,多模态机器学习 逐渐发展成一个有巨大挖掘潜力和研究价值的交 叉学科。 多模态机器学习虽然能够学习不同模态数据 的深层特征表达,但是由于模态间的差异大小和 影响因子的不同,目前多模态技术还存在以下 3 个方面的挑战。 1) 特征表达:对于同一种物体来说,不同的 模态形式可能包含了同样的信息,因此,如何去 除冗余属性,更好地总结和表示出不同模态的互 补信息,仍是值得深入研究和探讨的问题。 2) 关联和转换:如何将两个不同模态的信息 关联起来,或者怎样把一种模态映射到另一种模 态空间中去,是一个巨大的挑战。 3) 融合与共同学习:在同一个特征映射空间 中,将两种模态相互融合,使每个模态对最终的 输出都产生相应的影响,即共同学习。 1.2 宽度学习方法 传统的神经网络如 BP 网络,因其反向传播 计算的运行时间长、容易陷入局部最优等缺陷, 网络的分类性能往往受初始化区域的影响较大。 为了有效解决这些问题,不少研究者致力于寻求 简单的单层网络模型,利用广义逆直接求解全局 最优来优化网络的效率,因此基于宽度的网络结 构逐渐发展起来。典型的方法有单层前馈神经网 络 (single layer feedforward neural networks, SLFN)[12] 、 随机向量功能连接网络 (random vector functional link neural network, RVFL)[13-15] 、极限学习机 (ex￾treme learning machine, ELM)[16-18]等。 宽度学习方法[11]是由澳门大学陈俊龙教授提 出的一种基于 RVFL 平面网络结构的增量学习算 法,模型结构如图 1 所示。与传统 RVFL 结构不 同的是,宽度学习系统的输入权值矩阵不是随机 生成,而是通过稀疏自编码方式经编码后,在解 码过程中选取了最优权值。宽度学习方法的输入 样本经过一次线性变换后将特征表达映射在特征 平面上形成特征节点,得到的特征节点再经过激 活函数非线性变换生成增强节点。特征节点和增 强节点共同连接作为系统的实际输入信号,经由 连接矩阵线性输出。与 RVFL 相同,考虑到经典 BP 算法的高时间成本和容易陷入局部最优等缺 点,宽度学习方法采用岭回归广义逆直接求取输 出连接矩阵。 Z Z W Y A X … … H H 图 1 BLS 基本结构 Fig. 1 Basic BLS structure X ∈ R 给定输入数据 N×M ,其中 N 表示输入样 本个数,M 表示每个样本向量的特征维数。假设 特征节点的个数为 b,则根据宽度结构可以得到 特征平面上的特征如式 (1): Z N×b = X N×M ·WM×b e (1) 式中 We是由稀疏自编码求得的最优输入权值矩 阵。若生成 d 个增强节点,高层特征可表示为 第 1 期 贾晨,等:基于宽度学习方法的多模态信息融合 ·151·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有