第14卷第1期 智能系统学报 Vol.14 No.I 2019年1月 CAAI Transactions on Intelligent Systems Jan.2019 D0:10.11992/tis.201803022 网络出版地址:http:/kns.cnki.net/kcms/detail/23.1538.TP.20180522.1345.002.html 基于宽度学习方法的多模态信息融合 贾晨,刘华平23,续欣莹,孙富春23 (1.太原理工大学电气与动力工程学院,山西太原030600:2.清华大学计算机科学与技术系,北京100084; 3.清华大学智能技术与系统国家重点实验室,北京100084) 摘要:多模态机器学习通过有效学习各个模态的丰富特征来解决不同模态数据的融合问题。考虑到模态间 的差异性,基于宽度学习方法提出了一个能够学习和融合两种模态特征的框架,首先利用宽度学习方法分别提 取不同模态的抽象特征,然后将高维特征表示在同一个特征空间进行相关性学习,并通过非线性融合得到最后 的特征表达,输入分类器进行目标识别。相关实验建立在康奈尔大学抓取数据集和华盛顿大学RGB-D数据集 上,实验结果验证了相比于传统的融合方法,所提出的方法具有更好的稳定性和快速性。 关键词:宽度学习方法;多模态融合;相关性分析;特征提取;非线性变换;目标识别;神经网络;RGB-D图像 分类 中图分类号:TP391文献标志码:A文章编号:1673-4785(2019)01-0150-08 中文引用格式:贾晨,刘华平,续欣莹,等.基于宽度学习方法的多模态信息融合.智能系统学报,2019,14(1):150-157. 英文引用格式:JIA Chen,LIU Huaping,XU Xinying,etal.Multi--modal information fusion based on broad learning method Jl. CAAI transactions on intelligent systems,2019,14(1):150-157. Multi-modal information fusion based on broad learning method JIA Chen',LIU Huaping2,XU Xinying',SUN Fuchun23 (1.College of Electrical and Power Engineering,Taiyuan University of Technology,Taiyuan 030600,China;2.Department of Com- puter Science and Technology,Tsinghua University,Beijing 100084,China;3.State Key Laboratory of Intelligent Technology and Systems,Tsinghua University,Beijing 100084,China) Abstract:Multi-modal machine learning solves the fusion problem that arises in data with different modalites by effect- ively learning their rich characteristics.Considering the differences between various modalities,we propose a frame- work that can learn and fuse two kinds of modal characteristics based on the broad learning method.This method first extracts different abstract characteristics,then represents the high-dimension features in the same space to determine their correlation.We obtain a final representation of these characteristics by nonlinear fusion and inputs these character- istics into a classifier for target recognition.Relevant experiments are conducted on the Cornell Grasping Dataset and the Washington RGB-D Object Dataset,and our experimental results confirm that,compared with traditional fusion methods,the proposed algorithm has greater stability and rapidity. Keywords:broad learning method;multi-modal fusion;correlation analysis;feature extraction;nonlinear transforma- tion;object recognition;neural networks;RGB-D images classification 现实世界中数据信息是以包括图像、文本、年来,以多模态为研究对象的机器学习算法不断 声音、纹理等多种模态形式存在的。信息和科技 涌现,使得多模态机器学习成为科研人员广泛关 智能化发展为机器学习方法提供了硬件条件。近 注的研究热点。以机器人为例,越来越多的研究 定位于机器人感知系统的设计,仅靠单模态中典 收稿日期:2018-03-16.网络出版日期:2018-05-23. 基金项目:国家自然科学基金项目(61673238):国家高技术研 型的视觉图像分割四、物体检测等任务已经不能 究发展计划课题(2015AA042306):山西省回国留学 人员科研资助项目(2015-045,2016-044). 完全满足机器人的识别与感知需求。在机器人手 通信作者:刘华平.E-mail:hpliu@tsinghua.edu.cn 势交互领域,视觉手势与其他模态(表情、方向
DOI: 10.11992/tis.201803022 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20180522.1345.002.html 基于宽度学习方法的多模态信息融合 贾晨1 ,刘华平2,3,续欣莹1 ,孙富春2,3 (1. 太原理工大学 电气与动力工程学院,山西 太原 030600; 2. 清华大学 计算机科学与技术系,北京 100084; 3. 清华大学 智能技术与系统国家重点实验室,北京 100084) 摘 要:多模态机器学习通过有效学习各个模态的丰富特征来解决不同模态数据的融合问题。考虑到模态间 的差异性,基于宽度学习方法提出了一个能够学习和融合两种模态特征的框架,首先利用宽度学习方法分别提 取不同模态的抽象特征,然后将高维特征表示在同一个特征空间进行相关性学习,并通过非线性融合得到最后 的特征表达,输入分类器进行目标识别。相关实验建立在康奈尔大学抓取数据集和华盛顿大学 RGB-D 数据集 上,实验结果验证了相比于传统的融合方法,所提出的方法具有更好的稳定性和快速性。 关键词:宽度学习方法;多模态融合;相关性分析;特征提取;非线性变换;目标识别;神经网络;RGB-D 图像 分类 中图分类号:TP391 文献标志码:A 文章编号:1673−4785(2019)01−0150−08 中文引用格式:贾晨, 刘华平, 续欣莹, 等. 基于宽度学习方法的多模态信息融合[J]. 智能系统学报, 2019, 14(1): 150–157. 英文引用格式:JIA Chen, LIU Huaping, XU Xinying, et al. Multi-modal information fusion based on broad learning method[J]. CAAI transactions on intelligent systems, 2019, 14(1): 150–157. Multi-modal information fusion based on broad learning method JIA Chen1 ,LIU Huaping2,3 ,XU Xinying1 ,SUN Fuchun2,3 (1. College of Electrical and Power Engineering, Taiyuan University of Technology, Taiyuan 030600, China; 2. Department of Computer Science and Technology, Tsinghua University, Beijing 100084, China; 3. State Key Laboratory of Intelligent Technology and Systems, Tsinghua University, Beijing 100084, China) Abstract: Multi-modal machine learning solves the fusion problem that arises in data with different modalites by effectively learning their rich characteristics. Considering the differences between various modalities, we propose a framework that can learn and fuse two kinds of modal characteristics based on the broad learning method. This method first extracts different abstract characteristics, then represents the high-dimension features in the same space to determine their correlation. We obtain a final representation of these characteristics by nonlinear fusion and inputs these characteristics into a classifier for target recognition. Relevant experiments are conducted on the Cornell Grasping Dataset and the Washington RGB-D Object Dataset, and our experimental results confirm that, compared with traditional fusion methods, the proposed algorithm has greater stability and rapidity. Keywords: broad learning method; multi-modal fusion; correlation analysis; feature extraction; nonlinear transformation; object recognition; neural networks; RGB-D images classification 现实世界中数据信息是以包括图像、文本、 声音、纹理等多种模态形式存在的。信息和科技 智能化发展为机器学习方法提供了硬件条件。近 年来,以多模态为研究对象的机器学习算法不断 涌现,使得多模态机器学习成为科研人员广泛关 注的研究热点。以机器人为例,越来越多的研究 定位于机器人感知系统的设计,仅靠单模态中典 型的视觉图像分割[1] 、物体检测[2]等任务已经不能 完全满足机器人的识别与感知需求。在机器人手 势交互领域,视觉手势与其他模态 (表情、方向、 收稿日期:2018−03−16. 网络出版日期:2018−05−23. 基金项目:国家自然科学基金项目 (61673238);国家高技术研 究发展计划课题 (2015AA042306);山西省回国留学 人员科研资助项目 (2015-045,2016-044). 通信作者:刘华平. E-mail:hpliu@tsinghua.edu.cn. 第 14 卷第 1 期 智 能 系 统 学 报 Vol.14 No.1 2019 年 1 月 CAAI Transactions on Intelligent Systems Jan. 2019
第1期 贾晨,等:基于宽度学习方法的多模态信息融合 ·151· 声音、触觉等)相结合能够增强交互的高效性和 关联起来,或者怎样把一种模态映射到另一种模 互补性。将不同隐含层局部模态信息融合得到 态空间中去,是一个巨大的挑战。 的全局特征用于人脸识别,可以多元化检测人脸 3)融合与共同学习:在同一个特征映射空间 并解决遮挡问题。在机器人情感分析方面,有 中,将两种模态相互融合,使每个模态对最终的 效结合文本和图像特征并对融合语义进行训练, 输出都产生相应的影响,即共同学习。 会得到优于单一模态的情感分类效果。此外, 1.2宽度学习方法 对多模态异构数据进行相关性度量有助于提高视 传统的神经网络如BP网络,因其反向传播 频检索效率。实现基于道路场景理解的多模态 计算的运行时间长、容易陷入局部最优等缺陷, 信息(RGB-D、超声、激光雷达等)融合可以提高复 网络的分类性能往往受初始化区域的影响较大。 杂环境下环境感知和道路识别的准确性与可靠性, 为了有效解决这些问题,不少研究者致力于寻求 有助于机器人实时路径规划和自主定位与导航。 简单的单层网络模型,利用广义逆直接求解全局 以上研究大多基于时下流行的深度学习算 最优来优化网络的效率,因此基于宽度的网络结 法。考虑到深度结构运行时间长、难以收敛等性 构逐渐发展起来。典型的方法有单层前馈神经网 质,本文旨在寻求一种简单、高效的机器学习技 (single layer feedforward neural networks,SLFN) 术,在降低模型训练时间、节约成本的基础上对 随机向量功能连接网络(random vector functional 不同模态信息进行融合学习,提高系统识别的准 link neural network,.RVFL)3-l、极限学习机(ex 确率。宽度学习系统(broad learning system,BLS) treme learning machine,.ELM)-i等。 方法以其强大的数学理论支撑、简单的平层网络 宽度学习方法是由澳门大学陈俊龙教授提 结构、快速的增量建模过程等优点,成功地应用 出的一种基于RVFL平面网络结构的增量学习算 于各种分类和回归任务中,尤其在图像分类问题 上表现出优越的性能。因此,本文基于宽度学 法,模型结构如图1所示。与传统RVFL结构不 习方法提出了一种用于解决多模态数据特征融合 同的是,宽度学习系统的输入权值矩阵不是随机 问题的模型框架,通过对各个模态并行学习、联 生成,而是通过稀疏自编码方式经编码后,在解 合映射、串联融合后根据得到的特征实现分类输 码过程中选取了最优权值。宽度学习方法的输入 出。实验结果表明,本文提出的融合方法能有效 样本经过一次线性变换后将特征表达映射在特征 提高系统的分类性能。 平面上形成特征节点,得到的特征节点再经过激 活函数非线性变换生成增强节点。特征节点和增 相关知识 强节点共同连接作为系统的实际输入信号,经由 连接矩阵线性输出。与RVFL相同,考虑到经典 1.1多模态机器学习 BP算法的高时间成本和容易陷人局部最优等缺 一般而言,模态是指事件发生或客观物体存 点,宽度学习方法采用岭回归广义逆直接求取输 在的形态。为了更好地利用人工智能来帮助我们 出连接矩阵。 感知和理解世界,就需要解释和推理出多模态数 据中有用的信息和特征。多模态机器学习旨在建 立一个可以处理和关联多种模态之间交互信息的 模型框架,从早期基于视听语音识别的研究到近 期新兴的语义和视觉领域应用,多模态机器学习 …(H 逐渐发展成一个有巨大挖掘潜力和研究价值的交 介 叉学科。 X 多模态机器学习虽然能够学习不同模态数据 图1BLS基本结构 的深层特征表达,但是由于模态间的差异大小和 Fig.1 Basic BLS structure 影响因子的不同,目前多模态技术还存在以下 给定输入数据X∈RxM,其中N表示输入样 3个方面的挑战。 本个数,M表示每个样本向量的特征维数。假设 1)特征表达:对于同一种物体来说,不同的 特征节点的个数为b,则根据宽度结构可以得到 模态形式可能包含了同样的信息,因此,如何去 特征平面上的特征如式(1): 除冗余属性,更好地总结和表示出不同模态的互 2Nxb =XNxM.WMxh (1) 补信息,仍是值得深人研究和探讨的问题。 式中W是由稀疏自编码求得的最优输入权值矩 2)关联和转换:如何将两个不同模态的信息 阵。若生成d个增强节点,高层特征可表示为
声音、触觉等) 相结合能够增强交互的高效性和 互补性[3]。将不同隐含层局部模态信息融合得到 的全局特征用于人脸识别,可以多元化检测人脸 并解决遮挡问题[4]。在机器人情感分析方面,有 效结合文本和图像特征并对融合语义进行训练, 会得到优于单一模态的情感分类效果[5]。此外, 对多模态异构数据进行相关性度量有助于提高视 频检索效率[6]。实现基于道路场景理解的多模态 信息 (RGB-D、超声、激光雷达等) 融合可以提高复 杂环境下环境感知和道路识别的准确性与可靠性, 有助于机器人实时路径规划和自主定位与导航[7-10]。 以上研究大多基于时下流行的深度学习算 法。考虑到深度结构运行时间长、难以收敛等性 质,本文旨在寻求一种简单、高效的机器学习技 术,在降低模型训练时间、节约成本的基础上对 不同模态信息进行融合学习,提高系统识别的准 确率。宽度学习系统 (broad learning system, BLS) 方法以其强大的数学理论支撑、简单的平层网络 结构、快速的增量建模过程等优点,成功地应用 于各种分类和回归任务中,尤其在图像分类问题 上表现出优越的性能[11]。因此,本文基于宽度学 习方法提出了一种用于解决多模态数据特征融合 问题的模型框架,通过对各个模态并行学习、联 合映射、串联融合后根据得到的特征实现分类输 出。实验结果表明,本文提出的融合方法能有效 提高系统的分类性能。 1 相关知识 1.1 多模态机器学习 一般而言,模态是指事件发生或客观物体存 在的形态。为了更好地利用人工智能来帮助我们 感知和理解世界,就需要解释和推理出多模态数 据中有用的信息和特征。多模态机器学习旨在建 立一个可以处理和关联多种模态之间交互信息的 模型框架,从早期基于视听语音识别的研究到近 期新兴的语义和视觉领域应用,多模态机器学习 逐渐发展成一个有巨大挖掘潜力和研究价值的交 叉学科。 多模态机器学习虽然能够学习不同模态数据 的深层特征表达,但是由于模态间的差异大小和 影响因子的不同,目前多模态技术还存在以下 3 个方面的挑战。 1) 特征表达:对于同一种物体来说,不同的 模态形式可能包含了同样的信息,因此,如何去 除冗余属性,更好地总结和表示出不同模态的互 补信息,仍是值得深入研究和探讨的问题。 2) 关联和转换:如何将两个不同模态的信息 关联起来,或者怎样把一种模态映射到另一种模 态空间中去,是一个巨大的挑战。 3) 融合与共同学习:在同一个特征映射空间 中,将两种模态相互融合,使每个模态对最终的 输出都产生相应的影响,即共同学习。 1.2 宽度学习方法 传统的神经网络如 BP 网络,因其反向传播 计算的运行时间长、容易陷入局部最优等缺陷, 网络的分类性能往往受初始化区域的影响较大。 为了有效解决这些问题,不少研究者致力于寻求 简单的单层网络模型,利用广义逆直接求解全局 最优来优化网络的效率,因此基于宽度的网络结 构逐渐发展起来。典型的方法有单层前馈神经网 络 (single layer feedforward neural networks, SLFN)[12] 、 随机向量功能连接网络 (random vector functional link neural network, RVFL)[13-15] 、极限学习机 (extreme learning machine, ELM)[16-18]等。 宽度学习方法[11]是由澳门大学陈俊龙教授提 出的一种基于 RVFL 平面网络结构的增量学习算 法,模型结构如图 1 所示。与传统 RVFL 结构不 同的是,宽度学习系统的输入权值矩阵不是随机 生成,而是通过稀疏自编码方式经编码后,在解 码过程中选取了最优权值。宽度学习方法的输入 样本经过一次线性变换后将特征表达映射在特征 平面上形成特征节点,得到的特征节点再经过激 活函数非线性变换生成增强节点。特征节点和增 强节点共同连接作为系统的实际输入信号,经由 连接矩阵线性输出。与 RVFL 相同,考虑到经典 BP 算法的高时间成本和容易陷入局部最优等缺 点,宽度学习方法采用岭回归广义逆直接求取输 出连接矩阵。 Z Z W Y A X … … H H 图 1 BLS 基本结构 Fig. 1 Basic BLS structure X ∈ R 给定输入数据 N×M ,其中 N 表示输入样 本个数,M 表示每个样本向量的特征维数。假设 特征节点的个数为 b,则根据宽度结构可以得到 特征平面上的特征如式 (1): Z N×b = X N×M ·WM×b e (1) 式中 We是由稀疏自编码求得的最优输入权值矩 阵。若生成 d 个增强节点,高层特征可表示为 第 1 期 贾晨,等:基于宽度学习方法的多模态信息融合 ·151·
·152· 智能系统学报 第14卷 Hd=(Zb.W+β%d) (2) 模态间相关性的参数P,即 式中:W和B分别代表随机矩阵和偏置;()是一 uEsyv 个可选择的非线性激活函数。将特征节点和增强 p=max Vurau vVTEyv (5) 节点相连得到的合并矩阵作为系统的实际输入, 式中∑、∑.和Σ,代表类间和类内协方差矩阵,即 并假设输出矩阵为Y∈RQ,则宽度模型可以由 式(3)求出: =1=2 yNxe =ANx(bd).Wbtdxe=[ZNxbHNx4].W(btdxe (3) 式中:A代表BLS的实际输人矩阵;W代表输出 Ee=E[xxT]= (6) 连接权值矩阵,且W是通过对A+的岭回归近似根 据式(4)计算得到的: 三=w1-2w i=1 A'=lim(+AAT)AT (4) 实际应用中,式(⑤)表示的优化问题可以转化 为了直观地展示出宽度学习系统,图2给出 为特征值求解问题进行相关计算。 了BLS平面结构的立体模型,详细描述了一个输 2基于双宽度学习的典型相关性分析 入样本X通过BLS网络进行学习的全过程。其 中,Z表示特征节点层,H表示增强节点层,输出 为了实现多模态信息的融合问题,本文对宽 层为Y,网络仅需要学习输出矩阵W即可。 度学习方法进行了一定程度的创新和改进,并提 输出层Y 出了一个可以有效学习两种模态特征的融合算法 框架。 特征节点层Z 2.1双宽度学习结构 双宽度学习结构是一个以BLS为基本单元 输人样本X 增强布点层H 的双宽度学习(double broad learning,DBL)框架, 如图4所示,此结构主要由两个BLS单元组成, 用于处理不同模态的融合问题。图中Z和H分 图2BLS的3D模型 别表示特征节点和增强节点,下标C、D、R代表 Fig.2 3D BLS model 彩色通道、深度通道和融合节点层。当两种模态 1.3典型相关性分析 数据输入系统时,模型训练的过程可分为以下 典型相关性分析(CCA)是对两个数据集合 3个部分: 进行联合与降维的经典算法。对于两个没有显性 1)利用宽度学习单元分别提取每个模态的高 关联的数据集,CCA可以把不同模态的数据点映 维特征,主要包括特征节点映射特征和增强节点 射到同一个特征空间来构造关联规则。图3为 映射特征; CCA的基本匹配过程,通过将两种模态的数据样 2)在融合节点层将两个模态的特征映射经过 本进行连接,就可以得到相关特征子空间内 个非线性变换抽象融合起来; 对应的特征表达。 3)通过学习输出权值矩阵,利用岭回归广义 逆直接求取全局最优解得到输出类别属性。 8 0 .△ △0 ot。 -0集合2 集合2 0 … CCA 464 集合间的 CCA 特征向量 融合节点层 彩色 深度 图3CCA的匹配方式 图像 图像 Fig.3 CCA match way 图4DBL基本结构 根据CCA的关联方式,假设两个分别属于不 Fig.4 Basic DBL structure 同模态,样本个数一一对应的n维数据集合X和 2.1.1特征提取 Y,其中X={x1,x2,…,x,Y=yy2,,yn}。通过映 假设DBL模型的输人样本个数为N,设DBL 射基向量“和y进行线性变换,重新为每个集合 的特征节点和增强节点个数分别为N,和N2,则彩 中的数据点寻找一个新的坐标空间,并得到度量 色图像的特征表达式为
H N×d = ϕ(Z N×b ·Wb×d h +β N×d h ) (2) Wh βh ϕ(·) Y ∈ R N×Q 式中: 和 分别代表随机矩阵和偏置; 是一 个可选择的非线性激活函数。将特征节点和增强 节点相连得到的合并矩阵作为系统的实际输入, 并假设输出矩阵为 ,则宽度模型可以由 式 (3) 求出: Y N×Q = A N×(b+d) ·W(b+d)×Q = [Z N×b |H N×d ]·W(b+d)×Q (3) A + 式中:A 代表 BLS 的实际输入矩阵; W 代表输出 连接权值矩阵,且 W 是通过对 的岭回归近似根 据式 (4) 计算得到的: A + = lim λ→0 (λI+ AAT ) −1A T (4) 为了直观地展示出宽度学习系统,图 2 给出 了 BLS 平面结构的立体模型,详细描述了一个输 入样本 X 通过 BLS 网络进行学习的全过程。其 中,Z 表示特征节点层,H 表示增强节点层,输出 层为 Y,网络仅需要学习输出矩阵 W 即可。 输入样本 X 特征节点层 Z 增强节点层 H 输出层 Y 图 2 BLS 的 3D 模型 Fig. 2 3D BLS model 1.3 典型相关性分析 典型相关性分析 (CCA)[19]是对两个数据集合 进行联合与降维的经典算法。对于两个没有显性 关联的数据集,CCA 可以把不同模态的数据点映 射到同一个特征空间来构造关联规则。图 3 为 CCA 的基本匹配过程,通过将两种模态的数据样 本进行连接,就可以得到相关特征子空间内一一 对应的特征表达。 CCA 集合1 集合2 集合1 集合2 集合间的 CCA 特征向量 图 3 CCA 的匹配方式 Fig. 3 CCA match way X = {x1, x2,··· , xn},Y = {y1, y2,· · ·, yn} 根据 CCA 的关联方式,假设两个分别属于不 同模态,样本个数一一对应的 n 维数据集合 X 和 Y,其中 。通过映 射基向量 u 和 v 进行线性变换,重新为每个集合 中的数据点寻找一个新的坐标空间,并得到度量 模态间相关性的参数 ρ ,即 ρ = max u,v u TΣxyv √ u TΣxxu √ v TΣyyv (5) 式中 Σxy、Σxx 和 Σyy 代表类间和类内协方差矩阵,即 Σxy = E[xyT ] = 1 n ∑n i=1 xiyi T Σxx = E[xxT ] = 1 n ∑n i=1 xixi T Σyy = E[yyT ] = 1 n ∑n i=1 yiyi T (6) 实际应用中,式 (5) 表示的优化问题可以转化 为特征值求解问题进行相关计算。 2 基于双宽度学习的典型相关性分析 为了实现多模态信息的融合问题,本文对宽 度学习方法进行了一定程度的创新和改进,并提 出了一个可以有效学习两种模态特征的融合算法 框架。 2.1 双宽度学习结构 双宽度学习结构是一个以 BLS 为基本单元 的双宽度学习 (double broad learning, DBL) 框架, 如图 4 所示,此结构主要由两个 BLS 单元组成, 用于处理不同模态的融合问题。图中 Z 和 H 分 别表示特征节点和增强节点,下标 C、D、R 代表 彩色通道、深度通道和融合节点层。当两种模态 数据输入系统时,模型训练的过程可分为以下 3 个部分: 1) 利用宽度学习单元分别提取每个模态的高 维特征,主要包括特征节点映射特征和增强节点 映射特征; 2) 在融合节点层将两个模态的特征映射经过 一个非线性变换抽象融合起来; 3) 通过学习输出权值矩阵,利用岭回归广义 逆直接求取全局最优解得到输出类别属性。 彩色 图像 Y 深度 图像 A W 融合节点层 ZC HC ZD HD ZR HR … … … … 图 4 DBL 基本结构 Fig. 4 Basic DBL structure 2.1.1 特征提取 假设 DBL 模型的输入样本个数为 N,设 DBL 的特征节点和增强节点个数分别为 N1 和 N2,则彩 色图像的特征表达式为 ·152· 智 能 系 统 学 报 第 14 卷
第1期 贾晨,等:基于宽度学习方法的多模态信息融合 ·153· Ac=[ZH (7) 基于12节对BLS的描述,真正意义上的宽 式中由一个BLS单元生成、代表彩色图像的特征 度学习应该是将特征节点、增强节点、融合节点 节点和增强节点分别可以表示为 作为共同的特征,按照不同的权值共同作用于输 Z1={zz∈R“g (8) 出的网络。因此,DBL模型结构的输出连接矩阵 H=(hhy ER“g W包含了两种模态的特征节点层、增强节点层和 同理,另一个BLS单元生成的深度图像总特 最后一层融合节点层的总权值,可以很容易地由 征以及特征节点、增强节点分别为 式(12)所示的岭回归广义逆求得: AD=[ZH2 WI2(N:+N:+Nxo=[FNX2N+NTNxN+YNxO (12) Z2={zz∈R“% (9) 式中Y是由样本标签组成的O维one-hot形式的 H:=(hh ER 期望输出矩阵。 由于BLS生成特征节点过程中采用了稀疏 2.2基于双宽度学习的典型相关性分析 编码,在特征提取过程中自动去除了冗余信息, 图6表示基于双宽度学习的典型相关性分析 减小了训练的计算复杂度,根据多模态机器学习 (DBL-CCA)结构的多模态信息融合和学习过 概念,仅需要考虑后期不同模态融合过程中的信 息互补即可。为了更好地学习彩色和深度这两种 程。以DBL为基础,把2种模态经过特征节点和 模态的共同特征,在输入融合节点层之前,需要 增强节点粗提取的样本特征统一映射到CCA生 将彩色图像和深度图像进行混合,使得两种模态 成的特征子空间上进行学习、匹配和降维,然后 的图像映射到同一个样本空间。考虑到神经网络 再由融合节点直接非线性化融合,连接到输出层 的学习特性,DBL仅简单地将两种模态的特征并 进行分类输出。 联起来,作为最后提取的总特征和融合空间的净 增强节点层 输入: 特征节点层 FNX2N+N=[ACNXONNADNXON+N)] (10) 输人样本 融合节 2.1.2特征的融合与分类 彩色图像 CCA层 点层 对于特征融合部分,由2.1.1节的介绍和图5 输出层 所示立体模型可知,彩色图像模态和深度图像模 特征节点层 态混合的总特征F就是DBL融合节点层的新输 输入样本 入。值得注意的是,为了更好地将两种图像模态 深度图像 的信息结合起来,本文引人融合节点映射层,借 鉴传统神经网络的非线性拟合特点将不同的模态 增强节点层 特征抽象融合,最后利用输出矩阵进行快速有效 地学习,以提高系统的分类性能。假设融合节点 图6DBL-CCA模型 个数为N,则融合节点层输出为 Fig.6 DBL-CCA model TWxN,=(FNX2N+N).W2M+NaxN,+bNxN) (11) 因此,CCA在整个融合体系中承担着实现多 式中选取的()是一个S型非线性激活函数。 模态机器学习关联和转换任务的作用,同时 CCA的降维特性为简化模型提供了便利。由 增强节点层 DBL结构可知,CCA层的净输入为式(1O)求出的 特征节点层 特征F,其前L个最大主成分输出Px2L即为融合 节点层的实际输入。因此,式(11)变为 输人样本 彩色图像 融合节 输出层 TNXN,=6(PNx2L.WLxM+bNxN (13) 点层 3实验分析 特征节点层 输入样本 3.1康奈尔大学抓取数据集 深度图像 康奈尔大学抓取数据集0是判断给定物体是 否可被机器人抓取的开源数据集,包含240个待 点层 判断的物体,共885幅图像。每个图像划分为若 图5DBL的3D模型 干个抓取矩形框,分别代表不同的抓取位置。根 Fig.5 3D DBL model 据给定标签(正表示可抓取,负表示不可抓取)可
AC = [Z1 |H1 ] (7) 式中由一个 BLS 单元生成、代表彩色图像的特征 节点和增强节点分别可以表示为 Z1 = {zi zi ∈ R N1 } N i=1 H1 = {hj hj ∈ R N2 } N j=1 (8) 同理, 另一个 BLS 单元生成的深度图像总特 征以及特征节点、增强节点分别为 AD = [Z2|H2 ] Z2 = {zi zi ∈ R N1 } N i=1 H2 = {hj hj ∈ R N2 } N j=1 (9) 由于 BLS 生成特征节点过程中采用了稀疏 编码,在特征提取过程中自动去除了冗余信息, 减小了训练的计算复杂度,根据多模态机器学习 概念,仅需要考虑后期不同模态融合过程中的信 息互补即可。为了更好地学习彩色和深度这两种 模态的共同特征,在输入融合节点层之前,需要 将彩色图像和深度图像进行混合,使得两种模态 的图像映射到同一个样本空间。考虑到神经网络 的学习特性,DBL 仅简单地将两种模态的特征并 联起来,作为最后提取的总特征和融合空间的净 输入: F N×2(N1+N2 ) = [AC N×(N1+N2 ) |AD N×(N1+N2 ) ] (10) 2.1.2 特征的融合与分类 对于特征融合部分,由 2.1.1 节的介绍和图 5 所示立体模型可知,彩色图像模态和深度图像模 态混合的总特征 F 就是 DBL 融合节点层的新输 入。值得注意的是,为了更好地将两种图像模态 的信息结合起来,本文引入融合节点映射层,借 鉴传统神经网络的非线性拟合特点将不同的模态 特征抽象融合,最后利用输出矩阵进行快速有效 地学习,以提高系统的分类性能。假设融合节点 个数为 N3,则融合节点层输出为 T N×N3 = ϕ(F N×2(N1+N2) ·Wt 2(N1+N2 )×N3 + bt N ×N3) (11) 式中选取的 ϕ(·) 是一个 S 型非线性激活函数。 特征节点层 输入样本 彩色图像 特征节点层 输入样本 深度图像 增强节 点层 增强节点层 融合节 点层 输出层 图 5 DBL 的 3D 模型 Fig. 5 3D DBL model 基于 1.2 节对 BLS 的描述,真正意义上的宽 度学习应该是将特征节点、增强节点、融合节点 作为共同的特征,按照不同的权值共同作用于输 出的网络。因此,DBL 模型结构的输出连接矩阵 W 包含了两种模态的特征节点层、增强节点层和 最后一层融合节点层的总权值,可以很容易地由 式 (12) 所示的岭回归广义逆求得: W[2(N1+N2)+N3 ]×O = [F N×2(N1+N2 ) |T N×N3 ] +Y N×O (12) 式中 Y 是由样本标签组成的 O 维 one-hot 形式的 期望输出矩阵。 2.2 基于双宽度学习的典型相关性分析 图 6 表示基于双宽度学习的典型相关性分析 (DBL-CCA) 结构的多模态信息融合和学习过 程。以 DBL 为基础,把 2 种模态经过特征节点和 增强节点粗提取的样本特征统一映射到 CCA 生 成的特征子空间上进行学习、匹配和降维,然后 再由融合节点直接非线性化融合,连接到输出层 进行分类输出。 输入样本 彩色图像 特征节点层 增强节点层 输出层 融合节 点层 CCA 层 特征节点层 输入样本 深度图像 增强节点层 图 6 DBL-CCA 模型 Fig. 6 DBL-CCA model P N×2L 因此,CCA 在整个融合体系中承担着实现多 模态机器学习关联和转换任务的作用,同 时 CCA 的降维特性为简化模型提供了便利。由 DBL 结构可知,CCA 层的净输入为式 (10) 求出的 特征 F,其前 L 个最大主成分输出 即为融合 节点层的实际输入。因此,式 (11) 变为 T N×N3 = ϕ(P N×2L ·Wt 2L×N3 + bt N×N3 ) (13) 3 实验分析 3.1 康奈尔大学抓取数据集 康奈尔大学抓取数据集[20]是判断给定物体是 否可被机器人抓取的开源数据集,包含 240 个待 判断的物体,共 885 幅图像。每个图像划分为若 干个抓取矩形框,分别代表不同的抓取位置。根 据给定标签 (正表示可抓取,负表示不可抓取) 可 第 1 期 贾晨,等:基于宽度学习方法的多模态信息融合 ·153·
·154· 智能系统学报 第14卷 知,这是一个二分类的任务。已知矩形框共有 8019个,按照8:2的随机划分方式可得到6415 个训练样本和1604个测试样本,每个样本均包 含尺寸为24×24的3通道彩色图像和单通道深度 图像2种模态。 图7为抓取数据集的20个简单样例。图8 展示了实验采用的4种分类模型,每个模型中的 矩形框均代表机器人夹板的抓取操作矩形,矩形 框的宽边为夹板的初始位置,矩形框的长边表示 图7抓取数据集样例 机器人夹板的运行轨迹。 Fig.7 Grasp dataset examples 彩色图像 正例 可抓眠 正例 深度图像 可抓取 不可抓取 不可抓取 反例 彩色图像 反例 深度图像 (a)BLS分类彩色图像模型 (b)BLS分类深度图像模型 色图像 色图像 正例 正例 深度图像 深度图像 可抓取 不可抓取 不可抓取 反例 反例 深度图像 深度图像 (c)BLS分类混合图像模型 (d)DBL-CCA融合分类模型 图8实验采用的模型 Fig.8 Models used in our experiments DBL-CCA算法先通过特征提取及融合处理 3种方法都要高,运行时间也非常迅速,整体而言 彩色图像和深度图像,之后输入分类器对物体是 占有相当大的优势。 否可被机器人抓取作出分类判别。为了检验本文 表1不同图像模态的识别性能 模型的融合效果,对比模型采用BLS分别对彩色 Table 1 Different image modalities'recognition per- 图像、深度图像这两种单一模态以及两种图像的 formances 简单混合模态进行学习和分类。 图像模态 识别率/% 训练时间s 测试时间s 对于上述提出的4种模型结构,为了提高各 彩色 种模型性能的可比性,实验均设置了相同的特征 91.60 29.02 4.55 节点(100)和增强节点(400)个数、收敛因子 深度 90.90 1.08 0.40 (0.5)和正则化因子(20)大小等参数,并将DBL- 混合 92.60 35.03 6.60 CCA中CCA层的输出特征维度固定在200。重 融合 94.80 3.52 0.54 复5次随机试验得到的平均测试精度、训练时间 和测试时间如表1所示。从表中可以看出,只用 在融合彩色图像和深度图像的过程中,CCA BLS对彩色图像进行学习比只用深度图像学习得 层的输出特征维度会对融合结果产生一定程度的 到的分类精度高、时间长;混合两种模态能够提 影响,图9比较了DBL-CCA与CCA、Cluster-. 升分类性能,但特征维度的增加消耗了一些训练 CCA等算法在不同输出维度下的测试精度。可 时间。DBL-CCA融合算法的分类精度比以上 以看出,在CCA层输出特征维度为25时,DBL
知,这是一个二分类的任务。已知矩形框共有 8 019 个,按照 8∶2 的随机划分方式可得到 6 415 个训练样本和 1 604 个测试样本,每个样本均包 含尺寸为 24×24 的 3 通道彩色图像和单通道深度 图像 2 种模态。 图 7 为抓取数据集的 20 个简单样例。图 8 展示了实验采用的 4 种分类模型,每个模型中的 矩形框均代表机器人夹板的抓取操作矩形,矩形 框的宽边为夹板的初始位置,矩形框的长边表示 机器人夹板的运行轨迹。 图 7 抓取数据集样例 Fig. 7 Grasp dataset examples 彩色图像 彩色图像 正例 反例 BLS 可抓取 不可抓取 深度图像 深度图像 正例 反例 BLS 可抓取 不可抓取 BLS 可抓取 不可抓取 彩色图像 深度图像 彩色图像 深度图像 正例 反例 (a) BLS 分类彩色图像模型 (b) BLS 分类深度图像模型 (c) BLS 分类混合图像模型 彩色图像 深度图像 彩色图像 深度图像 正例 反例 可抓取 不可抓取 DBL-CCA (d) DBL-CCA 融合分类模型 图 8 实验采用的模型 Fig. 8 Models used in our experiments DBL-CCA 算法先通过特征提取及融合处理 彩色图像和深度图像,之后输入分类器对物体是 否可被机器人抓取作出分类判别。为了检验本文 模型的融合效果,对比模型采用 BLS 分别对彩色 图像、深度图像这两种单一模态以及两种图像的 简单混合模态进行学习和分类。 2 −30 对于上述提出的 4 种模型结构,为了提高各 种模型性能的可比性,实验均设置了相同的特征 节点 (100) 和增强节点 (400) 个数、收敛因子 (0.5) 和正则化因子 ( ) 大小等参数,并将 DBLCCA 中 CCA 层的输出特征维度固定在 200。重 复 5 次随机试验得到的平均测试精度、训练时间 和测试时间如表 1 所示。从表中可以看出,只用 BLS 对彩色图像进行学习比只用深度图像学习得 到的分类精度高、时间长;混合两种模态能够提 升分类性能,但特征维度的增加消耗了一些训练 时间。DBL-CCA 融合算法的分类精度比以上 3 种方法都要高,运行时间也非常迅速,整体而言 占有相当大的优势。 表 1 不同图像模态的识别性能 Table 1 Different image modalities’ recognition performances 图像模态 识别率/% 训练时间/s 测试时间/s 彩色 91.60 29.02 4.55 深度 90.90 1.08 0.40 混合 92.60 35.03 6.60 融合 94.80 3.52 0.54 在融合彩色图像和深度图像的过程中,CCA 层的输出特征维度会对融合结果产生一定程度的 影响,图 9 比较了 DBL-CCA 与 CCA、ClusterCCA[21]等算法在不同输出维度下的测试精度。可 以看出,在 CCA 层输出特征维度为 25 时,DBL- ·154· 智 能 系 统 学 报 第 14 卷
第1期 贾晨,等:基于宽度学习方法的多模态信息融合 ·155· CCA和Cluster-CCA的拐点比CCA相对明显。随 噪声干扰。图10(b)为不同相关因子(r1和2)对 着维度的增加,DBL-CCA呈上升趋势,在200维 模型分类性能的影响程度,实验选取的参数范围 处达到最大值(95.01%):Cluster-CCA曲线有小幅 为10-6~10。从图10可以观察到,相比于节点数 度下降趋势;CCA精度曲线在100~200维之间有 目而言,相关因子对于识别率的影响较大,有更 小范围的波动。总体来说,DBL-CCA和Cluster- 加明显的局部极大值和极小值区域。 CCA算法相较于CCA而言曲线略平缓。因此, 100 实验结果可以证明DBL-CCA无论是从收敛速 95 05 度、上升趋势还是从分类精度上来看都占有极大 90 的优势,选取该结构作为多模态图像特征的融合 方法具备充分的高效性和稳定性。 I 8 为了比较不同参数对模型性能的作用和影 70 65 -pCCA 响,实验还对DBL-CCA的节点数目和相关因子 60 -Cluster-.CCA 进行了参数敏感度分析。图10(a)中的N2和N, --DBL-CCA 55 分别代表在{100,200,300,400,500,600,700,8001中变 50 50 100150 200250 化的增强节点和融合节点数目。增强节点和融合 输出维度 节点对图像识别精度产生的影响并不显著,说明 图9不同算法的测试精度 DBL-CCA融合框架具有很好的鲁棒性,能够过滤 Fig.9 Testing accuracies of various algorithms 100 1 95 95 90 85 800 10 00600 300000o005002 10 102 N 10 10 100 10s (a)神经元节点数对识别率的影响 (b)相关因子对识别率的影响 图10不同参数对识别率的影响 Fig.10 Recognition rates in different parameters 3.2华盛顿大学RGB-D数据集 为了验证本文提出方法的泛化性能,采用华 盛顿大学RGB-D数据集作进一步的拓展实验。 华盛顿大学RGB-D数据集由41877个RGB-D (a)苹果类别的3个实例 (彩色和深度)图像组成,包含了具有51种不同类 别的共300个实例物体。图11(a)表示“苹果”这 种类别的3个具体不同实例的彩色图像及其对应 的深度图像,图11(b)为部分样本的彩色图像。 该数据集的采集方法是:将每个物体放置在一个 转盘上,并使用Kinect的3D相机对转盘的一个 完整旋转周期进行录制。每个物体均包含3个视 频序列,分别记录在不同高度的摄像机上。实验 按照文献[22]的划分方式选取45°角拍摄的图像 (b)数据集中不同样本的彩色图像 生成测试集,由此可以得到用于物体识别的28009 图11RGB-D数据集示例 个训练样本和13868个测试样本。 Fig.11 Several RGB-D dataset examples
CCA 和 Cluster-CCA 的拐点比 CCA 相对明显。随 着维度的增加,DBL-CCA 呈上升趋势,在 200 维 处达到最大值 (95.01%);Cluster-CCA 曲线有小幅 度下降趋势;CCA 精度曲线在 100~200 维之间有 小范围的波动。总体来说,DBL-CCA和 ClusterCCA 算法相较于 CCA 而言曲线略平缓。因此, 实验结果可以证明 DBL-CCA 无论是从收敛速 度、上升趋势还是从分类精度上来看都占有极大 的优势,选取该结构作为多模态图像特征的融合 方法具备充分的高效性和稳定性。 {100,200,300,400,500,600,700,800} 为了比较不同参数对模型性能的作用和影 响,实验还对 DBL-CCA 的节点数目和相关因子 进行了参数敏感度分析。图 10(a) 中的 N2 和 N3 分别代表在 中变 化的增强节点和融合节点数目。增强节点和融合 节点对图像识别精度产生的影响并不显著,说明 DBL-CCA 融合框架具有很好的鲁棒性,能够过滤 10−6 ∼ 106 噪声干扰。图 10(b) 为不同相关因子 (r1 和 r2 ) 对 模型分类性能的影响程度,实验选取的参数范围 为 。从图 10 可以观察到,相比于节点数 目而言,相关因子对于识别率的影响较大,有更 加明显的局部极大值和极小值区域。 DBL-CCA Cluster-CCA 50 100 150 200 250 输出维度 100 95 90 85 80 75 70 65 60 55 50 0 测试精度/% CCA 图 9 不同算法的测试精度 Fig. 9 Testing accuracies of various algorithms 200 300 400 500 600 800 100 95 90 85 800 700 600 500 400 300 200 100 700 识别率/% N3 N2 (a) 神经元节点数对识别率的影响 80 100 95 90 识别率 85 /% 106 106 104 104 102 102 10−2 10−2 10−4 10−4 10−6 1 1 r2 r1 (b) 相关因子对识别率的影响 图 10 不同参数对识别率的影响 Fig. 10 Recognition rates in different parameters 3.2 华盛顿大学 RGB-D 数据集 为了验证本文提出方法的泛化性能,采用华 盛顿大学 RGB-D 数据集[22]作进一步的拓展实验。 华盛顿大学 RGB-D 数据集由 41 877 个 RGB-D (彩色和深度) 图像组成,包含了具有 51 种不同类 别的共 300 个实例物体。图 11(a) 表示“苹果”这 种类别的 3 个具体不同实例的彩色图像及其对应 的深度图像,图 11(b) 为部分样本的彩色图像。 该数据集的采集方法是:将每个物体放置在一个 转盘上,并使用 Kinect 的 3D 相机对转盘的一个 完整旋转周期进行录制。每个物体均包含 3 个视 频序列,分别记录在不同高度的摄像机上。实验 按照文献[22]的划分方式选取 45°角拍摄的图像 生成测试集,由此可以得到用于物体识别的 28 009 个训练样本和 13 868 个测试样本。 (a) 苹果类别的 3 个实例 (b) 数据集中不同样本的彩色图像 图 11 RGB-D 数据集示例 Fig. 11 Several RGB-D dataset examples 第 1 期 贾晨,等:基于宽度学习方法的多模态信息融合 ·155·
·156· 智能系统学 报 第14卷 在训练模型之前,将彩色模态和深度模态的 参考文献: 图像分别调整成大小为24×24的3通道图像和单 [1]雷俊,王立辉,何芸倩,等.适用于机器人视觉的图像分 通道图像,然后拉伸成1728维和576维的行向 割方法[.系统工程与电子技术,2017,39(7):1653- 量。在此基础上根据划分标签类型的不同,可以 1659 得到300个实例分类和50个类别分类的2种实 LEI Jun,WANG Lihui,HE Yungian,et al.Image segment- 验结果。 ation method for robot vision[J].Systems engineering and 表2说明了DBL-CCA融合算法能够有效学 electronics,2017,39(7):1653-1659. 习彩色与深度图像的高维非线性特征,其分类识 [2]毛玉仁,郭松,郑阳明,等.基于似物性判别的视觉目标 别的最优准确率明显高于单模态和线性混合 检测方法U.传感器与微系统,2017,36(11)147-150. 模型。表3为DBL-CCA模型在2种分类方式下 MAO Yuren,GUO Song,ZHENG Yangming,et al.Visu- 5次随机试验的平均训练和测试时间,相比于一 al object detection method based on objectness estima- 般的深度结构,此方法可以有效缩短模型的时间 tion[J].Transducer and microsystem technologies,2017, 成本,降低空间的计算复杂度。 36(11:147-150. [3]齐静,徐坤,丁希仑.机器人视觉手势交互技术研究进展 表2不同图像模态的识别准确率 Table 2 Recognition accuracy rates of various image [.机器人,2017,394):565-584 modalities % QI Jing,XU Kun,DING Xilun.Vision-based hand gesture recognition for human-robot interaction:a review[J].Ro- 图像模态 彩色 深度 混合 融合 bot,2017,394):565-584. 300分类 60.0 29.0 65.2 80.1 [4]王成济,罗志明,钟准,等.一种多层特征融合的人脸检 50分类 68.3 60.6 75.4 85.0 测方法☐.智能系统学报,2018,13(1)138-146 WANG Chengji,LUO Zhiming,ZHONG Zhun,et al.Face 表3DBL-CCA在不同分类方式下的消耗时间 detection method fusing multi-layer features[J].CAAI Table 3 Time consumptions of DBL-CCA in different methods of classification transactions on intelligent systems,2018,13(1):138-146. [5]吴钟强,张耀文,商琳基于语义特征的多视图情感分类 时间 训练时间 测试时间 方法.智能系统学报,2017,12(5:745-751. 300分类 51.2 7.3 WU Zhongqiang,ZHANG Yaowen,SHANG Lin.Multi- 50分类 26.4 6.5 view sentiment classification of microblogs based on se- mantic features[J].CAAI transactions on intelligent sys- 综上所述,本文提出的DBL-CCA能够有效 tems.2017,12(5:745-751. 提取不同模态图像的丰富信息,完成融合学习和 [6]温有福,贾彩燕,陈智能.一种多模态融合的网络视频相 分类任务,并在训练时间、测试精度以及参数影 关性度量方法).智能系统学报,2016,11(3):359-365. 响等方面表现出非常大的优势,使系统保持良好 WEN Youfu,JIA Caiyan,CHEN Zhineng.A multi-modal 识别性能的同时,兼备了较高的快速性、准确性 fusion approach for measuring web video relatedness[J]. 和鲁棒性。 CAAlI transactions on intelligent systems,2016,11(3): 359-365. 4结束语 [7]吴宗胜,傅卫平,韩改宁.基于深度卷积神经网络的道路 为了解决实际生活经常遇到的多模态融合问 场景理解).计算机工程与应用,2017,53(22:8-15. 题,本文提出一种新颖的DBL-CCA融合方法,通 WU Zongsheng,FU Weiping,HAN Gaining.Road scene 过融合学习各个输入模态的丰富特征对物体属性 understanding based on deep convolutional neural net- work[J].Computer engineering and applications,2017, 进行识别。考虑到训练时间、分类精度等方面的 53(22):8-15. 制约,DBL-CCA算法采用了宽度学习方法这种基 [8]吴宗胜,傅卫平.移动机器人全局路径规划的模拟退火 于平层网络的架构,并在康奈尔大学和华盛顿大 教与学优化算法[).机械科学与技术,2016,35(5) 学的多模态图像公开数据集上验证了算法的高效 678-685 性。在具体的研究与应用中,此方法能够帮助机 WU Zongsheng.FU Weiping.SA and teaching-learning- 器人完成快速准确的抓取操作:对于复杂环境下 based optimization algorithm for mobile robots global path 可能存在的不同噪声干扰,算法能否持续保有良 planning[J].Mechanical science and technology for 好的泛化性能,是一个值得深人研究的问题。 aerospace engineering,2016,35(5):678-685
在训练模型之前,将彩色模态和深度模态的 图像分别调整成大小为 24×24 的 3 通道图像和单 通道图像,然后拉伸成 1 728 维和 576 维的行向 量。在此基础上根据划分标签类型的不同,可以 得到 300 个实例分类和 50 个类别分类的 2 种实 验结果。 表 2 说明了 DBL-CCA 融合算法能够有效学 习彩色与深度图像的高维非线性特征,其分类识 别的最优准确率明显高于单模态和线性混合 模型。表 3 为 DBL-CCA 模型在 2 种分类方式下 5 次随机试验的平均训练和测试时间,相比于一 般的深度结构,此方法可以有效缩短模型的时间 成本,降低空间的计算复杂度。 表 2 不同图像模态的识别准确率 Table 2 Recognition accuracy rates of various image modalities % 图像模态 彩色 深度 混合 融合 300 分类 60.0 29.0 65.2 80.1 50 分类 68.3 60.6 75.4 85.0 表 3 DBL-CCA 在不同分类方式下的消耗时间 Table 3 Time consumptions of DBL-CCA in different methods of classification s 时间 训练时间 测试时间 300 分类 51.2 7.3 50 分类 26.4 6.5 综上所述,本文提出的 DBL-CCA 能够有效 提取不同模态图像的丰富信息,完成融合学习和 分类任务,并在训练时间、测试精度以及参数影 响等方面表现出非常大的优势,使系统保持良好 识别性能的同时,兼备了较高的快速性、准确性 和鲁棒性。 4 结束语 为了解决实际生活经常遇到的多模态融合问 题,本文提出一种新颖的 DBL-CCA 融合方法,通 过融合学习各个输入模态的丰富特征对物体属性 进行识别。考虑到训练时间、分类精度等方面的 制约,DBL-CCA 算法采用了宽度学习方法这种基 于平层网络的架构,并在康奈尔大学和华盛顿大 学的多模态图像公开数据集上验证了算法的高效 性。在具体的研究与应用中,此方法能够帮助机 器人完成快速准确的抓取操作;对于复杂环境下 可能存在的不同噪声干扰,算法能否持续保有良 好的泛化性能,是一个值得深入研究的问题。 参考文献: 雷俊, 王立辉, 何芸倩, 等. 适用于机器人视觉的图像分 割方法[J]. 系统工程与电子技术, 2017, 39(7): 1653– 1659. LEI Jun, WANG Lihui, HE Yunqian, et al. Image segmentation method for robot vision[J]. Systems engineering and electronics, 2017, 39(7): 1653–1659. [1] 毛玉仁, 郭松, 郑阳明, 等. 基于似物性判别的视觉目标 检测方法[J]. 传感器与微系统, 2017, 36(11): 147–150. MAO Yuren, GUO Song, ZHENG Yangming, et al. Visual object detection method based on objectness estimation[J]. Transducer and microsystem technologies, 2017, 36(11): 147–150. [2] 齐静, 徐坤, 丁希仑. 机器人视觉手势交互技术研究进展 [J]. 机器人, 2017, 39(4): 565–584. QI Jing, XU Kun, DING Xilun. Vision-based hand gesture recognition for human-robot interaction: a review[J]. Robot, 2017, 39(4): 565–584. [3] 王成济, 罗志明, 钟准, 等. 一种多层特征融合的人脸检 测方法[J]. 智能系统学报, 2018, 13(1): 138–146. WANG Chengji, LUO Zhiming, ZHONG Zhun, et al. Face detection method fusing multi-layer features[J]. CAAI transactions on intelligent systems, 2018, 13(1): 138–146. [4] 吴钟强, 张耀文, 商琳. 基于语义特征的多视图情感分类 方法[J]. 智能系统学报, 2017, 12(5): 745–751. WU Zhongqiang, ZHANG Yaowen, SHANG Lin. Multiview sentiment classification of microblogs based on semantic features[J]. CAAI transactions on intelligent systems, 2017, 12(5): 745–751. [5] 温有福, 贾彩燕, 陈智能. 一种多模态融合的网络视频相 关性度量方法[J]. 智能系统学报, 2016, 11(3): 359–365. WEN Youfu, JIA Caiyan, CHEN Zhineng. A multi-modal fusion approach for measuring web video relatedness[J]. CAAI transactions on intelligent systems, 2016, 11(3): 359–365. [6] 吴宗胜, 傅卫平, 韩改宁. 基于深度卷积神经网络的道路 场景理解[J]. 计算机工程与应用, 2017, 53(22): 8–15. WU Zongsheng, FU Weiping, HAN Gaining. Road scene understanding based on deep convolutional neural network[J]. Computer engineering and applications, 2017, 53(22): 8–15. [7] 吴宗胜, 傅卫平. 移动机器人全局路径规划的模拟退火- 教与学优化算法[J]. 机械科学与技术, 2016, 35(5): 678–685. WU Zongsheng, FU Weiping. SA and teaching-learning - based optimization algorithm for mobile robots global path planning[J]. Mechanical science and technology for aerospace engineering, 2016, 35(5): 678–685. [8] ·156· 智 能 系 统 学 报 第 14 卷
第1期 贾晨,等:基于宽度学习方法的多模态信息融合 ·157· [9]张文,刘勇,张超凡,等.基于方向A*算法的温室机器人 al receptive fields based extreme learning machine[J]. 实时路径规划).农业机械学报,2017,48(7):22-28. IEEE computational intelligence magazine,2015,10(2): ZHANG Wen,LIU Yong,ZHANG Chaofan,et al.Real- 18-29. time path planning of greenhouse robot based on direction- [19]HOTELLING H.Relations between two sets of variat- al A*algorithm[J].Transactions of the Chinese society for es[J.Biometrika,1936,28(3/4):321-377. agricultural machinery,2017,48(7):22-28. [20]LENZ I,LEE H,SAXENA A.Deep learning for detect- [10]张文,刘勇,张超凡,等.基于语义建图的室内机器人实 ing robotic grasps[J].The international journal of robot- 时场景分类).传感器与微系统,2017,36(8):18-21,28. ics research,2015,34(4/5):705-724. ZHANG Wen,LIU Yong,ZHANG Chaofan,et al.Real- [21]RASIWASIA N.MAHAJAN D.MAHADEVAN V,et al. time scene category of indoor robot based on semantic Cluster canonical correlation analysis[Cl/Proceedings of mapping[J].Transducer and microsystem technologies, the Seventeenth International Conference on Artificial In- 2017,36(8:18-21,28 telligence and Statistics.Reykjavik,Iceland,2014: [11]CHEN C L P,LIU Zhulin.Broad learning system:an ef- 823-831 fective and efficient incremental learning system without [22]LAI K,BO Leifeng,REN Xiaofeng,et al.A large-scale the need for deep architecture[J].IEEE transactions on hierarchical multi-view RGB-D object dataset[Cl//Pro- neural networks and learning systems,2018,29(1): ceedings of IEEE International Conference on Robotics 10-24 and Automation.Shanghai,China,2011:1817-1824. [12]HUANG Guangbin,BABRI H A.Upper bounds on the 作者简介: number of hidden neurons in feedforward networks with 贾晨,女,1992年生,硕士研究 arbitrary bounded nonlinear activation functions[J].IEEE 生,中国计算机学会会员,主要研究方 transactions on neural networks,1998.9(1):224-229. 向为智能控制、模式识别、机器视觉 [13]PAO Y H,TAKEFUJI Y.Functional-link net computing: 多模态融合。 theory,system architecture,and functionalities[J].Com- puter,.1992,25(S):76-79. [14]PAO Y H.PARK G H.SOBAJIC D J.Learning and gen- eralization characteristics of the random vector function- 刘华平,男,1976年生,副教授, al-link net[J].Neurocomputing,1994,6(2):163-180. 博士生导师,主要研究方向为机器人 [15]IGELNIK B,PAO Y H.Stochastic choice of basis func- 感知、学习与控制、多模态信息融合。 tions in adaptive function approximation and the function- al-link net[J].IEEE transactions on neural networks, 1995,6(6):1320-1329 [16]HUANG Guangbin,ZHU Qinyu,SIEW C K.Extreme 续欣莹,男,1979年生,副教授 learning machine:theory and applications[J].Neurocom- 主要研究方向为粗糙集、粒计算、数据 puting,2006,70(1/2/3):489-501. 挖掘、计算机视觉。 [17]HUANG Guangbin,CHEN Lei.Convex incremental ex- treme learning machine[J].Neurocomputing,2007, 70(16/17/18):3056-3062 [18]HUANG Guangbin,BAI Zuo,KASUN LL C,et al.Loc-
张文, 刘勇, 张超凡, 等. 基于方向 A*算法的温室机器人 实时路径规划[J]. 农业机械学报, 2017, 48(7): 22–28. ZHANG Wen, LIU Yong, ZHANG Chaofan, et al. Realtime path planning of greenhouse robot based on directional A* algorithm[J]. Transactions of the Chinese society for agricultural machinery, 2017, 48(7): 22–28. [9] 张文, 刘勇, 张超凡, 等. 基于语义建图的室内机器人实 时场景分类[J]. 传感器与微系统, 2017, 36(8): 18–21, 28. ZHANG Wen, LIU Yong, ZHANG Chaofan, et al. Realtime scene category of indoor robot based on semantic mapping[J]. Transducer and microsystem technologies, 2017, 36(8): 18–21, 28. [10] CHEN C L P, LIU Zhulin. Broad learning system: an effective and efficient incremental learning system without the need for deep architecture[J]. IEEE transactions on neural networks and learning systems, 2018, 29(1): 10–24. [11] HUANG Guangbin, BABRI H A. Upper bounds on the number of hidden neurons in feedforward networks with arbitrary bounded nonlinear activation functions[J]. IEEE transactions on neural networks, 1998, 9(1): 224–229. [12] PAO Y H, TAKEFUJI Y. Functional-link net computing: theory, system architecture, and functionalities[J]. Computer, 1992, 25(5): 76–79. [13] PAO Y H, PARK G H, SOBAJIC D J. Learning and generalization characteristics of the random vector functional-link net[J]. Neurocomputing, 1994, 6(2): 163–180. [14] IGELNIK B, PAO Y H. Stochastic choice of basis functions in adaptive function approximation and the functional-link net[J]. IEEE transactions on neural networks, 1995, 6(6): 1320–1329. [15] HUANG Guangbin, ZHU Qinyu, SIEW C K. Extreme learning machine: theory and applications[J]. Neurocomputing, 2006, 70(1/2/3): 489–501. [16] HUANG Guangbin, CHEN Lei. Convex incremental extreme learning machine[J]. Neurocomputing, 2007, 70(16/17/18): 3056–3062. [17] [18] HUANG Guangbin, BAI Zuo, KASUN L L C, et al. Local receptive fields based extreme learning machine[J]. IEEE computational intelligence magazine, 2015, 10(2): 18–29. HOTELLING H. Relations between two sets of variates[J]. Biometrika, 1936, 28(3/4): 321–377. [19] LENZ I, LEE H, SAXENA A. Deep learning for detecting robotic grasps[J]. The international journal of robotics research, 2015, 34(4/5): 705–724. [20] RASIWASIA N, MAHAJAN D, MAHADEVAN V, et al. Cluster canonical correlation analysis[C]//Proceedings of the Seventeenth International Conference on Artificial Intelligence and Statistics. Reykjavik, Iceland, 2014: 823–831. [21] LAI K, BO Leifeng, REN Xiaofeng, et al. A large-scale hierarchical multi-view RGB-D object dataset[C]//Proceedings of IEEE International Conference on Robotics and Automation. Shanghai, China, 2011: 1817–1824. [22] 作者简介: 贾晨,女,1992 年生,硕士研究 生,中国计算机学会会员,主要研究方 向为智能控制、模式识别、机器视觉、 多模态融合。 刘华平,男,1976 年生,副教授, 博士生导师,主要研究方向为机器人 感知、学习与控制、多模态信息融合。 续欣莹,男,1979 年生,副教授, 主要研究方向为粗糙集、粒计算、数据 挖掘、计算机视觉。 第 1 期 贾晨,等:基于宽度学习方法的多模态信息融合 ·157·