【机器学习】基于宽度学习方法的多模态信息融合

团购合买资源类别：文库，文档格式：PDF，文档页数：8，文件大小：1.37MB

第14卷第1期智能系统学报 Vol.14 No.I 2019年1月 CAAI Transactions on Intelligent Systems Jan.2019 D0:10.11992/tis.201803022 网络出版地址：http:/kns.cnki.net/kcms/detail/23.1538.TP.20180522.1345.002.html 基于宽度学习方法的多模态信息融合贾晨，刘华平23，续欣莹，孙富春23 (1.太原理工大学电气与动力工程学院，山西太原030600：2.清华大学计算机科学与技术系，北京100084； 3.清华大学智能技术与系统国家重点实验室，北京100084) 摘要：多模态机器学习通过有效学习各个模态的丰富特征来解决不同模态数据的融合问题。考虑到模态间的差异性，基于宽度学习方法提出了一个能够学习和融合两种模态特征的框架，首先利用宽度学习方法分别提取不同模态的抽象特征，然后将高维特征表示在同一个特征空间进行相关性学习，并通过非线性融合得到最后的特征表达，输入分类器进行目标识别。相关实验建立在康奈尔大学抓取数据集和华盛顿大学RGB-D数据集上，实验结果验证了相比于传统的融合方法，所提出的方法具有更好的稳定性和快速性。关键词：宽度学习方法；多模态融合；相关性分析；特征提取；非线性变换；目标识别；神经网络；RGB-D图像分类中图分类号：TP391文献标志码：A文章编号：1673-4785(2019)01-0150-08 中文引用格式：贾晨，刘华平，续欣莹，等.基于宽度学习方法的多模态信息融合.智能系统学报，2019,14(1)：150-157. 英文引用格式：JIA Chen,LIU Huaping,XU Xinying,etal.Multi--modal information fusion based on broad learning method Jl. CAAI transactions on intelligent systems,2019,14(1):150-157. Multi-modal information fusion based on broad learning method JIA Chen',LIU Huaping2,XU Xinying',SUN Fuchun23 (1.College of Electrical and Power Engineering,Taiyuan University of Technology,Taiyuan 030600,China;2.Department of Com- puter Science and Technology,Tsinghua University,Beijing 100084,China;3.State Key Laboratory of Intelligent Technology and Systems,Tsinghua University,Beijing 100084,China) Abstract:Multi-modal machine learning solves the fusion problem that arises in data with different modalites by effect- ively learning their rich characteristics.Considering the differences between various modalities,we propose a frame- work that can learn and fuse two kinds of modal characteristics based on the broad learning method.This method first extracts different abstract characteristics,then represents the high-dimension features in the same space to determine their correlation.We obtain a final representation of these characteristics by nonlinear fusion and inputs these character- istics into a classifier for target recognition.Relevant experiments are conducted on the Cornell Grasping Dataset and the Washington RGB-D Object Dataset,and our experimental results confirm that,compared with traditional fusion methods,the proposed algorithm has greater stability and rapidity. Keywords:broad learning method;multi-modal fusion;correlation analysis;feature extraction;nonlinear transforma- tion;object recognition;neural networks;RGB-D images classification 现实世界中数据信息是以包括图像、文本、年来，以多模态为研究对象的机器学习算法不断声音、纹理等多种模态形式存在的。信息和科技涌现，使得多模态机器学习成为科研人员广泛关智能化发展为机器学习方法提供了硬件条件。近注的研究热点。以机器人为例，越来越多的研究定位于机器人感知系统的设计，仅靠单模态中典收稿日期：2018-03-16.网络出版日期：2018-05-23. 基金项目：国家自然科学基金项目(61673238)：国家高技术研型的视觉图像分割四、物体检测等任务已经不能究发展计划课题(2015AA042306):山西省回国留学人员科研资助项目(2015-045,2016-044). 完全满足机器人的识别与感知需求。在机器人手通信作者：刘华平.E-mail:hpliu@tsinghua.edu.cn 势交互领域，视觉手势与其他模态（表情、方向

DOI: 10.11992/tis.201803022 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20180522.1345.002.html 基于宽度学习方法的多模态信息融合贾晨1 ，刘华平2,3，续欣莹1 ，孙富春2,3 （1. 太原理工大学电气与动力工程学院，山西太原 030600; 2. 清华大学计算机科学与技术系，北京 100084; 3. 清华大学智能技术与系统国家重点实验室，北京 100084）摘要：多模态机器学习通过有效学习各个模态的丰富特征来解决不同模态数据的融合问题。考虑到模态间的差异性，基于宽度学习方法提出了一个能够学习和融合两种模态特征的框架，首先利用宽度学习方法分别提取不同模态的抽象特征，然后将高维特征表示在同一个特征空间进行相关性学习，并通过非线性融合得到最后的特征表达，输入分类器进行目标识别。相关实验建立在康奈尔大学抓取数据集和华盛顿大学 RGB-D 数据集上，实验结果验证了相比于传统的融合方法，所提出的方法具有更好的稳定性和快速性。关键词：宽度学习方法；多模态融合；相关性分析；特征提取；非线性变换；目标识别；神经网络；RGB-D 图像分类中图分类号：TP391 文献标志码：A 文章编号：1673−4785(2019)01−0150−08 中文引用格式：贾晨, 刘华平, 续欣莹, 等. 基于宽度学习方法的多模态信息融合[J]. 智能系统学报, 2019, 14(1): 150–157. 英文引用格式：JIA Chen, LIU Huaping, XU Xinying, et al. Multi-modal information fusion based on broad learning method[J]. CAAI transactions on intelligent systems, 2019, 14(1): 150–157. Multi-modal information fusion based on broad learning method JIA Chen1 ，LIU Huaping2,3 ，XU Xinying1 ，SUN Fuchun2,3 (1. College of Electrical and Power Engineering, Taiyuan University of Technology, Taiyuan 030600, China; 2. Department of Computer Science and Technology, Tsinghua University, Beijing 100084, China; 3. State Key Laboratory of Intelligent Technology and Systems, Tsinghua University, Beijing 100084, China) Abstract: Multi-modal machine learning solves the fusion problem that arises in data with different modalites by effectively learning their rich characteristics. Considering the differences between various modalities, we propose a framework that can learn and fuse two kinds of modal characteristics based on the broad learning method. This method first extracts different abstract characteristics, then represents the high-dimension features in the same space to determine their correlation. We obtain a final representation of these characteristics by nonlinear fusion and inputs these characteristics into a classifier for target recognition. Relevant experiments are conducted on the Cornell Grasping Dataset and the Washington RGB-D Object Dataset, and our experimental results confirm that, compared with traditional fusion methods, the proposed algorithm has greater stability and rapidity. Keywords: broad learning method; multi-modal fusion; correlation analysis; feature extraction; nonlinear transformation; object recognition; neural networks; RGB-D images classification 现实世界中数据信息是以包括图像、文本、声音、纹理等多种模态形式存在的。信息和科技智能化发展为机器学习方法提供了硬件条件。近年来，以多模态为研究对象的机器学习算法不断涌现，使得多模态机器学习成为科研人员广泛关注的研究热点。以机器人为例，越来越多的研究定位于机器人感知系统的设计，仅靠单模态中典型的视觉图像分割[1] 、物体检测[2]等任务已经不能完全满足机器人的识别与感知需求。在机器人手势交互领域，视觉手势与其他模态 (表情、方向、收稿日期：2018−03−16. 网络出版日期：2018−05−23. 基金项目：国家自然科学基金项目 (61673238)；国家高技术研究发展计划课题 (2015AA042306)；山西省回国留学人员科研资助项目 (2015-045，2016-044). 通信作者：刘华平. E-mail：hpliu@tsinghua.edu.cn. 第 14 卷第 1 期智能系统学报 Vol.14 No.1 2019 年 1 月 CAAI Transactions on Intelligent Systems Jan. 2019

第1期贾晨，等：基于宽度学习方法的多模态信息融合 ·151· 声音、触觉等)相结合能够增强交互的高效性和关联起来，或者怎样把一种模态映射到另一种模互补性。将不同隐含层局部模态信息融合得到态空间中去，是一个巨大的挑战。的全局特征用于人脸识别，可以多元化检测人脸 3)融合与共同学习：在同一个特征映射空间并解决遮挡问题。在机器人情感分析方面，有中，将两种模态相互融合，使每个模态对最终的效结合文本和图像特征并对融合语义进行训练，输出都产生相应的影响，即共同学习。会得到优于单一模态的情感分类效果。此外， 1.2宽度学习方法对多模态异构数据进行相关性度量有助于提高视传统的神经网络如BP网络，因其反向传播频检索效率。实现基于道路场景理解的多模态计算的运行时间长、容易陷入局部最优等缺陷，信息(RGB-D、超声、激光雷达等)融合可以提高复网络的分类性能往往受初始化区域的影响较大。杂环境下环境感知和道路识别的准确性与可靠性，为了有效解决这些问题，不少研究者致力于寻求有助于机器人实时路径规划和自主定位与导航。简单的单层网络模型，利用广义逆直接求解全局以上研究大多基于时下流行的深度学习算最优来优化网络的效率，因此基于宽度的网络结法。考虑到深度结构运行时间长、难以收敛等性构逐渐发展起来。典型的方法有单层前馈神经网质，本文旨在寻求一种简单、高效的机器学习技 (single layer feedforward neural networks,SLFN) 术，在降低模型训练时间、节约成本的基础上对随机向量功能连接网络(random vector functional 不同模态信息进行融合学习，提高系统识别的准 link neural network,.RVFL)3-l、极限学习机(ex 确率。宽度学习系统(broad learning system,BLS) treme learning machine,.ELM)-i等。方法以其强大的数学理论支撑、简单的平层网络宽度学习方法是由澳门大学陈俊龙教授提结构、快速的增量建模过程等优点，成功地应用出的一种基于RVFL平面网络结构的增量学习算于各种分类和回归任务中，尤其在图像分类问题上表现出优越的性能。因此，本文基于宽度学法，模型结构如图1所示。与传统RVFL结构不习方法提出了一种用于解决多模态数据特征融合同的是，宽度学习系统的输入权值矩阵不是随机问题的模型框架，通过对各个模态并行学习、联生成，而是通过稀疏自编码方式经编码后，在解合映射、串联融合后根据得到的特征实现分类输码过程中选取了最优权值。宽度学习方法的输入出。实验结果表明，本文提出的融合方法能有效样本经过一次线性变换后将特征表达映射在特征提高系统的分类性能。平面上形成特征节点，得到的特征节点再经过激活函数非线性变换生成增强节点。特征节点和增相关知识强节点共同连接作为系统的实际输入信号，经由连接矩阵线性输出。与RVFL相同，考虑到经典 1.1多模态机器学习 BP算法的高时间成本和容易陷人局部最优等缺一般而言，模态是指事件发生或客观物体存点，宽度学习方法采用岭回归广义逆直接求取输在的形态。为了更好地利用人工智能来帮助我们出连接矩阵。感知和理解世界，就需要解释和推理出多模态数据中有用的信息和特征。多模态机器学习旨在建立一个可以处理和关联多种模态之间交互信息的模型框架，从早期基于视听语音识别的研究到近期新兴的语义和视觉领域应用，多模态机器学习 …(H 逐渐发展成一个有巨大挖掘潜力和研究价值的交介叉学科。 X 多模态机器学习虽然能够学习不同模态数据图1BLS基本结构的深层特征表达，但是由于模态间的差异大小和 Fig.1 Basic BLS structure 影响因子的不同，目前多模态技术还存在以下给定输入数据X∈RxM,其中N表示输入样 3个方面的挑战。本个数，M表示每个样本向量的特征维数。假设 1)特征表达：对于同一种物体来说，不同的特征节点的个数为b,则根据宽度结构可以得到模态形式可能包含了同样的信息，因此，如何去特征平面上的特征如式(1)：除冗余属性，更好地总结和表示出不同模态的互 2Nxb =XNxM.WMxh (1) 补信息，仍是值得深人研究和探讨的问题。式中W是由稀疏自编码求得的最优输入权值矩 2)关联和转换：如何将两个不同模态的信息阵。若生成d个增强节点，高层特征可表示为

声音、触觉等) 相结合能够增强交互的高效性和互补性[3]。将不同隐含层局部模态信息融合得到的全局特征用于人脸识别，可以多元化检测人脸并解决遮挡问题[4]。在机器人情感分析方面，有效结合文本和图像特征并对融合语义进行训练，会得到优于单一模态的情感分类效果[5]。此外，对多模态异构数据进行相关性度量有助于提高视频检索效率[6]。实现基于道路场景理解的多模态信息 (RGB-D、超声、激光雷达等) 融合可以提高复杂环境下环境感知和道路识别的准确性与可靠性，有助于机器人实时路径规划和自主定位与导航[7-10]。以上研究大多基于时下流行的深度学习算法。考虑到深度结构运行时间长、难以收敛等性质，本文旨在寻求一种简单、高效的机器学习技术，在降低模型训练时间、节约成本的基础上对不同模态信息进行融合学习，提高系统识别的准确率。宽度学习系统 (broad learning system, BLS) 方法以其强大的数学理论支撑、简单的平层网络结构、快速的增量建模过程等优点，成功地应用于各种分类和回归任务中，尤其在图像分类问题上表现出优越的性能[11]。因此，本文基于宽度学习方法提出了一种用于解决多模态数据特征融合问题的模型框架，通过对各个模态并行学习、联合映射、串联融合后根据得到的特征实现分类输出。实验结果表明，本文提出的融合方法能有效提高系统的分类性能。 1 相关知识 1.1 多模态机器学习一般而言，模态是指事件发生或客观物体存在的形态。为了更好地利用人工智能来帮助我们感知和理解世界，就需要解释和推理出多模态数据中有用的信息和特征。多模态机器学习旨在建立一个可以处理和关联多种模态之间交互信息的模型框架，从早期基于视听语音识别的研究到近期新兴的语义和视觉领域应用，多模态机器学习逐渐发展成一个有巨大挖掘潜力和研究价值的交叉学科。多模态机器学习虽然能够学习不同模态数据的深层特征表达，但是由于模态间的差异大小和影响因子的不同，目前多模态技术还存在以下 3 个方面的挑战。 1) 特征表达：对于同一种物体来说，不同的模态形式可能包含了同样的信息，因此，如何去除冗余属性，更好地总结和表示出不同模态的互补信息，仍是值得深入研究和探讨的问题。 2) 关联和转换：如何将两个不同模态的信息关联起来，或者怎样把一种模态映射到另一种模态空间中去，是一个巨大的挑战。 3) 融合与共同学习：在同一个特征映射空间中，将两种模态相互融合，使每个模态对最终的输出都产生相应的影响，即共同学习。 1.2 宽度学习方法传统的神经网络如 BP 网络，因其反向传播计算的运行时间长、容易陷入局部最优等缺陷，网络的分类性能往往受初始化区域的影响较大。为了有效解决这些问题，不少研究者致力于寻求简单的单层网络模型，利用广义逆直接求解全局最优来优化网络的效率，因此基于宽度的网络结构逐渐发展起来。典型的方法有单层前馈神经网络 (single layer feedforward neural networks, SLFN)[12] 、随机向量功能连接网络 (random vector functional link neural network, RVFL)[13-15] 、极限学习机 (extreme learning machine, ELM)[16-18]等。宽度学习方法[11]是由澳门大学陈俊龙教授提出的一种基于 RVFL 平面网络结构的增量学习算法，模型结构如图 1 所示。与传统 RVFL 结构不同的是，宽度学习系统的输入权值矩阵不是随机生成，而是通过稀疏自编码方式经编码后，在解码过程中选取了最优权值。宽度学习方法的输入样本经过一次线性变换后将特征表达映射在特征平面上形成特征节点，得到的特征节点再经过激活函数非线性变换生成增强节点。特征节点和增强节点共同连接作为系统的实际输入信号，经由连接矩阵线性输出。与 RVFL 相同，考虑到经典 BP 算法的高时间成本和容易陷入局部最优等缺点，宽度学习方法采用岭回归广义逆直接求取输出连接矩阵。 Z Z W Y A X … … H H 图 1 BLS 基本结构 Fig. 1 Basic BLS structure X ∈ R 给定输入数据 N×M ，其中 N 表示输入样本个数，M 表示每个样本向量的特征维数。假设特征节点的个数为 b，则根据宽度结构可以得到特征平面上的特征如式 (1)： Z N×b = X N×M ·WM×b e (1) 式中 We是由稀疏自编码求得的最优输入权值矩阵。若生成 d 个增强节点，高层特征可表示为第 1 期贾晨，等：基于宽度学习方法的多模态信息融合 ·151·

·152· 智能系统学报第14卷 Hd=(Zb.W+β%d) (2) 模态间相关性的参数P,即式中：W和B分别代表随机矩阵和偏置；()是一 uEsyv 个可选择的非线性激活函数。将特征节点和增强 p=max Vurau vVTEyv (5) 节点相连得到的合并矩阵作为系统的实际输入，式中∑、∑.和Σ，代表类间和类内协方差矩阵，即并假设输出矩阵为Y∈RQ,则宽度模型可以由式(3)求出： =1=2 yNxe =ANx(bd).Wbtdxe=[ZNxbHNx4].W(btdxe (3) 式中：A代表BLS的实际输人矩阵；W代表输出 Ee=E[xxT]= (6) 连接权值矩阵，且W是通过对A+的岭回归近似根据式(4)计算得到的：三=w1-2w i=1 A'=lim(+AAT)AT (4) 实际应用中，式（⑤）表示的优化问题可以转化为了直观地展示出宽度学习系统，图2给出为特征值求解问题进行相关计算。了BLS平面结构的立体模型，详细描述了一个输 2基于双宽度学习的典型相关性分析入样本X通过BLS网络进行学习的全过程。其中，Z表示特征节点层，H表示增强节点层，输出为了实现多模态信息的融合问题，本文对宽层为Y,网络仅需要学习输出矩阵W即可。度学习方法进行了一定程度的创新和改进，并提输出层Y 出了一个可以有效学习两种模态特征的融合算法框架。特征节点层Z 2.1双宽度学习结构双宽度学习结构是一个以BLS为基本单元输人样本X 增强布点层H 的双宽度学习(double broad learning,DBL)框架，如图4所示，此结构主要由两个BLS单元组成，用于处理不同模态的融合问题。图中Z和H分图2BLS的3D模型别表示特征节点和增强节点，下标C、D、R代表 Fig.2 3D BLS model 彩色通道、深度通道和融合节点层。当两种模态 1.3典型相关性分析数据输入系统时，模型训练的过程可分为以下典型相关性分析(CCA)是对两个数据集合 3个部分：进行联合与降维的经典算法。对于两个没有显性 1)利用宽度学习单元分别提取每个模态的高关联的数据集，CCA可以把不同模态的数据点映维特征，主要包括特征节点映射特征和增强节点射到同一个特征空间来构造关联规则。图3为映射特征； CCA的基本匹配过程，通过将两种模态的数据样 2)在融合节点层将两个模态的特征映射经过本进行连接，就可以得到相关特征子空间内个非线性变换抽象融合起来；对应的特征表达。 3)通过学习输出权值矩阵，利用岭回归广义逆直接求取全局最优解得到输出类别属性。 8 0 .△ △0 ot。 -0集合2 集合2 0 … CCA 464 集合间的 CCA 特征向量融合节点层彩色深度图3CCA的匹配方式图像图像 Fig.3 CCA match way 图4DBL基本结构根据CCA的关联方式，假设两个分别属于不 Fig.4 Basic DBL structure 同模态，样本个数一一对应的n维数据集合X和 2.1.1特征提取 Y,其中X={x1,x2,…,x,Y=yy2,,yn}。通过映假设DBL模型的输人样本个数为N,设DBL 射基向量“和y进行线性变换，重新为每个集合的特征节点和增强节点个数分别为N,和N2,则彩中的数据点寻找一个新的坐标空间，并得到度量色图像的特征表达式为

H N×d = ϕ(Z N×b ·Wb×d h +β N×d h ) (2) Wh βh ϕ(·) Y ∈ R N×Q 式中：和分别代表随机矩阵和偏置；是一个可选择的非线性激活函数。将特征节点和增强节点相连得到的合并矩阵作为系统的实际输入，并假设输出矩阵为，则宽度模型可以由式 (3) 求出： Y N×Q = A N×(b+d) ·W(b+d)×Q = [Z N×b |H N×d ]·W(b+d)×Q (3) A + 式中：A 代表 BLS 的实际输入矩阵; W 代表输出连接权值矩阵，且 W 是通过对的岭回归近似根据式 (4) 计算得到的： A + = lim λ→0 (λI+ AAT ) −1A T (4) 为了直观地展示出宽度学习系统，图 2 给出了 BLS 平面结构的立体模型，详细描述了一个输入样本 X 通过 BLS 网络进行学习的全过程。其中，Z 表示特征节点层，H 表示增强节点层，输出层为 Y，网络仅需要学习输出矩阵 W 即可。输入样本 X 特征节点层 Z 增强节点层 H 输出层 Y 图 2 BLS 的 3D 模型 Fig. 2 3D BLS model 1.3 典型相关性分析典型相关性分析 (CCA)[19]是对两个数据集合进行联合与降维的经典算法。对于两个没有显性关联的数据集，CCA 可以把不同模态的数据点映射到同一个特征空间来构造关联规则。图 3 为 CCA 的基本匹配过程，通过将两种模态的数据样本进行连接，就可以得到相关特征子空间内一一对应的特征表达。 CCA 集合1 集合2 集合1 集合2 集合间的 CCA 特征向量图 3 CCA 的匹配方式 Fig. 3 CCA match way X = {x1, x2,··· , xn},Y = {y1, y2,· · ·, yn} 根据 CCA 的关联方式，假设两个分别属于不同模态，样本个数一一对应的 n 维数据集合 X 和 Y，其中。通过映射基向量 u 和 v 进行线性变换，重新为每个集合中的数据点寻找一个新的坐标空间，并得到度量模态间相关性的参数 ρ ，即 ρ = max u,v u TΣxyv √ u TΣxxu √ v TΣyyv (5) 式中 Σxy、Σxx 和 Σyy 代表类间和类内协方差矩阵，即 Σxy = E[xyT ] = 1 n ∑n i=1 xiyi T Σxx = E[xxT ] = 1 n ∑n i=1 xixi T Σyy = E[yyT ] = 1 n ∑n i=1 yiyi T (6) 实际应用中，式 (5) 表示的优化问题可以转化为特征值求解问题进行相关计算。 2 基于双宽度学习的典型相关性分析为了实现多模态信息的融合问题，本文对宽度学习方法进行了一定程度的创新和改进，并提出了一个可以有效学习两种模态特征的融合算法框架。 2.1 双宽度学习结构双宽度学习结构是一个以 BLS 为基本单元的双宽度学习 (double broad learning, DBL) 框架，如图 4 所示，此结构主要由两个 BLS 单元组成，用于处理不同模态的融合问题。图中 Z 和 H 分别表示特征节点和增强节点，下标 C、D、R 代表彩色通道、深度通道和融合节点层。当两种模态数据输入系统时，模型训练的过程可分为以下 3 个部分： 1) 利用宽度学习单元分别提取每个模态的高维特征，主要包括特征节点映射特征和增强节点映射特征； 2) 在融合节点层将两个模态的特征映射经过一个非线性变换抽象融合起来； 3) 通过学习输出权值矩阵，利用岭回归广义逆直接求取全局最优解得到输出类别属性。彩色图像 Y 深度图像 A W 融合节点层 ZC HC ZD HD ZR HR … … … … 图 4 DBL 基本结构 Fig. 4 Basic DBL structure 2.1.1 特征提取假设 DBL 模型的输入样本个数为 N，设 DBL 的特征节点和增强节点个数分别为 N1 和 N2，则彩色图像的特征表达式为 ·152· 智能系统学报第 14 卷

第1期贾晨，等：基于宽度学习方法的多模态信息融合 ·153· Ac=[ZH (7) 基于12节对BLS的描述，真正意义上的宽式中由一个BLS单元生成、代表彩色图像的特征度学习应该是将特征节点、增强节点、融合节点节点和增强节点分别可以表示为作为共同的特征，按照不同的权值共同作用于输 Z1={zz∈R“g (8) 出的网络。因此，DBL模型结构的输出连接矩阵 H=(hhy ER“g W包含了两种模态的特征节点层、增强节点层和同理，另一个BLS单元生成的深度图像总特最后一层融合节点层的总权值，可以很容易地由征以及特征节点、增强节点分别为式(12)所示的岭回归广义逆求得： AD=[ZH2 WI2(N:+N:+Nxo=[FNX2N+NTNxN+YNxO (12) Z2={zz∈R“% (9) 式中Y是由样本标签组成的O维one-hot形式的 H:=(hh ER 期望输出矩阵。由于BLS生成特征节点过程中采用了稀疏 2.2基于双宽度学习的典型相关性分析编码，在特征提取过程中自动去除了冗余信息，图6表示基于双宽度学习的典型相关性分析减小了训练的计算复杂度，根据多模态机器学习 (DBL-CCA)结构的多模态信息融合和学习过概念，仅需要考虑后期不同模态融合过程中的信息互补即可。为了更好地学习彩色和深度这两种程。以DBL为基础，把2种模态经过特征节点和模态的共同特征，在输入融合节点层之前，需要增强节点粗提取的样本特征统一映射到CCA生将彩色图像和深度图像进行混合，使得两种模态成的特征子空间上进行学习、匹配和降维，然后的图像映射到同一个样本空间。考虑到神经网络再由融合节点直接非线性化融合，连接到输出层的学习特性，DBL仅简单地将两种模态的特征并进行分类输出。联起来，作为最后提取的总特征和融合空间的净增强节点层输入：特征节点层 FNX2N+N=[ACNXONNADNXON+N)] (10) 输人样本融合节 2.1.2特征的融合与分类彩色图像 CCA层点层对于特征融合部分，由2.1.1节的介绍和图5 输出层所示立体模型可知，彩色图像模态和深度图像模特征节点层态混合的总特征F就是DBL融合节点层的新输输入样本入。值得注意的是，为了更好地将两种图像模态深度图像的信息结合起来，本文引人融合节点映射层，借鉴传统神经网络的非线性拟合特点将不同的模态增强节点层特征抽象融合，最后利用输出矩阵进行快速有效地学习，以提高系统的分类性能。假设融合节点图6DBL-CCA模型个数为N,则融合节点层输出为 Fig.6 DBL-CCA model TWxN,=(FNX2N+N).W2M+NaxN,+bNxN) (11) 因此，CCA在整个融合体系中承担着实现多式中选取的()是一个S型非线性激活函数。模态机器学习关联和转换任务的作用，同时 CCA的降维特性为简化模型提供了便利。由增强节点层 DBL结构可知，CCA层的净输入为式(1O)求出的特征节点层特征F,其前L个最大主成分输出Px2L即为融合节点层的实际输入。因此，式(11)变为输人样本彩色图像融合节输出层 TNXN,=6(PNx2L.WLxM+bNxN (13) 点层 3实验分析特征节点层输入样本 3.1康奈尔大学抓取数据集深度图像康奈尔大学抓取数据集0是判断给定物体是否可被机器人抓取的开源数据集，包含240个待点层判断的物体，共885幅图像。每个图像划分为若图5DBL的3D模型干个抓取矩形框，分别代表不同的抓取位置。根 Fig.5 3D DBL model 据给定标签（正表示可抓取，负表示不可抓取）可

AC = [Z1 |H1 ] (7) 式中由一个 BLS 单元生成、代表彩色图像的特征节点和增强节点分别可以表示为 Z1 = {zi zi ∈ R N1 } N i=1 H1 = {hj hj ∈ R N2 } N j=1 (8) 同理，另一个 BLS 单元生成的深度图像总特征以及特征节点、增强节点分别为 AD = [Z2|H2 ] Z2 = {zi zi ∈ R N1 } N i=1 H2 = {hj hj ∈ R N2 } N j=1 (9) 由于 BLS 生成特征节点过程中采用了稀疏编码，在特征提取过程中自动去除了冗余信息，减小了训练的计算复杂度，根据多模态机器学习概念，仅需要考虑后期不同模态融合过程中的信息互补即可。为了更好地学习彩色和深度这两种模态的共同特征，在输入融合节点层之前，需要将彩色图像和深度图像进行混合，使得两种模态的图像映射到同一个样本空间。考虑到神经网络的学习特性，DBL 仅简单地将两种模态的特征并联起来，作为最后提取的总特征和融合空间的净输入： F N×2(N1+N2 ) = [AC N×(N1+N2 ) |AD N×(N1+N2 ) ] (10) 2.1.2 特征的融合与分类对于特征融合部分，由 2.1.1 节的介绍和图 5 所示立体模型可知，彩色图像模态和深度图像模态混合的总特征 F 就是 DBL 融合节点层的新输入。值得注意的是，为了更好地将两种图像模态的信息结合起来，本文引入融合节点映射层，借鉴传统神经网络的非线性拟合特点将不同的模态特征抽象融合，最后利用输出矩阵进行快速有效地学习，以提高系统的分类性能。假设融合节点个数为 N3，则融合节点层输出为 T N×N3 = ϕ(F N×2(N1+N2) ·Wt 2(N1+N2 )×N3 + bt N ×N3) (11) 式中选取的 ϕ(·) 是一个 S 型非线性激活函数。特征节点层输入样本彩色图像特征节点层输入样本深度图像增强节点层增强节点层融合节点层输出层图 5 DBL 的 3D 模型 Fig. 5 3D DBL model 基于 1.2 节对 BLS 的描述，真正意义上的宽度学习应该是将特征节点、增强节点、融合节点作为共同的特征，按照不同的权值共同作用于输出的网络。因此，DBL 模型结构的输出连接矩阵 W 包含了两种模态的特征节点层、增强节点层和最后一层融合节点层的总权值，可以很容易地由式 (12) 所示的岭回归广义逆求得： W[2(N1+N2)+N3 ]×O = [F N×2(N1+N2 ) |T N×N3 ] +Y N×O (12) 式中 Y 是由样本标签组成的 O 维 one-hot 形式的期望输出矩阵。 2.2 基于双宽度学习的典型相关性分析图 6 表示基于双宽度学习的典型相关性分析 (DBL-CCA) 结构的多模态信息融合和学习过程。以 DBL 为基础，把 2 种模态经过特征节点和增强节点粗提取的样本特征统一映射到 CCA 生成的特征子空间上进行学习、匹配和降维，然后再由融合节点直接非线性化融合，连接到输出层进行分类输出。输入样本彩色图像特征节点层增强节点层输出层融合节点层 CCA 层特征节点层输入样本深度图像增强节点层图 6 DBL-CCA 模型 Fig. 6 DBL-CCA model P N×2L 因此，CCA 在整个融合体系中承担着实现多模态机器学习关联和转换任务的作用，同时 CCA 的降维特性为简化模型提供了便利。由 DBL 结构可知，CCA 层的净输入为式 (10) 求出的特征 F，其前 L 个最大主成分输出即为融合节点层的实际输入。因此，式 (11) 变为 T N×N3 = ϕ(P N×2L ·Wt 2L×N3 + bt N×N3 ) (13) 3 实验分析 3.1 康奈尔大学抓取数据集康奈尔大学抓取数据集[20]是判断给定物体是否可被机器人抓取的开源数据集，包含 240 个待判断的物体，共 885 幅图像。每个图像划分为若干个抓取矩形框，分别代表不同的抓取位置。根据给定标签 (正表示可抓取，负表示不可抓取) 可第 1 期贾晨，等：基于宽度学习方法的多模态信息融合 ·153·

·154· 智能系统学报第14卷知，这是一个二分类的任务。已知矩形框共有 8019个，按照8：2的随机划分方式可得到6415 个训练样本和1604个测试样本，每个样本均包含尺寸为24×24的3通道彩色图像和单通道深度图像2种模态。图7为抓取数据集的20个简单样例。图8 展示了实验采用的4种分类模型，每个模型中的矩形框均代表机器人夹板的抓取操作矩形，矩形框的宽边为夹板的初始位置，矩形框的长边表示图7抓取数据集样例机器人夹板的运行轨迹。 Fig.7 Grasp dataset examples 彩色图像正例可抓眠正例深度图像可抓取不可抓取不可抓取反例彩色图像反例深度图像 (a)BLS分类彩色图像模型 (b)BLS分类深度图像模型色图像色图像正例正例深度图像深度图像可抓取不可抓取不可抓取反例反例深度图像深度图像 (c)BLS分类混合图像模型 (d)DBL-CCA融合分类模型图8实验采用的模型 Fig.8 Models used in our experiments DBL-CCA算法先通过特征提取及融合处理 3种方法都要高，运行时间也非常迅速，整体而言彩色图像和深度图像，之后输入分类器对物体是占有相当大的优势。否可被机器人抓取作出分类判别。为了检验本文表1不同图像模态的识别性能模型的融合效果，对比模型采用BLS分别对彩色 Table 1 Different image modalities'recognition per- 图像、深度图像这两种单一模态以及两种图像的 formances 简单混合模态进行学习和分类。图像模态识别率/% 训练时间s 测试时间s 对于上述提出的4种模型结构，为了提高各彩色种模型性能的可比性，实验均设置了相同的特征 91.60 29.02 4.55 节点(100)和增强节点(400)个数、收敛因子深度 90.90 1.08 0.40 (0.5)和正则化因子(20)大小等参数，并将DBL- 混合 92.60 35.03 6.60 CCA中CCA层的输出特征维度固定在200。重融合 94.80 3.52 0.54 复5次随机试验得到的平均测试精度、训练时间和测试时间如表1所示。从表中可以看出，只用在融合彩色图像和深度图像的过程中，CCA BLS对彩色图像进行学习比只用深度图像学习得层的输出特征维度会对融合结果产生一定程度的到的分类精度高、时间长；混合两种模态能够提影响，图9比较了DBL-CCA与CCA、Cluster-. 升分类性能，但特征维度的增加消耗了一些训练 CCA等算法在不同输出维度下的测试精度。可时间。DBL-CCA融合算法的分类精度比以上以看出，在CCA层输出特征维度为25时，DBL

知，这是一个二分类的任务。已知矩形框共有 8 019 个，按照 8∶2 的随机划分方式可得到 6 415 个训练样本和 1 604 个测试样本，每个样本均包含尺寸为 24×24 的 3 通道彩色图像和单通道深度图像 2 种模态。图 7 为抓取数据集的 20 个简单样例。图 8 展示了实验采用的 4 种分类模型，每个模型中的矩形框均代表机器人夹板的抓取操作矩形，矩形框的宽边为夹板的初始位置，矩形框的长边表示机器人夹板的运行轨迹。图 7 抓取数据集样例 Fig. 7 Grasp dataset examples 彩色图像彩色图像正例反例 BLS 可抓取不可抓取深度图像深度图像正例反例 BLS 可抓取不可抓取 BLS 可抓取不可抓取彩色图像深度图像彩色图像深度图像正例反例 (a) BLS 分类彩色图像模型 (b) BLS 分类深度图像模型 (c) BLS 分类混合图像模型彩色图像深度图像彩色图像深度图像正例反例可抓取不可抓取 DBL-CCA (d) DBL-CCA 融合分类模型图 8 实验采用的模型 Fig. 8 Models used in our experiments DBL-CCA 算法先通过特征提取及融合处理彩色图像和深度图像，之后输入分类器对物体是否可被机器人抓取作出分类判别。为了检验本文模型的融合效果，对比模型采用 BLS 分别对彩色图像、深度图像这两种单一模态以及两种图像的简单混合模态进行学习和分类。 2 −30 对于上述提出的 4 种模型结构，为了提高各种模型性能的可比性，实验均设置了相同的特征节点 (100) 和增强节点 (400) 个数、收敛因子 (0.5) 和正则化因子 ( ) 大小等参数，并将 DBLCCA 中 CCA 层的输出特征维度固定在 200。重复 5 次随机试验得到的平均测试精度、训练时间和测试时间如表 1 所示。从表中可以看出，只用 BLS 对彩色图像进行学习比只用深度图像学习得到的分类精度高、时间长；混合两种模态能够提升分类性能，但特征维度的增加消耗了一些训练时间。DBL-CCA 融合算法的分类精度比以上 3 种方法都要高，运行时间也非常迅速，整体而言占有相当大的优势。表 1 不同图像模态的识别性能 Table 1 Different image modalities’ recognition performances 图像模态识别率/% 训练时间/s 测试时间/s 彩色 91.60 29.02 4.55 深度 90.90 1.08 0.40 混合 92.60 35.03 6.60 融合 94.80 3.52 0.54 在融合彩色图像和深度图像的过程中，CCA 层的输出特征维度会对融合结果产生一定程度的影响，图 9 比较了 DBL-CCA 与 CCA、ClusterCCA[21]等算法在不同输出维度下的测试精度。可以看出，在 CCA 层输出特征维度为 25 时，DBL- ·154· 智能系统学报第 14 卷

第1期贾晨，等：基于宽度学习方法的多模态信息融合 ·155· CCA和Cluster-CCA的拐点比CCA相对明显。随噪声干扰。图10(b)为不同相关因子(r1和2)对着维度的增加，DBL-CCA呈上升趋势，在200维模型分类性能的影响程度，实验选取的参数范围处达到最大值(95.01%)：Cluster-CCA曲线有小幅为10-6~10。从图10可以观察到，相比于节点数度下降趋势；CCA精度曲线在100~200维之间有目而言，相关因子对于识别率的影响较大，有更小范围的波动。总体来说，DBL-CCA和Cluster- 加明显的局部极大值和极小值区域。 CCA算法相较于CCA而言曲线略平缓。因此， 100 实验结果可以证明DBL-CCA无论是从收敛速 95 05 度、上升趋势还是从分类精度上来看都占有极大 90 的优势，选取该结构作为多模态图像特征的融合方法具备充分的高效性和稳定性。 I 8 为了比较不同参数对模型性能的作用和影 70 65 -pCCA 响，实验还对DBL-CCA的节点数目和相关因子 60 -Cluster-.CCA 进行了参数敏感度分析。图10(a)中的N2和N, --DBL-CCA 55 分别代表在{100,200,300,400,500,600,700,8001中变 50 50 100150 200250 化的增强节点和融合节点数目。增强节点和融合输出维度节点对图像识别精度产生的影响并不显著，说明图9不同算法的测试精度 DBL-CCA融合框架具有很好的鲁棒性，能够过滤 Fig.9 Testing accuracies of various algorithms 100 1 95 95 90 85 800 10 00600 300000o005002 10 102 N 10 10 100 10s (a)神经元节点数对识别率的影响 (b)相关因子对识别率的影响图10不同参数对识别率的影响 Fig.10 Recognition rates in different parameters 3.2华盛顿大学RGB-D数据集为了验证本文提出方法的泛化性能，采用华盛顿大学RGB-D数据集作进一步的拓展实验。华盛顿大学RGB-D数据集由41877个RGB-D (a)苹果类别的3个实例 (彩色和深度)图像组成，包含了具有51种不同类别的共300个实例物体。图11(a)表示“苹果”这种类别的3个具体不同实例的彩色图像及其对应的深度图像，图11(b)为部分样本的彩色图像。该数据集的采集方法是：将每个物体放置在一个转盘上，并使用Kinect的3D相机对转盘的一个完整旋转周期进行录制。每个物体均包含3个视频序列，分别记录在不同高度的摄像机上。实验按照文献[22]的划分方式选取45°角拍摄的图像 (b)数据集中不同样本的彩色图像生成测试集，由此可以得到用于物体识别的28009 图11RGB-D数据集示例个训练样本和13868个测试样本。 Fig.11 Several RGB-D dataset examples

CCA 和 Cluster-CCA 的拐点比 CCA 相对明显。随着维度的增加，DBL-CCA 呈上升趋势，在 200 维处达到最大值 (95.01%)；Cluster-CCA 曲线有小幅度下降趋势；CCA 精度曲线在 100~200 维之间有小范围的波动。总体来说，DBL-CCA和 ClusterCCA 算法相较于 CCA 而言曲线略平缓。因此，实验结果可以证明 DBL-CCA 无论是从收敛速度、上升趋势还是从分类精度上来看都占有极大的优势，选取该结构作为多模态图像特征的融合方法具备充分的高效性和稳定性。 {100,200,300,400,500,600,700,800} 为了比较不同参数对模型性能的作用和影响，实验还对 DBL-CCA 的节点数目和相关因子进行了参数敏感度分析。图 10(a) 中的 N2 和 N3 分别代表在中变化的增强节点和融合节点数目。增强节点和融合节点对图像识别精度产生的影响并不显著，说明 DBL-CCA 融合框架具有很好的鲁棒性，能够过滤 10−6 ∼ 106 噪声干扰。图 10(b) 为不同相关因子 (r1 和 r2 ) 对模型分类性能的影响程度，实验选取的参数范围为。从图 10 可以观察到，相比于节点数目而言，相关因子对于识别率的影响较大，有更加明显的局部极大值和极小值区域。 DBL-CCA Cluster-CCA 50 100 150 200 250 输出维度 100 95 90 85 80 75 70 65 60 55 50 0 测试精度/% CCA 图 9 不同算法的测试精度 Fig. 9 Testing accuracies of various algorithms 200 300 400 500 600 800 100 95 90 85 800 700 600 500 400 300 200 100 700 识别率/% N3 N2 (a) 神经元节点数对识别率的影响 80 100 95 90 识别率 85 /% 106 106 104 104 102 102 10−2 10−2 10−4 10−4 10−6 1 1 r2 r1 (b) 相关因子对识别率的影响图 10 不同参数对识别率的影响 Fig. 10 Recognition rates in different parameters 3.2 华盛顿大学 RGB-D 数据集为了验证本文提出方法的泛化性能，采用华盛顿大学 RGB-D 数据集[22]作进一步的拓展实验。华盛顿大学 RGB-D 数据集由 41 877 个 RGB-D (彩色和深度) 图像组成，包含了具有 51 种不同类别的共 300 个实例物体。图 11(a) 表示“苹果”这种类别的 3 个具体不同实例的彩色图像及其对应的深度图像，图 11(b) 为部分样本的彩色图像。该数据集的采集方法是：将每个物体放置在一个转盘上，并使用 Kinect 的 3D 相机对转盘的一个完整旋转周期进行录制。每个物体均包含 3 个视频序列，分别记录在不同高度的摄像机上。实验按照文献[22]的划分方式选取 45°角拍摄的图像生成测试集，由此可以得到用于物体识别的 28 009 个训练样本和 13 868 个测试样本。 (a) 苹果类别的 3 个实例 (b) 数据集中不同样本的彩色图像图 11 RGB-D 数据集示例 Fig. 11 Several RGB-D dataset examples 第 1 期贾晨，等：基于宽度学习方法的多模态信息融合 ·155·

·156· 智能系统学报第14卷在训练模型之前，将彩色模态和深度模态的参考文献：图像分别调整成大小为24×24的3通道图像和单 [1]雷俊，王立辉，何芸倩，等.适用于机器人视觉的图像分通道图像，然后拉伸成1728维和576维的行向割方法[.系统工程与电子技术，2017,39(7)：1653- 量。在此基础上根据划分标签类型的不同，可以 1659 得到300个实例分类和50个类别分类的2种实 LEI Jun,WANG Lihui,HE Yungian,et al.Image segment- 验结果。 ation method for robot vision[J].Systems engineering and 表2说明了DBL-CCA融合算法能够有效学 electronics,2017,39(7):1653-1659. 习彩色与深度图像的高维非线性特征，其分类识 [2]毛玉仁，郭松，郑阳明，等.基于似物性判别的视觉目标别的最优准确率明显高于单模态和线性混合检测方法U.传感器与微系统，2017,36(11)147-150. 模型。表3为DBL-CCA模型在2种分类方式下 MAO Yuren,GUO Song,ZHENG Yangming,et al.Visu- 5次随机试验的平均训练和测试时间，相比于一 al object detection method based on objectness estima- 般的深度结构，此方法可以有效缩短模型的时间 tion[J].Transducer and microsystem technologies,2017, 成本，降低空间的计算复杂度。 36(11:147-150. [3]齐静，徐坤，丁希仑.机器人视觉手势交互技术研究进展表2不同图像模态的识别准确率 Table 2 Recognition accuracy rates of various image [.机器人，2017,394)：565-584 modalities % QI Jing,XU Kun,DING Xilun.Vision-based hand gesture recognition for human-robot interaction:a review[J].Ro- 图像模态彩色深度混合融合 bot,2017,394):565-584. 300分类 60.0 29.0 65.2 80.1 [4]王成济，罗志明，钟准，等.一种多层特征融合的人脸检 50分类 68.3 60.6 75.4 85.0 测方法☐.智能系统学报，2018,13(1)138-146 WANG Chengji,LUO Zhiming,ZHONG Zhun,et al.Face 表3DBL-CCA在不同分类方式下的消耗时间 detection method fusing multi-layer features[J].CAAI Table 3 Time consumptions of DBL-CCA in different methods of classification transactions on intelligent systems,2018,13(1):138-146. [5]吴钟强，张耀文，商琳基于语义特征的多视图情感分类时间训练时间测试时间方法.智能系统学报，2017,12(5：745-751. 300分类 51.2 7.3 WU Zhongqiang,ZHANG Yaowen,SHANG Lin.Multi- 50分类 26.4 6.5 view sentiment classification of microblogs based on se- mantic features[J].CAAI transactions on intelligent sys- 综上所述，本文提出的DBL-CCA能够有效 tems.2017,12(5:745-751. 提取不同模态图像的丰富信息，完成融合学习和 [6]温有福，贾彩燕，陈智能.一种多模态融合的网络视频相分类任务，并在训练时间、测试精度以及参数影关性度量方法).智能系统学报，2016,11(3)：359-365. 响等方面表现出非常大的优势，使系统保持良好 WEN Youfu,JIA Caiyan,CHEN Zhineng.A multi-modal 识别性能的同时，兼备了较高的快速性、准确性 fusion approach for measuring web video relatedness[J]. 和鲁棒性。 CAAlI transactions on intelligent systems,2016,11(3): 359-365. 4结束语 [7]吴宗胜，傅卫平，韩改宁.基于深度卷积神经网络的道路为了解决实际生活经常遇到的多模态融合问场景理解).计算机工程与应用，2017,53(22：8-15. 题，本文提出一种新颖的DBL-CCA融合方法，通 WU Zongsheng,FU Weiping,HAN Gaining.Road scene 过融合学习各个输入模态的丰富特征对物体属性 understanding based on deep convolutional neural net- work[J].Computer engineering and applications,2017, 进行识别。考虑到训练时间、分类精度等方面的 53(22):8-15. 制约，DBL-CCA算法采用了宽度学习方法这种基 [8]吴宗胜，傅卫平.移动机器人全局路径规划的模拟退火于平层网络的架构，并在康奈尔大学和华盛顿大教与学优化算法[).机械科学与技术，2016,35(5) 学的多模态图像公开数据集上验证了算法的高效 678-685 性。在具体的研究与应用中，此方法能够帮助机 WU Zongsheng.FU Weiping.SA and teaching-learning- 器人完成快速准确的抓取操作：对于复杂环境下 based optimization algorithm for mobile robots global path 可能存在的不同噪声干扰，算法能否持续保有良 planning[J].Mechanical science and technology for 好的泛化性能，是一个值得深人研究的问题。 aerospace engineering,2016,35(5):678-685

在训练模型之前，将彩色模态和深度模态的图像分别调整成大小为 24×24 的 3 通道图像和单通道图像，然后拉伸成 1 728 维和 576 维的行向量。在此基础上根据划分标签类型的不同，可以得到 300 个实例分类和 50 个类别分类的 2 种实验结果。表 2 说明了 DBL-CCA 融合算法能够有效学习彩色与深度图像的高维非线性特征，其分类识别的最优准确率明显高于单模态和线性混合模型。表 3 为 DBL-CCA 模型在 2 种分类方式下 5 次随机试验的平均训练和测试时间，相比于一般的深度结构，此方法可以有效缩短模型的时间成本，降低空间的计算复杂度。表 2 不同图像模态的识别准确率 Table 2 Recognition accuracy rates of various image modalities % 图像模态彩色深度混合融合 300 分类 60.0 29.0 65.2 80.1 50 分类 68.3 60.6 75.4 85.0 表 3 DBL-CCA 在不同分类方式下的消耗时间 Table 3 Time consumptions of DBL-CCA in different methods of classification s 时间训练时间测试时间 300 分类 51.2 7.3 50 分类 26.4 6.5 综上所述，本文提出的 DBL-CCA 能够有效提取不同模态图像的丰富信息，完成融合学习和分类任务，并在训练时间、测试精度以及参数影响等方面表现出非常大的优势，使系统保持良好识别性能的同时，兼备了较高的快速性、准确性和鲁棒性。 4 结束语为了解决实际生活经常遇到的多模态融合问题，本文提出一种新颖的 DBL-CCA 融合方法，通过融合学习各个输入模态的丰富特征对物体属性进行识别。考虑到训练时间、分类精度等方面的制约，DBL-CCA 算法采用了宽度学习方法这种基于平层网络的架构，并在康奈尔大学和华盛顿大学的多模态图像公开数据集上验证了算法的高效性。在具体的研究与应用中，此方法能够帮助机器人完成快速准确的抓取操作；对于复杂环境下可能存在的不同噪声干扰，算法能否持续保有良好的泛化性能，是一个值得深入研究的问题。参考文献：雷俊, 王立辉, 何芸倩, 等. 适用于机器人视觉的图像分割方法[J]. 系统工程与电子技术, 2017, 39(7): 1653– 1659. LEI Jun, WANG Lihui, HE Yunqian, et al. Image segmentation method for robot vision[J]. Systems engineering and electronics, 2017, 39(7): 1653–1659. [1] 毛玉仁, 郭松, 郑阳明, 等. 基于似物性判别的视觉目标检测方法[J]. 传感器与微系统, 2017, 36(11): 147–150. MAO Yuren, GUO Song, ZHENG Yangming, et al. Visual object detection method based on objectness estimation[J]. Transducer and microsystem technologies, 2017, 36(11): 147–150. [2] 齐静, 徐坤, 丁希仑. 机器人视觉手势交互技术研究进展 [J]. 机器人, 2017, 39(4): 565–584. QI Jing, XU Kun, DING Xilun. Vision-based hand gesture recognition for human-robot interaction: a review[J]. Robot, 2017, 39(4): 565–584. [3] 王成济, 罗志明, 钟准, 等. 一种多层特征融合的人脸检测方法[J]. 智能系统学报, 2018, 13(1): 138–146. WANG Chengji, LUO Zhiming, ZHONG Zhun, et al. Face detection method fusing multi-layer features[J]. CAAI transactions on intelligent systems, 2018, 13(1): 138–146. [4] 吴钟强, 张耀文, 商琳. 基于语义特征的多视图情感分类方法[J]. 智能系统学报, 2017, 12(5): 745–751. WU Zhongqiang, ZHANG Yaowen, SHANG Lin. Multiview sentiment classification of microblogs based on semantic features[J]. CAAI transactions on intelligent systems, 2017, 12(5): 745–751. [5] 温有福, 贾彩燕, 陈智能. 一种多模态融合的网络视频相关性度量方法[J]. 智能系统学报, 2016, 11(3): 359–365. WEN Youfu, JIA Caiyan, CHEN Zhineng. A multi-modal fusion approach for measuring web video relatedness[J]. CAAI transactions on intelligent systems, 2016, 11(3): 359–365. [6] 吴宗胜, 傅卫平, 韩改宁. 基于深度卷积神经网络的道路场景理解[J]. 计算机工程与应用, 2017, 53(22): 8–15. WU Zongsheng, FU Weiping, HAN Gaining. Road scene understanding based on deep convolutional neural network[J]. Computer engineering and applications, 2017, 53(22): 8–15. [7] 吴宗胜, 傅卫平. 移动机器人全局路径规划的模拟退火- 教与学优化算法[J]. 机械科学与技术, 2016, 35(5): 678–685. WU Zongsheng, FU Weiping. SA and teaching-learning - based optimization algorithm for mobile robots global path planning[J]. Mechanical science and technology for aerospace engineering, 2016, 35(5): 678–685. [8] ·156· 智能系统学报第 14 卷

第1期贾晨，等：基于宽度学习方法的多模态信息融合 ·157· [9]张文，刘勇，张超凡，等.基于方向A*算法的温室机器人 al receptive fields based extreme learning machine[J]. 实时路径规划).农业机械学报，2017,48(7)：22-28. IEEE computational intelligence magazine,2015,10(2): ZHANG Wen,LIU Yong,ZHANG Chaofan,et al.Real- 18-29. time path planning of greenhouse robot based on direction- [19]HOTELLING H.Relations between two sets of variat- al A*algorithm[J].Transactions of the Chinese society for es[J.Biometrika,1936,28(3/4):321-377. agricultural machinery,2017,48(7):22-28. [20]LENZ I,LEE H,SAXENA A.Deep learning for detect- [10]张文，刘勇，张超凡，等.基于语义建图的室内机器人实 ing robotic grasps[J].The international journal of robot- 时场景分类).传感器与微系统，2017,36(8)：18-21,28. ics research,2015,34(4/5):705-724. ZHANG Wen,LIU Yong,ZHANG Chaofan,et al.Real- [21]RASIWASIA N.MAHAJAN D.MAHADEVAN V,et al. time scene category of indoor robot based on semantic Cluster canonical correlation analysis[Cl/Proceedings of mapping[J].Transducer and microsystem technologies, the Seventeenth International Conference on Artificial In- 2017,36(8:18-21,28 telligence and Statistics.Reykjavik,Iceland,2014: [11]CHEN C L P,LIU Zhulin.Broad learning system:an ef- 823-831 fective and efficient incremental learning system without [22]LAI K,BO Leifeng,REN Xiaofeng,et al.A large-scale the need for deep architecture[J].IEEE transactions on hierarchical multi-view RGB-D object dataset[Cl//Pro- neural networks and learning systems,2018,29(1): ceedings of IEEE International Conference on Robotics 10-24 and Automation.Shanghai,China,2011:1817-1824. [12]HUANG Guangbin,BABRI H A.Upper bounds on the 作者简介： number of hidden neurons in feedforward networks with 贾晨，女，1992年生，硕士研究 arbitrary bounded nonlinear activation functions[J].IEEE 生，中国计算机学会会员，主要研究方 transactions on neural networks,1998.9(1):224-229. 向为智能控制、模式识别、机器视觉 [13]PAO Y H,TAKEFUJI Y.Functional-link net computing: 多模态融合。 theory,system architecture,and functionalities[J].Com- puter,.1992,25(S):76-79. [14]PAO Y H.PARK G H.SOBAJIC D J.Learning and gen- eralization characteristics of the random vector function- 刘华平，男，1976年生，副教授， al-link net[J].Neurocomputing,1994,6(2):163-180. 博士生导师，主要研究方向为机器人 [15]IGELNIK B,PAO Y H.Stochastic choice of basis func- 感知、学习与控制、多模态信息融合。 tions in adaptive function approximation and the function- al-link net[J].IEEE transactions on neural networks, 1995,6(6):1320-1329 [16]HUANG Guangbin,ZHU Qinyu,SIEW C K.Extreme 续欣莹，男，1979年生，副教授 learning machine:theory and applications[J].Neurocom- 主要研究方向为粗糙集、粒计算、数据 puting,2006,70(1/2/3):489-501. 挖掘、计算机视觉。 [17]HUANG Guangbin,CHEN Lei.Convex incremental ex- treme learning machine[J].Neurocomputing,2007, 70(16/17/18):3056-3062 [18]HUANG Guangbin,BAI Zuo,KASUN LL C,et al.Loc-

张文, 刘勇, 张超凡, 等. 基于方向 A*算法的温室机器人实时路径规划[J]. 农业机械学报, 2017, 48(7): 22–28. ZHANG Wen, LIU Yong, ZHANG Chaofan, et al. Realtime path planning of greenhouse robot based on directional A* algorithm[J]. Transactions of the Chinese society for agricultural machinery, 2017, 48(7): 22–28. [9] 张文, 刘勇, 张超凡, 等. 基于语义建图的室内机器人实时场景分类[J]. 传感器与微系统, 2017, 36(8): 18–21, 28. ZHANG Wen, LIU Yong, ZHANG Chaofan, et al. Realtime scene category of indoor robot based on semantic mapping[J]. Transducer and microsystem technologies, 2017, 36(8): 18–21, 28. [10] CHEN C L P, LIU Zhulin. Broad learning system: an effective and efficient incremental learning system without the need for deep architecture[J]. IEEE transactions on neural networks and learning systems, 2018, 29(1): 10–24. [11] HUANG Guangbin, BABRI H A. Upper bounds on the number of hidden neurons in feedforward networks with arbitrary bounded nonlinear activation functions[J]. IEEE transactions on neural networks, 1998, 9(1): 224–229. [12] PAO Y H, TAKEFUJI Y. Functional-link net computing: theory, system architecture, and functionalities[J]. Computer, 1992, 25(5): 76–79. [13] PAO Y H, PARK G H, SOBAJIC D J. Learning and generalization characteristics of the random vector functional-link net[J]. Neurocomputing, 1994, 6(2): 163–180. [14] IGELNIK B, PAO Y H. Stochastic choice of basis functions in adaptive function approximation and the functional-link net[J]. IEEE transactions on neural networks, 1995, 6(6): 1320–1329. [15] HUANG Guangbin, ZHU Qinyu, SIEW C K. Extreme learning machine: theory and applications[J]. Neurocomputing, 2006, 70(1/2/3): 489–501. [16] HUANG Guangbin, CHEN Lei. Convex incremental extreme learning machine[J]. Neurocomputing, 2007, 70(16/17/18): 3056–3062. [17] [18] HUANG Guangbin, BAI Zuo, KASUN L L C, et al. Local receptive fields based extreme learning machine[J]. IEEE computational intelligence magazine, 2015, 10(2): 18–29. HOTELLING H. Relations between two sets of variates[J]. Biometrika, 1936, 28(3/4): 321–377. [19] LENZ I, LEE H, SAXENA A. Deep learning for detecting robotic grasps[J]. The international journal of robotics research, 2015, 34(4/5): 705–724. [20] RASIWASIA N, MAHAJAN D, MAHADEVAN V, et al. Cluster canonical correlation analysis[C]//Proceedings of the Seventeenth International Conference on Artificial Intelligence and Statistics. Reykjavik, Iceland, 2014: 823–831. [21] LAI K, BO Leifeng, REN Xiaofeng, et al. A large-scale hierarchical multi-view RGB-D object dataset[C]//Proceedings of IEEE International Conference on Robotics and Automation. Shanghai, China, 2011: 1817–1824. [22] 作者简介：贾晨，女，1992 年生，硕士研究生，中国计算机学会会员，主要研究方向为智能控制、模式识别、机器视觉、多模态融合。刘华平，男，1976 年生，副教授，博士生导师，主要研究方向为机器人感知、学习与控制、多模态信息融合。续欣莹，男，1979 年生，副教授，主要研究方向为粗糙集、粒计算、数据挖掘、计算机视觉。第 1 期贾晨，等：基于宽度学习方法的多模态信息融合 ·157·

点击进入文档下载页（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录