正在加载图片...
第14卷第1期 智能系统学报 Vol.14 No.I 2019年1月 CAAI Transactions on Intelligent Systems Jan.2019 D0:10.11992/tis.201803022 网络出版地址:http:/kns.cnki.net/kcms/detail/23.1538.TP.20180522.1345.002.html 基于宽度学习方法的多模态信息融合 贾晨,刘华平23,续欣莹,孙富春23 (1.太原理工大学电气与动力工程学院,山西太原030600:2.清华大学计算机科学与技术系,北京100084; 3.清华大学智能技术与系统国家重点实验室,北京100084) 摘要:多模态机器学习通过有效学习各个模态的丰富特征来解决不同模态数据的融合问题。考虑到模态间 的差异性,基于宽度学习方法提出了一个能够学习和融合两种模态特征的框架,首先利用宽度学习方法分别提 取不同模态的抽象特征,然后将高维特征表示在同一个特征空间进行相关性学习,并通过非线性融合得到最后 的特征表达,输入分类器进行目标识别。相关实验建立在康奈尔大学抓取数据集和华盛顿大学RGB-D数据集 上,实验结果验证了相比于传统的融合方法,所提出的方法具有更好的稳定性和快速性。 关键词:宽度学习方法;多模态融合;相关性分析;特征提取;非线性变换;目标识别;神经网络;RGB-D图像 分类 中图分类号:TP391文献标志码:A文章编号:1673-4785(2019)01-0150-08 中文引用格式:贾晨,刘华平,续欣莹,等.基于宽度学习方法的多模态信息融合.智能系统学报,2019,14(1):150-157. 英文引用格式:JIA Chen,LIU Huaping,XU Xinying,etal.Multi--modal information fusion based on broad learning method Jl. CAAI transactions on intelligent systems,2019,14(1):150-157. Multi-modal information fusion based on broad learning method JIA Chen',LIU Huaping2,XU Xinying',SUN Fuchun23 (1.College of Electrical and Power Engineering,Taiyuan University of Technology,Taiyuan 030600,China;2.Department of Com- puter Science and Technology,Tsinghua University,Beijing 100084,China;3.State Key Laboratory of Intelligent Technology and Systems,Tsinghua University,Beijing 100084,China) Abstract:Multi-modal machine learning solves the fusion problem that arises in data with different modalites by effect- ively learning their rich characteristics.Considering the differences between various modalities,we propose a frame- work that can learn and fuse two kinds of modal characteristics based on the broad learning method.This method first extracts different abstract characteristics,then represents the high-dimension features in the same space to determine their correlation.We obtain a final representation of these characteristics by nonlinear fusion and inputs these character- istics into a classifier for target recognition.Relevant experiments are conducted on the Cornell Grasping Dataset and the Washington RGB-D Object Dataset,and our experimental results confirm that,compared with traditional fusion methods,the proposed algorithm has greater stability and rapidity. Keywords:broad learning method;multi-modal fusion;correlation analysis;feature extraction;nonlinear transforma- tion;object recognition;neural networks;RGB-D images classification 现实世界中数据信息是以包括图像、文本、年来,以多模态为研究对象的机器学习算法不断 声音、纹理等多种模态形式存在的。信息和科技 涌现,使得多模态机器学习成为科研人员广泛关 智能化发展为机器学习方法提供了硬件条件。近 注的研究热点。以机器人为例,越来越多的研究 定位于机器人感知系统的设计,仅靠单模态中典 收稿日期:2018-03-16.网络出版日期:2018-05-23. 基金项目:国家自然科学基金项目(61673238):国家高技术研 型的视觉图像分割四、物体检测等任务已经不能 究发展计划课题(2015AA042306):山西省回国留学 人员科研资助项目(2015-045,2016-044). 完全满足机器人的识别与感知需求。在机器人手 通信作者:刘华平.E-mail:hpliu@tsinghua.edu.cn 势交互领域,视觉手势与其他模态(表情、方向、DOI: 10.11992/tis.201803022 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20180522.1345.002.html 基于宽度学习方法的多模态信息融合 贾晨1 ,刘华平2,3,续欣莹1 ,孙富春2,3 (1. 太原理工大学 电气与动力工程学院,山西 太原 030600; 2. 清华大学 计算机科学与技术系,北京 100084; 3. 清华大学 智能技术与系统国家重点实验室,北京 100084) 摘 要:多模态机器学习通过有效学习各个模态的丰富特征来解决不同模态数据的融合问题。考虑到模态间 的差异性,基于宽度学习方法提出了一个能够学习和融合两种模态特征的框架,首先利用宽度学习方法分别提 取不同模态的抽象特征,然后将高维特征表示在同一个特征空间进行相关性学习,并通过非线性融合得到最后 的特征表达,输入分类器进行目标识别。相关实验建立在康奈尔大学抓取数据集和华盛顿大学 RGB-D 数据集 上,实验结果验证了相比于传统的融合方法,所提出的方法具有更好的稳定性和快速性。 关键词:宽度学习方法;多模态融合;相关性分析;特征提取;非线性变换;目标识别;神经网络;RGB-D 图像 分类 中图分类号:TP391 文献标志码:A 文章编号:1673−4785(2019)01−0150−08 中文引用格式:贾晨, 刘华平, 续欣莹, 等. 基于宽度学习方法的多模态信息融合[J]. 智能系统学报, 2019, 14(1): 150–157. 英文引用格式:JIA Chen, LIU Huaping, XU Xinying, et al. Multi-modal information fusion based on broad learning method[J]. CAAI transactions on intelligent systems, 2019, 14(1): 150–157. Multi-modal information fusion based on broad learning method JIA Chen1 ,LIU Huaping2,3 ,XU Xinying1 ,SUN Fuchun2,3 (1. College of Electrical and Power Engineering, Taiyuan University of Technology, Taiyuan 030600, China; 2. Department of Com￾puter Science and Technology, Tsinghua University, Beijing 100084, China; 3. State Key Laboratory of Intelligent Technology and Systems, Tsinghua University, Beijing 100084, China) Abstract: Multi-modal machine learning solves the fusion problem that arises in data with different modalites by effect￾ively learning their rich characteristics. Considering the differences between various modalities, we propose a frame￾work that can learn and fuse two kinds of modal characteristics based on the broad learning method. This method first extracts different abstract characteristics, then represents the high-dimension features in the same space to determine their correlation. We obtain a final representation of these characteristics by nonlinear fusion and inputs these character￾istics into a classifier for target recognition. Relevant experiments are conducted on the Cornell Grasping Dataset and the Washington RGB-D Object Dataset, and our experimental results confirm that, compared with traditional fusion methods, the proposed algorithm has greater stability and rapidity. Keywords: broad learning method; multi-modal fusion; correlation analysis; feature extraction; nonlinear transforma￾tion; object recognition; neural networks; RGB-D images classification 现实世界中数据信息是以包括图像、文本、 声音、纹理等多种模态形式存在的。信息和科技 智能化发展为机器学习方法提供了硬件条件。近 年来,以多模态为研究对象的机器学习算法不断 涌现,使得多模态机器学习成为科研人员广泛关 注的研究热点。以机器人为例,越来越多的研究 定位于机器人感知系统的设计,仅靠单模态中典 型的视觉图像分割[1] 、物体检测[2]等任务已经不能 完全满足机器人的识别与感知需求。在机器人手 势交互领域,视觉手势与其他模态 (表情、方向、 收稿日期:2018−03−16. 网络出版日期:2018−05−23. 基金项目:国家自然科学基金项目 (61673238);国家高技术研 究发展计划课题 (2015AA042306);山西省回国留学 人员科研资助项目 (2015-045,2016-044). 通信作者:刘华平. E-mail:hpliu@tsinghua.edu.cn. 第 14 卷第 1 期 智 能 系 统 学 报 Vol.14 No.1 2019 年 1 月 CAAI Transactions on Intelligent Systems Jan. 2019
向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有