第13卷第4期 智能系统学报 Vol.13 No.4 2018年8月 CAAI Transactions on Intelligent Systems Aug.2018 D0:10.11992/tis.201703034 网络出版地址:http:/kns.cnki.net/kcms/detail/23.1538.TP.20180328.1649.014html 基于超限学习机的非线性典型相关分析及应用 温晓红,刘华平,阁高伟,孙富春 (1.太原理工大学电气与动力工程学院,山西太原030600:2.清华大学计算机科学与技术系,北京100084; 3.智能技术与系统国家重点实验室,北京100084) 摘要:典型相关分析是目前常用的研究两个变量间相关性的统计方法。针对线性典型相关分析难以准确揭 示变量之间复杂关系的问题,提出一种基于超限学习机的非线性典型相关分析多模态特征提取方法。首先,采 用超限学习机分别的对每个模态进行无监督特征学习,得到抽象的深度特征表示;然后将这些深度抽象特征通 过典型相关分析极大化模态之间的相关性,同时得到两组相关变量,实现多模态数据的复杂非线性和高相关性 表示。最后在康奈尔大学机器抓取公开数据集上进行实验验证,结果表明,所提出的方法与其他相关算法相 比,训练速度得到显著提升。 关键词:典型相关分析;超限学习机:特征提取;多模态融合;机器抓取;目标识别;RGB-D数据;神经网络 中图分类号:TP391.4文献标志码:A文章编号:1673-4785(2018)04-0633-07 中文引用格式:温晓红,刘华平,阎高伟,等.基于超限学习机的非线性典型相关分析及应用.智能系统学报,2018,13(4): 633-639 英文引用格式:VEN Xiaohong,LIU Huaping,.YAN Gaowei,etal.Nonlinear canonical correlation analysis and application based on extreme learning machine[J.CAAI transactions on intelligent systems,2018,13(4):633-639. Nonlinear canonical correlation analysis and application based on extreme learning machine WEN Xiaohong',LIU Huaping",YAN Gaowei',SUN Fuchun23 (1.College of Electrical and Power Engineering,Taiyuan University of Technology,Taiyuan 030600,China;2.Department of Com- puter Science and Technology,Tsinghua University,Beijing 100084,China;3.State Key Laboratory of Intelligent Technology and Systems,Beijing 100084,China) Abstract:Canonical correlation analysis(CCA)is a statistical technique commonly used to determine the correlativity of two variables.It is difficult to accurately identify the complex underlying relationship between variables using linear CCA,so we propose a nonlinear CCA based on an extreme learning machine(ELM)for multi-modal feature extraction. First,to obtain abstract-depth feature representation,we use the ELM to perform unsupervised feature learning for each modality.Then,we use CCA to maximize the correlation between the nonlinear representations,thereby simultaneously obtaining two groups of related variables,and realize complex nonlinear and high-correlation representations of multi- modality data.Lastly,we conducted an experiment using the Cornell grasping dataset.The results show that,in compar- ison with other related algorithms,the proposed method significantly increases the training speed. Keywords:canonical correlation analysis;extreme learning machine;feature extraction;multi-modal fusion;robotic grasping;object recognition;RGB-D data;neural networks 典型相关分析(canonical correlation analysis, 收稿日期:2017-03-24.网络出版日期:2018-03-28 基金项目:国家自然科学基金重点项目(U1613212):国家高技 CCA)是一种经典统计方法,旨在研究两组随机 术研究发展计划项目(2015AA042306). 通信作者:刘华平.E-mail:hpliu(@tsinghua.edu.cn 变量之间的相关性。通过极大化两组变量在线性
DOI: 10.11992/tis.201703034 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20180328.1649.014.html 基于超限学习机的非线性典型相关分析及应用 温晓红1 ,刘华平2,3,阎高伟1 ,孙富春2,3 (1. 太原理工大学 电气与动力工程学院,山西 太原 030600; 2. 清华大学 计算机科学与技术系,北京 100084; 3. 智能技术与系统国家重点实验室,北京 100084) 摘 要:典型相关分析是目前常用的研究两个变量间相关性的统计方法。针对线性典型相关分析难以准确揭 示变量之间复杂关系的问题,提出一种基于超限学习机的非线性典型相关分析多模态特征提取方法。首先,采 用超限学习机分别的对每个模态进行无监督特征学习,得到抽象的深度特征表示;然后将这些深度抽象特征通 过典型相关分析极大化模态之间的相关性,同时得到两组相关变量,实现多模态数据的复杂非线性和高相关性 表示。最后在康奈尔大学机器抓取公开数据集上进行实验验证,结果表明,所提出的方法与其他相关算法相 比,训练速度得到显著提升。 关键词:典型相关分析;超限学习机;特征提取;多模态融合;机器抓取;目标识别;RGB-D 数据;神经网络 中图分类号:TP391.4 文献标志码:A 文章编号:1673−4785(2018)04−0633−07 中文引用格式:温晓红, 刘华平, 阎高伟, 等. 基于超限学习机的非线性典型相关分析及应用[J]. 智能系统学报, 2018, 13(4): 633–639. 英文引用格式:WEN Xiaohong, LIU Huaping, YAN Gaowei, et al. Nonlinear canonical correlation analysis and application based on extreme learning machine[J]. CAAI transactions on intelligent systems, 2018, 13(4): 633–639. Nonlinear canonical correlation analysis and application based on extreme learning machine WEN Xiaohong1 ,LIU Huaping2,3 ,YAN Gaowei1 ,SUN Fuchun2,3 (1. College of Electrical and Power Engineering, Taiyuan University of Technology, Taiyuan 030600, China; 2. Department of Computer Science and Technology, Tsinghua University, Beijing 100084, China; 3. State Key Laboratory of Intelligent Technology and Systems, Beijing 100084, China) Abstract: Canonical correlation analysis (CCA) is a statistical technique commonly used to determine the correlativity of two variables. It is difficult to accurately identify the complex underlying relationship between variables using linear CCA, so we propose a nonlinear CCA based on an extreme learning machine (ELM) for multi-modal feature extraction. First, to obtain abstract-depth feature representation, we use the ELM to perform unsupervised feature learning for each modality. Then, we use CCA to maximize the correlation between the nonlinear representations, thereby simultaneously obtaining two groups of related variables, and realize complex nonlinear and high-correlation representations of multimodality data. Lastly, we conducted an experiment using the Cornell grasping dataset. The results show that, in comparison with other related algorithms, the proposed method significantly increases the training speed. Keywords: canonical correlation analysis; extreme learning machine; feature extraction; multi-modal fusion; robotic grasping; object recognition; RGB-D data; neural networks 典型相关分析 (canonical correlation analysis, CCA)[1]是一种经典统计方法,旨在研究两组随机 变量之间的相关性。通过极大化两组变量在线性 收稿日期:2017−03−24. 网络出版日期:2018−03−28. 基金项目:国家自然科学基金重点项目 (U1613212);国家高技 术研究发展计划项目 (2015AA042306). 通信作者:刘华平. E-mail:hpliu@tsinghua.edu.cn. 第 13 卷第 4 期 智 能 系 统 学 报 Vol.13 No.4 2018 年 8 月 CAAI Transactions on Intelligent Systems Aug. 2018
·634· 智能系统学报 第13卷 投影空间中的相关性而达到特征融合的目的。 数据集上进行验证,实验结果表明该方法有效提 CCA可用于对多模态数据的特征提取和融合, 高了抓取点识别率。 减小预测或识别问题中的样本复杂度,已成功 应用于字符与人脸图像识别及多模态检索等任务 1相关工作 中I。核典型相关分析(kernel CCA,KCCA)m是 1.1典型相关分析 对CCA的扩展,解决了CCA只能进行线性映射 给定N对已中心化的样本X=[x1x…xw与 的问题。通过隐性的非线性映射将两组特征分别 Y=y1y2…yN,CCA的基本思想是找到一对投影 映射到高维特征空间,借助于核技巧,以线性的 向量a和b,满足u=aX和v=bTY之间具有最大 方式提取变量的非线性特征。尽管KCCA可以 的相关系数。然后通过对典型相关变量和v的 通过核来学习变量之间的非线性关系,但其需要 相关关系研究,代替原来两组变量之间的相关关 通过人工选择核函数,并且当训练集规模较大 系研究。 时,会造成巨大的计算消耗。 u和v的相关系数为 为了解决KCCA存在的问题,文献[8]提出深 度典型相关分析(deep CCA,DCCA),即用深度神 p=com(a'X,by)=- aΣxwb a2rxa)b2yb万 (1) 经网络学习灵活的非线性相关表示,使得到的特 式中:Σxx和Σw分别表示特征集X和Y的协方差 征具有更高的相关度。文献[9]提出基于神经网 矩阵,Σw表示X和Y的互协方差矩阵。 络和自编码(auto encoder,.AE)的深度典型相关自 典型相关分析就是在约束条件aΣxxa=l, (deep canonically correlated autoencoders, bTb=1下求a和b的值,使p达到最大,此时目 DCCAE),用于无标签多视图特征学习。但是这 标函数为maxp=a'Σxwb。 些方法在参数训练过程中,需要根据梯度下降法 定义矩阵T=Σx,对T进行奇异值分 多次迭代至误差收敛,容易陷入局部最优,且计 解,得到矩阵T的前k个左奇异向量心和右奇异 算消耗大。 另一方面,超限学习机(extreme learning ma- 向量n,则最终优化目标值为(a,b)=(@22,n2V)o 为了防止训练过拟合,在协方差计算中加入 chine,ELM)以结构简单、学习速度快和泛化能力 好等优点,近年来已广泛应用于分类、回归等 正则项y>0: 1 任务中。伴随着大数据时代的到来,关于数据潜 Ex=N-XX+yl (2) 在信息的挖掘引起了大量关注。然而ELM是一 1.2深度典型相关分析 种单隐含层前馈神经网络,其浅层的网络结构难 Andrew等l对CCA进行扩展改进,提出基于 以发现数据深层抽象特征,因此基于ELM进行深 深度神经网络的CCA,即DCCA。给定模态X和 度学习的算法相继提出。文献[11]提出了ELM-AE, Y,两个深度神经网络模型f=fX:W)和g=g(Y:W) 首次将ELM用于数据的特征表示;文献[12]提出 分别用来学习X和Y的非线性结构,其中W= 了基于ELM堆栈构成的深度表示模型;文献[13] [W:W]为神经网络模型参数。然后通过CCA将 将流行正则引入原始ELM-AE中,并提出一种新 提取的特征∫和g相关性极大化: 的深度神经网络;文献[14]使用深度ELM学习图 像的非线性结构,用于图像分类中,并且在速度 (f(X:W)g(Y:W)V) 和准确率上表现出优越的性能;文献[15]将深度 s.t.U ffr+l加=1 ELM模型用于多模态融合中,表明了ELM在多 (3) 模态数据应用中的有效性。 vNg()+v=1 为了解决基于传统深度神经网络的非线性 f(X)g(Y'v,=0,i≠j CCA训练速度缓慢、无法快速收敛等问题,本文 式中:U=[u1w2…uV=[y12…v是CCA对DNN 将ELM-AE引入CCA框架,用于多模态数据的特 输出特征的映射矩阵,r>0,5>0是样本协方差 征提取。首先利用ELM-AE分别对每个模态进行 估计的正则化参数。 多层无监督特征提取,然后极大化深层特征的相 令Hx和Hy分别为通过深度模型f和g得到的 关性。实验结果表明,相比于线性CCA和DCCA, 最终特征表示,中心化后得到x=Hx-Hx/N,同 本文方法在取得高相关度的同时,还显著提升了 理得到iy,并且计算两者的协方差矩阵Σy、xx 算法的快速性。将该算法在康奈尔大学机器抓取 Σw。根据1.1节中对CCA的描述,对Hx和Hr进
投影空间中的相关性而达到特征融合的目的。 CCA 可用于对多模态数据的特征提取和融合[2-4] , 减小预测或识别问题中的样本复杂度[5] ,已成功 应用于字符与人脸图像识别及多模态检索等任务 中 [6]。核典型相关分析 (kernel CCA,KCCA)[7] 是 对 CCA 的扩展,解决了 CCA 只能进行线性映射 的问题。通过隐性的非线性映射将两组特征分别 映射到高维特征空间,借助于核技巧,以线性的 方式提取变量的非线性特征。尽管 KCCA 可以 通过核来学习变量之间的非线性关系,但其需要 通过人工选择核函数,并且当训练集规模较大 时,会造成巨大的计算消耗。 为了解决 KCCA 存在的问题,文献[8]提出深 度典型相关分析 (deep CCA,DCCA),即用深度神 经网络学习灵活的非线性相关表示,使得到的特 征具有更高的相关度。文献[9]提出基于神经网 络和自编码 (auto encoder,AE) 的深度典型相关自 编码 (deep canonically correlated autoencoders, DCCAE),用于无标签多视图特征学习。但是这 些方法在参数训练过程中,需要根据梯度下降法 多次迭代至误差收敛,容易陷入局部最优,且计 算消耗大。 另一方面,超限学习机 (extreme learning machine,ELM) 以结构简单、学习速度快和泛化能力 好等优点[10] ,近年来已广泛应用于分类、回归等 任务中。伴随着大数据时代的到来,关于数据潜 在信息的挖掘引起了大量关注。然而 ELM 是一 种单隐含层前馈神经网络,其浅层的网络结构难 以发现数据深层抽象特征,因此基于 ELM 进行深 度学习的算法相继提出。文献[11]提出了 ELM-AE, 首次将 ELM 用于数据的特征表示;文献[12]提出 了基于 ELM 堆栈构成的深度表示模型;文献[13] 将流行正则引入原始 ELM-AE 中,并提出一种新 的深度神经网络;文献[14]使用深度 ELM 学习图 像的非线性结构,用于图像分类中,并且在速度 和准确率上表现出优越的性能;文献[15]将深度 ELM 模型用于多模态融合中,表明了 ELM 在多 模态数据应用中的有效性。 为了解决基于传统深度神经网络的非线性 CCA 训练速度缓慢、无法快速收敛等问题,本文 将 ELM-AE 引入 CCA 框架,用于多模态数据的特 征提取。首先利用 ELM-AE 分别对每个模态进行 多层无监督特征提取,然后极大化深层特征的相 关性。实验结果表明,相比于线性 CCA 和 DCCA, 本文方法在取得高相关度的同时,还显著提升了 算法的快速性。将该算法在康奈尔大学机器抓取 数据集上进行验证,实验结果表明该方法有效提 高了抓取点识别率。 1 相关工作 1.1 典型相关分析 X = [x1 x2 ··· xN] Y = [y1 y2 ··· yN] u = a TX v = b TY 给定 N 对已中心化的样本 与 ,CCA 的基本思想是找到一对投影 向量 a 和 b,满足 和 之间具有最大 的相关系数。然后通过对典型相关变量 u 和 v 的 相关关系研究,代替原来两组变量之间的相关关 系研究。 u 和 v 的相关系数为 ρ = corr(a TX, b TY) = a TΣXY b √ (a TΣXX a)(b TΣYY b) (1) ΣXX ΣYY ΣXY 式中: 和 分别表示特征集 X 和 Y 的协方差 矩阵, 表示 X 和 Y 的互协方差矩阵。 a TΣXX a = 1 b TΣYY b = 1 ρ maxρ = a TΣXY b 典型相关分析就是在约束条件 , 下求 a 和 b 的值,使 达到最大,此时目 标函数为 。 T = Σ −1/2 XX ΣXYΣ −1/2 YY αk ηk ( ⌢ a, ⌢ b) = (αkΣ −1/2 XX ,ηkΣ −1/2 YY ) 定义矩阵 ,对 T 进行奇异值分 解,得到矩阵 T 的前 k 个左奇异向量 和右奇异 向量 ,则最终优化目标值为 。 γ > 0 为了防止训练过拟合,在协方差计算中加入 正则项 : ΣXX = 1 N −1 XXT +γI (2) 1.2 深度典型相关分析 f = f(X;Wf) g = g(Y;Wg) [Wf ;Wg] f g Andrew 等 [8]对 CCA 进行扩展改进,提出基于 深度神经网络的 CCA,即 DCCA。给定模态 X 和 Y,两个深度神经网络模型 和 分别用来学习 X 和 Y 的非线性结构,其中 W= 为神经网络模型参数。然后通过 CCA 将 提取的特征 和 相关性极大化: max Wf ,Wg ,U,V 1 N tr(U T f(X;Wf)g(Y;Wg) TV) s.t. U T ( 1 N f(X)f(X) T +rx I ) U = I V T ( 1 N g(Y)g(Y) T +ry I ) V = I u T i f(X)g(Y) T vj = 0, i , j (3) U=[u1 u2 ··· uL] V = [v1 v2 ··· vL] rx > 0,ry > 0 式中: , 是 CCA 对 DNN 输出特征的映射矩阵, 是样本协方差 估计的正则化参数。 HX HY f g H¯ X = HX − HX/N H¯ Y ⌢ ΣXY、 ⌢ ΣXX ⌢ ΣYY HX HY 令 和 分别为通过深度模型 和 得到的 最终特征表示,中心化后得到 ,同 理得到 ,并且计算两者的协方差矩阵 、 。根据 1.1 节中对 CCA 的描述,对 和 进 ·634· 智 能 系 统 学 报 第 13 卷
第4期 温晓红,等:基于超限学习机的非线性典型相关分析及应用 ·635· 行相关分析,得到映射矩阵U和V。假设T的奇 式中:H为隐含层输出矩阵H的Moore-Penrose 异值分解矩阵为T=UDVT,则目标函数对Hx和 广义逆。 H,的梯度计算为 6corr(Hx,Hy)1 2基于超限学习机的非线性典型相 (4) Hx =N-1(2VxxHx+VxyH) 关分析 式钟:m-m"wE,u=-Uu -1/2 本文提出基于ELM的非线性典型相关分析 根据梯度下降法对网络参数W=[W:W]进行 (ELM-CCA),通过对两个模态分别进行复杂的非 优化。X)=UfX)和()=Vrg(Y即为最终X和 线性转换,最终使学习到的特征最大相关,其模 Y的投影矩阵,用于测试样本的映射。 型结构如图2所示。给定样本{x1y),(2y2,…, 与CCA不同,DCCA没有固定的解,其参数 (xw,yw)h,N为样本个数,x:∈Ry:∈R9,因此可以得 需要通过梯度下降法优化,Andrew等采用批处理 到两个模态的样本矩阵,分别为X∈Rxp和 算法L-BFGS对参数进行调整。王等I6随后提出 Y∈Rx,传统的CCA对X和Y进行线性变换,使 采用随机梯度下降(stochastic gradient descent, 变换后的两组数据相关性最大。实际中很多问题 SGD)对DCCA的权值进行优化。本文选择与后 需要非线性变换来挖掘事物间潜在的非线性关 者提出的方法进行比较。 系。而ELM-CCA算法可以实现非线性相关学习。 1.3超限学习机 超限学习机是一类针对单隐含层前馈神经网 典型相关分析 络的学习算法。典型的单隐层前馈神经网络结构 如图1所示,由输入层、隐含层和输出层组成。 (,b H )H 】H 输入层 隐含层 输出层 图2ELM-CCA模型结构 图1ELM网络结构 Fig.2 The model structure of ELM-CCA Fig.1 The model structure of ELM ELM-CCA结构分为两部分:分别对每个模态 给定N个训练样本,XeR,teR,n为输 进行多层非线性转换;极大化对两个模态多层非 入的维度。第ⅰ个样本的网络输出可表示为 线性映射后特征的相关性。对于X∈Rxp中的其 为=2gw+b9, (5) 中一个样本x∈R”,设有k个隐含层,则第1个隐 含层的输出为 式中:y是网络的实际输出,h是隐含层节点数, Hk=f(Wix+bx) (8) w,∈R"是输入权值,b是隐含层神经元的偏置, 式中:W∈Rp是连接输入与第1个隐含层的权 B,和是输出层的权值,g(x)为隐含层的激活函数, 值,b以∈R是第1层隐含层的偏置向量,f是隐含 取正切sigmoid函数。式(⑤)可表示为矩阵形式: 层的激活函数。将上一层的输出作为输入,依次 HB=T (6) 可得到第k层的输出: 式中:H为神经网络的隐含层输出矩阵,T是网络 H=f(W+b) (9) 期望输出值。 将模态X最终得到的隐含层输出简记为Hx, 在训练过程中,对w和b随机初始化,且保持 对于模态Y,通过相同的方式,得到最后一层隐含 不变,而隐含层与输出层的连接权值B可以通过 层的输出Hy。 求解以下方程组获得: 对Hx和H,进行典型相关分析,分别得到对应 B=HT (7) 的线性转换矩阵A∈Rxm和B∈Rm,最后的输出
T T = U DVT HX HY 行相关分析,得到映射矩阵 U 和 V。假设 的奇 异值分解矩阵为 ,则目标函数对 和 的梯度计算为 ∂corr(HX, HY) ∂HX = 1 N −1 (2∇XXHX +∇XYHY) (4) ∇XY = ⌢ ΣXX −1/2 UVT ⌢ ΣYY −1/2 ∇XX =− 1 2 ⌢ Σ −1/2 XX U DUT ⌢ Σ −1/2 式中: , XX W = [Wf ;Wg] ˜f(X) = U T f(X) g˜(Y) = V Tg(Y) 根据梯度下降法对网络参数 进行 优化。 和 即为最终 X 和 Y 的投影矩阵,用于测试样本的映射。 与 CCA 不同,DCCA 没有固定的解,其参数 需要通过梯度下降法优化,Andrew 等采用批处理 算法 L-BFGS 对参数进行调整。王等[16]随后提出 采用随机梯度下降 (stochastic gradient descent, SGD) 对 DCCA 的权值进行优化。本文选择与后 者提出的方法进行比较。 1.3 超限学习机 超限学习机是一类针对单隐含层前馈神经网 络的学习算法。典型的单隐层前馈神经网络结构 如图 1 所示,由输入层、隐含层和输出层组成。 y (w, b ) β x n x 2 x 1 Σ 输入层 隐含层 输出层 图 1 ELM 网络结构 Fig. 1 The model structure of ELM X ∈ R N×n , t ∈ R 给定 N×1 N 个训练样本, ,n 为输 入的维度。第 i 个样本的网络输出可表示为 yi = ∑h j=1 g(xiw T j +bj)βj (5) yi wj ∈ R n bj βj 式中: 是网络的实际输出,h 是隐含层节点数, 是输入权值, 是隐含层神经元的偏置, 和是输出层的权值,g(x) 为隐含层的激活函数, 取正切 sigmoid 函数。式 (5) 可表示为矩阵形式: Hβ = T (6) 式中:H 为神经网络的隐含层输出矩阵,T 是网络 期望输出值。 在训练过程中,对 w 和 b 随机初始化,且保持 不变,而隐含层与输出层的连接权值 β 可以通过 求解以下方程组获得: ⌢ β = H +T (7) 式中:H +为隐含层输出矩阵 H 的 Moore-Penrose 广义逆。 2 基于超限学习机的非线性典型相 关分析 {(x1, y1),(x2, y2),··· , (xN, yN)} xi ∈ R p , yi ∈ R q X ∈ R N×p Y ∈ R N×q 本文提出基于 ELM 的非线性典型相关分析 (ELM-CCA),通过对两个模态分别进行复杂的非 线性转换,最终使学习到的特征最大相关,其模 型结构如图 2 所示。给定样本 ,N 为样本个数, ,因此可以得 到两个模态的样本矩阵,分别为 和 ,传统的 CCA 对 X 和 Y 进行线性变换,使 变换后的两组数据相关性最大。实际中很多问题 需要非线性变换来挖掘事物间潜在的非线性关 系。而 ELM-CCA 算法可以实现非线性相关学习。 1 2 n1 2 nk 1 2 nk−1 x 1 p 1 1 L U 1 2 n1 2 nk 1 2 nk−1 y 1 q 1 1 L V W1 X Wk X A W1 Y Wk Y B HX k−1 H1 X HY k−1 H1 Y Hk X Hk Y 典型相关分析 图 2 ELM-CCA 模型结构 Fig. 2 The model structure of ELM-CCA X ∈ R N×p x ∈ R p ELM-CCA 结构分为两部分:分别对每个模态 进行多层非线性转换;极大化对两个模态多层非 线性映射后特征的相关性。对于 中的其 中一个样本 ,设有 k 个隐含层,则第 1 个隐 含层的输出为 H 1 X = f(W1 X x+ b 1 X ) (8) W1 X ∈ R n1×p b 1 X ∈ R n1 式中: 是连接输入与第 1 个隐含层的权 值, 是第 1 层隐含层的偏置向量,f 是隐含 层的激活函数。将上一层的输出作为输入,依次 可得到第 k 层的输出: H k X = f(Wk XH k−1 X + b k X ) (9) HX HY 将模态 X 最终得到的隐含层输出简记为 , 对于模态 Y,通过相同的方式,得到最后一层隐含 层的输出 。 HX HY A ∈ R L×nk B ∈ R L×nk 对 和 进行典型相关分析,分别得到对应 的线性转换矩阵 和 ,最后的输出 第 4 期 温晓红,等:基于超限学习机的非线性典型相关分析及应用 ·635·
·636· 智能系统学报 第13卷 层分别为 (A,B)=max A∑B (15) U=AHx (10) 上述优化的具体过程如下,将Hx∈Rw中心 V=BHy (11) 化:Hx=Hx-HxN。 通过深度ELM-CCA的训练,得到X和Y的 计算Hx的协方差矩阵: 非线性映射表示U和V,并且U和V的相关度最大。 So (16) 2.1无监督非线性映射 采用ELM-AE逐层训练得到每层之间的连接 式中:yx为正则项,I为单位矩阵。同样的方式中 权值,即每层权值的训练都作为一个独立的 心化H,∈RN,并计算协方差矩阵工w。 ELM。在独立组件ELM-AE中,令其输出=x,通 计算Hx和H,的交叉协方差矩阵: 过最小化输出的重构误差来训练权值。 1 Eoy-N-lxiy (17) 对于第k层权值W,构造ELM-AE模型,如 图3所示。随机给定正交化输入权值和隐含层 对矩阵T=Σx奇异值分解,得到左奇 偏置佐,则其隐含层输出为 异矩阵和右奇异矩阵,则可得到优化目标值: f(w+b)(w)w=I.bb=1 (12) A=2,B=V2 (18) 经过矩阵A和B转换,使最终输出U和V实 式中:w∈Rm是在输入层和隐含层节点之间正 交的随机权值,b5∈Rx1是正交的随机偏置。 现最大相关,从而实现对X和Y的非线性典型相 关分析学习。 ELM-CCA与DCCA具有相同的模型结构, 二者均通过深度神经网络学习特征的非线性表 示,然后对得到的深度特征进行线性CCA求解, 最终将非线性模态相关性问题转化为线性相关分 析。不同的是,在神经网络参数的优化过程中, DCCA首先由式(4)计算目标函数对深度特征的 梯度,然后根据反向传播算法优化每层的权值。 而在ELM-CCA中,每层之间的权值是通过前向 逐层训练,由式(I3)直接计算得到。相比DCCA, 不需要反向微调,极大地提高了训练速度。 图3 ELM-AE无监督非线性映射 3实验结果 Fig.3 Unsupervised nonlinear learning of ELM-AE 为了验证本文提出的ELM-CCA算法在多模 ELM-AE的输出权值B负责从特征空间到输 态特征提取中的有效性,我们在康奈尔大学抓取 入数据的学习转换。可以根据以下式子计算输出 数据集7上开展了实验对比。机器抓取是指机器 权值B: 人根据传感器采集到的信息来推断夹持器放置的 =(+('ar时 (13) 位置,抓取过程涉及感知、规划、识别和控制等问 题。在实施抓取操作之前,机器人首先需要对物 式中:C是正则项参数,H是ELM-AE的隐含层 体可抓取部分做出准确的识别,因此本文将提出 输出,是它的输入数据。 的算法应用于机器抓取识别任务中。 因此,第k-1层到第k层的连接权值W为 康奈尔大学抓取数据集包括由机器人视觉感 W=()T。 知部位RGB-D相机采集到的一系列图像,图4给 2.2极大化非线性映射的相关性 出了部分图像样本。相比传统的2-D图像,采用 X和Y分别经过多层非线性映射,得到特征 RGB-D相机能够在获取彩色图像的同时得到每 Hx∈RxW和Hy∈Rxw,对Hx和Hy执行线性CCA: 个像素的深度信息,提高了机器人抓取的成功率网」 ATΣxxB (14) 文献[19]通过对物体深度信息进行处理,实现了 (A,B)=arg max A.B VA ExYA VB EyyB 目标抓取任务。近年来,相关文献的研究也表明 由于式(14)中A或B等比例变化时,目标函 了多模态特征融合的必要性2,文献[21]提出采 数的值不变,因此CCA定义了下式约束条件 用多特征光学遥感图像提高目标的分类识别性 AT∑A=L,B EyyB=I,此时,目标函数等价于: 能;文献[22]指出RGB-D融合的多应用场合。因
层分别为 U = AHX (10) V = BHY (11) 通过深度 ELM-CCA 的训练,得到 X 和 Y 的 非线性映射表示 U 和 V,并且 U 和 V 的相关度最大。 2.1 无监督非线性映射 采用 ELM-AE 逐层训练得到每层之间的连接 权值,即每层权值的训练都作为一个独立 的 ELM。在独立组件 ELM-AE 中,令其输出 y=x,通 过最小化输出的重构误差来训练权值。 Wk X w k X b k X 对于第 k 层权值 ,构造 ELM-AE 模型,如 图 3 所示。随机给定正交化输入权值 和隐含层 偏置 ,则其隐含层输出为 Hk X = f(w k XHk−1 + b k X )(w k X ) Tw k X = I,b kT X b k X= 1 (12) w k X ∈ R nk−1×nk b k X ∈ R nk×1 式中: 是在输入层和隐含层节点之间正 交的随机权值, 是正交的随机偏置。 x 1 2 nk-1 1 2 nk 1 2 ~ nk-1 1 2 p 1 2 n1 1 2 n 1 2 p 1 2 nk 1 2 nk-1 x 1 p 1 W1 X wk X x H1 X HX k−1 Hk X HX k−1 HX k−1 Hk X H1 X Wk X β k X w1 X β 1 X 图 3 ELM-AE 无监督非线性映射 Fig. 3 Unsupervised nonlinear learning of ELM-AE β β ELM-AE 的输出权值 负责从特征空间到输 入数据的学习转换。可以根据以下式子计算输出 权值 : β k X = ( I C +(H k X ) T H k X )−1 (H k X ) TH k−1 X (13) Hk X Hk−1 X 式中:C 是正则项参数, 是 ELM-AE 的隐含层 输出, 是它的输入数据。 Wk X Wk X = (β k X ) T 因此,第 k– 1 层到第 k 层的连接权值 为 。 2.2 极大化非线性映射的相关性 HX ∈ R nk×N HY ∈ R nk×N HX HY X 和 Y 分别经过多层非线性映射,得到特征 和 ,对 和 执行线性 CCA: (A,B) = argmax A,B A TΣXX B √ ATΣXY A √ BTΣYYB (14) A TΣXY A = I,B TΣYYB = I 由于式 (14) 中 A 或 B 等比例变化时,目标函 数的值不变,因此 CCA 定义了下式约束条件 ,此时,目标函数等价于: (A,B) = max A TΣXYB (15) HX ∈ R nk×N ⌢ HX = HX − HX/N 上述优化的具体过程如下,将 中心 化: 。 ⌢ 计算 HX的协方差矩阵: ΣXX = 1 N −1 ⌢ HX ⌢ H T X +γX I (16) γX HY ∈ R nk×N ΣYY 式中: 为正则项,I 为单位矩阵。同样的方式中 心化 ,并计算协方差矩阵 。 计算 HX和 HY的交叉协方差矩阵: ΣXY = 1 N −1 ⌢ HX ⌢ H T Y (17) T = Σ −1/2 XX ΣXYΣ −1/2 YY αL ηL 对矩阵 奇异值分解,得到左奇 异矩阵 和右奇异矩阵 ,则可得到优化目标值: ⌢ A = αLΣ −1/2 XX , ⌢ B = ηLΣ −1/2 YY (18) 经过矩阵 A 和 B 转换,使最终输出 U 和 V 实 现最大相关,从而实现对 X 和 Y 的非线性典型相 关分析学习。 ELM-CCA 与 DCCA 具有相同的模型结构, 二者均通过深度神经网络学习特征的非线性表 示,然后对得到的深度特征进行线性 CCA 求解, 最终将非线性模态相关性问题转化为线性相关分 析。不同的是,在神经网络参数的优化过程中, DCCA 首先由式 (4) 计算目标函数对深度特征的 梯度,然后根据反向传播算法优化每层的权值。 而在 ELM-CCA 中,每层之间的权值是通过前向 逐层训练,由式 (13) 直接计算得到。相比 DCCA, 不需要反向微调,极大地提高了训练速度。 3 实验结果 为了验证本文提出的 ELM-CCA 算法在多模 态特征提取中的有效性,我们在康奈尔大学抓取 数据集[17]上开展了实验对比。机器抓取是指机器 人根据传感器采集到的信息来推断夹持器放置的 位置,抓取过程涉及感知、规划、识别和控制等问 题。在实施抓取操作之前,机器人首先需要对物 体可抓取部分做出准确的识别,因此本文将提出 的算法应用于机器抓取识别任务中。 康奈尔大学抓取数据集包括由机器人视觉感 知部位 RGB-D 相机采集到的一系列图像,图 4 给 出了部分图像样本。相比传统的 2-D 图像,采用 RGB-D 相机能够在获取彩色图像的同时得到每 个像素的深度信息,提高了机器人抓取的成功率[18]。 文献[19]通过对物体深度信息进行处理,实现了 目标抓取任务。近年来,相关文献的研究也表明 了多模态特征融合的必要性[20] ,文献[21]提出采 用多特征光学遥感图像提高目标的分类识别性 能;文献[22]指出 RGB-D 融合的多应用场合。因 ·636· 智 能 系 统 学 报 第 13 卷
第4期 温晓红,等:基于超限学习机的非线性典型相关分析及应用 ·637· 此本文将对图像的颜色RGB模态和深度信息模 3.1 实验数据 态进行研究,寻找其相关信息。 实验数据集包含885张RGB图像,这些图像 来自于对240个不同物体的多角度拍摄。每张图 片被多个已标签矩形框标记,共记8019个,如图5 所示,粗线对应夹持器抓取的位置。其中正矩形 表示可抓取,负矩形表示当前状态不可抓取。 每个矩形框对应一个样本,同时对这些矩形 内的图像提取颜色信息和深度信息,分别对应算 法中的X和Y。颜色特征为三通道24×24像素的 RGB图像,即X∈R2然。深度特征包含单通道图 图4康奈尔大学数据集样本 像深度信息,即y∈Rs6。图5右所示为抓取识别 Fig.4 Example objects from the Cornell grasping dataset 任务的实验流程。 RGB特征 可抓取 不可抓取 epth特征 图5抓取识别任务流程 Fig.5 The process of grasping recognition tasks 90 3.2实验结果 为了体现本文算法的优越性,将实验结果与 25 线性CCA、分数阶嵌入典型相关分析(fractional-. order embedding canonical correlation analysis, 60 FECCA)和DCCA进行比较。分别在相关度、时 宝50 间和抓取识别任务3个方面验证了ELM-CCA的 ---CCA ·-FECCA 优势。 ..DCCA 一ELM-CCA CCA是对随机变量线性映射的统计方法, 100150200250300350400450500 FECCA使用分子阶思想,对传统CCA类内和类 输出维度 间协方差进行重新估计,以减小训练样本噪声造 图6前100个典型变量相关度随映射维度变化曲线 成的样本协方差偏离真实数据的问题。DCCA Fig.6 The correlation curve of the top 100 canonical vari- ables with the increase of output dimensions 和ELM-CCA都属于非线性映射方法。上述方法 的目标都是极大化两个随机变量之间的相关系 图7对DCCA和ELM-CCA在不同网络结构 数。因此,首先对以上算法学习的特征进行相关 下,提取特征至100维时,进行了时间和相关度的 度的比较。图6为不同特征下,4种方法在测试 比较,横坐标表示隐含层的规模。从图7(a)可以 集下得到的前100个最相关典型变量的相关系数 看出,随着网络层数和隐含层节点数增加,算法 消耗的时间在显著增长。并且在每个网络结构 之和。从图中可以看出,ELM-CCA学习到的特 下,DCCA算法消耗的时间都远远高于ELM- 征相关度始终高于其他算法。尤其在低维时表现 CCA。当隐含层层数低于4层,且每层节点数在 突出,当输出维度为100时,采用ELM-CCA得到 2000以内时,ELM-CCA的训练时间可保持在10s 的相关系数之和相比前两者优势最大。输出维度 之内。而DCCA在隐含层结构为1000-1000时, 较高时,相关度基本趋于一致。 训练时间已经达到466s,可以看出ELM-CCA在
此本文将对图像的颜色 RGB 模态和深度信息模 态进行研究,寻找其相关信息。 图 4 康奈尔大学数据集样本 Fig. 4 Example objects from the Cornell grasping dataset 3.1 实验数据 实验数据集包含 885 张 RGB 图像,这些图像 来自于对 240 个不同物体的多角度拍摄。每张图 片被多个已标签矩形框标记,共记 8 019 个,如图 5 所示,粗线对应夹持器抓取的位置。其中正矩形 表示可抓取,负矩形表示当前状态不可抓取。 X ∈ R 1 728 Y ∈ R 576 每个矩形框对应一个样本,同时对这些矩形 内的图像提取颜色信息和深度信息,分别对应算 法中的 X 和 Y。颜色特征为三通道 24×24 像素的 RGB 图像,即 。深度特征包含单通道图 像深度信息,即 。图 5 右所示为抓取识别 任务的实验流程。 RGB 特征 Depth 特征 可抓取 不可抓取 分 类 器 图 5 抓取识别任务流程 Fig. 5 The process of grasping recognition tasks 3.2 实验结果 为了体现本文算法的优越性,将实验结果与 线性 CCA、分数阶嵌入典型相关分析 (fractionalorder embedding canonical correlation analysis, FECCA)[4]和 DCCA 进行比较。分别在相关度、时 间和抓取识别任务 3 个方面验证了 ELM-CCA 的 优势。 CCA 是对随机变量线性映射的统计方法, FECCA 使用分子阶思想,对传统 CCA 类内和类 间协方差进行重新估计,以减小训练样本噪声造 成的样本协方差偏离真实数据的问题。DCCA 和 ELM-CCA 都属于非线性映射方法。上述方法 的目标都是极大化两个随机变量之间的相关系 数。因此,首先对以上算法学习的特征进行相关 度的比较。图 6 为不同特征下,4 种方法在测试 集下得到的前 100 个最相关典型变量的相关系数 之和。从图中可以看出,ELM-CCA 学习到的特 征相关度始终高于其他算法。尤其在低维时表现 突出,当输出维度为 100 时,采用 ELM-CCA 得到 的相关系数之和相比前两者优势最大。输出维度 较高时,相关度基本趋于一致。 100 150 200 250 300 350 400 450 500 40 50 60 70 80 90 输出维度 前100个典型变量相关系数之和 CCA FECCA DCCA ELM-CCA 图 6 前 100 个典型变量相关度随映射维度变化曲线 Fig. 6 The correlation curve of the top 100 canonical variables with the increase of output dimensions 图 7 对 DCCA 和 ELM-CCA 在不同网络结构 下,提取特征至 100 维时,进行了时间和相关度的 比较,横坐标表示隐含层的规模。从图 7(a) 可以 看出,随着网络层数和隐含层节点数增加,算法 消耗的时间在显著增长。并且在每个网络结构 下 , DCCA 算法消耗的时间都远远高于 ELMCCA。当隐含层层数低于 4 层,且每层节点数在 2 000 以内时,ELM-CCA 的训练时间可保持在 10 s 之内。而 DCCA 在隐含层结构为 1 000-1 000 时, 训练时间已经达到 466 s,可以看出 ELM-CCA 在 第 4 期 温晓红,等:基于超限学习机的非线性典型相关分析及应用 ·637·
·638· 智能系统学报 第13卷 训练速度上取得了很大的优势。图7b)为在各网 和类间协方差重新估计,相比传统CCA,性能得 络结构映射下得到的特征相关度,ELM-CCA学 到了改善。ELM-CCA在经过快速的特征学习 习到的特征相关度均高于DCCA,随着网络层数 后,相比DCCA,仍然取得了满意的识别率。图8 增多,相关度逐渐增加,当隐含层层数为3层时, 所示为不同输出维度下,采用ELM分类器在 得到的结果最好。因此选择该网络结构提取多模 RGBD特征输入下的识别结果。在低维时,识别 态特征,用于机器人抓取点的识别任务。 率随着输出维度的增加显著提升,在输出维度达 102 到20维时基本稳定,并且在不同维度下,ELM- 25 -DCCA CCA始终体现了较好的识别效果。 30 ELM-CCA 表1在SVM分类器上得到的识别率 Table 1 The recognition rate obtained by the SVM classifier 15 模态 原始特征CCA FECCA DCCA ELM-CCA 10 RGB 86.9787.31 87.4791.02 91.27 Depth 83.30 83.32 83.60 89.53 91.08 RGBD 89.83 90.2290.27 94.33 94.70 表2在ELM分类器上得到的识别率 Table 2 The recognition rate obtained by the ELM classi- 10-100100-20 1000-1000-2000-3000 000-1000-2000 fier % (a)训练时间比较 模态原始特征CCA FECCA DCCA ELM-CCA RGB 86.93 90.1390.77 91.52 91.90 ▣DCCA Depth 87.26 83.06 87.59 89.59 90.63 40 ☐ELM-CCA RGBD 88.99 92.27 93.02 93.20 95.14 3 96 94 100 808“89一g二8 0 1000-10001000-200 1000-1000-2000-3000 000-1000-2000 86 一-一原始特征 …tCCA (b)相关度比较 84 ·-FECCA 82 -DCCA 图7不同网络结构下DCCA和ELM-CCA性能比较 ◆ELM-CCA 80 Fig.7 The performance comparison of DCCA and ELM- 40 60 0 100 CCA with different network structures 输出维度 通过对原始RGB和深度特征的非线性映射, 图8抓取点识别率随输出维度的变化 可以得到两个模态特征的最终表示。我们分别将 Fig.8 The recognition rate of grasping point along with 原始特征与经过CCA、DCCA和ELM-CCA算法 the increasing of output dimension 提取后的特征输入到分类器中,通过得到的识别 4 结束语 准确率比较不同算法的学习性能。为了使结果更 有说服力,我们在不同的分类器上进行了实验, 本文提出一种新的ELM-CCA非线性典型相 选择了基于统计理论的SVM和基于神经网络的 关分析方法,并应用于机器人抓取点的识别任务 ELM。此外,我们还比较了使用单模态特征(即 中。对机器人采集到的原始图像提取RGB模态 RGB和Depth)和多模态特征融合(即RGBD)对 和深度模态,首先采用ELM分别的对每个模态进 识别率的影响。 行无监督特征学习,得到非线性特征表示,然后 表1和表2分别给出了使用SVM分类器和 将学习到的特征通过CCA极大化模态之间的相 ELM分类器得到的分类结果。从表中可以看出, 关性。该方法在保证了识别率较高的情况下还体 尽管使用了不同的分类器,得到的识别率趋势是 现了强大的快速性。在实际应用中,为机器人实 相同的,经过特征提取后的识别率要高于直接使 现快速准确的抓取操作奠定了基础。 用原始特征进行识别的结果。而DCCA和ELM- CCA经过非线性的学习后,体现出了比线性 参考文献: CCA和FECCA的优势,其中FECCA通过对类内 [1]HOTELLING H.Relations between two sets of variates[J]
训练速度上取得了很大的优势。图 7(b) 为在各网 络结构映射下得到的特征相关度,ELM-CCA 学 习到的特征相关度均高于 DCCA,随着网络层数 增多,相关度逐渐增加,当隐含层层数为 3 层时, 得到的结果最好。因此选择该网络结构提取多模 态特征,用于机器人抓取点的识别任务。 0 10 20 30 40 1000−1000 1000−2000 1000−1000−2000 1000−1000−2000 前 −3000 100个典型变量相关系数之和 (b) 相关度比较 DCCA ELM-CCA 1000−1000 1000−2000 1000−1000−2000 1000−1000−2000−3000 t/s DCCA ELM-CCA (a) 训练时间比较 0 5 10 15 20 25 ×102 图 7 不同网络结构下 DCCA 和 ELM-CCA 性能比较 Fig. 7 The performance comparison of DCCA and ELMCCA with different network structures 通过对原始 RGB 和深度特征的非线性映射, 可以得到两个模态特征的最终表示。我们分别将 原始特征与经过 CCA、DCCA 和 ELM-CCA 算法 提取后的特征输入到分类器中,通过得到的识别 准确率比较不同算法的学习性能。为了使结果更 有说服力,我们在不同的分类器上进行了实验, 选择了基于统计理论的 SVM 和基于神经网络的 ELM。此外,我们还比较了使用单模态特征 (即 RGB 和 Depth) 和多模态特征融合 (即 RGBD) 对 识别率的影响。 表 1 和表 2 分别给出了使用 SVM 分类器和 ELM 分类器得到的分类结果。从表中可以看出, 尽管使用了不同的分类器,得到的识别率趋势是 相同的,经过特征提取后的识别率要高于直接使 用原始特征进行识别的结果。而 DCCA 和 ELMCCA 经过非线性的学习后,体现出了比线 性 CCA 和 FECCA 的优势,其中 FECCA 通过对类内 和类间协方差重新估计,相比传统 CCA,性能得 到了改善。ELM-CCA 在经过快速的特征学习 后,相比 DCCA,仍然取得了满意的识别率。图 8 所示为不同输出维度下,采用 ELM 分类器在 RGBD 特征输入下的识别结果。在低维时,识别 率随着输出维度的增加显著提升,在输出维度达 到 20 维时基本稳定,并且在不同维度下,ELMCCA 始终体现了较好的识别效果。 表 1 在 SVM 分类器上得到的识别率 Table 1 The recognition rate obtained by the SVM classifier % 模态 原始特征 CCA FECCA DCCA ELM-CCA RGB 86.97 87.31 87.47 91.02 91.27 Depth 83.30 83.32 83.60 89.53 91.08 RGBD 89.83 90.22 90.27 94.33 94.70 表 2 在 ELM 分类器上得到的识别率 Table 2 The recognition rate obtained by the ELM classifier % 模态 原始特征 CCA FECCA DCCA ELM-CCA RGB 86.93 90.13 90.77 91.52 91.90 Depth 87.26 83.06 87.59 89.59 90.63 RGBD 88.99 92.27 93.02 93.20 95.14 0 20 40 60 80 100 80 82 84 86 88 90 92 94 96 输出维度 识别准确率/% 原始特征 CCA FECCA DCCA ELM-CCA 图 8 抓取点识别率随输出维度的变化 Fig. 8 The recognition rate of grasping point along with the increasing of output dimension 4 结束语 本文提出一种新的 ELM-CCA 非线性典型相 关分析方法,并应用于机器人抓取点的识别任务 中。对机器人采集到的原始图像提取 RGB 模态 和深度模态,首先采用 ELM 分别的对每个模态进 行无监督特征学习,得到非线性特征表示,然后 将学习到的特征通过 CCA 极大化模态之间的相 关性。该方法在保证了识别率较高的情况下还体 现了强大的快速性。在实际应用中,为机器人实 现快速准确的抓取操作奠定了基础。 参考文献: [1] HOTELLING H. Relations between two sets of variates[J]. ·638· 智 能 系 统 学 报 第 13 卷
第4期 温晓红,等:基于超限学习机的非线性典型相关分析及应用 ·639· Biometrika,1936,28(3/4):321-377. vised learning of acoustic features via deep canonical cor- [2]SARGIN M E,YEMEZ Y,ERZIN E,et al.Audiovisual relation analysis[Cl//Proceedings of the 2015 IEEE Inter- synchronization and fusion using canonical correlation national Conference on Acoustics,Speech and Signal Pro analysis[].IEEE transactions on multimedia,2007,9(7): cessing.Brisbane,Australia,2015:4590-4594. 1396-1403. [17]LENZ I,LEE H,SAXENA A.Deep learning for detect- [3]侯书东,孙权森.稀疏保持典型相关分析及在特征融合 ing robotic grasps[J].The international journal of robot- 中的应用】.自动化学报,2012,38(4):659-665. ics research,2015,344/5):705-724. HOU Shudong,SUN Quansen.Sparsity preserving canon- [18]JIANG Yun.MOSESON S,SAXENA A.Efficient grasp- ical correlation analysis with application in feature fusion ing from RGBD images:learning using a new rectangle [J].Acta automatica sinica,2012,38(4):659-665. representation[C]//Proceedings of 2011 IEEE Internation- [4]YUAN Yunhao,SUN Quansen,GE Hongwei.Fractional- al Conference on Robotics and Automation.Shanghai, order embedding canonical correlation analysis and its ap- China.2011:3304-3311. plications to multi-view dimensionality reduction and re- [19]韩峥,刘华平,黄文炳,等.基于Kinect的机械臂目标抓 cognition[J].Pattern recognition,2014,47(3):1411-1424. 取.智能系统学报,2013,8(2):149-155. [5]XING Xianglei,WANG Kejun,YAN Tao,et al.Complete HAN Zheng,LIU Huaping,HUANG Wenbing,et al.Kin- canonical correlation analysis with application to multi- ect-based object grasping by manipulator[J].CAAl trans- view gait recognition[J].Pattern recognition,2016,50: actions on intelligent systems,2013,8(2):149-155. 107-117. [20]温有福,贾彩燕,陈智能.一种多模态融合的网络视频 [6]RASIWASIA N.PEREIRA JC.COVIELLO E.et al.A 相关性度量方法[).智能系统学报,2016,11(3):359 365. new approach to cross-modal multimedia retrieval[Cl//Pro- WEN Youfu,JIA Caiyan,CHEN Zhineng.A multi-mod- ceedings of the 18th ACM International Conference on al fusion approach for measuring web video relatedness Multimedia.New York,NY,USA,2010:251-260. [J].CAAI transactions on intelligent systems,2016, [7]HARDOON D R,SZEDMAK S.SHAWE-TAYLOR J. 11(3:359-365. Canonical correlation analysis:an overview with applica- [21]姬晓飞,秦宁丽,刘洋.多特征的光学遥感图像多目标 tion to learning methods[J].Neural computation,2004, 识别算法[J】.智能系统学报,2016,11(5):655-662 16(12:2639-2664. JI Xiaofei,QIN Ningli,LIU Yang.Research on multi-fea [8]ANDREW G,ARORA R,BILMES J,et al.Deep canonic- ture based multi-target recognition algorithm for optical al correlation analysis[C]//Proceedings of the 30th Interna- remote sensing image[J].CAAI transactions on intelli- tional Conference on Machine Learning.Atlanta,Georgia, gent systems,.2016,11(5):655-662. USA.2013:Π-1247-Π-1255. [22]CAMPLANI M,PAIEMENT A,MIRMEHDI M,et al. [9]WANG Weiran,ARORA R,LIVESCU K,et al.On deep Multiple human tracking in RGB-D data:a survey[J]. multi-view representation learning[C]//Proceedings of the arXiv:1606.04450,2016. 32nd International Conference on Machine Learning.Lille, France,.2015:1083-1092. 作者简介: [10]HUANG Guang,ZHU Qinyu,SIEW C K.Extreme learn- 温晓红,女,1993年生,硕士研究 ing machine:theory and applications[J].Neurocomputing, 生,主要研究方向为智能控制、模式识 2006,70(12/3):489-501. 别、多模态融合。 [11]CAMBRIA E,HUANG Guangbin,KASUN LL C,et al. Extreme learning machines:trends and controversies[J]. IEEE intelligent systems,2013,28(6):30-59. [12]YU Wenchao,ZHUANG Fuzhen,HE Qing,et al.Learn- ing deep representations via extreme learning machines [J].Neurocomputing,2015.149:308-315. 刘华平,男,1976年生,副教授 [13]SUN Kai,ZHANG Jiangshe,ZHANG Chunxia.et al. 博士生导师,主要研究方向为机器人 Generalized extreme learning machine autoencoder and a 感知、学习与控制,多模态信息融合。 new deep neural network[J].Neurocomputing,2017,230: 374381. [14]UZAIR M.SHAFAIT F,GHANEM B,et al.Representa- tion learning with deep extreme learning machines for ef- ficient image set classification[M]//MACINTYRE J. Neural Computing and Applications.London:Springer, 阎高伟,男,1970年生,教授,主 2015:1-13 要研究方向为复杂工业控制系统、智 [15]WEI Jie,LIU Huaping,YAN Gaowei,et al.Robotic 能控制理论及其应用、机器学习与软 grasping recognition using multi-modal deep extreme 测量建模。 learning machine[J].Multidimensional systems and sig- nal processing,2017,28(3):817-833. [16]WANG Weiran,ARORA R,LIVESCU K,et al.Unsuper-
Biometrika, 1936, 28(3/4): 321–377. SARGIN M E, YEMEZ Y, ERZIN E, et al. Audiovisual synchronization and fusion using canonical correlation analysis[J]. IEEE transactions on multimedia, 2007, 9(7): 1396–1403. [2] 侯书东, 孙权森. 稀疏保持典型相关分析及在特征融合 中的应用[J]. 自动化学报, 2012, 38(4): 659–665. HOU Shudong, SUN Quansen. Sparsity preserving canonical correlation analysis with application in feature fusion [J]. Acta automatica sinica, 2012, 38(4): 659–665. [3] YUAN Yunhao, SUN Quansen, GE Hongwei. Fractionalorder embedding canonical correlation analysis and its applications to multi-view dimensionality reduction and recognition[J]. Pattern recognition, 2014, 47(3): 1411–1424. [4] XING Xianglei, WANG Kejun, YAN Tao, et al. Complete canonical correlation analysis with application to multiview gait recognition[J]. Pattern recognition, 2016, 50: 107–117. [5] RASIWASIA N, PEREIRA J C, COVIELLO E, et al. A new approach to cross-modal multimedia retrieval[C]//Proceedings of the 18th ACM International Conference on Multimedia. New York, NY, USA, 2010: 251–260. [6] HARDOON D R, SZEDMAK S, SHAWE-TAYLOR J. Canonical correlation analysis: an overview with application to learning methods[J]. Neural computation, 2004, 16(12): 2639–2664. [7] ANDREW G, ARORA R, BILMES J, et al. Deep canonical correlation analysis[C]//Proceedings of the 30th International Conference on Machine Learning. Atlanta, Georgia, USA, 2013: III-1247-III-1255. [8] WANG Weiran, ARORA R, LIVESCU K, et al. On deep multi-view representation learning[C]//Proceedings of the 32nd International Conference on Machine Learning. Lille, France, 2015: 1083–1092. [9] HUANG Guang, ZHU Qinyu, SIEW C K. Extreme learning machine: theory and applications[J]. Neurocomputing, 2006, 70(1/2/3): 489–501. [10] CAMBRIA E, HUANG Guangbin, KASUN L L C, et al. Extreme learning machines: trends and controversies[J]. IEEE intelligent systems, 2013, 28(6): 30–59. [11] YU Wenchao, ZHUANG Fuzhen, HE Qing, et al. Learning deep representations via extreme learning machines [J]. Neurocomputing, 2015, 149: 308–315. [12] SUN Kai, ZHANG Jiangshe, ZHANG Chunxia, et al. Generalized extreme learning machine autoencoder and a new deep neural network[J]. Neurocomputing, 2017, 230: 374–381. [13] UZAIR M, SHAFAIT F, GHANEM B, et al. Representation learning with deep extreme learning machines for efficient image set classification[M]//MACINTYRE J. Neural Computing and Applications. London: Springer, 2015: 1–13. [14] WEI Jie, LIU Huaping, YAN Gaowei, et al. Robotic grasping recognition using multi-modal deep extreme learning machine[J]. Multidimensional systems and signal processing, 2017, 28(3): 817–833. [15] [16] WANG Weiran, ARORA R, LIVESCU K, et al. Unsupervised learning of acoustic features via deep canonical correlation analysis[C]//Proceedings of the 2015 IEEE International Conference on Acoustics, Speech and Signal Processing. Brisbane, Australia, 2015: 4590–4594. LENZ I, LEE H, SAXENA A. Deep learning for detecting robotic grasps[J]. The international journal of robotics research, 2015, 34(4/5): 705–724. [17] JIANG Yun, MOSESON S, SAXENA A. Efficient grasping from RGBD images: learning using a new rectangle representation[C]//Proceedings of 2011 IEEE International Conference on Robotics and Automation. Shanghai, China, 2011: 3304–3311. [18] 韩峥, 刘华平, 黄文炳, 等. 基于 Kinect 的机械臂目标抓 取[J]. 智能系统学报, 2013, 8(2): 149–155. HAN Zheng, LIU Huaping, HUANG Wenbing, et al. Kinect-based object grasping by manipulator[J]. CAAI transactions on intelligent systems, 2013, 8(2): 149–155. [19] 温有福, 贾彩燕, 陈智能. 一种多模态融合的网络视频 相关性度量方法[J]. 智能系统学报, 2016, 11(3): 359– 365. WEN Youfu, JIA Caiyan, CHEN Zhineng. A multi-modal fusion approach for measuring web video relatedness [J]. CAAI transactions on intelligent systems, 2016, 11(3): 359–365. [20] 姬晓飞, 秦宁丽, 刘洋. 多特征的光学遥感图像多目标 识别算法[J]. 智能系统学报, 2016, 11(5): 655–662. JI Xiaofei, QIN Ningli, LIU Yang. Research on multi-feature based multi-target recognition algorithm for optical remote sensing image[J]. CAAI transactions on intelligent systems, 2016, 11(5): 655–662. [21] CAMPLANI M, PAIEMENT A, MIRMEHDI M, et al. Multiple human tracking in RGB-D data: a survey[J]. arXiv: 1606.04450, 2016. [22] 作者简介: 温晓红,女,1993 年生,硕士研究 生,主要研究方向为智能控制、模式识 别、多模态融合。 刘华平,男,1976 年生,副教授, 博士生导师,主要研究方向为机器人 感知、学习与控制,多模态信息融合。 阎高伟,男,1970 年生,教授,主 要研究方向为复杂工业控制系统、智 能控制理论及其应用、机器学习与软 测量建模。 第 4 期 温晓红,等:基于超限学习机的非线性典型相关分析及应用 ·639·