第36卷第12期 北京科技大学学报 Vol.36 No.12 2014年12月 Journal of University of Science and Technology Beijing Dec.2014 多分辨率小波极限学习机 全丽萍,李晓理2,王巧智》 1)北京科技大学自动化学院,北京1000832)上海交通大学机械系统与振动国家重点实验室,上海200240 3)北京科技大学机械工程学院,北京100083 ☒通信作者,E-mail:chuanziyiwei@163.com 摘要针对一类具有空间不均匀性的辨识和回归问题,提出了基于小波分析的极限学习机方法.从多分辨率分析的思想出 发,构造一簇紧支撑正交小波作为隐层激活函数,并利用改进的误差最小化极限学习机训练输出层权重,避免了新加入高分 辨率子网络后的重新训练.同时,由一维多分辨分析的张量积构造了二维多分辨小波极限学习机.进而通过脊波变换将小波 学习机扩展到高维空间,对脊波函数的伸缩、方向和位置参数进行优化计算.对具有奇异性的函数仿真结果证明,与标准极限 学习机相比,小波极限学习机由于其聚微性能在极短的训练时间内更好地逼近目标.一些实际基准回归问题上的测试验证了 脊波极限学习机在其中大部分问题上达到更高的训练和泛化精度. 关键词学习算法:极限学习机:小波分析:多分辨分析:正交 分类号TP183 Multiresolution wavelet extreme learning machine QUAN Li-ping”,LI Xiao-i.2,WANG Qiao--hi》 1)School of Automation and Electrical Engineering,University of Science and Technology Beijing,Beijing 100083,China 2)State Key Laboratory of Mechanical System and Vibration,Shanghai Jiao Tong University,Shanghai 200240,China 3)School of Mechanical and Engineering,University of Science and Technology Beijing,Beijing 100083,China Corresponding author,E-mail:chuanziyiwei@163.com ABSTRACT An extrme learning machine (ELM)algorithm based on wavelet transform was designed for a class of indentification and regression problem with inhomogeneity in a space.From the standpoint of multiresolution analysis,a set of compactly supported or- thogonal wavelets was constructed as the hidden layer activation function,and the output layer weight of the network was trained by an error minimized extreme learning machine.This method avoided retraining the output layer parameter as adding a subnetwork with high- er resolution.The wavelet ELM was then extended into a two-dimensional space using the tensor product of a scaling function.To hur- dle high-dimensionality issues,ridgelet transform based on ELM was obtained,whose scaling,direction,and position parameters were determined by optimization methods.Simulation results on functions with singularity confirm that the wavelet ELM can approch the tar- get better.When being tested on some real benchmark problems,the ridgelet ELM demonstrates better training and testing accuracy on most cases. KEY WORDS learning algorithms;extreme learning machine:wavelet analysis:multiresolution analysis:orthogonal 极限学习机近年来一直是神经网络领域非常活 领域使得逼近回归理论产生了极大的飞跃.极限学 跃的研究方向,具有学习速率高、能达到全局最优、 习机的隐层激励函数通常采用任意分段连续的非线 结构简单、泛化性能好等多重优点.将其引入预测 性函数,如Sigmoid、Sin和Hardlim一类支撑集为无 收稿日期:2014-0909 基金项目:新世纪优秀人才支持计划资助项目(NCET-11O578):中央高校基本科研业务费专项资金资助项目(FRF-TP-12OO5B):高等学校 博士学科点专项科研基金资助项目(20130006110008):机械系统与振动国家重点实验室开放课题(MSV-201409) DOI:10.13374/j.issn1001-053x.2014.12.019;http://journals.ustb.edu.cn
第 36 卷 第 12 期 2014 年 12 月 北京科技大学学报 Journal of University of Science and Technology Beijing Vol. 36 No. 12 Dec. 2014 多分辨率小波极限学习机 全丽萍1) ,李晓理1,2) ,王巧智3) 1) 北京科技大学自动化学院,北京 100083 2) 上海交通大学机械系统与振动国家重点实验室,上海 200240 3) 北京科技大学机械工程学院,北京 100083 通信作者,E-mail: chuanziyiwei@ 163. com 摘 要 针对一类具有空间不均匀性的辨识和回归问题,提出了基于小波分析的极限学习机方法. 从多分辨率分析的思想出 发,构造一簇紧支撑正交小波作为隐层激活函数,并利用改进的误差最小化极限学习机训练输出层权重,避免了新加入高分 辨率子网络后的重新训练. 同时,由一维多分辨分析的张量积构造了二维多分辨小波极限学习机. 进而通过脊波变换将小波 学习机扩展到高维空间,对脊波函数的伸缩、方向和位置参数进行优化计算. 对具有奇异性的函数仿真结果证明,与标准极限 学习机相比,小波极限学习机由于其聚微性能在极短的训练时间内更好地逼近目标. 一些实际基准回归问题上的测试验证了 脊波极限学习机在其中大部分问题上达到更高的训练和泛化精度. 关键词 学习算法; 极限学习机; 小波分析; 多分辨分析; 正交 分类号 TP 183 Multiresolution wavelet extreme learning machine QUAN Li-ping1) ,LI Xiao-li1,2) ,WANG Qiao-zhi3) 1) School of Automation and Electrical Engineering,University of Science and Technology Beijing,Beijing 100083,China 2) State Key Laboratory of Mechanical System and Vibration,Shanghai Jiao Tong University,Shanghai 200240,China 3) School of Mechanical and Engineering,University of Science and Technology Beijing,Beijing 100083,China Corresponding author,E-mail: chuanziyiwei@ 163. com ABSTRACT An extrme learning machine ( ELM) algorithm based on wavelet transform was designed for a class of indentification and regression problem with inhomogeneity in a space. From the standpoint of multiresolution analysis,a set of compactly supported orthogonal wavelets was constructed as the hidden layer activation function,and the output layer weight of the network was trained by an error minimized extreme learning machine. This method avoided retraining the output layer parameter as adding a subnetwork with higher resolution. The wavelet ELM was then extended into a two-dimensional space using the tensor product of a scaling function. To hurdle high-dimensionality issues,ridgelet transform based on ELM was obtained,whose scaling,direction,and position parameters were determined by optimization methods. Simulation results on functions with singularity confirm that the wavelet ELM can approch the target better. When being tested on some real benchmark problems,the ridgelet ELM demonstrates better training and testing accuracy on most cases. KEY WORDS learning algorithms; extreme learning machine; wavelet analysis; multiresolution analysis; orthogonal 收稿日期: 2014--09--09 基金项目: 新世纪优秀人才支持计划资助项目( NCET--11--0578) ; 中央高校基本科研业务费专项资金资助项目( FRF--TP--12--005B) ; 高等学校 博士学科点专项科研基金资助项目( 20130006110008) ; 机械系统与振动国家重点实验室开放课题( MSV--2014--09) DOI: 10. 13374 /j. issn1001--053x. 2014. 12. 019; http: / /journals. ustb. edu. cn 极限学习机近年来一直是神经网络领域非常活 跃的研究方向,具有学习速率高、能达到全局最优、 结构简单、泛化性能好等多重优点. 将其引入预测 领域使得逼近回归理论产生了极大的飞跃. 极限学 习机的隐层激励函数通常采用任意分段连续的非线 性函数,如 Sigmoid、Sin 和 Hardlim 一类支撑集为无
第12期 全丽萍等:多分辨率小波极限学习机 ·1713· 限的函数,但绝大多数实际问题中,分析的数据只集 出L2(R)上的一个正交分解 中在一个区间或者紧致有界空间上.对于工程上一 L2(R)=⊕Wm (3) 大类在参数集上存在不均匀性的辨识问题,包括具 这里W。是{22业(21-n)1}:二延伸生成的子空 有复杂分段特性数据集的机器学习和数据挖掘(如 间.小波函数中(x)通常伴随一个尺度函数(父函 电力工程造价预测和风功率预测),具有空间不平 数)p(x)生成,设p(x)∈L2(R),构造L(R)的闭 稳性的系统建模(如参数时变的机电运动系统和非 子空间序列V,=cos2(,其中 线性电子器件建模),极限学习机并不能很好的处 9(x)=2p(2x-),{V}2可生成L(R)上的 理,由此本文提出了小波极限学习机的策略. 一个多分辨分析,是一列嵌套的闭子空间序列 小波网络作为小波分析和神经网络有机结合的 …V-2CV-1 CVCVICV2…. 产物,将小波基函数植入隐层神经元,继承了小波的 由于VCV1,即这些空间V,不是彼此正交的,由 时频局部特性和聚焦特性,能有效辨识信号的奇异 两尺度方程定义小波函数山(x),{中.}kez张成的线 性,已经在故障诊断口、模式分类诸多领域获得成 性空间W即是V在V1中的正交补空间,表示高 功应用.本文将极限学习机一次学习的思想引入小 分辨率空间向低分辨率空间分解时丢失的细节 波网络,通过求Moore-Penrose伪逆运算得到输出 分量 参数,有效克服了传统反向传播小波网络逐层迭代 Vt1=V⊕W,V⊥W (4) 学习存在的收敛速度慢、易陷入局部极值、学习步长 以上分析给出了f(t)∈L(R)的分解方法: 难以确定等问题.运用极限学习机训练小波网络的 方法目前有极少数学者投入研究,文献2]考虑输 f0=∑ppa0+五w园. m. 入数据区间来决定小波函数的伸缩和平移参数,但 (5) 不考虑正交性,没有充分发挥小波多尺度分析的优 当最粗尺度M够大时,式(5)右端第二项表示的小 越性.文献B]用差分进化算法优化小波网络结构, 波细节分量可以忽略 但其紧致的结构是建立在大量的训练时间上.本文 1.2一维多分辨小波极限学习机结构和算法 考虑从Daubechies构造的紧支撑正交小波及Mallat 由式(5),可得f(t)的逼近式 多分辨率分析的思想出发,根据目标数据的学习精 f0=∑,pup()=王 CMp(2"x-) 度,从粗尺度到细尺度上进行学习,自适应地并入分 (6) 辨率更高的子网络,从而使得网络隐层节点数的确 定有了理论依据.本文将这种网络结构和方法称之 式(6)实质上是通过对单个小波函数P(x)的 为多分辨率小波极限学习机(multiresolution wavelet 伸缩和平移形成L2(R)上的框架,CM.4为基于此框 extreme learning machine,MW-ELM),并进一步将此 架的相关系数,其物理上的意义在于把目标信号分 方法扩展到二维和高维输入空间. 解为一组小波函数的加权,这组小波函数因为支撑 集为不同区间因而可以表述目标函数不同区间上的 1理论概述 不同规律.运用式(6)构建神经网络模型,通过一个 1.1一维多分辨分析 单隐层前馈神经网络(SLFN)实现逼近.令输入层 Hf(t)∈L2(R)可以分解为一簇小波基函数上 权值为2“,偏置为k,遍历所有整数,隐层激活函数 的级数表示: 为p(x),实际上目标函数支撑集有限,因此只需要 有限个支撑小波,若小波基函数紧支撑集为D, S],目标函数紧支撑集为O,S],那么所需的隐层 (1) 节点数为2"S,/S。向上取整,偏置遍历的整数集为 其中山(t)为基小波,对山(t)做伸缩平移变换得到 D,1,…,(2S,/S。-1)]以覆盖目标输入区间.令 小波基函数系业b(t)=Ial-1山((t-b)/a),a和b K=2"S,/S。-1,样本输入x通过小波函数激活后的 分别为伸缩和平移因子.WT(a,b)=f,业。.b)为小 输出{p(2"x-k),k=0,1,…,K}即为SLFN隐层输 波变换系数.将伸缩和平移因子二进制化,其二进 出,在理想的学习精度下,小波系数CM,可通过训练 伸缩与平移系 网络的输出层权值得到 (t)=2 (2t-k)lj,kEZ) (2) 本文中,输出层权值训练算法采用无论是学习 构成L2(R)上的标准正交基.于是,小波基函数导 速度还是泛化能力上具有优良性能的极限学习机
第 12 期 全丽萍等: 多分辨率小波极限学习机 限的函数,但绝大多数实际问题中,分析的数据只集 中在一个区间或者紧致有界空间上. 对于工程上一 大类在参数集上存在不均匀性的辨识问题,包括具 有复杂分段特性数据集的机器学习和数据挖掘( 如 电力工程造价预测和风功率预测) ,具有空间不平 稳性的系统建模( 如参数时变的机电运动系统和非 线性电子器件建模) ,极限学习机并不能很好的处 理,由此本文提出了小波极限学习机的策略. 小波网络作为小波分析和神经网络有机结合的 产物,将小波基函数植入隐层神经元,继承了小波的 时频局部特性和聚焦特性,能有效辨识信号的奇异 性,已经在故障诊断[1]、模式分类诸多领域获得成 功应用. 本文将极限学习机一次学习的思想引入小 波网络,通过求 Moore--Penrose 伪逆运算得到输出 参数,有效克服了传统反向传播小波网络逐层迭代 学习存在的收敛速度慢、易陷入局部极值、学习步长 难以确定等问题. 运用极限学习机训练小波网络的 方法目前有极少数学者投入研究,文献[2]考虑输 入数据区间来决定小波函数的伸缩和平移参数,但 不考虑正交性,没有充分发挥小波多尺度分析的优 越性. 文献[3]用差分进化算法优化小波网络结构, 但其紧致的结构是建立在大量的训练时间上. 本文 考虑从 Daubechies 构造的紧支撑正交小波及 Mallat 多分辨率分析的思想出发,根据目标数据的学习精 度,从粗尺度到细尺度上进行学习,自适应地并入分 辨率更高的子网络,从而使得网络隐层节点数的确 定有了理论依据. 本文将这种网络结构和方法称之 为多分辨率小波极限学习机( multiresolution wavelet extreme learning machine,MW-ELM) ,并进一步将此 方法扩展到二维和高维输入空间. 1 理论概述 1. 1 一维多分辨分析 f( t) ∈L2 ( R) 可以分解为一簇小波基函数上 的级数表示: f( t) = C - 1 ψ / | a | 2 ∫ ∞ -∞ ∫ ∞ -∞ ψa,b ( t) WTf ( a,b) dbda. ( 1) 其中 ψ( t) 为基小波,对 ψ( t) 做伸缩平移变换得到 小波基函数系 ψa,b ( t) = | a | - 1 /2 ψ( ( t - b) / a) ,a 和 b 分别为伸缩和平移因子. WTf ( a,b) =〈f,ψa,b〉为小 波变换系数. 将伸缩和平移因子二进制化,其二进 伸缩与平移系 { ψj,k ( t) = 2j/2 ψ( 2j t - k) | j,k∈Z} ( 2) 构成 L2 ( R) 上的标准正交基. 于是,小波基函数导 出 L2 ( R) 上的一个正交分解 L2 ( R) = m Wm . ( 3) 这里 Wm 是{ 2m/2 ψ( 2m t - n) |} n = + ∞ n = - ∞ 延伸生成的子空 间. 小波函数 ψ( x) 通常伴随一个尺度函数( 父函 数) φ( x) 生成,设 φ( x) ∈L2 ( R) ,构造 L2 ( R) 的闭 子空间序列 Vj = closL2( R) < φj,k ( x) ; k∈Z > ,其中 φj,k ( x) = 2j/2 φ( 2j x - k) ,{ Vj } j∈Z可生成 L2 ( R) 上的 一个多分辨分析,是一列嵌套的闭子空间序列. …V - 2V - 1V0V1V2…. 由于 VjVj + 1,即这些空间 Vj 不是彼此正交的,由 两尺度方程定义小波函数 ψ( x) ,{ ψj,k } k∈Z张成的线 性空间 Wj 即是 Vj 在 Vj + 1中的正交补空间,表示高 分辨率空间向低分辨率空间分解时丢失的细节 分量. Vj + 1 = VjWj ,Vj⊥Wj . ( 4) 以上分析给出了 f( t) ∈L2 ( R) 的分解方法: f( t) = ∑k 〈f,φM,k〉φM,k ( t) + m > M ∑,k 〈f,ψm,k〉ψm,k ( t) . ( 5) 当最粗尺度 M 够大时,式( 5) 右端第二项表示的小 波细节分量可以忽略. 1. 2 一维多分辨小波极限学习机结构和算法 由式( 5) ,可得 f( t) 的逼近式 f( t) ≈ ∑k 〈f,φM,k〉φM,k ( t) = ∑k CM,kφ( 2M x - k) . ( 6) 式( 6) 实质上是通过对单个小波函数 φ( x) 的 伸缩和平移形成 L2 ( R) 上的框架,CM,k为基于此框 架的相关系数,其物理上的意义在于把目标信号分 解为一组小波函数的加权,这组小波函数因为支撑 集为不同区间因而可以表述目标函数不同区间上的 不同规律. 运用式( 6) 构建神经网络模型,通过一个 单隐层前馈神经网络( SLFN) 实现逼近. 令输入层 权值为 2M,偏置为 k,遍历所有整数,隐层激活函数 为 φ( x) ,实际上目标函数支撑集有限,因此只需要 有限个 支 撑 小 波,若小波基函数紧支撑集为[0, Sφ],目标函数紧支撑集为[0,Sf],那么所需的隐层 节点数为 2M Sf / Sφ向上取整,偏置遍历的整数集为 [0,1,…,( 2M Sf / Sφ - 1) ]以覆盖目标输入区间. 令 K = 2M Sf / Sφ - 1,样本输入 x 通过小波函数激活后的 输出{ φ( 2M x - k) ,k = 0,1,…,K} 即为 SLFN 隐层输 出,在理想的学习精度下,小波系数 CM,k可通过训练 网络的输出层权值得到. 本文中,输出层权值训练算法采用无论是学习 速度还是泛化能力上具有优良性能的极限学习机 · 3171 ·
·1714 北京科技大学学报 第36卷 (extreme learning machine,ELM)),这种学习算法 B.-HT-[0T 基于Moore-Penrose伪逆解析地求出网络输出权 ID 值,样本集N={(x,t)1x,l∈R,i=1,2,…,N}通 基于多分辨分析理论的小波基极限学习机学习 过小波函数激活后的隐层输出矩阵为 步骤可以表述为: pu.0(xg)…pm(xo) (a)初始分辨率M=jo,开始建立子网络,输入 H= (7) 层权值为2心,隐层偏置为0,1,…,K。,以小波基函数 Pu.o(xw)… PM.k(xN) 作为激活函数得到隐层输出阵H。,计算隐层输出权 ELM算法的输出层权值为最小二乘意义上的 重B。=HT和网络误差E(H。)=HB。-T,如果 最小范数解B=HT,T=,2,…,tw]T为目标样 E(H。)小于精度要求ε,停止学习,否则跳至步骤 本输出向量.为了建立一个紧致结构的学习模型, (b). 网络从粗分辨率到细分辨率上逐级学习,当并入更 (b)令M=M+1,并入子网络,令子网络输入层 高分辨率的子网络时,对整个新网络进行重新训练 权值为2",隐层偏置为0,1,,K,得到并入的子网 将浪费大量训练时间,改进后的误差最小化极限学 络隐层输出δH。,根据式(11)和式(12)更新输出层 习机(error minimized ELM,EM-ELM)通过增量 权值B1 (c)计算小波网络对样本的输出估计y=HB, 更新的方法避免了这一问题,设初始隐层输出矩阵 并删除B:中足够小的权值,最后计算误差值 为H。,H。伪逆可表示为 E(H)=HB1-T,若E(H)>E,转(b),否则结束 H0=(HH。)-H= 学习 (8) 设达到精度要求后,并入的子网络最高分辨率 为jm·基于多分辨分析理论的小波基极限学习机结 并入的子网络对应隐层输出矩阵δH。,相应的整个 构图如图1所示. 网络隐层输出矩阵更新为H,=H。,8H。].令 1.3二维多分辨分析 由一维多分辨分析的张量积可以构造二维多分 (9) 辨分析.令(x,y)=V,(x)⑧V(y) 若记 那么有 p(x,y)=中(x)中(y) 团-日-城调 (10) 中(x)是一维空间的小波尺度函数,则{9.k,mI9km (x,y)=2p(2x-k,2y-m)=2b(2'x-k)中(2'y- 根据一个2×2块状矩阵的求逆公式,可得到 m);k,m∈Z}构成上的一个正交基,并且有下列 P,=(HgHo)-1+ 条件成立: (HH)-H8H。×R-8HH。(HH)-1, VicV,VjeZ, P2=-(HH)-H68HR-1, Q听=01,2y=1(R), P2=-R-8HHo (HOHo)-, f(x.y)EVjef(2x,2y)EV. P2=R-1. 从而{}jez=clos是 这里 (x,y)=V(x)⑧y(y)生成的L2(R)上的多分辨 R=8Hg8H。-8HH。(HgH。)-Hg8H。= 分析. 8HgδH。-8HHHδH, 1.4二维多分辨小波极限学习机 所以 类似的,对L2(R)上的二维函数有以下逼近 D=R-lδH。-R-18HgHH。= 方程: [6H(-HHg)8H]-18Hg(I-HHg).(11) f八x,y)≈∑pu,b〉pu.(x,y)= 类似的,有以下推导 U=H。-H88HD (12) A92-,2-. (13) 根据式(11)和(12)可得到误差最小化极限学习机 根据此方程建立的基于二维多分辨分析的小波 B,的快速增量算法,输出权值更新为 极限学习机网络结构图如图2所示.学习步骤与一
北 京 科 技 大 学 学 报 第 36 卷 ( extreme learning machine,ELM) [4],这种学习算法 基于 Moore--Penrose 伪逆解析地求出网络输出权 值,样本集 = { ( xi,ti ) | xi,ti∈R,i = 1,2,…,N} 通 过小波函数激活后的隐层输出矩阵为 H = φM,0 ( x0 ) … φM,k ( x0 ) φM,0 ( xN) … φM,k ( xN ) . ( 7) ELM 算法的输出层权值为最小二乘意义上的 最小范数解 β = H T,T =[t1,t2,…,tN]T 为目标样 本输出向量. 为了建立一个紧致结构的学习模型, 网络从粗分辨率到细分辨率上逐级学习,当并入更 高分辨率的子网络时,对整个新网络进行重新训练 将浪费大量训练时间,改进后的误差最小化极限学 习机( error minimized ELM,EM--ELM) [5]通过增量 更新的方法避免了这一问题,设初始隐层输出矩阵 为 H0,H0 伪逆可表示为 H 0 = ( HT 0H0 ) - 1HT 0 = HT 0 δH [ T ] 0 [H0 δH0 ] - 1 HT 0 δH [ T ] 0 . ( 8) 并入的子网络对应隐层输出矩阵 δH0,相应的整个 网络隐层输出矩阵更新为 H1 =[H0,δH0]. 令 P = HT 0 δH [ T ] 0 [H0 δH0 ] - 1 = P11 P12 P21 P [ ] 22 ,( 9) 那么有 H 1 = [ ] U D = P11HT 0 + P12 δHT 0 P21HT 0 + P22 δH [ T ] 0 , ( 10) 根据一个 2 × 2 块状矩阵的求逆公式,可得到 P11 = ( HT 0H0 ) - 1 + ( HT 0H0 ) - 1HT 0 δH0 × R - 1 δHT 0H0 ( HT 0H0 ) - 1, P12 = - ( HT 0H0 ) - 1HT 0 δH0R - 1, P21 = - R - 1 δHT 0H0 ( HT 0H0 ) - 1, P22 = R - 1 . 这里 R = δHT 0 δH0 - δHT 0H0 ( HT 0H0 ) - 1HT 0 δHT 0 = δHT 0 δH0 - δHT 0H0H 0 δHT 0, 所以 D = R - 1 δHT 0 - R - 1 δHT 0H0H 0 = [δHT 0 ( I - H0H 0 ) δH0]- 1 δHT 0 ( I - H0H 0 ) . ( 11) 类似的,有以下推导 U = H 0 - H 0 δHT 0 D ( 12) 根据式( 11) 和( 12) 可得到误差最小化极限学习机 β1 的快速增量算法,输出权值更新为 β1 = H 1T = [ ] U D T. 基于多分辨分析理论的小波基极限学习机学习 步骤可以表述为: ( a) 初始分辨率 M = j0,开始建立子网络,输入 层权值为 2j 0,隐层偏置为 0,1,…,K0,以小波基函数 作为激活函数得到隐层输出阵 H0,计算隐层输出权 重 β0 = H 0T 和网络误差 E( H0 ) = H0β0 - T,如果 E( H0 ) 小于精度要求 ε,停止学习,否则跳至步骤 ( b) . ( b) 令 M = M + 1,并入子网络,令子网络输入层 权值为 2M,隐层偏置为 0,1,…,K,得到并入的子网 络隐层输出 δH0,根据式( 11) 和式( 12) 更新输出层 权值 β1 . ( c) 计算小波网络对样本的输出估计 y^ = H1β1 并删 除 β1 中足够小的权值,最 后 计 算 误 差 值 E( H1 ) = H1β1 - T,若 E( H1 ) > ε,转( b) ,否则结束 学习. 设达到精度要求后,并入的子网络最高分辨率 为 jm . 基于多分辨分析理论的小波基极限学习机结 构图如图 1 所示. 1. 3 二维多分辨分析 由一维多分辨分析的张量积可以构造二维多分 辨分析. 令 V2 j ( x,y) = Vj ( x) Vj ( y) 若记 φ( x,y) = ( x) ( y) ( x) 是一维空间的小波尺度函数,则{ φj,k,m | φj,k,m ( x,y) = 2j φ( 2j x - k,2j y - m) = 2j ( 2j x - k) ( 2j y - m) ; k,m∈Z} 构成 V2 j 上的一个正交基,并且有下列 条件成立: V2 j V2 j + 1,j∈Z, ∩ j∈Z V2 j = { 0} ,∩ j∈Z V2 j = L2 ( R2 ) , f( x,y) ∈V2 j f( 2x,2y) ∈V2 j + 1 . 从而{ V2 j } j∈Z = closL2( R2) < φj,k,m ( x,y) ; k,m∈Z > 是 V2 j ( x,y) = Vj ( x) Vj ( y) 生成的 L2 ( R2 ) 上的多分辨 分析. 1. 4 二维多分辨小波极限学习机 类似的,对 L2 ( R2 ) 上的二维函数有以下逼近 方程: f( x,y) ≈ ∑k1,k2 〈f,φM,k1,k2 〉φM,k1,k2 ( x,y) = ∑k1,k2 CM,k1,k2φ( 2M x - k1,2M x - k2 ) . ( 13) 根据此方程建立的基于二维多分辨分析的小波 极限学习机网络结构图如图 2 所示. 学习步骤与一 · 4171 ·
第12期 全丽萍等:多分辨率小波极限学习机 ·1715· 子网路小波框架 网络 1 子网络,小波框架 子网路 图1 一维多分辨分析小波极限学习机 Fig.I One-dimensional multiresolution wavelet extreme leamning machine 维小波小波学习机类似不再赘述 u,在d维时方向向量可以设为u1=cos6,u2= 9 noly) sin01cos02,…,u4=sin01sin02"sin04-l(0≤01, Py …,04-2≤T,0≤04-10,u∈Sd-1,‖u‖=1},在原 let extreme learning machine),PSO算法用于神经网 来伸缩和平移参数基础上多添加了一维方向参数 络的优化已经有许多研究成果回,其首先用一个粒
第 12 期 全丽萍等: 多分辨率小波极限学习机 图 1 一维多分辨分析小波极限学习机 Fig. 1 One-dimensional multiresolution wavelet extreme learning machine 维小波小波学习机类似不再赘述. 图 2 二维多分辨分析小波极限学习机 Fig. 2 Two-dimensional multiresolution wavelet extreme learning machine 1. 5 脊波变换 对于输入为多维的情况,如果继续利用一维小 波基的张量积空间,将引起“维数灾”. 近期发展起 来的后小波分析方法[6],对高维空间中超平面状奇 异性的信号有着良好的检测性能,脊波变换就是其 中一种对于具有高维奇异性的多变量函数具有良好 的逼近性能的方法. 称满足容许性条件 Kψ = ∫( | ^ ψ( ξ) | 2 / | ξ | d ) dξ < ∞ 的小波基函数 ψ: R→R 产生的脊函数 ψγ ( x) = a - 1 /2 ψ( ( u·x - b) / a) 为脊波,参数空间 Γ = { γ = ( a,u,b) ,a,b∈R,a > 0,u∈Sd - 1,‖u‖ = 1} ,在原 来伸缩和平移参数基础上多添加了一维方向参数 u,在 d 维时方向向量可以设为 u1 = cos θ1,u2 = sin θ1 cos θ2,…,ud = sin θ1 sin θ2 …sin θd - 1 ( 0≤θ1, …,θd - 2≤π,0≤θd - 1 < 2π) ,那么 u 为单位球向量 ( u∈Sd - 1,‖u‖ = 1) ,若参数集合 θ1,θ2,…,θd - 1足 够精细地覆盖[0,π]或[0,2π]上的等分布点,那么 u 能遍历超平面中的各向单位法向量,ψ( ( u·x - b) / a) 将成为超平面上的离散脊波框架,同时脊波 具有小波局部聚焦分析的特性,这样的脊波网络能 有效处理超平面状的奇异性[7]. 1. 6 高维脊波极限学习机 对任何 y^ = f( x) ∈L1 ∩L2 ( Rd ) 均可展开为脊函 数叠加的形式: y^ = ∑ L j = 1 cjψ( ( u·j x - bj ) / aj ) , x,uj∈Rd ; ‖uj‖ = 1 ( 14) 运用逼近方程( 14) 建立神经网络[8],cj 可以用 第 j 个隐层节点的输出层权值表征,a - 1 j uj 为神经网 络第 j 个节点输入层权值,a - 1 j bj 为第 j 个节点偏置. 脊波网络结构类似于低维小波学习机. 如果对脊波参数空间离散化,则随着尺度越细, 离散化集 Γd = { ( aj ,θ,b) ,aj = 2 - j ,θj,i = 2π2 - j i, bj,k = 2πk2 - j } 将变得非常庞大,耗费神经网络许多 节点. 这里考虑用收敛速度快、具有全局寻优能力 的粒子群算法( particle swarm optimization,PSO) 对 参数 a、u 和 b 进行优化选择,同时脊波系数{ cj | j = 1,2,…,L} 即神经网络输出层参数 β 由极限学习机 训练得到,本文将这种学习策略称 RL--ELM ( ridgelet extreme learning machine) ,PSO 算法用于神经网 络的优化已经有许多研究成果[9],其首先用一个粒 · 5171 ·
·1716· 北京科技大学学报 第36卷 子位置向量囊括d个待优化参数,随机产生一个规 标上的性能,考虑一个一维和一个二维分段函数, 模为n的粒子群{X=W1,X2,…,Xa],i=1,2, 形如: …,n},计算每个粒子的适应度值,第i个粒子“飞 fi:y= 行”历史中的过去最优位置(即该位置对应解最优) [0.5cos(5π(x+T/2))+xsin(amx)+cos(mx) 为P,=(P1,P2,…,Pa),其中第g个粒子的过去最 0≤x<2/3, 优位置P为所有P:中的最优,对应适应度值为ft 5(1-x+cos(amx)).exp (-5x2/2) (P);第i个粒子的位置变化率(速度)为向量V:= 23≤x<1: {Va,V2,…,Va}.每个粒子的位置按如下公式进行 f:z= 变化(“飞行”): n(-y+3/2)·(x2+y2)·(2sin(30x)+cos(25y)) V,(t+1)=V:(t)+c1×rand()× 0≤Y<12, P:(t)-X,()]+c2×rand()×P(t)-x,(t)], In(y +1/2).(ysin(5mx)+xcos(8my)) X(t+1)=X(t)+V,(t+1),1≤i≤n. 1/2≤y<1. 其中c1和c2是学习因子.最终获得的全局最优粒 以二维小波极限学习机的构造为例,训练一个 子就是目标参数a、u和b组成的向量.为保证逼近 初始子网络,计算逼近误差大于设定阈值时,自适应 精度和泛化性能,计算粒子的适应度值时,区别于一 地并入子网络决定隐层节点数,小波激活函数的选 般方法中采用目标输出和网络输出均方误差的做 取尚无理论上的指导,Morlet小波多用于分类、图像 法,本文基于L2正则化理论将L2正则子添加到惩 识别和特征提取,高斯函数多用于函数估计,本 罚项中,以达到更好权值矩阵稀疏性0,给定一组训练 文在Gauss小波函数、Morlet函数、三阶B样条函数 数据N={(x,t)1i=1,2,,n},设隐层节点数为L, 中进行实验并选取试算结果最好的高斯小波基函数 正则化参数为入,则第i个粒子的适应度计算式: 作为隐层激活函数,解析表达式为 fit(i)= y=-x·exp(-x2/2) ((n-)P)+AB) 小波函数与目标函数支撑集都为0,1],令初 始分辨率j。=1,子网络输入层权值为2"=2,则初始 (15) 子网络包含四个节点,偏置为[《0,0),(0,1),(1, 基于PSO算法优化脊波基函数参数的RL一 0),(1,1)],得到初始网络输出层权值B。,逐次增 ELM学习步骤简述为: 加分辨率更高的子网络,根据式(11)和式(12)可得 (a)令迭代次数iter=1,设定种群规模N,随机 到更新后的输出权值B1,直至达到所需精度.极限 产生一组粒子群{X=(a1,a2,…,aL,01,02,…, 学习机以五个为增量(至多500个)增加节点数,通 81a-),…,0a,02…,0a-0,b1,b2,…,b2),i=1, 过交叉验证法决定节点数后与小波极限学习机进行 2,…,N}和速度向量V. 比较. (b)计算每个粒子通过脊波函数激活后的第j 从一维函数的辨识结果图3中可以看出,频率 个隐层节点输出h=中【4x-b)/a]j=1,2,…,L, 参数较小时,两种学习机基本上都能较好拟合目标, 其中,4h=cos01,2=sin0cos02,,uH=sin6h1· 但在奇异点(函数分段)处,因为其固有的“Gibbs” sin02sin0a-D,相应输出层矩阵H=,h2,…,h]. 效应,极限学习机不能正确辨识,而小波极限学习机 (c)极限学习机算法训练输出层权值B=HT, 因为其良好的局部聚焦和多分析的特性,对一类具 计算输出估计y=邱. 有空间不均匀性的问题展现了极大的优势.随着频 (d)按照式(15)计算每个粒子适应度值,如果 率增大,波形变得复杂,ELM在奇异点周围区域出 ft(P)<e或iter=iterm,停止学习,删除B。中足 现越来越大拟合误差,这种问题并不出现在小波极 够小的权值以及相应节点.否则跳至(). 限学习机中 (e)根据适应度值更新位置值X和速度值V, 图4中,从左至右分别为逼近目标、小波极限学 iter=iter+1,跳至步骤(b) 习机拟合效果和极限学习机对?拟合效果.0≤y< 1/2和1/2≤y<1上特性不一致,ELM的辨识出现 2仿真结果和分析 极大失真,WM一ELM由于其聚微的特性在逼近性能 2.1低维多分辨正交小波极限学习机 上的优势显现出来.实际工程问题中,由于一些复 为验证小波极限学习机在具有空间不均匀性目 杂系统本身所固有的动态变化,造成数据表现出不
北 京 科 技 大 学 学 报 第 36 卷 子位置向量囊括 d 个待优化参数,随机产生一个规 模为 n 的粒子群{ Xi =[Xi1,Xi2,…,Xid],i = 1,2, …,n} ,计算每个粒子的适应度值,第 i 个粒子 “飞 行”历史中的过去最优位置( 即该位置对应解最优) 为 Pi = ( Pi1,Pi2,…,Pid ) ,其中第 g 个粒子的过去最 优位置 Pg为所有 Pi中的最优,对应适应度值为 fit ( Pg ) ; 第 i 个粒子的位置变化率( 速度) 为向量 Vi = { Vi1,Vi2,…,Vid } . 每个粒子的位置按如下公式进行 变化( “飞行”) : Vi ( t + 1) = Vi ( t) + c1 × rand( ) × [Pi ( t) - Xi ( t) ]+ c2 × rand( ) ×[Pg ( t) - Xi ( t) ], Xi ( t + 1) = Xi ( t) + Vi ( t + 1) ,1≤i≤n. 其中 c1 和 c2 是学习因子. 最终获得的全局最优粒 子就是目标参数 a、u 和 b 组成的向量. 为保证逼近 精度和泛化性能,计算粒子的适应度值时,区别于一 般方法中采用目标输出和网络输出均方误差的做 法,本文基于 L1 /2正则化理论将 L1 /2正则子添加到惩 罚项中,以达到更好权值矩阵稀疏性[10],给定一组训练 数据 = { ( xi,ti ) | i = 1,2,…,n} ,设隐层节点数为 L, 正则化参数为 λ,则第 i 个粒子的适应度计算式: fit( i) = ( ( 1 sqrt 1/ n ∑ n i =1 ( y^ i - ti ) ) 2 + λ ∑ L i =1 |βi | 1/ ) 2 . ( 15) 基于 PSO 算法优化脊波基函数参数的 RL-- ELM 学习步骤简述为: ( a) 令迭代次数 iter = 1,设定种群规模 N,随机 产生一组粒子群{ Xi = ( a1,a2,…,aL,θ11,θ12,…, θ1( d - 1) ,…,θL1,θL2,…,θL( d - 1) ,b1,b2,…,bL ) ,i = 1, 2,…,N} 和速度向量 Vi . ( b) 计算每个粒子通过脊波函数激活后的第 j 个隐层节点输出 hj = ψ[( u·j x - bj) / aj],j = 1,2,…,L, 其中,uj1 = cos θj1,uj2 = sin θj1 cos θj2,…,ujd = sin θj1 · sin θj2…sin θj( d -1) ,相应输出层矩阵 H =[h1,h2,…,hL ]. ( c) 极限学习机算法训练输出层权值 β = H T, 计算输出估计 y^ = Hβ. ( d) 按照式( 15) 计算每个粒子适应度值,如果 fit( Pg ) < ε 或 iter = itermax,停止学习,删除 βg 中足 够小的权值以及相应节点. 否则跳至( e) . ( e) 根据适应度值更新位置值 X 和速度值 V, iter = iter + 1,跳至步骤( b) . 2 仿真结果和分析 2. 1 低维多分辨正交小波极限学习机 为验证小波极限学习机在具有空间不均匀性目 标上的性能,考虑一个一维和一个二维分段函数, 形如: f1 : y = 0. 5cos( 5π( x +π/2) ) + x·sin( aπx) + cos( πx) 0≤x < 2/3, 5( 1 - x + cos( aπx) )·exp ( - 5x 2 /2) 2/3≤x < 1 ; f2 : z = ln( - y + 3/2)·( x 2 + y 2 )·( 2sin( 30x) + cos( 25y) ) 0≤y < 1/2, ln( y + 1/2)·( y·sin( 5πx) + x·cos( 8πy) ) 1/2≤y < 1 . 以二维小波极限学习机的构造为例,训练一个 初始子网络,计算逼近误差大于设定阈值时,自适应 地并入子网络决定隐层节点数,小波激活函数的选 取尚无理论上的指导,Morlet 小波多用于分类、图像 识别和特征提取,高斯函数多用于函数估计[11],本 文在 Gauss 小波函数、Morlet 函数、三阶 B 样条函数 中进行实验并选取试算结果最好的高斯小波基函数 作为隐层激活函数,解析表达式为 y = - x·exp ( - x2 /2) . 小波函数与目标函数支撑集都为[0,1],令初 始分辨率 j0 = 1,子网络输入层权值为 2j 0 = 2,则初始 子网络包含四个节点,偏置为[( 0,0) ,( 0,1) ,( 1, 0) ,( 1,1) ],得到初始网络输出层权值 β0,逐次增 加分辨率更高的子网络,根据式( 11) 和式( 12) 可得 到更新后的输出权值 β1,直至达到所需精度. 极限 学习机以五个为增量( 至多 500 个) 增加节点数,通 过交叉验证法决定节点数后与小波极限学习机进行 比较. 从一维函数的辨识结果图 3 中可以看出,频率 参数较小时,两种学习机基本上都能较好拟合目标, 但在奇异点( 函数分段) 处,因为其固有的“Gibbs” 效应,极限学习机不能正确辨识,而小波极限学习机 因为其良好的局部聚焦和多分析的特性,对一类具 有空间不均匀性的问题展现了极大的优势. 随着频 率增大,波形变得复杂,ELM 在奇异点周围区域出 现越来越大拟合误差,这种问题并不出现在小波极 限学习机中. 图 4 中,从左至右分别为逼近目标、小波极限学 习机拟合效果和极限学习机对 f2 拟合效果. 0≤y < 1 /2 和 1 /2≤y < 1 上特性不一致,ELM 的辨识出现 极大失真,WM--ELM 由于其聚微的特性在逼近性能 上的优势显现出来. 实际工程问题中,由于一些复 杂系统本身所固有的动态变化,造成数据表现出不 · 6171 ·
第12期 全丽萍等:多分辨率小波极限学习机 ·1717· ·一期望值 期望值 小波极限学习机 《奇异点句 ·一小波极限学习机 极限学习机 极限学习机 奇异点 62 0.4 0.6 0.8 02 0.8 1.0 图3不同频率时小波极限学习机和极限学习机辨识结果对比.(a)a=20:(b)a=30 Fig.3 Identification result comparison between MW-ELM and ELM at different frequency parameters:(a)a=20:(b)a =30 (a) b Ic) 10 1.0 1.0 0 1.0 0.5 0.5 0.5 05 05 0.5 00 00 00 图45辨识结果对比.(a)学习目标:(b)小波极限学习机:(c)极限学习机 Fig.4 Identification result comparison on the test functionf:(a)target;(b)MW-ELM:(c)ELM 均匀性、差异性、多样性、突变性和随机性等特征,实 三维图,见图5.可以看出在时间点(x维)2、4、14 验中分段函数代表了这样一类数据.实验结果表明 和22上都出现“拐点”,在4,12]区间上呈现抛物 小波极限学习机能有效提取这类非平稳过程数据中 线特征,其他区间为线性特征.ELM并不能像RL一 的突变成分 ELM一样对这些“拐点”处的数据能进行精细化的 2.2高维脊波极限学习机 拟合,这与低维小波极限学习机的现象和结论是一 为分析脊波学习机在实际多维回归问题上的 致的,也就验证了其优良性能可以扩展到高维实际 性能,首先选择在社会生活、经济上具有典型代表性 的房价数据进行分析.本文摘取201001一2013- 回归问题中用RL一ELM进行处理. 03天津、郑州和呼和浩特三个城市新建商品住宅90 另外在四个UCI机器学习库中标称数据集 m及以下环比价格指数数据用两种学习机建模.为 和四个Torg0回归数据集测试高维脊波极限学习 使高维数据可视化,固定其他变量,选择时间和城市 机算法的有效性,并与经典BP算法和常规极限学 等级(一线城市天津为1,二线城市郑州为2,三线城 习机算法在训练均方误差、泛化性能、网络结构和训 市呼和浩特为3)这两个自变量属性对价格指数作 练时间上进行比较.其中,Abalone、Machine CPU、 (e) 115 115 115 110.+ 110 110 。呼和浩特 一呼和浩特 呼和浩持 105 郑州 105 郑州 105 00 天津 00 100 251 等级 5 101520 251 等级 95 10 15 20 10 15 20251 等级 时间 时间 时间 图5在房价指数上逼近结果.(a)逼近目标:(b)脊波极限学习机:()极限学习机 Fig.5 Identification result of house price index:(a) approximation target:(b)RL-ELM:(c)ELM
第 12 期 全丽萍等: 多分辨率小波极限学习机 图 3 不同频率时小波极限学习机和极限学习机辨识结果对比. ( a) a = 20; ( b) a = 30 Fig. 3 Identification result comparison between MW--ELM and ELM at different frequency parameters: ( a) a = 20; ( b) a = 30 图 4 f2辨识结果对比. ( a) 学习目标; ( b) 小波极限学习机; ( c) 极限学习机 Fig. 4 Identification result comparison on the test function f2 : ( a) target; ( b) MW--ELM; ( c) ELM 均匀性、差异性、多样性、突变性和随机性等特征,实 验中分段函数代表了这样一类数据. 实验结果表明 小波极限学习机能有效提取这类非平稳过程数据中 的突变成分. 图 5 在房价指数上逼近结果. ( a) 逼近目标; ( b) 脊波极限学习机; ( c) 极限学习机 Fig. 5 Identification result of house price index: ( a) approximation target; ( b) RL--ELM; ( c) ELM 2. 2 高维脊波极限学习机 为分析脊波学习机在实际多维回归问题上的 性能,首先选择在社会生活、经济上具有典型代表性 的房价数据进行分析. 本文摘取 2010--01—2013-- 03 天津、郑州和呼和浩特三个城市新建商品住宅 90 m2 及以下环比价格指数数据用两种学习机建模. 为 使高维数据可视化,固定其他变量,选择时间和城市 等级( 一线城市天津为 1,二线城市郑州为 2,三线城 市呼和浩特为 3) 这两个自变量属性对价格指数作 三维图,见图 5. 可以看出在时间点( x 维) 2、4、14 和 22 上都出现“拐点”,在[4,12]区间上呈现抛物 线特征,其他区间为线性特征. ELM 并不能像 RL-- ELM 一样对这些“拐点”处的数据能进行精细化的 拟合,这与低维小波极限学习机的现象和结论是一 致的,也就验证了其优良性能可以扩展到高维实际 回归问题中用 RL--ELM 进行处理. 另外在四个 UCI 机器学习库[13]中标称数据集 和四个 Torgo 回归数据集[14]测试高维脊波极限学习 机算法的有效性,并与经典 BP 算法和常规极限学 习机算法在训练均方误差、泛化性能、网络结构和训 练时间上进行比较. 其中,Abalone、Machine CPU、 · 7171 ·
·1718+ 北京科技大学学报 第36卷 Servo、Census和Califonia Housing五个问题在BP和 行50次结果的平均值.表1结果中可以看出,RL一 ELM上的测试结果来自文献D2],其他数据在运行 ELM在其中六种实际问题中都能保持最低的平均 环境为CPU2.66Hz的MATLAB R2009a上测试得 验证精度,而在2 Dplane和Census两个测试集上保 到.BP网络采用自适应学习率动量梯度下降的改 持跟ELM非常相近的实验结果. 进算法.表1和表2列出了每种算法在测试集上运 表1三种算法在实际回归问题上的性能比较 Table 1 Performance comparison on real benchmark problems between three algorithms BP ELM RL-ELM UCI实际数据集 训练 验证 训练 验证 训练 验证 Abalone 0.0785/0.0011 0.0874/0.0034 0.0803/0.0049 0.0824/0.0058 0.0753/0.0024 0.0784/0.0052 Machine CPU 0.0352/0.0192 0.0826/0.0715 0.0332/0.0060 0.0539/0.0156 0.0311/0.0038 0.0473/0.0173 Servo 0.0794/0.0313 0.1276/0.0475 0.0707/0.0121 0.1196/0.0113 0.0640/0.0159 0.1100/0.0171 Auto-MPG 0.0908/0.0024 0.0990/0.0069 0.069610.0098 0.0860/0.0110 0.0700/0.0073 0.0769/0.0132 Pumadyn (8NH) 0.1763/0.0102 0.1847/0.0118 0.1631/0.0703 0.1735/0.0834 0.1519/0.0921 0.1587/0.0621 2Dplane 0.0965/0.0024 0.0971/0.0031 0.0428/0.0011 0.0432/0.0049 0.0468/0.0024 0.0472/0.0060 Census 0.0596/0.0011 0.0685/0.0050 0.0624/0.0010 0.0660/0.0017 0.0701/0.0042 0.0674/0.0052 Califonia Housing 0.1046/0.0045 0.1285/0.0026 0.1217/0.0021 0.1267/0.0033 0.1213/0.0032 0.1260/0.0043 注:表内数据为“均方误差/方差”:加黑为验证性能最好的数据 表2为三种算法的网络结构和训练时间的比 网络结构和更高的辨识精度,但较之BP算法,在学 较.RL一ELM牺牲了一定的训练时间获得更紧凑的 习速度上依然能保持ELM快速学习的优势 表2三种算法在网络结构和训练时间上的性能比较 Table 2 Network complexity and training time comparison between three algorithms BP ELM RL-ELM UCI实际数据集 隐层节点 训练时间/s 隐层节点 训练时间/s 隐层节点 训练时间/s Abalone 10 1.7562 25 0.0125 10 0.5739 Machine CPU 10 0.2354 10 0.0015 5 0.1462 Servo 0.2447 30 <10-4 10 0.0853 Auto-MPG 5 4.5462 20 0.0013 10 0.1925 Pumadyn (8NH) 40 26.6803 105 0.6434 55 15.1113 2Dplane 140 83.5889 135 2.0441 80 41.0499 Census 10 8.0647 160 1.0795 10 13.2113 Califonia Housing 。 6.5320 80 1.1177 35 3.8260 极限学习机在其中大部分问题上,能获得比BP更 3 结论 快的学习速度,比ELM更好或相近的逼近效果.实 际工程问题中的许多定量关系存在显著的空间不平 提出了一种新的基于紧支撑正交小波基网络结 构用以学习具有空间奇异性的目标,并利用误差最 稳性,小波极限学习机不仅继承了EM一ELM增量学 小化极限学习机算法训练输出层权值矩阵,其增量 习的快速收敛性,还可进行自适应分辨的精细化 学习策略节约了大量的训练时间成本,同时小波基 分析. 函数的张量积空间使得小波极限学习机可以处理二 参考文献 维奇异状函数逼近问题.针对实际中广泛存在的高 [1]Wang G F,Wang Z L,Qin X D,et al.Accurate diagnosis of roll- 维回归问题,进一步发挥小波聚微的特性,利用后小 ing bearing based on wavelet packet and RBF neural networks.I 波分析方法中的脊波变换进行辨识,为了获得更好 Unin Sci Technol Beijing,2004,26(2):184 的稀疏性对脊波的伸缩、平移和方向参数进行优化 (王国锋,王子良,秦旭达,等.基于小波包和径向基神经网 选择.在UCI实际应用数据集的实验结果证明脊波 络轴承故障诊断.北京科技大学学报,2004,26(2):184)
北 京 科 技 大 学 学 报 第 36 卷 Servo、Census 和 Califonia Housing 五个问题在 BP 和 ELM 上的测试结果来自文献[12],其他数据在运行 环境为 CPU 2. 66 Hz 的 MATLAB R2009a 上测试得 到. BP 网络采用自适应学习率动量梯度下降的改 进算法. 表 1 和表 2 列出了每种算法在测试集上运 行 50 次结果的平均值. 表 1 结果中可以看出,RL-- ELM 在其中六种实际问题中都能保持最低的平均 验证精度,而在 2Dplane 和 Census 两个测试集上保 持跟 ELM 非常相近的实验结果. 表 1 三种算法在实际回归问题上的性能比较 Table 1 Performance comparison on real benchmark problems between three algorithms UCI 实际数据集 BP ELM RL--ELM 训练 验证 训练 验证 训练 验证 Abalone 0. 0785 /0. 0011 0. 0874 /0. 0034 0. 0803 /0. 0049 0. 0824 /0. 0058 0. 0753 /0. 0024 0. 0784 /0. 0052 Machine CPU 0. 0352 /0. 0192 0. 0826 /0. 0715 0. 0332 /0. 0060 0. 0539 /0. 0156 0. 0311 /0. 0038 0. 0473 /0. 0173 Servo 0. 0794 /0. 0313 0. 1276 /0. 0475 0. 0707 /0. 0121 0. 1196 /0. 0113 0. 0640 /0. 0159 0. 1100 /0. 0171 Auto--MPG 0. 0908 /0. 0024 0. 0990 /0. 0069 0. 0696 /0. 0098 0. 0860 /0. 0110 0. 0700 /0. 0073 0. 0769 /0. 0132 Pumadyn ( 8NH) 0. 1763 /0. 0102 0. 1847 /0. 0118 0. 1631 /0. 0703 0. 1735 /0. 0834 0. 1519 /0. 0921 0. 1587 /0. 0621 2Dplane 0. 0965 /0. 0024 0. 0971 /0. 0031 0. 0428 /0. 0011 0. 0432 /0. 0049 0. 0468 /0. 0024 0. 0472 /0. 0060 Census 0. 0596 /0. 0011 0. 0685 /0. 0050 0. 0624 /0. 0010 0. 0660 /0. 0017 0. 0701 /0. 0042 0. 0674 /0. 0052 Califonia Housing 0. 1046 /0. 0045 0. 1285 /0. 0026 0. 1217 /0. 0021 0. 1267 /0. 0033 0. 1213 /0. 0032 0. 1260 /0. 0043 注: 表内数据为“均方误差/方差”; 加黑为验证性能最好的数据. 表 2 为三种算法的网络结构和训练时间的比 较. RL--ELM 牺牲了一定的训练时间获得更紧凑的 网络结构和更高的辨识精度,但较之 BP 算法,在学 习速度上依然能保持 ELM 快速学习的优势. 表 2 三种算法在网络结构和训练时间上的性能比较 Table 2 Network complexity and training time comparison between three algorithms UCI 实际数据集 BP ELM RL--ELM 隐层节点 训练时间/ s 隐层节点 训练时间/ s 隐层节点 训练时间/ s Abalone 10 1. 7562 25 0. 0125 10 0. 5739 Machine CPU 10 0. 2354 10 0. 0015 5 0. 1462 Servo 10 0. 2447 30 < 10 - 4 10 0. 0853 Auto--MPG 15 4. 5462 20 0. 0013 10 0. 1925 Pumadyn ( 8NH) 40 26. 6803 105 0. 6434 55 15. 1113 2Dplane 140 83. 5889 135 2. 0441 80 41. 0499 Census 10 8. 0647 160 1. 0795 10 13. 2113 Califonia Housing 10 6. 5320 80 1. 1177 35 3. 8260 3 结论 提出了一种新的基于紧支撑正交小波基网络结 构用以学习具有空间奇异性的目标,并利用误差最 小化极限学习机算法训练输出层权值矩阵,其增量 学习策略节约了大量的训练时间成本,同时小波基 函数的张量积空间使得小波极限学习机可以处理二 维奇异状函数逼近问题. 针对实际中广泛存在的高 维回归问题,进一步发挥小波聚微的特性,利用后小 波分析方法中的脊波变换进行辨识,为了获得更好 的稀疏性对脊波的伸缩、平移和方向参数进行优化 选择. 在 UCI 实际应用数据集的实验结果证明脊波 极限学习机在其中大部分问题上,能获得比 BP 更 快的学习速度,比 ELM 更好或相近的逼近效果. 实 际工程问题中的许多定量关系存在显著的空间不平 稳性,小波极限学习机不仅继承了 EM--ELM 增量学 习的快速收敛性,还可进行自适应分辨的精细化 分析. 参 考 文 献 [1] Wang G F,Wang Z L,Qin X D,et al. Accurate diagnosis of rolling bearing based on wavelet packet and RBF neural networks. J Univ Sci Technol Beijing,2004,26( 2) : 184 ( 王国锋,王子良,秦旭达,等. 基于小波包和径向基神经网 络轴承故障诊断. 北京科技大学学报,2004,26( 2) : 184) · 8171 ·
第12期 全丽萍等:多分辨率小波极限学习机 ·1719· Cao J,Lin Z,HuangG B.Composite function wavelet neural net- 538 works with extreme learning machine.Neurocomputing,2010,73 ]Wang JG,Yang J H,Yun H B,et al.Improved particle swarm (7):1405 optimized back propagation neural network and its application to B]Cao J,Lin Z,Huang G B.Composite function wavelet neural net- production quality modeling.J Univ Sci Technol Beijing,2008,30 works with differential evolution and extreme leamning machine. (10):1188 Neural Process Lett,2011,33(3)251 (王建国,阳建宏,云海滨,等。改进粒子群优化神经网络及 4]Huang G B,Zhou H,Ding X,et al.Extreme learning machine 其在产品质量建模中的应用.北京科技大学学报,2008,30 for regression and multiclass classification.IEEE Trans Syst Man (10):1188) Cbem,2012,42(2):513 [10]Khan A,Yang J,Wu W.Double parallel feedforward neural net- [5]Feng G,Huang G B,Lin Q,et al.Error minimized extreme work based on extreme learning machine with Li regularizer learning machine with growth of hidden nodes and incremental Neurocomputing,2014,128:113 learning.IEEE Trans Neural Netucorks,2009,20(8):1352 [11]Huang J C,Xiao J.Cloud model based on wavelet neural net- [6]Xu C,Li M.Zhang WQ,et al.Post-tcarelet and Variational The- works.Control Theory Appl,2011,28(1):53 ory and Their Application in Image Completion.Beijing:Science (黄景春,肖建.基于小波神经网络的云模型.控制理论与 Press,2013 应用,2011,28(1):53) (徐晨,李敏,张维强,等.后小波与变分理论及其在图像修 [12]Huang G B.Zhu Q Y,Siew C K.Extreme learning machine: 复中的应用.北京:科学出版社,2013) theory and applications.Neurocomputing,2006,0(1):489 Yang S Y,Jiao LC,Wang M.A new directional multi-esolution [13]Bache K,Lichman M.UCI Machine Learning Repository [R/ ridgelet network.J Xidian Univ,2006,33(4):557 OL.Irvine,CA:School of Information and Computer Science, (杨淑媛,焦李成,王敏.一种新的方向多分辨脊波网络.西 University of California.[2014-05-24].http://archive.ics. 安电子科技大学学报,2006,33(4):557) uci.edu/ml Sun F.He M.Gao Q.A hybrid algorithm for training adaptive [14]Torgo L.Lus Torgo:Regression Data Sets [DB/OL].014- ridgelet neural network /2011 IEEE International Conference on 05-4].http://www.dec.fe.up.pt/~ltorgo/Regression/Data- Computer Science and Automation Engineering (CSAE),2011: Sets.html
第 12 期 全丽萍等: 多分辨率小波极限学习机 [2] Cao J,Lin Z,Huang G B. Composite function wavelet neural networks with extreme learning machine. Neurocomputing,2010,73 ( 7) : 1405 [3] Cao J,Lin Z,Huang G B. Composite function wavelet neural networks with differential evolution and extreme learning machine. Neural Process Lett,2011,33( 3) : 251 [4] Huang G B,Zhou H,Ding X,et al. Extreme learning machine for regression and multiclass classification. IEEE Trans Syst Man Cybern,2012,42( 2) : 513 [5] Feng G,Huang G B,Lin Q,et al. Error minimized extreme learning machine with growth of hidden nodes and incremental learning. IEEE Trans Neural Networks,2009,20( 8) : 1352 [6] Xu C,Li M,Zhang W Q,et al. Post-wavelet and Variational Theory and Their Application in Image Completion. Beijing: Science Press,2013 ( 徐晨,李敏,张维强,等. 后小波与变分理论及其在图像修 复中的应用. 北京: 科学出版社,2013) [7] Yang S Y,Jiao L C,Wang M. A new directional multi-resolution ridgelet network. J Xidian Univ,2006,33( 4) : 557 ( 杨淑媛,焦李成,王敏. 一种新的方向多分辨脊波网络. 西 安电子科技大学学报,2006,33( 4) : 557) [8] Sun F,He M,Gao Q. A hybrid algorithm for training adaptive ridgelet neural network / / 2011 IEEE International Conference on Computer Science and Automation Engineering ( CSAE) ,2011: 538 [9] Wang J G,Yang J H,Yun H B,et al. Improved particle swarm optimized back propagation neural network and its application to production quality modeling. J Univ Sci Technol Beijing,2008,30 ( 10) : 1188 ( 王建国,阳建宏,云海滨,等. 改进粒子群优化神经网络及 其在产品质量建模中的应用. 北京科技大学学报,2008,30 ( 10) : 1188) [10] Khan A,Yang J,Wu W. Double parallel feedforward neural network based on extreme learning machine with L1 /2 regularizer. Neurocomputing,2014,128: 113 [11] Huang J C,Xiao J. Cloud model based on wavelet neural networks. Control Theory Appl,2011,28( 1) : 53 ( 黄景春,肖建. 基于小波神经网络的云模型. 控制理论与 应用,2011,28( 1) : 53) [12] Huang G B,Zhu Q Y,Siew C K. Extreme learning machine: theory and applications. Neurocomputing,2006,70( 1) : 489 [13] Bache K,Lichman M. UCI Machine Learning Repository [R / OL]. Irvine,CA: School of Information and Computer Science, University of California. [2014--05--24]. http: / /archive. ics. uci. edu /ml [14] Torgo L. Lus Torgo: Regression Data Sets [DB /OL]. [2014-- 05--24]. http: / /www. dcc. fc. up. pt / ~ ltorgo /Regression /DataSets. html · 9171 ·