第11卷第6期 智能系统学报 Vol.11 No.6 2016年12月 CAAI Transactions on Intelligent Systems Dec.2016 D0I:10.11992/is.201612015 网络出版地址:http://www.cnki.net/kcms/detail,/23.1538.TP.20170111.1705.028.html 随机权神经网络研究现状与展望 乔俊飞13,李凡军2,杨翠丽13 (1.北京工业大学信息学部,北京100124;2.济南大学数学科学学院,山东济南250022;3.计算智能与智能系统北 京市重点实验室,北京100124) 摘要:神经网络随机学习克服了传统梯度类算法所固有的收敛速度慢及局部极小问题,最近已成为神经网络领域 的研究热点之一。基于随机学习的思想,人们设计了不同结构的随机权神经网络模型。本文旨在回顾总结随机权 神经网络的研究现状基础上,给出其发展趋势。首先,提出随机权神经网络简化模型,并基于简化模型给出神经网 络随机学习算法:其次,回顾总结随机权神经网络研究现状,基于简化模型分析不同结构随机权神经网络的性能及 随机权初始化方法:最后,给出随机权神经网络今后的发展趋势。 关键词:随机权神经网络:前馈神经网络:递归神经网络:级联神经网络:随机学习算法 中图分类号:TP183文献标志码:A文章编号:1673-4785(2016)06-0758-10 中文引用格式:乔俊飞,李凡军,杨翠丽.随机权神经网络研究现状与展望[J].智能系统学报,2016,11(6):758-767. 英文引用格式:QIAO Junfei,LI Fanjun,YANG Cuili..Review and prospect on neural networks with random weights[J].CAAl Transactions on Intelligent Systems,2016,11(6):758-767. Review and prospect on neural networks with random weights QIAO Junfei3,LI Fanjun2,YANG Cuili3 (1.Faculty of Information Technology,Beijing University of Technology,Beijing 100124,China;2.School of Mathematical Science, University of Jinan,Jinan 250022,China;3.Beijing Key Laboratory of Computational Intelligence and Intelligent System,Beijing 100124,China) Abstract:A randomized learning algorithm in a neural network,which can overcome the difficulty of slow conver- gence and local minimum inherently in the traditional gradient-based learning algorithms,has recently become a hot topic in the field of neural networks.Some neural networks with random weights using randomized learning algo- rithms have been proposed.The aim of this paper summarizes the current research on neural networks with random weights and provides some views about its development trends.First,a simplified model of a neural network with random weights was proposed,and the randomized learning algorithm was summarized,based on the simplified model.Then,a review on neural networks with random weights was given,and the performance of several different neural networks with random weights was analyzed,based on the simplified model.Finally,several views on neural networks with random weights are presented. Keywords:neural network with random weights;feedforward neural network;recurrent neural network;cascade neural network:randomized learning algorithm 人工神经网络是通过模仿大脑神经系统的组织 收稿日期:2016-12-12. 结构及活动机理进行信息处理的新型网络系统,具 基金项目:国家自然科学基金项目(61533002,61603012):北京市自然 科学基金项目(Z141100001414005):北京市教委基金项目 有从环境中学习的能力,并引起诸多领域的广泛关 (km201410005001,KZ201410005002). 注,比如信号处理、智能控制、模式识别、图像处理、 通信作者:乔俊飞.E-mail:junfeiq@bjut.cdu.cn. 非线性系统建模与优化、大数据处理、知识处理等领
第 11 卷第 6 期 智 能 系 统 学 报 Vol.11 №.6 2016 年 12 月 CAAI Transactions on Intelligent Systems Dec. 2016 DOI:10.11992 / tis.201612015 网络出版地址:http: / / www.cnki.net / kcms/ detail / 23.1538.TP.20170111.1705.028.html 随机权神经网络研究现状与展望 乔俊飞1,3 ,李凡军2 ,杨翠丽1,3 (1.北京工业大学 信息学部,北京 100124; 2.济南大学 数学科学学院,山东 济南 250022; 3.计算智能与智能系统北 京市重点实验室,北京 100124) 摘 要:神经网络随机学习克服了传统梯度类算法所固有的收敛速度慢及局部极小问题,最近已成为神经网络领域 的研究热点之一。 基于随机学习的思想,人们设计了不同结构的随机权神经网络模型。 本文旨在回顾总结随机权 神经网络的研究现状基础上,给出其发展趋势。 首先,提出随机权神经网络简化模型,并基于简化模型给出神经网 络随机学习算法;其次,回顾总结随机权神经网络研究现状,基于简化模型分析不同结构随机权神经网络的性能及 随机权初始化方法;最后,给出随机权神经网络今后的发展趋势。 关键词:随机权神经网络;前馈神经网络;递归神经网络;级联神经网络;随机学习算法 中图分类号: TP183 文献标志码:A 文章编号:1673-4785(2016)06-0758-10 中文引用格式:乔俊飞,李凡军,杨翠丽. 随机权神经网络研究现状与展望[J]. 智能系统学报, 2016, 11(6): 758-767. 英文引用格式:QIAO Junfei, LI Fanjun, YANG Cuili. Review and prospect on neural networks with random weights[ J]. CAAI Transactions on Intelligent Systems, 2016, 11(6): 758-767. Review and prospect on neural networks with random weights QIAO Junfei 1,3 , LI Fanjun 2 , YANG Cuili 1,3 (1.Faculty of Information Technology, Beijing University of Technology, Beijing 100124, China; 2.School of Mathematical Science, University of Jinan, Jinan 250022, China; 3. Beijing Key Laboratory of Computational Intelligence and Intelligent System, Beijing 100124, China) Abstract:A randomized learning algorithm in a neural network, which can overcome the difficulty of slow conver⁃ gence and local minimum inherently in the traditional gradient⁃based learning algorithms, has recently become a hot topic in the field of neural networks. Some neural networks with random weights using randomized learning algo⁃ rithms have been proposed. The aim of this paper summarizes the current research on neural networks with random weights and provides some views about its development trends. First, a simplified model of a neural network with random weights was proposed, and the randomized learning algorithm was summarized, based on the simplified model. Then, a review on neural networks with random weights was given, and the performance of several different neural networks with random weights was analyzed, based on the simplified model. Finally, several views on neural networks with random weights are presented. Keywords: neural network with random weights; feedforward neural network; recurrent neural network; cascade neural network; randomized learning algorithm 收稿日期:2016-12-12. 基金项目:国家自然科学基金项目( 61533002,61603012);北京市自然 科学基金项目( Z141100001414005);北京市教委基金项目 (km201410005001,KZ201410005002). 通信作者:乔俊飞. E⁃mail:junfeiq@ bjut.edu.cn. 人工神经网络是通过模仿大脑神经系统的组织 结构及活动机理进行信息处理的新型网络系统,具 有从环境中学习的能力,并引起诸多领域的广泛关 注,比如信号处理、智能控制、模式识别、图像处理、 非线性系统建模与优化、大数据处理、知识处理等领
第6期 乔俊飞,等:随机权神经网络研究现状与展望 .759. 域1-。迄今为止,应用最为广泛的神经网络学习 如图1所示,随机权神经网络的计算模型可概 方法是梯度类算法。然而,传统的梯度类算法本身 括为 存在一些难以解决的瓶颈问题,如收敛速度慢、易陷 入局部极小点、对初始参数的设定依赖性较强 := ∑B,g(x,0,),1≤i≤N (1) 等[)。特别是对于深层神经网络及递归神经网络, 式中:B,为随机层第j个节点与输出层之间的连接 梯度类算法存在梯度消失及梯度爆炸等问题,难以 权值向量,0,为随机层第j个节点的随机权向量, 充分发挥神经网络强大的学习能力]。 为随机层第广个节点的映射函数。假设模型预测误 另一方面,人们通过对大脑的解剖重构发现,随 差为ε,则式(1)可以等价地表示为 机连接存在于部分脑区域,并在神经表征过程中具 有重要作用9-0]。基于此生物学基础,部分学者提 T=H邱+e (2) 式中:H为随机层输出矩阵,β为随机层与输出层间 出了神经网络随机学习算法,通过求解简单线性回 归问题计算与输出层节点连接的网络权值,而其他 的连接矩阵,T为目标输出矩阵,分别表示为 网络权值及阈值则根据给定概率分布,在特定的区 81(x1)…g(x1) 间上随机生成,且不再进行调整)。该类算法无需 H= 性能函数的梯度信息,无需反复迭代,在一定程度上 8(XN) g(xw)Jx 克服了传统梯度类算法遇到的瓶颈问题2]。 (3) 近年来,众多学者将随机学习思想应用于训练不 同结构的神经网络,并提出了多种类型的随机权神经 B 网络模型,如单隐含层前馈神经网络3-),多隐含层 B t Nxm 前馈神经网络16-1】,级联神经网络90),递归神经网 在随机权神经网络模型(1)中,随机层节点的 络[2-2)]。与传统的神经网络相比,随机权神经网络 参数0,按照采用某种随机的方法进行初始化,并在 在保证相当的逼近和泛化能力的基础上,拥有极快的 随后的学习过程中保持不变,而权值B:则可以通过 学习速度,降低了陷入局部极小点的概率,代码执行 最小二乘求解式(2)获得,即 简单,易于理解与实现,无需性能函数的导数信息,适 用范围更加广泛。因此随机权神经网络一经提出便 B=(HH)HT (4) 成为神经网络领域的研究热点,并已成功应用于模式 或通过岭回归算法,得 识别、信号处理、时间序列预测等领域24。然而, B=(HH+AIHT (5) 随机权神经网络研究才刚刚起步,在理论、技术及应 式中入为正则化系数。 用层面上还有很大的提升空间。 神经网络随机学习算法步骤可概括如下: 1 随机权神经网络简化模型 1)随机初始化随机层第广个隐节点的参数向量 0,j=1,2,…,L; 给定任意N个不同的训练样本{(x:,:)I(x, 2)由式(1)和式(3)计算网络随机层的输出矩 t:)∈R”×R,1≤i≤N},假设与网络输出层相连的 阵H; 节点个数为L,则随机权神经网络可以简化为两层感 3)由式(4)或式(5)计算网络的输出层权值矩阵: 知器结构,如图1,其中与输出层相连的L个节点组 4)对训练好的网络进行测试。 成随机层。随机层中每个节点可能是一个输入节点, 根据随机层节点的连接方式,随机权神经网络 也可能是由输入节点及隐节点组成的复合节点。 随机层 输出层 可分为随机权单隐含层前馈神经网络、随机权多隐 含层前馈神经网络、随机权级联神经网络及随机权 递归神经网络,不同网络结构对应不同的映射函数 及网络性能,下面对随机权神经网络的结构、映射函 数以及网络性能进行具体分析。 2随机权神经网络结构及性能分析 2.1随机权单隐含层前馈神经网络 图1随机权神经网络简化模型 前馈单隐含层神经网络(single hidden layer feed- Fig.1 Simplified model of NNs with random weights forward neural network,SLFN)是目前研究及应用最
域[1-6] 。 迄今为止,应用最为广泛的神经网络学习 方法是梯度类算法。 然而,传统的梯度类算法本身 存在一些难以解决的瓶颈问题,如收敛速度慢、易陷 入局部 极 小 点、 对 初 始 参 数 的 设 定 依 赖 性 较 强 等[7] 。 特别是对于深层神经网络及递归神经网络, 梯度类算法存在梯度消失及梯度爆炸等问题,难以 充分发挥神经网络强大的学习能力[8] 。 另一方面,人们通过对大脑的解剖重构发现,随 机连接存在于部分脑区域,并在神经表征过程中具 有重要作用[9-10] 。 基于此生物学基础,部分学者提 出了神经网络随机学习算法,通过求解简单线性回 归问题计算与输出层节点连接的网络权值,而其他 网络权值及阈值则根据给定概率分布,在特定的区 间上随机生成,且不再进行调整[11] 。 该类算法无需 性能函数的梯度信息,无需反复迭代,在一定程度上 克服了传统梯度类算法遇到的瓶颈问题[12] 。 近年来,众多学者将随机学习思想应用于训练不 同结构的神经网络,并提出了多种类型的随机权神经 网络模型,如单隐含层前馈神经网络[13-15] ,多隐含层 前馈神经网络[16-18] ,级联神经网络[19-20] ,递归神经网 络[21-23] 。 与传统的神经网络相比,随机权神经网络 在保证相当的逼近和泛化能力的基础上,拥有极快的 学习速度,降低了陷入局部极小点的概率,代码执行 简单,易于理解与实现,无需性能函数的导数信息,适 用范围更加广泛。 因此随机权神经网络一经提出便 成为神经网络领域的研究热点,并已成功应用于模式 识别、信号处理、时间序列预测等领域[24-26] 。 然而, 随机权神经网络研究才刚刚起步,在理论、技术及应 用层面上还有很大的提升空间。 1 随机权神经网络简化模型 给定任意 N 个不同的训练样本 (xi { ,t i) | (xi, t i) ∈R n × R m ,1≤i≤N} ,假设与网络输出层相连的 节点个数为 L,则随机权神经网络可以简化为两层感 知器结构,如图 1,其中与输出层相连的 L 个节点组 成随机层。 随机层中每个节点可能是一个输入节点, 也可能是由输入节点及隐节点组成的复合节点。 图 1 随机权神经网络简化模型 Fig.1 Simplified model of NNs with random weights 如图 1 所示,随机权神经网络的计算模型可概 括为 yi = ∑ L j = 1 βjgj(xi,θj),1 ≤ i ≤ N (1) 式中: βj 为随机层第 j 个节点与输出层之间的连接 权值向量, θj 为随机层第 j 个节点的随机权向量, gj 为随机层第 j 个节点的映射函数。 假设模型预测误 差为 ε,则式(1)可以等价地表示为 T = Hβ + ε (2) 式中:H 为随机层输出矩阵,β 为随机层与输出层间 的连接矩阵,T 为目标输出矩阵,分别表示为 H = g1(x1 ) … gL(x1 ) ︙ ︙ g1(xN) … gL(xN) é ë ê ê ê ê ù û ú ú ú ú N×L β = β T 1 ︙ β T L é ë ê ê ê ê ù û ú ú ú ú L×m ,T = t T 1 ︙ t T N é ë ê ê ê ê ù û ú ú ú ú N×m (3) 在随机权神经网络模型(1)中,随机层节点的 参数 θj 按照采用某种随机的方法进行初始化,并在 随后的学习过程中保持不变,而权值 βj 则可以通过 最小二乘求解式(2)获得,即 β ^ = (H TH) -1H TT (4) 或通过岭回归算法,得 β ^ = (H TH + λI) -1H TT (5) 式中 λ 为正则化系数。 神经网络随机学习算法步骤可概括如下: 1)随机初始化随机层第 j 个隐节点的参数向量 θj , j = 1, 2, …, L ; 2)由式(1)和式(3)计算网络随机层的输出矩 阵 H; 3)由式(4)或式(5)计算网络的输出层权值矩阵; 4)对训练好的网络进行测试。 根据随机层节点的连接方式,随机权神经网络 可分为随机权单隐含层前馈神经网络、随机权多隐 含层前馈神经网络、随机权级联神经网络及随机权 递归神经网络,不同网络结构对应不同的映射函数 及网络性能,下面对随机权神经网络的结构、映射函 数以及网络性能进行具体分析。 2 随机权神经网络结构及性能分析 2.1 随机权单隐含层前馈神经网络 前馈单隐含层神经网络(single hidden layer feed⁃ forward neural network, SLFN)是目前研究及应用最 第 6 期 乔俊飞,等:随机权神经网络研究现状与展望 ·759·
.760 智能系统学报 第11卷 为广泛的前馈神经网络。在文献[27]中,作者将随机 机层节点映射函数为 学习的思想应用于训练SLFN,分别研究网络的输入 (元, 1≤j≤n 权值与输出权值对于网络性能的影响。仿真结果表 8(x:,0)= (9(wx:+b), n+1≤j≤L 明,输出权值对网络性能影响更加明显,而输入权值 (7) 恰当初始化后可不必进行优化调节。但该文献并没 式中:当j>n时,w,=(01,02,…,四m),b分别为 有将随机学习算法作为一种可供选择的神经网络学 第j个随机层节点的输入权值及阈值,0=(w1,02, 习算法进行推广。Pao及Huang等分别对神经网络 …,心m,b)为网络的随机权向量,取值于某给定区 随机学习算法进行了深入地研究,各自提出了相应的 间[-2,2],x(i=1,2,…,Ni=1,2,…,n)为网 随机权神经网络模型2-)。Rahimi等也提出了类似 络输入。在文献[28]中,作者从理论上严格证明了 结构的随机权神经网络模型,并对网络的分类能力及 RVFL对连续函数的任意逼近特性。Zhang等研究 测试误差边界给出了相应的理论分析5)。 发现,输入层节点与输出层节点的直接连接对于 Huang等将随机学习算法应用于SLFN训练, RVFL的性能具有重要的影响。 提出了标准的随机权单隐含层神经网络模型(Ex 输出层t treme learning machine,ELM)[so),如图2所示,其中 随机层 随机层节点由输入层节点及隐含层节点复合而成。 ELM网络随机层节点的映射函数为 8(x:,8)=9(wx:+b),1≤j≤L(6) 式中:州,=(01,02,…,0n),6分别为第j个隐含 层节点的输入权值及阈值,0,=(01,02,…,0m,b) 为网络的随机权向量,取值于任意实数区间,x,(i= 误差 1,2,…,N)为网络输入。在文献[31]中,Huang等 证明了该类网络以概率1任意精度逼近连续函数。 图3随机权功能连接网络 Li山等从理论上严格证明,在选择恰当的激活函数 Fig.3 FLNN with random weights 的条件下,该类随机权单隐含层前馈神经网络可以 获得与权值可调神经网络相当的泛化性能划。 近年来,随机权单隐含层神经网络研究取得了 许多优秀的成果,比如在线算法3]、分布式算 随机层 输出层 法[36]、集成算法[3刃、结构设计算法[3-]、正则化算 法[48-4]、聚类算法[45-6]等。但随机权单隐含层神 经网络在大数据及知识处理方面的研究还需要进一 步加强。 2.2随机权多隐含层前馈神经网络 与SLFN相比,多隐含层前馈神经网络(muli- 误差 ple hidden layer feedforward neural network,MLFN) 在处理某些问题时展现出了更好的信息处理能 图2随机权单隐含层前馈神经网络 力[。然而,由于纵深的网络结构,梯度类算法在 Fig.2 SLFN with random weights 训练MLN时存在梯度消失及梯度爆炸问题,不能 功能连接网络(functional-link neural network, 有效发挥MLFN的全部性能。深度学习方法能够有 FLNN)是一类特殊的SLFN3)],包括输入层、增强层 效地训练MLFN网络,并在模式识别等问题上取得 (隐含层)及输出层,如图3所示。与标准的SLFN 很好的效果,但其整个训练过程是冗长的]。而基 不同,FLNN的输入节点同时连接隐含层节点及输 于随机学习算法的多隐含层前馈神经网络,称为随 出层节点。Pao等将神经网络随机学习算法用于 机权多隐含层前馈神经网络,仅网络的输出权值进 FLNN网络训练,提出了随机权功能连接网络(ran- 行训练,而隐含层节点的网络权值随机设置且固定 dom vector functional-link neural network,RV- 不变,从而极大地提高了网络的训练效率[49。 ℉L)【B,2],其随机层输出包括输入节点输出以及输 随机权多隐含层前馈神经网络中,随机层节点 入节点与隐节点的复合节点输出。RVFL网络的随 由输入节点及隐含层节点逐层复合而成,如图4所
为广泛的前馈神经网络。 在文献[27]中,作者将随机 学习的思想应用于训练 SLFN,分别研究网络的输入 权值与输出权值对于网络性能的影响。 仿真结果表 明,输出权值对网络性能影响更加明显,而输入权值 恰当初始化后可不必进行优化调节。 但该文献并没 有将随机学习算法作为一种可供选择的神经网络学 习算法进行推广。 Pao 及 Huang 等分别对神经网络 随机学习算法进行了深入地研究,各自提出了相应的 随机权神经网络模型[28-29] 。 Rahimi 等也提出了类似 结构的随机权神经网络模型,并对网络的分类能力及 测试误差边界给出了相应的理论分析[15] 。 Huang 等将随机学习算法应用于 SLFN 训练, 提出了标准的随机权单隐含层神经网络模型(Ex⁃ treme learning machine,ELM) [30] ,如图 2 所示,其中 随机层节点由输入层节点及隐含层节点复合而成。 ELM 网络随机层节点的映射函数为 gj(xi,θj) = φj(wjxi + bj),1 ≤ j ≤ L (6) 式中: wj = (wj1 ,wj2 ,…,wjn ) , bj 分别为第 j 个隐含 层节点的输入权值及阈值, θj = (wj1 ,wj2 ,…,wjn ,bj) 为网络的随机权向量,取值于任意实数区间, xi(i = 1,2,…,N) 为网络输入。 在文献[31]中,Huang 等 证明了该类网络以概率 1 任意精度逼近连续函数。 Liu 等从理论上严格证明,在选择恰当的激活函数 的条件下,该类随机权单隐含层前馈神经网络可以 获得与权值可调神经网络相当的泛化性能[32] 。 图 2 随机权单隐含层前馈神经网络 Fig.2 SLFN with random weights 功能连接网络( functional⁃link neural network, FLNN)是一类特殊的 SLFN [33] ,包括输入层、增强层 (隐含层)及输出层,如图 3 所示。 与标准的 SLFN 不同,FLNN 的输入节点同时连接隐含层节点及输 出层节点。 Pao 等将神经网络随机学习算法用于 FLNN 网络训练,提出了随机权功能连接网络( ran⁃ dom vector functional⁃link neural network, RV⁃ FL) [13,28] ,其随机层输出包括输入节点输出以及输 入节点与隐节点的复合节点输出。 RVFL 网络的随 机层节点映射函数为 gj(xi,θj) = xji, 1 ≤ j ≤ n φj(wjxi + b { j), n + 1 ≤ j ≤ L (7) 式中:当 j > n 时, wj = (wj1 ,wj2 ,…,wjn ) , bj 分别为 第 j 个随机层节点的输入权值及阈值, θj = (wj1 ,wj2 , …,wjn ,bj) 为网络的随机权向量,取值于某给定区 间 [ - Ω,Ω] , xji(i = 1,2,…,N;j = 1,2,…,n) 为网 络输入。 在文献[28]中,作者从理论上严格证明了 RVFL 对连续函数的任意逼近特性。 Zhang 等研究 发现,输入层节点与输出层节点的直接连接对于 RVFL 的性能具有重要的影响[34] 。 图 3 随机权功能连接网络 Fig.3 FLNN with random weights 近年来,随机权单隐含层神经网络研究取得了 许多优 秀 的 成 果, 比 如 在 线 算 法[35] 、 分 布 式 算 法[36] 、集成算法[37] 、结构设计算法[38-42] 、正则化算 法[43-44] 、聚类算法[45-46] 等。 但随机权单隐含层神 经网络在大数据及知识处理方面的研究还需要进一 步加强。 2.2 随机权多隐含层前馈神经网络 与 SLFN 相比,多隐含层前馈神经网络( multi⁃ ple hidden layer feedforward neural network, MLFN) 在处理某些问题时展现出了更好的信息处理能 力[47] 。 然而,由于纵深的网络结构,梯度类算法在 训练 MLFN 时存在梯度消失及梯度爆炸问题,不能 有效发挥 MLFN 的全部性能。 深度学习方法能够有 效地训练 MLFN 网络,并在模式识别等问题上取得 很好的效果,但其整个训练过程是冗长的[48] 。 而基 于随机学习算法的多隐含层前馈神经网络,称为随 机权多隐含层前馈神经网络,仅网络的输出权值进 行训练,而隐含层节点的网络权值随机设置且固定 不变,从而极大地提高了网络的训练效率[49] 。 随机权多隐含层前馈神经网络中,随机层节点 由输入节点及隐含层节点逐层复合而成,如图 4 所 ·760· 智 能 系 统 学 报 第 11 卷
第6期 乔俊飞,等:随机权神经网络研究现状与展望 .761. 示,其映射函数为 待进一步扩大。 gx,0)=(立(立+b)+b) 2.3随机权级联神经网络 x=1 =1 近期研究成果表明,与多层感知结构相比较,级 1≤j≤L (8) 联神经网络(cascade neural network,CNN)结构具有 式中:w:为连接第一隐含层第s个节点及输入层第 更强的信息处理能力,因为其具有丰富的跨层链接及 l个节点的权值,w?为连接第二隐含层第j个节点 纵深的网络结构s。比如,Wilamowski等研究证明 及第一隐含层第s个节点的权值,b:与分别为第 级联神经网络用8个隐含层节点就可以解决255位 一隐含层第s个节点及第二隐含层第广个节点的阈 的奇偶校验问题,而三层感知网络用8个隐含层节点 值,0,=(01,…,0n,b,02,…,w5n,b5,听,02,…, 只能解决7位的奇偶校验问题约。但是级联网络每 w2,b)为网络的随机权向量。 一个隐含层节点就是一层,随着网络节点增加,网络 深度不断增加,传统梯度类算法难以实现网络权值的 随机层 输出层1 优化。Wilamowski等提出的NBN(neuron by neuron) 算法,可以沿着网络节点的连接次序逐一优化节点权 值,虽然适用于CNN网络的权值优化,但对于较大规 模(权值数大于500)的网络训练耗时太长[6]。而随 机权级联神经网络,只有与输出节点连接的权值需要 误差 进行训练,其他权值随机设置且固定不变,从而极大 地减少了级联网络的训练时间。 图4随机权多隐含层前馈神经网络 随机权级联神经网络的随机层节点由两部分组 Fig.4 MLNN with random weights 成,一部分为输入节点,另一部分由输人节点及隐含 基于随机学习的思想,文献[16]提出了无传播 层节点逐层复合而成,如图5所示。 (no-propagation)算法用于训练MLFN网络。该算法 利用LMS(least mean square)方法训练网络的输出 随机层 输出层1 权值,其他权值随机生成且固定不变。实验证明该 ② 算法构造的神经网络可以得到与权值可调网络相当 的泛化能力。在文献[50]中,作者提出了双隐含层 随机权前馈神经网络模型,该模型第一隐含层的输 入权值随机生成,而第二隐含层的输入权值分析获 取。在文献[51]中,作者将神经网络随机学习与深 度信念网结合,设计了增量式随机权多隐含层前馈 误差 神经网络模型。在文献[17]中,Kasun等基于逐层 随机初始化方法设计了随机权多隐含层前馈神经网 图5随机权级联神经网络 络自动编码器。其将网络输入信号分解为多个隐含 Fig.5 CNN with random weights 层,上一层的输出作为当前隐含层的目标输出。然 其中随机层节点的映射函数为 而,该模型仅是简单的分层堆积,其最后一个隐含层 1≤j≤n 的编码输出直接输送给了输出层,中间没有经过随 机映射,不能保证模型的任意逼近特性1)。因此, 9(∑0pn+b,), j=n+1 为了保证该自动编码器的任意逼近特性,Tang等在 8,0)= 编码器最后一个隐含层与输出层之间增加了一个随 g(+∑0g,(x,)+ p=1 9 机映射层,将MLFN的训练分为两个层次,即无监督 i≥n+2 的分层特征表示及有监督的特征分类)。 (9) 目前随机权多隐含层前馈神经网络已成功应用 式中:9,为第j个隐含层节点的激活函数,x(1≤ 于人脸识别、图像处理及多分类学习[2-]等领域, p≤n)为第i个输入样本的第p个分量,w(1≤ 但对其研究才刚刚起步,理论研究不足,应用领域有 p≤n)第p个输入节点与隐节点j间的连接权值
示,其映射函数为 gj(xi,θj) = φ 2 j (∑ S s = 1 w 2 jsφ 1 s(∑ n l = 1 w 1 sl xli + b 1 s ) + b 2 j ) 1 ≤ j ≤ L (8) 式中: w 1 sl 为连接第一隐含层第 s 个节点及输入层第 l 个节点的权值, w 2 js 为连接第二隐含层第 j 个节点 及第一隐含层第 s 个节点的权值, b 1 s 与 b 2 j 分别为第 一隐含层第 s 个节点及第二隐含层第 j 个节点的阈 值, θj = (w 1 11 ,…,w 1 1n ,b 1 1 ,w 1 21 ,…,w 1 Sn ,b 1 S ,w 2 j1 ,w 2 j2 ,…, w 2 jL ,b 2 j ) 为网络的随机权向量。 图 4 随机权多隐含层前馈神经网络 Fig.4 MLNN with random weights 基于随机学习的思想,文献[16]提出了无传播 (no⁃propagation)算法用于训练 MLFN 网络。 该算法 利用 LMS( least mean square)方法训练网络的输出 权值,其他权值随机生成且固定不变。 实验证明该 算法构造的神经网络可以得到与权值可调网络相当 的泛化能力。 在文献[50]中,作者提出了双隐含层 随机权前馈神经网络模型,该模型第一隐含层的输 入权值随机生成,而第二隐含层的输入权值分析获 取。 在文献[51]中,作者将神经网络随机学习与深 度信念网结合,设计了增量式随机权多隐含层前馈 神经网络模型。 在文献[17]中,Kasun 等基于逐层 随机初始化方法设计了随机权多隐含层前馈神经网 络自动编码器。 其将网络输入信号分解为多个隐含 层,上一层的输出作为当前隐含层的目标输出。 然 而,该模型仅是简单的分层堆积,其最后一个隐含层 的编码输出直接输送给了输出层,中间没有经过随 机映射,不能保证模型的任意逼近特性[18] 。 因此, 为了保证该自动编码器的任意逼近特性,Tang 等在 编码器最后一个隐含层与输出层之间增加了一个随 机映射层,将 MLFN 的训练分为两个层次,即无监督 的分层特征表示及有监督的特征分类[18] 。 目前随机权多隐含层前馈神经网络已成功应用 于人脸识别、图像处理及多分类学习[52-53] 等领域, 但对其研究才刚刚起步,理论研究不足,应用领域有 待进一步扩大。 2.3 随机权级联神经网络 近期研究成果表明,与多层感知结构相比较,级 联神经网络(cascade neural network,CNN)结构具有 更强的信息处理能力,因为其具有丰富的跨层链接及 纵深的网络结构[54] 。 比如,Wilamowski 等研究证明 级联神经网络用 8 个隐含层节点就可以解决 255 位 的奇偶校验问题,而三层感知网络用 8 个隐含层节点 只能解决 7 位的奇偶校验问题[55] 。 但是级联网络每 一个隐含层节点就是一层,随着网络节点增加,网络 深度不断增加,传统梯度类算法难以实现网络权值的 优化。 Wilamowski 等提出的 NBN(neuron by neuron) 算法,可以沿着网络节点的连接次序逐一优化节点权 值,虽然适用于 CNN 网络的权值优化,但对于较大规 模(权值数大于 500)的网络训练耗时太长[56] 。 而随 机权级联神经网络,只有与输出节点连接的权值需要 进行训练,其他权值随机设置且固定不变,从而极大 地减少了级联网络的训练时间。 随机权级联神经网络的随机层节点由两部分组 成,一部分为输入节点,另一部分由输入节点及隐含 层节点逐层复合而成,如图 5 所示。 图 5 随机权级联神经网络 Fig.5 CNN with random weights 其中随机层节点的映射函数为 gj(xi,θj) = xji, 1 ≤ j ≤ n φj(∑ n p = 1 wjp xpi + bj), j = n + 1 φj(∑ n p = 1 wjp xpi + ∑ j-1 q = 1 w′jqgq(xi,θq) + bj), j ≥ n + 2 ì î í ï ï ï ï ï ï ï ï (9) 式中: φj 为第 j 个隐含层节点的激活函数, xpi(1 ≤ p ≤n) 为第 i 个输入样本的第 p 个分量, wjp(1 ≤ p ≤n) 第 p 个输入节点与隐节点 j 间的连接权值, 第 6 期 乔俊飞,等:随机权神经网络研究现状与展望 ·761·
.762. 智能系统学报 第11卷 o'(1≤q<j)为隐节点q与隐节点j间的连接权 其随机层节点的映射函数为 值,随机参数向量0,表示为 ' 1≤j≤n (0,02,…,0n,b), j=n+1 0= (01,02,…,wm,0'n0'2,…,0't-),b), 8(x:,0)= 9(】 5,9(w51+6》+ 1=用+1 j≥n+2 w'x:+b), n+1≤j≤L (10) 在文献[19]中,作者基于随机学习的思想设计 (11) 了随机权级联神经网络,并给出了网络的收敛性证 式中:w,=(0',0'5,…,w'g)(≥n+1)为输入层 明。在文献[20]中,作者基于正交最小二乘算法设 与第j个随机层节点间的连接权值向量,0()≥n+ 计了类似的随机权级联神经网络。在文献[57]中, 1,l≥n+1)为连接第l个随机层节点与第j个随机 作者结合CNN网络及ELM算法,提出了具有级联 层节点的权值,b,(G≥n+1)为第j个随机层节点的 结构的随机权神经网络,能够以较少的隐含层节点 阈值,x-1与x:分别为网络第i-1时刻及i时刻的 得到与ELM网络相当的信息处理能力。而在文献 网络输入。随机参数向量0:表示为 [58]中,作者证明了随机权级联神经网络的逼近特 0=0'5,0'3,…,0'm时,0a+D,0a+2y,…,02,b] 性。然而,与随机权单隐含层前馈神经网络相比,在 (12) 具有相同数量网络权值的条件下,随机权级联神经 目前,典型的随机权递归神经网络称为“储备 网络并没有表现出更好的信息处理能力[5。因此, 池计算(reservoir computing)”模型,主要包括回声状 进一步提高随机权级联神经网络的信息处理能力是 态网络(echo state network,ESN)[2]、液体状态机 当前该领域研究的重点之一。 liquid state machine,LSM)[2]BPDCBackpropaga- 2.4随机权递归神经网络 tion decorrelation)学习规则[2]等。 与前馈神经网络相比,递归神经网络(recurrent ESN网络的随机层由大规模稀疏连接的递归模 neural network,RNN)含有丰富的动力学特性,理论 拟神经元构成,称为“动态储备池(dynamical reser- 上能够解决具有时序特性的机器学习问题。然而在 voir)”。当动态储备池权值矩阵的最大奇异值小于 实际应用过程中,往往难以达到预期的目的,其原因 1时,ESN网络动态储备池的输出状态由历史输入 在于传统的梯度类算法存在梯度消失及梯度爆炸等 唯一确定,称为回声状态特性(eho state property, 问题,难以快速有效地训练递归神经网络]。随机 ESP)。H.Jaeger指出通过设置动态储备池权值矩 权递归神经网络仅仅训练网络的输出权值,而其他 阵的谱半径接近且小于1,使动态储备池可处于稳 权值和阈值按照特定的规则随机设置且固定不变, 定边界,进而使ESN网络能够获得较好的信息处理 极大地提高了递归神经网络的训练效率。 能力[2]。与传统的递归神经网络相比,ESN网络处 随机权递归神经网络随机层比较复杂,其节点 理时间序列预测问题的能力得到大幅提高s9),并成 包括两个组成部分:一部分为网络的输入节点,另一 功应用于语音识别及非线性信号处理等领域[6-61)]。 部分由输入节点及隐含层节点按时间顺序多重复合 然而针对具体问题,随机动态储备池并不是最优选 而成,如图6。 择[62-]。因此,ESN动态储备池结构和储备池权值 矩阵设计仍然是该领域的开放课题,并出现了一些 有意义的成果[64-0]。 输出层 LSM是一种在线网络模型,提出的动机是用于 解决时序信号的实时计算问题,常用抽象的皮质微 柱模型进行描述m。LSM的工作原理与ESN相 近,但其随机层由LIF(leaky-integrate-and-fire)神经 元构成,能够实时处理脉冲数据流,更具有生物相似 误差 性。研究表明,当LSM的随机层的动态特性达 到混沌边界时,模型可处于最佳状态]。目前, 图6随机权递归神经网络 LSM模型已成功应用于时间序列预测及模式识别 Fig.6 RNN with random weights 等领域[4-) 尽管各种储备池计算模型提出的动机及表现形
w′jq(1 ≤ q < j) 为隐节点 q 与隐节点 j 间的连接权 值,随机参数向量 θj 表示为 θj = (wj1 ,wj2 ,…,wjn ,bj), j = n + 1 (wj1 ,wj2 ,…,wjn ,w′j1 ,w′j2 ,…,w′j(j-1) ,bj), j ≥ n + 2 ì î í ï ï ïï (10) 在文献[19]中,作者基于随机学习的思想设计 了随机权级联神经网络,并给出了网络的收敛性证 明。 在文献[20]中,作者基于正交最小二乘算法设 计了类似的随机权级联神经网络。 在文献[57]中, 作者结合 CNN 网络及 ELM 算法,提出了具有级联 结构的随机权神经网络,能够以较少的隐含层节点 得到与 ELM 网络相当的信息处理能力。 而在文献 [58]中,作者证明了随机权级联神经网络的逼近特 性。 然而,与随机权单隐含层前馈神经网络相比,在 具有相同数量网络权值的条件下,随机权级联神经 网络并没有表现出更好的信息处理能力[57] 。 因此, 进一步提高随机权级联神经网络的信息处理能力是 当前该领域研究的重点之一。 2.4 随机权递归神经网络 与前馈神经网络相比,递归神经网络( recurrent neural network,RNN)含有丰富的动力学特性,理论 上能够解决具有时序特性的机器学习问题。 然而在 实际应用过程中,往往难以达到预期的目的,其原因 在于传统的梯度类算法存在梯度消失及梯度爆炸等 问题,难以快速有效地训练递归神经网络[8] 。 随机 权递归神经网络仅仅训练网络的输出权值,而其他 权值和阈值按照特定的规则随机设置且固定不变, 极大地提高了递归神经网络的训练效率。 随机权递归神经网络随机层比较复杂,其节点 包括两个组成部分:一部分为网络的输入节点,另一 部分由输入节点及隐含层节点按时间顺序多重复合 而成,如图 6。 图 6 随机权递归神经网络 Fig.6 RNN with random weights 其随机层节点的映射函数为 gj(xi,θj) = xji, 1 ≤ j ≤ n φj(∑ L l = n+1 wjlφl(w′jxi-1 + bj) + w′jxi + bj), n + 1 ≤ j ≤ L ì î í ï ï ï ï ï ï (11) 式中: w′j = w′1j,w′2j,…,w′nj ( ) (j≥n + 1) 为输入层 与第 j 个随机层节点间的连接权值向量, wjl(j ≥ n + 1,l ≥ n + 1) 为连接第 l 个随机层节点与第 j 个随机 层节点的权值, bj(j≥n + 1) 为第 j 个随机层节点的 阈值, xi-1 与 xi 分别为网络第 i - 1 时刻及 i 时刻的 网络输入。 随机参数向量 θj 表示为 θj = [w′1j,w′2j,…,w′nj,wj(n+1) ,wj(n+2) ,…,wjL ,bj] (12) 目前,典型的随机权递归神经网络称为“储备 池计算(reservoir computing)”模型,主要包括回声状 态网络( echo state network,ESN) [22] 、液体状态机 (liquid state machine,LSM) [23]及 BPDCBackpropaga⁃ tion decorrelation)学习规则[21]等。 ESN 网络的随机层由大规模稀疏连接的递归模 拟神经元构成,称为“动态储备池( dynamical reser⁃ voir)”。 当动态储备池权值矩阵的最大奇异值小于 1 时,ESN 网络动态储备池的输出状态由历史输入 唯一确定,称为回声状态特性( eho state property, ESP)。 H.Jaeger 指出通过设置动态储备池权值矩 阵的谱半径接近且小于 1,使动态储备池可处于稳 定边界,进而使 ESN 网络能够获得较好的信息处理 能力[22] 。 与传统的递归神经网络相比,ESN 网络处 理时间序列预测问题的能力得到大幅提高[59] ,并成 功应用于语音识别及非线性信号处理等领域[6-61] 。 然而针对具体问题,随机动态储备池并不是最优选 择[62-63] 。 因此,ESN 动态储备池结构和储备池权值 矩阵设计仍然是该领域的开放课题,并出现了一些 有意义的成果[64-70] 。 LSM 是一种在线网络模型,提出的动机是用于 解决时序信号的实时计算问题,常用抽象的皮质微 柱模型进行描述[71] 。 LSM 的工作原理与 ESN 相 近,但其随机层由 LIF( leaky⁃integrate⁃and⁃fire)神经 元构成,能够实时处理脉冲数据流,更具有生物相似 性[72] 。 研究表明,当 LSM 的随机层的动态特性达 到混沌边界时,模型可处于最佳状态[73] 。 目前, LSM 模型已成功应用于时间序列预测及模式识别 等领域[74-75] 。 尽管各种储备池计算模型提出的动机及表现形 ·762· 智 能 系 统 学 报 第 11 卷
第6期 乔俊飞,等:随机权神经网络研究现状与展望 ·763. 式不同,但都选用大规模、随机连接的递归神经元, 出共线性问题,但该方法对激活函数有特殊要求,不 其映射函数如式(11)所示,是典型的随机权递归神 适用于sigmoid函数[7川。 经网络。目前,对于随机权递归神经网络随机层的 3.2递归神经网络随机权初始化方法 动力学特性理解不够全面,其参数设置缺乏足够的 递归神经网络具有复杂的动力学特性,网络权 理论指导,仍旧处于凑试阶段,在实际应用过程中设 值的设定势必影响网络的稳定性及记忆能力,因此 计更加困难,因此研究随机层的动力学特性,完善随 其随机权初始化更加重要。ESN网络是随机权神经 机权递归神经网络的学习及稳定性理论,使其能够 网络的典型代表,因此本文仅以ESN网络为例分析 有更广泛的实际应用是该领域的热点问题之一。 随机权的初始化,即动态储备池结构设计。目前,主 要动态储备池设计方法可分为无监督设计和有监督 3随机权初始化方法 设计。 随机权神经网络的核心思想是随机层神经元权 无监督设计可以分为两种情况:基于动态储备池 值随机初始化且在后续学习过程中保持不变,所以 本质特性随机生成或基于动态储备池激活状态优化 随机权的初始化对于网络的性能具有重要的影响。 设计。H.Jaeger以特定概率为储备池权值赋以几个 而随机权前馈神经网络与随机权递归神经网络在随 简单的数值,然后通过比例因子对权值矩阵进行放 机权初始化方法上差别较大,本部分将分别进行分 缩,使动态储备池具有SP特性]。文献[66]利用 析总结。 储备池权值矩阵的代数特性,基于奇异值分解设计动 3.1前馈神经网络随机权初始化方法 态储备池,使其具有特定的动态特性。文献[78]基于 在文献[31]中,Huang等证明在任意区间上任 复杂网络理论,模仿生物神经网络中的小世界及无标 意设置随机层权值,ELM网络以概率1任意精度逼 度特性设计动态储备池,在保持ESN网络记忆能力 近紧集上的连续函数。文献[28]中,Pao等研究指 的同时提高了网络的预测能力。文献[67]基于分块 出,在特定区间[-2,2]上随机生成随机权,可使 矩阵及侧抑制连接,设计模块化储备池结构,实现了 RVFL具有万能逼近特性,但没有给出2的具体确 动态储备池内部神经元的局部解耦。基于动态储备 定办法。Zhang等研究发现,随机权的选取区间 池本质特性随机生成权值的方法简单通用,但对于解 [-2,2]对网络的性能有较大影响,2过大或过小 决实际问题显然不是最优选则[] 都将降低网络的性能[34]。目前,随机权神经网络的 文献[79]基于信息论与动态储备池激活状态, 随机权初始化方法主要是在区间[-1,1]上按照均 构建平均状态嫡(average state entropy,ASE),评价 匀分布或高斯分布随机设置。文献[14-16]皆应用 动态储备池输出的多样性,然后通过最大化ASE设 完全随机的方法初始化相应网络的随机权。文献 计动态储备池,增强了ESN网络的表征特性。文献 [39]基于随机初始化方法及激活函数的导函数构 [80]基于正交鸽子启发优化(orthogonal pigeon-in- 造了4层随机权神经网络,提高了ELM网络的学习 spired optimization,OPIO)方法设计动态储备池的随 和泛化能力。如此完全随机地设置随机权简单易 机权,并成功应用于图像处理,提高了图像的复原效 行,但易于产生冗余或不良节点,致使随机层输出共 果。文献[81]基于自组织算法及侧向互作用思想, 线性,降低网络的泛化能力[6]。 提出动态储备池无监督优化设计方法,提高了ESN 为克服不良节点问题,选择性添加或删除随机 网络对关联信息过程的处理能力。基于动态储备池 节点是随机权初始化的重要方法。如文献[19]及 激活状态设计评价函数,通过优化评价函数设计储 [76]利用候选节点池初始化相应网络的随机权,首 备池的方法,有效地利用了样本的输入信息,提高了 先生成多个随机节点构成候选节点池,然后根据给 ESN网络处理实际问题的能力,但该类方法没有考 定的评价标准由池中选择最优节点添加至网络中。 虑样本的输出信息,仍难以获得最优实用效果。 而文献[40]及[42]则首先生成规模较大的随机层, 文献[82]通过平衡网络输出反馈与储备池内 根据节点对网络性能的贡献度,删除贡献小的随机 部反馈对储备池动态特性的影响设计了储备池权值 节点,以实现随机权的初始化。该类方法可以有效 矩阵,很好地解决了多个正弦波叠加的MSO(muti- 减少不良节点,降低网络的结构复杂度,从而提高网 ple superimposed oscillators)问题。文献[83]通过最 络的泛化性能。然而该方法也难以解决随机层输出 大化储备池激活状态与样本期望输出间的平均互信 共线性问题。Wang等基于矩阵的对角占优理论对 息,优化环形储备池,提高了环形储备池ESN的信 随机权进行初始化,解决了一类ELM网络随机层输 息处理能力。文献[84]基于先验数据及聚类算法
式不同,但都选用大规模、随机连接的递归神经元, 其映射函数如式(11)所示,是典型的随机权递归神 经网络。 目前,对于随机权递归神经网络随机层的 动力学特性理解不够全面,其参数设置缺乏足够的 理论指导,仍旧处于凑试阶段,在实际应用过程中设 计更加困难,因此研究随机层的动力学特性,完善随 机权递归神经网络的学习及稳定性理论,使其能够 有更广泛的实际应用是该领域的热点问题之一。 3 随机权初始化方法 随机权神经网络的核心思想是随机层神经元权 值随机初始化且在后续学习过程中保持不变,所以 随机权的初始化对于网络的性能具有重要的影响。 而随机权前馈神经网络与随机权递归神经网络在随 机权初始化方法上差别较大,本部分将分别进行分 析总结。 3.1 前馈神经网络随机权初始化方法 在文献[31]中,Huang 等证明在任意区间上任 意设置随机层权值,ELM 网络以概率 1 任意精度逼 近紧集上的连续函数。 文献[28]中,Pao 等研究指 出,在特定区间 [ - Ω,Ω] 上随机生成随机权,可使 RVFL 具有万能逼近特性,但没有给出 Ω 的具体确 定办法。 Zhang 等研究发现,随机权的选取区间 [ - Ω,Ω] 对网络的性能有较大影响, Ω 过大或过小 都将降低网络的性能[34] 。 目前,随机权神经网络的 随机权初始化方法主要是在区间[ -1,1]上按照均 匀分布或高斯分布随机设置。 文献[14-16]皆应用 完全随机的方法初始化相应网络的随机权。 文献 [39]基于随机初始化方法及激活函数的导函数构 造了 4 层随机权神经网络,提高了 ELM 网络的学习 和泛化能力。 如此完全随机地设置随机权简单易 行,但易于产生冗余或不良节点,致使随机层输出共 线性,降低网络的泛化能力[76] 。 为克服不良节点问题,选择性添加或删除随机 节点是随机权初始化的重要方法。 如文献[19] 及 [76]利用候选节点池初始化相应网络的随机权,首 先生成多个随机节点构成候选节点池,然后根据给 定的评价标准由池中选择最优节点添加至网络中。 而文献[40]及[42]则首先生成规模较大的随机层, 根据节点对网络性能的贡献度,删除贡献小的随机 节点,以实现随机权的初始化。 该类方法可以有效 减少不良节点,降低网络的结构复杂度,从而提高网 络的泛化性能。 然而该方法也难以解决随机层输出 共线性问题。 Wang 等基于矩阵的对角占优理论对 随机权进行初始化,解决了一类 ELM 网络随机层输 出共线性问题,但该方法对激活函数有特殊要求,不 适用于 sigmoid 函数[77] 。 3.2 递归神经网络随机权初始化方法 递归神经网络具有复杂的动力学特性,网络权 值的设定势必影响网络的稳定性及记忆能力,因此 其随机权初始化更加重要。 ESN 网络是随机权神经 网络的典型代表,因此本文仅以 ESN 网络为例分析 随机权的初始化,即动态储备池结构设计。 目前,主 要动态储备池设计方法可分为无监督设计和有监督 设计。 无监督设计可以分为两种情况:基于动态储备池 本质特性随机生成或基于动态储备池激活状态优化 设计。 H.Jaeger 以特定概率为储备池权值赋以几个 简单的数值,然后通过比例因子对权值矩阵进行放 缩,使动态储备池具有 ESP 特性[22] 。 文献[66]利用 储备池权值矩阵的代数特性,基于奇异值分解设计动 态储备池,使其具有特定的动态特性。 文献[78]基于 复杂网络理论,模仿生物神经网络中的小世界及无标 度特性设计动态储备池,在保持 ESN 网络记忆能力 的同时提高了网络的预测能力。 文献[67]基于分块 矩阵及侧抑制连接,设计模块化储备池结构,实现了 动态储备池内部神经元的局部解耦。 基于动态储备 池本质特性随机生成权值的方法简单通用,但对于解 决实际问题显然不是最优选则[63] 。 文献[79]基于信息论与动态储备池激活状态, 构建平均状态熵( average state entropy,ASE),评价 动态储备池输出的多样性,然后通过最大化 ASE 设 计动态储备池,增强了 ESN 网络的表征特性。 文献 [80]基于正交鸽子启发优化( orthogonal pigeon-in⁃ spired optimization,OPIO)方法设计动态储备池的随 机权,并成功应用于图像处理,提高了图像的复原效 果。 文献[81]基于自组织算法及侧向互作用思想, 提出动态储备池无监督优化设计方法,提高了 ESN 网络对关联信息过程的处理能力。 基于动态储备池 激活状态设计评价函数,通过优化评价函数设计储 备池的方法,有效地利用了样本的输入信息,提高了 ESN 网络处理实际问题的能力,但该类方法没有考 虑样本的输出信息,仍难以获得最优实用效果。 文献[82]通过平衡网络输出反馈与储备池内 部反馈对储备池动态特性的影响设计了储备池权值 矩阵,很好地解决了多个正弦波叠加的 MSO(multi⁃ ple superimposed oscillators)问题。 文献[83]通过最 大化储备池激活状态与样本期望输出间的平均互信 息,优化环形储备池,提高了环形储备池 ESN 的信 息处理能力。 文献[84]基于先验数据及聚类算法 第 6 期 乔俊飞,等:随机权神经网络研究现状与展望 ·763·
.764 智能系统学报 第11卷 设计具有小世界特性的动态储备池,提高了ESN网 是随机权神经网络未来的应用研究方向之一。 络的计算及预测能力。文献[85]基于梯度下降及 ESN网络的线性输出层优化储备池,提高了网络信 参考文献: 息处理能力。利用样本输入输出信息,有监督设计 [1]QI Min,ZHANG G P.Trend time series modeling and fore- 动态储备池的方法,可根据给定问题有针对性地优 casting with neural networks[J].IEEE transactions on neu- 化设计动态储备池,提高了ESN网络的实用效率, ral networks,2008,19(5):808-816. 但有监督设计难以实现知识的在线学习与推理。 [2]赵洪伟,谢永芳,蒋朝辉,等.基于泡沫图像特征的浮 选槽液位智能优化设定方法[J].自动化学报,2014,40 4结论及展望 (6):1086-1097. 在随机权神经网络中,仅网络的输出权值需要 ZHAO Hongwei,XIE Yongfang,JIANG Chaohui,et al.An intelligent optimal setting approach based on froth features 训练,其他权值随机设置,整个训练过程无需网络的 for level of flotation cells[J].Acta automatica sinica,2014, 梯度信息,无需迭代,克服了传统神经网络收敛速度 40(6):1086-1097. 慢及局部极小问题。本文在给定随机权神经网络简 [3]乔俊飞,薄迎春,韩广.基于ESN的多指标DHP控制策 化模型的基础上,分析了多个随机权神经网络的网 略在污水处理过程中的应用[J].自动化学报,2013,39 络结构、映射函数、随机权设置方法及网络性能,回 (7):1146-1151 顾总结了随机权神经网络研究的现状。 QIAO Junfei,BO Yingchun,HAN Guang.Application of 尽管随机权神经网络研究取得了丰硕的成果, esn-based multi indices dual heuristic dynamic programming 但从发展的角度看还有很长的路要走。结合研究现 on wastewater treatment process[J].Acta automatica sini- 状,对随机权神经网络的研究提出以下展望。 ca.2013.39(7):1146-1151 [4]CHENG M H,HWANG K S,JENG J H,et al.Classifica- 1)随机权神经网络结构设计研究。与传统的 tion-based video super-resolution using artificial neural net- 神经网络相比,随机权神经网络结构庞大,凑试法及 works[J].Signal processing,2013,93(9):2612-2625. 单个神经元的增长修剪算法难以实现结构的快速有 [5]SCARDAPANE S,WANG Dianhui,PANELLA M.A de- 效设计,因此研究随机权神经网络的实时在线结构 centralized training algorithm for echo state networks in dis- 设计方法将是一个重要的研究方向。 tributed big data applications[J].Neural networks,2015, 2)神经网络随机学习理论研究及生物学解释。 78:65-74. 人脑研究表明,大脑中存在大量随机现象,借鉴大脑 [6]TENG T H,TAN A H,ZURADA J M.Self-organizing neu- 的研究成果可进一步模拟大脑的随机特性,设计新 ral networks integrating domain knowledge and reinforcement 的随机学习算法,实现大脑的部分功能:借用统计学 learning[J].IEEE transactions on neural networks learn- 及信息论的相关知识,研究随机权神经网络的统计 ing systems,2015,26(5):889-902. [7]ALHAMDOOSH M,WANG Dianhui.Fast decorrelated neu- 学特性,可完善神经网络学习理论。 ral network ensembles with random weights J.Information 3)研究随机权递归神经网络随机层参数设置 sciences,2014,264:104-117. 及网络的稳定性问题。随机权递归神经网络是一个 [8]GUSTAVSSON A,MAGNUSON A.BLOMBERG B.et al. 动态系统,其网络性能及稳定性依赖于随机层参数 On the difficulty of training recurrent neural networks[J]. 的选择,如随机层权值矩阵的谱半径、奇异值及稀疏 Computer science,2013,52(3):337-345. 性等。如何选择恰当的随机层参数使网络同时具有 [9]RIGOTTI M,BARAK O,WARDEN M R,et al.The im- 稳定性及高效的信息处理能仍然是该领域的开放课 portance of mixed selectivity in complex cognitive tasks[J]. 题。并出现了一些有意义的成果[3-6)」 Nature,2013,497(7451):585-590. 4)随机权神经网络在复杂流程工业过程中的 [10]BARAK O,RIGOTTI M,FUSI S.The sparseness of mixed 应用研究,比如污水处理、水泥加工及石化生产行 selectivity neurons controls the generalization-discrimina- tion trade-off[J].The journal of neuroscience,2013,33 业。目前,随机权神经网络主要应用于模式分类问 (9):3844-3856. 题,并取得较好的效果,而在流程工业过程中的应用 [11]HUANG Gao,HUANG Guangbin,SONG Shiji,et al 研究较少。针对流程工业过程的时变、时滞、非线 Trends in extreme learning machines:a review[J].Neu- 性、强耦合及不确定性等特点,设计恰当的随机权神 ral networks,2015,61:32-48. 经网络模型,实现流程工业过程的智能建模与控制, [12]DENG Chenwei,HUANG Guangbin,XU Jia,et al.Ex-
设计具有小世界特性的动态储备池,提高了 ESN 网 络的计算及预测能力。 文献[85] 基于梯度下降及 ESN 网络的线性输出层优化储备池,提高了网络信 息处理能力。 利用样本输入输出信息,有监督设计 动态储备池的方法,可根据给定问题有针对性地优 化设计动态储备池,提高了 ESN 网络的实用效率, 但有监督设计难以实现知识的在线学习与推理。 4 结论及展望 在随机权神经网络中,仅网络的输出权值需要 训练,其他权值随机设置,整个训练过程无需网络的 梯度信息,无需迭代,克服了传统神经网络收敛速度 慢及局部极小问题。 本文在给定随机权神经网络简 化模型的基础上,分析了多个随机权神经网络的网 络结构、映射函数、随机权设置方法及网络性能,回 顾总结了随机权神经网络研究的现状。 尽管随机权神经网络研究取得了丰硕的成果, 但从发展的角度看还有很长的路要走。 结合研究现 状,对随机权神经网络的研究提出以下展望。 1)随机权神经网络结构设计研究。 与传统的 神经网络相比,随机权神经网络结构庞大,凑试法及 单个神经元的增长修剪算法难以实现结构的快速有 效设计,因此研究随机权神经网络的实时在线结构 设计方法将是一个重要的研究方向。 2)神经网络随机学习理论研究及生物学解释。 人脑研究表明,大脑中存在大量随机现象,借鉴大脑 的研究成果可进一步模拟大脑的随机特性,设计新 的随机学习算法,实现大脑的部分功能;借用统计学 及信息论的相关知识,研究随机权神经网络的统计 学特性,可完善神经网络学习理论。 3)研究随机权递归神经网络随机层参数设置 及网络的稳定性问题。 随机权递归神经网络是一个 动态系统,其网络性能及稳定性依赖于随机层参数 的选择,如随机层权值矩阵的谱半径、奇异值及稀疏 性等。 如何选择恰当的随机层参数使网络同时具有 稳定性及高效的信息处理能仍然是该领域的开放课 题。 并出现了一些有意义的成果[63-67] 。 4)随机权神经网络在复杂流程工业过程中的 应用研究,比如污水处理、水泥加工及石化生产行 业。 目前,随机权神经网络主要应用于模式分类问 题,并取得较好的效果,而在流程工业过程中的应用 研究较少。 针对流程工业过程的时变、时滞、非线 性、强耦合及不确定性等特点,设计恰当的随机权神 经网络模型,实现流程工业过程的智能建模与控制, 是随机权神经网络未来的应用研究方向之一。 参考文献: [1]QI Min, ZHANG G P. Trend time series modeling and fore⁃ casting with neural networks[J]. IEEE transactions on neu⁃ ral networks, 2008, 19(5): 808-816. [2]赵洪伟, 谢永芳, 蒋朝辉, 等. 基于泡沫图像特征的浮 选槽液位智能优化设定方法[J]. 自动化学报, 2014, 40 (6): 1086-1097. ZHAO Hongwei, XIE Yongfang, JIANG Chaohui, et al. An intelligent optimal setting approach based on froth features for level of flotation cells[J]. Acta automatica sinica, 2014, 40(6): 1086-1097. [3]乔俊飞, 薄迎春, 韩广. 基于 ESN 的多指标 DHP 控制策 略在污水处理过程中的应用[J]. 自动化学报, 2013, 39 (7): 1146-1151. QIAO Junfei, BO Yingchun, HAN Guang. Application of esn⁃based multi indices dual heuristic dynamic programming on wastewater treatment process[ J]. Acta automatica sini⁃ ca, 2013, 39(7): 1146-1151. [4]CHENG M H, HWANG K S, JENG J H, et al. Classifica⁃ tion⁃based video super⁃resolution using artificial neural net⁃ works[J]. Signal processing, 2013, 93(9): 2612-2625. [5] SCARDAPANE S, WANG Dianhui, PANELLA M. A de⁃ centralized training algorithm for echo state networks in dis⁃ tributed big data applications[ J]. Neural networks, 2015, 78: 65-74. [6]TENG T H, TAN A H, ZURADA J M. Self⁃organizing neu⁃ ral networks integrating domain knowledge and reinforcement learning[J]. IEEE transactions on neural networks & learn⁃ ing systems, 2015, 26(5): 889-902. [7]ALHAMDOOSH M, WANG Dianhui. Fast decorrelated neu⁃ ral network ensembles with random weights[J]. Information sciences, 2014, 264: 104-117. [8]GUSTAVSSON A, MAGNUSON A, BLOMBERG B, et al. On the difficulty of training recurrent neural networks [ J]. Computer science, 2013, 52(3): 337-345. [9]RIGOTTI M, BARAK O, WARDEN M R, et al. The im⁃ portance of mixed selectivity in complex cognitive tasks[ J]. Nature, 2013, 497(7451): 585-590. [10]BARAK O, RIGOTTI M, FUSI S. The sparseness of mixed selectivity neurons controls the generalization⁃discrimina⁃ tion trade⁃off[ J]. The journal of neuroscience, 2013, 33 (9): 3844-3856. [11] HUANG Gao, HUANG Guangbin, SONG Shiji, et al. Trends in extreme learning machines: a review[ J]. Neu⁃ ral networks, 2015, 61: 32-48. [12]DENG Chenwei, HUANG Guangbin, XU Jia, et al. Ex⁃ ·764· 智 能 系 统 学 报 第 11 卷
第6期 乔俊飞,等:随机权神经网络研究现状与展望 .765· treme learning machines:new trends and applications[J]. ognition using a predictive echo state network classifier[J] Science China information sciences,2015,58(2):1-16. Neural networks,2007,20(3):414-423. [13]PAO Y H,TAKEFUJI Y.Functional-link net computing: [26]LI Decai,HAN Min,WANG Jun.Chaotic time series pre- theory,system architecture,and functionalities[J].Com- diction based on a novel robust echo state network J]. puter,1992,25(5):76-79. IEEE transactions on neural networks and learning sys- [14]HUANG Guangbin,ZHU Qinyu,SIEW C K.Extreme tems,2012,23(5):787-799. learning machine:theory and applications[].Neurocom- [27]SCHMIDT W F,KRAAIJVELD M A,DUIN R P W. puting,2006,70(1/2/3):489-501. Feedforward neural networks with random weights[C]// [15]RAHIMI A,RECHT B.Weighted sums of random kitchen Proceedings of 11th International Conference on Pattern sinks:replacing minimization with randomization in learn- Recognition Methodology and Systems.Hague,Holland: ing[C]//Proceedings of the 21st International Conference IEEE,1992:1-4. [28]IGELNIK B,PAO Y H.Stochastic choice of basis func- on Neural Information Processing Systems.Vancouver, British Columbia,Canada:Curran Associates Inc.,2008: tions in adaptive function approximation and the Function- al-link neural net[J].IEEE transactions on neural net- 1313-1320. work8,1995,6(6):1320-1329. [16]WIDROW B,GREENBLATT A,KIM Y,et al.The No- [29]HUANG Guangbin.An insight into extreme learning ma- Prop algorithm:A new learning algorithm for multilayer chines:random neurons,random features and kernels[J]. neural networks J].Neural networks,2013,37:182- Cognitive computation,2014,6(3):376-390. 188. [30]HUANG Guangbin,ZHU Qinyu,SIEW C K.Extreme [17]KASUN L L C,ZHOU Hongming,HUANG Guangbin,et learning machine:theory and applications[].Neurocom- al.Representational learning with ELMs for big data[J] puting,2006,70(1/2/3):489-501. IEEE intelligent systems,2013,28(6):31-34. [31]HUANG G B,CHEN L,SIEW C K.Universal approxima- [18]TANG Jiexiong,DENG Chenwei,HUANG Guangbin.Ex- tion using incremental constructive feedforward networks treme learning machine for multilayer perceptron[J].IEEE with random hidden nodes[J].IEEE transactions on neural transactions on neural networks and learning systems, networks,.2006,17(4):879-92. 2016,27(4):809-821. [32]LIU Xia,LIN Shaobo,FANG Jian,et al.Is extreme learn- [19]QIAO Junfei,LI Fanjun,HAN Honggui,et al.Construc- ing machine feasible?a theoretical assessment Part 1) tive algorithm for fully connected cascade feedforward neu- [J].IEEE transactions on neural networks and learning ral networks[J].Neurocomputing,2016,182:154-164. systems,2014,26(1):7-20. [20]WAN Yihe,SONG Shiji,HUANG Gao.Incremental ex- [33]DEHURI S,CHO S B.A comprehensive survey on func- treme learning machine based on cascade neural networks tional link neural networks and an adaptive PSO-BP learn- [C]//IEEE International Conference on Systems,Man, ing for CFLNN[J].Neural computing and applications, and Cybernetics.Kowloon:IEEE,2015:1889-1894. 2010,19(2):187-205. [21]STEIL J J.Memory in backpropagation-decorrelation O(N) [34]ZHANG Le,SUGANTHAN P N.A comprehensive evalua- efficient online recurrent learning[C]//Proceedings of the tion of random vector functional link networks[].Informa- 15th International Conference on Artificial Neural Net- tion sciences,2015,367/368:1094-1105. works:Formal Models and Their Applications.Berlin Hei- [35]LIANG Nanying,HUANG Guangbin,SARATCHANDRAN delberg:Springer,2005:750-750. P,et al.A fast and accurate online sequential learning al- [22]HERBERT J.The "echo state"approach to analyzing and gorithm for feedforward networks[J].IEEE transactions on training recurrent neural networks with an erratum note neural networks,2006,17(6):1411-1423. [R].Bonn,Germany:German National Research Center [36]SCARDAPANE S,WANG Dianhui,PANELLA M,et al. for Information Technology,2001. Distributed learning for random vector functional-link net- [23]MAASS W.Liquid state machines:motivation,theory, works[J].Information sciences,2015,301:271-284. and applications[J].Computability in context,2010:275 [37]ALHAMDOOSH M,WANG Dianhui.Fast decorrelated -296.D0I:10.1142/97818481627780008 neural network ensembles with random weights[J].Infor- [24]LIANG Nanying,SARATCHANDRAN P,HUANG Guang- mation sciences,2014,264:104-117. bin,et al.Classification of mental tasks from EEG signals [38]LI Ying.Orthogonal incremental extreme learning machine using extreme learning machine[J.International journal of for regression and multiclass classification[]].Neural com- neural systems,2006,16(1):29-38. puting and applications,2014,27(1):111-120. [25]SKOWRONSKI M D,HARRIS J G.Automatic speech rec- [39]李凡军,乔俊飞,韩红桂.网络结构增长的极端学习机
treme learning machines: new trends and applications[ J]. Science China information sciences, 2015, 58(2): 1-16. [13]PAO Y H, TAKEFUJI Y. Functional⁃link net computing: theory, system architecture, and functionalities[ J]. Com⁃ puter, 1992, 25(5): 76-79. [14] HUANG Guangbin, ZHU Qinyu, SIEW C K. Extreme learning machine: theory and applications[J]. Neurocom⁃ puting, 2006, 70(1 / 2 / 3): 489-501. [15]RAHIMI A, RECHT B. Weighted sums of random kitchen sinks: replacing minimization with randomization in learn⁃ ing[C] / / Proceedings of the 21st International Conference on Neural Information Processing Systems. Vancouver, British Columbia, Canada: Curran Associates Inc., 2008: 1313-1320. [16]WIDROW B, GREENBLATT A, KIM Y, et al. The No⁃ Prop algorithm: A new learning algorithm for multilayer neural networks [ J]. Neural networks, 2013, 37: 182 - 188. [17]KASUN L L C, ZHOU Hongming, HUANG Guangbin, et al. Representational learning with ELMs for big data[ J]. IEEE intelligent systems, 2013, 28(6): 31-34. [18]TANG Jiexiong, DENG Chenwei, HUANG Guangbin. Ex⁃ treme learning machine for multilayer perceptron[J]. IEEE transactions on neural networks and learning systems, 2016, 27(4): 809-821. [19]QIAO Junfei, LI Fanjun, HAN Honggui, et al. Construc⁃ tive algorithm for fully connected cascade feedforward neu⁃ ral networks[J]. Neurocomputing, 2016, 182: 154-164. [20] WAN Yihe, SONG Shiji, HUANG Gao. Incremental ex⁃ treme learning machine based on cascade neural networks [C] / / IEEE International Conference on Systems, Man, and Cybernetics. Kowloon: IEEE, 2015: 1889-1894. [21]STEIL J J. Memory in backpropagation⁃decorrelation O(N) efficient online recurrent learning[C] / / Proceedings of the 15th International Conference on Artificial Neural Net⁃ works: Formal Models and Their Applications. Berlin Hei⁃ delberg: Springer, 2005: 750-750. [22]HERBERT J. The “echo state” approach to analyzing and training recurrent neural networks with an erratum note [R]. Bonn, Germany: German National Research Center for Information Technology, 2001. [23] MAASS W. Liquid state machines: motivation, theory, and applications[J]. Computability in context, 2010: 275 -296. DOI: 10.1142 / 9781848162778_0008. [24]LIANG Nanying, SARATCHANDRAN P, HUANG Guang⁃ bin, et al. Classification of mental tasks from EEG signals using extreme learning machine[J]. International journal of neural systems, 2006, 16(1): 29-38. [25]SKOWRONSKI M D, HARRIS J G. Automatic speech rec⁃ ognition using a predictive echo state network classifier[J]. Neural networks, 2007, 20(3): 414-423. [26]LI Decai, HAN Min, WANG Jun. Chaotic time series pre⁃ diction based on a novel robust echo state network [ J]. IEEE transactions on neural networks and learning sys⁃ tems, 2012, 23(5): 787-799. [27] SCHMIDT W F, KRAAIJVELD M A, DUIN R P W. Feedforward neural networks with random weights[C] / / Proceedings of 11th International Conference on Pattern Recognition Methodology and Systems. Hague, Holland: IEEE, 1992: 1-4. [28]IGELNIK B, PAO Y H. Stochastic choice of basis func⁃ tions in adaptive function approximation and the Function⁃ al⁃link neural net [ J]. IEEE transactions on neural net⁃ works, 1995, 6(6): 1320-1329. [29] HUANG Guangbin. An insight into extreme learning ma⁃ chines: random neurons, random features and kernels[J]. Cognitive computation, 2014, 6(3): 376-390. [30] HUANG Guangbin, ZHU Qinyu, SIEW C K. Extreme learning machine: theory and applications[J]. Neurocom⁃ puting, 2006, 70(1 / 2 / 3): 489-501. [31]HUANG G B, CHEN L, SIEW C K. Universal approxima⁃ tion using incremental constructive feedforward networks with random hidden nodes[J]. IEEE transactions on neural networks, 2006, 17(4): 879-92. [ 32]LIU Xia, LIN Shaobo, FANG Jian, et al. Is extreme learn⁃ ing machine feasible? a theoretical assessment ( Part I) [ J]. IEEE transactions on neural networks and learning systems, 2014, 26(1): 7-20. [33]DEHURI S, CHO S B. A comprehensive survey on func⁃ tional link neural networks and an adaptive PSO⁃BP learn⁃ ing for CFLNN[ J]. Neural computing and applications, 2010, 19(2): 187-205. [34]ZHANG Le, SUGANTHAN P N. A comprehensive evalua⁃ tion of random vector functional link networks[J]. Informa⁃ tion sciences, 2015, 367 / 368: 1094-1105. [35]LIANG Nanying, HUANG Guangbin, SARATCHANDRAN P, et al. A fast and accurate online sequential learning al⁃ gorithm for feedforward networks[J]. IEEE transactions on neural networks, 2006, 17(6): 1411-1423. [36]SCARDAPANE S, WANG Dianhui, PANELLA M, et al. Distributed learning for random vector functional⁃link net⁃ works[J]. Information sciences, 2015, 301: 271-284. [37] ALHAMDOOSH M, WANG Dianhui. Fast decorrelated neural network ensembles with random weights[ J]. Infor⁃ mation sciences, 2014, 264: 104-117. [38]LI Ying. Orthogonal incremental extreme learning machine for regression and multiclass classification[J]. Neural com⁃ puting and applications, 2014, 27(1): 111-120. [39]李凡军, 乔俊飞, 韩红桂. 网络结构增长的极端学习机 第 6 期 乔俊飞,等:随机权神经网络研究现状与展望 ·765·
·766 智能系统学报 第11卷 算法[J].控制理论与应用,2014,31(5):638-643. [52]QU B Y,LANG B F,LIANG JJ,et al.Two-hidden-layer LI Fanjun,QIAO Junfei,HAN Honghui.Incremental con- extreme learning machine for regression and classification structive extreme learning machine[].Control theory [J].Neurocomputing,2016,175:826-834. applications,2014,31(5):638-643. [53 ZHANG Nan,DING Shifei,ZHANG Jian.Multi layer [40]李凡军,韩红桂,乔俊飞.基于灵敏度分析法的ELM ELM-RBF for multi-label learning[J].Applied soft com- 剪枝算法[J】.控制与决策,2014,29(6):1003-1008. puting,2016,43:535-545. LI Fanjun,HAN Honghui,QIAO Junfei.Pruning algorithm [54]HUNTER D,YU Hao,PUKISH M S,et al.Selection of for extreme learning machine based on sensitivity analysis[J]. proper neural network sizes and architectures-a comparative Control and Decision,2014,29(6):1003-1008. study [J].IEEE transactions on industrial informatics, [41]FENG Guorui,HUANG Guangbin,LIN Qingping,et al. 2012,8(2):228-240. Error minimized extreme learning machine with growth of [55]WILAMOWSKI B M.Challenges in applications of compu- hidden nodes and incremental learning[.IEEE transac- tational intelligence in industrial electronics[C]//Proceed- tions on neural networks,2009,20(8):1352-1357. ings of 2010 IEEE International Symposium on Industrial [42]MICHE Y,SORJAMAA A,BAS P,et al.OP-ELM:opti- Electronics.Bari:IEEE,2010:15-22. mally pruned extreme learning machine[J].IEEE transac- [56]WILAMOWSKI B M,COTTON N J,KAYNAK O,et al. tions on neural networks,2010,21(1):158-162. Computing gradient vector and jacobian matrix in arbitrarily [43]韩敏,李德才.基于替代函数及贝叶斯框架的1范数 connected neural networks [J].IEEE transactions on in- ELM算法[J].自动化学报,2011,37(11):1344- dustrial electronics,2008,55(10):3784-3790. 1350. [57]OAKDEN A.Cascade networks and extreme learning ma- HAN Min,LI Decai.An norm 1 regularization term elm al- chines D].Canberra:Australian National University, gorithm based on surrogate function and bayesian frame- 2014. work[J].Acta automatica sinica,2011,37(11):1344- [58]LI Fanjun,QIAO Junfei,HAN Honggui,et al.A self-or- 1350. ganizing cascade neural network with random weights for [44]MICHE Y,VAN HEESWIJK M,BAS P,et al.TROP- nonlinear system modeling[J].Applied soft computing, ELM:a double-regularized ELM using LARS and Tikhonov 2016.42:184-193. regularization[J].Neurocomputing,2011,74(16):2413 [59]JAEGER H,HAAS H.Haressing nonlinearity:predicting -2421. chaotic systems and saving energy in wireless communica- [45]MICHE Y,AKUSOK A,VEGANZONES D,et al.SOM- tiom[J].Science,2004,304(5667):78-80. ELM-Self-organized clustering using ELM[J].Neurocom- [60]SKOWRONSKI M D,HARRIS J G.Automatic speech rec- puting,2015,165:238-254. ognition using a predictive echo state network classifier J]. [46]HUANG Gao,LIU Tianchi,YANG Yan,et al.Discrimi- Neural networks,2007,20(3):414-423. native clustering via extreme learning machine[J].Neural [61]XIA Yili,JELFS B,VAN HULLE MM,et al.An aug- networks,2015,70:1-8. mented echo state network for nonlinear adaptive filtering of [47]ISLAM MM,SATTAR M A,AMIN M F,et al.A new complex noncircular signals[J].IEEE transactions on neu- constructive algorithm for architectural and functional adap- ral networks,2011,22(1):74-83 tation of artificial neural networks[J].IEEE transactions [62]LUKOSEVICIUS M,JAEGER H.Reservoir computing ap- on systems,man,and cybernetics,part B(cybernetics), proaches to recurrent neural network training[J].Computer 2009,39(6):1590-1605. science review,2009,3(3):127-149. [48]SCHMIDHUBER J.Deep learning in neural networks:an 「63]彭宇,王建民,彭喜元.储备池计算概述「J].电子学 overview[J].Neural networks,2014,61:85-117. 报,2011,39(10):2387-2396. [49]HAN Honggui,WANG Lidan,QIAO Junfei.Hierarchical PENG Yu,WANG Jianmin,PENG Xiyuan.Survey on res- extreme learning machine for feedforward neural network ervoir computing[J].Acta electronica sinica,2011,39 [J].Neurocomputing,2014,128:128-135. (10):2387-2396. [50]QU B Y,LANG B F,LIANG J J,et al.Two-hidden-layer [64 QIAO Junfei,LI Fanjun,HAN Honggui,et al.Growing extreme learning machine for regression and classification echo-state network with multiple subreservoirs[].IEEE [J].Neurocomputing,2016,175:826-834. transactions on neural networks and learning systems, [51]ZHANG Jian,DING Shifei,ZHANG Nan,et al.Incre- 2016,99:1-14. mental extreme learning machine based on deep feature [65 DENG Zhidong,ZHANG Yi.Collective behavior of a embedded[J].International journal of machine learning small-world recurrent neural system with scale-free distri- and cybernetics,2016,7(1):111-120. bution[J].IEEE transactions on neural networks,2007
算法[J]. 控制理论与应用, 2014, 31(5): 638-643. LI Fanjun, QIAO Junfei, HAN Honghui. Incremental con⁃ structive extreme learning machine [ J]. Control theory & applications, 2014, 31(5): 638-643. [40]李凡军, 韩红桂, 乔俊飞. 基于灵敏度分析法的 ELM 剪枝算法[J]. 控制与决策, 2014, 29(6): 1003-1008. LI Fanjun, HAN Honghui, QIAO Junfei. Pruning algorithm for extreme learning machine based on sensitivity analysis[J]. Control and Decision, 2014, 29(6): 1003-1008. [41] FENG Guorui, HUANG Guangbin, LIN Qingping, et al. Error minimized extreme learning machine with growth of hidden nodes and incremental learning[ J]. IEEE transac⁃ tions on neural networks, 2009, 20(8): 1352-1357. [42]MICHE Y, SORJAMAA A, BAS P, et al. OP⁃ELM: opti⁃ mally pruned extreme learning machine[J]. IEEE transac⁃ tions on neural networks, 2010, 21(1): 158-162. [43]韩敏, 李德才. 基于替代函数及贝叶斯框架的 1 范数 ELM 算法 [ J]. 自动化学报, 2011, 37 ( 11): 1344 - 1350. HAN Min, LI Decai. An norm 1 regularization term elm al⁃ gorithm based on surrogate function and bayesian frame⁃ work[J]. Acta automatica sinica, 2011, 37(11): 1344- 1350. [44] MICHE Y, VAN HEESWIJK M, BAS P, et al. TROP⁃ ELM: a double⁃regularized ELM using LARS and Tikhonov regularization[J]. Neurocomputing, 2011, 74(16): 2413 -2421. [45]MICHE Y, AKUSOK A, VEGANZONES D, et al. SOM⁃ ELM⁃Self⁃organized clustering using ELM[ J]. Neurocom⁃ puting, 2015, 165: 238-254. [46]HUANG Gao, LIU Tianchi, YANG Yan, et al. Discrimi⁃ native clustering via extreme learning machine[ J]. Neural networks, 2015, 70: 1-8. [47]ISLAM M M, SATTAR M A, AMIN M F, et al. A new constructive algorithm for architectural and functional adap⁃ tation of artificial neural networks [ J]. IEEE transactions on systems, man, and cybernetics, part B ( cybernetics), 2009, 39(6): 1590-1605. [48] SCHMIDHUBER J. Deep learning in neural networks: an overview[J]. Neural networks, 2014, 61: 85-117. [49]HAN Honggui, WANG Lidan, QIAO Junfei. Hierarchical extreme learning machine for feedforward neural network [J]. Neurocomputing, 2014, 128: 128-135. [50]QU B Y, LANG B F, LIANG J J, et al. Two⁃hidden⁃layer extreme learning machine for regression and classification [J]. Neurocomputing, 2016, 175: 826-834. [51] ZHANG Jian, DING Shifei, ZHANG Nan, et al. Incre⁃ mental extreme learning machine based on deep feature embedded[ J]. International journal of machine learning and cybernetics, 2016, 7(1): 111-120. [52]QU B Y, LANG B F, LIANG J J, et al. Two⁃hidden⁃layer extreme learning machine for regression and classification [J]. Neurocomputing, 2016, 175: 826-834. [53] ZHANG Nan, DING Shifei, ZHANG Jian. Multi layer ELM⁃RBF for multi⁃label learning[ J]. Applied soft com⁃ puting, 2016, 43: 535-545. [54]HUNTER D, YU Hao, PUKISH M S, et al. Selection of proper neural network sizes and architectures⁃a comparative study [ J]. IEEE transactions on industrial informatics, 2012, 8(2): 228-240. [55]WILAMOWSKI B M. Challenges in applications of compu⁃ tational intelligence in industrial electronics[C] / / Proceed⁃ ings of 2010 IEEE International Symposium on Industrial Electronics. Bari: IEEE, 2010: 15-22. [56]WILAMOWSKI B M, COTTON N J, KAYNAK O, et al. Computing gradient vector and jacobian matrix in arbitrarily connected neural networks [ J]. IEEE transactions on in⁃ dustrial electronics, 2008, 55(10): 3784-3790. [57] OAKDEN A. Cascade networks and extreme learning ma⁃ chines [ D]. Canberra: Australian National University, 2014. [58]LI Fanjun, QIAO Junfei, HAN Honggui, et al. A self⁃or⁃ ganizing cascade neural network with random weights for nonlinear system modeling [ J]. Applied soft computing, 2016, 42: 184-193. [59]JAEGER H, HAAS H. Harnessing nonlinearity: predicting chaotic systems and saving energy in wireless communica⁃ tion[J]. Science, 2004, 304(5667): 78-80. [60]SKOWRONSKI M D, HARRIS J G. Automatic speech rec⁃ ognition using a predictive echo state network classifier[J]. Neural networks, 2007, 20(3): 414-423. [61]XIA Yili, JELFS B, VAN HULLE M M, et al. An aug⁃ mented echo state network for nonlinear adaptive filtering of complex noncircular signals[J]. IEEE transactions on neu⁃ ral networks, 2011, 22(1): 74-83. [62]LUKOSEVICIUS M, JAEGER H. Reservoir computing ap⁃ proaches to recurrent neural network training[J]. Computer science review, 2009, 3(3): 127-149. [63]彭宇, 王建民, 彭喜元. 储备池计算概述[ J]. 电子学 报, 2011, 39(10): 2387-2396. PENG Yu, WANG Jianmin, PENG Xiyuan. Survey on res⁃ ervoir computing [ J]. Acta electronica sinica, 2011, 39 (10): 2387-2396. [64] QIAO Junfei, LI Fanjun, HAN Honggui, et al. Growing echo⁃state network with multiple subreservoirs [ J]. IEEE transactions on neural networks and learning systems, 2016, 99: 1-14. [65] DENG Zhidong, ZHANG Yi. Collective behavior of a small⁃world recurrent neural system with scale⁃free distri⁃ bution[J]. IEEE transactions on neural networks, 2007, ·766· 智 能 系 统 学 报 第 11 卷
第6期 乔俊飞,等:随机权神经网络研究现状与展望 .767. 18(5):1364-1375 [78]CUI H,LIU X,LI L.The architecture of dynamic reser- [66]STRAUSS T,WUSTLICH W,LABAHN R.Design strate- voir in the echo state network[J].Chaos,2012,22(3): gies for weight matrices of echo state networks[J].Neural 033127. computation,2012,24(12):3246-3276. [79]OZTURK M C,XU Dongming.Analysis and design of echo [67]XUE Yanbo,YANG Le,HAYKIN S.Decoupled echo state state networks[J].Neural computation,2007,19(1): networks with lateral inhibition J].Neural networks, 111-138. 2007,20(3):365-376. [80]DUAN Haibin,WANG Xiaohua.Echo state networks with [68]NAJIBI E.ROSTAMI H.SCESN.SPESN.SWESN:three orthogonal pigeon-inspired optimization for image restora- recurrent neural echo state networks with clustered reser- tion[J].IEEE transactions on neural networks and learning voirs for prediction of nonlinear and chaotic time series[J] systems,.2015,27(11):2413-2425. Applied intelligence,2015,43(2):460-472. [81]BOCCATO L,ATTUX R,VON ZUBEN F J.Self-organiza- [69]薄迎春,乔俊飞,张昭昭.一种具有small world特性的 tion and lateral interaction in echo state network reservoirs EsN结构分析与设计[J].控制与决策,2012,27(3): [J].Neurocomputing,2014,138:297-309. 383-388 [82]KORYAKIN D,LOHMANN J,BUTZ M V.Balanced echo BO Yingchun,QIAO Junfei,ZHANG Zhaozhao.Analysis state networks[J].Neural networks the official journal of and design on structure of small world property ESN[J]. the international neural network,2012,36:35-45. Control and decision,2012,27(3):383-388. [83]YUENYONG S,NISHIHARA A.Evolutionary pre-training [70]李凡军,乔俊飞.一种增量式模块化回声状态网络[J] for CRJ-type reservoir of echo state networks[J].Neuro- 控制与决策,2016,31(8):1481-1486. computing,2015,149:1324-1329. LI Fanjun,QIAO Junfei.An incremental modular echo [84]LI Xiumin,ZHONG Ling,XUE Fangzheng,et al.A priori state network[J].Control and decision,2016,31(8): data-driven multi-clustered reservoir generation algorithm 1481-1486. for echo state network J].PLoS one,2015,10(4): [71]SCHRAUWEN B,VERSTRAETEN D,VAN CAMPEN- e0120750. HOUT J M.An overview of reservoir computing:Theory, [85]PALANGI H,DENG Li,WARD R K.Learning input and applications and implementations[C]//Proceedings of the recurrent weight matrices in echo state networks[C]//Ad- 15th European Symposium on Artificial Neural Networks. vances in Neural Information Processing Systems 22:Con- Bruges,Belgium,2007:471-482. ference on Neural Information Processing Systems.Vancou- [72]MAASS W,NATSCHLAGER T,MARKRAM H.Real- ver,British Columbia,Canada,2009 time computing without stable states:a new framework for 作者简介: neural computation based on perturbations [J].Neural 乔俊飞.男.1968年生,教授,博士 computation,2002.14(11):2531-2560. 生导师,中国人工智能学会科普工作 [73]LEGENSTEIN R,MAASS W.Edge of chaos and predic- 委员会主任,主要研究方向为智能信息 tion of computational performance for neural circuit models. 处理、智能控制理论与应用。获教育部科 [J].Neural networks,2007,20(3):323-334. 技进步奖一等奖和北京市科学技术奖 [74]BURGSTEINER H,KROLL M,LEOPOLD A,et al. 三等奖各1项。发表学术论文100余 Movement prediction from real-world images using a liquid 篇,其中被SCI收录20余篇,EI收录60余篇,获得发明专 state machine[J].Applied intelligence,2007,26(2): 利20余项。 99-109. [75]张冠元,王斌一种基于液体状态机的音乐和弦序列识别 方法[J].模式识别与人工智能,2013,26(7):643-647. 李凡军,男,1977年生,副教授,主 ZHANG Guanyuan,WANG Bin.Liquid state machine 要研究方向为智能系统与智能信息处 based music chord sequence recognition algorithm[J].Pat- 理。发表学术论文10余篇,其中被SCI tern recognition and artificial intelligence,2013,26(7): 检索3篇,EI检索6篇。 643-647. [76]HUANG Guangbin,CHEN Lei.Enhanced random search 杨翠丽,女,1986年生,讲师,主要 based incremental extreme learning machine[J].Neuro- 研究方向为进化算法和智能信息处理。 computing,2008,71(16/17/18):3460-3468. 发表学术论文10余篇,其中被SCI检 [77]WANG Yuguang,CAO Feilong,YUAN Yubo.A study on effectiveness of extreme learning machine[J].Neurocom- 索7篇,EI检索12篇。 puting,2011,74(16):2483-2490
18(5): 1364-1375. [66]STRAUSS T, WUSTLICH W, LABAHN R. Design strate⁃ gies for weight matrices of echo state networks[ J]. Neural computation, 2012, 24(12): 3246-3276. [ 67]XUE Yanbo, YANG Le, HAYKIN S. Decoupled echo state networks with lateral inhibition [ J ]. Neural networks, 2007, 20(3): 365-376. [68]NAJIBI E, ROSTAMI H. SCESN, SPESN, SWESN: three recurrent neural echo state networks with clustered reser⁃ voirs for prediction of nonlinear and chaotic time series[J]. Applied intelligence, 2015, 43(2): 460-472. [69]薄迎春, 乔俊飞, 张昭昭. 一种具有 small world 特性的 ESN 结构分析与设计[ J]. 控制与决策, 2012, 27(3): 383-388. BO Yingchun, QIAO Junfei, ZHANG Zhaozhao. Analysis and design on structure of small world property ESN[ J]. Control and decision, 2012, 27(3): 383-388. [70]李凡军, 乔俊飞. 一种增量式模块化回声状态网络[ J]. 控制与决策, 2016, 31(8): 1481-1486. LI Fanjun, QIAO Junfei. An incremental modular echo state network [ J]. Control and decision, 2016, 31 ( 8): 1481-1486. [71] SCHRAUWEN B, VERSTRAETEN D, VAN CAMPEN⁃ HOUT J M. An overview of reservoir computing: Theory, applications and implementations[C] / / Proceedings of the 15th European Symposium on Artificial Neural Networks. Bruges, Belgium, 2007: 471-482. [72] MAASS W, NATSCHLÃGER T, MARKRAM H. Real⁃ time computing without stable states: a new framework for neural computation based on perturbations [ J ]. Neural computation, 2002, 14(11): 2531-2560. [73]LEGENSTEIN R, MAASS W. Edge of chaos and predic⁃ tion of computational performance for neural circuit models. [J]. Neural networks, 2007, 20(3): 323-334. [ 74 ] BURGSTEINER H, KRÖLL M, LEOPOLD A, et al. Movement prediction from real⁃world images using a liquid 99-109. [75]张冠元, 王斌. 一种基于液体状态机的音乐和弦序列识别 方法[J]. 模式识别与人工智能, 2013, 26(7): 643-647. ZHANG Guanyuan, WANG Bin. Liquid state machine based music chord sequence recognition algorithm[J]. Pat⁃ tern recognition and artificial intelligence, 2013, 26(7): 643-647. [76]HUANG Guangbin, CHEN Lei. Enhanced random search based incremental extreme learning machine [ J]. Neuro⁃ computing, 2008, 71(16 / 17 / 18): 3460-3468. [77]WANG Yuguang, CAO Feilong, YUAN Yubo. A study on effectiveness of extreme learning machine[ J]. Neurocom⁃ puting, 2011, 74(16): 2483-2490. [78]CUI H, LIU X, LI L. The architecture of dynamic reser⁃ voir in the echo state network[ J]. Chaos, 2012, 22(3): 033127. [79]OZTURK M C, XU Dongming. Analysis and design of echo state networks [ J]. Neural computation, 2007, 19 ( 1): 111-138. [80]DUAN Haibin, WANG Xiaohua. Echo state networks with orthogonal pigeon⁃inspired optimization for image restora⁃ tion[J]. IEEE transactions on neural networks and learning systems, 2015, 27(11): 2413-2425. [81]BOCCATO L, ATTUX R, VON ZUBEN F J. Self⁃organiza⁃ tion and lateral interaction in echo state network reservoirs [J]. Neurocomputing, 2014, 138: 297-309. [82]KORYAKIN D, LOHMANN J, BUTZ M V. Balanced echo state networks[ J]. Neural networks the official journal of the international neural network, 2012, 36: 35-45. [83]YUENYONG S, NISHIHARA A. Evolutionary pre⁃training for CRJ⁃type reservoir of echo state networks[ J]. Neuro⁃ computing, 2015, 149: 1324-1329. [84]LI Xiumin, ZHONG Ling, XUE Fangzheng, et al. A priori data⁃driven multi⁃clustered reservoir generation algorithm for echo state network [ J]. PLoS one, 2015, 10 ( 4): e0120750. [85]PALANGI H, DENG Li, WARD R K. Learning input and recurrent weight matrices in echo state networks[C] / / Ad⁃ vances in Neural Information Processing Systems 22: Con⁃ ference on Neural Information Processing Systems. Vancou⁃ ver, British Columbia, Canada, 2009. 作者简介: 乔俊飞,男,1968 年生,教授,博士 生导师, 中国人工智能学会科普工作 委员会主任,主要研究方向为智能信息 处理、智能控制理论与应用。获教育部科 篇,其中被 SCI 收录20 余篇,EI 收录 60余篇,获得发明专 state machine[ J]. Applied intelligence, 2007, 26 ( 2) : 李凡军,男,1977 年生,副教授,主 要研究方向为智能系统与智能信息处 理。 发表学术论文 10 余篇,其中被 SCI 检索 3 篇,EI 检索 6 篇。 杨翠丽,女,1986 年生,讲师 ,主要 研究方向为进化算法和智能信息处理。 发表学术论文 10 余篇,其中被 SCI 检 索 7 篇,EI 检索 12 篇。 第 6 期 乔俊飞,等:随机权神经网络研究现状与展望 ·767· 技进步奖一 等奖和北京市科学技术奖 三等奖各 1 项 。 发表学术论文 100 利 20 余项。 余