D0L:10.13374/5.issn1001-053x.2012.02.018 第34卷第2期 北京科技大学学报 Vol.34 No.2 2012年2月 Journal of University of Science and Technology Beijing Feb.2012 回声状态网络的研究进展 罗 熊)四黎江)孙增折2 1)北京科技大学计算机与通信工程学院,北京100083 2)清华大学计算机科学与技术系智能技术与系统国家重点实验室,北京100084 区通信作者,E-mail::xuo@usth.ed.cm 摘要回声状态网络是近年来新兴的一种递归神经网络,独特而简单的训练方式以及高精度的训练结果已使其成为当前 研究的热点之一·在该网络中,引入了储备池计算模式这一新的神经网络的建设方案,克服了之前网络模型基于梯度下降的 学习算法所难以避免的收敛慢和容易陷入局部极小等问题.围绕这种新型网络结构,国内外许多学者开展了多样的研究.本 文全面深入介绍了回声状态网络这一新兴技术,讨论了回声状态网络的优缺点,并综合近年的研究现状,总结了回声状态网 络的主要研究工作进展和未来的研究方向. 关键词回声状态网络;储备池计算:递归神经网络 分类号TP18 Review on echo state networks LUO Xiong,LI Jiang,SUN Zeng- 1)School of Computer and Communication Engineering,University of Science and Technology Beijing,Beijing 100083,China 2)State Key Laboratory of Intelligent Technology and Systems,Department of Computer Science and Technology,Tsinghua University,Beijing 100084, China Corresponding author.E-mail:xluo@ustb.edu.en ABSTRACT The echo state network (ESN)is a novel kind of recurrent neural network and has recently become a hot topic for its easy and distinctive training method along with high performance.In ESN,the reservoir computing method is introduced,which is a completely new approach used to design a recurrent neural network.By comparing this novel model with existing recurrent neural net- work models,it can overcome the difficulty encountered in slow convergence and local minimum in the gradient descent based training algorithm.Currently,there is considerable enthusiasm for the research and application of ESN.A review on ESN is presented in this paper.The advantages and drawbacks of ESN and various improvements are analyzed.Finally,some future research directions are also discussed. KEY WORDS echo state networks:reservoir computing:recurrent neural networks 对实际应用场合中的一些动态系统,可以通过 由Jaeger和Haas所提出的回声状态网络(echo 引入反馈连接之后的神经网络(即所谓的递归神经 state network,ESN)以及相应的学习算法为递归神 网络)来建模.尽管这种递归神经网络与自然界生 经网络的研究开辟了崭新的道路].这种方法也被 物的神经网络更加类似,理论描述比较完善,但是由 称为所谓的储备池计算模式,它引入一个称作储备 于网络中存在着递归信号,网络状态一般随着时间 池的内部网络,当外部的输入序列进入这个内部网 变化而变化,其运动轨迹存在稳定性问题,致使 络时,便在其中激发起复杂多样的非线性状态空间, 难于找到有效的学习算法.由于相关的学习算法均 然后再通过一个简单的读出网络来得到网络输出. 基于误差对权值的梯度进行,使得递归网络的训练 与之前递归神经网络的最大不同之处是在训练过程 收敛慢,训练复杂度高,难以被广泛地应用 中,储备池内部的连接权值是固定不变的,调整仅仅 收稿日期:201105-25 基金项目:国家自然科学基金资助项目(61174103:61074066:61004021):中央高校基本科研业务费专项资金资助项目(FRF-TP-11002B)
第 34 卷 第 2 期 2012 年 2 月 北京科技大学学报 Journal of University of Science and Technology Beijing Vol. 34 No. 2 Feb. 2012 回声状态网络的研究进展 罗 熊1) 黎 江1) 孙增圻2) 1) 北京科技大学计算机与通信工程学院,北京 100083 2) 清华大学计算机科学与技术系智能技术与系统国家重点实验室,北京 100084 通信作者,E-mail: xluo@ ustb. edu. cn 摘 要 回声状态网络是近年来新兴的一种递归神经网络,独特而简单的训练方式以及高精度的训练结果已使其成为当前 研究的热点之一. 在该网络中,引入了储备池计算模式这一新的神经网络的建设方案,克服了之前网络模型基于梯度下降的 学习算法所难以避免的收敛慢和容易陷入局部极小等问题. 围绕这种新型网络结构,国内外许多学者开展了多样的研究. 本 文全面深入介绍了回声状态网络这一新兴技术,讨论了回声状态网络的优缺点,并综合近年的研究现状,总结了回声状态网 络的主要研究工作进展和未来的研究方向. 关键词 回声状态网络; 储备池计算; 递归神经网络 分类号 TP18 Review on echo state networks LUO Xiong1) ,LI Jiang1) ,SUN Zeng-qi 2) 1) School of Computer and Communication Engineering,University of Science and Technology Beijing,Beijing 100083,China 2) State Key Laboratory of Intelligent Technology and Systems,Department of Computer Science and Technology,Tsinghua University,Beijing 100084, China Corresponding author,E-mail: xluo@ ustb. edu. cn ABSTRACT The echo state network ( ESN) is a novel kind of recurrent neural network and has recently become a hot topic for its easy and distinctive training method along with high performance. In ESN,the reservoir computing method is introduced,which is a completely new approach used to design a recurrent neural network. By comparing this novel model with existing recurrent neural network models,it can overcome the difficulty encountered in slow convergence and local minimum in the gradient descent based training algorithm. Currently,there is considerable enthusiasm for the research and application of ESN. A review on ESN is presented in this paper. The advantages and drawbacks of ESN and various improvements are analyzed. Finally,some future research directions are also discussed. KEY WORDS echo state networks; reservoir computing; recurrent neural networks 收稿日期: 2011--05--25 基金项目: 国家自然科学基金资助项目( 61174103; 61074066; 61004021) ; 中央高校基本科研业务费专项资金资助项目( FRF--TP--11--002B) 对实际应用场合中的一些动态系统,可以通过 引入反馈连接之后的神经网络( 即所谓的递归神经 网络) 来建模. 尽管这种递归神经网络与自然界生 物的神经网络更加类似,理论描述比较完善,但是由 于网络中存在着递归信号,网络状态一般随着时间 变化而变化,其运动轨迹存在稳定性问题[1],致使 难于找到有效的学习算法. 由于相关的学习算法均 基于误差对权值的梯度进行,使得递归网络的训练 收敛慢,训练复杂度高,难以被广泛地应用. 由 Jaeger 和 Haas 所提出的回声状态网络( echo state network,ESN) 以及相应的学习算法为递归神 经网络的研究开辟了崭新的道路[2]. 这种方法也被 称为所谓的储备池计算模式,它引入一个称作储备 池的内部网络,当外部的输入序列进入这个内部网 络时,便在其中激发起复杂多样的非线性状态空间, 然后再通过一个简单的读出网络来得到网络输出. 与之前递归神经网络的最大不同之处是在训练过程 中,储备池内部的连接权值是固定不变的,调整仅仅 DOI:10.13374/j.issn1001-053x.2012.02.018
218 北京科技大学学报 第34卷 针对读出网络进行.由于大大降低了训练的计算 结点的激励函数,Wm、W4和W分别为输入连接、 量,又避免了大多数基于梯度下降的学习算法所难 输出反馈连接和储备池内部连接的权值矩阵.网络 回避的局部极小现象,并同时能够取得很好的建模 的输出按下式计算: 精度,所以近年来ESN引起了很多学者的关注,已 y(1+1)=fWm(u(t+1),x(t+1),y(t))). 逐渐成为递归神经网络中的研究热点之一· (2) 1ESN的基本原理 式中,W为输出权值矩阵,f(·)为输出节点的激励 函数 基本ESN的拓扑结构如图1所示).图中左侧 ESN的基本思想,就是由储备池生成一个随输 为K个输入节点:中间是储备池网络,由N个内部 入而不断变化着的复杂动态空间.当这个状态空间 节点以及稀疏的节点连接权值构成:右侧是L个输 足够复杂时,就可以利用这些内部状态,线性地组合 出节点.图中实线表示了网络的必要连接,而虚线 出所需要的对应输出.相对于调整内部连接矩阵权 则表示了不同情况下还可能存在的连接,但它们对 值而言,E$N的训练要简单得多,在网络初始化之 于构成ESN并不是必需的.在ESN中,在训练阶段 后,唯一会在训练中发生变化的只有输出连接的权 会改变的只有输出连接权值. 值.对于输出权值的调整,主要是基于最小均方误 ◆W W 差的原则独立地调整每个输出节点. ESN的一个典型建立流程如图2所示 ESN的构造方法很简单,但在具体使用过程中, 必须对网络中的一些关键参数进行经验性选择和 调整. 首先是储备池的规模.这点对于各类神经网络 ● 均有类似的结论,即节点越多,能表现的系统越复 杂.由于ESN仅仅通过调整输出权值来线性拟合输 u(t) x(t) 出结果,所以一般情况下SN需要远大于一般神经 输入层 储备池 输出层 网络的节点规模.ESN训练算法的简单,使得训练 (K个节点) W个节点) L个节点) 过程能快速完成. 图1回声状态网络SN的拓扑结构 其次是输入连接的权值大小以及内部连接矩阵 Fig.1 Framework of an echo state network 的谱半径.这些关键参数会影响到网络短期记忆时 储备池状态依照下式进行更新: 间的长短.输入权值越小而内部矩阵的谱半径越接 x(t+1)=f Wi u(t+1)+Wx(t)+Wiy(t)). 近1,网络短期记忆时间越长.但是,增强记忆能力 (1) 的同时,这种操作也造成了网络对“快速变化”系统 式中,x(t)为第t步的储备池状态向量,(t)和y(t) 的建模能力下降).在实际应用中,要通过分析被 则分别为第t步的输入和输出向量,∫(·)为储备池 建模系统的实际变化特征来选取相应的数值, 样本数据依次 输入向量如载到 确定储备池大小 如载到输入输出 输入节点上 随机生成连接矩阵 空转一定时间 空转一定时间 缩放矩阵 使得谱半径<1 更新/记录储备池状 随机生成输入连接和 使用线性回归 从输出节点 输出反馈权值 确定输出连接权 取得结果 初始化 训练 使用 图2回声状态网络ESN的建立流程 Fig.2 Flow diagram of an echo state network
北 京 科 技 大 学 学 报 第 34 卷 针对读出网络进行. 由于大大降低了训练的计算 量,又避免了大多数基于梯度下降的学习算法所难 回避的局部极小现象,并同时能够取得很好的建模 精度,所以近年来 ESN 引起了很多学者的关注,已 逐渐成为递归神经网络中的研究热点之一. 1 ESN 的基本原理 基本 ESN 的拓扑结构如图1 所示[3]. 图中左侧 为 K 个输入节点; 中间是储备池网络,由 N 个内部 节点以及稀疏的节点连接权值构成; 右侧是 L 个输 出节点. 图中实线表示了网络的必要连接,而虚线 则表示了不同情况下还可能存在的连接,但它们对 于构成 ESN 并不是必需的. 在 ESN 中,在训练阶段 会改变的只有输出连接权值. 图 2 回声状态网络 ESN 的建立流程 Fig. 2 Flow diagram of an echo state network 图 1 回声状态网络 ESN 的拓扑结构 Fig. 1 Framework of an echo state network 储备池状态依照下式进行更新: x( t + 1) = f( Winu( t + 1) + Wx( t) + Wback y( t) ) . ( 1) 式中,x( t) 为第 t 步的储备池状态向量,u( t) 和 y( t) 则分别为第 t 步的输入和输出向量,f (·) 为储备池 结点的激励函数,Win、Wback和 W 分别为输入连接、 输出反馈连接和储备池内部连接的权值矩阵. 网络 的输出按下式计算: y( t + 1) = f( Wout ( u( t + 1) ,x( t + 1) ,y( t) ) ) . ( 2) 式中,Wout为输出权值矩阵,f (·) 为输出节点的激励 函数. ESN 的基本思想,就是由储备池生成一个随输 入而不断变化着的复杂动态空间. 当这个状态空间 足够复杂时,就可以利用这些内部状态,线性地组合 出所需要的对应输出. 相对于调整内部连接矩阵权 值而言,ESN 的训练要简单得多,在网络初始化之 后,唯一会在训练中发生变化的只有输出连接的权 值. 对于输出权值的调整,主要是基于最小均方误 差的原则独立地调整每个输出节点. ESN 的一个典型建立流程如图 2 所示. ESN 的构造方法很简单,但在具体使用过程中, 必须对网络中的一些关键参数进行经验性选择和 调整. 首先是储备池的规模. 这点对于各类神经网络 均有类似的结论,即节点越多,能表现的系统越复 杂. 由于 ESN 仅仅通过调整输出权值来线性拟合输 出结果,所以一般情况下 ESN 需要远大于一般神经 网络的节点规模. ESN 训练算法的简单,使得训练 过程能快速完成. 其次是输入连接的权值大小以及内部连接矩阵 的谱半径. 这些关键参数会影响到网络短期记忆时 间的长短. 输入权值越小而内部矩阵的谱半径越接 近 1,网络短期记忆时间越长. 但是,增强记忆能力 的同时,这种操作也造成了网络对“快速变化”系统 的建模能力下降[3]. 在实际应用中,要通过分析被 建模系统的实际变化特征来选取相应的数值. ·218·
第2期 罗熊等:回声状态网络的研究进展 ·219· 另外,值得注意的还包括内部神经元激励函数2.2稳定性和泛化能力的研究 的选取.Jaeger最初论证回声状态时使用的是线性 ESN的稳定性和泛化能力研究对处理系统的反 神经元.一般地,对于线性神经元网络,可以在拥有 馈连接尤为重要图.通常,稳定性不佳以及泛化能 回声状态的同时,提供更强的短期记忆.但是,由于 力差的网络会使得输出权值中出现少数很大的数 大多数需要神经网络进行建模的系统都具有很强的 值.极大的输出权值使得系统体现出更多的混沌特 非线性,最后在实际应用中往往采取了更常见的S 性.对于这一现象,存在两种改进途径:第一种是采 形激励函数 用遗传算法来调整储备池权值,寻找到一个使得不 需要大输出权值即可拟合到样本的状态空间,但 2ESN的分析与改进 这往往会伴随有相当大的计算量;另一种就是对训 以往针对递归神经网络的研究工作,主要集中 练算法进行修改,由于线性回归方法找到的永远是 在对其中的误差梯度下降算法进行改进优化,使其 “最贴近样本序列”的读出方式,为了改善这种“过 适合调整递归网络的权值,但算法收敛慢以及计算 分精确”的状况,需要通过某种干预,来适当地降低 量大等问题一直没有得到很好解决.ESN中的储备 算法的精确度.一个较通用的改进方案是在训练时 池计算模式是一种全新的思想,它为上述问题的解 对节点添加白噪声: 决提供了一种新思路 x(t+1)=fW(t+1)+Wx(t)+ 2.1储备池的生成与分析 Wic(y(t)+v(t))). (3) ESN最显著的特点就是在原有的递归神经网络 式中,()为较小的随机噪声. 中,将输入和输出之外的部分作为储备池进行处理, 另外,还可用岭回归替代原来的线性回归 通过少数的输入信号,在储备池中激发出复杂状态 即将原来的线性▣归方法 空间,并最终线性组合反映到网络输出.在这个过 W=(XXXy (4) 程中,生成一个合适的储备池是ESN构造中最棘手 替换为 的工作.如何使用尽量少的神经元与尽量少的连接 W=(XX+AD-Xy. (5) 式中,X为状态向量构成的矩阵,y则为输出序列构 来构成储备池,使其尽可能产生更加复杂多样的状 态空间,这一直是ESN的一个研究重点 成的向量.正则项系数入在这里起到了类似噪声的 作用,由于这个参数可以通过贝叶斯后验概率最大 在这方面,有一个典型结论:具有相同特征值的 化方法或Bootstrap重采样方法来优化确定,使得改 连接矩阵的储备池,具有几乎相同的状态空间复杂 进效果要明显优于前面直接添加白噪声的方法 度(即在线性神经元的连接下,可以达到完全等 最后需要指出的是,上述两项改进都是针对离 同).由于随机生成的储备池拥有近似均匀分布 线批量训练方式进行设计的,无法有效地作用于在 于复平面的特征值,因此可使用均匀分布在复平面 线实时训练.寻找适用于在线训练的稳定算法依然 的数值来构成分块对角矩阵(此时,复数特征值对 是一个有待研究的问题 以二阶矩阵形式存在),以此作为连接矩阵构造解 2.3算法内部结构的调整优化 耦合的储备池.此时,储备池中就只存在单个的 通过对核心算法结构的改进优化,追求更好的 或两个一组的小网络.这一结果在不减弱储备池空 效果.典型的尝试就是使用不同的神经元来替换内 间复杂度的前提下,最大程度地减少了连接权的 部节点.针对普通S形神经元在固件中难以实现的 数量. 问题,可使用随机比特序列神经元来构建网络] 增加储备池空间复杂度的研究,实际上是一个 也可将泄漏积分神经元(leaky integrator neurons)引 与实际训练样本相关联的问题,何种特征的样本适 入ESN中.另外,还尝试使用小波神经元,利用 合何种拓扑结构的储备池?其对应的状态空间复杂 这种“小波函数展开”的方式获得了更复杂的储 变化的特点与规律又是怎样?目前在理论上都没有 备池 很好解决.目前,代表性的工作主要包括仿照生 由于最初Jaeger的回声状态条件都是针对简单 物神经结构“生长”得到储备池的方法6,以及将储 的线性神经元提出的,所以使得采用不同的神经元 备池分块并通过水平阻隔(lateral inhibition)方式进 构建储备池时,需要重新考虑回声状态成立的条件. 行解耦合,从而使网络具备多重时间特性的建模 在替换神经元的各种方案中,回声状态条件的选择 方法) 和变更将是今后ESN研究中的一个重要方向
第 2 期 罗 熊等: 回声状态网络的研究进展 另外,值得注意的还包括内部神经元激励函数 的选取. Jaeger 最初论证回声状态时使用的是线性 神经元. 一般地,对于线性神经元网络,可以在拥有 回声状态的同时,提供更强的短期记忆. 但是,由于 大多数需要神经网络进行建模的系统都具有很强的 非线性,最后在实际应用中往往采取了更常见的 S 形激励函数. 2 ESN 的分析与改进 以往针对递归神经网络的研究工作,主要集中 在对其中的误差梯度下降算法进行改进优化,使其 适合调整递归网络的权值,但算法收敛慢以及计算 量大等问题一直没有得到很好解决. ESN 中的储备 池计算模式是一种全新的思想,它为上述问题的解 决提供了一种新思路. 2. 1 储备池的生成与分析 ESN 最显著的特点就是在原有的递归神经网络 中,将输入和输出之外的部分作为储备池进行处理, 通过少数的输入信号,在储备池中激发出复杂状态 空间,并最终线性组合反映到网络输出. 在这个过 程中,生成一个合适的储备池是 ESN 构造中最棘手 的工作. 如何使用尽量少的神经元与尽量少的连接 来构成储备池,使其尽可能产生更加复杂多样的状 态空间,这一直是 ESN 的一个研究重点. 在这方面,有一个典型结论: 具有相同特征值的 连接矩阵的储备池,具有几乎相同的状态空间复杂 度( 即在线性神经元的连接下,可以达到完全等 同) [4]. 由于随机生成的储备池拥有近似均匀分布 于复平面的特征值,因此可使用均匀分布在复平面 的数值来构成分块对角矩阵( 此时,复数特征值对 以二阶矩阵形式存在) ,以此作为连接矩阵构造解 耦合的储备池[4]. 此时,储备池中就只存在单个的 或两个一组的小网络. 这一结果在不减弱储备池空 间复杂度的前提下,最大程度地减少了连接权的 数量. 增加储备池空间复杂度的研究,实际上是一个 与实际训练样本相关联的问题,何种特征的样本适 合何种拓扑结构的储备池? 其对应的状态空间复杂 变化的特点与规律又是怎样? 目前在理论上都没有 很好解决[5]. 目前,代表性的工作主要包括仿照生 物神经结构“生长”得到储备池的方法[6],以及将储 备池分块并通过水平阻隔( lateral inhibition) 方式进 行解耦合,从而使网络具备多重时间特性的建模 方法[7]. 2. 2 稳定性和泛化能力的研究 ESN 的稳定性和泛化能力研究对处理系统的反 馈连接尤为重要[8]. 通常,稳定性不佳以及泛化能 力差的网络会使得输出权值中出现少数很大的数 值. 极大的输出权值使得系统体现出更多的混沌特 性. 对于这一现象,存在两种改进途径: 第一种是采 用遗传算法来调整储备池权值,寻找到一个使得不 需要大输出权值即可拟合到样本的状态空间[9],但 这往往会伴随有相当大的计算量; 另一种就是对训 练算法进行修改,由于线性回归方法找到的永远是 “最贴近样本序列”的读出方式,为了改善这种“过 分精确”的状况,需要通过某种干预,来适当地降低 算法的精确度. 一个较通用的改进方案是在训练时 对节点添加白噪声[10]: x( t + 1) = f( Winu( t + 1) + Wx( t) + Wback ( y( t) + v( t) ) ) . ( 3) 式中,v( t) 为较小的随机噪声. 另外,还可用岭回归替代原来的线性回归[11], 即将原来的线性回归方法 W^ = ( XT X) - 1 XT y ( 4) 替换为 W^ = ( XT X + λI) - 1 XT y. ( 5) 式中,X 为状态向量构成的矩阵,y 则为输出序列构 成的向量. 正则项系数 λ 在这里起到了类似噪声的 作用,由于这个参数可以通过贝叶斯后验概率最大 化方法或 Bootstrap 重采样方法来优化确定,使得改 进效果要明显优于前面直接添加白噪声的方法. 最后需要指出的是,上述两项改进都是针对离 线批量训练方式进行设计的,无法有效地作用于在 线实时训练. 寻找适用于在线训练的稳定算法依然 是一个有待研究的问题. 2. 3 算法内部结构的调整优化 通过对核心算法结构的改进优化,追求更好的 效果. 典型的尝试就是使用不同的神经元来替换内 部节点. 针对普通 S 形神经元在固件中难以实现的 问题,可使用随机比特序列神经元来构建网络[12]. 也可将泄漏积分神经元( leaky integrator neurons) 引 入 ESN 中[13]. 另外,还尝试使用小波神经元,利用 这种“小波函数展开”的方式获得了更复杂的储 备池[14]. 由于最初 Jaeger 的回声状态条件都是针对简单 的线性神经元提出的,所以使得采用不同的神经元 构建储备池时,需要重新考虑回声状态成立的条件. 在替换神经元的各种方案中,回声状态条件的选择 和变更将是今后 ESN 研究中的一个重要方向. ·219·
·220· 北京科技大学学报 第34卷 2.4与其他技术的混杂应用和改进简化 了ESN作为一个通用的递归神经网络,在很多需要 可将ESN与已有一些技术相结合,混杂应用共 依据时序信息进行工作的系统中,展现出来的应用 同发挥双方的能力.例如,在ESN的读出部分采用 潜力. 多层前向神经网络进行设计,这种结合既利用了储 4ESN的研究热点 备池状态空间的多样性,又通过非线性的读出装置 提升了系统的非线性特性) 作为一个提出不久的新理论,ESN也有许多有 可将数个ESN组合起来构成一个多层结构,不 待进一步研究的特性以及进一步改进的细节. 同层次上的ESN分别识别处理系统不同时间规模 (I)储备池性能的优化.储备池是ESN的核心 的特征[6.在现实生活中,很多时序数据(如语言、 部分.在最原始的ESN中,储备池内部的连接权值 文本和手势)包含的信息特征往往存在于具有很大 是随机赋值的,而能够进行调整的宏观量只有结点 差距的时间尺度上,在对这些数据进行处理时,需要 个数以及连接矩阵的谱半径.研究发现,拥有相同 系统把握这些不同层次上的规律.层次化的ESN恰 结点数和谱半径的储备池也会因为具体内部结构的 好具备了将这些信息分别提取出来的能力.ESN还 不同而表现出巨大的差别,这表明还有未被认识到 可与决策树的建立方法相结合,采用ESN辅助完成 的因素在影响着储备池的性能.因此对于原始的储 关键的决策环节,通过构造合理的决策树,从最大程 备池生成方案而言,还有很大的优化空间.这种优 度上减少了每一次决策所需的信息量.该方法已应 化主要从两方面来进行,其一就是研究储备池某些 用于入侵检测实验,其识别率远远高出了同类 数量特征或拓扑结构和其所展现出的某些特性之间 技术) 的联系,如前面所述的改进工作).储备池是一个 在实际应用中,建立一个能适用于实际问题的 递归网络,进行理论分析往往并不容易,因此更多的 ESN依然是一项艰巨的工作.目前能够获得较好效 研究工作集中在另一个优化手段上·第二种方式依 果的网络,除了结合经验知识进行尝试之外,大多都 然采用随机方式来生成储备池,但之后通过某种自 是使用遗传算法对参数或拓扑结构进行了一定的优 适应的方式来从中评选出更优的储备池,这一研究 化.由于对储备池性能优劣的判断方式依然过于繁 方向的代表就是采用遗传算法来优化.由于实际应 琐,这使得对每一个样本的评估显得过于复杂,耗费 用时的ESN储备池的规模往往很大,相当耗时.这 了大量的时间和资源来进行适应度函数的计算.如 种情况下,将上面两种手段结合起来会更加有效,也 何能够找到衡量储备池特性的详细关联特征,从而 就是通过理论研究找到某些能够衡量储备池性能的 简化遗传算法参与计算的步骤,是能够使ESN展现 简便方法,之后以此为指导通过遗传算法来进行 其简单高效特点的关键研究方向所在. 搜索. (2)读出网络的优化.储备池的调整更倾向于 3ESN的应用 提高状态空间的复杂程度,以此来提升样本的贴合 作为一种新兴起的理论,近几年有关E$N的研 程度,而读出部分的调整则偏重于提升网络的泛化 究重点还集中在理论上的优化和改进,但也已经有 能力、稳定性以及抗噪能力.在大多数ESN的实施 了一些实践性的尝试.ESN最成熟的应用还是集中 方案中,读出网络部分都采用了单层线性结构.这 在时间序列(time series)的学习上2.8山 种选择使得网络的训练能够得到一个全局最优解, 此外,模式识别领域一直是神经网络所擅长的, 避免了可能陷入局部极小的问题,而且在储备池复 应用ESN来进行时序样本的识别也取得了很好的 杂度足够的情况下,仅仅只是线性组合就能足够贴 效果,如图像边缘检测8】和自然语言识别9 合实验样本.原始的ESN中采用了最简单的线性回 ESN在控制领域的应用也在兴起.这种网络便 归来训练读出网络,虽然得到最小的训练误差,但没 于训练,可以通过ESN进行相应的间接控制.对于 有考虑到网络的泛化能力,尤其样本较少时问题会 直接控制来说,由于无法进行监督式学习,在训练中 更加严重.因此研究线性回归的替换算法来训练读 要采用遗传算法来优化训练输出权,所以通常需要 出网络是优化的一个重要方向.例如,将看中泛化 较长时间的训练过程,但这依然是可以取得实用效 能力的支持向量机(SVM)的研究中成熟的线性理 果的一种尝试[20) 论应用到ESN的训练当中,就取得相当显著的 另外,还有一些特殊的应用.例如,在音频处理 成效2] 方面的应用2】.这些较为特殊的研究工作也体现 (3)神经元的调整.大多数ESN方案中一般都
北 京 科 技 大 学 学 报 第 34 卷 2. 4 与其他技术的混杂应用和改进简化 可将 ESN 与已有一些技术相结合,混杂应用共 同发挥双方的能力. 例如,在 ESN 的读出部分采用 多层前向神经网络进行设计,这种结合既利用了储 备池状态空间的多样性,又通过非线性的读出装置 提升了系统的非线性特性[15]. 可将数个 ESN 组合起来构成一个多层结构,不 同层次上的 ESN 分别识别处理系统不同时间规模 的特征[16]. 在现实生活中,很多时序数据( 如语言、 文本和手势) 包含的信息特征往往存在于具有很大 差距的时间尺度上,在对这些数据进行处理时,需要 系统把握这些不同层次上的规律. 层次化的 ESN 恰 好具备了将这些信息分别提取出来的能力. ESN 还 可与决策树的建立方法相结合,采用 ESN 辅助完成 关键的决策环节,通过构造合理的决策树,从最大程 度上减少了每一次决策所需的信息量. 该方法已应 用于入侵检测实验,其识别率远远高出了同类 技术[17]. 在实际应用中,建立一个能适用于实际问题的 ESN 依然是一项艰巨的工作. 目前能够获得较好效 果的网络,除了结合经验知识进行尝试之外,大多都 是使用遗传算法对参数或拓扑结构进行了一定的优 化. 由于对储备池性能优劣的判断方式依然过于繁 琐,这使得对每一个样本的评估显得过于复杂,耗费 了大量的时间和资源来进行适应度函数的计算. 如 何能够找到衡量储备池特性的详细关联特征,从而 简化遗传算法参与计算的步骤,是能够使 ESN 展现 其简单高效特点的关键研究方向所在. 3 ESN 的应用 作为一种新兴起的理论,近几年有关 ESN 的研 究重点还集中在理论上的优化和改进,但也已经有 了一些实践性的尝试. ESN 最成熟的应用还是集中 在时间序列( time series) 的学习上[2,8,11]. 此外,模式识别领域一直是神经网络所擅长的, 应用 ESN 来进行时序样本的识别也取得了很好的 效果,如图像边缘检测[18]和自然语言识别[19]. ESN 在控制领域的应用也在兴起. 这种网络便 于训练,可以通过 ESN 进行相应的间接控制. 对于 直接控制来说,由于无法进行监督式学习,在训练中 要采用遗传算法来优化训练输出权,所以通常需要 较长时间的训练过程,但这依然是可以取得实用效 果的一种尝试[20]. 另外,还有一些特殊的应用. 例如,在音频处理 方面的应用[21]. 这些较为特殊的研究工作也体现 了 ESN 作为一个通用的递归神经网络,在很多需要 依据时序信息进行工作的系统中,展现出来的应用 潜力. 4 ESN 的研究热点 作为一个提出不久的新理论,ESN 也有许多有 待进一步研究的特性以及进一步改进的细节. ( 1) 储备池性能的优化. 储备池是 ESN 的核心 部分. 在最原始的 ESN 中,储备池内部的连接权值 是随机赋值的,而能够进行调整的宏观量只有结点 个数以及连接矩阵的谱半径. 研究发现,拥有相同 结点数和谱半径的储备池也会因为具体内部结构的 不同而表现出巨大的差别,这表明还有未被认识到 的因素在影响着储备池的性能. 因此对于原始的储 备池生成方案而言,还有很大的优化空间. 这种优 化主要从两方面来进行,其一就是研究储备池某些 数量特征或拓扑结构和其所展现出的某些特性之间 的联系,如前面所述的改进工作[7]. 储备池是一个 递归网络,进行理论分析往往并不容易,因此更多的 研究工作集中在另一个优化手段上. 第二种方式依 然采用随机方式来生成储备池,但之后通过某种自 适应的方式来从中评选出更优的储备池,这一研究 方向的代表就是采用遗传算法来优化. 由于实际应 用时的 ESN 储备池的规模往往很大,相当耗时. 这 种情况下,将上面两种手段结合起来会更加有效,也 就是通过理论研究找到某些能够衡量储备池性能的 简便方法,之后以此为指导通过遗传算法来进行 搜索. ( 2) 读出网络的优化. 储备池的调整更倾向于 提高状态空间的复杂程度,以此来提升样本的贴合 程度,而读出部分的调整则偏重于提升网络的泛化 能力、稳定性以及抗噪能力. 在大多数 ESN 的实施 方案中,读出网络部分都采用了单层线性结构. 这 种选择使得网络的训练能够得到一个全局最优解, 避免了可能陷入局部极小的问题,而且在储备池复 杂度足够的情况下,仅仅只是线性组合就能足够贴 合实验样本. 原始的 ESN 中采用了最简单的线性回 归来训练读出网络,虽然得到最小的训练误差,但没 有考虑到网络的泛化能力,尤其样本较少时问题会 更加严重. 因此研究线性回归的替换算法来训练读 出网络是优化的一个重要方向. 例如,将看中泛化 能力的支持向量机( SVM) 的研究中成熟的线性理 论应用到 ESN 的训练当中,就取得相当显著的 成效[22]. ( 3) 神经元的调整. 大多数 ESN 方案中一般都 ·220·
第2期 罗熊等:回声状态网络的研究进展 ·221· 使用神经网络中常用的S形神经元来构成,这种选 合ESN工作的实际应用领域,这些都将成为神经网 择既使得回声状态的条件易于达成,又让网络具有 络领域中值得关注研究的一个方向 一定程度的非线性建模能力.有时为了增强SN某 方面的能力,也可以选用其他的神经元.例如,为了 参考文献 使ESN具备更强的处理连续信号的能力而引入了 [1]Cong S,Dai Y.Structure of recurrent neural networks.J Comput 积分泄漏神经元).使用$形以外的神经元构建 wl,2004.248):18 (丛爽,戴谊.递归神经网络的结构研究.计算机应用,2004, 储备池能达到显著改变效果,拓展ESN能够处理的 248):18) 信号类型.同时需要关注让新的储备池处于回声状 [2]Jaeger H.Haas H.Hamessing nonlinearity:predicting chaotic 态的条件,防止混沌震荡的出现 systems and saving energy in wireless communication.Science. (4)ESN的应用.作为一种新型的网络模型, 2004.304(5667):78 为了实际应用依然有许多需要改进的地方.首先是 [3]Jaeger H.The Echo State Approach to Analyzing and Training Re- current Neural Neticorks:GMD Report 148.German National Re- 如何处理噪声的问题,ESN对于噪声是比较敏感的, search Center for Information Technology,2001 一定程度的噪声就会很大地降低ESN的表现水平. [4]Zhang B.Wang Y.Echo state networks with decoupled reservoir 在ESN实践应用时,使用已有的算法来尽可能地预 states Proceedings of the IEEE Workshop on Machine Learning 先降低样本中的噪声是ESN应用中重要的一步.除 for Signal Processing.Cancun,2008:444 此以外,采用前面提到的输出网络的优化训练方式 [5]Jaeger H.Reservoir riddles:suggestions for echo state network re- search Proceedings of the IEEE International Joint Conference on 也能抑制噪声的影响.其次就是ESN的复杂所带来 Neural Netcorks.Montreal,2005:1460 的问题,由于通常情况下ESN的节点数相当庞大, [6]Deng Z D.Zhang Y.Complex systems modeling using scale-free 其较大的计算量给实时控制的应用带来影响.尤其 highly-clustered echo state network /Proceedings of the IEEE In- 在机器人的识别与控制系统中,尽量减小网络的规 ternational Joint Conference on Neural Netcorks.Vancouver, 模对节省有限的计算资源相当重要.储备池的优化 2006:3128 [7]Xue Y B,Yang L,Haykin S.Decoupled echo state networks with 或者一定程度的有损简化都能有效地解决这一问 lateral inhibition.Neural Nencorks.2007.20(3):365 题.另外,已有学者从理论上初步证明分析了E$N [8]Han M.Shi Z W,Guo W.Reservoir neural state reconstruction 应用中的复杂性和存储容量,为ESN的实际应用奠 and chaotic time series prediction.Acta Phys Sin.2007.56(1): 定了一定的理论基础2) 43 综上所述,对于ESN这一新型的递归神经网络 (韩敏,史志伟,郭伟.储备池状态空间重构与混沌时间序列 而言,最大的研究热点还是集中于进一步的理论探 预测.物理学报,2007,56(1):43) [9]Jiang F,Berry H,Schoenauer M.Supervised and evolutionary 索以及网络优化方面,但随着近些年的研究进展,结 learning of echo state networks /Proceedings of the 10th Interna- 合了这些优化技术的应用研究也已开始发展起来. tional Conference on Parallel Problem Solving from Nature,Dort- 为了研究并掌握更多储备池相关的理论,从而设计 mund,2008:215 出更可靠和小巧的网络从而有效地解决实际问题, [10]Jaeger H.Short Term Memory in Echo State Netcorks:GMD Re- 还有许多工作尚待完成 port 152.Geman National Research Center for Information Tech- nology.2002 5结论 [11]Shi Z W.Han M.Ridge regression learning in ESN for chaotic time series prediction.Control Decis,2007.22(3):258 ESN是近几年递归神经网络领域兴起的一种新 (史志伟,韩敏.ESN岭回归学习算法及混沌时间序列预测 的网络训练方法,它通过储备池将输入序列转换到 控制与决策,2007,22(3):258) 足够复杂的状态空间,然后将它们线性组合为所需 [12]Verstraeten D.Schrauwen B,Stroobandt D.Reservoir computing with stochastic bitstream neurons /Proceedings of the 16th An- 的输出.相比之前对递归神经网络的研究,ESN找 nual ProRISC Workshop,Veldhoven.2005:454 到了不必反复计算梯度就能训练网络的方法,为递 [13]Lukosevicius M.Popovici D.Jaeger H.et al.Time Warping In- 归神经网络的训练提供了一种崭新的思路.ESN很 variant Echo State Metorks:IUB Technical Report No.2.Inter- 小的训练计算量,使得复杂系统的高精度建模成为 national University Bremen,2006 可能.在短短几年之内,ESN引起了神经网络领域 [14]Wang S.Non-inearity Prediction Using Improved Echo State Net- works [Dissertation].Nanjing:Nanjing University of Technolo- 研究学者的广泛关注.如何完善算法理论,特别是 ,2006 对储备池经验数据背后内涵的深入研究,以及怎样 (王瑟.基于改进的回声状态神经网络的非线性预测[学位 将ESN的优点在实践中充分体现出来,发掘更多适 论文].南京:南京工业大学,2006)
第 2 期 罗 熊等: 回声状态网络的研究进展 使用神经网络中常用的 S 形神经元来构成,这种选 择既使得回声状态的条件易于达成,又让网络具有 一定程度的非线性建模能力. 有时为了增强 ESN 某 方面的能力,也可以选用其他的神经元. 例如,为了 使 ESN 具备更强的处理连续信号的能力而引入了 积分泄漏神经元[13]. 使用 S 形以外的神经元构建 储备池能达到显著改变效果,拓展 ESN 能够处理的 信号类型. 同时需要关注让新的储备池处于回声状 态的条件,防止混沌震荡的出现. ( 4) ESN 的应用. 作为一种新型的网络模型, 为了实际应用依然有许多需要改进的地方. 首先是 如何处理噪声的问题,ESN 对于噪声是比较敏感的, 一定程度的噪声就会很大地降低 ESN 的表现水平. 在 ESN 实践应用时,使用已有的算法来尽可能地预 先降低样本中的噪声是 ESN 应用中重要的一步. 除 此以外,采用前面提到的输出网络的优化训练方式 也能抑制噪声的影响. 其次就是 ESN 的复杂所带来 的问题,由于通常情况下 ESN 的节点数相当庞大, 其较大的计算量给实时控制的应用带来影响. 尤其 在机器人的识别与控制系统中,尽量减小网络的规 模对节省有限的计算资源相当重要. 储备池的优化 或者一定程度的有损简化都能有效地解决这一问 题. 另外,已有学者从理论上初步证明分析了 ESN 应用中的复杂性和存储容量,为 ESN 的实际应用奠 定了一定的理论基础[23]. 综上所述,对于 ESN 这一新型的递归神经网络 而言,最大的研究热点还是集中于进一步的理论探 索以及网络优化方面,但随着近些年的研究进展,结 合了这些优化技术的应用研究也已开始发展起来. 为了研究并掌握更多储备池相关的理论,从而设计 出更可靠和小巧的网络从而有效地解决实际问题, 还有许多工作尚待完成. 5 结论 ESN 是近几年递归神经网络领域兴起的一种新 的网络训练方法,它通过储备池将输入序列转换到 足够复杂的状态空间,然后将它们线性组合为所需 的输出. 相比之前对递归神经网络的研究,ESN 找 到了不必反复计算梯度就能训练网络的方法,为递 归神经网络的训练提供了一种崭新的思路. ESN 很 小的训练计算量,使得复杂系统的高精度建模成为 可能. 在短短几年之内,ESN 引起了神经网络领域 研究学者的广泛关注. 如何完善算法理论,特别是 对储备池经验数据背后内涵的深入研究,以及怎样 将 ESN 的优点在实践中充分体现出来,发掘更多适 合 ESN 工作的实际应用领域,这些都将成为神经网 络领域中值得关注研究的一个方向. 参 考 文 献 [1] Cong S,Dai Y. Structure of recurrent neural networks. J Comput Appl,2004,24( 8) : 18 ( 丛爽,戴谊. 递归神经网络的结构研究. 计算机应用,2004, 24( 8) : 18) [2] Jaeger H,Haas H. Harnessing nonlinearity: predicting chaotic systems and saving energy in wireless communication. Science, 2004,304( 5667) : 78 [3] Jaeger H. The Echo State Approach to Analyzing and Training Recurrent Neural Networks: GMD Report 148. German National Research Center for Information Technology,2001 [4] Zhang B,Wang Y. Echo state networks with decoupled reservoir states / / Proceedings of the IEEE Workshop on Machine Learning for Signal Processing. Cancun,2008: 444 [5] Jaeger H. Reservoir riddles: suggestions for echo state network research / / Proceedings of the IEEE International Joint Conference on Neural Networks. Montreal,2005: 1460 [6] Deng Z D,Zhang Y. Complex systems modeling using scale-free highly-clustered echo state network / / Proceedings of the IEEE International Joint Conference on Neural Networks. Vancouver, 2006: 3128 [7] Xue Y B,Yang L,Haykin S. Decoupled echo state networks with lateral inhibition. Neural Networks,2007,20( 3) : 365 [8] Han M,Shi Z W,Guo W. Reservoir neural state reconstruction and chaotic time series prediction. Acta Phys Sin,2007,56( 1) : 43 ( 韩敏,史志伟,郭伟. 储备池状态空间重构与混沌时间序列 预测. 物理学报,2007,56( 1) : 43) [9] Jiang F,Berry H,Schoenauer M. Supervised and evolutionary learning of echo state networks / / Proceedings of the 10th International Conference on Parallel Problem Solving from Nature,Dortmund,2008: 215 [10] Jaeger H. Short Term Memory in Echo State Networks: GMD Report 152. German National Research Center for Information Technology,2002 [11] Shi Z W,Han M. Ridge regression learning in ESN for chaotic time series prediction. Control Decis,2007,22( 3) : 258 ( 史志伟,韩敏. ESN 岭回归学习算法及混沌时间序列预测. 控制与决策,2007,22( 3) : 258) [12] Verstraeten D,Schrauwen B,Stroobandt D. Reservoir computing with stochastic bitstream neurons / / Proceedings of the 16th Annual ProRISC Workshop,Veldhoven,2005: 454 [13] Lukoevicˇius M,Popovici D,Jaeger H,et al. Time Warping Invariant Echo State Metworks: IUB Technical Report No. 2. International University Bremen,2006 [14] Wang S. Non-linearity Prediction Using Improved Echo State Networks [Dissertation]. Nanjing: Nanjing University of Technology,2006 ( 王瑟. 基于改进的回声状态神经网络的非线性预测[学位 论文]. 南京: 南京工业大学,2006) ·221·
·222· 北京科技大学学报 第34卷 [15]Lukosevicius M.Echo State Networks with Trained Feedbacks: grammatical structure with echo state networks.Neural Networks, IUB Technical Report No.4.Intemational University Bremen, 2007,20(3):424 2007 [20]Xu D M.Lan J.Principe J C.Direet adaptive control:an echo [16]Jaeger H.Discovering Multiscale Dynamical Features with Hierar- state network and genetic algorithm approach Proceedings of chical Echo State Netcorks:Jacobs University Bremen Technical the IEEE International Joint Conference on Neural Netorks. Report No.10.Jacobs University Bremen.2007 Montreal,2005:1483 [17]Ding H Y.Pei W J.He Z Y.A multiple objective optimization [21]Holzmann G.Reservoir computing:a powerful black-box frame- based echo state network tree and application to intrusion detec- work for nonlinear audio processing /Proceedings of the 12th In- tion /Proceedings of the IEEE International Workshop on VLSI ternational Conference on Digital Audio Effects.Como,2009: Design and Video Technology.2005:443 DAFx-09 [18]Pei C D.Echo state networks and its application on image edge [22]ShiZ W,Han M.Support vector echo-state machine for chaotie detection.Comput Eng Appl,2008,44(19):172 time series prediction.IEEE Trans Neural Netorks,2007,18 (裴承丹.回声状态网络及其在图像边缘检测中的应用.计 (2):359 算机工程与应用,2008,4419):172) [23]Rodan A,Tino P.Minimum complexity echo state network.IEEE [19]Tong M H,Bickett A D.Christiansen E M,et al.Learning Trans Neural Netwcorks,2011.22(1):131
北 京 科 技 大 学 学 报 第 34 卷 [15] Lukoevicˇius M. Echo State Networks with Trained Feedbacks: IUB Technical Report No. 4. International University Bremen, 2007 [16] Jaeger H. Discovering Multiscale Dynamical Features with Hierarchical Echo State Networks: Jacobs University Bremen Technical Report No. 10. Jacobs University Bremen,2007 [17] Ding H Y,Pei W J,He Z Y. A multiple objective optimization based echo state network tree and application to intrusion detection / / Proceedings of the IEEE International Workshop on VLSI Design and Video Technology,2005: 443 [18] Pei C D. Echo state networks and its application on image edge detection. Comput Eng Appl,2008,44( 19) : 172 ( 裴承丹. 回声状态网络及其在图像边缘检测中的应用. 计 算机工程与应用,2008,44( 19) : 172) [19] Tong M H,Bickett A D,Christiansen E M,et al. Learning grammatical structure with echo state networks. Neural Networks, 2007,20( 3) : 424 [20] Xu D M,Lan J,Principe J C. Direct adaptive control: an echo state network and genetic algorithm approach / / Proceedings of the IEEE International Joint Conference on Neural Networks. Montreal,2005: 1483 [21] Holzmann G. Reservoir computing: a powerful black-box framework for nonlinear audio processing / / Proceedings of the 12th International Conference on Digital Audio Effects. Como,2009: DAFx-09 [22] Shi Z W,Han M. Support vector echo-state machine for chaotic time series prediction. IEEE Trans Neural Networks,2007,18 ( 2) : 359 [23] Rodan A,Tiňo P. Minimum complexity echo state network. IEEE Trans Neural Networks,2011,22( 1) : 131 ·222·