第6章神经网络控制 教学内容 首先介绍人工神经网络的基本概念和ANN的特性,以及神经网络的学习方法。然后讲授典型的前向神经网 络、反馈神经网络的原理、结构、基本算法,给岀了BP网络的算法改进。最后介绍了神经网络PID控制。 教学重点 1.神经网络的各种学习算法,神经网络的训练。 2.感知器网络、BP网络的结构和算法、BP网络学习算法的改进,反馈网络的结构、学习算法。 3.神经网络PID控制 教学难点 神经网络的各种学习算法以及神经网络PD控制。 教学要求 1.理解神经网络的基本概念。 2.掌握无监督Hebb学习规则、有监督的学习规则或 Widow-Ho学习规则、有监督Hebb学习规则 3.熟练掌握典型的前向神经网络、反馈神经网络的原理、结构、基本算法 4.掌握BP网络的算法改进。 5.了解和掌握神经网络PID控制。 61概述 基于人工神经网络的控制(ANN- based Control)简称神经控制( Neural Control)。神经网络是由大量人工 神经元(处理单元)广泛互联而成的网络,它是在现代神经生物学和认识科学对人类信息处理研究的基础上提出 来的,具有很强的自适应性和学习能力、非线性映射能力、鲁棒性和容错能力。充分地将这些神经网终特性应用 于控制领域,可使控制系统的智能化向前迈进一大步。 随着被控系统越来越复杂,人们对控制系统的要求越来越高,特别是要求控制系统能适应不确定性、时变的 对象与环境。传统的基于精确模型的控制方法难以适应要求,现在关于控制的概念也已更加广泛,它要求包括- 些决策、规划以及学习功能。神经网络由于具有上述优点而越来越受到人们的重视。 本节将介绍人工神经网络的基本概念和ANN的特性,以及神经网络的学习方 611生物神经元模型 人脑大约包含102个神经元,分成约1000种类型,每个神经元大约与102~104个其他神经元相连接,形成 极为错综复杂而又灵活多变的神经网络。每个神经元虽然都十分简单,但是如此大量的神经元之间、如此复杂的 连接却可以演化出丰富多彩的行为方式。同时,如此大量的神经元与外部感受器之间的多种多样的连接方式也蕴 含了变化莫测的反应方式 个神经元结构的模型示意图如图所示。 由图看出,神经元由胞体、树突和轴突构成。胞体是神经元的代谢中心,它本身又由细胞核、内质网和高尔 基体组成。内质网是合成膜和蛋白质的基础,高尔基体主要作用是加工合成物及分泌糖类物质,胞体一般生长有 许多树状突起,称为树突,它是神经元的主要接受器。胞体还延伸出一条管状纤维组织,称为轴突。轴突外面可 能包有一层厚的绝缘组织,称为髓鞘(梅林鞘),髋鞘规则地分为许多短段,段与段之间的部位称为郎飞节( Ranvier
第6章 神经网络控制 教学内容 首先介绍人工神经网络的基本概念和 ANN 的特性,以及神经网络的学习方法。然后讲授典型的前向神经网 络、反馈神经网络的原理、结构、基本算法,给出了 BP 网络的算法改进。最后介绍了神经网络 PID 控制。 教学重点 1. 神经网络的各种学习算法,神经网络的训练。 2. 感知器网络、BP 网络的结构和算法、BP 网络学习算法的改进,反馈网络的结构、学习算法。 3. 神经网络 PID 控制。 教学难点 神经网络的各种学习算法以及神经网络 PID 控制。 教学要求 1.理解神经网络的基本概念。 2.掌握无监督 Hebb 学习规则、有监督的 学习规则或 Widow-Hoff 学习规则、有监督 Hebb 学习规则。 3.熟练掌握典型的前向神经网络、反馈神经网络的原理、结构、基本算法。 4.掌握 BP 网络的算法改进。 5.了解和掌握神经网络 PID 控制。 6.1 概述 基于人工神经网络的控制(ANN—based Control)简称神经控制(Neural Control)。神经网络是由大量人工 神经元(处理单元)广泛互联而成的网络,它是在现代神经生物学和认识科学对人类信息处理研究的基础上提出 来的,具有很强的自适应性和学习能力、非线性映射能力、鲁棒性和容错能力。充分地将这些神经网络特性应用 于控制领域,可使控制系统的智能化向前迈进一大步。 随着被控系统越来越复杂,人们对控制系统的要求越来越高,特别是要求控制系统能适应不确定性、时变的 对象与环境。传统的基于精确模型的控制方法难以适应要求,现在关于控制的概念也已更加广泛,它要求包括一 些决策、规划以及学习功能。神经网络由于具有上述优点而越来越受到人们的重视。 本节将介绍人工神经网络的基本概念 和 ANN 的特性,以及神经网络的学习方法。 6.1.1 生物神经元模型 人脑大约包含 1012 个神经元,分成约 1000 种类型,每个神经元大约与 102 ~104 个其他神经元相连接,形成 极为错综复杂而又灵活多变的神经网络。每个神经元虽然都十分简单,但是如此大量的神经元之间、如此复杂的 连接却可以演化出丰富多彩的行为方式。同时,如此大量的神经元与外部感受器之间的多种多样的连接方式也蕴 含了变化莫测的反应方式。 一个神经元结构的模型示意图如图所示。 由图看出,神经元由胞体、树突和轴突构成。胞体是神经元的代谢中心,它本身又由细胞核、内质网和高尔 基体组成。内质网是合成膜和蛋白质的基础,高尔基体主要作用是加工合成物及分泌糖类物质,胞体一般生长有 许多树状突起,称为树突,它是神经元的主要接受器。胞体还延伸出一条管状纤维组织,称为轴突。轴突外面可 能包有一层厚的绝缘组织,称为髓鞘(梅林鞘),髋鞘规则地分为许多短段,段与段之间的部位称为郎飞节(Ranvier 节)
V 梅林鞘 轴突的作用主要是传导信息,传导的方向是由轴突的起点传向末端。通常,轴突的末端分出许多末梢,它们 同后一个神经元的树突构成一种称为突触的机构。其中,前一个神经元的轴突末梢称为突触的前膜,后一个神经 元的树突称为突触的后膜;前膜和后膜两者之间的窄缝空间称为突触的间隙,前一个神经元的信息由其轴突传到 末梢之后,通过突触对后面各个神经元产生影响。 从生物控制论的观点来看,神经元作为控制和信息处理的基本单元,具有下列一些重要的功能与特性: 1.时空整合功能 神经元对于不同时间通过同一突触传入的神经冲动,具有时间整合功能;对于同一时间通过不同突触传人的 神经冲动,具有空间整合功能。两种功能相互结合,具有时空整合的输入信息处理功能,所谓整合是指抑制和兴 奋的受体电位或突触电位的代数和。 2.兴奋与抑制状态 神经元具有两种常规工作状态:兴奋——一当传人冲动的时空整合结果,使细胞膜电位升高,超过被称为动作 电位的阈值(约为40mV)时,细胞进人兴奋状态,产生神经冲动,由轴突输出;抑制—一当传人冲动的时空整 合结果,使膜电位下降至低于动作电位的阈值时,细胞进人抑制状态,无神经冲动输出,满足“0-1”律,即“兴 奋、抑制”状态 3.脉冲与电位转换 突触界面具有脉冲/电位信号转换功能。沿神经纤维传递的电脉冲为等幅、恒宽、编码(60~100mV)的离 散脉冲信号,而细胞膜电位变化为连续的电位信号。在突触接口处进行“数/模”转换,是通过神经介质以量子 化学方式实现(电脉冲一神经化物质一膜电位)的变换过程。 4.神经纤维传导速度 神经冲动沿神经传导的速度在1~150m/s之间,因纤维的粗细、髓鞘的有无而有所不同:有髓鞘的粗纤维, 其传导速度在100m/s以上;无髓鞘的纤维细,其传导速度可低至每秒数米。 5.突触延时和不应期 突触对神经冲动的传递具有延时和不应期。在相邻的两次冲动之间需要一个时间间隔,即为不应期,在此期 间对激励不响应,不能传递神经冲动。 6.学习、遗忘和疲劳 由于结构可塑性,突触的传递作用可增强、减弱和饱和,所以细胞具有相应的学习功能,遗忘或疲劳效应(饱 和效应)。 随着脑科学和生物控制论研究的进展,人们对神经元的结构和功能有了进一步的了解,神经元并不是一个筒 单的双稳态逻辑元件,而是超级的微型生物信息处理机或控制机单元。 6.12人工神经元模型 人工神经元是对生物神经元的一种模拟与简化,它是神经网络的基本处理单元。如图所示为一种简化的人工 神经元结构。它是一个多输入、单输出的非线性元件
轴突的作用主要是传导信息,传导的方向是由轴突的起点传向末端。通常,轴突的末端分出许多末梢,它们 同后一个神经元的树突构成一种称为突触的机构。其中,前一个神经元的轴突末梢称为突触的前膜,后一个神经 元的树突称为突触的后膜;前膜和后膜两者之间的窄缝空间称为突触的间隙,前一个神经元的信息由其轴突传到 末梢之后,通过突触对后面各个神经元产生影响。 从生物控制论的观点来看,神经元作为控制和信息处理的基本单元,具有下列一些重要的功能与特性: 1. 时空整合功能 神经元对于不同时间通过同一突触传入的神经冲动,具有时间整合功能;对于同一时间通过不同突触传人的 神经冲动,具有空间整合功能。两种功能相互结合,具有时空整合的输入信息处理功能,所谓整合是指抑制和兴 奋的受体电位或突触电位的代数和。 2. 兴奋与抑制状态 神经元具有两种常规工作状态:兴奋——当传人冲动的时空整合结果,使细胞膜电位升高,超过被称为动作 电位的阈值(约为 40mV)时,细胞进人兴奋状态,产生神经冲动,由轴突输出;抑制——当传人冲动的时空整 合结果,使膜电位下降至低于动作电位的阈值时,细胞进人抑制状态,无神经冲动输出,满足“0-1”律,即“兴 奋、抑制”状态。 3. 脉冲与电位转换 突触界面具有脉冲/电位信号转换功能。沿神经纤维传递的电脉冲为等幅、恒宽、编码(60~100mV)的离 散脉冲信号,而细胞膜电位变化为连续的电位信号。在突触接口处进行“数/模”转换,是通过神经介质以量子 化学方式实现(电脉冲—神经化物质—膜电位)的变换过程。 4. 神经纤维传导速度 神经冲动沿神经传导的速度在 1~150 m/s 之间,因纤维的粗细、髓鞘的有无而有所不同:有髓鞘的粗纤维, 其传导速度在 100 m/s 以上;无髓鞘的纤维细,其传导速度可低至每秒数米。 5. 突触延时和不应期 突触对神经冲动的传递具有延时和不应期。在相邻的两次冲动之间需要一个时间间隔,即为不应期,在此期 间对激励不响应,不能传递神经冲动。 6. 学习、遗忘和疲劳 由于结构可塑性,突触的传递作用可增强、减弱和饱和,所以细胞具有相应的学习功能,遗忘或疲劳效应(饱 和效应)。 随着脑科学和生物控制论研究的进展,人们对神经元的结构和功能有了进一步的了解,神经元并不是一个筒 单的双稳态逻辑元件,而是超级的微型生物信息处理机或控制机单元。 6.1.2 人工神经元模型 人工神经元是对生物神经元的一种模拟与简化,它是神经网络的基本处理单元。如图所示为一种简化的人工 神经元结构。它是一个多输入、单输出的非线性元件
∑|f(:)) 其输入、输出关系为 1=∑vx- y1=f(1) 其中,x(=1,2∴…,m)是从其他神经元传来的输入信号;w表示从神经元j到神经元i的连接权值:为阙值 f(°)称为激发函数或作用函数 方便起见,常把-θ,也看成是恒等于1的输x0的权值,因此上式可写成: l1=∑wn 其中:wo=-日,xo=1。 输出激发函数f(·又称为变换函数,它决定神经元(节点)的输出。该输出为1或0,取决于其输入之和 大于或小于内部阈值O。f(·)函数一般具有非线性特性。下图为几种常见的激发函数图 1.阈值型函数(见图a,b) 当y取0或1时,f(x)为图(a)所示的阶跃函数: l,x≥0 f(x)= x<0 当y取-1或1时,f(x)为图(b)所示的sgn函数(符号函数) ≥0 sgn(x)=f(x) 2.饱和型函数(见图(c)) x≥l/k f(x)={kx-1/k≤x<l/k x<1/k
其输入、输出关系为: ∑= = − n j i ij j i I w x 1 θ ( ) i i y = f I 其中,x ( j 1,2, ,n) j = ⋅⋅⋅ 是从其他神经元传来的输入信号;wij 表示从神经元 j 到神经元 i 的连接权值;θ i 为阈值; f (•) 称为激发函数或作用函数。 方便起见,常把 −θ i 也看成是恒等于 1 的输 0 x 的权值,因此上式可写成: ∑= = n j i ij j I w x 0 其中: w0i = −θ i , x0 = 1。 输出激发函数 f (•) 又称为变换函数,它决定神经元(节点)的输出。该输出为 1 或 0,取决于其输入之和 大于或小于内部阈值θ i 。 f (•) 函数一般具有非线性特性。下图为几种常见的激发函数图。 1. 阈值型函数(见图 a,b) 当 i y 取 0 或 1 时, f (x) 为图(a)所示的阶跃函数: ⎩ ⎨ ⎧ < ≥ = 0, 0 1, 0 ( ) x x f x 当 i y 取-1 或 1 时, f (x) 为图(b)所示的 sgn 函数(符号函数): ⎩ ⎨ ⎧ − < ≥ = = 1, 0 1, 0 sgn( ) ( ) x x x f x 2. 饱和型函数(见图(c)) ⎪ ⎩ ⎪ ⎨ ⎧ − < − ≤ < ≥ = x k kx k x k x k f x 1 1/ 1/ 1/ 1 1/ ( )
fax) fCr) f(x)↓p=5 3.双曲函数(见图d) f(x)=tanh(x) 4.S型函数(见e) 神经元的状态与输入作用之间的关系是在(0,1)内连续取值的单调可微函数,称为 Sigmoid函数,简称S 型函数。 当β趋于无穷时,S型曲线趋于阶跃函数,通常情况下,β取值为1。 f(x) 1+e -,B>0 5.高斯函数(见图f) 在径向基函数( Radial Basis function,RBF)构成的神经网络中,神经元的结构可用高斯函数描述如下: f(x)=e-x2182 613人工神经网络模型 人工神经网络是以工程技术手段来模拟人脑神经网络的结构与特征的系统。利用人工神经元可以构成各种不 同拓扑结构的神经网络,它是生物神经网络的一种模拟和近似。目前已有数十种不同的神经网络模型,其中前馈 型网络和反馈型网络是两种典型的结构模型 1.前馈型神经网络 前馈型神经网络,又称前向网络( Feed forward nN)。如图所示,神经元分层排列,有输入层、隐层(亦称 中间层,可有若干层)和输出层,每一层的神经元只接受前一层神经元的输入 输入层 输出层 从学习的观点来看,前馈网络是一种强有力的学习系统,其结构简单而易于编程;从系统的观点看,前馈网 络是一静态非线性映射,通过简单非线性处理单元的复合映射,可获得复杂的非线性处理能力。但从计算的观点 看,缺乏丰富的动力学行为。大部分前馈网络都是学习网络,它们的分类能力和模式识别能力一般都强于反馈网 络,典型的前馈网络有感知器网络、BP网络等
3. 双曲函数(见图 d) f (x) = tanh(x) 4. S 型函数(见 e) 神经元的状态与输入作用之间的关系是在(0,1)内连续取值的单调可微函数,称为 Sigmoid 函数,简称 S 型函数。 当 β 趋于无穷时,S 型曲线趋于阶跃函数,通常情况下, β 取值为 1。 , 0 1 exp( ) 1 ( ) > + − = β βx f x 5. 高斯函数(见图 f) 在径向基函数(Radial Basis Function,RBF)构成的神经网络中,神经元的结构可用高斯函数描述如下: 2 2 / ( ) x δ f x e − = 6.1.3 人工神经网络模型 人工神经网络是以工程技术手段来模拟人脑神经网络的结构与特征的系统。利用人工神经元可以构成各种不 同拓扑结构的神经网络,它是生物神经网络的一种模拟和近似。目前已有数十种不同的神经网络模型,其中前馈 型网络和反馈型网络是两种典型的结构模型。 1. 前馈型神经网络 前馈型神经网络,又称前向网络(Feed forward NN)。如图所示,神经元分层排列,有输入层、隐层(亦称 中间层,可有若干层)和输出层,每一层的神经元只接受前一层神经元的输入。 从学习的观点来看,前馈网络是一种强有力的学习系统,其结构简单而易于编程;从系统的观点看,前馈网 络是一静态非线性映射,通过简单非线性处理单元的复合映射,可获得复杂的非线性处理能力。但从计算的观点 看,缺乏丰富的动力学行为。大部分前馈网络都是学习网络,它们的分类能力和模式识别能力一般都强于反馈网 络,典型的前馈网络有感知器网络、BP 网络等
2.反馈型神经网络 反馈型神经网络( Feedback NN)的结构如图所示。如果总节点(神经元)数为N,那么每个节点有N个输 入和一个输出,所有节点都是一样的,它们之间都可相互连接。 反馈神经网络是一种反馈动力学系统,它需要工作一段时间才能达到稳定。 Hopfield神经网络是反馈网络中 最简单且应用广泛的模型,它具有联想记忆的功能,如果将 Lyapunov函数定义为寻优函数, Hopfield神经网络 还可以用来解决快速寻优问题。 614神经网络的学习方法 学习方法是体现人工神经网络智能特性的主要标志,正是由于有学习算法,人工神经网络就具有了自适应、 自组织和自学习的能力。目前神经网络的学习方法有多种,按有无导师来分类,可分为有教师学习( Supervised Learning)、无教师学习( Unsupervised Learning)和再励学习( Reinforcement Learning)等几大类。在有教师的 学习方式中,网络的输出和期望的输出(即教师信号)进行比较,然后根据两者之间的差异调整网络的权值,最 终使差异变小。在无教师的学习方式中,输入模式进人网络后,网络按照预先设定的规则(如竞争规则)自动调 整权值,使网络最终具有模式分类等功能。再励学习是介于上述两者之间的一种学习方式。 下面介绍神经网络中常用的几种最基本的学习方法。 1.Hebb学习规则 Heb学习规则是一种联想式学习方法。联想是人脑形象思维过程的一种表现形式。例如,在空间和时间上 相互接近的事物间,在性质上相似(或相反)的事物间都容易在人脑中引起联想。生物学家 D O. Hebbian基于 对生物学和心理学的研究,提出了学习行为的突触联系和神经群理论。他认为突触前与突触后二者同时兴奋,即 两个神经元同时处于激发状态时,它们之间的连接强度将得到加强,这一论述的数学描述被称为Hebb学习规则, 其中,w(k)为连接从神经元i到神经元j的当前权值;,l为神经元的激活水平。 Heb学习规则是一种无教师的学习方法,它只根据神经元连接间的激活水平改变权值,因此这种方法又称 为相关学习或并联学习。 当神经元由下式描述时, 1=∑ y1=f(1)=1/(1+exp(-l1) Hebb学习规则可写成如下: k+1)=(k)+yy 另外,根据神经元状态变化来调整权值的Hebb学习方法称为微分Hebb学习方法,可描述为 W(k+1)=wn(k)+Dy(k)-y(k-1)y(k)-y(k-1)
2. 反馈型神经网络 反馈型神经网络(Feedback NN)的结构如图所示。如果总节点(神经元)数为 N,那么每个节点有 N 个输 入和一个输出,所有节点都是一样的,它们之间都可相互连接。 反馈神经网络是一种反馈动力学系统,它需要工作一段时间才能达到稳定。Hopfield 神经网络是反馈网络中 最简单且应用广泛的模型,它具有联想记忆的功能,如果将 Lyapunov 函数定义为寻优函数,Hopfie1d 神经网络 还可以用来解决快速寻优问题。 6.1.4 神经网络的学习方法 学习方法是体现人工神经网络智能特性的主要标志,正是由于有学习算法,人工神经网络就具有了自适应、 自组织和自学习的能力。目前神经网络的学习方法有多种,按有无导师来分类,可分为有教师学习(Supervised Learning)、无教师学习(Unsupervised Learning)和再励学习(Reinforcement Learning)等几大类。在有教师的 学习方式中,网络的输出和期望的输出(即教师信号)进行比较,然后根据两者之间的差异调整网络的权值,最 终使差异变小。在无教师的学习方式中,输入模式进人网络后,网络按照预先设定的规则(如竞争规则)自动调 整权值,使网络最终具有模式分类等功能。再励学习是介于上述两者之间的一种学习方式。 下面介绍神经网络中常用的几种最基本的学习方法。 1.Hebb 学习规则 Hebb 学习规则是一种联想式学习方法。联想是人脑形象思维过程的一种表现形式。例如,在空间和时间上 相互接近的事物间,在性质上相似(或相反)的事物间都容易在人脑中引起联想。生物学家 D.○.Hebbian 基于 对生物学和心理学的研究,提出了学习行为的突触联系和神经群理论。他认为突触前与突触后二者同时兴奋,即 两个神经元同时处于激发状态时,它们之间的连接强度将得到加强,这一论述的数学描述被称为 Hebb 学习规则, 即 ij ij i j w (k +1) = w (k) + I I 其中, w (k) ij 为连接从神经元 i 到神经元 j 的当前权值; i I , j I 为神经元的激活水平。 Hebb 学习规则是一种无教师的学习方法,它只根据神经元连接间的激活水平改变权值,因此这种方法又称 为相关学习或并联学习。 当神经元由下式描述时, ( ) 1/(1 exp( )) i i i i ij j j y f I I I w x = = + − = ∑ −θ Hebb 学习规则可写成如下: ij ij i j w (k +1) = w (k) + y y 另外,根据神经元状态变化来调整权值的 Hebb 学习方法称为微分 Hebb 学习方法,可描述为 w (k +1) = w (k) + [ y (k) − y (k −1)][y (k) − y (k −1)] ij ij i i j j
2. Delta(d)学习规则 假设下列误差准则函数: E=∑(dn-yn)2=∑En 其中,d,代表期望的输出(教师信号);yp=f(Wx)为网络的实际输出:W是网络的所有权值组成的向量 w=u ] X为输入模式:X=【xm,x;…“,xm,训练样本数P=12…P 可用梯度下降法来调整权值W,使准则函数最小。其求解基本思想是沿着E的负梯度方向不断修正W值, 直到E达到最小,这种方法的数学表 vw=n( W dE 其中 用日表示WX,则有 dE. dE 00 oE ay Xn=-d-y,)f(0,)x W的修正规则为 △W (d,-y f(8)x 上式称为δ学习规则,又称误差修正规则。定义误差传播函数δ为 aEaE ay P δ规则实现了E中的梯度下降,因此使误差函数达到最小值。但δ学习规则只适用于线性可分函数,无法 用于多层网络。BP网络的学习算法称为BP算法,是在δ规则基础上发展起来的,可在多网络上有效地学习。 3.概率式学习 从统计力学、分子热力学和概率论中关于系统稳态能量的标准出发,进行神经网络学习的方式称概率式学习 神经网络处于某一状态的概率主要取决于在此状态下的能量,能量越低,概率越大。同时,此概率还取决于温度 参数T。T越大,不同状态出现概率的差异便越小,较容易跳出能量的局部极小点而到全局的极小点;T越小时 情形正相反。概率式学习的典型代表是 boltzmann机学习规则。它是基于模拟退火的统计优化方法,因此又称模 拟退火算法。 boltzmann机模型是一个包括输入、输出和隐含层的多层网络,但隐含层间存在互联结构并且网络层次不明 显。对于这种网络的训练过程,就是根据规则: △W=(P-P)
2.Delta(δ )学习规则 假设下列误差准则函数: ∑ ∑ = = = − = p p p p p p Ep E d y 1 1 2 2 1 ( ) 其中,d p 代表期望的输出(教师信号); ( ) p WX p y = f 为网络的实际输出;W 是网络的所有权值组成的向量: T W w w wn [ , , , ] 0 1 = ⋅⋅⋅⋅⋅⋅ X p 为输入模式: T p p p pn X [x , x , , x ] 0 1 = ⋅⋅⋅⋅⋅⋅ ,训练样本数 p = 1,2,⋅⋅⋅⋅⋅⋅, P 。 可用梯度下降法来调整权值W ,使准则函数最小。其求解基本思想是沿着 E 的负梯度方向不断修正W 值, 直到 E 达到最小,这种方法的数学表达式为: ( ) Wi E W ∂ ∂ ∇ =η − ∑= ∂ ∂ = ∂ ∂ p p i p i W E W E 1 其中: 2 2 1 ( ) p p p E = d − y 用θ p 表示WX p ,则有 ip p p p ip p p p p i p p p i p X d y f X y y E W E W E ( ) ( ) ' θ θ θ θ = − − ∂ ∂ ∂ ∂ = ∂ ∂ ∂ ∂ = ∂ ∂ W 的修正规则为 ∑= Δ = − p p i p p p Xip W d y f 1 ' η ( ) (θ ) 上式称为δ 学习规则,又称误差修正规则。定义误差传播函数δ 为 p p p p p p y y E E θ θ δ ∂ ∂ ∂ ∂ = − ∂ ∂ = δ 规则实现了 E 中的梯度下降,因此使误差函数达到最小值。但δ 学习规则只适用于线性可分函数,无法 用于多层网络。BP 网络的学习算法称为 BP 算法,是在δ 规则基础上发展起来的,可在多网络上有效地学习。 3.概率式学习 从统计力学、分子热力学和概率论中关于系统稳态能量的标准出发,进行神经网络学习的方式称概率式学习。 神经网络处于某一状态的概率主要取决于在此状态下的能量,能量越低,概率越大。同时,此概率还取决于温度 参数 T。T 越大,不同状态出现概率的差异便越小,较容易跳出能量的局部极小点而到全局的极小点;T 越小时, 情形正相反。概率式学习的典型代表是 Boltzmann 机学习规则。它是基于模拟退火的统计优化方法,因此又称模 拟退火算法。 Boltzmann 机模型是一个包括输入、输出和隐含层的多层网络,但隐含层间存在互联结构并且网络层次不明 显。对于这种网络的训练过程,就是根据规则: ( ) ' ij ij ij ΔW =η p − p
对神经元,j间的连接权值进行调整的过程。式中,7为学习速率:P表示网络受到学习样本的约束且系统达 到平衡状态时第i个和第j个神经元同时为1的概率;PG表示系统为自由运转状态且达到平衡状态时第i个和第 j个神经元同时为1的概率 调整权值的原则是:当P>P时,则权值增加,否则减少权值。这种权值调整公式称为 boltzmann机学习 规则,即 W(k+1)=n(k)+0(P-P2,7>0 当Pg-P小于一定容限时,学习结束 由于模拟退火过程要求高温使系统达到平衡状态,而冷却(即退火)过程又必须缓慢地进行,否则容易造成 局部最小,所以这种学习规则的学习收敛速度较慢。 4.竞争式学习 竞争式学习属于无教师学习方式。此种学习方式利用不同层间的神经元发生兴奋性联接,以及同一层内距离 很近的神经元间发生同样的兴奋性联接,而距离较远的神经元产生抑制性联接。在这种联接机制中引人竞争机制 的学习方式称为竞争式学习。它的本质在于神经网络中高层次的神经元对低层次神经元的输入模式进行竞争识 竞争式机制的思想来源于人脑的自组织能力。大脑能够及时地调整自身结构,自动地向环境学习,完成所需 执行的功能,而并不需要教师训练。竞争式神经网络亦是如此,所以,又把这一类网络称为自组织神经网络(自 适应共振网络模型 Adaptive Resonance Theory ART) 自组织神经网络要求识别与输入最匹配的节点,定义距离d,为接近距离测度,即 d1=∑(u1-)2 其中,u为N维输入向量,具有最短距离的节点选作胜者,它的权向量经修正使该节点对输入更敏感。 定义N,其半径逐渐减小至接近于零,权值的学习规则为 a(u i∈N 0 N 在这类学习规则中,关键不在于实节点的输出怎样与外部的期望输出相一致,而在于调整权向量以反映观察 事件的分布,提供基于检测特性空间的活动规律的性能描写 从上述几种学习规则可见,要使人工神经网络具有学习能力,就是使神经网络的知识结构变化,即使神经元 间的结合模式变化,这同把连接权向量用什么方法变化是等价的。所以,所谓神经网络的学习,目前主要是指通 过一定的学习算法实现对突触结合强度(权值)的调整,使其达到具有记忆、识别、分类、信息处理和问题优化 求解等功能,这是一个正在发展中的研究课题。 62前向神经网络 621感知器网络 感知器( perceptron)是一个具有单层神经元的神经网络,并由线性阈值元件组成,是最简单的前向网络 它主要用于模式分类,单层的感知器网络结构如下图所示
对神经元 i,j 间的连接权值进行调整的过程。式中,η 为学习速率; pij 表示网络受到学习样本的约束且系统达 到平衡状态时第 i 个和第 j 个神经元同时为 1 的概率; ' ij p 表示系统为自由运转状态且达到平衡状态时第 i 个和第 j 个神经元同时为 1 的概率。 调整权值的原则是:当 ' ij ij p > p 时,则权值增加,否则减少权值。这种权值调整公式称为 Boltzmann 机学习 规则,即 ( 1) ( ) ( ), 0 ' Wij k + = wij k +η pij − pij η > 当 ' ij ij p − p 小于一定容限时,学习结束。 由于模拟退火过程要求高温使系统达到平衡状态,而冷却(即退火)过程又必须缓慢地进行,否则容易造成 局部最小,所以这种学习规则的学习收敛速度较慢。 4.竞争式学习 竞争式学习属于无教师学习方式。此种学习方式利用不同层间的神经元发生兴奋性联接,以及同一层内距离 很近的神经元间发生同样的兴奋性联接,而距离较远的神经元产生抑制性联接。在这种联接机制中引人竞争机制 的学习方式称为竞争式学习。它的本质在于神经网络中高层次的神经元对低层次神经元的输入模式进行竞争识 别。 竞争式机制的思想来源于人脑的自组织能力。大脑能够及时地调整自身结构,自动地向环境学习,完成所需 执行的功能,而并不需要教师训练。竞争式神经网络亦是如此,所以,又把这一类网络称为自组织神经网络(自 适应共振网络模型 Adaptive Resonance Theory ART)。 自组织神经网络要求识别与输入最匹配的节点,定义距离 d j 为接近距离测度,即 ∑ − = = − 1 0 2 ( ) N i d j ui wij 其中,u 为 N 维输入向量,具有最短距离的节点选作胜者,它的权向量经修正使该节点对输入u 更敏感。 定义 Nc ,其半径逐渐减小至接近于零,权值的学习规则为 ⎩ ⎨ ⎧ ∉ − ∈ Δ = c i ij c ij i N u w i N w 0 α( ) 在这类学习规则中,关键不在于实节点的输出怎样与外部的期望输出相一致,而在于调整权向量以反映观察 事件的分布,提供基于检测特性空间的活动规律的性能描写。 从上述几种学习规则可见,要使人工神经网络具有学习能力,就是使神经网络的知识结构变化,即使神经元 间的结合模式变化,这同把连接权向量用什么方法变化是等价的。所以,所谓神经网络的学习,目前主要是指通 过一定的学习算法实现对突触结合强度(权值)的调整,使其达到具有记忆、识别、分类、信息处理和问题优化 求解等功能,这是一个正在发展中的研究课题。 6.2 前向神经网络 6.2.1 感知器网络 感知器(perceptron)是一个具有单层神经元的神经网络,并由线性阈值元件组成,是最简单的前向网络。 它主要用于模式分类,单层的感知器网络结构如下图所示
其中X=[x,x2…x是输入特征向量:y(=12;…m)为输出量,是按照不同特征分类的结果:v是x 到ν的连接权值,此权值是可调整的,因而有学习功能 由于按不同特征的分类是相互独立的,因而可以取出其中的一个神经元来讨论,如图所示。 为方便起见,令输入量x0=1,将阈值并入权中(因为6值也需要学习),-b=W0,感知器的输入输出 关系可表示为 fC∑mx) 当其输入的加权和大于或等于阈值时,输出为1,否则为-1(或为0)。 下面给出感知器的一种学习算法 1).随机地给定一组连接权w(O)(较小的非零值),这里w,(k)为k时刻第i个输入上的权(≤i≤m) 0(k)为k时刻的阈值。 2)输入一组样本X=(x0,x1…x)和期望的输出d(亦称之为教师信号)。如果X∈A类(某一类),则 y4=1,如果X∈B类(另一类),则y4=-1 3).计算感知器实际输出 1,∑(k)x,≥0 y(k)=f(∑v(k)x) 1,∑w(k) xo=1,w0(0)=-6) 按下式修正权值:
其中 T n X [x , x , , x ] 1 2 = ⋅⋅⋅ 是输入特征向量;y (i 1,2, ,m) i = ⋅⋅⋅ 为输出量,是按照不同特征分类的结果;wij 是 j x 到 i y 的连接权值,此权值是可调整的,因而有学习功能。 由于按不同特征的分类是相互独立的,因而可以取出其中的一个神经元来讨论,如图所示。 为方便起见,令输入量 x0 = 1,将阈值θ 并入权中(因为θ 值也需要学习),−θ = w0 ,感知器的输入输出 关系可表示为 ( ) 0 ∑= = n i i i y f w x 当其输入的加权和大于或等于阈值时,输出为 1,否则为-1(或为 0)。 下面给出感知器的一种学习算法: 1). 随机地给定一组连接权 (0) wi (较小的非零值),这里 w (k) i 为 k 时刻第 i 个输入上的权 (1 ≤ i ≤ n) , ( ) 0 w k 为k 时刻的阈值。 2). 输入一组样本 ( , , , ) 0 1 n X = x x ⋅⋅⋅ x 和期望的输出 d (亦称之为教师信号)。如果 X∈A 类(某一类),则 yd = 1,如果 X∈B 类(另一类),则 yd = −1。 3). 计算感知器实际输出: ⎪ ⎪ ⎩ ⎪ ⎪ ⎨ ⎧ − < ≥ = = ∑ ∑ ∑ − − = n i i i n i n i i i i i w k x w k x y k f w k x 0 0 0 1, ( ) 0 1, ( ) 0 ( ) ( ( ) ) ( 1, (0) ) x0 = w0 = −θ 4). 按下式修正权值:
(k+1)=w,(k)+nd(k)-y(k)]x i=0,1,2……,n 其中,w1(k)为当前的权值;d(k)为导师信号;y(k)为感知器的输出值;n为学习速率(0<n<1),刀选取太 小学习太慢,η太大会影响的稳定,即引起震荡。 5)选取另外一组样本,重复上述2)~4)的过程,直到权值对一切样本均稳定不变为止,学习过程结束 上述的单层感知器能解决一阶谓词逻辑问题,如逻辑“与”、逻辑“或”问题,但不能解决像异或问题的二 阶谓词逻辑问题。感知器的学习算法保证收敛的条件是,要求函数是线性可分的(即输入样本函数类成员可分别 位于直线分界线的两侧),当输入函数不满足线性可分条件时,上述算法受到了限制,也不能推广到一般的前向 网络中去,其主要原因是由于激发函数是阈值函数。为此,人们用可微函数,如 Sigmoid曲线来代替阈值函数 然后用梯度法来修正权值。BP网络就是这种算法的典型网络。 622BP网络 误差反向传播神经网络,简称BP网络( Back Propagation),是一种单向传播的多层前向网络。在模式识别 图像处理、系统辨识、函数拟合、优化计算、最优预测和自适应控制等领域有着较为广泛的应用。如图是BP网 络的示意图。 误差反传(学习算法) 隐含层 输出层 误差反向传播的BP算法简称BP算法,其基本思想是最小二乘算法。它采用梯度搜索技术,以期使网络的 实际输出值与期望输出值的误差均方值为最小。 BP算法的学习过程由正向传播和反向传播组成。在正向传播过程中,输入信息从输入层经隐含层逐层处理, 并传向输出层,每层神经元(节点)的状态只影响下一层神经元的状态。如果在输出层不能得到期望的输出,则 转人反向传播,将误差信号沿原来的连接通路返回,通过修改各层神经元的权值,使误差信号最小。 设BP网络的结构如图所示,有M个输入节点,输入层节点的输出等于其输入。输出层有L个输出节点, 网络的隐含层有q个节点,Wn是输入层和隐含层节点之间的连接权值。wk是隐含层和输出层节点之间的连接 权值,隐含层和输出层节点的输入是前一层节点的输出的加权和,每个节点的激励程度由它的激发函数来决定。 1.BP网络的前馈计算 在训练该网络的学习阶段,设有N个训练样本,先假定用其中的某一固定样本中的输入输出模式X,和{dmk} 对网络进行训练。若网络输出与期望输出值dk不一致,则将其误差信号从输出端反向传播,并在传播过程中对 加权系数不断修正,使在输出层节点上得到的输出结果尽可能接近期望输出值dk。对样本P(P=1,2…,P)完 成网络加权系数的调整后,再送人另一样本模式对,进行类似学习,直到完成P个样本的训练学习为止 2.BP网络权值的调整规则
i n w k w k d k y k x i i i 0,1,2, , ( 1) ( ) [ ( ) ( )] = ⋅⋅⋅ + = +η − 其中, w (k) i 为当前的权值;d(k) 为导师信号; y(k)为感知器的输出值;η 为学习速率(0 <η < 1),η 选取太 小学习太慢,η 太大会影响的稳定,即引起震荡。 5). 选取另外一组样本,重复上述 2)~4)的过程,直到权值对一切样本均稳定不变为止,学习过程结束。 上述的单层感知器能解决一阶谓词逻辑问题,如逻辑“与”、逻辑“或”问题,但不能解决像异或问题的二 阶谓词逻辑问题。感知器的学习算法保证收敛的条件是,要求函数是线性可分的(即输入样本函数类成员可分别 位于直线分界线的两侧),当输入函数不满足线性可分条件时,上述算法受到了限制,也不能推广到一般的前向 网络中去,其主要原因是由于激发函数是阈值函数。为此,人们用可微函数,如 Sigmoid 曲线来代替阈值函数, 然后用梯度法来修正权值。BP 网络就是这种算法的典型网络。 6.2.2 BP 网络 误差反向传播神经网络,简称 BP 网络(Back Propagation),是一种单向传播的多层前向网络。在模式识别、 图像处理、系统辨识、函数拟合、优化计算、最优预测和自适应控制等领域有着较为广泛的应用。如图是 BP 网 络的示意图。 误差反向传播的 BP 算法简称 BP 算法,其基本思想是最小二乘算法。它采用梯度搜索技术,以期使网络的 实际输出值与期望输出值的误差均方值为最小。 BP 算法的学习过程由正向传播和反向传播组成。在正向传播过程中,输入信息从输入层经隐含层逐层处理, 并传向输出层,每层神经元(节点)的状态只影响下一层神经元的状态。如果在输出层不能得到期望的输出,则 转人反向传播,将误差信号沿原来的连接通路返回,通过修改各层神经元的权值,使误差信号最小。 设 BP 网络的结构如图所示,有 M 个输入节点,输入层节点的输出等于其输入。输出层有 L 个输出节点, 网络的隐含层有 q 个节点, wij 是输入层和隐含层节点之间的连接权值。 wjk 是隐含层和输出层节点之间的连接 权值,隐含层和输出层节点的输入是前一层节点的输出的加权和,每个节点的激励程度由它的激发函数来决定。 1.BP 网络的前馈计算 在训练该网络的学习阶段,设有N个训练样本,先假定用其中的某一固定样本中的输入输出模式 X p 和{ } d pk 对网络进行训练。若网络输出与期望输出值 dk 不一致,则将其误差信号从输出端反向传播,并在传播过程中对 加权系数不断修正,使在输出层节点上得到的输出结果尽可能接近期望输出值 dk 。对样本 p ( p = 1,2,⋅⋅⋅, P) 完 成网络加权系数的调整后,再送人另一样本模式对,进行类似学习,直到完成 P 个样本的训练学习为止。 2.BP 网络权值的调整规则
设每一样本P的输入输出模式对的二次型误差函数定义为 En=∑(dm-O成 系统的平均误差代价函数为 式中,P为样本模式对数,L为网络输出节点数。 下面介绍基于一阶梯度法的优化方法,即最速下降法。 为简便起见,略去下标p,有 ∑(d4-O) 权系数应按E函数梯度变化的反方向进行调整,使网络的输出接近期望的输出。 1).输出层权系数的调整 权系数的修正公式为 aE 式中,为学习速率,n>0 dEdE 'k aneto 定义反传误差信号δ4为 ae aE aO anet, a0, anet 式中 -(dk4-O4) Ok -f(net )=f(net) aneto aneto 64=(d4-O)f(netk)=O4(1-O4)dk-04) onet 由此可得输出层的任意神经元权系数的修正公式为 Aw k=ndk -Ok)f(net )O,=n0,o, Wk=no (1-Ond-O)O
设每一样本 p 的输入输出模式对的二次型误差函数定义为 ∑− = − L k Ep d pk Opk 1 2 1 ( ) 系统的平均误差代价函数为 ∑∑ ∑ == = = − = P p L k P p pk Opk Ep E d 11 1 2 ( ) 2 1 式中,P 为样本模式对数,L 为网络输出节点数。 下面介绍基于一阶梯度法的优化方法,即最速下降法。 为简便起见,略去下标 p,有 2 1 ( ) 2 1 ∑= = − L k E dk Ok 权系数应按 E 函数梯度变化的反方向进行调整,使网络的输出接近期望的输出。 1). 输出层权系数的调整 权系数的修正公式为 jk jk w E w ∂ ∂ Δ = −η 式中,η 为学习速率,η > 0 ; jk k jk k w net net E w E ∂ ∂ ∂ ∂ = ∂ ∂ 定义反传误差信号δ k 为 k k k k k net O O E net E ∂ ∂ ∂ ∂ = ∂ ∂ δ = − 式中: ( ) k k k d O O E = − − ∂ ∂ ( ) '( ) k k k k k f net f net net net O = ∂ ∂ = ∂ ∂ ( ) '( ) (1 )( ) k k k netk Ok Ok dk Ok δ = d − O f = − − ∑= = ∂ ∂ = ∂ ∂ q j jk j j jk jk k w O O w w net 1 ( ) 由此可得输出层的任意神经元权系数的修正公式为 jk k k netk Oj kOj Δw =η(d − O ) f '( ) =ηδ 或 wjk Ok Ok dk Ok Oj Δ =η (1− )( − )