郑州大学电气工程学院：《智能控制》课程教学资源（讲义）第6章神经网络控制.pdf_大学文库

第6章神经网络控制教学内容首先介绍人工神经网络的基本概念和ANN的特性,以及神经网络的学习方法。然后讲授典型的前向神经网络、反馈神经网络的原理、结构、基本算法,给岀了BP网络的算法改进。最后介绍了神经网络PID控制。教学重点 1.神经网络的各种学习算法,神经网络的训练。 2.感知器网络、BP网络的结构和算法、BP网络学习算法的改进,反馈网络的结构、学习算法。 3.神经网络PID控制教学难点神经网络的各种学习算法以及神经网络PD控制。教学要求 1.理解神经网络的基本概念。 2.掌握无监督Hebb学习规则、有监督的学习规则或 Widow-Ho学习规则、有监督Hebb学习规则 3.熟练掌握典型的前向神经网络、反馈神经网络的原理、结构、基本算法 4.掌握BP网络的算法改进。 5.了解和掌握神经网络PID控制。 61概述基于人工神经网络的控制(ANN- based Control)简称神经控制( Neural Control)。神经网络是由大量人工神经元(处理单元)广泛互联而成的网络,它是在现代神经生物学和认识科学对人类信息处理研究的基础上提出来的,具有很强的自适应性和学习能力、非线性映射能力、鲁棒性和容错能力。充分地将这些神经网终特性应用于控制领域,可使控制系统的智能化向前迈进一大步。随着被控系统越来越复杂,人们对控制系统的要求越来越高,特别是要求控制系统能适应不确定性、时变的对象与环境。传统的基于精确模型的控制方法难以适应要求,现在关于控制的概念也已更加广泛,它要求包括- 些决策、规划以及学习功能。神经网络由于具有上述优点而越来越受到人们的重视。本节将介绍人工神经网络的基本概念和ANN的特性,以及神经网络的学习方 611生物神经元模型人脑大约包含102个神经元,分成约1000种类型,每个神经元大约与102~104个其他神经元相连接,形成极为错综复杂而又灵活多变的神经网络。每个神经元虽然都十分简单,但是如此大量的神经元之间、如此复杂的连接却可以演化出丰富多彩的行为方式。同时,如此大量的神经元与外部感受器之间的多种多样的连接方式也蕴含了变化莫测的反应方式个神经元结构的模型示意图如图所示。由图看出,神经元由胞体、树突和轴突构成。胞体是神经元的代谢中心,它本身又由细胞核、内质网和高尔基体组成。内质网是合成膜和蛋白质的基础,高尔基体主要作用是加工合成物及分泌糖类物质,胞体一般生长有许多树状突起,称为树突,它是神经元的主要接受器。胞体还延伸出一条管状纤维组织,称为轴突。轴突外面可能包有一层厚的绝缘组织,称为髓鞘(梅林鞘),髋鞘规则地分为许多短段,段与段之间的部位称为郎飞节( Ranvier

第6章神经网络控制教学内容首先介绍人工神经网络的基本概念和 ANN 的特性，以及神经网络的学习方法。然后讲授典型的前向神经网络、反馈神经网络的原理、结构、基本算法，给出了 BP 网络的算法改进。最后介绍了神经网络 PID 控制。教学重点 1. 神经网络的各种学习算法，神经网络的训练。 2. 感知器网络、BP 网络的结构和算法、BP 网络学习算法的改进，反馈网络的结构、学习算法。 3. 神经网络 PID 控制。教学难点神经网络的各种学习算法以及神经网络 PID 控制。教学要求 1．理解神经网络的基本概念。 2．掌握无监督 Hebb 学习规则、有监督的学习规则或 Widow-Hoff 学习规则、有监督 Hebb 学习规则。 3．熟练掌握典型的前向神经网络、反馈神经网络的原理、结构、基本算法。 4．掌握 BP 网络的算法改进。 5．了解和掌握神经网络 PID 控制。 6.1 概述基于人工神经网络的控制（ANN—based Control）简称神经控制（Neural Control）。神经网络是由大量人工神经元（处理单元）广泛互联而成的网络，它是在现代神经生物学和认识科学对人类信息处理研究的基础上提出来的，具有很强的自适应性和学习能力、非线性映射能力、鲁棒性和容错能力。充分地将这些神经网络特性应用于控制领域，可使控制系统的智能化向前迈进一大步。随着被控系统越来越复杂，人们对控制系统的要求越来越高，特别是要求控制系统能适应不确定性、时变的对象与环境。传统的基于精确模型的控制方法难以适应要求，现在关于控制的概念也已更加广泛，它要求包括一些决策、规划以及学习功能。神经网络由于具有上述优点而越来越受到人们的重视。本节将介绍人工神经网络的基本概念和 ANN 的特性，以及神经网络的学习方法。 6.1.1 生物神经元模型人脑大约包含 1012 个神经元，分成约 1000 种类型，每个神经元大约与 102 ～104 个其他神经元相连接，形成极为错综复杂而又灵活多变的神经网络。每个神经元虽然都十分简单，但是如此大量的神经元之间、如此复杂的连接却可以演化出丰富多彩的行为方式。同时，如此大量的神经元与外部感受器之间的多种多样的连接方式也蕴含了变化莫测的反应方式。一个神经元结构的模型示意图如图所示。由图看出，神经元由胞体、树突和轴突构成。胞体是神经元的代谢中心，它本身又由细胞核、内质网和高尔基体组成。内质网是合成膜和蛋白质的基础，高尔基体主要作用是加工合成物及分泌糖类物质，胞体一般生长有许多树状突起，称为树突，它是神经元的主要接受器。胞体还延伸出一条管状纤维组织，称为轴突。轴突外面可能包有一层厚的绝缘组织，称为髓鞘（梅林鞘），髋鞘规则地分为许多短段，段与段之间的部位称为郎飞节（Ranvier 节）

V 梅林鞘轴突的作用主要是传导信息,传导的方向是由轴突的起点传向末端。通常,轴突的末端分出许多末梢,它们同后一个神经元的树突构成一种称为突触的机构。其中,前一个神经元的轴突末梢称为突触的前膜,后一个神经元的树突称为突触的后膜;前膜和后膜两者之间的窄缝空间称为突触的间隙,前一个神经元的信息由其轴突传到末梢之后,通过突触对后面各个神经元产生影响。从生物控制论的观点来看,神经元作为控制和信息处理的基本单元,具有下列一些重要的功能与特性: 1.时空整合功能神经元对于不同时间通过同一突触传入的神经冲动,具有时间整合功能;对于同一时间通过不同突触传人的神经冲动,具有空间整合功能。两种功能相互结合,具有时空整合的输入信息处理功能,所谓整合是指抑制和兴奋的受体电位或突触电位的代数和。 2.兴奋与抑制状态神经元具有两种常规工作状态:兴奋——一当传人冲动的时空整合结果,使细胞膜电位升高,超过被称为动作电位的阈值(约为40mV)时,细胞进人兴奋状态,产生神经冲动,由轴突输出;抑制—一当传人冲动的时空整合结果,使膜电位下降至低于动作电位的阈值时,细胞进人抑制状态,无神经冲动输出,满足“0-1”律,即“兴奋、抑制”状态 3.脉冲与电位转换突触界面具有脉冲/电位信号转换功能。沿神经纤维传递的电脉冲为等幅、恒宽、编码(60~100mV)的离散脉冲信号,而细胞膜电位变化为连续的电位信号。在突触接口处进行“数/模”转换,是通过神经介质以量子化学方式实现(电脉冲一神经化物质一膜电位)的变换过程。 4.神经纤维传导速度神经冲动沿神经传导的速度在1~150m/s之间,因纤维的粗细、髓鞘的有无而有所不同:有髓鞘的粗纤维, 其传导速度在100m/s以上;无髓鞘的纤维细,其传导速度可低至每秒数米。 5.突触延时和不应期突触对神经冲动的传递具有延时和不应期。在相邻的两次冲动之间需要一个时间间隔,即为不应期,在此期间对激励不响应,不能传递神经冲动。 6.学习、遗忘和疲劳由于结构可塑性,突触的传递作用可增强、减弱和饱和,所以细胞具有相应的学习功能,遗忘或疲劳效应(饱和效应)。随着脑科学和生物控制论研究的进展,人们对神经元的结构和功能有了进一步的了解,神经元并不是一个筒单的双稳态逻辑元件,而是超级的微型生物信息处理机或控制机单元。 6.12人工神经元模型人工神经元是对生物神经元的一种模拟与简化,它是神经网络的基本处理单元。如图所示为一种简化的人工神经元结构。它是一个多输入、单输出的非线性元件

轴突的作用主要是传导信息，传导的方向是由轴突的起点传向末端。通常，轴突的末端分出许多末梢，它们同后一个神经元的树突构成一种称为突触的机构。其中，前一个神经元的轴突末梢称为突触的前膜，后一个神经元的树突称为突触的后膜；前膜和后膜两者之间的窄缝空间称为突触的间隙，前一个神经元的信息由其轴突传到末梢之后，通过突触对后面各个神经元产生影响。从生物控制论的观点来看，神经元作为控制和信息处理的基本单元，具有下列一些重要的功能与特性： 1. 时空整合功能神经元对于不同时间通过同一突触传入的神经冲动，具有时间整合功能；对于同一时间通过不同突触传人的神经冲动，具有空间整合功能。两种功能相互结合，具有时空整合的输入信息处理功能，所谓整合是指抑制和兴奋的受体电位或突触电位的代数和。 2. 兴奋与抑制状态神经元具有两种常规工作状态：兴奋——当传人冲动的时空整合结果，使细胞膜电位升高，超过被称为动作电位的阈值（约为 40mV）时，细胞进人兴奋状态，产生神经冲动，由轴突输出；抑制——当传人冲动的时空整合结果，使膜电位下降至低于动作电位的阈值时，细胞进人抑制状态，无神经冲动输出，满足“0－1”律，即“兴奋、抑制”状态。 3. 脉冲与电位转换突触界面具有脉冲／电位信号转换功能。沿神经纤维传递的电脉冲为等幅、恒宽、编码（60～100mV）的离散脉冲信号，而细胞膜电位变化为连续的电位信号。在突触接口处进行“数／模”转换，是通过神经介质以量子化学方式实现（电脉冲—神经化物质—膜电位）的变换过程。 4. 神经纤维传导速度神经冲动沿神经传导的速度在 1～150 m/s 之间，因纤维的粗细、髓鞘的有无而有所不同：有髓鞘的粗纤维，其传导速度在 100 m/s 以上；无髓鞘的纤维细，其传导速度可低至每秒数米。 5. 突触延时和不应期突触对神经冲动的传递具有延时和不应期。在相邻的两次冲动之间需要一个时间间隔，即为不应期，在此期间对激励不响应，不能传递神经冲动。 6. 学习、遗忘和疲劳由于结构可塑性，突触的传递作用可增强、减弱和饱和，所以细胞具有相应的学习功能，遗忘或疲劳效应（饱和效应）。随着脑科学和生物控制论研究的进展，人们对神经元的结构和功能有了进一步的了解，神经元并不是一个筒单的双稳态逻辑元件，而是超级的微型生物信息处理机或控制机单元。 6.1.2 人工神经元模型人工神经元是对生物神经元的一种模拟与简化，它是神经网络的基本处理单元。如图所示为一种简化的人工神经元结构。它是一个多输入、单输出的非线性元件

2.反馈型神经网络反馈型神经网络( Feedback NN)的结构如图所示。如果总节点(神经元)数为N,那么每个节点有N个输入和一个输出,所有节点都是一样的,它们之间都可相互连接。反馈神经网络是一种反馈动力学系统,它需要工作一段时间才能达到稳定。 Hopfield神经网络是反馈网络中最简单且应用广泛的模型,它具有联想记忆的功能,如果将 Lyapunov函数定义为寻优函数, Hopfield神经网络还可以用来解决快速寻优问题。 614神经网络的学习方法学习方法是体现人工神经网络智能特性的主要标志,正是由于有学习算法,人工神经网络就具有了自适应、自组织和自学习的能力。目前神经网络的学习方法有多种,按有无导师来分类,可分为有教师学习( Supervised Learning)、无教师学习( Unsupervised Learning)和再励学习( Reinforcement Learning)等几大类。在有教师的学习方式中,网络的输出和期望的输出(即教师信号)进行比较,然后根据两者之间的差异调整网络的权值,最终使差异变小。在无教师的学习方式中,输入模式进人网络后,网络按照预先设定的规则(如竞争规则)自动调整权值,使网络最终具有模式分类等功能。再励学习是介于上述两者之间的一种学习方式。下面介绍神经网络中常用的几种最基本的学习方法。 1.Hebb学习规则 Heb学习规则是一种联想式学习方法。联想是人脑形象思维过程的一种表现形式。例如,在空间和时间上相互接近的事物间,在性质上相似(或相反)的事物间都容易在人脑中引起联想。生物学家 D O. Hebbian基于对生物学和心理学的研究,提出了学习行为的突触联系和神经群理论。他认为突触前与突触后二者同时兴奋,即两个神经元同时处于激发状态时,它们之间的连接强度将得到加强,这一论述的数学描述被称为Hebb学习规则, 其中,w(k)为连接从神经元i到神经元j的当前权值;,l为神经元的激活水平。 Heb学习规则是一种无教师的学习方法,它只根据神经元连接间的激活水平改变权值,因此这种方法又称为相关学习或并联学习。当神经元由下式描述时, 1=∑ y1=f(1)=1/(1+exp(-l1) Hebb学习规则可写成如下: k+1)=(k)+yy 另外,根据神经元状态变化来调整权值的Hebb学习方法称为微分Hebb学习方法,可描述为 W(k+1)=wn(k)+Dy(k)-y(k-1)y(k)-y(k-1)

2. 反馈型神经网络反馈型神经网络（Feedback NN）的结构如图所示。如果总节点（神经元）数为 N，那么每个节点有 N 个输入和一个输出，所有节点都是一样的，它们之间都可相互连接。反馈神经网络是一种反馈动力学系统，它需要工作一段时间才能达到稳定。Hopfield 神经网络是反馈网络中最简单且应用广泛的模型，它具有联想记忆的功能，如果将 Lyapunov 函数定义为寻优函数，Hopfie1d 神经网络还可以用来解决快速寻优问题。 6.1.4 神经网络的学习方法学习方法是体现人工神经网络智能特性的主要标志，正是由于有学习算法，人工神经网络就具有了自适应、自组织和自学习的能力。目前神经网络的学习方法有多种，按有无导师来分类，可分为有教师学习（Supervised Learning）、无教师学习（Unsupervised Learning）和再励学习（Reinforcement Learning）等几大类。在有教师的学习方式中，网络的输出和期望的输出（即教师信号）进行比较，然后根据两者之间的差异调整网络的权值，最终使差异变小。在无教师的学习方式中，输入模式进人网络后，网络按照预先设定的规则（如竞争规则）自动调整权值，使网络最终具有模式分类等功能。再励学习是介于上述两者之间的一种学习方式。下面介绍神经网络中常用的几种最基本的学习方法。 1．Hebb 学习规则 Hebb 学习规则是一种联想式学习方法。联想是人脑形象思维过程的一种表现形式。例如，在空间和时间上相互接近的事物间，在性质上相似（或相反）的事物间都容易在人脑中引起联想。生物学家 D.○.Hebbian 基于对生物学和心理学的研究，提出了学习行为的突触联系和神经群理论。他认为突触前与突触后二者同时兴奋，即两个神经元同时处于激发状态时，它们之间的连接强度将得到加强，这一论述的数学描述被称为 Hebb 学习规则，即 ij ij i j w (k +1) = w (k) + I I 其中， w (k) ij 为连接从神经元 i 到神经元 j 的当前权值； i I ， j I 为神经元的激活水平。 Hebb 学习规则是一种无教师的学习方法，它只根据神经元连接间的激活水平改变权值，因此这种方法又称为相关学习或并联学习。当神经元由下式描述时， ( ) 1/(1 exp( )) i i i i ij j j y f I I I w x = = + − = ∑ −θ Hebb 学习规则可写成如下： ij ij i j w (k +1) = w (k) + y y 另外，根据神经元状态变化来调整权值的 Hebb 学习方法称为微分 Hebb 学习方法，可描述为 w (k +1) = w (k) + [ y (k) − y (k −1)][y (k) − y (k −1)] ij ij i i j j

2．Delta（δ ）学习规则假设下列误差准则函数： ∑ ∑ = = = − = p p p p p p Ep E d y 1 1 2 2 1 ( ) 其中，d p 代表期望的输出（教师信号）； ( ) p WX p y = f 为网络的实际输出；W 是网络的所有权值组成的向量： T W w w wn [ , , , ] 0 1 = ⋅⋅⋅⋅⋅⋅ X p 为输入模式： T p p p pn X [x , x , , x ] 0 1 = ⋅⋅⋅⋅⋅⋅ ，训练样本数 p = 1,2,⋅⋅⋅⋅⋅⋅, P 。可用梯度下降法来调整权值W ，使准则函数最小。其求解基本思想是沿着 E 的负梯度方向不断修正W 值，直到 E 达到最小，这种方法的数学表达式为： ( ) Wi E W ∂ ∂ ∇ =η − ∑= ∂ ∂ = ∂ ∂ p p i p i W E W E 1 其中： 2 2 1 ( ) p p p E = d − y 用θ p 表示WX p ，则有 ip p p p ip p p p p i p p p i p X d y f X y y E W E W E ( ) ( ) ' θ θ θ θ = − − ∂ ∂ ∂ ∂ = ∂ ∂ ∂ ∂ = ∂ ∂ W 的修正规则为 ∑= Δ = − p p i p p p Xip W d y f 1 ' η ( ) (θ ) 上式称为δ 学习规则，又称误差修正规则。定义误差传播函数δ 为 p p p p p p y y E E θ θ δ ∂ ∂ ∂ ∂ = − ∂ ∂ = δ 规则实现了 E 中的梯度下降，因此使误差函数达到最小值。但δ 学习规则只适用于线性可分函数，无法用于多层网络。BP 网络的学习算法称为 BP 算法，是在δ 规则基础上发展起来的，可在多网络上有效地学习。 3．概率式学习从统计力学、分子热力学和概率论中关于系统稳态能量的标准出发，进行神经网络学习的方式称概率式学习。神经网络处于某一状态的概率主要取决于在此状态下的能量，能量越低，概率越大。同时，此概率还取决于温度参数 T。T 越大，不同状态出现概率的差异便越小，较容易跳出能量的局部极小点而到全局的极小点；T 越小时，情形正相反。概率式学习的典型代表是 Boltzmann 机学习规则。它是基于模拟退火的统计优化方法，因此又称模拟退火算法。 Boltzmann 机模型是一个包括输入、输出和隐含层的多层网络，但隐含层间存在互联结构并且网络层次不明显。对于这种网络的训练过程，就是根据规则： ( ) ' ij ij ij ΔW =η p − p

对神经元,j间的连接权值进行调整的过程。式中,7为学习速率:P表示网络受到学习样本的约束且系统达到平衡状态时第i个和第j个神经元同时为1的概率;PG表示系统为自由运转状态且达到平衡状态时第i个和第 j个神经元同时为1的概率调整权值的原则是:当P>P时,则权值增加,否则减少权值。这种权值调整公式称为 boltzmann机学习规则,即 W(k+1)=n(k)+0(P-P2,7>0 当Pg-P小于一定容限时,学习结束由于模拟退火过程要求高温使系统达到平衡状态,而冷却(即退火)过程又必须缓慢地进行,否则容易造成局部最小,所以这种学习规则的学习收敛速度较慢。 4.竞争式学习竞争式学习属于无教师学习方式。此种学习方式利用不同层间的神经元发生兴奋性联接,以及同一层内距离很近的神经元间发生同样的兴奋性联接,而距离较远的神经元产生抑制性联接。在这种联接机制中引人竞争机制的学习方式称为竞争式学习。它的本质在于神经网络中高层次的神经元对低层次神经元的输入模式进行竞争识竞争式机制的思想来源于人脑的自组织能力。大脑能够及时地调整自身结构,自动地向环境学习,完成所需执行的功能,而并不需要教师训练。竞争式神经网络亦是如此,所以,又把这一类网络称为自组织神经网络(自适应共振网络模型 Adaptive Resonance Theory ART) 自组织神经网络要求识别与输入最匹配的节点,定义距离d,为接近距离测度,即 d1=∑(u1-)2 其中,u为N维输入向量,具有最短距离的节点选作胜者,它的权向量经修正使该节点对输入更敏感。定义N,其半径逐渐减小至接近于零,权值的学习规则为 a(u i∈N 0 N 在这类学习规则中,关键不在于实节点的输出怎样与外部的期望输出相一致,而在于调整权向量以反映观察事件的分布,提供基于检测特性空间的活动规律的性能描写从上述几种学习规则可见,要使人工神经网络具有学习能力,就是使神经网络的知识结构变化,即使神经元间的结合模式变化,这同把连接权向量用什么方法变化是等价的。所以,所谓神经网络的学习,目前主要是指通过一定的学习算法实现对突触结合强度(权值)的调整,使其达到具有记忆、识别、分类、信息处理和问题优化求解等功能,这是一个正在发展中的研究课题。 62前向神经网络 621感知器网络感知器( perceptron)是一个具有单层神经元的神经网络,并由线性阈值元件组成,是最简单的前向网络它主要用于模式分类,单层的感知器网络结构如下图所示

对神经元 i，j 间的连接权值进行调整的过程。式中，η 为学习速率； pij 表示网络受到学习样本的约束且系统达到平衡状态时第 i 个和第 j 个神经元同时为 1 的概率； ' ij p 表示系统为自由运转状态且达到平衡状态时第 i 个和第 j 个神经元同时为 1 的概率。调整权值的原则是：当 ' ij ij p > p 时，则权值增加，否则减少权值。这种权值调整公式称为 Boltzmann 机学习规则，即 ( 1) ( ) ( ), 0 ' Wij k + = wij k +η pij − pij η > 当 ' ij ij p − p 小于一定容限时，学习结束。由于模拟退火过程要求高温使系统达到平衡状态，而冷却（即退火）过程又必须缓慢地进行，否则容易造成局部最小，所以这种学习规则的学习收敛速度较慢。 4．竞争式学习竞争式学习属于无教师学习方式。此种学习方式利用不同层间的神经元发生兴奋性联接，以及同一层内距离很近的神经元间发生同样的兴奋性联接，而距离较远的神经元产生抑制性联接。在这种联接机制中引人竞争机制的学习方式称为竞争式学习。它的本质在于神经网络中高层次的神经元对低层次神经元的输入模式进行竞争识别。竞争式机制的思想来源于人脑的自组织能力。大脑能够及时地调整自身结构，自动地向环境学习，完成所需执行的功能，而并不需要教师训练。竞争式神经网络亦是如此，所以，又把这一类网络称为自组织神经网络（自适应共振网络模型 Adaptive Resonance Theory ART）。自组织神经网络要求识别与输入最匹配的节点，定义距离 d j 为接近距离测度，即 ∑ − = = − 1 0 2 ( ) N i d j ui wij 其中，u 为 N 维输入向量，具有最短距离的节点选作胜者，它的权向量经修正使该节点对输入u 更敏感。定义 Nc ，其半径逐渐减小至接近于零，权值的学习规则为 ⎩ ⎨ ⎧ ∉ − ∈ Δ = c i ij c ij i N u w i N w 0 α( ) 在这类学习规则中，关键不在于实节点的输出怎样与外部的期望输出相一致，而在于调整权向量以反映观察事件的分布，提供基于检测特性空间的活动规律的性能描写。从上述几种学习规则可见，要使人工神经网络具有学习能力，就是使神经网络的知识结构变化，即使神经元间的结合模式变化，这同把连接权向量用什么方法变化是等价的。所以，所谓神经网络的学习，目前主要是指通过一定的学习算法实现对突触结合强度（权值）的调整，使其达到具有记忆、识别、分类、信息处理和问题优化求解等功能，这是一个正在发展中的研究课题。 6.2 前向神经网络 6.2.1 感知器网络感知器（perceptron）是一个具有单层神经元的神经网络，并由线性阈值元件组成，是最简单的前向网络。它主要用于模式分类，单层的感知器网络结构如下图所示

(k+1)=w,(k)+nd(k)-y(k)]x i=0,1,2……,n 其中,w1(k)为当前的权值;d(k)为导师信号;y(k)为感知器的输出值;n为学习速率(0<n<1),刀选取太小学习太慢,η太大会影响的稳定,即引起震荡。 5)选取另外一组样本,重复上述2)~4)的过程,直到权值对一切样本均稳定不变为止,学习过程结束上述的单层感知器能解决一阶谓词逻辑问题,如逻辑“与”、逻辑“或”问题,但不能解决像异或问题的二阶谓词逻辑问题。感知器的学习算法保证收敛的条件是,要求函数是线性可分的(即输入样本函数类成员可分别位于直线分界线的两侧),当输入函数不满足线性可分条件时,上述算法受到了限制,也不能推广到一般的前向网络中去,其主要原因是由于激发函数是阈值函数。为此,人们用可微函数,如 Sigmoid曲线来代替阈值函数然后用梯度法来修正权值。BP网络就是这种算法的典型网络。 622BP网络误差反向传播神经网络,简称BP网络( Back Propagation),是一种单向传播的多层前向网络。在模式识别图像处理、系统辨识、函数拟合、优化计算、最优预测和自适应控制等领域有着较为广泛的应用。如图是BP网络的示意图。误差反传(学习算法) 隐含层输出层误差反向传播的BP算法简称BP算法,其基本思想是最小二乘算法。它采用梯度搜索技术,以期使网络的实际输出值与期望输出值的误差均方值为最小。 BP算法的学习过程由正向传播和反向传播组成。在正向传播过程中,输入信息从输入层经隐含层逐层处理, 并传向输出层,每层神经元(节点)的状态只影响下一层神经元的状态。如果在输出层不能得到期望的输出,则转人反向传播,将误差信号沿原来的连接通路返回,通过修改各层神经元的权值,使误差信号最小。设BP网络的结构如图所示,有M个输入节点,输入层节点的输出等于其输入。输出层有L个输出节点, 网络的隐含层有q个节点,Wn是输入层和隐含层节点之间的连接权值。wk是隐含层和输出层节点之间的连接权值,隐含层和输出层节点的输入是前一层节点的输出的加权和,每个节点的激励程度由它的激发函数来决定。 1.BP网络的前馈计算在训练该网络的学习阶段,设有N个训练样本,先假定用其中的某一固定样本中的输入输出模式X,和{dmk} 对网络进行训练。若网络输出与期望输出值dk不一致,则将其误差信号从输出端反向传播,并在传播过程中对加权系数不断修正,使在输出层节点上得到的输出结果尽可能接近期望输出值dk。对样本P(P=1,2…,P)完成网络加权系数的调整后,再送人另一样本模式对,进行类似学习,直到完成P个样本的训练学习为止 2.BP网络权值的调整规则

i n w k w k d k y k x i i i 0,1,2, , ( 1) ( ) [ ( ) ( )] = ⋅⋅⋅ + = +η − 其中， w (k) i 为当前的权值；d(k) 为导师信号； y(k)为感知器的输出值；η 为学习速率(0 <η < 1)，η 选取太小学习太慢，η 太大会影响的稳定，即引起震荡。 5). 选取另外一组样本，重复上述 2）～4）的过程，直到权值对一切样本均稳定不变为止，学习过程结束。上述的单层感知器能解决一阶谓词逻辑问题，如逻辑“与”、逻辑“或”问题，但不能解决像异或问题的二阶谓词逻辑问题。感知器的学习算法保证收敛的条件是，要求函数是线性可分的（即输入样本函数类成员可分别位于直线分界线的两侧），当输入函数不满足线性可分条件时，上述算法受到了限制，也不能推广到一般的前向网络中去，其主要原因是由于激发函数是阈值函数。为此，人们用可微函数，如 Sigmoid 曲线来代替阈值函数，然后用梯度法来修正权值。BP 网络就是这种算法的典型网络。 6.2.2 BP 网络误差反向传播神经网络，简称 BP 网络（Back Propagation），是一种单向传播的多层前向网络。在模式识别、图像处理、系统辨识、函数拟合、优化计算、最优预测和自适应控制等领域有着较为广泛的应用。如图是 BP 网络的示意图。误差反向传播的 BP 算法简称 BP 算法，其基本思想是最小二乘算法。它采用梯度搜索技术，以期使网络的实际输出值与期望输出值的误差均方值为最小。 BP 算法的学习过程由正向传播和反向传播组成。在正向传播过程中，输入信息从输入层经隐含层逐层处理，并传向输出层，每层神经元（节点）的状态只影响下一层神经元的状态。如果在输出层不能得到期望的输出，则转人反向传播，将误差信号沿原来的连接通路返回，通过修改各层神经元的权值，使误差信号最小。设 BP 网络的结构如图所示，有 M 个输入节点，输入层节点的输出等于其输入。输出层有 L 个输出节点，网络的隐含层有 q 个节点， wij 是输入层和隐含层节点之间的连接权值。 wjk 是隐含层和输出层节点之间的连接权值，隐含层和输出层节点的输入是前一层节点的输出的加权和，每个节点的激励程度由它的激发函数来决定。 1．BP 网络的前馈计算在训练该网络的学习阶段，设有N个训练样本，先假定用其中的某一固定样本中的输入输出模式 X p 和{ } d pk 对网络进行训练。若网络输出与期望输出值 dk 不一致，则将其误差信号从输出端反向传播，并在传播过程中对加权系数不断修正，使在输出层节点上得到的输出结果尽可能接近期望输出值 dk 。对样本 p ( p = 1,2,⋅⋅⋅, P) 完成网络加权系数的调整后，再送人另一样本模式对，进行类似学习，直到完成 P 个样本的训练学习为止。 2．BP 网络权值的调整规则

郑州大学电气工程学院：《智能控制》课程教学资源（讲义）第6章 神经网络控制

郑州大学电气工程学院：《智能控制》课程教学资源（讲义）第6章神经网络控制