-234- ∑ ∑∑ = == = = 3 1 3 1 2 1 ( ) j_中国高校课件下载中心

正在加载图片...

n=∑vH=∑∑币) (7) 网络的最终输出是 O=(h1)=o(∑w,H1)=g∑(∑l) (8) 这里,没有考虑阈值,正如前面已经说明的那样,这一点是无关紧要的。还应指出的是, 对于任何一组确定的输入,输出是所有权g,Wk}的函数。如果我们能够选定一组适当的权值{vg,Wk},使得对应于学习样本中任何一组Af 样品的输入(l1,F2),输出(O1,O2)=(10),对应于Apf的输入数据,输出为(0,1), 那么蠓虫分类问题实际上就解决了。因为,对于任何一个未知类别的样品,只要将其触角及翅膀长度输入网络,视其输出模式靠近(1,0)亦或(0,1),就可能判断其归属。当然有可能出现介于中间无法判断的情况。现在的问题是,如何找到一组适当的权值,实现上面所设想的网络功能。 2.3向后传播算法对于一个多层网络,如何求得一组恰当的权值,使网络具有特定的功能,在很长段时间内,曾经是使研究工作者感到困难的一个问题,直到1985年,美国加州大学的个研究小组提出了所谓向后传播算法(Back- Propagation),使问题有了重大进展,这算法也是促成人工神经网络研究迅猛发展的一个原因。下面就来介绍这一算法。如前所述,我们希望对应于学习样本中Af样品的输出是(1,0),对应于Apf的输出是(01),这样的输出称之为理想输出。实际上要精确地作到这一点是不可能的,只能希望实际输出尽可能地接近理想输出。为清楚起见,把对应于样品s的理想输出记为 {T},那么 E)=∑(T-0) 度量了在一组给定的权下,实际输出与理想输出的差异,由此,寻找一组恰当的权的问题,自然地归结为求适当W的值,使E(W)达到极小的问题。将式(8)代入(9),有 E(H)=1∑-o∑可) (10) 易知,对每一个变量w或W而言,这是一个连续可微的非线性函数,为了求得其极小点与极小值,最为方便的就是使用最速下降法。最速下降法是一种迭代算法,为求出 E(W)的(局部)极小,它从一个任取的初始点而出发,计算在W点的负梯度方向 VE(W),这是函数在该点下降最快的方向;只要VE(W0)≠0,就可沿该方向移动小段距离,达到一个新的点W=W-nVE(W),n是一个参数,只要η足够小, 定能保证E(W1)<E(W)。不断重复这一过程,一定能达到E的一个(局部)极小点。就本质而言,这就是BP算法的全部内容,然而,对人工神经网络问题而言,这一算法的具体形式是非常重要的,下面我们就来给出这一形式表达。对于隐单元到输出单元的权。而言,最速下降法给出的每一步的修正量是-234- ∑ ∑∑ = == = = 3 1 3 1 2 1 ( ) j jk s ij jk k s ij j s i h w H w ϕ w I （7）网络的最终输出是 ( ) ( ) ( ( )) 3 1 2 1 3 1 ∑ ∑ ∑ = = = = = = j k s ij jk k j s ij j s i s i O ϕ h ϕ w H ϕ w ϕ w I （8）这里，没有考虑阈值，正如前面已经说明的那样，这一点是无关紧要的。还应指出的是，对于任何一组确定的输入，输出是所有权{ , } wij wjk 的函数。如果我们能够选定一组适当的权值{ , } wij wjk ，使得对应于学习样本中任何一组 Af 样品的输入( , ) 1 2 s s I I ，输出( , ) (1,0) 1 2 = s s O O ，对应于 Apf 的输入数据，输出为(0,1) ，那么蠓虫分类问题实际上就解决了。因为，对于任何一个未知类别的样品，只要将其触角及翅膀长度输入网络，视其输出模式靠近(1,0) 亦或(0,1) ，就可能判断其归属。当然，有可能出现介于中间无法判断的情况。现在的问题是，如何找到一组适当的权值，实现上面所设想的网络功能。 2.3 向后传播算法对于一个多层网络，如何求得一组恰当的权值，使网络具有特定的功能，在很长一段时间内，曾经是使研究工作者感到困难的一个问题，直到 1985 年，美国加州大学的一个研究小组提出了所谓向后传播算法（Back-Propagation），使问题有了重大进展，这一算法也是促成人工神经网络研究迅猛发展的一个原因。下面就来介绍这一算法。如前所述，我们希望对应于学习样本中 Af 样品的输出是(1,0) ，对应于 Apf 的输出是(0,1) ，这样的输出称之为理想输出。实际上要精确地作到这一点是不可能的，只能希望实际输出尽可能地接近理想输出。为清楚起见，把对应于样品 s 的理想输出记为 { } s Ti ，那么 = ∑ − i s s i s E W Ti O , 2 ( ) 2 1 ( ) （9）度量了在一组给定的权下，实际输出与理想输出的差异，由此，寻找一组恰当的权的问题，自然地归结为求适当W 的值，使 E(W ) 达到极小的问题。将式（8）代入（9），有 ∑ ∑∑ = = = − s jk i s ij jk k s i E W T w w I , 2 3 1 2 1 [ ( ( ))] 2 1 ( ) ϕ ϕ （10）易知，对每一个变量 wij 或 wij 而言，这是一个连续可微的非线性函数，为了求得其极小点与极小值，最为方便的就是使用最速下降法。最速下降法是一种迭代算法，为求出 E(W ) 的（局部）极小，它从一个任取的初始点W0 出发，计算在W0 点的负梯度方向 — ( ) ∇E W0 ，这是函数在该点下降最快的方向；只要∇E(W0 ) ≠ 0 ，就可沿该方向移动一小段距离，达到一个新的点 ( ) W1 = W0 −η∇E W0 ，η 是一个参数，只要η 足够小，定能保证 ( ) ( ) E W1 < E W0 。不断重复这一过程，一定能达到 E 的一个（局部）极小点。就本质而言，这就是 BP 算法的全部内容，然而，对人工神经网络问题而言，这一算法的具体形式是非常重要的，下面我们就来给出这一形式表达。对于隐单元到输出单元的权 wij 而言，最速下降法给出的每一步的修正量是

<<向上翻页向下翻页>>

点击下载：《数学建模》算法全收录（算法大全）：第19章神经网络模型