正在加载图片...
n=∑vH=∑∑币) (7) 网络的最终输出是 O=(h1)=o(∑w,H1)=g∑(∑l) (8) 这里,没有考虑阈值,正如前面已经说明的那样,这一点是无关紧要的。还应指出的是, 对于任何一组确定的输入,输出是所有权g,Wk}的函数。 如果我们能够选定一组适当的权值{vg,Wk},使得对应于学习样本中任何一组Af 样品的输入(l1,F2),输出(O1,O2)=(10),对应于Apf的输入数据,输出为(0,1), 那么蠓虫分类问题实际上就解决了。因为,对于任何一个未知类别的样品,只要将其触 角及翅膀长度输入网络,视其输出模式靠近(1,0)亦或(0,1),就可能判断其归属。当然 有可能出现介于中间无法判断的情况。现在的问题是,如何找到一组适当的权值,实现 上面所设想的网络功能。 2.3向后传播算法 对于一个多层网络,如何求得一组恰当的权值,使网络具有特定的功能,在很长 段时间内,曾经是使研究工作者感到困难的一个问题,直到1985年,美国加州大学的 个研究小组提出了所谓向后传播算法(Back- Propagation),使问题有了重大进展,这 算法也是促成人工神经网络研究迅猛发展的一个原因。下面就来介绍这一算法。 如前所述,我们希望对应于学习样本中Af样品的输出是(1,0),对应于Apf的输出 是(01),这样的输出称之为理想输出。实际上要精确地作到这一点是不可能的,只能 希望实际输出尽可能地接近理想输出。为清楚起见,把对应于样品s的理想输出记为 {T},那么 E)=∑(T-0) 度量了在一组给定的权下,实际输出与理想输出的差异,由此,寻找一组恰当的权的问 题,自然地归结为求适当W的值,使E(W)达到极小的问题。将式(8)代入(9),有 E(H)=1∑-o∑可) (10) 易知,对每一个变量w或W而言,这是一个连续可微的非线性函数,为了求得其极 小点与极小值,最为方便的就是使用最速下降法。最速下降法是一种迭代算法,为求出 E(W)的(局部)极小,它从一个任取的初始点而出发,计算在W点的负梯度方向 VE(W),这是函数在该点下降最快的方向;只要VE(W0)≠0,就可沿该方向移动 小段距离,达到一个新的点W=W-nVE(W),n是一个参数,只要η足够小, 定能保证E(W1)<E(W)。不断重复这一过程,一定能达到E的一个(局部)极小点。 就本质而言,这就是BP算法的全部内容,然而,对人工神经网络问题而言,这一算法 的具体形式是非常重要的,下面我们就来给出这一形式表达。 对于隐单元到输出单元的权。而言,最速下降法给出的每一步的修正量是-234- ∑ ∑∑ = == = = 3 1 3 1 2 1 ( ) j jk s ij jk k s ij j s i h w H w ϕ w I (7) 网络的最终输出是 ( ) ( ) ( ( )) 3 1 2 1 3 1 ∑ ∑ ∑ = = = = = = j k s ij jk k j s ij j s i s i O ϕ h ϕ w H ϕ w ϕ w I (8) 这里,没有考虑阈值,正如前面已经说明的那样,这一点是无关紧要的。还应指出的是, 对于任何一组确定的输入,输出是所有权{ , } wij wjk 的函数。 如果我们能够选定一组适当的权值{ , } wij wjk ,使得对应于学习样本中任何一组 Af 样品的输入( , ) 1 2 s s I I ,输出( , ) (1,0) 1 2 = s s O O ,对应于 Apf 的输入数据,输出为(0,1) , 那么蠓虫分类问题实际上就解决了。因为,对于任何一个未知类别的样品,只要将其触 角及翅膀长度输入网络,视其输出模式靠近(1,0) 亦或(0,1) ,就可能判断其归属。当然, 有可能出现介于中间无法判断的情况。现在的问题是,如何找到一组适当的权值,实现 上面所设想的网络功能。 2.3 向后传播算法 对于一个多层网络,如何求得一组恰当的权值,使网络具有特定的功能,在很长一 段时间内,曾经是使研究工作者感到困难的一个问题,直到 1985 年,美国加州大学的 一个研究小组提出了所谓向后传播算法(Back-Propagation),使问题有了重大进展,这 一算法也是促成人工神经网络研究迅猛发展的一个原因。下面就来介绍这一算法。 如前所述,我们希望对应于学习样本中 Af 样品的输出是(1,0) ,对应于 Apf 的输出 是(0,1) ,这样的输出称之为理想输出。实际上要精确地作到这一点是不可能的,只能 希望实际输出尽可能地接近理想输出。为清楚起见,把对应于样品 s 的理想输出记为 { } s Ti ,那么 = ∑ − i s s i s E W Ti O , 2 ( ) 2 1 ( ) (9) 度量了在一组给定的权下,实际输出与理想输出的差异,由此,寻找一组恰当的权的问 题,自然地归结为求适当W 的值,使 E(W ) 达到极小的问题。将式(8)代入(9),有 ∑ ∑∑ = = = − s jk i s ij jk k s i E W T w w I , 2 3 1 2 1 [ ( ( ))] 2 1 ( ) ϕ ϕ (10) 易知,对每一个变量 wij 或 wij 而言,这是一个连续可微的非线性函数,为了求得其极 小点与极小值,最为方便的就是使用最速下降法。最速下降法是一种迭代算法,为求出 E(W ) 的(局部)极小,它从一个任取的初始点W0 出发,计算在W0 点的负梯度方向 — ( ) ∇E W0 ,这是函数在该点下降最快的方向;只要∇E(W0 ) ≠ 0 ,就可沿该方向移动 一小段距离,达到一个新的点 ( ) W1 = W0 −η∇E W0 ,η 是一个参数,只要η 足够小, 定能保证 ( ) ( ) E W1 < E W0 。不断重复这一过程,一定能达到 E 的一个(局部)极小点。 就本质而言,这就是 BP 算法的全部内容,然而,对人工神经网络问题而言,这一算法 的具体形式是非常重要的,下面我们就来给出这一形式表达。 对于隐单元到输出单元的权 wij 而言,最速下降法给出的每一步的修正量是
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有