-235- = ∑ ∑ − = ∂ ∂ Δ = − s s s j s i

正在加载图片...

Amn=-=n∑[T-0(h)H=n∑8H (11) 此处令 6=g'(h2)[T-O;] (12) 对输入单元到隐单元的权Wk dE 7∑[T2-O}(h)ng(b) n2vg(h)=∑6k (13) 此处 b=q(h)∑"o 从(11)和(13)式可以看出,所有权的修正量都有如下形式,即 Awp=n∑oyv (14) 指标P对应于两个单元中输出信号的一端,q对应于输入信号的一端,v或者代表H或者代表Ⅰ。形式上看来,这一修正是“局部”的,可以看作是Hebb律的一种表现形式。还应注意,δ由实际输出与理想输出的差及h决定,而δ则需依赖δ”算出,因此这一算法才称为向后传播算法。稍加分析还可知道,利用由(11)~(13)式所给出的算安排,较之不考虑δ,的向后传播,直接计算所有含φ'的原表达式,极大地降低了计算工作量。这组关系式称作广义δ-法则,它们不难推广到一般的多层网络上去。利用这一迭代算法,最终生成在一定精度内满足要求的{wn,wk}的过程,称为人工神经网络的学习过程。可以看出,这里所提供的学习机制是元与元之间权的不断调整, 学习样本中任何一个样品所提供的信息,最终将包含在网络的每一个权之中。参数n的大小则反映了学习效率。为了更有效地应用BP算法,我们做出如下一些补充说明 (i)在式(11)与(13)中,Awn2AW表示为与所有样品s有关的求和计算实际上,我们还可以每次仅考虑输入一个样品所造成的修正,然后,按照随机选取的顺序,将所有样品逐个输入,不断重复这一手续,直至收敛到一个满意的解为止 (i)在如上的算法中,利用实际输出与理想输出差的平方和作为度量{n2W}优劣的标准,这并不是唯一的度量方式,完全可以从其它的函数形式出发,例如从相对熵出发,导出相应的算法。 (ⅲ)在如上的讨论中使用的是最速下降法,显然,这也不是唯一的选择,其它的非线性优化方法,诸如共轭梯度法,拟牛顿法等,都可用于计算。为了加速算法的收敛速度,还可以考虑各种不同的修正方式。 (iV)BP算法的出现,虽然对人工神经网络的发展起了重大推动作用,但是这算法仍有很多问题.对于一个大的网络系统,BP算法的工作量仍然是十分可观的,这主要在于算法的收敛速度很慢。更为严重的是,此处所讨论的是非线性函数的优化,那么它就无法逃脱该类问题的共同困难:BP算法所求得的解,只能保证是依赖于初值选取的局部极小点。为克服这一缺陷,可以考虑改进方法,例如模拟退火算法,或从多个-235- = ∑ ∑ − = ∂ ∂ Δ = − s s s j s i s j s i s i s i ij ij T O h H H w E w η η [ ]ϕ'( ) η δ （11）此处令 '( )[ ] s i s i s i s δ i = ϕ h T − O （12）对输入单元到隐单元的权 wjk = ∑ − ∂ ∂ Δ = − s i s j s ij j s i s i s i jk jk T O h w h I w E w , η η [ ]ϕ'( ) ϕ'( ) = ∑ = ∑s s k s j s i s k s ij j s i η δ w ϕ h I η δ I , '( ) （13）此处 = ∑ i s ij i s j s δ j ϕ'(h ) w δ 从（11）和（13）式可以看出，所有权的修正量都有如下形式，即 Δ = ∑s s q s pq p w η δ v （14）指标 p 对应于两个单元中输出信号的一端，q 对应于输入信号的一端，v 或者代表 H 或者代表 I 。形式上看来，这一修正是“局部”的，可以看作是 Hebb 律的一种表现形式。还应注意， s δ i 由实际输出与理想输出的差及 s hi 决定，而 s δ j 则需依赖 s δ i 算出，因此，这一算法才称为向后传播算法。稍加分析还可知道，利用由（11）~（13）式所给出的计算安排，较之不考虑 s δ p 的向后传播，直接计算所有含ϕ' 的原表达式，极大地降低了计算工作量。这组关系式称作广义δ − 法则，它们不难推广到一般的多层网络上去。利用这一迭代算法，最终生成在一定精度内满足要求的{ , } wij wjk 的过程，称为人工神经网络的学习过程。可以看出，这里所提供的学习机制是元与元之间权的不断调整，学习样本中任何一个样品所提供的信息，最终将包含在网络的每一个权之中。参数η 的大小则反映了学习效率。为了更有效地应用 BP 算法，我们做出如下一些补充说明。（i）在式（11）与（13）中， Δwij Δwjk , 表示为与所有样品 s 有关的求和计算。实际上，我们还可以每次仅考虑输入一个样品所造成的修正，然后，按照随机选取的顺序，将所有样品逐个输入，不断重复这一手续，直至收敛到一个满意的解为止。（ii）在如上的算法中，利用实际输出与理想输出差的平方和作为度量{ , } wij wjk 优劣的标准，这并不是唯一的度量方式，完全可以从其它的函数形式出发，例如从相对熵出发，导出相应的算法。（iii）在如上的讨论中使用的是最速下降法，显然，这也不是唯一的选择，其它的非线性优化方法，诸如共轭梯度法，拟牛顿法等，都可用于计算。为了加速算法的收敛速度，还可以考虑各种不同的修正方式。（iv）BP 算法的出现，虽然对人工神经网络的发展起了重大推动作用，但是这一算法仍有很多问题．对于一个大的网络系统，BP 算法的工作量仍然是十分可观的，这主要在于算法的收敛速度很慢。更为严重的是，此处所讨论的是非线性函数的优化，那么它就无法逃脱该类问题的共同困难：BP 算法所求得的解，只能保证是依赖于初值选取的局部极小点。为克服这一缺陷，可以考虑改进方法，例如模拟退火算法，或从多个

<<向上翻页向下翻页>>

点击下载：《数学建模》算法全收录（算法大全）：第19章神经网络模型