正在加载图片...
Amn=-=n∑[T-0(h)H=n∑8H (11) 此处令 6=g'(h2)[T-O;] (12) 对输入单元到隐单元的权Wk dE 7∑[T2-O}(h)ng(b) n2vg(h)=∑6k (13) 此处 b=q(h)∑"o 从(11)和(13)式可以看出,所有权的修正量都有如下形式,即 Awp=n∑oyv (14) 指标P对应于两个单元中输出信号的一端,q对应于输入信号的一端,v或者代表H或 者代表Ⅰ。形式上看来,这一修正是“局部”的,可以看作是Hebb律的一种表现形式。 还应注意,δ由实际输出与理想输出的差及h决定,而δ则需依赖δ”算出,因此 这一算法才称为向后传播算法。稍加分析还可知道,利用由(11)~(13)式所给出的 算安排,较之不考虑δ,的向后传播,直接计算所有含φ'的原表达式,极大地降低了 计算工作量。这组关系式称作广义δ-法则,它们不难推广到一般的多层网络上去。 利用这一迭代算法,最终生成在一定精度内满足要求的{wn,wk}的过程,称为人 工神经网络的学习过程。可以看出,这里所提供的学习机制是元与元之间权的不断调整, 学习样本中任何一个样品所提供的信息,最终将包含在网络的每一个权之中。参数n的 大小则反映了学习效率。 为了更有效地应用BP算法,我们做出如下一些补充说明 (i)在式(11)与(13)中,Awn2AW表示为与所有样品s有关的求和计算 实际上,我们还可以每次仅考虑输入一个样品所造成的修正,然后,按照随机选取的顺 序,将所有样品逐个输入,不断重复这一手续,直至收敛到一个满意的解为止 (i)在如上的算法中,利用实际输出与理想输出差的平方和作为度量{n2W}优 劣的标准,这并不是唯一的度量方式,完全可以从其它的函数形式出发,例如从相对熵 出发,导出相应的算法。 (ⅲ)在如上的讨论中使用的是最速下降法,显然,这也不是唯一的选择,其它的 非线性优化方法,诸如共轭梯度法,拟牛顿法等,都可用于计算。为了加速算法的收敛 速度,还可以考虑各种不同的修正方式。 (iV)BP算法的出现,虽然对人工神经网络的发展起了重大推动作用,但是这 算法仍有很多问题.对于一个大的网络系统,BP算法的工作量仍然是十分可观的,这 主要在于算法的收敛速度很慢。更为严重的是,此处所讨论的是非线性函数的优化,那 么它就无法逃脱该类问题的共同困难:BP算法所求得的解,只能保证是依赖于初值选 取的局部极小点。为克服这一缺陷,可以考虑改进方法,例如模拟退火算法,或从多个-235- = ∑ ∑ − = ∂ ∂ Δ = − s s s j s i s j s i s i s i ij ij T O h H H w E w η η [ ]ϕ'( ) η δ (11) 此处令 '( )[ ] s i s i s i s δ i = ϕ h T − O (12) 对输入单元到隐单元的权 wjk = ∑ − ∂ ∂ Δ = − s i s j s ij j s i s i s i jk jk T O h w h I w E w , η η [ ]ϕ'( ) ϕ'( ) = ∑ = ∑s s k s j s i s k s ij j s i η δ w ϕ h I η δ I , '( ) (13) 此处 = ∑ i s ij i s j s δ j ϕ'(h ) w δ 从(11)和(13)式可以看出,所有权的修正量都有如下形式,即 Δ = ∑s s q s pq p w η δ v (14) 指标 p 对应于两个单元中输出信号的一端,q 对应于输入信号的一端,v 或者代表 H 或 者代表 I 。形式上看来,这一修正是“局部”的,可以看作是 Hebb 律的一种表现形式。 还应注意, s δ i 由实际输出与理想输出的差及 s hi 决定,而 s δ j 则需依赖 s δ i 算出,因此, 这一算法才称为向后传播算法。稍加分析还可知道,利用由(11)~(13)式所给出的 计算安排,较之不考虑 s δ p 的向后传播,直接计算所有含ϕ' 的原表达式,极大地降低了 计算工作量。这组关系式称作广义δ − 法则,它们不难推广到一般的多层网络上去。 利用这一迭代算法,最终生成在一定精度内满足要求的{ , } wij wjk 的过程,称为人 工神经网络的学习过程。可以看出,这里所提供的学习机制是元与元之间权的不断调整, 学习样本中任何一个样品所提供的信息,最终将包含在网络的每一个权之中。参数η 的 大小则反映了学习效率。 为了更有效地应用 BP 算法,我们做出如下一些补充说明。 (i)在式(11)与(13)中, Δwij Δwjk , 表示为与所有样品 s 有关的求和计算。 实际上,我们还可以每次仅考虑输入一个样品所造成的修正,然后,按照随机选取的顺 序,将所有样品逐个输入,不断重复这一手续,直至收敛到一个满意的解为止。 (ii)在如上的算法中,利用实际输出与理想输出差的平方和作为度量{ , } wij wjk 优 劣的标准,这并不是唯一的度量方式,完全可以从其它的函数形式出发,例如从相对熵 出发,导出相应的算法。 (iii)在如上的讨论中使用的是最速下降法,显然,这也不是唯一的选择,其它的 非线性优化方法,诸如共轭梯度法,拟牛顿法等,都可用于计算。为了加速算法的收敛 速度,还可以考虑各种不同的修正方式。 (iv)BP 算法的出现,虽然对人工神经网络的发展起了重大推动作用,但是这一 算法仍有很多问题.对于一个大的网络系统,BP 算法的工作量仍然是十分可观的,这 主要在于算法的收敛速度很慢。更为严重的是,此处所讨论的是非线性函数的优化,那 么它就无法逃脱该类问题的共同困难:BP 算法所求得的解,只能保证是依赖于初值选 取的局部极小点。为克服这一缺陷,可以考虑改进方法,例如模拟退火算法,或从多个
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有