正在加载图片...
2. Delta(d)学习规则 假设下列误差准则函数: E=∑(dn-yn)2=∑En 其中,d,代表期望的输出(教师信号);yp=f(Wx)为网络的实际输出:W是网络的所有权值组成的向量 w=u ] X为输入模式:X=【xm,x;…“,xm,训练样本数P=12…P 可用梯度下降法来调整权值W,使准则函数最小。其求解基本思想是沿着E的负梯度方向不断修正W值, 直到E达到最小,这种方法的数学表 vw=n( W dE 其中 用日表示WX,则有 dE. dE 00 oE ay Xn=-d-y,)f(0,)x W的修正规则为 △W (d,-y f(8)x 上式称为δ学习规则,又称误差修正规则。定义误差传播函数δ为 aEaE ay P δ规则实现了E中的梯度下降,因此使误差函数达到最小值。但δ学习规则只适用于线性可分函数,无法 用于多层网络。BP网络的学习算法称为BP算法,是在δ规则基础上发展起来的,可在多网络上有效地学习。 3.概率式学习 从统计力学、分子热力学和概率论中关于系统稳态能量的标准出发,进行神经网络学习的方式称概率式学习 神经网络处于某一状态的概率主要取决于在此状态下的能量,能量越低,概率越大。同时,此概率还取决于温度 参数T。T越大,不同状态出现概率的差异便越小,较容易跳出能量的局部极小点而到全局的极小点;T越小时 情形正相反。概率式学习的典型代表是 boltzmann机学习规则。它是基于模拟退火的统计优化方法,因此又称模 拟退火算法。 boltzmann机模型是一个包括输入、输出和隐含层的多层网络,但隐含层间存在互联结构并且网络层次不明 显。对于这种网络的训练过程,就是根据规则: △W=(P-P)2.Delta(δ )学习规则 假设下列误差准则函数: ∑ ∑ = = = − = p p p p p p Ep E d y 1 1 2 2 1 ( ) 其中,d p 代表期望的输出(教师信号); ( ) p WX p y = f 为网络的实际输出;W 是网络的所有权值组成的向量: T W w w wn [ , , , ] 0 1 = ⋅⋅⋅⋅⋅⋅ X p 为输入模式: T p p p pn X [x , x , , x ] 0 1 = ⋅⋅⋅⋅⋅⋅ ,训练样本数 p = 1,2,⋅⋅⋅⋅⋅⋅, P 。 可用梯度下降法来调整权值W ,使准则函数最小。其求解基本思想是沿着 E 的负梯度方向不断修正W 值, 直到 E 达到最小,这种方法的数学表达式为: ( ) Wi E W ∂ ∂ ∇ =η − ∑= ∂ ∂ = ∂ ∂ p p i p i W E W E 1 其中: 2 2 1 ( ) p p p E = d − y 用θ p 表示WX p ,则有 ip p p p ip p p p p i p p p i p X d y f X y y E W E W E ( ) ( ) ' θ θ θ θ = − − ∂ ∂ ∂ ∂ = ∂ ∂ ∂ ∂ = ∂ ∂ W 的修正规则为 ∑= Δ = − p p i p p p Xip W d y f 1 ' η ( ) (θ ) 上式称为δ 学习规则,又称误差修正规则。定义误差传播函数δ 为 p p p p p p y y E E θ θ δ ∂ ∂ ∂ ∂ = − ∂ ∂ = δ 规则实现了 E 中的梯度下降,因此使误差函数达到最小值。但δ 学习规则只适用于线性可分函数,无法 用于多层网络。BP 网络的学习算法称为 BP 算法,是在δ 规则基础上发展起来的,可在多网络上有效地学习。 3.概率式学习 从统计力学、分子热力学和概率论中关于系统稳态能量的标准出发,进行神经网络学习的方式称概率式学习。 神经网络处于某一状态的概率主要取决于在此状态下的能量,能量越低,概率越大。同时,此概率还取决于温度 参数 T。T 越大,不同状态出现概率的差异便越小,较容易跳出能量的局部极小点而到全局的极小点;T 越小时, 情形正相反。概率式学习的典型代表是 Boltzmann 机学习规则。它是基于模拟退火的统计优化方法,因此又称模 拟退火算法。 Boltzmann 机模型是一个包括输入、输出和隐含层的多层网络,但隐含层间存在互联结构并且网络层次不明 显。对于这种网络的训练过程,就是根据规则: ( ) ' ij ij ij ΔW =η p − p
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有