·80· 智能系统学报 第1卷 颖,有重要的应用价值和潜在的理论价值.但是,在 设测试集中有L个样本,如果一个子网能以小 对该算法的研究过程中也发现一些必须完善和改进 于ε的平方误差实现P(P)个测试样本的逼近 之处.本文就此展开研究 则该子网在这一测试集上的£水平逼近正确率为 1改进的子网集结Bayes学习法 (9=P/L. (2) 显然该算法比等权值法要合理得多,它不是对所有 从广义上讲,模块化神经网络就是由多个相互 子网都一视同仁,而是充分考虑到了各个子网的不 相对独立、相互联系、相互协同的神经网络组成的系 同.尽管各子网都在同一样本集上学习,但因为不同 统,它们有明确的任务分工、相对的独立性和各具特 结构、不同初始权值,学习的结果—泛化性能也因 色的信息处理模式和风格.该网络系统的基本单元 “网”而异.这里,泛化性能是由逼近正确率来表现 是单个神经网络模块.据此,目前文献中出现的 的.由式)知,逼近能力越好的子网所得到的投票 多种提法如神经网络集成(neural networks ensem- 权重越大.另外,该算法也考虑到各子网的学习有快 ble)、多神经网络(multiple neural networks)、混合 有慢这一情况,因此它把权值学习过程分解成若干 神经网络(hybrid neural networks)、分布式神经网 个连续的阶段,在每一阶段中间再嵌入Bayes学习 络(distributed neural networks)以及委员会机 所谓Bayes学习,就是通过不断做实验,将信息不充 (committee machine)等都统一于上述较宽泛的定 分或不真实的先验知识改变为信息逐步完善准确的 义.以神经网络集成为例:它是指多个神经网络学习 后验知识,从而提高人们对问题认识的把握度,进而 同一任务再行集结的一种结构.它显然属于(广义) 提高决策精度.对于神经网络的参数学习和网络设 模块化神经网络:它的各模块独立处理同一问题,再 计,常规的误差纠正学习方法都可看作是Bayes学 利用相应的集成机制将各具特色的处理结果合理集 习方法的一种近似1 成.模块化神经网络的学习机制可称为集成学习 然而,该算法还存在较多缺陷,分析说明如下: (ensemble learning),或协作学习(cooperation 1)处理复杂问题能力有限.因为所有子网都得 learning) 先独立学习整个问题,如果这时每个子网都学习困 Bayes学习法是把确定模块化神经网络的子网 难要么学习时间很长,要么学习能力很差(直接 输出投票权重当作一种统计决策过程,递归运用 结果是泛化性能差),那么再协作就毫无意义了.如 Bayes决策分析,使得对子网的性能评估(即决策) 果为使每个子网都能学习得较好而复杂化网络结 越来越精确.其基本思想是:在各子网对训练样本集 构,那么模块化的意义也不存在了 进行连接权值学习的同时,通过对测试样本集中信 2)在整个样本集上训练每个子网若干次,从耗 息的学习来得到各子网的输出投票权重.算法基本 费时间上讲是不合算的.如果样本集很庞大,子网较 框架为: 多,结构较为复杂,那么训练时间将相当可观.另外 1)选定K个不同结构的子网,并设定各个子网 还可能造成子网相关性的提高而不利于有效的最终 的先验投票权重为w9,j=1,2,K: 决策 2)由大到小设置S个等级的均方误差限,i= 3)训练误差限等级的设置若为100e,10e,5e,e, 1,2,,S.可以依次把100e,10e,5e,£作为分级均 那么在以100e、10e作为训练误差限时,要求计算测 方误差限.S的个数一般取3~5; 试误差达到ε的逼近正确率,似乎有些勉为其难.很 3)对每个级别i(i=1,2,S进行如下递推操 可能出现逼近正确率全零的情况,这时式)就无意 作: 义,因为分母为零 在训练集上以:为均方误差限训练各个子网 4)水平逼近正确率显得过于绝对.对于1.01和 直至收敛:在测试集上观察各子网的ε水平逼近正 100的测试误差,尽管都大于£,但在相对意义上讲, 确率4(9,j=1,2,K:根据w片1和0,()计算 1.01较100正确,决不能等量齐观,同时,对于在逼 各子网的后验投票权重如下: 近误差限附近的一些样本,若存在干扰噪声,则很容 w时=a,j=1,2,k 1) 易使其中某些样本列为“逼近正确”,而其余的样本 wi o(g k 不在此之列,这有悖常理 式中:£是各子网的最终目标均方误差限,而ε水平 针对这些不足,作者对上述算法进行了如下改 逼近正确率4,(9是按如下方式进行定义的: 进 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved.htp://www.cnki.net颖 ,有重要的应用价值和潜在的理论价值. 但是 ,在 对该算法的研究过程中也发现一些必须完善和改进 之处. 本文就此展开研究. 1 改进的子网集结 Bayes 学习法 从广义上讲 ,模块化神经网络就是由多个相互 相对独立、相互联系、相互协同的神经网络组成的系 统 ,它们有明确的任务分工、相对的独立性和各具特 色的信息处理模式和风格. 该网络系统的基本单元 是单个神经网络 ———模块. 据此 ,目前文献中出现的 多种提法如神经网络集成(neural networks ensem2 ble) 、多神经网络 (multiple neural networks) 、混合 神经网络 (hybrid neural networks) 、分布式神经网 络 ( distributed neural networks) 以 及 委 员 会 机 (committee machine) 等都统一于上述较宽泛的定 义. 以神经网络集成为例 :它是指多个神经网络学习 同一任务再行集结的一种结构. 它显然属于 (广义) 模块化神经网络 :它的各模块独立处理同一问题 ,再 利用相应的集成机制将各具特色的处理结果合理集 成. 模块化神经网络的学习机制可称为集成学习 (ensemble learning ) , 或 协 作 学 习 ( cooperation learning) . Bayes 学习法是把确定模块化神经网络的子网 输出投票权重当作一种统计决策过程 ,递归运用 Bayes 决策分析 ,使得对子网的性能评估 (即决策) 越来越精确. 其基本思想是 :在各子网对训练样本集 进行连接权值学习的同时 ,通过对测试样本集中信 息的学习来得到各子网的输出投票权重. 算法基本 框架为[4 ] : 1) 选定 K 个不同结构的子网 ,并设定各个子网 的先验投票权重为 w 0 j , j = 1 ,2 , …, K; 2) 由大到小设置 S 个等级的均方误差限 ei , i = 1 ,2 , …, S . 可以依次把 100ε, 10ε, 5ε,ε作为分级均 方误差限. S 的个数一般取 3~5 ; 3) 对每个级别 i( i = 1 ,2 , …, S) 进行如下递推操 作 : 在训练集上以 ei 为均方误差限训练各个子网 直至收敛;在测试集上观察各子网的ε水平逼近正 确率ωj (ε) , j = 1 ,2 , …, K;根据 w i - 1 j 和ωj (ε) 计算 各子网的后验投票权重如下 : w i j = w i- 1 j ωj (ε) ∑ K k =1 w i- 1 k ωk (ε) , j = 1 ,2 , …, K. (1) 式中 :ε是各子网的最终目标均方误差限 ,而ε水平 逼近正确率ωj (ε) 是按如下方式进行定义的 : 设测试集中有 L 个样本 ,如果一个子网能以小 于ε的平方误差实现 P ( P ≤L) 个测试样本的逼近 , 则该子网在这一测试集上的ε水平逼近正确率为 ωj (ε) = P/ L . (2) 显然该算法比等权值法要合理得多 ,它不是对所有 子网都一视同仁 ,而是充分考虑到了各个子网的不 同. 尽管各子网都在同一样本集上学习 ,但因为不同 结构、不同初始权值 ,学习的结果 ———泛化性能也因 “网”而异. 这里 ,泛化性能是由逼近正确率来表现 的. 由式(1) 知 ,逼近能力越好的子网所得到的投票 权重越大. 另外 ,该算法也考虑到各子网的学习有快 有慢这一情况 ,因此它把权值学习过程分解成若干 个连续的阶段 ,在每一阶段中间再嵌入 Bayes 学习. 所谓 Bayes 学习 ,就是通过不断做实验 ,将信息不充 分或不真实的先验知识改变为信息逐步完善准确的 后验知识 ,从而提高人们对问题认识的把握度 ,进而 提高决策精度. 对于神经网络的参数学习和网络设 计 ,常规的误差纠正学习方法都可看作是 Bayes 学 习方法的一种近似[ 5 ] . 然而 ,该算法还存在较多缺陷 ,分析说明如下 : 1) 处理复杂问题能力有限. 因为所有子网都得 先独立学习整个问题 ,如果这时每个子网都学习困 难 ———要么学习时间很长 ,要么学习能力很差(直接 结果是泛化性能差) ,那么再协作就毫无意义了. 如 果为使每个子网都能学习得较好而复杂化网络结 构 ,那么模块化的意义也不存在了. 2) 在整个样本集上训练每个子网若干次 ,从耗 费时间上讲是不合算的. 如果样本集很庞大 ,子网较 多 ,结构较为复杂 ,那么训练时间将相当可观. 另外 还可能造成子网相关性的提高而不利于有效的最终 决策. 3) 训练误差限等级的设置若为 100ε, 10ε, 5ε,ε, 那么在以 100ε、10ε作为训练误差限时 ,要求计算测 试误差达到ε的逼近正确率 ,似乎有些勉为其难. 很 可能出现逼近正确率全零的情况 ,这时式(1) 就无意 义 ,因为分母为零. 4) 水平逼近正确率显得过于绝对. 对于 1. 01 和 100 的测试误差 ,尽管都大于ε,但在相对意义上讲 , 1101 较 100 正确 ,决不能等量齐观 ,同时 ,对于在逼 近误差限附近的一些样本 ,若存在干扰噪声 ,则很容 易使其中某些样本列为“逼近正确”,而其余的样本 不在此之列 ,这有悖常理. 针对这些不足 ,作者对上述算法进行了如下改 进 : ·80 · 智 能 系 统 学 报 第 1 卷 © 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net