颖 ,有重要的应用价值和潜在的理论价值. 但是 ,在对该算法的研究过程中

点击下载：【机器学习】模块化神经网络的Bayes子网集结新算法研究（王攀、李幼凤、冯珊）

正在加载图片...

·80· 智能系统学报第1卷颖，有重要的应用价值和潜在的理论价值.但是，在设测试集中有L个样本，如果一个子网能以小对该算法的研究过程中也发现一些必须完善和改进于ε的平方误差实现P(P)个测试样本的逼近之处.本文就此展开研究则该子网在这一测试集上的￡水平逼近正确率为 1改进的子网集结Bayes学习法 (9=P/L. (2) 显然该算法比等权值法要合理得多，它不是对所有从广义上讲，模块化神经网络就是由多个相互子网都一视同仁，而是充分考虑到了各个子网的不相对独立、相互联系、相互协同的神经网络组成的系同.尽管各子网都在同一样本集上学习，但因为不同统，它们有明确的任务分工、相对的独立性和各具特结构、不同初始权值，学习的结果—泛化性能也因色的信息处理模式和风格.该网络系统的基本单元 “网”而异.这里，泛化性能是由逼近正确率来表现是单个神经网络模块.据此，目前文献中出现的的.由式)知，逼近能力越好的子网所得到的投票多种提法如神经网络集成(neural networks ensem- 权重越大.另外，该算法也考虑到各子网的学习有快 ble)、多神经网络(multiple neural networks)、混合有慢这一情况，因此它把权值学习过程分解成若干神经网络(hybrid neural networks)、分布式神经网个连续的阶段，在每一阶段中间再嵌入Bayes学习络(distributed neural networks)以及委员会机所谓Bayes学习，就是通过不断做实验，将信息不充 (committee machine)等都统一于上述较宽泛的定分或不真实的先验知识改变为信息逐步完善准确的义.以神经网络集成为例：它是指多个神经网络学习后验知识，从而提高人们对问题认识的把握度，进而同一任务再行集结的一种结构.它显然属于（广义）提高决策精度.对于神经网络的参数学习和网络设模块化神经网络：它的各模块独立处理同一问题，再计，常规的误差纠正学习方法都可看作是Bayes学利用相应的集成机制将各具特色的处理结果合理集习方法的一种近似1 成.模块化神经网络的学习机制可称为集成学习然而，该算法还存在较多缺陷，分析说明如下： (ensemble learning),或协作学习(cooperation 1)处理复杂问题能力有限.因为所有子网都得 learning) 先独立学习整个问题，如果这时每个子网都学习困 Bayes学习法是把确定模块化神经网络的子网难要么学习时间很长，要么学习能力很差（直接输出投票权重当作一种统计决策过程，递归运用结果是泛化性能差)，那么再协作就毫无意义了.如 Bayes决策分析，使得对子网的性能评估（即决策）果为使每个子网都能学习得较好而复杂化网络结越来越精确.其基本思想是：在各子网对训练样本集构，那么模块化的意义也不存在了进行连接权值学习的同时，通过对测试样本集中信 2)在整个样本集上训练每个子网若干次，从耗息的学习来得到各子网的输出投票权重.算法基本费时间上讲是不合算的.如果样本集很庞大，子网较框架为：多，结构较为复杂，那么训练时间将相当可观.另外 1)选定K个不同结构的子网，并设定各个子网还可能造成子网相关性的提高而不利于有效的最终的先验投票权重为w9,j=1,2,K: 决策 2)由大到小设置S个等级的均方误差限，i= 3)训练误差限等级的设置若为100e,10e,5e,e, 1,2,,S.可以依次把100e,10e,5e,￡作为分级均那么在以100e、10e作为训练误差限时，要求计算测方误差限.S的个数一般取3~5；试误差达到ε的逼近正确率，似乎有些勉为其难.很 3)对每个级别i(i=1,2,S进行如下递推操可能出现逼近正确率全零的情况，这时式)就无意作：义，因为分母为零在训练集上以：为均方误差限训练各个子网 4)水平逼近正确率显得过于绝对.对于1.01和直至收敛：在测试集上观察各子网的ε水平逼近正 100的测试误差，尽管都大于￡，但在相对意义上讲，确率4(9，j=1,2,K:根据w片1和0，()计算 1.01较100正确，决不能等量齐观，同时，对于在逼各子网的后验投票权重如下：近误差限附近的一些样本，若存在干扰噪声，则很容 w时=a,j=1,2,k 1) 易使其中某些样本列为“逼近正确”，而其余的样本 wi o(g k 不在此之列，这有悖常理式中：￡是各子网的最终目标均方误差限，而ε水平针对这些不足，作者对上述算法进行了如下改逼近正确率4，(9是按如下方式进行定义的：进 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved.htp://www.cnki.net颖 ,有重要的应用价值和潜在的理论价值. 但是 ,在对该算法的研究过程中也发现一些必须完善和改进之处. 本文就此展开研究. 1 改进的子网集结 Bayes 学习法从广义上讲 ,模块化神经网络就是由多个相互相对独立、相互联系、相互协同的神经网络组成的系统 ,它们有明确的任务分工、相对的独立性和各具特色的信息处理模式和风格. 该网络系统的基本单元是单个神经网络 ———模块. 据此 ,目前文献中出现的多种提法如神经网络集成(neural networks ensem2 ble) 、多神经网络 (multiple neural networks) 、混合神经网络 (hybrid neural networks) 、分布式神经网络 ( distributed neural networks) 以及委员会机 (committee machine) 等都统一于上述较宽泛的定义. 以神经网络集成为例 :它是指多个神经网络学习同一任务再行集结的一种结构. 它显然属于 (广义) 模块化神经网络 :它的各模块独立处理同一问题 ,再利用相应的集成机制将各具特色的处理结果合理集成. 模块化神经网络的学习机制可称为集成学习 (ensemble learning ) , 或协作学习 ( cooperation learning) . Bayes 学习法是把确定模块化神经网络的子网输出投票权重当作一种统计决策过程 ,递归运用 Bayes 决策分析 ,使得对子网的性能评估 (即决策) 越来越精确. 其基本思想是 :在各子网对训练样本集进行连接权值学习的同时 ,通过对测试样本集中信息的学习来得到各子网的输出投票权重. 算法基本框架为[4 ] : 1) 选定 K 个不同结构的子网 ,并设定各个子网的先验投票权重为 w 0 j , j = 1 ,2 , …, K; 2) 由大到小设置 S 个等级的均方误差限 ei , i = 1 ,2 , …, S . 可以依次把 100ε, 10ε, 5ε,ε作为分级均方误差限. S 的个数一般取 3～5 ; 3) 对每个级别 i( i = 1 ,2 , …, S) 进行如下递推操作 : 在训练集上以 ei 为均方误差限训练各个子网直至收敛;在测试集上观察各子网的ε水平逼近正确率ωj (ε) , j = 1 ,2 , …, K;根据 w i - 1 j 和ωj (ε) 计算各子网的后验投票权重如下 : w i j = w i- 1 j ωj (ε) ∑ K k =1 w i- 1 k ωk (ε) , j = 1 ,2 , …, K. (1) 式中 :ε是各子网的最终目标均方误差限 ,而ε水平逼近正确率ωj (ε) 是按如下方式进行定义的 : 设测试集中有 L 个样本 ,如果一个子网能以小于ε的平方误差实现 P ( P ≤L) 个测试样本的逼近 , 则该子网在这一测试集上的ε水平逼近正确率为 ωj (ε) = P/ L . (2) 显然该算法比等权值法要合理得多 ,它不是对所有子网都一视同仁 ,而是充分考虑到了各个子网的不同. 尽管各子网都在同一样本集上学习 ,但因为不同结构、不同初始权值 ,学习的结果 ———泛化性能也因 “网”而异. 这里 ,泛化性能是由逼近正确率来表现的. 由式(1) 知 ,逼近能力越好的子网所得到的投票权重越大. 另外 ,该算法也考虑到各子网的学习有快有慢这一情况 ,因此它把权值学习过程分解成若干个连续的阶段 ,在每一阶段中间再嵌入 Bayes 学习. 所谓 Bayes 学习 ,就是通过不断做实验 ,将信息不充分或不真实的先验知识改变为信息逐步完善准确的后验知识 ,从而提高人们对问题认识的把握度 ,进而提高决策精度. 对于神经网络的参数学习和网络设计 ,常规的误差纠正学习方法都可看作是 Bayes 学习方法的一种近似[ 5 ] . 然而 ,该算法还存在较多缺陷 ,分析说明如下 : 1) 处理复杂问题能力有限. 因为所有子网都得先独立学习整个问题 ,如果这时每个子网都学习困难 ———要么学习时间很长 ,要么学习能力很差(直接结果是泛化性能差) ,那么再协作就毫无意义了. 如果为使每个子网都能学习得较好而复杂化网络结构 ,那么模块化的意义也不存在了. 2) 在整个样本集上训练每个子网若干次 ,从耗费时间上讲是不合算的. 如果样本集很庞大 ,子网较多 ,结构较为复杂 ,那么训练时间将相当可观. 另外还可能造成子网相关性的提高而不利于有效的最终决策. 3) 训练误差限等级的设置若为 100ε, 10ε, 5ε,ε, 那么在以 100ε、10ε作为训练误差限时 ,要求计算测试误差达到ε的逼近正确率 ,似乎有些勉为其难. 很可能出现逼近正确率全零的情况 ,这时式(1) 就无意义 ,因为分母为零. 4) 水平逼近正确率显得过于绝对. 对于 1. 01 和 100 的测试误差 ,尽管都大于ε,但在相对意义上讲 , 1101 较 100 正确 ,决不能等量齐观 ,同时 ,对于在逼近误差限附近的一些样本 ,若存在干扰噪声 ,则很容易使其中某些样本列为“逼近正确”,而其余的样本不在此之列 ,这有悖常理. 针对这些不足 ,作者对上述算法进行了如下改进 : ·80 · 智能系统学报第 1 卷 © 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net

<<向上翻页向下翻页>>

点击下载：【机器学习】模块化神经网络的Bayes子网集结新算法研究（王攀、李幼凤、冯珊）