0I:10.13374/j.1ssn1001-053x.1997.05.016 Vol.19 No.5 北京科技大学·学报 第19卷第5期 0ct.1997 Journal of University of Science and Technology Beijing 1997年10月 2种改进的神经网络结构学习算法 王克成) 王科俊) 余达太) 1)北京科技大学信息工程学院,北京100083 2)哈尔滨工程大学自控系,哈尔滨150001 摘要针对已提出的灵敏度计算和自构形2种神经网络结构学习算法,提出2种改进的算法,实 验证明改进的算法比原算法有更好的泛化能力. 关键词神经网络,结构学习算法,灵敏度 中图书分类号TP13 多层前向神经网络结构的确定是神经网络理论研究的热点之一,已提出了一些结构学习 算法由于在理论上很难给出网络结构的最佳值,所以结构学习算法都是以启发式方法剪 除过大网络或增长过小网络进行的, Mozer和Smokensky提出的灵敏度计算法是一种典型的剪除式结构学习算法.笔者利 用它对异或(XOR)问题和正弦函数逼近问题的实验表明,这种算法对逼近问题优化产生的网 络结构有较强的泛化能力;而对分类问题,泛化问题能力大大下降因而笔者提出了一种新的 灵敏度计算法,并用XOR和正弦通近问题验证了新算法的有效性 雷鸣提出的神经网络自构形学习算法也是一种剪除式结构学习算法作者的实验表明, 经这种算法优化产生的网络泛化能力下降.分析自构形算法,发现算法在神经元合并时采用 一阶线性回归计算,而实际上样本增加后,神经元输出不满足线性关系基于此笔者提出采用 多项式回归导出合并算法对XOR和正弦函数逼近问题的实验表明,采用新的合并算法后自 构形学习算法的泛化能力有很大提高, 1灵敏度计算型结构学习算法及其改进 Mozer和Smolensky在1989年提出了一种以灵敏度计算为基础的剪除式结构学习算 法,其方法是在网络中的每一神经元内引人一名义参数,即: 1=0 (1) +(0=g"+”(+”(0) 其中:”+”,+分别为第1+1层的第个神经元的状态和输出;g+”()为神经元的作用函 数;a+)为第1+1层第i个神经元与第1层第j个神经元间的连接权;u为名义参数,如果 4=0该神经元对网络无影响,“=】则该神经元为常规神经元 199610-08收稿第一作者男41岁副教授现在鞍山钢铁学院工作
《 北 京 科 技 大 学 ’ 学 报 第 卷 年 第 期 月 种改进 的神经 网络结构学 习算法 王 克成 ’ 王 科俊 余达太 北 京科技大 学信息工 程学 院 , 北京 哈尔滨工 程 大学 自控 系 , 哈尔滨 摘要 针 对已 提 出的灵敏度计算和 自构形 种神经 网络结构学 习算法 , 提 出 种 改进 的算法 实 验证 明改进 的算法 比原算法有更好的泛化能力 关键词 神经 网络 , 结构学 习算法 , 灵敏度 中图书分类号 即 多 层 前 向神经 网络结 构 的确定是 神经 网络理 论研究 的热点之 一 , 已 提 出了一些 结构学 习 算 法 由于 在 理 论上 很 难 给 出 网络 结 构 的最 佳值 , 所 以 结 构 学 习 算 法 都是 以 启 发式 方 法 剪 除过大 网络 或增 长过小 网络进行 的 和 提 出的灵 敏 度 计算 法 是 一 种 典 型 的剪 除 式 结 构 学 习 算法 笔 者 利 用 它 对异 或 问题 和正 弦 函数逼近 问题 的实验 表 明 , 这 种算 法 对逼 近 问题 优 化 产生 的网 络结 构有 较强 的泛 化 能力 而 对分类 问题 , 泛 化 问题 能力 大 大 下 降 因而 笔 者提 出了 一 种新 的 灵敏 度 计算法 , 并 用 和 正 弦逼 近 问题 验证 了新 算法 的有效性 雷 鸣提 出的神经 网络 自构形 学 习算法 也是 一种 剪 除式结 构学 习算 法 作者 的实验 表 明 , 经 这 种 算 法 优化 产生 的 网络 泛 化 能力下 降 分 析 自构形 算 法 , 发 现 算 法 在 神 经 元 合 并 时采 用 一 阶线性 回归计算 , 而 实 际上 样 本 增加 后 , 神经元 输 出不 满足 线性 关 系 基 于 此 笔者提 出采 用 多 项 式 回 归 导 出合并算法 对 和 正 弦 函数逼 近 问题 的实 验 表 明 , 采 用 新 的合并算法 后 自 构形 学 习算法 的泛化能力有很 大提 高 灵敏度计算型结构学 习算法及其改进 和 在 年 提 出 了 一 种 以 灵 敏 度 计算 为基 础 的剪 除 式 结 构 学 习算 法 , 其方 法是 在 网络 中的每 一 神经元 内引人 一 名义 参数 , 即 拜 “ ” 一 , 瓦 “ ” 呵“ ‘,。 、 丫 十 ” 一 “ ” 衬 ‘ ” 其 中 邓 十 ” , 川 ‘ ” 分别 为第 十 层 的第 个神经元 的状态 和 输 出 犷 十 ” · 为神经元 的作 用 函 数 。 咒 ” 为 第 十 ,层 第 ‘ 个 神 经 元 与第 层 第 个 神 经 元 间 的 连 接 权 。 为 名 义 参 数 , 如 果 二 该神经元 对网络无 影 响 , 二 则该神经元 为常规神经元 一 一 收稿 第一 作者 男 岁 副教授 现在 鞍 山钢铁学 院工 作 DOI :10.13374/j .issn1001-053x.1997.05.016
Vol.19 No.5 王克成等:2种改进的神经网辂结构学习算法 ·491· 定义灵敏度为: E S=- 0u-1 (2) 式(2)可通过反传计算.由于此值是在u=1下求得的,因此“仅是概念上的量,而不是网络中 必须执行的参数.当S小于给定的阀值时,此神经元即被删除 式(2)中的E定义为: E=”-四 (3) 式中:E为网络指标函数;d为期望输出.没有采用平方和形式的原因是在误差很小时,式(3)能 提供对S的更好的估计 利用式(I),(2)和(3)形成的结构学习算法,进行了2个实验,实验中采用仅含1个隐层的3 层神经网络,实验结果如表1和表2所示表中原样本指训练所用样本,而新的样本是未在训 练中使用的样本MSE代表均方误差,用它的大小来衡量网络的泛化能力.表中的隐元素指网 络中隐层内的神经元个数,显然这种方法对分类问题(XO)的优化不理想,但对逼近问题还 可以针对这种情况,笔者提出采用式(4)进行灵敏度计算: E Saay (4) 表1XOR问题 表2正弦函数逼近问题 状态隐元数原样本(MSE)新样本(MSE) 状态 隐元数原样本(MSE新样本(MSE 网优化前8 0.001281 0.001187 网优化前 10 0.018539 0.019388 网优化后3 0.019879 0.059272 网优化后 4 0.019355 0.019488 以改善算法形成网络的泛化能力.式(4)的优点是简单,直观,不需要附加计算 表3和表4是利用式(4)形成的剪除式结构学习算法进行的实验结果.从结果看新方法对 分类问题的网络优化效果非常好,网络泛化能力明显提高,但对逼近问题不如原方法, 表3XOR问题 表4正弦函数逼近问题 状态 隐元数 原样本 新样本 状态 隐元数 原样本 新样本 优化前 P 0.008801 0.088242 优化前 10 0.008522 0.013886 优化后 0.043159 0.062535 优化后 0.012529 0.019047 2神经网络自构形学习算法及其改进 雷鸣(1994)提出的网络自构形学习算法)也是一种剪除式学习结构算法.该算法是利用 数理统计的方法引人隐单元之间的相关系数和分散度概念,考察隐层的神经元对网络的贡 献,进而删除或合并那些作用小或作用相近的神经元 设Op是隐层神经元i在学习完第p个样本时的输出,O是隐层神经元i在学习完n个样本 后的平均输出,n为训练样本总数,则: (5)
王 克成等 种 改进 的神经 网 络结 构学 习 算法 定义灵敏度 为 一 豁 式 可 通 过 反传计算 由于 此值是 在 二 下求 得 的 , 因此 。 仅是 概念 上 的量 , 而 不 是 网络 中 必须 执行 的参数 当 小 于 给定 的 阀值 时 , 此 神 经元 即被 删 除 式 中的 定 义 为 全…、 一 艺 尸 “ 一 式 中 为 网络指 标 函 数 为期望 输 出 没 有 采 用 平方 和 形式 的原 因是 在 误差 很 小 时 , 式 能 提供 对 的更 好 的估计 利用式 , 和 形 成 的结构学 习 算法 , 进 行 了 个 实验 , 实验 中采 用仅含 个 隐层 的 层 神经 网络 , 实验 结 果 如 表 和 表 所 示 表 中原样 本指 训 练所 用 样 本 , 而 新 的样 本是 未 在 训 练 中使用 的样 本 代 表 均 方 误 差 , 用 它 的大小 来衡量 网络 的泛 化 能力 表 中的 隐元 素指 网 络 中隐层 内的神 经元 个数 显 然 这 种 方 法 对分类 问题 的优化 不 理 想 , 但 对逼 近 问题 还 可 以 针 对这 种情 况 , 笔 者提 出采 用 式 进行 灵敏 度 计算 表 问题 表 正弦函数逼近 问题 状态 隐元数 原样本 新样本 状态 隐元数 原样本 新样本 网优化前 网优化前 网优化后 网优化后 以 改善算法 形成 网络 的泛 化 能力 式 的优点是 简单 , 直观 , 不需 要 附加计算 表 和表 是利用式 形成 的剪 除式结构学 习算法进行 的实验 结果 从结果 看新 方 法 对 分类 问题 的网络优化效果 非 常好 , 网络泛 化能力 明显提 高 , 但对逼 近 问题 不 如 原方法 表 问题 表 正弦 函数逼近 问题 状态 隐元数 原样本 新样本 状态 隐元数 原样本 新样 本 优化前 优化前 乃 优化后 优化后 神经网络 自构形学 习 算法及其改进 雷 鸣 提 出 的 网络 自构形 学 习 算 法 也 是 一 种 剪 除 式 学 习结 构 算 法 该 算 法 是 利 用 数理 统计 的方 法 引人 隐单元 之 间 的相 关 系 数 和 分 散 度 概 念 , 考 察 隐层 的 神 经 元 对 网 络 的贡 献 , 进 而 删 除或合并那些作用小 或作用相 近 的神经元 设 口,是 隐层 神经元 在学 习完第 个样 本 时 的输 出 , 口 是 隐层 神 经元 在 学 习完 。 个样 本 后 的平 均 输 出 , 为训 练样 本总数 , 则 瓦 一 粤全 。 、 ,‘ 尸
·492· 北京科技大学学报 1997年第5期 定义1 同层隐神经元i和j的相关函数: 1200。-00, n台 (6) Visooi-6viso.d-8 式中,”说明隐层神经元i和j输出的相关程度.,,过大,说明神经元i和j功能重复,需要压缩 合并 定义2 样本分散度 =2.0,-6 (7) 式中,S实质上是隐层神经元i输出的方差,如它过小,说明隐元i的输出变化很小,它对网络 的训练没有起什么作用,性能类同于阀值 根据以上定义,有如下动态合并和删除规则 合并规则:若|,≥C,且S,S,之C2,则同层隐元i和j可以合二为一其中r,为2个神经 元的相关系数,S,S,为各自的分散度.C,和C,为规定的下限值,一般C,取0.8~0.9,C,取 0.0010.01 令O≈aO,+b,则 a= 200。-00 b=0-a0 (8) 120-0 n台, 其中O,O.分别为同层隐元i和j对应第p个样本的输出,而0和O则是学习总共n个样本 后的平均输出 对于输出层第k个神经元,其输人和为: netin,=a0,+a0,+au×1+∑aw·0,=(aa+aa,0,+(a贴+bag)×】+∑a,0,(9) I本, 其中,a,0,a,分别为隐层的第i,j,l神经元与输出层第k个神经元的连接权,a为输出层第 k个神经元的阀值. 由(9)式可以看出隐层第1和第j个神经元已被合二为一,从而合并算法为: a,=as+adg (10) a=ah+b加为 删除规则:若S<C,则隐层i可删除 可令0=0则 nein,a0,+duxd =(au+d)xI+d (11) 所以删除算法为: a兰a:h+0,Au (12) 式(12)表明所谓删除是将隐元i与阀值节点合并了
北 京 科 技 大 学 学 报 年 第 期 定 义 同层 隐神 经元 和 的相 关 函数 口 · 口 一 口 ,忿 生女口 口 一 歹 、 工夕 口 一 歹 气廿 ‘ 伟丁 式 中 , 气说 明 隐层 神经元 和 输 出 的相 关 程度 · , 过 大 , 说 明神经元 和 功能重复 , 需要 压缩 合并 定 义 样 本分 散度 一 工夕口 一 澎 刀忿 式 中 , , 实质 上是 隐层 神经元 输 出的方差 , 如它过 小 , 说 明隐元 的输 出变化很 小 , 它 对 网络 的训 练没有起什 么 作 用 , 性 能类 同于 阀值 根 据 以 上定 义 , 有 如下 动态合并 和删 除规则 合并规则 若 叼 七 , 且导 凡之 , 则 同层 隐元 和 可 以合二 为一其 中 , 为 个神经 元 的 相 关 系 数 , ,, ,为 各 自的分 散 度 · ,和 为规定 的 下 限 值 , 一 般 ,取 一 , 取 令 刘 口, 十 , 则 拄 口, · 、 一 云 , · 互 棋 ,口二 一 乙 二 一 口团 其 中 口。 , 气 分别 为 同层 隐元 和 对应第 个样本 的输 出 , 而 , 和 则是学 习总共 。 个样 本 后 的平均 输 出 对于 输 出层第 个 神经元 , 其输人 和 为 “ 、 一 、 团 才 、 肋 “ ,买尸二 口 一 · 十 、 , 肋 “ 、 又 ‘ ,买 。 、 其 中 , “ 。 , 、 , 、 ,分别 为 隐层 的第 ’, , 神经元 与输 出层第 个神经元 的连接权 , 。 为输 出层第 个 神经元 的 阀值 由 式可 以 看 出隐层第 和 第 个神经元 已 被合二 为一 , 从而合并算法 为 删 除规则 若 尽 可 令 口 一 , 则 女‘ 一 “ · · “ “ 一 “ ‘“ 十 口 、 , 则 隐层 可 删 除 、声户 山二, 曰,盈 理、了了‘、 、 所 以 删 除算法 为 一 、 工 、 , , 一 。 ‘ ’ 军 , 肪 、 。 、 , 式 表 明所 谓删 除是 将 隐元 与 阀值 节点合 并 了
Vol.19 No.5 王克成等:2种改进的神经网络结构学习算法 ·493 表5XOR问题 表6正弦函数逼近问题 状态隐元数原样本(MSE) 新样本(MSE 状态隐元数原样本(MSE)新样本(MSE) 网优化前8 0.008801 0.088242 网优化前10 0.008522 0.013886 网优化后4 0.007569 0.091116 网优化后2 0.020504 0.032192 利用上述算法对XOR和正弦函数逼近问题的实验结果如表5和表6所示 从实验结果可以看出,用这种方法优化后的网络对训练过的样本效果很好,但对未训练 过的新样本误差较大这说明它使网络的泛化能力降低了. 分析雷鸣的方法,发现它在合并规则中采用一元线性回归式(8)导出合并算法.但实际 上,在输人样本较多时,0和O很难满足线性关系.笔者认为采用多项式回归处理O和O的 关系更符合实际,一方面可以精确地反映O和O的关系,另一方面也可以通过调节回归多项 式的阶次来提高网络的性能因此,提出了如下修改的合并算法,令: 0,=a。+a,0.+a,0+…+anO (13) 且取O,≈0,则输出神经元k的输入为 neim=o,0,+a,0,+w×1+Aa,0,= [a=a,+a,0+…+a,0a,0,+aw+aa)x1+a,0 (14) 从而合并算法为: a=an+(a1+a,0+…an0,)a (15) a=aih aoag 式(13)中的a。,a,a,…,a,利用最小二乘法求得.利用式(13),(14)和(15)形成的改进的自构 形学习算法的实验结果见表7和表8. 表7XOR问题 表8正弦函数逼近问题 状态隐元数原样本(MSE)新样本(MSE) 状态隐元数原样本(MSE)新样本(MSE) 网优化前8 0.009071 0.092468 网优化前 10 0.008504 0.013426 网优化后4 0.004782 0.082173 网优化后2 0.007513 0.013563 实验中分别采用了3次和5次回归多项式实验结果表明改进后的自构形学习算法形成 的网络较未改进的算法形成的网络泛化能力有较大的提高,对旧样本的拟合能力也有很大的 提高. 4结论 (I)对灵敏度法,采用直接灵敏度计算,具有简单、直观、不需附加计算的特点.实验证明 对分类问题,可使网络的泛化能力有较大提高 (2)对自构形算法,采用多项式非线性回归导出神经元合并算法,更切实际,网络的泛化 能力有很大提高
王 克成等 种 改进 的神经 网络结构学 习算法 · · 表 ’ 题 状态 隐元数 原样本 新样本 表 正弦函数逼近 问题 状态 隐元数 原样本 新样 本 网优化前 网优化后 网优化前 网优化后 乃 利 用 上 述算法 对 和正 弦 函数逼 近 问题 的实验结果 如 表 和 表 所 示 从 实验 结 果 可 以 看 出 , 用这 种 方 法 优化 后 的 网络对训 练过 的样 本 效果 很 好 , 但 对未 训 练 过 的新 样 本误差 较大 这说 明它使 网络 的泛 化 能力 降低 了 分 析 雷 鸣的方 法 , 发 现 它 在 合 并 规则 中采 用 一 元 线性 回 归 式 导 出合 并 算 法 但 实 际 上 , 在输 人 样 本 较多 时 , ,和 ,很 难 满足 线性 关 系 · 笔者认 为采 用多 项式 回 归处理 口 和 的 关系更符合实 际 , 一方 面 可 以精 确地反 映 , 和 的关系 , 另 一 方 面也 可 以通 过 调 节 回 归多项 式 的 阶次来提 高网络 的性 能 因此 , 提 出了如下 修改 的合并算法 , 令 。 ‘ 且取 口 七 口 , 则 输 出神经元 的输人 为 气气气口 口 十 口 “ 又 民 , , “ 附 , 勺 八逮 , - 月 手 ‘ , 、 , … ” 酬 一 , 、 ‘ 。 艺 , 从而 合并算法 为 ‘ 。 一 、 乙 , …… ” 云 一 ’ 、 肋 肪 勺 式 中的 。 , 。 , , , 一 “ 。 利 用 最小 二乘法求得 利 用 式 , 和 形 成 的改进 的 自构 形学 习算 法 的实验 结果 见 表 和 表 表 问题 表 正弦 函数逼近 问题 状态 隐元数 原样本 新样本 状态 隐元数 原样本 新样 本 网优化前 网优化后 , 网优化前 网优化后 刀 刀 实验 中分别采 用 了 次和 次 回 归多项 式 实验 结果 表 明改 进 后 的 自构 形学 习算 法 形成 的 网络 较未 改进 的算 法 形 成 的 网络泛化 能 力有 较 大 的提 高 , 对旧 样 本 的拟 合能 力 也有很 大 的 提 高 结论 对灵 敏 度 法 , 采 用 直 接 灵 敏 度 计 算 , 具 有 简 单 、 直 观 、 不 需 附加 计算 的特 点 实验 证 明 对分类 问题 , 可使 网络 的泛 化 能力有较 大提 高 对 自构形 算 法 , 采 用 多 项 式 非线性 回 归 导 出神 经 元 合并 算 法 , 更 切 实 际 , 网络 的泛 化 能力有很大 提 高
·494· 北京科技大学学报 1997年第5期 参考文献 I Reed R.Pruning Algorithms -A Survey.IEEE Trans NN,1993,4(5):740~747 2 Mozer M C.Smokensky P.Skeletonization:A Technique For Trimming the fat From a Network via Relevance Assessment.Advances in Neural Information Processing 1989.(1):107~115 3雷鸣,尹申明、杨叔子,神经网络自适应学习研究.系统工程与电子技术,1994(3):19~27 Two Improved Study Algorithms for Neural Network Structure Wang Kecheng Wang Kejun?Yu Datai 1)Information Engineering School,UST Beijing,Beijing 100083,China 2)Department of Automatic Control,Harbin Engineering University,Harbin 150001,China ABSTRACT Based on the two Neural Network Study algorithim:Sensitivity Calculation and Self Constructing,two improved algorithm are proposed,which are proved to be better than the original algorithms by the experiments. KEY WORD neuraln network,structure study algorithm,sensitivity calculation (上接489页) Object-Oriented Application System Design Based on Multithreading under Windows NT Wang Chengvao Li Xiushan Pang Wei Inrormation Engineering School.UST Beijing,Beijing 100083.China ABSTRACT Under Windows NT,an object-oriented table-driven method is proposed, which can be used to implement multithreaded processes and synchronize the startup shutdown of multiple processes.A general implementation framework is described for designing multitasked application.The key advantages of this framework are to utilize system resources and to achieve simultaneous execution of multiple tasks. KEY WORDS multiprocess,multithread,synchronization,Windows NT
, 北 京 科 技 大 学 学 报 年 第 期 参 考 文 献 一 , , 一 , 一 一 雷 鸣 , 尹 申明 , 杨叔 子 神经 网络 自适 应学 习研究 系 统工程 与 电子技术 , 一 环 价 人 ‘ 肋 , 刀 ‘ 块 , , , , , 出 , , , 拓 姗 , , 上接 页 一 瀚 阴邵,口 百 , , , 环全 一 , , 一 一 俪 , , ,