正在加载图片...
.264 智能系统学报 第12卷 强的分类泛化能力。 误差下取得了较小的训练和测试分类错误率,说明 基于以上分析可知,基于样本权重的动态数据 DDR训练方法更加注重边界样本的作用,具有防止 约简方法能够区分并挑选边界样本和核样本,并随 过拟合的能力,能够训练分类泛化能力更好的神经 着网络的迭代训练,逐渐增加边界样本比重,弱化核 网络。 样本作用,从而训练出泛化能力更好的神经网络分 对比网络训练时间,DDR训练方法具有更短的 类器。 训练时间。由于每个数据集的训练样本个数,迭代 2.3标准数据集实验分析 次数、批量值、权重下限值等训练参数不同,所以相 为了验证基于动态数据约简的神经网络训练方 对STD训练方法,DDR训练方法时间缩短程度有所 法在标准分类数据集上的效果,选取10组标准数据 不同,总体上选择的权重下限值和学习批量越小, 集进行数值实验,其中Forest等9组来自UCI分类 DDR训练方法所需的训练时间越短,但过小的权重 数据集,Mnist标准数据集来自官方网站。各组数据 下限值和学习批量,容易引起网络波动,使得网络的 集属性以及训练集,测试集样本个数信息见表1。 分类泛化能力较差。 I0组数据集中Forest、IS、SL、Mnist具有固定的分类 表2不同神经网络训练方法的分类错误率比较 训练集个数和测试集个数,剩余的非固定数据集,训 Table 2 Comparison of classification error rate of different 练集和测试集个数比例基本保持1:1。 neural network training methods 表1UCI分类数据集的属性信息 数据集 Method loss train-Avg test-Avg time Table 1 Attribute information of UCI classification data set 名称 名称 样本个数训练样本属性个数 类别数 STD 0.0075 0.07 15.66 5.34 Forest Forest 523 198 27 4 DDR 0.0116 0.00 15.79 2.11 Glass 214 100 9 6 STD 0.0366 4.47 35.37 7.70 P 180 90 34 2 Glass DDR 0.0504 1.63 33.48 3.29 Iris 150 75 4 3 STD 0.0044 0.30 30.04 1.24 IS 2310 210 19 7 P DDR 0.0108 0.00 29.96 0.41 LIR 20000 10000 10 Seeds 210 105 > 3 STD 0.0258 3.07 4.22 0.67 Iris SL 6435 4000 36 DDR 0.0585 6 1.87 3.69 0.36 Wine 178 90 13 3 STD 0.0274 3.51 10.14 2.52 Mnist 60000 10000 784 10 IS DDR 0.0326 1.14 8.72 1.53 在相同的实验条件下,标准训练算法(STD)和 STD 0.1141 12.92 14.41 122.33 动态数据约简训练方法(DDR)训练的神经网络分 LIR DDR 0.1446 8.05 11.01 77.80 类器,最终训练集均方误差1oss,训练集分类错误率 train-Avg,测试集分类错误率test-Avg和训练时间 STD 0.0582 7.06 9.62 78.14 time,30次实验的平均结果如表2所示。对比STD DDR 0.0652 5.80 9.78 34.15 和DDR两种训练方法的最终均方误差,除Seeds数 STD 0.0340 3.40 6.44 1.42 据集外,STD训练方法的均方误差均大于DDR训练 Seeds DDR 0.0132 0.13 4.98 3.73 方法的均方误差,说明DDR训练方法在整个训练上 更加关注边界样本,弱化了对于训练样本整体的 STD 0.0010 0.04 2.65 0.71 Wine “逼近拟合”。 DDR 0.0017 0.00 2.50 0.49 对比分类错误率,DDR训练方法比STD训练方 STD 0.0045 0.10 1.51 2104.83 法在较高的均方误差下具有更低的训练分类错误 Mnist DDR 0.0047 0.03 1.61 1129.18 率,除Forest、SL和Mnist3个数据集外取得相近的 预测分类错误率外,DDR训练方法在其余数据集上 基于以上对比分析可知,相对标准的神经网络 均具有更低的测试分类错误率。综合对比均方误差 训练方法STD,动态数据约简的神经网络训练方法 和错分类错误率可知,DDR训练方法在较大的均方 DDR是一种收敛速度更快、分类泛化能力更好的神强的分类泛化能力。 基于以上分析可知,基于样本权重的动态数据 约简方法能够区分并挑选边界样本和核样本,并随 着网络的迭代训练,逐渐增加边界样本比重,弱化核 样本作用,从而训练出泛化能力更好的神经网络分 类器。 2.3 标准数据集实验分析 为了验证基于动态数据约简的神经网络训练方 法在标准分类数据集上的效果,选取 10 组标准数据 集进行数值实验,其中 Forest 等 9 组来自 UCI 分类 数据集,Mnist 标准数据集来自官方网站。 各组数据 集属性以及训练集,测试集样本个数信息见表 1。 10 组数据集中 Forest、IS、SL、Mnist 具有固定的分类 训练集个数和测试集个数,剩余的非固定数据集,训 练集和测试集个数比例基本保持 1:1。 表 1 UCI 分类数据集的属性信息 Table 1 Attribute information of UCI classification data set 名称 样本个数 训练样本 属性个数 类别数 Forest 523 198 27 4 Glass 214 100 9 6 IP 180 90 34 2 Iris 150 75 4 3 IS 2 310 210 19 7 LIR 20 000 10 000 61 10 Seeds 210 105 7 3 SL 6 435 4 000 36 6 Wine 178 90 13 3 Mnist 60 000 10 000 784 10 在相同的实验条件下,标准训练算法( STD)和 动态数据约简训练方法(DDR) 训练的神经网络分 类器,最终训练集均方误差 loss,训练集分类错误率 train⁃Avg,测试集分类错误率 test⁃Avg 和训练时间 time,30 次实验的平均结果如表 2 所示。 对比 STD 和 DDR 两种训练方法的最终均方误差,除 Seeds 数 据集外,STD 训练方法的均方误差均大于 DDR 训练 方法的均方误差,说明 DDR 训练方法在整个训练上 更加关注边界样本,弱化了对于训练样本整体的 “逼近拟合”。 对比分类错误率,DDR 训练方法比 STD 训练方 法在较高的均方误差下具有更低的训练分类错误 率,除 Forest、SL 和 Mnist 3 个数据集外取得相近的 预测分类错误率外,DDR 训练方法在其余数据集上 均具有更低的测试分类错误率。 综合对比均方误差 和错分类错误率可知,DDR 训练方法在较大的均方 误差下取得了较小的训练和测试分类错误率,说明 DDR 训练方法更加注重边界样本的作用,具有防止 过拟合的能力,能够训练分类泛化能力更好的神经 网络。 对比网络训练时间,DDR 训练方法具有更短的 训练时间。 由于每个数据集的训练样本个数,迭代 次数、批量值、权重下限值等训练参数不同,所以相 对 STD 训练方法,DDR 训练方法时间缩短程度有所 不同,总体上选择的权重下限值和学习批量越小, DDR 训练方法所需的训练时间越短,但过小的权重 下限值和学习批量,容易引起网络波动,使得网络的 分类泛化能力较差。 表 2 不同神经网络训练方法的分类错误率比较 Table 2 Comparison of classification error rate of different neural network training methods 数据集 名称 Method loss train⁃Avg test⁃Avg time Forest STD 0.007 5 0.07 15.66 5.34 DDR 0.011 6 0.00 15.79 2.11 Glass STD 0.036 6 4.47 35.37 7.70 DDR 0.050 4 1.63 33.48 3.29 IP STD 0.004 4 0.30 30.04 1.24 DDR 0.010 8 0.00 29.96 0.41 Iris STD 0.025 8 3.07 4.22 0.67 DDR 0.058 5 1.87 3.69 0.36 IS STD 0.027 4 3.51 10.14 2.52 DDR 0.032 6 1.14 8.72 1.53 LIR STD 0.114 1 12.92 14.41 122.33 DDR 0.144 6 8.05 11.01 77.80 SL STD 0.058 2 7.06 9.62 78.14 DDR 0.065 2 5.80 9.78 34.15 Seeds STD 0.034 0 3.40 6.44 1.42 DDR 0.013 2 0.13 4.98 3.73 Wine STD 0.001 0 0.04 2.65 0.71 DDR 0.001 7 0.00 2.50 0.49 Mnist STD 0.004 5 0.10 1.51 2 104.83 DDR 0.004 7 0.03 1.61 1 129.18 基于以上对比分析可知,相对标准的神经网络 训练方法 STD,动态数据约简的神经网络训练方法 DDR 是一种收敛速度更快、分类泛化能力更好的神 ·264· 智 能 系 统 学 报 第 12 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有