正在加载图片...
第2期 刘威,等:BP神经网络子批量学习方法研究 ·231. 小批量下取得较小的错误率,这是由于Music数据 训练时间也呈现先减小后增大的趋势。 集中数据之间差异较大,而这种差异性导致分类错 3)选择最优的批量和学习率组合可以成倍地 误率整体比Seeds数据集高,为了适应数据间的这 减小网络训练时间,而且数据集越大批量对网络收 种差异,需要探索更多的空间,而小批量下的随机扰 敛时间的影响越关键。 动,可以使网络探索更多的空间,从而找到泛化能力 3.3.2 Waveform数据集分类准确率比较 更好的空间,提升网络的分类能力。新所以对于M山 依据图7在收敛的条件下,不同学习率和批量 sic这种数据间差异较大的数据集,在不考虑训练时 的分类效果存在一定的差别,但差异较小。小批量 间和迭代速度的情况下,使用小批量训练网络具有 和大批量下的网络分类误差结果相似,说明批量对 更好的泛化能力。 于Waveform数据集网络的分类泛化能力影响较小。 3.3 Waveform分类实验 0.25 Waveform数据集由UCI提供的用于分类算法 测试的实验数据集之一,该数据集包含5000个样 解0.20 本的3分类数据集,实验在每个类别中随机抽取 a=7 -a=1 1000个样本作为训练集,剩余2000个样本为训练 -a=5+…a=0.5 -a=3+-a=0.1 集。网络隐层节点为50,E=0.005,迭代8000次, *-a=0.01 0.10 选取批量s为5、15、30、75、150、300、750、1500、 15307515030075015003000 批量 3000,相同条件下,取10次实验的平均结果作为讨 图7 Music数据集不同学习率和批量下的错误率 论对象,来测试学习率和批量对于训练时间(表3) Fig.7 Error rates of Waveform under different learn- 和分类错误率(图6)的影响。 ing rates and batch size 3.3.1 Waveform数据集训练时间比较 综合对比图4,6、7可发现批量对网络的分类泛 依据表4中不同学习率和批量下的网络训练时 化能力存在一定的影响,选择理想的批量和学习率组 间,学习批量对Waveform数据集网络的收敛时间影 合,能够获得较好分类错误率,但其影响相对较小,在 响较大,说明批量和学习率可大幅减小大数据网络 收敛的情况下,不同批量下的分类错误率相近。 的训练时间。 从批量对于网络迭代次数和训练时间的影响角 表4 Waveform数据集不同学习率和批量的训练时间 度来看,批量对于网络分类泛化能力的影响较弱,网 Table 4 Training time of Waveform under different learn- 络的泛化能力和数据集本身性质有较大关系,而批 ing rates and batch size 量主要影响网络的迭代次数和训练时间。 a 515307515030075015003000 0.01 8187.0105.182.961.450.340.539.637.5 4 结论 0.0515522.525.240.953.547.837.835.732.8 本文基于BP神经网络全批量和单批量学习方 0.1110914.112.919.728.837.739.036.333.4 法,研究了子批量的神经网络学习方法,并探讨了学 0.51101307.4150.77.412.412.823.833.735.1 习率和批量对于网络收敛性和训练时间的影响,通 11173325.2160.165.414.07.721.724.429.9 过实验证明:1)子批量学习方法具有全批量稳定和 31312342.4166.484.660.950.039.838.134.9 单批量快速的优点:2)不同的学习率下存在不同的 74009428.0193.090.164.052.441.539.135.0 最优批量:3)选择适合的批量,不仅可以大幅缩短 综合对比表1、3、4可发现学习率和训练批量对 网络训练时间,同时还能够取得更好的分类准确率。 于网络的收敛性、收敛时间具有如下规律: 参考文献: 1)固定迭代次数下,当学习率小、批量大和学 习率大、批量小的情况下,网络不收敛。前者是由于 [1]JACOBS R A.Increased rates of convergence through learn- 扰动较大导致网络不容易收敛造成,后者是由于过 ing rate adaptation [J].Neural networks,1988,1(4): 295-.307. 渡平滑导致网络收敛缓慢引起。 [2]刘么和,陈睿,彭伟,等.一种BP神经网络学习率的优 2)在收敛的情况下,批量保持稳定时,随着学 化设计[J].湖北工业大学学报,2007,22(3):1-3. 习率的增大,网络训练时间呈现先减小后增大的趋 LIU Yaohe,CHEN Rui,PENG Wei.Optimal design for 势:学习率保持稳定时,随着批量的逐渐增大,网络小批量下取得较小的错误率,这是由于 Music 数据 集中数据之间差异较大,而这种差异性导致分类错 误率整体比 Seeds 数据集高,为了适应数据间的这 种差异,需要探索更多的空间,而小批量下的随机扰 动,可以使网络探索更多的空间,从而找到泛化能力 更好的空间,提升网络的分类能力。 所以对于 Mu⁃ sic 这种数据间差异较大的数据集,在不考虑训练时 间和迭代速度的情况下,使用小批量训练网络具有 更好的泛化能力。 3.3 Waveform 分类实验 Waveform 数据集由 UCI 提供的用于分类算法 测试的实验数据集之一,该数据集包含 5 000 个样 本的 3 分类数据集,实验在每个类别中随机抽取 1 000个样本作为训练集,剩余 2 000 个样本为训练 集。 网络隐层节点为 50,E = 0.005,迭代 8 000 次, 选取批量 s 为 5、15、30、75、150、300、750、1 500、 3 000,相同条件下,取 10 次实验的平均结果作为讨 论对象,来测试学习率和批量对于训练时间(表 3) 和分类错误率(图 6)的影响。 3.3.1 Waveform 数据集训练时间比较 依据表 4 中不同学习率和批量下的网络训练时 间,学习批量对 Waveform 数据集网络的收敛时间影 响较大,说明批量和学习率可大幅减小大数据网络 的训练时间。 表 4 Waveform 数据集不同学习率和批量的训练时间 Table 4 Training time of Waveform under different learn⁃ ing rates and batch size α 5 15 30 75 150 300 750 1 500 3 000 0.01 81 87.0 105.1 82.9 61.4 50.3 40.5 39.6 37.5 0.05 155 22.5 25.2 40.9 53.5 47.8 37.8 35.7 32.8 0.1 1 109 14.1 12.9 19.7 28.8 37.7 39.0 36.3 33.4 0.5 1 101 307.4 150.7 7.4 12.4 12.8 23.8 33.7 35.1 1 1 173 325.2 160.1 65.4 14.0 7.7 21.7 24.4 29.9 3 1 312 3 42.4 166.4 84.6 60.9 50.0 39.8 38.1 34.9 7 4 009 428.0 193.0 90.1 64.0 52.4 41.5 39.1 35.0 综合对比表 1、3、4 可发现学习率和训练批量对 于网络的收敛性、收敛时间具有如下规律: 1)固定迭代次数下,当学习率小、批量大和学 习率大、批量小的情况下,网络不收敛。 前者是由于 扰动较大导致网络不容易收敛造成,后者是由于过 渡平滑导致网络收敛缓慢引起。 2)在收敛的情况下,批量保持稳定时,随着学 习率的增大,网络训练时间呈现先减小后增大的趋 势;学习率保持稳定时,随着批量的逐渐增大,网络 训练时间也呈现先减小后增大的趋势。 3)选择最优的批量和学习率组合可以成倍地 减小网络训练时间,而且数据集越大批量对网络收 敛时间的影响越关键。 3.3.2 Waveform 数据集分类准确率比较 依据图 7 在收敛的条件下,不同学习率和批量 的分类效果存在一定的差别,但差异较小。 小批量 和大批量下的网络分类误差结果相似,说明批量对 于 Waveform 数据集网络的分类泛化能力影响较小。 图 7 Music 数据集不同学习率和批量下的错误率 Fig.7 Error rates of Waveform under different learn⁃ ing rates and batch size 综合对比图 4、6、7 可发现批量对网络的分类泛 化能力存在一定的影响,选择理想的批量和学习率组 合,能够获得较好分类错误率,但其影响相对较小,在 收敛的情况下,不同批量下的分类错误率相近。 从批量对于网络迭代次数和训练时间的影响角 度来看,批量对于网络分类泛化能力的影响较弱,网 络的泛化能力和数据集本身性质有较大关系,而批 量主要影响网络的迭代次数和训练时间。 4 结论 本文基于 BP 神经网络全批量和单批量学习方 法,研究了子批量的神经网络学习方法,并探讨了学 习率和批量对于网络收敛性和训练时间的影响,通 过实验证明:1)子批量学习方法具有全批量稳定和 单批量快速的优点;2)不同的学习率下存在不同的 最优批量;3) 选择适合的批量,不仅可以大幅缩短 网络训练时间,同时还能够取得更好的分类准确率。 参考文献: [1]JACOBS R A. Increased rates of convergence through learn⁃ ing rate adaptation [ J]. Neural networks, 1988, 1 ( 4): 295⁃307. [2]刘幺和, 陈睿, 彭伟, 等. 一种 BP 神经网络学习率的优 化设计[J]. 湖北工业大学学报, 2007, 22(3): 1⁃3. LIU Yaohe, CHEN Rui, PENG Wei. Optimal design for 第 2 期 刘威,等:BP 神经网络子批量学习方法研究 ·231·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有