第11卷第2期 智能系统学报 Vol.11No.2 2016年4月 CAAI Transactions on Intelligent Systems Apr.2016 D0I:10.11992/is.201509015 网络出版地址:http://www.enki..net/kcms/detail/23.1538.TP.20160315.1051.008.html BP神经网络子批量学习方法研究 刘威,刘尚,周璇 (辽宁工程技术大学理学院,辽宁阜新123000) 摘要:针对浅层神经网络全批量学习收敛缓慢和单批量学习易受随机扰动的问题,借鉴深度神经网基于子批量的训 练方法,提出了针对浅层神经网络的子批量学习方法和子批量学习参数优化配置方法。数值实验结果表明:浅层神经 网络子批量学习方法是一种快速稳定的收敛算法,算法中批量和学习率等参数配置对于网络的收敛性、收敛时间和泛 化能力有着重要的影响,学习参数经优化后可大幅缩短网络收敛迭代次数和训练时间,并提高网络分类准确率。 关键词:子批量学习:神经网络:BP算法:批量尺寸:训练方法评估:分类 中图分类号:TP301.6文献标志码:A文章编号:1673-4785(2016)02-0226-07 中文引用格式:刘威,刘尚,周璇.BP神经网络子批量学习方法研究[J】.智能系统学报,2016,11(2):226-232. 英文引用格式:LIU Wei,LIU Shang,ZHOU Xuan.Subbatch learning method for BP neural networks[J].CAAI transactions on intelligent systems,2016,11(2):226-232. Subbatch learning method for BP neural networks LIU Wei,LIU Shang,ZHOU Xuan (College of Science,Liaoning Technical University,Fuxin 123000,China) Abstract:When solving problems in shallow neural networks,the full-batch learning method converges slowly and the single-batch learning method fluctuates easily.By referring to the subbatch training method for deep neural net- works,this paper proposes the subbatch learning method and the subbatch learning parameter optimization and allo- cation method for shallow neural networks.Experimental comparisons indicate that subbatch learning in shallow neural networks converges quickly and stably.The batch size and learning rate have significant impacts on the net convergence,convergence time,and generation ability.Selecting the optimal parameters can dramatically shorten the iteration time for convergence and the training time as well as improve the classification accuracy. Keywords:subbatch learning;neural network;backpropagation algorithms;batch size;training methods and eval- uation:classification 1985年,Rumelhart把BP算法应用到神经网络 方向。参数调整,即学习过程中动态地调整学习率、 的训练过程,提出了著名的“BP神经网络”。经过 步长等学习参数来加速网络训练。主要改进方法包 近30年的发展,针对经典BP算法存在的收敛慢、 括:变学习率算法山、缩减学习率、随机调整学习 易陷入局部最优和分类泛化能力差等缺点,不同学 率)、弹性BP算法[)、变梯度算法)等。新型学习 者提出了很多改进学习方法。 方法主要是在BP算法的基础上借助优化理论和方 在神经网络收敛速度慢的问题上提出的改进算 法来加速网络收敛,如动量项算法[6、具有高阶收 法主要分为新型参数调整策略和新型学习方法两个 敛特性的限域牛顿算法)、LM算法劉等。在神经 网络应用中分类泛化能力差的问题上,提出的改进 收稿日期:2015-09-07.网络出版日期:2016-03-15 基金项目:国家自然科学基金项目(51304114,71371091). 算法主要包括:基于权值惩罚的方法[9、GA等仿生 通信作者:刘尚.E-mail:whiteinblue@126.com. 优化算法和神经网络复合训练[)方法等。以上改
第 11 卷第 2 期 智 能 系 统 学 报 Vol.11№.2 2016 年 4 月 CAAI Transactions on Intelligent Systems Apr. 2016 DOI:10.11992 / tis.201509015 网络出版地址:http: / / www.cnki.net / kcms/ detail / 23.1538.TP.20160315.1051.008.html BP 神经网络子批量学习方法研究 刘威,刘尚,周璇 (辽宁工程技术大学 理学院,辽宁 阜新 123000) 摘 要:针对浅层神经网络全批量学习收敛缓慢和单批量学习易受随机扰动的问题,借鉴深度神经网基于子批量的训 练方法,提出了针对浅层神经网络的子批量学习方法和子批量学习参数优化配置方法。 数值实验结果表明:浅层神经 网络子批量学习方法是一种快速稳定的收敛算法,算法中批量和学习率等参数配置对于网络的收敛性、收敛时间和泛 化能力有着重要的影响,学习参数经优化后可大幅缩短网络收敛迭代次数和训练时间,并提高网络分类准确率。 关键词:子批量学习;神经网络;BP 算法;批量尺寸;训练方法评估;分类 中图分类号: TP301.6 文献标志码:A 文章编号:1673⁃4785(2016)02⁃0226⁃07 中文引用格式:刘威,刘尚,周璇. BP 神经网络子批量学习方法研究[J]. 智能系统学报, 2016, 11(2): 226⁃232. 英文引用格式:LIU Wei, LIU Shang, ZHOU Xuan. Subbatch learning method for BP neural networks[ J]. CAAI transactions on intelligent systems, 2016, 11(2): 226⁃232. Subbatch learning method for BP neural networks LIU Wei, LIU Shang, ZHOU Xuan (College of Science, Liaoning Technical University, Fuxin 123000, China) Abstract:When solving problems in shallow neural networks, the full⁃batch learning method converges slowly and the single⁃batch learning method fluctuates easily. By referring to the subbatch training method for deep neural net⁃ works, this paper proposes the subbatch learning method and the subbatch learning parameter optimization and allo⁃ cation method for shallow neural networks. Experimental comparisons indicate that subbatch learning in shallow neural networks converges quickly and stably. The batch size and learning rate have significant impacts on the net convergence, convergence time, and generation ability. Selecting the optimal parameters can dramatically shorten the iteration time for convergence and the training time as well as improve the classification accuracy. Keywords: subbatch learning; neural network; backpropagation algorithms; batch size; training methods and eval⁃ uation; classification 收稿日期:2015⁃09⁃07. 网络出版日期:2016⁃03⁃15. 基金项目:国家自然科学基金项目 (51304114, 71371091). 通信作者:刘尚. E⁃mail:whiteinblue@ 126.com. 1985 年,Rumelhart 把 BP 算法应用到神经网络 的训练过程,提出了著名的“BP 神经网络”。 经过 近 30 年的发展,针对经典 BP 算法存在的收敛慢、 易陷入局部最优和分类泛化能力差等缺点,不同学 者提出了很多改进学习方法。 在神经网络收敛速度慢的问题上提出的改进算 法主要分为新型参数调整策略和新型学习方法两个 方向。 参数调整,即学习过程中动态地调整学习率、 步长等学习参数来加速网络训练。 主要改进方法包 括:变学习率算法[1] 、缩减学习率[2] 、随机调整学习 率[3] 、弹性 BP 算法[4] 、变梯度算法[5]等。 新型学习 方法主要是在 BP 算法的基础上借助优化理论和方 法来加速网络收敛,如动量项算法[6] 、具有高阶收 敛特性的限域牛顿算法[7] 、LM 算法[8] 等。 在神经 网络应用中分类泛化能力差的问题上,提出的改进 算法主要包括:基于权值惩罚的方法[9] 、GA 等仿生 优化算法和神经网络复合训练[10] 方法等。 以上改
第2期 刘威,等:BP神经网络子批量学习方法研究 ·227. 进方法各有所长,但是在收敛速度和泛化性能之间 后,通过全样本的梯度均值来更新权值,网络完成一 的平衡性问题上还存在着较大提升空间,寻求收敛 次迭代,权值只更新一次,主要算法步骤如下: 速度快、泛化性能高的新型学习方法依然是BP神 1)初始化网络结构,随机初始化网络权值。 经网络研究领域中一个重要问题。 2)计算网络批量均值误差: 自2006年开始,有着更强表达能力的深度 神经网络开始流行。由于网络结构复杂,数据规 (fx:)-y:)2 (4) 模大,为保证网络收敛和避免内存溢出,深度神 3)批量内修正网络权值: 经网络学习时普遍采用子批量学习方法。借鉴 E 深度神经网络的学习方法,本文从学习批量的角 0(k+1)=w(k)+a (5) 度来探究批量对于浅层BP神经网络收敛速度和 4)根据均方误差和迭代次数进行判断是否达 泛化能力的影响,提出了基于子批量神经网络学 到收敛要求,若达到要求则网络完成训练,否则循环 习方法,研究了学习率和学习批量对于网络收敛 2)~3)。 性和收敛速度的影响。 2子批量学习方法及参数配置 1BP神经网络学习方法 单批量学习方法网络完成一次迭代,权值更新 B即算法由信号前馈传递和误差反向传递两阶 m次,其优势是:能够从冗余性中获益,可以跟踪训 段组成。信号前馈传递阶段,信号从输入节点先传 练数据较小的改变;每次迭代权值更新次数多,收敛 向隐层节点,再传向输出层产生输出信号:误差反向 速度快。缺点在于:每个样本都需要完成一次权值 传递阶段,依据标签数据和网络输出之间的误差,把 更新计算2)~3),导致网络每次迭代计算时间较 误差逐层向前传播来调节网络权值,通过权值的不 长,收敛时间较长;此外由于数据间的差异性和噪点 断修正使网络的实际输出更接近期望输出。网络训 的影响,导致权值更新时存在权值扰动,容易引起网 练过程中,根据权值更新执行方式的不同,神经网络 络波动,不利于网络收敛。 学习方法可分为全批量学习(Of--line learning)和单 批量学习(On--line learning)两种方法[u]。 全批量学习方法网络完成一次迭代,权值只更 新一次,这样通过平均权值修正处理,具有对训练数 设网络输入为x,输出为f(x),样本标签为y;训 练样本总数为m,样本均值误差为E,连接权值为 据低通滤波的作用,避免由于数据间差异和噪点引 w,学习率为a,则BP学习算法描述如下。 起的权值扰动:其次全批量可以通过矢量化编程,借 1.1单批量学习 助矩阵运算的优势,来提升计算速度,每次迭代时间 单批量学习过程要求每个训练样本呈现给网络 短。缺点在于全批量均值处理使梯度误差较小,网 之后即刻更新权值,网络完成一次迭代,权值更新m 络收敛缓慢,且矢量化编程计算,对于内存要求高。 次,主要算法步骤如下: 2.1子批量学习方法 1)初始化网络结构,随机初始化网络权值。 对比全批量和单批量学习方法,全批量学习具 2)计算网络单个样本误差e:: 有计算快速稳定的优点,缺点是对于内存需求大,收 e:=(f八x-y:) 敛缓慢:单批量学习具有收敛快速、能够跟踪数据变 (1) 3)单个样本内修正网络权值: 化的优点,缺点是存在扰动、训练时间长。综合全批 aei 量和单批量的优缺点,本文提出了浅层神经网络子 w,(k+1)=1o,(k)+ (2) 批量学习方法。 4)计算所有样本的均方误差: 子批量学习方法介于单批量和全批量之间,计 算过程中首先将训练样本平均分成多个子批量,在 (3) m i=1 每个子批量内进行全批量网络权值更新,即每个子 5)根据误差结果和迭代次数进行判断是否达 批量呈现给网络后进行权值更新,每次迭代计算权 到收敛要求,若达到要求则网络完成训练,否则循环 值更新多次。主要算法流程图如图1所示。 2)~4)。 子批量学习是在子批量内更新网络权值,每次 1.2全批量学习 迭代权值进行多次更新,这样子批量内更新权值可 全批量是在所有训练样本都呈现给神经网络之 以借助矢量化编程来加速迭代计算且对内存需求较
进方法各有所长,但是在收敛速度和泛化性能之间 的平衡性问题上还存在着较大提升空间,寻求收敛 速度快、泛化性能高的新型学习方法依然是 BP 神 经网络研究领域中一个重要问题。 自 2006 年开始,有着更强表达能力的深度 神经网络开始流行。 由于网络结构复杂,数据规 模大,为保证网络收敛和避免内存溢出,深度神 经网络学习时普遍采用子批量学习方法。 借鉴 深度神经网络的学习方法,本文从学习批量的角 度来探究批量对于浅层 BP 神经网络收敛速度和 泛化能力的影响,提出了基于子批量神经网络学 习方法,研究了学习率和学习批量对于网络收敛 性和收敛速度的影响。 1 BP 神经网络学习方法 BP 算法由信号前馈传递和误差反向传递两阶 段组成。 信号前馈传递阶段,信号从输入节点先传 向隐层节点,再传向输出层产生输出信号;误差反向 传递阶段,依据标签数据和网络输出之间的误差,把 误差逐层向前传播来调节网络权值,通过权值的不 断修正使网络的实际输出更接近期望输出。 网络训 练过程中,根据权值更新执行方式的不同,神经网络 学习方法可分为全批量学习(Off⁃line learning)和单 批量学习(On⁃line learning)两种方法[ 11 ] 。 设网络输入为 x,输出为 f(x),样本标签为 y;训 练样本总数为 m,样本均值误差为 E,连接权值为 ω ,学习率为 α ,则 BP 学习算法描述如下。 1.1 单批量学习 单批量学习过程要求每个训练样本呈现给网络 之后即刻更新权值,网络完成一次迭代,权值更新 m 次,主要算法步骤如下: 1)初始化网络结构,随机初始化网络权值。 2)计算网络单个样本误差 ei : ei = (f(xi) - yi) 2 (1) 3)单个样本内修正网络权值: wi(k + 1) = wi(k) + a ∂ei ∂wi (2) 4)计算所有样本的均方误差: E = 1 m∑ m i = 1 ei (3) 5)根据误差结果和迭代次数进行判断是否达 到收敛要求,若达到要求则网络完成训练,否则循环 2) ~4)。 1.2 全批量学习 全批量是在所有训练样本都呈现给神经网络之 后,通过全样本的梯度均值来更新权值,网络完成一 次迭代,权值只更新一次,主要算法步骤如下: 1)初始化网络结构,随机初始化网络权值。 2)计算网络批量均值误差: E = 1 m∑ m i = 1 (f(xi) - yi) 2 (4) 3)批量内修正网络权值: w(k + 1) = w(k) + a ∂E ∂w (5) 4)根据均方误差和迭代次数进行判断是否达 到收敛要求,若达到要求则网络完成训练,否则循环 2) ~3)。 2 子批量学习方法及参数配置 单批量学习方法网络完成一次迭代,权值更新 m 次,其优势是:能够从冗余性中获益,可以跟踪训 练数据较小的改变;每次迭代权值更新次数多,收敛 速度快。 缺点在于:每个样本都需要完成一次权值 更新计算 2) ~ 3),导致网络每次迭代计算时间较 长,收敛时间较长;此外由于数据间的差异性和噪点 的影响,导致权值更新时存在权值扰动,容易引起网 络波动,不利于网络收敛。 全批量学习方法网络完成一次迭代,权值只更 新一次,这样通过平均权值修正处理,具有对训练数 据低通滤波的作用,避免由于数据间差异和噪点引 起的权值扰动;其次全批量可以通过矢量化编程,借 助矩阵运算的优势,来提升计算速度,每次迭代时间 短。 缺点在于全批量均值处理使梯度误差较小,网 络收敛缓慢,且矢量化编程计算,对于内存要求高。 2.1 子批量学习方法 对比全批量和单批量学习方法,全批量学习具 有计算快速稳定的优点,缺点是对于内存需求大,收 敛缓慢;单批量学习具有收敛快速、能够跟踪数据变 化的优点,缺点是存在扰动、训练时间长。 综合全批 量和单批量的优缺点,本文提出了浅层神经网络子 批量学习方法。 子批量学习方法介于单批量和全批量之间,计 算过程中首先将训练样本平均分成多个子批量,在 每个子批量内进行全批量网络权值更新,即每个子 批量呈现给网络后进行权值更新,每次迭代计算权 值更新多次。 主要算法流程图如图 1 所示。 子批量学习是在子批量内更新网络权值,每次 迭代权值进行多次更新,这样子批量内更新权值可 以借助矢量化编程来加速迭代计算且对内存需求较 第 2 期 刘威,等:BP 神经网络子批量学习方法研究 ·227·
.228 智能系统学报 第11卷 小,其次可以在均值平滑滤波和权值扰动之间达到 能力的影响。 一种平衡。因此,子批量学习既具有全批量学习通 3.1 Seeds数据集分类实验 过平均处理、滤波平稳的优势,又融合了单批量学习 Seeds数据集是由UCI提供的用于分类算法测 更新次数多、收敛快的特点,同时克服了全批量平均 试的实验数据集之一,该数据记录了3类种子的7 处理后网络收敛缓慢、内存需求高和单批量学习网 种特征数据,总计210个样本。实验从3个类别中 络波动的缺点。 分别随机抽取36个样本组成训练集,剩余样本组成 开始 测试集。网络隐层节点个数设置为10,选取批量s 网络权值初始化 为1、4、9、18、54、108,其中s=1为单批量学习,s= 108为全批量学习,中间为不同批量大小的子批量 预处理训练数据均值为0,方差为1 学习方法,在相同网络初始权值下取20次实验的平 训练样本进行随机排序 均结果作为讨论对象。 训练样本平均分成个批次,每个批次的批量为s 3.1.1不同批量收敛性研究 计算当前子批量的误差 为了探究批量对于网络收敛性的影响,实验在 当前子批量内进行权值更新 迭代5000次情况下,不同批量网络性如图2所示。 0.30年 全部子批量 N 0.25 计算完成 Y 效0.20 计算训练样本的均方误差 0.15 0.10 9 是否达到收敛 0.05 。 Y 结束 -gx10 0 1015202530 迭代次数 图1BP神经网络子批量学习方法流程图 Fig.I Flow chart of sub-batch learning method 图2 Seeds数据集不同批量下均值误差 2.2子批量学习参数配置研究 Fig.2 MSE of seeds under different batch size 由式(2)和式(5)可以看出,网络权值的更新量 由图2,在相同的学习率情况下,批量越小,均 由学习率和梯度共同决定,所以学习率对于网络的 值误差收敛越快,收敛所需要的迭代次数越小,但较 收敛速度有着关键性的影响,通过调整学习率可以 小的批量,导致网络波动较大,存在随机扰动,如图 调节网络权值的更新程度,在训练过程中,学习率过 2中下方s=18,s=4时的曲线,误差曲线波动收敛: 大会导致学习过程震荡,网络收敛困难,学习率过 随着批量增大,均值误差收敛曲线扰动逐渐减小,收 小,导致网络收敛缓慢,迭代时间长。因此经常调整 敛曲线逐渐平滑,这说明均值误差梯度起到了平滑 滤波的效果:但误差曲线缓慢收敛,收敛所需要的迭 学习率来加速网络训练。 子批量学习方法中,子批量学习使网络权值更 代次数较大,如图2中上方s=54,s=108时的曲线。 3.1.2 Seeds数据集迭代次数比较分析 新在均值平滑滤波和扰动之间达到一种平衡,不同 学习率是影响网络收敛性和训练时间的关键因 的批量在均值平滑滤波和扰动之间有所侧重,小批 素,在上述实验基础上,实验以E=0.005为收敛目标, 量更侧重于增大扰动影响,大批量更侧重于加强均 迭代5000次,分别在a=7、5、3、1、0.50.1、0.01总计 值平滑滤波效果,网络学习率会放大或缩小这种侧 7个不同的学习率下,测试不同学习率和批量对于网 重,所以批量和学习率的配置,对于网络的收敛性和 络迭代次数(图3)、训练时间(表1)和分类错误率 训练时间有着重要的影响。 (图4)的影响。(实验验证在E=0.01时存在欠拟合, 3数值实验 在E=0.001和E=0.0005时存在过拟合。) 1)依据图3,学习率相同时,网络首先在小批 本文以具有代表性的Seeds12】、Waveform13]和 量上达到收敛,之后逐渐在所有批量上都达到收敛, Music4]分类数据集为实验对象,通过实验,比较单 随着批量增加,在不引起较大波动的情况下,网络收 批量、全批量和子批量学习方法收敛速度,揭示子批 敛所需的迭代次数也逐渐增加,说明小批量对比大 量和学习率对网络收敛速度、训练时间和分类泛化 批量学习具有较快的收敛速度
小,其次可以在均值平滑滤波和权值扰动之间达到 一种平衡。 因此,子批量学习既具有全批量学习通 过平均处理、滤波平稳的优势,又融合了单批量学习 更新次数多、收敛快的特点,同时克服了全批量平均 处理后网络收敛缓慢、内存需求高和单批量学习网 络波动的缺点。 图 1 BP 神经网络子批量学习方法流程图 Fig.1 Flow chart of sub⁃batch learning method 2.2 子批量学习参数配置研究 由式(2)和式(5)可以看出,网络权值的更新量 由学习率和梯度共同决定,所以学习率对于网络的 收敛速度有着关键性的影响,通过调整学习率可以 调节网络权值的更新程度,在训练过程中,学习率过 大会导致学习过程震荡,网络收敛困难,学习率过 小,导致网络收敛缓慢,迭代时间长。 因此经常调整 学习率来加速网络训练。 子批量学习方法中,子批量学习使网络权值更 新在均值平滑滤波和扰动之间达到一种平衡,不同 的批量在均值平滑滤波和扰动之间有所侧重,小批 量更侧重于增大扰动影响,大批量更侧重于加强均 值平滑滤波效果,网络学习率会放大或缩小这种侧 重,所以批量和学习率的配置,对于网络的收敛性和 训练时间有着重要的影响。 3 数值实验 本文以具有代表性的 Seeds [1 2 ] 、Waveform [1 3 ]和 Music [14 ]分类数据集为实验对象,通过实验,比较单 批量、全批量和子批量学习方法收敛速度,揭示子批 量和学习率对网络收敛速度、训练时间和分类泛化 能力的影响。 3.1 Seeds 数据集分类实验 Seeds 数据集是由 UCI 提供的用于分类算法测 试的实验数据集之一,该数据记录了 3 类种子的 7 种特征数据,总计 210 个样本。 实验从 3 个类别中 分别随机抽取 36 个样本组成训练集,剩余样本组成 测试集。 网络隐层节点个数设置为 10,选取批量 s 为 1、4、9、18、54、108,其中 s = 1 为单批量学习,s = 108 为全批量学习,中间为不同批量大小的子批量 学习方法,在相同网络初始权值下取 20 次实验的平 均结果作为讨论对象。 3.1.1 不同批量收敛性研究 为了探究批量对于网络收敛性的影响,实验在 迭代 5 000 次情况下,不同批量网络性如图 2 所示。 图 2 Seeds 数据集不同批量下均值误差 Fig.2 MSE of seeds under different batch size 由图 2,在相同的学习率情况下,批量越小,均 值误差收敛越快,收敛所需要的迭代次数越小,但较 小的批量,导致网络波动较大,存在随机扰动,如图 2 中下方 s = 18,s = 4 时的曲线,误差曲线波动收敛; 随着批量增大,均值误差收敛曲线扰动逐渐减小,收 敛曲线逐渐平滑,这说明均值误差梯度起到了平滑 滤波的效果;但误差曲线缓慢收敛,收敛所需要的迭 代次数较大,如图 2 中上方 s = 54,s = 108 时的曲线。 3.1.2 Seeds 数据集迭代次数比较分析 学习率是影响网络收敛性和训练时间的关键因 素,在上述实验基础上,实验以 E= 0.005 为收敛目标, 迭代 5 000 次,分别在 α = 7、5、3、1、0.5、0.1、0.01 总计 7 个不同的学习率下,测试不同学习率和批量对于网 络迭代次数(图 3)、训练时间(表 1)和分类错误率 (图 4)的影响。 (实验验证在 E= 0.01 时存在欠拟合, 在 E= 0.001 和 E= 0.000 5 时存在过拟合。) 1) 依据图 3,学习率相同时,网络首先在小批 量上达到收敛,之后逐渐在所有批量上都达到收敛, 随着批量增加,在不引起较大波动的情况下,网络收 敛所需的迭代次数也逐渐增加,说明小批量对比大 批量学习具有较快的收敛速度。 ·228· 智 能 系 统 学 报 第 11 卷
第2期 刘威,等:BP神经网络子批量学习方法研究 ·229. 2)当学习率过大,批量较小时,会引起网络波 的增大,网络的收敛时间呈现先减小后增大的趋势, 动,从而导致收敛迭代次数增大,如=7,s=1时, 这是由于小批量下存在误差权值的扰动,在小的学 迭代2500次才收敛,而批量较大时则不会引起波 习率下这种扰动有利于网络学习,但这种扰动随着 动现象,说明大批量具有一定的稳定性,可以使网络 学习率的增大,导致每次批量更新权值过度扰动,从 平稳收敛。 而使网络收敛困难,收敛所需迭代次数增多,网络训 ×10 练时间增加。 3)相同学习率下,随着批量的增大,网络的训 练时间也呈现先减小后增大的趋势,这是由于随着 批量的增大,基于均值的权值更新方法逐渐抑制扰 动的同时,平滑滤波效果也逐渐增强,适合的批量, 9182754108 使扰动抑制和平滑效果最佳,使网络最快收敛。 批量S 表1 Seeds数据集不同学习率和批量的训练时间 图3 Seeds数据集不同批量下均值误差 Table 1 Training time of seeds under different learning Fig.3 MSE of seeds under different batch size rates and batch size 这是由于数据之间即存在相似性又存在差异性 1 24 9182754108 所造成的,在利用子批量进行训练时,由于每个批量 0.0186.7550.1125.7812.216.744.822.922.03 的数据样本都不同,当批量较小时,这种数据差异性 0.1 10.8311.3511.3911.006.914.983.002.10 凸显,所以每次迭代更新权值会有差别,即引起权值 0.52.132.042.122.242.502.762.681.95 扰动:当学习率较小时,由于每次迭代的步长较小, 1.191.021.001.071.181.261.541.84 这种扰动有利于网络探索到更小的均值误差值。其 3 1.150.520.370.410.420.430.520.72 次,小批量下每次迭代,权值更新次数多,所以网络 5 3.550.490.240.240.200.220.260.37 收敛迅速,但当学习率较大时,由于每次迭代步长较 748.390.760.270.200.230.190.220.33 大,会导致这种数据扰动增大,从而造成矫枉过正, 导致在大的学习率下,小批量学习使网络很难收敛。 3.1.4 Seeds数据集错误率分析 当批量较大时,梯度误差通过批量均值后,会产生类 依据图4,忽略α=0.01时,网络不收敛的情况, 似平滑滤波的效果,这种平滑的效果抑制或减弱数 相同学习率下,批量对于网络的分类泛化能力,有着 据的差异性,凸显数据的相似性:随着批量的增大, 一定的影响。综合不同学习率,错误率在批量较小 这种平滑效果也增大,导致梯度误差和步长逐渐减 时波动较大,批量较大时,错误率波动较小。这是由 小,使网络缓慢平稳收敛:所以当学习率较大时,大 于批量较小时,权值更新扰动明显,这种扰动可以使 的批量依然能够确保网络快速稳定收敛,而不会引 网络探索更多的权值空间,随着批量的增大,权值扰 起网络发散。 动逐渐被抑制,所以批量较小时网络错误率波动较 所以选择适合的批量大小,会在数据的相似性 大,批量较大时网络错误率波动较小。对比不同学 和差异性,以及扰动和平滑之间达到一种平衡效果, 习率下最小错误率,发现不同的学习率对应不同的 适度利用扰动和平滑,保证在平稳的前提下,使网络 最优批量,对应关系如表2所示。 最快达到收敛。 0.25 3.1.3 Seeds数据集训练时间分析 0.20 a=3 1)依据表1,当学习率过小,如a=0.01时,网 张0.15 ma=0.5 络收敛速度较慢,导致网络在s>1时,迭代5000次 ◆-a=0.1 米0.10叶 +-a=0.01 的情况下都未达到收敛,但在迭代次数相同的情况 下,随着批量的增大,凭借矩阵运算快速的优势,网 0.05 络训练时间呈指数级减小,所以子批量学习可以大 24 9182754108 幅减少每次迭代计算时间。 批量S 2)相同批量下,网络收敛时间并没有随着学习 图4 Seeds数据集不同学习率和批量下错误率 率的增大而逐渐减小。当批量s<18时,随着学习率 Fig.4 Error rates of seeds under different learning rates and batch size
2) 当学习率过大,批量较小时,会引起网络波 动,从而导致收敛迭代次数增大,如 α = 7,s = 1 时, 迭代 2 500 次才收敛,而批量较大时则不会引起波 动现象,说明大批量具有一定的稳定性,可以使网络 平稳收敛。 图 3 Seeds 数据集不同批量下均值误差 Fig.3 MSE of seeds under different batch size 这是由于数据之间即存在相似性又存在差异性 所造成的,在利用子批量进行训练时,由于每个批量 的数据样本都不同,当批量较小时,这种数据差异性 凸显,所以每次迭代更新权值会有差别,即引起权值 扰动;当学习率较小时,由于每次迭代的步长较小, 这种扰动有利于网络探索到更小的均值误差值。 其 次,小批量下每次迭代,权值更新次数多,所以网络 收敛迅速,但当学习率较大时,由于每次迭代步长较 大,会导致这种数据扰动增大,从而造成矫枉过正, 导致在大的学习率下,小批量学习使网络很难收敛。 当批量较大时,梯度误差通过批量均值后,会产生类 似平滑滤波的效果,这种平滑的效果抑制或减弱数 据的差异性,凸显数据的相似性;随着批量的增大, 这种平滑效果也增大,导致梯度误差和步长逐渐减 小,使网络缓慢平稳收敛;所以当学习率较大时,大 的批量依然能够确保网络快速稳定收敛,而不会引 起网络发散。 所以选择适合的批量大小,会在数据的相似性 和差异性,以及扰动和平滑之间达到一种平衡效果, 适度利用扰动和平滑,保证在平稳的前提下,使网络 最快达到收敛。 3.1.3 Seeds 数据集训练时间分析 1) 依据表 1,当学习率过小,如 α = 0.01 时,网 络收敛速度较慢,导致网络在 s>1 时,迭代 5 000 次 的情况下都未达到收敛,但在迭代次数相同的情况 下,随着批量的增大,凭借矩阵运算快速的优势,网 络训练时间呈指数级减小,所以子批量学习可以大 幅减少每次迭代计算时间。 2) 相同批量下,网络收敛时间并没有随着学习 率的增大而逐渐减小。 当批量 s<18 时,随着学习率 的增大,网络的收敛时间呈现先减小后增大的趋势, 这是由于小批量下存在误差权值的扰动,在小的学 习率下这种扰动有利于网络学习,但这种扰动随着 学习率的增大,导致每次批量更新权值过度扰动,从 而使网络收敛困难,收敛所需迭代次数增多,网络训 练时间增加。 3) 相同学习率下,随着批量的增大,网络的训 练时间也呈现先减小后增大的趋势,这是由于随着 批量的增大,基于均值的权值更新方法逐渐抑制扰 动的同时,平滑滤波效果也逐渐增强,适合的批量, 使扰动抑制和平滑效果最佳,使网络最快收敛。 表 1 Seeds 数据集不同学习率和批量的训练时间 Table 1 Training time of seeds under different learning rates and batch size α 1 2 4 9 18 27 54 108 0.01 86.75 50.11 25.78 12.21 6.74 4.82 2.92 2.03 0.1 10.83 11.35 11.39 11.00 6.91 4.98 3.00 2.10 0.5 2.13 2.04 2.12 2.24 2.50 2.76 2.68 1.95 1 1.19 1.02 1.00 1.07 1.18 1.26 1.54 1.84 3 1.15 0.52 0.37 0.41 0.42 0.43 0.52 0.72 5 3.55 0.49 0.24 0.24 0.20 0.22 0.26 0.37 7 48.39 0.76 0.27 0.20 0.23 0.19 0.22 0.33 3.1.4 Seeds 数据集错误率分析 依据图 4,忽略 α = 0.01 时,网络不收敛的情况, 相同学习率下,批量对于网络的分类泛化能力,有着 一定的影响。 综合不同学习率,错误率在批量较小 时波动较大,批量较大时,错误率波动较小。 这是由 于批量较小时,权值更新扰动明显,这种扰动可以使 网络探索更多的权值空间,随着批量的增大,权值扰 动逐渐被抑制,所以批量较小时网络错误率波动较 大,批量较大时网络错误率波动较小。 对比不同学 习率下最小错误率,发现不同的学习率对应不同的 最优批量,对应关系如表 2 所示。 图 4 Seeds 数据集不同学习率和批量下错误率 Fig.4 Error rates of seeds under different learning rates and batch size 第 2 期 刘威,等:BP 神经网络子批量学习方法研究 ·229·
.230 智能系统学报 第11卷 表2Seds数据集不同学习率下错误率对应最优批量 Table 2 Min error rates and its correspondence batch size of seeds under different learning rates 学习率0.010.10.5135 7 最优批量1249 a=9+-a=0.5 10854.10854 .-a=5+-=0.1 --a=3*-a=0.01 错误率/9%6.765.055.786.185.205.835.44 1251020501002505001000 批量S 依据表2,随着学习率的增大,网络对应的最 图5 Music数据集不同学习率和批量下的迭代次数 优批量也随之增大,对比小批量下的错误率,网 Fig.5 Converge epochs of music under different learning 络在较大的批量处取得较小的分类错误率,这是 rates and batch size 由于Seeds数据集数据之间的相似性较高,在大 由于Music数据集训练样本个数较多,随着批量的 的批量下平滑滤波更适合相似性较高数据集,小 增加,会造成平滑过渡现象,使均值误差过小,从而 批量下的随机扰动则不适合数据相似性较高的 使误差梯度较小,导致网络收敛缓慢,造成大批量训 数据集。 练网络需要较多的迭代次数。 3.2 Music分类实验 3.2.2 Music数据集训练时间比较 Music数据集通过倒谱系数法提取4种音乐类 依据表3,在收敛的条件下,批量对于Music数 型总计500组24维的音素特征。实验在每类音乐 据集的训练时间影响较大,如最长收敛时间为 随机抽取250个样本作为训练集,剩余样本为训练 880s,最短收敛时间仅为4s,差异较大。在相同学 集。网络隐层节点为50,E=0.001,迭代5000次, 习率下随着批量的增加,训练时间呈现先减小后增 选取批量s为1、2、5、10、20、50、100、250、500、1000, 大的趋势。相同批量下,随着学习率的增大,训练时 相同条件下,取20次实验的平均结果作为讨论对 间也呈现先减小后增大的趋势。这是由于批量学习 象,来测试学习率和批量对于网络迭代次数(图5)、 可以通过矢量化编程来借助矩阵运算的优势来加快 训练时间(表3)和分类错误率(图6)的影响。 计算时间,而且批量越大,这种优势越明显,每次迭 表3 Music数据集不同学习率和批量的训练时间 代所需的时间越小。但较大的批量会造成一定程度 Table 3 Training time of music under different learning rates and batch size 的过平滑,使网络收敛所需迭代次数增加,所以选择 适合的批量,不但可以利用矩阵计算的优势,还不会 2 51020501002505001000 导致过度平滑,从而大幅缩短网络训练时间。 0.018807123752041288857342927 3.2.3 Music数据集分类准确率比较 0.13992251361091098858342927 首先依据图5,在批量小、学习率大和批量 0.5397107 51 35 3139453429 27 大、学习率小的情况下网络不收敛,所以图6中 161316082 463333313128 25 网络未收敛时分类错误率较大。 31640694 86 84791321 26 0.25 51700843 168 69 172116141620 0.20 9169584333412019411131115 0.15 担 3.2.1 Music数据集迭代次数比较 a=9a=1 对比图5和图3可知,批量对Music数据集 0.05 -a=5…-a=0.5*a=0.01 收敛迭代次数影响较大,随着批量增加,网络迭 -a=3+-a=0.1 251020501002505001000 代次数呈现指数级别的先减小后增大的趋势。 批量S 这是由于Music数据集样本容量大,数据间差异 图6 Music数据集不同学习率和批量下的错误率 较大。相比Seeds数据集,当采用小批量训练时, Fig.6 Error rates of music under different learning 批量间的权值更新扰动较大,由于随着学习率的 rates and batch size 增加,会放大这种扰动,所以Music数据集随着批 在收敛的条件下,不同学习率和不同批量的分 量的变化,网络收敛所需的迭代次数呈现指数级 类效果存在一定的差别。对比图6和图4,Seeds数 别的减小。 据集中大批量对应较小的分类错误率,而Music中
表 2 Seeds 数据集不同学习率下错误率对应最优批量 Table 2 Min error rates and its correspondence batch size of seeds under different learning rates 学习率 0.01 0.1 0.5 1 3 5 7 最优批量 1 2 4 9 108 54,108 54 错误率/ % 6.76 5.05 5.78 6.18 5.20 5.83 5.44 依据表 2,随着学习率的增大,网络对应的最 优批量也随之增大,对比小批量下的错误率,网 络在较大的批量处取得较小的分类错误率,这是 由于 Seeds 数据集数据之间的相似性较高,在大 的批量下平滑滤波更适合相似性较高数据集,小 批量下的随机扰动则不适合数据相似性较高的 数据集。 3.2 Music 分类实验 Music 数据集通过倒谱系数法提取 4 种音乐类 型总计 500 组 24 维的音素特征。 实验在每类音乐 随机抽取 250 个样本作为训练集,剩余样本为训练 集。 网络隐层节点为 50,E = 0.001,迭代 5 000 次, 选取批量 s 为 1、2、5、10、20、50、100、250、500、1 000, 相同条件下,取 20 次实验的平均结果作为讨论对 象,来测试学习率和批量对于网络迭代次数(图 5)、 训练时间(表 3)和分类错误率(图 6)的影响。 表 3 Music 数据集不同学习率和批量的训练时间 Table 3 Training time of music under different learning rates and batch size α 1 2 5 10 20 50 100 250 500 1 000 0.01 880 712 375 204 128 88 57 34 29 27 0.1 399 225 136 109 109 88 58 34 29 27 0.5 397 107 51 35 31 39 45 34 29 27 1 613 160 82 46 33 33 31 31 28 25 3 1 640 694 86 8 4 7 9 13 21 26 5 1 700 843 168 69 17 21 16 14 16 20 9 1 695 843 334 120 19 4 11 13 11 15 3.2.1 Music 数据集迭代次数比较 对比图 5 和图 3 可知,批量对 Music 数据集 收敛迭代次数影响较大,随着批量增加,网络迭 代次数呈现指数级别的先减小后 增 大 的 趋 势。 这是由于 Music 数据集样本容量大,数据间差异 较大。 相比 Seeds 数据集,当采用小批量训练时, 批量间的权值更新扰动较大,由于随着学习率的 增加,会放大这种扰动,所以 Music 数据集随着批 量的变化,网络收敛所需的迭代次数呈现指数级 别的减小。 图 5 Music 数据集不同学习率和批量下的迭代次数 Fig.5 Converge epochs of music under different learning rates and batch size 由于 Music 数据集训练样本个数较多,随着批量的 增加,会造成平滑过渡现象,使均值误差过小,从而 使误差梯度较小,导致网络收敛缓慢,造成大批量训 练网络需要较多的迭代次数。 3.2.2 Music 数据集训练时间比较 依据表 3,在收敛的条件下,批量对于 Music 数 据集的 训 练 时 间 影 响 较 大, 如 最 长 收 敛 时 间 为 880 s,最短收敛时间仅为 4 s,差异较大。 在相同学 习率下随着批量的增加,训练时间呈现先减小后增 大的趋势。 相同批量下,随着学习率的增大,训练时 间也呈现先减小后增大的趋势。 这是由于批量学习 可以通过矢量化编程来借助矩阵运算的优势来加快 计算时间,而且批量越大,这种优势越明显,每次迭 代所需的时间越小。 但较大的批量会造成一定程度 的过平滑,使网络收敛所需迭代次数增加,所以选择 适合的批量,不但可以利用矩阵计算的优势,还不会 导致过度平滑,从而大幅缩短网络训练时间。 3.2.3 Music 数据集分类准确率比较 首先依据图 5,在批量小、学习率大和批 量 大、学习率小的情况下网络不收敛,所以图 6 中 网络未收敛时分类错误率较大。 图 6 Music 数据集不同学习率和批量下的错误率 Fig. 6 Error rates of music under different learning rates and batch size 在收敛的条件下,不同学习率和不同批量的分 类效果存在一定的差别。 对比图 6 和图 4,Seeds 数 据集中大批量对应较小的分类错误率,而 Music 中 ·230· 智 能 系 统 学 报 第 11 卷
第2期 刘威,等:BP神经网络子批量学习方法研究 ·231. 小批量下取得较小的错误率,这是由于Music数据 训练时间也呈现先减小后增大的趋势。 集中数据之间差异较大,而这种差异性导致分类错 3)选择最优的批量和学习率组合可以成倍地 误率整体比Seeds数据集高,为了适应数据间的这 减小网络训练时间,而且数据集越大批量对网络收 种差异,需要探索更多的空间,而小批量下的随机扰 敛时间的影响越关键。 动,可以使网络探索更多的空间,从而找到泛化能力 3.3.2 Waveform数据集分类准确率比较 更好的空间,提升网络的分类能力。新所以对于M山 依据图7在收敛的条件下,不同学习率和批量 sic这种数据间差异较大的数据集,在不考虑训练时 的分类效果存在一定的差别,但差异较小。小批量 间和迭代速度的情况下,使用小批量训练网络具有 和大批量下的网络分类误差结果相似,说明批量对 更好的泛化能力。 于Waveform数据集网络的分类泛化能力影响较小。 3.3 Waveform分类实验 0.25 Waveform数据集由UCI提供的用于分类算法 测试的实验数据集之一,该数据集包含5000个样 解0.20 本的3分类数据集,实验在每个类别中随机抽取 a=7 -a=1 1000个样本作为训练集,剩余2000个样本为训练 -a=5+…a=0.5 -a=3+-a=0.1 集。网络隐层节点为50,E=0.005,迭代8000次, *-a=0.01 0.10 选取批量s为5、15、30、75、150、300、750、1500、 15307515030075015003000 批量 3000,相同条件下,取10次实验的平均结果作为讨 图7 Music数据集不同学习率和批量下的错误率 论对象,来测试学习率和批量对于训练时间(表3) Fig.7 Error rates of Waveform under different learn- 和分类错误率(图6)的影响。 ing rates and batch size 3.3.1 Waveform数据集训练时间比较 综合对比图4,6、7可发现批量对网络的分类泛 依据表4中不同学习率和批量下的网络训练时 化能力存在一定的影响,选择理想的批量和学习率组 间,学习批量对Waveform数据集网络的收敛时间影 合,能够获得较好分类错误率,但其影响相对较小,在 响较大,说明批量和学习率可大幅减小大数据网络 收敛的情况下,不同批量下的分类错误率相近。 的训练时间。 从批量对于网络迭代次数和训练时间的影响角 表4 Waveform数据集不同学习率和批量的训练时间 度来看,批量对于网络分类泛化能力的影响较弱,网 Table 4 Training time of Waveform under different learn- 络的泛化能力和数据集本身性质有较大关系,而批 ing rates and batch size 量主要影响网络的迭代次数和训练时间。 a 515307515030075015003000 0.01 8187.0105.182.961.450.340.539.637.5 4 结论 0.0515522.525.240.953.547.837.835.732.8 本文基于BP神经网络全批量和单批量学习方 0.1110914.112.919.728.837.739.036.333.4 法,研究了子批量的神经网络学习方法,并探讨了学 0.51101307.4150.77.412.412.823.833.735.1 习率和批量对于网络收敛性和训练时间的影响,通 11173325.2160.165.414.07.721.724.429.9 过实验证明:1)子批量学习方法具有全批量稳定和 31312342.4166.484.660.950.039.838.134.9 单批量快速的优点:2)不同的学习率下存在不同的 74009428.0193.090.164.052.441.539.135.0 最优批量:3)选择适合的批量,不仅可以大幅缩短 综合对比表1、3、4可发现学习率和训练批量对 网络训练时间,同时还能够取得更好的分类准确率。 于网络的收敛性、收敛时间具有如下规律: 参考文献: 1)固定迭代次数下,当学习率小、批量大和学 习率大、批量小的情况下,网络不收敛。前者是由于 [1]JACOBS R A.Increased rates of convergence through learn- 扰动较大导致网络不容易收敛造成,后者是由于过 ing rate adaptation [J].Neural networks,1988,1(4): 295-.307. 渡平滑导致网络收敛缓慢引起。 [2]刘么和,陈睿,彭伟,等.一种BP神经网络学习率的优 2)在收敛的情况下,批量保持稳定时,随着学 化设计[J].湖北工业大学学报,2007,22(3):1-3. 习率的增大,网络训练时间呈现先减小后增大的趋 LIU Yaohe,CHEN Rui,PENG Wei.Optimal design for 势:学习率保持稳定时,随着批量的逐渐增大,网络
小批量下取得较小的错误率,这是由于 Music 数据 集中数据之间差异较大,而这种差异性导致分类错 误率整体比 Seeds 数据集高,为了适应数据间的这 种差异,需要探索更多的空间,而小批量下的随机扰 动,可以使网络探索更多的空间,从而找到泛化能力 更好的空间,提升网络的分类能力。 所以对于 Mu⁃ sic 这种数据间差异较大的数据集,在不考虑训练时 间和迭代速度的情况下,使用小批量训练网络具有 更好的泛化能力。 3.3 Waveform 分类实验 Waveform 数据集由 UCI 提供的用于分类算法 测试的实验数据集之一,该数据集包含 5 000 个样 本的 3 分类数据集,实验在每个类别中随机抽取 1 000个样本作为训练集,剩余 2 000 个样本为训练 集。 网络隐层节点为 50,E = 0.005,迭代 8 000 次, 选取批量 s 为 5、15、30、75、150、300、750、1 500、 3 000,相同条件下,取 10 次实验的平均结果作为讨 论对象,来测试学习率和批量对于训练时间(表 3) 和分类错误率(图 6)的影响。 3.3.1 Waveform 数据集训练时间比较 依据表 4 中不同学习率和批量下的网络训练时 间,学习批量对 Waveform 数据集网络的收敛时间影 响较大,说明批量和学习率可大幅减小大数据网络 的训练时间。 表 4 Waveform 数据集不同学习率和批量的训练时间 Table 4 Training time of Waveform under different learn⁃ ing rates and batch size α 5 15 30 75 150 300 750 1 500 3 000 0.01 81 87.0 105.1 82.9 61.4 50.3 40.5 39.6 37.5 0.05 155 22.5 25.2 40.9 53.5 47.8 37.8 35.7 32.8 0.1 1 109 14.1 12.9 19.7 28.8 37.7 39.0 36.3 33.4 0.5 1 101 307.4 150.7 7.4 12.4 12.8 23.8 33.7 35.1 1 1 173 325.2 160.1 65.4 14.0 7.7 21.7 24.4 29.9 3 1 312 3 42.4 166.4 84.6 60.9 50.0 39.8 38.1 34.9 7 4 009 428.0 193.0 90.1 64.0 52.4 41.5 39.1 35.0 综合对比表 1、3、4 可发现学习率和训练批量对 于网络的收敛性、收敛时间具有如下规律: 1)固定迭代次数下,当学习率小、批量大和学 习率大、批量小的情况下,网络不收敛。 前者是由于 扰动较大导致网络不容易收敛造成,后者是由于过 渡平滑导致网络收敛缓慢引起。 2)在收敛的情况下,批量保持稳定时,随着学 习率的增大,网络训练时间呈现先减小后增大的趋 势;学习率保持稳定时,随着批量的逐渐增大,网络 训练时间也呈现先减小后增大的趋势。 3)选择最优的批量和学习率组合可以成倍地 减小网络训练时间,而且数据集越大批量对网络收 敛时间的影响越关键。 3.3.2 Waveform 数据集分类准确率比较 依据图 7 在收敛的条件下,不同学习率和批量 的分类效果存在一定的差别,但差异较小。 小批量 和大批量下的网络分类误差结果相似,说明批量对 于 Waveform 数据集网络的分类泛化能力影响较小。 图 7 Music 数据集不同学习率和批量下的错误率 Fig.7 Error rates of Waveform under different learn⁃ ing rates and batch size 综合对比图 4、6、7 可发现批量对网络的分类泛 化能力存在一定的影响,选择理想的批量和学习率组 合,能够获得较好分类错误率,但其影响相对较小,在 收敛的情况下,不同批量下的分类错误率相近。 从批量对于网络迭代次数和训练时间的影响角 度来看,批量对于网络分类泛化能力的影响较弱,网 络的泛化能力和数据集本身性质有较大关系,而批 量主要影响网络的迭代次数和训练时间。 4 结论 本文基于 BP 神经网络全批量和单批量学习方 法,研究了子批量的神经网络学习方法,并探讨了学 习率和批量对于网络收敛性和训练时间的影响,通 过实验证明:1)子批量学习方法具有全批量稳定和 单批量快速的优点;2)不同的学习率下存在不同的 最优批量;3) 选择适合的批量,不仅可以大幅缩短 网络训练时间,同时还能够取得更好的分类准确率。 参考文献: [1]JACOBS R A. Increased rates of convergence through learn⁃ ing rate adaptation [ J]. Neural networks, 1988, 1 ( 4): 295⁃307. [2]刘幺和, 陈睿, 彭伟, 等. 一种 BP 神经网络学习率的优 化设计[J]. 湖北工业大学学报, 2007, 22(3): 1⁃3. LIU Yaohe, CHEN Rui, PENG Wei. Optimal design for 第 2 期 刘威,等:BP 神经网络子批量学习方法研究 ·231·
.232. 智能系统学报 第11卷 learning rate of BP neutral network[J].Journal of Hubei u- [10]刘奕君,赵强,郝文利.基于遗传算法优化BP神经网 niversity of technology,2007,22(3):1-3. 络的瓦斯浓度预测研究[J].矿业安全与环保,2015 [3]贾立山,谈至明,王知.基于随机参数调整的改进反向 42(2):56-60. 传播学习算法[J].同济大学学报:自然科学版,2011, LIU Yijun,ZHAO Qiang,HAO Wenli.Study of gas con- 39(5):751-757. centration prediction based on genetic algorithm and opti- JIA Lishan,TAN Zhiming,WANG Zhi.Modified BP algo- mizing BP neural network[J].Mining safety environ- rithm based on random adjustment of parameters[].Jour- mental protection,2015,42(2):56-60. nal of Tongji university natural science),2011,39(5): [11]HAM F M,KOSTANIC I.Principles of neurocomputing for 751-757. science and engineering M].New York,NY:McGraw- [4]RIEDMILLER M,BRAUN H.RPROP-A fast adaptive Hill Science,2000. learning algorithm[C]//Proceedings of the International [12]http://archive.ics.uci.edu/ml/datasets/seeds. Symposium on Computer and Information Sciences (ISCIS [13]史峰,王小川,郁磊,等.MATLAB神经网络30个案例 VII).Ankara,Turkey,1992. 分析[M].北京:北京航空航天大学出版社,2010:1- [5]CHARALAMBOUS C.Conjugate gradient algorithm for effi- 3. cient training of artificial neural networks[].Devices and 作者简介: systems,IEE proceedings G-Circuits,1992,139(3):301- 刘威,男.1977年生,副教授,博士, 310. 中国计算机学会会员,主要研究方向为 [6]VOGL T P,MANGIS J K.RIGLER A K,et al.Accelera- 模式识别、时间序列数据挖掘、矿业系 ting the convergence of the back-propagation method [J]. 统工程。 Biological cybernetics,1988,59(4/5):257-263. [7]DENNIS J E Jr,SCHNABEL R B.Numerical methods for 刘尚,男,1988年生,硕士研究生, unconstrained optimization and nonlinear equations M]. 主要研究方向为模式识别、人工智能、 Philadelphia,USA:SIAM,1996. 计算机视觉。 [8]MOR J J.The Levenberg-Marquardt algorithm:implementa- tion and theory M]//WATSON G A.Numerical Analysis. Berlin Heidelberg:Springer,1978:105-116. [9]侯祥林,陈长征,虞和济,等.神经网络权值和阈值的 周璇,女,1992年生,硕士研究生, 优化方法[J].东北大学学报:自然科学版,1999,20 主要研究方向为模式识别、矿业系统工 (4):447-450. 程。 HOU Xianglin,CHEN Changzheng,YU Heji,et al.Opti- mum method about weights and thresholds of neural network [J].Journal of northeastern university:natural science, 1999,20(4):447-450
learning rate of BP neutral network[J]. Journal of Hubei u⁃ niversity of technology, 2007, 22(3): 1⁃3. [3]贾立山, 谈至明, 王知. 基于随机参数调整的改进反向 传播学习算法[ J]. 同济大学学报:自然科学版, 2011, 39(5): 751⁃757. JIA Lishan, TAN Zhiming, WANG Zhi. Modified BP algo⁃ rithm based on random adjustment of parameters[ J]. Jour⁃ nal of Tongji university ( natural science), 2011, 39( 5): 751⁃757. [4 ] RIEDMILLER M, BRAUN H. RPROP⁃A fast adaptive learning algorithm [ C] / / Proceedings of the International Symposium on Computer and Information Sciences ( ISCIS VII).Ankara, Turkey, 1992. [5]CHARALAMBOUS C. Conjugate gradient algorithm for effi⁃ cient training of artificial neural networks[ J]. Devices and systems, IEE proceedings G⁃Circuits, 1992, 139(3): 301⁃ 310. [6]VOGL T P, MANGIS J K, RIGLER A K, et al. Accelera⁃ ting the convergence of the back⁃propagation method [ J]. Biological cybernetics, 1988, 59(4 / 5): 257⁃263. [7] DENNIS J E Jr, SCHNABEL R B. Numerical methods for unconstrained optimization and nonlinear equations [ M]. Philadelphia, USA: SIAM, 1996. [8]MOR J J. The Levenberg⁃Marquardt algorithm: implementa⁃ tion and theory[M] / / WATSON G A. Numerical Analysis. Berlin Heidelberg: Springer, 1978: 105⁃116. [9]侯祥林, 陈长征, 虞和济, 等. 神经网络权值和阈值的 优化方法[ J]. 东北大学学报:自然科学版, 1999, 20 (4): 447⁃450. HOU Xianglin, CHEN Changzheng, YU Heji, et al. Opti⁃ mum method about weights and thresholds of neural network [J]. Journal of northeastern university: natural science, 1999, 20(4): 447⁃450. [10]刘奕君, 赵强, 郝文利. 基于遗传算法优化 BP 神经网 络的瓦斯浓度预测研究[ J]. 矿业安全与环保, 2015, 42(2): 56⁃60. LIU Yijun, ZHAO Qiang, HAO Wenli. Study of gas con⁃ centration prediction based on genetic algorithm and opti⁃ mizing BP neural network [ J]. Mining safety & environ⁃ mental protection, 2015, 42(2): 56⁃60. [11]HAM F M, KOSTANIC I. Principles of neurocomputing for science and engineering [ M]. New York, NY: McGraw⁃ Hill Science, 2000. [12]http: / / archive.ics.uci.edu / ml / datasets/ seeds. [13]史峰, 王小川, 郁磊, 等. MATLAB 神经网络 30 个案例 分析[M]. 北京: 北京航空航天大学出版社, 2010: 1⁃ 3. 作者简介: 刘威,男,1977 年生,副教授,博士, 中国计算机学会会员,主要研究方向为 模式识别、时间序列数据挖掘、矿业系 统工程。 刘尚,男,1988 年生,硕士研究生, 主要研究方向为模式识别、人工智能、 计算机视觉。 周璇,女,1992 年生,硕士研究生, 主要研究方向为模式识别、矿业系统工 程。 ·232· 智 能 系 统 学 报 第 11 卷