第13卷第6期 智能系统学报 Vol.13 No.6 2018年12月 CAAI Transactions on Intelligent Systems Dec.2018 D0:10.11992/tis.201705021 网络出版地址:http:/kns.cnki.net/kcms/detail/23.1538.TP.20180410.0939.004html 一种具有迁移学习能力的RBF-NN算法及其应用 许敏2,史荧中2,葛洪伟,黄能耿2 (1.江南大学物联网技术学院,江苏无锡214122:2.无锡职业技术学院物联网技术学院,江苏无锡214121) 摘要:经典的径向基人工神经网络学习能逼近任意函数,因而应用广泛。但其存在的一个重要缺陷是,在已 标签样本过少、不能反映数据集整体分布情况下,容易产生过拟合现象,从而导致泛化性能严重下降。针对上 述问题,探讨具有迁移学习能力的径向基人工神经网络学习算法,该算法在引入ε不敏感损失函数和结构风险 项的同时,学习源领域径向基函数的中心向量及核宽和源领域模型参数,通过充分学习历史源领域知识来弥 补当前领域因已标签样本少而导致泛化能力下降的不足。将该算法应用于人造数据集和真实发酵数据集进 行验证,和传统的RBF神经网络算法相比,所提算法在已标签样本少而存在数据缺失的场景下,具有更好的适 应性。 关键词:径向基函数神经网络;迁移学习;径向基函数中心向量:ε不敏感损失函数;信息缺失 中图分类号:TP391文献标志码:A文章编号:1673-4785(2018)06-0959-08 中文引用格式:许敏,史荧中,葛洪伟,等.一种具有迁移学习能力的RBF-NN算法及其应用引J.智能系统学报,2018,13(6): 959-966. 英文引用格式:XU Min,SHI Yingzhong,GE Hongwei,etaL.ARBF-NN algorithm with transfer learning ability and its applica- tionJ.CAAI transactions on intelligent systems,2018,13(6):959-966. A RBF-NN algorithm with transfer learning ability and its application XU Min2,SHI Yingzhong',GE Hongwei',HUANG Nenggeng (1.School of Internet of things technology,Jiangnan University,Wuxi 214122,China;2.School of Internet of things technology, Wuxi Institute of Technology,Wuxi 214121,China) Abstract:The classical radial basis function neural network(RBF-NN)is widely used as it can approximate any func- tion.However,one of its main defects is that overfitting is likely to occur when there are too few labeled samples to re- flect the overall distribution of datasets;this leads to a serious decline in its generalization ability.To solve the above problem,an artificial RBF-NN learning algorithm with transfer learning ability is discussed.The algorithm introduces the e-insensitive loss function and the structural risk term and also learns the center vector and kernel width of the radial basis function as well as the parameters of the source domain model.The algorithm fully learns the knowledge in the historical source domain to compensate for its decline in generalization ability caused by the lack of labeled samples in the current field.To verify the algorithm,it is applied to an artificial dataset and real fermentation dataset.Compared with the traditional RBF-NN algorithm,the proposed algorithm has a better adaptability as regards less labeled samples and missing data. Keywords:radial basis function neural network,transfer learning;radial basis function vector,s-insensitive loss func- tion:missing information 收稿日期:2017-05-17.网络出版日期:201804-10. 1985年,Powell提出多变量插值的径向基函 基金项目:国家自然科学基金项目(61572236):江苏省高等学 校自然科学研究项目(18KJB520048):江苏高校“青 数(radical basic function,RBF)方法。l988年, 蓝工程”项目(苏教师〔2016〕15号):江苏省“333 高层次人才培养工程”项目(苏人才〔2016)7号). Moody和Darken提出了一种神经网络结构,即 通信作者:许敏.E-mail:applexu9027@126.com. RBF神经网络。该网络能够以任意精度逼近任意
DOI: 10.11992/tis.201705021 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20180410.0939.004.html 一种具有迁移学习能力的 RBF-NN 算法及其应用 许敏1,2,史荧中2 ,葛洪伟1 ,黄能耿2 (1. 江南大学 物联网技术学院,江苏 无锡 214122; 2. 无锡职业技术学院 物联网技术学院,江苏 无锡 214121) ε 摘 要:经典的径向基人工神经网络学习能逼近任意函数,因而应用广泛。但其存在的一个重要缺陷是,在已 标签样本过少、不能反映数据集整体分布情况下,容易产生过拟合现象,从而导致泛化性能严重下降。针对上 述问题,探讨具有迁移学习能力的径向基人工神经网络学习算法,该算法在引入 不敏感损失函数和结构风险 项的同时,学习源领域径向基函数的中心向量及核宽和源领域模型参数,通过充分学习历史源领域知识来弥 补当前领域因已标签样本少而导致泛化能力下降的不足。将该算法应用于人造数据集和真实发酵数据集进 行验证,和传统的 RBF 神经网络算法相比,所提算法在已标签样本少而存在数据缺失的场景下,具有更好的适 应性。 关键词:径向基函数神经网络;迁移学习;径向基函数中心向量;ε 不敏感损失函数;信息缺失 中图分类号:TP391 文献标志码:A 文章编号:1673−4785(2018)06−0959−08 中文引用格式:许敏, 史荧中, 葛洪伟, 等. 一种具有迁移学习能力的 RBF-NN 算法及其应用[J]. 智能系统学报, 2018, 13(6): 959–966. 英文引用格式:XU Min, SHI Yingzhong, GE Hongwei, et al. A RBF-NN algorithm with transfer learning ability and its application[J]. CAAI transactions on intelligent systems, 2018, 13(6): 959–966. A RBF-NN algorithm with transfer learning ability and its application XU Min1,2 ,SHI Yingzhong2 ,GE Hongwei1 ,HUANG Nenggeng2 (1. School of Internet of things technology, Jiangnan University, Wuxi 214122, China; 2. School of Internet of things technology, Wuxi Institute of Technology, Wuxi 214121, China) " Abstract: The classical radial basis function neural network (RBF-NN) is widely used as it can approximate any function. However, one of its main defects is that overfitting is likely to occur when there are too few labeled samples to reflect the overall distribution of datasets; this leads to a serious decline in its generalization ability. To solve the above problem, an artificial RBF-NN learning algorithm with transfer learning ability is discussed. The algorithm introduces the -insensitive loss function and the structural risk term and also learns the center vector and kernel width of the radial basis function as well as the parameters of the source domain model. The algorithm fully learns the knowledge in the historical source domain to compensate for its decline in generalization ability caused by the lack of labeled samples in the current field. To verify the algorithm, it is applied to an artificial dataset and real fermentation dataset. Compared with the traditional RBF-NN algorithm, the proposed algorithm has a better adaptability as regards less labeled samples and missing data. Keywords: radial basis function neural network; transfer learning; radial basis function vector; ε-insensitive loss function; missing information 1985 年,Powell 提出多变量插值的径向基函 数 (radical basic function, RBF) 方法。1988 年, Moody 和 Darken[1]提出了一种神经网络结构,即 RBF 神经网络。该网络能够以任意精度逼近任意 收稿日期:2017−05−17. 网络出版日期:2018−04−10. 基金项目:国家自然科学基金项目 (61572236);江苏省高等学 校自然科学研究项目(18KJB520048);江苏高校“青 蓝工程”项目 (苏教师〔2016〕15 号);江苏省“333 高层次人才培养工程”项目 (苏人才〔2016〕7 号). 通信作者:许敏. E-mail:applexu9027@126.com. 第 13 卷第 6 期 智 能 系 统 学 报 Vol.13 No.6 2018 年 12 月 CAAI Transactions on Intelligent Systems Dec. 2018
·960· 智能系统学报 第13卷 连续函数,非线性拟合能力强,具有很强的鲁棒 (c-RBF with transfer learning ability,s-TLRBF) 性,因此应用广泛,如海洋表面温度预测、网络 算法,通过引入ε不敏感损失函数和学习源领域径 安全态势预测、智能轮椅自适应控制、失业率 向基函数的中心向量及核宽和源领域模型参数, 预测阿、电力系统的可用输电能力在线估计6、在 帮助目标领域建立模型。 线恶意垃圾邮件检测等。随着应用范围的推 1RBF神经网络 广,研究者们发现RBF神经网络仍存在一些不 足,制约其进一步的发展和应用,故许多专家学 RBF神经网络由输入层、隐含层和输出层组 者提出了一些改进算法,如有学者提出对神经网 成,由图1所示。其中,x:∈,y∈R,隐含层节点 络的结构进行优化,相关学习算法主要有两大 数为M,RBF神经网络完成f:R→R的非线性映射。 类:1)先构造复杂的网络结构,再通过训练精简 网络结构,如韩敏等提出了一种改进的RAN算 法,该方法采用样本的输入输出信息对网络进行 初始化,再根据FPE剪枝策略对网络结构进行简 化:2)先采用精简的网络结构,再通过训练增大 网络规模,直至达到泛化要求,如Plat等例提出了 种资源分配网络,该方法首先创建一个精简网 图1RBF神经网络模型 络,当网络出现异常模式时,通过分配新单元和 Fig.1 The model of RBF neural network 修改已有单元参数来进行学习,直至网络稳定 在RBF神经网络中,输入层接收训练样本; 基于聚类的RBF神经网络隐含层数据中心一般 隐含层节点通过径向基函数执行一种非线性变 通过K-means聚类算法获得,故有学者提出对该 化,将输入空间映射到一个新的空间,若该径向 聚类方法进行优化以提高算法泛化性能-12。 基函数定义为高斯函数,设c:∈R表示高斯函数的 此外,还有一些学者研究各种基于进化算法的 中心,6,表示高斯函数的核宽,该函数可表示为 RBF神经网络31。如Lacerda等到提出使用遗 (lIx-cill)exp -cl2 (1) 传算法优化学习参数:Shekhar等提出使用模拟 6 退火算法确定神经网络的连接权值;Alexandridis 输出层节点在该新空间实现线性加权组合。 等提出使用粒子群算法和模糊均值法确定隐含 设w,为隐含层与输出层的连接权值,(©)为径向基 层的中心,改进网络的结构等。 函数,R4→R的映射函数为 从上述文献综述可以发现,以往的研究主要 y=f(x)= w,φlr-cD i=1,2,…,M (2) 围绕RBF神经网络的网络结构和参数设计展开, 所解决问题的场景是采集到的数据能反映数据集 2RBF神经网络与线性模型 的分布情况,但在实际应用中,信息采集器或传 感器设备可能会出现故障,导致采集到的数据不 由第1节介绍可知,RBF神经网络的参数有 完整。训练样本不完整,或多或少都会影响RBF 3个,径向基函数的中心向量c,=[cac2…caJ,核 神经网络的学习效率,使网络的推广能力变差。 宽6,和隐含层与输出层的连接权值%,。其中,c、 训练样本反映数据集总体分布的程度对算法的泛 6,可利用模糊C均值(FCM)聚类技术确定,参数 化性能有着重要的影响。到目前为止,样本数量 w:利用梯度下降学习算法获得。设4表示 和质量对RBF神经网络算法泛化性能影响方面 FCM聚类算法得到的样本x对于第类的模糊隶 的研究还不多。针对上述问题,本文将迁移学习 属度,h是可调缩放参数,n表示训练样本规模, 思想引入RBF神经网络,提出已标签样本少时的 M表示隐含层节点数,径向基函数的中心c和核 RBF神经网络学习算法。所谓迁移学习,就是学 宽6可由式(3)表示: 习已有的源领域知识来解决目标领域中已标签样 本数量较少甚至没有的学习问题61m。该思想已 1 I C设= -,0=h (3) 广泛应用于分类、回归、概率密度估计等各类机 H 器学习领域。本文在文献[I8]提出的εRBF算法 的基础上,提出了具有迁移学习能力的RBF神经 令产=Φlr-clD,i=1,2,…,M
连续函数,非线性拟合能力强,具有很强的鲁棒 性,因此应用广泛,如海洋表面温度预测[2] 、网络 安全态势预测[3] 、智能轮椅自适应控制[4] 、失业率 预测[5] 、电力系统的可用输电能力在线估计[6] 、在 线恶意垃圾邮件检测[7]等。随着应用范围的推 广,研究者们发现 RBF 神经网络仍存在一些不 足,制约其进一步的发展和应用,故许多专家学 者提出了一些改进算法,如有学者提出对神经网 络的结构进行优化,相关学习算法主要有两大 类:1) 先构造复杂的网络结构,再通过训练精简 网络结构,如韩敏等[8]提出了一种改进的 RAN 算 法,该方法采用样本的输入输出信息对网络进行 初始化,再根据 FPE 剪枝策略对网络结构进行简 化;2) 先采用精简的网络结构,再通过训练增大 网络规模,直至达到泛化要求,如 Platt 等 [9]提出了 一种资源分配网络,该方法首先创建一个精简网 络,当网络出现异常模式时,通过分配新单元和 修改已有单元参数来进行学习,直至网络稳定。 基于聚类的 RBF 神经网络隐含层数据中心一般 通过 K-means 聚类算法获得,故有学者提出对该 聚类方法进行优化以提高算法泛化性能[ 1 0 - 1 2 ]。 此外,还有一些学者研究各种基于进化算法的 RBF 神经网络[13-15]。如 Lacerda 等 [13]提出使用遗 传算法优化学习参数;Shekhar 等 [14]提出使用模拟 退火算法确定神经网络的连接权值;Alexandridis 等 [15]提出使用粒子群算法和模糊均值法确定隐含 层的中心,改进网络的结构等。 ε- 从上述文献综述可以发现,以往的研究主要 围绕 RBF 神经网络的网络结构和参数设计展开, 所解决问题的场景是采集到的数据能反映数据集 的分布情况,但在实际应用中,信息采集器或传 感器设备可能会出现故障,导致采集到的数据不 完整。训练样本不完整,或多或少都会影响 RBF 神经网络的学习效率,使网络的推广能力变差。 训练样本反映数据集总体分布的程度对算法的泛 化性能有着重要的影响。到目前为止,样本数量 和质量对 RBF 神经网络算法泛化性能影响方面 的研究还不多。针对上述问题,本文将迁移学习 思想引入 RBF 神经网络,提出已标签样本少时的 RBF 神经网络学习算法。所谓迁移学习,就是学 习已有的源领域知识来解决目标领域中已标签样 本数量较少甚至没有的学习问题[16-17]。该思想已 广泛应用于分类、回归、概率密度估计等各类机 器学习领域。本文在文献[18]提出的 RBF 算法 的基础上,提出了具有迁移学习能力的 RBF 神经 ε- ε 网络 (ε-RBF with transfer learning ability, TLRBF) 算法,通过引入 不敏感损失函数和学习源领域径 向基函数的中心向量及核宽和源领域模型参数, 帮助目标领域建立模型。 1 RBF 神经网络 xi ∈ R d y ∈ R f : R d → R RBF 神经网络由输入层、隐含层和输出层组 成,由图 1 所示。其中, , ,隐含层节点 数为 M,RBF 神经网络完成 的非线性映射。 y w1 c1 x1 x2 xd c2 cM w2 wM Σ ... ... ... 图 1 RBF 神经网络模型 Fig. 1 The model of RBF neural network ci ∈ R d δi 在 RBF 神经网络中,输入层接收训练样本; 隐含层节点通过径向基函数执行一种非线性变 化,将输入空间映射到一个新的空间,若该径向 基函数定义为高斯函数,设 表示高斯函数的 中心, 表示高斯函数的核宽,该函数可表示为 ϕ(∥x− ci∥) = exp( − ∥x− ci∥ 2 δi ) (1) wi ϕ(•) R d → R 输出层节点在该新空间实现线性加权组合。 设 为隐含层与输出层的连接权值, 为径向基 函数, 的映射函数为 y = f (x) = ∑M i=1 wiϕ(∥x− ci∥) i = 1,2,··· , M (2) 2 RBF 神经网络与线性模型 ci = [ci1 ci2 ··· cid] T δi wi ci δi wi µji xj i h cik δi 由第 1 节介绍可知,RBF 神经网络的参数有 3 个,径向基函数的中心向量 ,核 宽 和隐含层与输出层的连接权值 。其中, 、 可利用模糊 C 均值 (FCM) 聚类技术确定,参数 利用梯度下降学习算法获得。设 表 示 FCM 聚类算法得到的样本 对于第 类的模糊隶 属度, 是可调缩放参数,n 表示训练样本规模, M 表示隐含层节点数,径向基函数的中心 和核 宽 可由式 (3) 表示: cik = ∑n j=1 µjixjk ∑n j=1 µji ,δi = h ∑n j=1 µji xj − ci 2 ∑n j=1 µji (3) x˜ i 令 = ϕ(∥x− ci∥),i = 1,2,··· , M ·960· 智 能 系 统 学 报 第 13 卷
第6期 许敏,等:一种具有迁移学习能力的RBF-NN算法及其应用 ·961· 元,=… (4) 核宽集合△={61,62,…,6w,源领域核宽可调缩放 通过式(3)得到径向基函数的中心c:和核宽 参数h,模型参数p,其中M为隐含层节点个数。 6,代人式(I)将输人样本映射到新空间f:R→R“, 目标领域数据集为X={(x,y1,其中,x∈R, 输入层至隐含层的转换为非线性映射。 n为目标域样本数,且n>M。 设p。=w1w2…ww,神经网络函数可表示为 1)设h为目标域核宽的可调参数,目标域中 y=Ps is (5) 心向量集Cg={c,C2,…,cgM中每一个中心向量 由式(5)可知,当径向基函数隐含层被估计 c学习源领域高斯函数中心向量c,目标域高斯 后,网络的输出可转换成一个线性模型。 函数核宽6,学习源领域核宽6,获得,如式(6)表 示,实现输入层至隐含层R→RM的非线性映射, 3具有迁移学习能力的RBF神经网络 得到新空间的数据集又={(住,)1,其中,元a∈R“。 对于经典的RBF神经网络算法中的参数W, c=c0a=h,元,i=1,2…,M (6) 常采用梯度下降学习策略。但该策略的缺陷是抗 2)引入ε不敏感损失函数和结构风险项并学 噪音能力差以及对小样本数据集的泛化能力差。 习源领域已知参数P,取代梯度下降法求目标领 针对上述两问题,本文提出算法在引入ε不敏感损 域模型参数p。 失函数提高算法的抗噪能力的基础上,通过学习 首先,给出ε不敏感损失函数的定义: 已有源领域知识解决小样本泛化能力差的问题。 定义(饯性)不敏感损失函数LF(x,,)定义为网 通过第1、第2节分析可知,RBF神经网络学习分 L(x,y,f)=by-f(x儿=max(0,y-f(x儿) 为两大部分:)利用径向基函数映射到新空间; 式中:xeR,yeRo 2)采用梯度下降法求参数w,本文所提算法学习 对于式(5)线性模型,其对应的ε不敏感损失 源领域已有知识也从这两方面进行考虑。因目标 领域样本较少,不能反映数据集整体分布情况, 函数可表示为 故通过FCM聚类算法获得的聚类中心并不一定 2--立o-以- 能反映目标域数据集的聚类中心,而源领域与目 i=1 (7) 标领域存在一定的相似性,故εTLRBF算法首先 学习源领域径向基函数的中心向量和核宽,接着 立man, 引人ε不敏感损失函数和结构风险项并学习源领 式中:表示神经网络输出,y表示真实输出。 域已知参数,建立目标领域模型,算法思路如 对于式(7),p:T-为<和%-paTx<的约束 图2所示。 条件并不一定总能满足,故引入松弛因子,和, 可得到如下约束条件: RBF神经网络 为-PgT元<E+5 Ps ig-yi<8+ ,5≥0,5≥0 (8) 学习源领域RBF神经网络高斯函数 本算法的目的是要使式(7表示的ε不敏感损 中心向量和核宽 失函数值最小,结合式(8),可等价表示为 in∑(传:+号) 样本数据有噪音 已标签样本过少 (9) 容易导致过拟合 导致学习效果差 s.t. -PgTi<E+5 Pg元-<ε+金 ,5≥0,≥0 引入ε不敏感误差准则 接着,加入结构化风险项。支持向量机是结 和结构风险 学习源域参数P, 构风险最小化原则的一种实现,学习支持向量机 的实现方法,引人正则化项”,w,使算法结构风 基于8-不敏感误差准则 险最小,故式(9)加入结构化风险项后可用式 和结构风险的具有迁移学习 (10)表示: 能力的RBF神经网络 图2 &-TLRBF算法思路 mf+c∑+ Fig.2 The idea of the s-TLRBF algorithm 下面具体介绍算法的实现。 s.t. A8t60发≥01=12 设源领域高斯函数中心向量集C={c1,c2,…,cw, (10)
x˜ g = [ x˜ 1 x˜ 2 ··· x˜ M ]T (4) ci δi f : R d → R M 通过式 (3) 得到径向基函数的中心 和核宽 ,代入式 (1) 将输入样本映射到新空间 , 输入层至隐含层的转换为非线性映射。 pg = [w1 w2 ··· wM] 设 T ,神经网络函数可表示为 y = pg T x˜ g (5) 由式 (5) 可知,当径向基函数隐含层被估计 后,网络的输出可转换成一个线性模型。 3 具有迁移学习能力的 RBF 神经网络 wi ε wi ε-TLRBF ε wi 对于经典的 RBF 神经网络算法中的参数 , 常采用梯度下降学习策略。但该策略的缺陷是抗 噪音能力差以及对小样本数据集的泛化能力差。 针对上述两问题,本文提出算法在引入 不敏感损 失函数提高算法的抗噪能力的基础上,通过学习 已有源领域知识解决小样本泛化能力差的问题。 通过第 1、第 2 节分析可知,RBF 神经网络学习分 为两大部分:1) 利用径向基函数映射到新空间; 2) 采用梯度下降法求参数 ,本文所提算法学习 源领域已有知识也从这两方面进行考虑。因目标 领域样本较少,不能反映数据集整体分布情况, 故通过 FCM 聚类算法获得的聚类中心并不一定 能反映目标域数据集的聚类中心,而源领域与目 标领域存在一定的相似性,故 算法首先 学习源领域径向基函数的中心向量和核宽,接着 引入 不敏感损失函数和结构风险项并学习源领 域已知参数 ,建立目标领域模型,算法思路如 图 2 所示。 RBF 神经网络 学习源领域 RBF 神经网络高斯函数 中心向量和核宽 样本数据有噪音 容易导致过拟合 已标签样本过少 导致学习效果差 引入 ε 不敏感误差准则 和结构风险 学习源域参数 ps 基于 ε-不敏感误差准则 和结构风险的具有迁移学习 能力的 RBF 神经网络 图 2 ε-TLRBF 算法思路 Fig. 2 The idea of the ε-TLRBF algorithm 下面具体介绍算法的实现。 设源领域高斯函数中心向量集 C={c1, c2,··· , cM}, ∆ = {δ1,δ2,··· ,δM} hs ps Xt = {(xi , yi)} n i=1 xi ∈ R d n > M 核宽集合 ,源领域核宽可调缩放 参数 ,模型参数 ,其中 M 为隐含层节点个数。 目标领域数据集为 ,其中, , n 为目标域样本数,且 。 hg Cg = {cg1, cg2,··· , cgM} cgi ci δgi δi R d → R M X˜ g = {(x˜ gi, yi)} n i=1 x˜ gi ∈ R M 1) 设 为目标域核宽的可调参数,目标域中 心向量集 中每一个中心向量 学习源领域高斯函数中心向量 ,目标域高斯 函数核宽 ,学习源领域核宽 获得,如式 (6) 表 示,实现输入层至隐含层 的非线性映射, 得到新空间的数据集 ,其中, 。 cgi = ci ,δgi = hg δi hs ,i = 1,2,··· , M (6) ε ps pg 2) 引入 不敏感损失函数和结构风险项并学 习源领域已知参数 ,取代梯度下降法求目标领 域模型参数 。 首先,给出ε不敏感损失函数的定义: ε L ε 定义 (线性) 不敏感损失函数 (x, y, f) 定义为[19] L ε (x, y, f) = |y− f (x)| ε = max( 0,|y− f (x)| ε ) xi ∈ R d 式中: ,y ∈ R。 对于式 (5) 线性模型,其对应的ε不敏感损失 函数可表示为 ∑n i=1 y o i −yi ε = ∑n i=1 max( 0, y o i −yi −ε ) = ∑n i=1 max( 0, pg T x˜ gi −yi −ε ) (7) y o i 式中: 表示神经网络输出, yi表示真实输出。 pg T x˜ gi −yi < ε yi − pg T x˜ gi < ε ξi ξ ∗ i 对于式 (7), 和 的约束 条件并不一定总能满足,故引入松弛因子 和 , 可得到如下约束条件: { yi − pg T x˜ gi < ε+ξi pg T x˜ gi −yi < ε+ξ ∗ i , ξi ⩾ 0, ξ∗ i ⩾ 0 (8) 本算法的目的是要使式 (7) 表示的ε不敏感损 失函数值最小,结合式 (8),可等价表示为 min∑n i=1 ( ξi +ξ ∗ i ) s.t. { yi − pg T x˜ gi < ε+ξi pg T x˜ gi −yi < ε+ξ ∗ i , ξi ⩾ 0, ξ∗ i ⩾ 0 (9) 1 2 wg Twg 接着,加入结构化风险项。支持向量机是结 构风险最小化原则的一种实现,学习支持向量机 的实现方法,引入正则化项 ,使算法结构风 险最小,故式 (9) 加入结构化风险项后可用式 (10) 表示: min p,ξi,ξi ∗ 1 2 pg 2 +C ∑n i=1 (ξi +ξi ∗ ) s.t. { yi − pg T x˜ gi < ε+ξi pg T x˜ gi −yi < ε+ξ ∗ i , ξi ⩾ 0, ξ∗ i ⩾ 0,i = 1,2,··· ,n (10) 第 6 期 许敏,等:一种具有迁移学习能力的 RBF-NN 算法及其应用 ·961·
·962· 智能系统学报 第13卷 最后,为了使本文提出算法具有迁移学习能 4实验研究 力,在学习源领域径向基函数的中心向量和核宽 后,加入学习源领域模型参数p,项lp,-p,故最 4.1实验设置 终,所求解的问题可表示为 本节利用模拟数据集和在谷氨酸发酵过程中 腰f+c∑G++.pr 采集的真实数据集对本文所提算法进行实验验 证。在4.2节和4.3节分别描述模拟数据集和真 u{2 实数据集的构成及实验结果分析。为了突显本文 ,点≥0,结≥0,i=1,2,…,n 所提算法的优势,两组实验在3个场景下进行,场 (11) 景1为目标域数据集RBF神经网络算法训练;场 引入拉格朗日乘子,构造出式(11)的拉格朗 景2为源领域历史数据集和目标领域当前数据 日函数: 集RBF神经网络算法合并训练;场景3为加入源 i=f+c2++n-pf 领域历史知识的目标领域数据集s-TLRBF迁移学 习训练。 --刻+2o--s 为了有效评估算法的性能,采用如下性能指标网 24-228 (15) (12) 式中:N表示测试样本规模,y表示第i个样本的 式(12)相应的对偶问题形式为 采样输出,y表示第i个样本的径向基神经网络 输出。 2立a-aa,-gg 4.2模拟数据集实验 max- 2(1+) 在已标签数据较少而导致RBF神经网络预 入 测精度降低的前提下,验证本文所提算法可通过 (13) 学习相关历史领域知识提高预测精度。所设计的 模拟数据集符合以下两个原则:1)当前数据集和 历史数据集既存在相关性,又有自己的数据分布 s.t. 0≤,0≤C 特点;2)当前目标域数据集已标签样本较少,无 利用式(13)得到最优解: 法反映出数据集的整体分布情况。 >-a/)u+Ap. 为了表征以上两个原则,采用函数y=xsin x2o] 来表示历史场景。其中,x∈[-10,10]。按照此函 Ps= (14) (1+λ) 数生成包含100个样本的历史场景数据集(DS:)加 基于上述分析,基于ε不敏感误差准则和结构 采用函数y=r×Y+N(0,0.1)表示当前场景。其中, 风险最小的具有迁移学习能力的RBF神经网络 N(0,0.1)表示均值为0,标准差为0.1的白噪声; 学习算法步骤如下表所示: r表示当前场景与历史场景的相关系数,r值越大, 1)学习源领域径向基函数中心向量和核宽, 表示相关性越高。实验中r的取值为0.9,0.85,0.8, 确定h。值,带入式(6),得目标领域高斯函数中心 0.75,0.7,0.6。按照目标域场景函数生成包含20个 向量ce和核宽δe 样本的目标域场景数据集(DS2)。按照y=r×Y函 2)将目标领域高斯核中心向量c:和核宽 数生成200个测试样本作为测试集。图3表示源 d带入式(1)得t; 领域历史场景函数和相关系数为0.9、0.8、0.7时 3)求解式(13)对应的二次规划问题: 的目标域场景函数,由图可知,源领域场景函数 4)利用式(13)求得的二次规划最优解,根据 和目标域场景函数既存在相关性,又存在不同, 式(14)求得隐含层和输出层之间的权值P; 且系数最小,相关性越小。 5)利用公式y=PTx求得网络层的输出。 实验在相关系数r为不同值的前提下进行。 上述算法参数设置除高斯函数核宽中的可调 因引入ε不敏感损失函数和结构风险项对噪音的 参数h外,还有式(13)需设置的3个参数,分别 影响在文献[17)]中已经进行验证,故本文算法学 是C、ε、入,确定参数的方法是网格搜索策略,5重 习源领域εRBF训练后的各参数值并验证所提算 交叉验证获得。 法的迁移学习能力。为每个,值各随机生成30组
ps ps − pg 2 最后,为了使本文提出算法具有迁移学习能 力,在学习源领域径向基函数的中心向量和核宽 后,加入学习源领域模型参数 项 ,故最 终,所求解的问题可表示为 min p,ξi,ξi ∗ 1 2 pg 2 +C ∑n i=1 (ξi +ξi ∗ )+ λ 2 ps − pg 2 s.t. { yi − pg T x˜ gi < ε+ξi pg T x˜ gi −yi < ε+ξ ∗ i , ξi ⩾ 0, ξ∗ i ⩾ 0,i = 1,2,··· ,n (11) 引入拉格朗日乘子,构造出式 (11) 的拉格朗 日函数: L = 1 2 pg 2 +C ∑n i=1 (ξi +ξi ∗ )+ λ 2 ps − pg 2 + ∑n i=1 αi ( yi − pg T x˜ gi −ε−ξi ) + ∑n i=1 αi ∗ ( pg T x˜ gi −yi −ε−ξi ∗ ) − ∑n i=1 βiξi − ∑n i=1 βi ∗ ξi ∗ (12) 式 (12) 相应的对偶问题形式为 max α − ∑n i=1 ∑n j=1 (αi −αi ∗ ) ( αj −αj ∗ ) x˜ T gix˜ g j 2(1+λ) + ∑n i=1 αi ( yi −ε− λ (1+λ) ps T x˜ gi) + ∑n i=1 αi ∗ ( −yi −ε+ λ (1+λ) ps T x˜ gi) s.t. 0 ⩽ αi (∗) ⩽ C (13) 利用式 (13) 得到最优解: pg = ∑n i=1 (αi −αi ∗ ) x˜ gi +λps (1+λ) (14) 基于上述分析,基于ε不敏感误差准则和结构 风险最小的具有迁移学习能力的 RBF 神经网络 学习算法步骤如下表所示: 1) 学习源领域径向基函数中心向量和核宽, 确定 hg 值,带入式 (6),得目标领域高斯函数中心 向量 cgi 和核宽 δgi; x˜ gi 2) 将目标领域高斯核中心向量 c g i 和核宽 δgi 带入式 (1) 得 ; 3) 求解式 (13) 对应的二次规划问题; pg 4) 利用式 (13) 求得的二次规划最优解,根据 式 (14) 求得隐含层和输出层之间的权值 ; y = pg T 5) 利用公式 x˜ g求得网络层的输出。 C ε λ 上述算法参数设置除高斯函数核宽中的可调 参数 hg 外,还有式 (13) 需设置的 3 个参数,分别 是 、 、 ,确定参数的方法是网格搜索策略,5 重 交叉验证获得。 4 实验研究 4.1 实验设置 ε-TLRBF 本节利用模拟数据集和在谷氨酸发酵过程中 采集的真实数据集对本文所提算法进行实验验 证。在 4.2 节和 4.3 节分别描述模拟数据集和真 实数据集的构成及实验结果分析。为了突显本文 所提算法的优势,两组实验在 3 个场景下进行,场 景 1 为目标域数据集 RBF 神经网络算法训练;场 景 2 为源领域历史数据集和目标领域当前数据 集 RBF 神经网络算法合并训练;场景 3 为加入源 领域历史知识的目标领域数据集 迁移学 习训练。 为了有效评估算法的性能,采用如下性能指标[18] : J = vt 1 N ∑N i=1 (yi ′ −yi) 2 / 1 N ∑N i=1 (yi −y¯) 2 (15) yi ′ 式中:N 表示测试样本规模,yi 表示第 i 个样本的 采样输出, 表示第 i 个样本的径向基神经网络 输出。 4.2 模拟数据集实验 在已标签数据较少而导致 RBF 神经网络预 测精度降低的前提下,验证本文所提算法可通过 学习相关历史领域知识提高预测精度。所设计的 模拟数据集符合以下两个原则:1) 当前数据集和 历史数据集既存在相关性,又有自己的数据分布 特点;2) 当前目标域数据集已标签样本较少,无 法反映出数据集的整体分布情况。 Y = x sin x x ∈ [−10,10] y = r ×Y +N (0,0.1) N (0,0.1) r r r y = r ×Y 为了表征以上两个原则,采用函数 [20] 来表示历史场景。其中, 。按照此函 数生成包含 100 个样本的历史场景数据集 (DS1 )。 采用函数 表示当前场景。其中, 表示均值为 0,标准差为 0.1 的白噪声; 表示当前场景与历史场景的相关系数, 值越大, 表示相关性越高。实验中 的取值为 0.9,0.85,0.8, 0.75,0.7,0.6。按照目标域场景函数生成包含 20 个 样本的目标域场景数据集 (DS2 )。按照 函 数生成 200 个测试样本作为测试集。图 3 表示源 领域历史场景函数和相关系数为 0.9、0.8、0.7 时 的目标域场景函数,由图可知,源领域场景函数 和目标域场景函数既存在相关性,又存在不同, 且系数最小,相关性越小。 r ε ε- r 实验在相关系数 为不同值的前提下进行。 因引入 不敏感损失函数和结构风险项对噪音的 影响在文献[17]中已经进行验证,故本文算法学 习源领域 RBF 训练后的各参数值并验证所提算 法的迁移学习能力。为每个 值各随机生成 30 组 ·962· 智 能 系 统 学 报 第 13 卷
第6期 许敏,等:一种具有迁移学习能力的RBF-NN算法及其应用 ·963· 目标域场景数据集,并分别在源领域模型预测、 目标域数据集训练、目标域数据集和源领域历史 -x sin ==…=0.9 x sinx 数据集合并训练以及目标域数据集和源领域历史 )=0.8x sinr 4 ---1=0.7rs1n 知识迁移学习训练4种情况下进行。E-TLRBF隐 2 含层节点数为15,需确定的参数有4个,h设置为 0 从1~10之间按对数等分的30个值,C在集合 -2 {1,10,100,500,1000)中取值,s在集合0,10°,10-, 10-7,106中取值,1在集合1,3,5,…,39中取值,参 数最终值通过网格搜索策略5重交叉验证确定。 -10 0 10 表1给出了各种算法在模拟数据集上的泛化性能 图3目标域场景函数和源域场景函数 比较。图4给出了相关系数为0.75时的其中一组 Fig.3 Target domain functions and source domain func- 数据集的训练结果。 tions 表1各种算法在模拟数据集上的泛化性能比较 Table 1 Comparison of generalization performance of various algorithms on artificial data sets DS,性能 DS2性能 DS1+DS2性能 DS2+历史知识性能 系数 RBF RBF RBF s-TLRBF 0.9 0.1061 0.3343±0.1007 0.1189±0.0057 0.0756±0.0079 0.85 0.1660 0.3374牡0.1686 0.1676±0.0117 0.1091±0.0187 0.8 0.2368 0.3213±0.1334 0.2228±0.0505 0.1155±0.0528 0.75 0.3185 0.3645±0.1508 0.3189±0.0470 0.1203±0.0140 0.7 0.4127 0.3618±0.1833 0.3849±0.0189 0.1322±0.0663 0.65 0.5219 0.3713±0.1953 0.5190±0.0836 0.1546±0.0698 8 一DS,测试集 一DS,测试集 6 DS DS 对DS,建模 …对DS,建模 0 -10 10 -10 10 (a)源领域RBF神经网铬模型预测 b)基于目标域数据集RBF神经网络建模 -DS,测试集 -DSz测试集 +DS …迁移学习建模 …将DS+DS合并建模 10 5 10 0. 10 (©)基于源领域和目标域数据集合并建模 (d)基于目标域数据集和源领域知识建模 图4相关系数为0.75时,各算法性能 Fig.4 The performance of each algorithm on r is 0.75
ε-TLRBF {1,10,100,500,1 000} ε {0,10−9 ,10−8 , 10−7 ,10−6 } λ {1,3,5,··· ,39} 目标域场景数据集,并分别在源领域模型预测、 目标域数据集训练、目标域数据集和源领域历史 数据集合并训练以及目标域数据集和源领域历史 知识迁移学习训练 4 种情况下进行。 隐 含层节点数为 15,需确定的参数有 4 个,h 设置为 从 1~10 之间按对数等分的 30 个值,C 在集合 中取值, 在集合 中取值, 在集合 中取值,参 数最终值通过网格搜索策略 5 重交叉验证确定。 表 1 给出了各种算法在模拟数据集上的泛化性能 比较。图 4 给出了相关系数为 0.75 时的其中一组 数据集的训练结果。 −10 −5 0 5 10 −6 −4 −2 0 2 4 6 8 x y y=x sin y=0.9x sinx y=0.8x sinx y=0.7x sinx 图 3 目标域场景函数和源域场景函数 Fig. 3 Target domain functions and source domain functions 表 1 各种算法在模拟数据集上的泛化性能比较 Table 1 Comparison of generalization performance of various algorithms on artificial data sets 系数r DS1 性能 DS2 性能 DS1+DS2 性能 DS2+历史知识性能 RBF RBF RBF ε-TLRBF 0.9 0.106 1 0.334 3±0.100 7 0.118 9±0.005 7 0.075 6±0.007 9 0.85 0.166 0 0.337 4±0.168 6 0.167 6±0.011 7 0.109 1±0.018 7 0.8 0.236 8 0.321 3±0.133 4 0.222 8±0.050 5 0.115 5±0.052 8 0.75 0.318 5 0.364 5±0.150 8 0.318 9±0.047 0 0.120 3±0.014 0 0.7 0.412 7 0.361 8±0.183 3 0.384 9±0.018 9 0.132 2±0.066 3 0.65 0.521 9 0.371 3±0.195 3 0.519 0±0.083 6 0.154 6±0.069 8 −10 −5 0 5 10 −6 −4 −2 0 2 4 6 8 x y DS2 测试集 DS1 对 DS1 建模 (a) 源领域 RBF 神经网络模型预测 DS2 测试集 DS1 DS2 将 DS1+DS2 合并建模 −10 −5 0 5 10 −6 −8 −4 −2 0 2 4 6 8 x y (c) 基于源领域和目标域数据集合并建模 −10 −5 0 5 10 −6 −4 −2 0 2 4 6 8 x y DS2 测试集 DS2 对 DS2 建模 (b) 基于目标域数据集 RBF 神经网络建模 −10 −5 0 5 10 −6 −4 −2 0 2 4 6 8 x y DS2 测试集 DS2 迁移学习建模 (d) 基于目标域数据集和源领域知识建模 图 4 相关系数为 0.75 时,各算法性能 Fig. 4 The performance of each algorithm on r is 0.75 第 6 期 许敏,等:一种具有迁移学习能力的 RBF-NN 算法及其应用 ·963·
·964· 智能系统学报 第13卷 由表1和图4可以得出如下结论: 观察图5和表2,可以得出如下结论,因目标 1)观察表1和图1(a)可知,若直接使用源域 域训练集已标签数据较少,而RBF和ε-RBF算 模型对目标领域测试集进行预测,目标领域和源 法没有迁移学习能力,故两算法泛化性能不理 领域差异由r为0.9时的0.1061增大到r为0.65时 想,而学习了源领域知识的ε-TLRBF算法,弥补 的0.5219。随着r系数的减小,源领域与目标域 了数据量小和缺失数据的不足,泛化性能较好。 数据分布差异增大,误差增幅明显。 RBF神经网络算法基于最小平方误差准则, 2)目标域数据集规模较小,存在某些数据段 对小样本数据集或存在噪声的数据集容易过拟合 缺失的现象,不能反映目标域数据集的整体分 而导致泛化性能下降。E-RBF引入ε不敏感准则 布,如图4(b)所示。传统RBF神经网络算法可以 对当前采样数据集逼近,但无法对缺失的地方进 和结构风险,对小样本数据集显示出了更鲁棒的 行弥补,导致仅用目标域数据集进行训练泛化性 性能,但对采样样本不能反映数据集整体分布的 能不高,如表1和图4(b)所示。 数据集泛化性能仍不理想。ε-TLRBF不仅引入 3)将源领域数据集和目标域数据集合并训 ε不敏感准则和结构风险项,还学习了源领域知 练,算法性能较仅用源领域进行训练并没有明显 识,能弥补缺失数据的不足,泛化性能较RBF和 提高,如表1和图4(c)所示。其原因是源领域数 ERBF有很明显的改善。 据集对目标领域数据集来说,规模很小,其对于 0.8r 建模的影响作为可容忍噪声忽略了。此外,一些 0.71 +真实值 高度机密的源领域历史数据集很难获取,合并训 06 e-RBF预测 e-8-RBF预测 练并不一定能实现。 90.5 ◆a-TLRBF预测 0.4 4)从表1和图4(d)可知,基于历史知识的迁 移学习算法具有较好的性能。和仅用目标领域数 0.2 据集训练相比,缺失的部分通过历史知识的学习 0.1 加以弥补,提高了泛化性能:和源领域及目标领 域数据集合并训练相比,不仅提高了精度,且因 10 1520 25 30 时间h 为学习的是知识,而不是所有历史数据集参与训 (a)对第20批数据集葡萄糖浓度预测比较 练,历史场景数据还具有保密性。 1.0 由此,可以得出结论,本文所提算法解决了 0.98 RBF-NN算法不具有迁移学习能力的问题。 0.8 +真实值 4.3真实数据集实验 501 e-RBF预测 e&-RBF预测 0.6 +&TLRBF预测 本部分实验数据来自工厂采集到的真实发酵 数据集四。该数据集记录了食品发酵过程中记录 下的21批数据,每批数据有14条记录,共有 0.2 294条记录。该数据集记录了发酵过程的采样时 0.1 间(h),葡萄糖浓度(Glucose concentration),菌体浓 1015202530 时间h 度(Thalli concentration)和谷氨酸浓度(Glutamic (b)基对第21批数据集葡萄糖浓度预测比较 acid concentration)。其输出为下一时刻的葡萄糖 浓度(h+1)、菌体浓度(h+1)和谷氨酸浓度(h+1)。 0.8 +真实值 将前1~16批数据共224条记录作为源领域数 0.7 -RBF预测 e-&-RBF预测 据集;剩余的5批数据中,17~19批数据42条记 0.6 8-TLRBF预测 录中,任意选取20条记录作为目标域数据集, 数据集已标签样本较少,不能反映数据集的整 0.4 体分布情况;20~21批数据作为目标域测试数 蓝0.3 据集。 02 实验中,用3个单输出系统进行仿真,且将 0.1 0 5 1015202530 RBF、E-RBF、E-TLRBF3种算法进行比较。实验 时间h 结果如图5和表2所示。 (©)对第20批数据集菌体浓度预测比较
由表 1 和图 4 可以得出如下结论: 1) 观察表 1 和图 1(a) 可知,若直接使用源域 模型对目标领域测试集进行预测,目标领域和源 领域差异由 r 为 0.9 时的 0.106 1 增大到 r 为 0.65 时 的 0.521 9。随着 r 系数的减小,源领域与目标域 数据分布差异增大,误差增幅明显。 2) 目标域数据集规模较小,存在某些数据段 缺失的现象,不能反映目标域数据集的整体分 布,如图 4(b) 所示。传统 RBF 神经网络算法可以 对当前采样数据集逼近,但无法对缺失的地方进 行弥补,导致仅用目标域数据集进行训练泛化性 能不高,如表 1 和图 4(b) 所示。 3) 将源领域数据集和目标域数据集合并训 练,算法性能较仅用源领域进行训练并没有明显 提高,如表 1 和图 4(c) 所示。其原因是源领域数 据集对目标领域数据集来说,规模很小,其对于 建模的影响作为可容忍噪声忽略了。此外,一些 高度机密的源领域历史数据集很难获取,合并训 练并不一定能实现。 4) 从表 1 和图 4(d) 可知,基于历史知识的迁 移学习算法具有较好的性能。和仅用目标领域数 据集训练相比,缺失的部分通过历史知识的学习 加以弥补,提高了泛化性能;和源领域及目标领 域数据集合并训练相比,不仅提高了精度,且因 为学习的是知识,而不是所有历史数据集参与训 练,历史场景数据还具有保密性。 由此,可以得出结论,本文所提算法解决了 RBF-NN 算法不具有迁移学习能力的问题。 4.3 真实数据集实验 本部分实验数据来自工厂采集到的真实发酵 数据集[19]。该数据集记录了食品发酵过程中记录 下的 21 批数据,每批数据有 14 条记录,共有 294 条记录。该数据集记录了发酵过程的采样时 间 (h),葡萄糖浓度 (Glucose concentration),菌体浓 度 (Thalli concentration) 和谷氨酸浓度 (Glutamic acid concentration)。其输出为下一时刻的葡萄糖 浓度 (h+1)、菌体浓度 (h+1) 和谷氨酸浓度 (h+1)。 将前 1~16 批数据共 224 条记录作为源领域数 据集;剩余的 5 批数据中,17~19 批数据 42 条记 录中,任意选取 20 条记录作为目标域数据集, 数据集已标签样本较少,不能反映数据集的整 体分布情况;20~21 批数据作为目标域测试数 据集。 ε ε 实验中,用 3 个单输出系统进行仿真,且将 RBF、 -RBF、 -TLRBF 3 种算法进行比较。实验 结果如图 5 和表 2 所示。 ε ε 观察图 5 和表 2,可以得出如下结论,因目标 域训练集已标签数据较少,而 RBF 和 -RBF 算 法没有迁移学习能力,故两算法泛化性能不理 想,而学习了源领域知识的 -TLRBF 算法,弥补 了数据量小和缺失数据的不足,泛化性能较好。 ε ε ε ε ε RBF 神经网络算法基于最小平方误差准则, 对小样本数据集或存在噪声的数据集容易过拟合 而导致泛化性能下降。 -RBF 引入 不敏感准则 和结构风险,对小样本数据集显示出了更鲁棒的 性能,但对采样样本不能反映数据集整体分布的 数据集泛化性能仍不理想。 -TLRBF 不仅引入 不敏感准则和结构风险项,还学习了源领域知 识,能弥补缺失数据的不足,泛化性能较 RBF 和 -RBF 有很明显的改善。 (a) 对第 20 批数据集葡萄糖浓度预测比较 (b) 基对第 21 批数据集葡萄糖浓度预测比较 (c) 对第 20 批数据集菌体浓度预测比较 0 5 10 15 20 25 30 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 时间/h 0 5 10 15 20 25 30 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 时间/h 0 5 10 15 20 25 30 时间/h 葡萄糖浓度/(g·L−1 ) 真实值 RBF 预测 ε-RBF 预测 ε-TLRBF 预测 真实值 RBF 预测 ε-RBF 预测 ε-TLRBF 预测 真实值 RBF 预测 ε-RBF 预测 ε-TLRBF 预测 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 葡萄糖浓度/(g·L−1 ) 菌体浓度/(g·L−1 ) ·964· 智 能 系 统 学 报 第 13 卷
第6期 许敏,等:一种具有迁移学习能力的RBF-NN算法及其应用 ·965· 1.4 虑采样样本不能反映数据集整体分布而导致算法 +一真实值 1.2 e-RBF预测 泛化性能降低的情况。本文通过采用知识迁移的 e-&-RBF预测 +a-TLRBF预测 思想,提出能充分学习源领域知识的具有迁移学 0.8 习能力的RBF神经网络学习算法。本文所提方 0.6 法并不需要大量源领域样本参与目标领域模型的 0.4 建立,仅是学习源领域的高斯核中心向量及核宽 以及源领域模型参数帮助数据存在一定程度的信 10 15 20 25 30 息缺失的目标领域建立模型,这是传统的RBF神 时间h 经网络学习算法所不具备的。通过合成数据实验 (对第21批数据集菌体浓度预测比较 以及真实发酵过程的仿真实验,验证了本文方法 0.8 较之于传统方法具有更好适应性。但本文方法采 0.7 0.6 用网格搜索策略和交叉验证方法来获得各个参数 的值,加大了获取各参数最优值的工作量,在今 0 后的工作中,将致力于研究两个领域间的相关性 0.2 +真实值 与入参数取值间的关系,以估计A参数的合理区 a-RBF预测 e-B-RBF预测 间,减少获得最优参数的工作量。 +--TLRBF预测 -0.1 参考文献: 5 1015 20 2530 时间 (e)对第20批数据集谷氨酸浓度预测比较 [1]MOODY J,DARKEN C J.Fast learning in networks of locally-tuned processing units[J].Neural computation. 1.2 1989.1(2:281-294. 1.0 [2]RYU D,LIANG Faming,MALLICK B K.Sea surface 0.8 temperature modeling using radial basis function networks with a dynamically weighted particle filter[J].Journal of 0.4 the American statistical association,2013,108(501): +真实值 0.2 I-RBF预测 111-123. o-B-RBF预测 04 ◆&TLRBF预测 [3]李方伟,郑波,朱江,等.一种基于AC-RBF神经网络的 -0.2 网络安全态势预测方法).重庆邮电大学学报:自然科 0 5 1015 20 2530 时间h 学版,2014,26(5):576-581. (①对第21批数据集谷氨酸浓度预测比较 LI Fangwei,ZHENG Bo,ZHU Jiang,et al.A method of network security situation prediction based on AC-RBF 图5各种算法泛化性能比较 neural network[J].Journal of Chongqing university of Fig.5 Comparison of generalization performance of vari- ous algorithms posts and telecommunications:natural science edition. 2014,26(5):576-581 表2各种算法于真实发酵数据集上性能比较 [4]樊劲辉,贾松敏,李秀智.基于RBF神经网络的全向智 Table 2 Comparison of performance of various al- gorithms on real fermentation data sets 能轮椅自适应控制[.华中科技大学学报:自然科学版, 2014,42(2):111-115 批次输出属性 葡萄糖浓度 菌体浓度 谷氨酸浓度 FAN Jinhui,JIA Songmin,LI Xiuzhi.Adaptive control for RBF 0.0941 0.4565 0.1204 omni-directional intelligent wheelchairs based on RBF 20批e-RBF 0.1511 0.4062 0.1650 neural network[J].Journal of Huazhong university of sci- &-TLRBF 0.0667 0.3610 0.0865 ence and technology:nature science edition,2014,42(2): RBF 0.1955 0.5331 0.2293 111-115 21批E-RBF 0.1455 0.4202 0.3096 [5]STASINAKIS C,SERMPINIS G,THEOFILATOS K,et s-TLRBF 0.1019 0.3736 0.1456 al.Forecasting us unemployment with radial basis neural networks,Kalman filters and support vector regressions[J]. 5结束语 Computational economics,2016,47(4):569-587. [6]PRATHIBA R.BALASINGHMOSES M.DEVARAJ D. 已有RBF神经算法及其改进算法大多未考 et al.Multiple output radial basis function neural network
5 结束语 已有 RBF 神经算法及其改进算法大多未考 λ λ 虑采样样本不能反映数据集整体分布而导致算法 泛化性能降低的情况。本文通过采用知识迁移的 思想,提出能充分学习源领域知识的具有迁移学 习能力的 RBF 神经网络学习算法。本文所提方 法并不需要大量源领域样本参与目标领域模型的 建立,仅是学习源领域的高斯核中心向量及核宽 以及源领域模型参数帮助数据存在一定程度的信 息缺失的目标领域建立模型,这是传统的 RBF 神 经网络学习算法所不具备的。通过合成数据实验 以及真实发酵过程的仿真实验,验证了本文方法 较之于传统方法具有更好适应性。但本文方法采 用网格搜索策略和交叉验证方法来获得各个参数 的值,加大了获取各参数最优值的工作量,在今 后的工作中,将致力于研究两个领域间的相关性 与 参数取值间的关系,以估计 参数的合理区 间,减少获得最优参数的工作量。 参考文献: MOODY J, DARKEN C J. Fast learning in networks of locally-tuned processing units[J]. Neural computation, 1989, 1(2): 281–294. [1] RYU D, LIANG Faming, MALLICK B K. Sea surface temperature modeling using radial basis function networks with a dynamically weighted particle filter[J]. Journal of the American statistical association, 2013, 108(501): 111–123. [2] 李方伟, 郑波, 朱江, 等. 一种基于 AC-RBF 神经网络的 网络安全态势预测方法[J]. 重庆邮电大学学报: 自然科 学版, 2014, 26(5): 576–581. LI Fangwei, ZHENG Bo, ZHU Jiang, et al. A method of network security situation prediction based on AC-RBF neural network[J]. Journal of Chongqing university of posts and telecommunications: natural science edition, 2014, 26(5): 576–581. [3] 樊劲辉, 贾松敏, 李秀智. 基于 RBF 神经网络的全向智 能轮椅自适应控制[J]. 华中科技大学学报: 自然科学版, 2014, 42(2): 111–115. FAN Jinhui, JIA Songmin, LI Xiuzhi. Adaptive control for omni–directional intelligent wheelchairs based on RBF neural network[J]. Journal of Huazhong university of science and technology: nature science edition, 2014, 42(2): 111–115. [4] STASINAKIS C, SERMPINIS G, THEOFILATOS K, et al. Forecasting us unemployment with radial basis neural networks, Kalman filters and support vector regressions[J]. Computational economics, 2016, 47(4): 569–587. [5] PRATHIBA R, BALASINGHMOSES M, DEVARAJ D, et al. Multiple output radial basis function neural network [6] 表 2 各种算法于真实发酵数据集上性能比较 Table 2 Comparison of performance of various algorithms on real fermentation data sets 批次 输出属性 葡萄糖浓度 菌体浓度 谷氨酸浓度 20 批 RBF 0.094 1 0.456 5 0.120 4 ε-RBF 0.151 1 0.406 2 0.165 0 ε-TLRBF 0.066 7 0.361 0 0.086 5 21 批 RBF 0.195 5 0.533 1 0.229 3 ε-RBF 0.145 5 0.420 2 0.309 6 ε-TLRBF 0.101 9 0.373 6 0.145 6 (d) 对第 21 批数据集菌体浓度预测比较 0 5 10 15 20 25 30 时间/h (e) 对第 20 批数据集谷氨酸浓度预测比较 0 5 10 15 20 25 30 时间/h (f) 对第 21 批数据集谷氨酸浓度预测比较 0 5 10 15 20 25 30 时间/h 真实值 RBF 预测 ε-RBF 预测 ε-TLRBF 预测 0.2 0.4 0.6 0.8 1.0 1.2 1.4 菌体浓度/(g·L−1 ) 0 5 10 15 20 25 30 0 5 10 15 20 25 30 真实值 RBF 预测 ε-RBF 预测 ε-TLRBF 预测 真实值 RBF 预测 ε-RBF 预测 ε-TLRBF 预测 −0.1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 谷氨酸浓度/(g·L−1 ) −0.2 0 0.2 0.4 0.6 0.8 1.0 1.2 谷氨酸浓度/(g·L−1 ) 图 5 各种算法泛化性能比较 Fig. 5 Comparison of generalization performance of various algorithms 第 6 期 许敏,等:一种具有迁移学习能力的 RBF-NN 算法及其应用 ·965·
·966· 智能系统学报 第13卷 with reduced input features for on-line estimation of avail- 统计.重庆邮电大学学报:自然科学版,2017,29(2) able transfer capability[J].Control engineering and ap- 265-271 plied informatics,2016,18(1):95-106. ZHANG Yajun,GAO Chenqiang,LI Pei,et al.Pedestri- [7]ALI S HA.OZAWA S.NAKAZATO J.et al.An online an counting based on convolutional neural network[J. malicious spam email detection system using resource al- Journal of Chongqing university of posts and telecommu- locating network with locality sensitive hashing[J].Journ- nications:natural science edition,2017.29(2):265-271. al of intelligent learning systems and applications,2015, [18]桑庆兵,邓赵红,王士同,等.基于&不敏感准则和结构 7(2):55866. 风险的鲁棒径向基函数神经网络学习).电子与信息 [8]韩敏,穆云峰.一种改进的RAN网络结构优化算法。 学报,2012,34(6):1414-1419. 控制与决策,2007,22(10):1177-1180 SANG Qingbing,DENG Zhaohong,WANG Shitong,et HAN Min,MU Yunfeng.Improved learning algorithm for al.8-insensitive criterion and structure risk based radius- optimizing RAN network structure[J].Control and de- basis-function neural-network modeling[J].Journal of cision,2007,22(10y:1177-1180 electronics information technology,2012,34(6): [9]PLATT J.A resource-allocating network for function inter- 1414-1419. polation[J].Neural computation,1991,3(2):213-225. [19)]邓乃扬,田英杰.支持向量机:理论、算法与拓展M.北 [10]SARIMVEIS H,DOGANIS P,ALEXANDRIDIS A.A 京:科学出版社,2009:63-80. classification technique based on radial basis function [20]蒋亦樟,邓赵红,王士同.ML型迁移学习模糊系统[, neural networks[J].Advances in engineering software, 自动化学报,2012,38(9):1393-1409. 2006,37(4:218-221 JIANG Yizhang,DENG Zhaohong,WANG Shitong. [11]RAITOHARJU J,KIRANYAZ S,GABBOUJ M.Train- Mamdani-Larsen type transfer learning fuzzy system[J]. ing radial basis function neural networks for classifica- Acta automatica sinica.2012.38(9):1393-1409. tion via class-specific clustering[J].IEEE transactions on 作者简介: neural networks and learning systems,2016,27(12): 许敏,女,1980年生,副教授,博 2458-2471. 士,主要研究方向为人工智能、模式识 [12]PEDRYCZ W.Conditional fuzzy clustering in the design 别,发表学术论文10余篇。 of radial basis function neural networks[J].IEEE transac- tions on neural networks,1998,9(4):601-612. [13]LACERDA E,DE CARVALHO A,LUDERMIR T. Evolutionary optimization of RBF networks[J].Interna- tional journal of neural systems,2001,11(3):287-294. 史荧中,男,1970年生,副教授, [14]SHEKHAR S,AMIN M B.Generalization by neural net- 博土,主要研究方向为人工智能、模式 识别,参与多项省级以上科研项目,发 works[J].IEEE transactions on knowledge and data en 表学术论文10余篇。 gineering,1992,4(2:177-185 [15]ALEXANDRIDIS A.CHONDRODIMA E.SARIM- VEIS H.Radial basis function network training using a nonsymmetric partition of the input space and particle 葛洪伟.男,1967年生.教授,博 swarm optimization[J].IEEE transactions on neural net- 士生导师,博士,主要研究方向为人工 works and learning systems,2013,24(2):219-230. 智能、模式识别、机器学习、图像处理 [16]PAN S J,YANG Qiang.A survey on transfer learning[J]. 与分析等。主持和承担国家自然科学 IEEE transactions on knowledge and data engineering, 基金等国家级项目和省部级项目近20 2010.22(10):1345-1359. 项,获省部级科技进步奖多项。发表 [17刀张雅俊,高陈强,李佩,等.基于卷积神经网络的人流量 学术论文百余篇
with reduced input features for on-line estimation of available transfer capability[J]. Control engineering and applied informatics, 2016, 18(1): 95–106. ALI S H A, OZAWA S, NAKAZATO J, et al. An online malicious spam email detection system using resource allocating network with locality sensitive hashing[J]. Journal of intelligent learning systems and applications, 2015, 7(2): 55866. [7] 韩敏, 穆云峰. 一种改进的 RAN 网络结构优化算法[J]. 控制与决策, 2007, 22(10): 1177–1180. HAN Min, MU Yunfeng. Improved learning algorithm for optimizing RAN network structure[J]. Control and decision, 2007, 22(10): 1177–1180. [8] PLATT J. A resource-allocating network for function interpolation[J]. Neural computation, 1991, 3(2): 213–225. [9] SARIMVEIS H, DOGANIS P, ALEXANDRIDIS A. A classification technique based on radial basis function neural networks[J]. Advances in engineering software, 2006, 37(4): 218–221. [10] RAITOHARJU J, KIRANYAZ S, GABBOUJ M. Training radial basis function neural networks for classification via class-specific clustering[J]. IEEE transactions on neural networks and learning systems, 2016, 27(12): 2458–2471. [11] PEDRYCZ W. Conditional fuzzy clustering in the design of radial basis function neural networks[J]. IEEE transactions on neural networks, 1998, 9(4): 601–612. [12] LACERDA E, DE CARVALHO A, LUDERMIR T. Evolutionary optimization of RBF networks[J]. International journal of neural systems, 2001, 11(3): 287–294. [13] SHEKHAR S, AMIN M B. Generalization by neural networks[J]. IEEE transactions on knowledge and data engineering, 1992, 4(2): 177–185. [14] ALEXANDRIDIS A, CHONDRODIMA E, SARIMVEIS H. Radial basis function network training using a nonsymmetric partition of the input space and particle swarm optimization[J]. IEEE transactions on neural networks and learning systems, 2013, 24(2): 219–230. [15] PAN S J, YANG Qiang. A survey on transfer learning[J]. IEEE transactions on knowledge and data engineering, 2010, 22(10): 1345–1359. [16] [17] 张雅俊, 高陈强, 李佩, 等. 基于卷积神经网络的人流量 统计[J]. 重庆邮电大学学报: 自然科学版, 2017, 29(2): 265–271. ZHANG Yajun, GAO Chenqiang, LI Pei, et al. Pedestrian counting based on convolutional neural network[J]. Journal of Chongqing university of posts and telecommunications: natural science edition, 2017, 29(2): 265–271. 桑庆兵, 邓赵红, 王士同, 等. 基于 ε-不敏感准则和结构 风险的鲁棒径向基函数神经网络学习[J]. 电子与信息 学报, 2012, 34(6): 1414–1419. SANG Qingbing, DENG Zhaohong, WANG Shitong, et al. ε-insensitive criterion and structure risk based radiusbasis-function neural-network modeling[J]. Journal of electronics & information technology, 2012, 34(6): 1414–1419. [18] 邓乃扬, 田英杰. 支持向量机: 理论、算法与拓展[M]. 北 京: 科学出版社, 2009: 63–80. [19] 蒋亦樟, 邓赵红, 王士同. ML 型迁移学习模糊系统[J]. 自动化学报, 2012, 38(9): 1393–1409. JIANG Yizhang, DENG Zhaohong, WANG Shitong. Mamdani-Larsen type transfer learning fuzzy system[J]. Acta automatica sinica, 2012, 38(9): 1393–1409. [20] 作者简介: 许敏,女,1980 年生,副教授,博 士,主要研究方向为人工智能、模式识 别,发表学术论文 10 余篇。 史荧中,男,1970 年生,副教授, 博士,主要研究方向为人工智能、模式 识别,参与多项省级以上科研项目,发 表学术论文 10 余篇。 葛洪伟,男,1967 年生,教授,博 士生导师,博士,主要研究方向为人工 智能、模式识别、机器学习、图像处理 与分析等。主持和承担国家自然科学 基金等国家级项目和省部级项目近 20 项,获省部级科技进步奖多项。发表 学术论文百余篇。 ·966· 智 能 系 统 学 报 第 13 卷