D0I:10.13374/1.issnl00103.2007.08.0☒ 第29卷第8期 北京科技大学学报 Vol.29 No.8 2007年8月 Journal of University of Science and Technology Beijing Aug.2007 一种基于聚类的支持向量机增量学习算法 王玲穆志纯郭辉 北京科技大学信息工程学院,北京100083 摘要提出了一种基于聚类的支持向量机增量学习算法·先用最近邻聚类算法将训练集分成具有若干个聚类子集,每一子 集用支持向量机进行训练得出支持向量集:对于新增数据首先聚类到相应的子集,然后计算其与聚类集内的支持向量之间的 距离,给每个训练样本赋以适当的权重:而后再建立预估模型。此算法通过钢材力学性能预报建模的工业实例研究,结果表 明:与标准的支持向量回归算法相比,此算法在建模过程中不仅支持向量个数明显减少,而且模型的精度也有所提高· 关键词支持向量机:支持向量回归:聚类:增量学习 分类号TP301.5:TG142.1+2 支持向量机(support vector machines,SVM)是 训练样本集假定为D={x:|i=1,2,…,l,0= 20世纪90年代由Vapnik等人提出的一种新的学 y:l=1,2,…,l,其中x:∈RN为输入值,y:∈R 习机],是统计学习理论中的结构风险最小化思 为对应的目标值,!为样本数:则非线性函数估计问 想在实际中的一种体现,它在解决小样本、非线性 题就是要找出一个函数∫,使之通过样本训练后,对 及高维模式识别、回归估计问题中表现了良好的泛 于样本以外的x,可最优地估计出对应的目标值y 化能力,且不存在局部最优问题,作为一个很热门 对于训练集为非线性情况,通过某一非线性映射 的研究方向,目前己经在分类、时间预测、函数估计 P(·)将训练数据集非线性地映射到一个高维特征 等领域得到广泛应用, 空间,使非线性函数估计问题转化为高维特征空间 对于一个预测模型而言,其性能很大程度上取 中的线性函数估计问题,设函数具有如下形式: 决于所使用的训练样本,用于训练的样本越具有代 f(xi)=wP(xi)+b, 表性,得到的预测性能越好.但在很多情况下,难以 式中,非线性函数P():R→RM将输入空间映射 获得所有具有代表性的样本,因此常常需要采用增 到高维特征空间,w的维数为特征空间的维数,b为 量学习技术,即在利用已有训练样本完成学习后,对 偏置量. 新获得的样本以增量的方式进行训练,但是,经典 基于支持向量的最优回归函数是指满足结构风 的SVM学习算法并不直接支持增量式的学习,目 险最小化原理,即极小化 前已有许多基于支持向量机的增量学习算法]用 于分类问题中,而回归问题相对研究较少,因此, J=号IwI2+cRmp[f] (1) SVM回归算法中的增量学习研究具有重要的理论 其中,C为一常数,Rmp[f]是经验风险.对于 意义和实用价值,本文讨论了一种基于聚类的支持 Rmp[f],当采用e不敏感损失函数: 向量机增量学习算法,由于其在新的训练中充分利 Le(y)=y一f(x)le= 用了历史的训练结果,从而显著地减少了后继训练 0 Iy-f(x)l≤e 的时间,并将其应用于钢材力学性能预报模型 (2) Iy-f(x)-E其他 1支持向量回归 求解式()的风险函数最小等价于求解下面的优化 问题可表示为: 用于回归的支持向量机山,也可称为支持向量 回归(support vector regression,SVR),具体表述为: mJ=是m2+c夕(有+). w,b,5 收稿日期:2006-03-19修回日期:2006-09-13 y:一w9(x:)一b≤e 基金项目:国家863计划资助项目(N。.2002AA412010-10):国家 约束条件w9(x)一b一y:≤ei=1,2,…,l 科技部攻关计划资助项目(N。-2003EG113016) ,时,≥0 作者简介:王玲(1974一),女,博研究生士;穆志纯(1952一)男, 教授,博士生导师 (3)
一种基于聚类的支持向量机增量学习算法 王 玲 穆志纯 郭 辉 北京科技大学信息工程学院北京100083 摘 要 提出了一种基于聚类的支持向量机增量学习算法.先用最近邻聚类算法将训练集分成具有若干个聚类子集每一子 集用支持向量机进行训练得出支持向量集;对于新增数据首先聚类到相应的子集然后计算其与聚类集内的支持向量之间的 距离给每个训练样本赋以适当的权重;而后再建立预估模型.此算法通过钢材力学性能预报建模的工业实例研究结果表 明:与标准的支持向量回归算法相比此算法在建模过程中不仅支持向量个数明显减少而且模型的精度也有所提高. 关键词 支持向量机;支持向量回归;聚类;增量学习 分类号 TP301∙5;TG142∙1+2 收稿日期:2006-03-19 修回日期:2006-09-13 基金项目:国家“863”计划资助项目(No.2002AA412010-10);国家 科技部攻关计划资助项目(No.2003EG113016) 作者简介:王 玲(1974-)女博研究生士;穆志纯 (1952-)男 教授博士生导师 支持向量机(support vector machinesSVM)是 20世纪90年代由 Vapnik 等人提出的一种新的学 习机[1-2]是统计学习理论中的结构风险最小化思 想在实际中的一种体现.它在解决小样本、非线性 及高维模式识别、回归估计问题中表现了良好的泛 化能力且不存在局部最优问题.作为一个很热门 的研究方向目前已经在分类、时间预测、函数估计 等领域得到广泛应用. 对于一个预测模型而言其性能很大程度上取 决于所使用的训练样本.用于训练的样本越具有代 表性得到的预测性能越好.但在很多情况下难以 获得所有具有代表性的样本因此常常需要采用增 量学习技术即在利用已有训练样本完成学习后对 新获得的样本以增量的方式进行训练.但是经典 的 SVM 学习算法并不直接支持增量式的学习.目 前已有许多基于支持向量机的增量学习算法[3-5]用 于分类问题中而回归问题相对研究较少.因此 SVM 回归算法中的增量学习研究具有重要的理论 意义和实用价值.本文讨论了一种基于聚类的支持 向量机增量学习算法由于其在新的训练中充分利 用了历史的训练结果从而显著地减少了后继训练 的时间并将其应用于钢材力学性能预报模型. 1 支持向量回归 用于回归的支持向量机[1]也可称为支持向量 回归(support vector regressionSVR)具体表述为: 训练样本集假定为 D={xi|i=12…l}O= {yi|i=12…l}其中 xi ∈R N 为输入值yi∈R 为对应的目标值l 为样本数;则非线性函数估计问 题就是要找出一个函数 f使之通过样本训练后对 于样本以外的 x可最优地估计出对应的目标值 y. 对于训练集为非线性情况通过某一非线性映射 φ(·)将训练数据集非线性地映射到一个高维特征 空间使非线性函数估计问题转化为高维特征空间 中的线性函数估计问题.设函数具有如下形式: f ( xi)=wφ( xi)+b 式中非线性函数 φ(·)∶R N→R Nh将输入空间映射 到高维特征空间w 的维数为特征空间的维数b 为 偏置量. 基于支持向量的最优回归函数是指满足结构风 险最小化原理即极小化. J= 1 2 ‖w‖2+CRemp [ f ] (1) 其中C 为一常数Remp [ f ] 是经验风险.对于 Remp [ f ]当采用ε不敏感损失函数: Lε( y)=|y- f ( xi)|ε= 0 |y- f ( xi)|≤ε |y- f ( xi)|-ε 其他 (2) 求解式(1)的风险函数最小等价于求解下面的优化 问题可表示为: min wbξ - i ξ + i J= 1 2 ‖w‖2+C ∑ l 1 (ξ- i +ξ+ i ) 约束条件 yi-wφ( xi)-b≤ε wφ( xi)-b-yi≤ε ξ- i ξ+ i ε≥0 i=12…l (3) 第29卷 第8期 2007年 8月 北 京 科 技 大 学 学 报 Journal of University of Science and Technology Beijing Vol.29No.8 Aug.2007 DOI:10.13374/j.issn1001-053x.2007.08.023
.856 北京科技大学学报 第29卷 式中,e为回归允许最大误差,常数C(>0)、:和 SVM缺乏对增量式学习的支持,当新增样本与训练 结表示函数∫的平滑度和允许误差大于E的数值 好的数据集相差甚远时,模型的预测准确度将非常 之间的折衷,利用拉格朗日乘子法,上述优化问题 低.要想使模型具备增量学习能力,也就是要求训 的可表示成如下形式: 练好的模型不仅能准确地预测出新的数据,而且也 minw(a,a*)= 不能忘记原来的知识,本文提出的算法并没有采取 立,a 将所有标准训练样本全部加以训练建模的方式,而 1 是采用了选取最接近新增样本的标准训练样本进行 a.a 建模的方法,首先要确定用于训练的标准样本子集 〈(x)(y》- 兰(g-x+t空(e-4. 的数量,对于大样本数据集合来说,为了获取最优 2(a-4)=0 训练样本,本文采用最近邻聚类分析算法,将样本聚 类成为几个子集合,然后对子集样本建立支持向量 约束条件 =1 (4 a,a*∈[0,C] 回归模型获得支持向量,也就是标准训练样本,因 为找到非线性映射函数(·),引进核函数代替非线 此,当新样本到来时,它首先被聚类到相应的某一个 性映射,即用K(x,x)=P(x)P(x)来代替9(·), 子集中,获取和新增样本最接近的标准样本聚类集 则式(4)的目标函数改写为: 合后,为了区分每个训练样本的重要性,给每个训练 minw(a,a")= 样本赋以适当的初始权重,而后再建立预估模型 u.0 根据实际分析,类似的样本得出类似的模型预估值, B.R 为(e-g旷-9列K列 min 2 因此很自然地要给与新增样本更接近的标准支持向 量样本赋以更大的权重,本文采用了一种简单的选 空(-4+白(oi-4 (5) 取权重的做法,是通过计算新增样本和标准样本支 式中,核函数K(x,x:)为满足Mercer条件的任意 持向量之间的欧氏距离的倒数实现的 2.2基于聚类的支持向量机增量学习算法的具体 对称函数.常用的核函数有径向基核K(x,x:)= 实现 exp[-(x-x)2/(2o2)],o为径向基核的宽度系 假定训练样本集为D={x:|i=1,2,…,l}, 数.最后得到的支持向量的输出为: 0=iy:i=1,2,…,l},其中x:∈RN为输入值, f()=空(@-)K(xr)t6 (6) y:∈R为对应的目标值,l为样本数 其中α:、&:是拉格朗日乘子,根据最优化的充要条 步骤1用最近邻聚类算法可对集合D中的 件(KKT条件)可知,只有当c一a不为0时所对 样本进行聚类分析, 应的是支持向量V。,偏置b按如下计算 (1)对任一样本x:∈D中找出与其距离最近的 样本之间的距离: 6=光是会(9))+ dear(x)=min‖xx‖, 是m君9)k+}0 其中‖·‖为向量的2范数 (2)对D中的所有样本,计算dnr(x:)的 2 基于聚类的支持向量机增量学习 均值: 算法 dnear(xi), 2.1设计思想 其中I为集合D中元素的个数 尽管SVM在很多方面都具有其他学习方法难 (③)将这1个样本看作为图的节点,并根据样 于比拟的优越性,但是作为一种新兴的技术,SVM 本之间的距离计算近邻矩阵A×1: 目前还存在着一些局限性,例如在离线建模时,往往 1‖x-y‖≤ad 从测量数据中选出具有代表性的数据,建立系统输 A(i,j)0否则 入输出之间的映射关系,SVM模型建立后一般不再 其中x,x∈D;1≤i,≤l;a为待定参数(在后面 变化·这种模型简单、易用,但将这种模型应用于时 的实验中,a的值取2), 变的系统时,存在一些缺点,随着样本数量的增多, (4)从近邻矩阵中找出相连的元素集合,并记
式中ε为回归允许最大误差常数 C(>0)、ξ- i 和 ξ+ i 表示函数 f 的平滑度和允许误差大于ε的数值 之间的折衷.利用拉格朗日乘子法上述优化问题 的可表示成如下形式: min αα ∗ w(αα∗)= min αα ∗ 1 2 ∑ l i=1 ∑ l j=1 (α∗ i -αi)(α∗ j -αj) 〈φ(xi)·φ(xj)〉- ∑ l i=1 (α∗ i -αi)yi+ε∑ l i=1 (α∗ i -αi) 约束条件 ∑ l i=1 (α∗ i -αi) =0 αα∗ ∈ [0C] (4) 为找到非线性映射函数 φ(·)引进核函数代替非线 性映射即用 K( xix)=φ( xi)φ( x)来代替 φ(·) 则式(4)的目标函数改写为: min αα ∗ w(αα∗)= min αα ∗ 1 2 ∑ l i=1 ∑ l j=1 (α∗ i -αi)(α∗ j -αj) K( xixj)- ∑ l i=1 (α∗ i -αi) yi+ε∑ l i=1 (α∗ i -αi) (5) 式中核函数 K ( xxi)为满足 Mercer 条件的任意 对称函数.常用的核函数[1]有径向基核 K( xxi)= exp[-( x- xi) 2/(2σ2)]σ为径向基核的宽度系 数.最后得到的支持向量的输出为: f ( x)= ∑ l i=1 (α∗ i -αi) K( xix)+b (6) 其中α∗ i 、αi 是拉格朗日乘子.根据最优化的充要条 件(KKT 条件)可知只有当 αi-α∗ i 不为0时所对 应的是支持向量 Vs.偏置 b 按如下计算: b= 1 l 0< ∑αi<C yi- x∑ j∈Vs (αj-α∗ j ) K(xjxi)-ε + ∑0<α ∗ i < C yi- x∑ j∈ Vs (αj-α∗ j ) K( xjxi)+ε (7) 2 基于聚类的支持向量机增量学习 算法 2∙1 设计思想 尽管 SVM 在很多方面都具有其他学习方法难 于比拟的优越性.但是作为一种新兴的技术SVM 目前还存在着一些局限性例如在离线建模时往往 从测量数据中选出具有代表性的数据建立系统输 入输出之间的映射关系SVM 模型建立后一般不再 变化.这种模型简单、易用但将这种模型应用于时 变的系统时存在一些缺点.随着样本数量的增多 SVM 缺乏对增量式学习的支持当新增样本与训练 好的数据集相差甚远时模型的预测准确度将非常 低.要想使模型具备增量学习能力也就是要求训 练好的模型不仅能准确地预测出新的数据而且也 不能忘记原来的知识.本文提出的算法并没有采取 将所有标准训练样本全部加以训练建模的方式而 是采用了选取最接近新增样本的标准训练样本进行 建模的方法.首先要确定用于训练的标准样本子集 的数量.对于大样本数据集合来说为了获取最优 训练样本本文采用最近邻聚类分析算法将样本聚 类成为几个子集合然后对子集样本建立支持向量 回归模型获得支持向量也就是标准训练样本.因 此当新样本到来时它首先被聚类到相应的某一个 子集中获取和新增样本最接近的标准样本聚类集 合后为了区分每个训练样本的重要性给每个训练 样本赋以适当的初始权重而后再建立预估模型. 根据实际分析类似的样本得出类似的模型预估值 因此很自然地要给与新增样本更接近的标准支持向 量样本赋以更大的权重.本文采用了一种简单的选 取权重的做法是通过计算新增样本和标准样本支 持向量之间的欧氏距离的倒数实现的. 2∙2 基于聚类的支持向量机增量学习算法的具体 实现 假定训练样本集为 D={xi|i=12…l} O={yi|i=12…l}其中 xi ∈R N 为输入值 yi∈R为对应的目标值l 为样本数. 步骤1 用最近邻聚类算法[6] 对集合 D 中的 样本进行聚类分析. (1) 对任一样本 xi∈ D 中找出与其距离最近的 样本之间的距离: dnear( xi)=min j≠ i ‖xi-xj‖ 其中‖·‖为向量的2范数 (2) 对 D 中的所有样本计算 dnear ( xi ) 的 均值: d ave near= 1 l ∑ l i=1 dnear( xi) 其中 l 为集合 D 中元素的个数. (3) 将这 l 个样本看作为图的节点并根据样 本之间的距离计算近邻矩阵 Al× l: A( ij)= 1 ‖xi-xj‖≤ ad ave near 0 否则 其中 xixj∈ D;1≤ ij≤ l;a 为待定参数(在后面 的实验中a 的值取2). (4) 从近邻矩阵中找出相连的元素集合并记 ·856· 北 京 科 技 大 学 学 报 第29卷
第8期 王玲等:一种基于聚类的支持向量机增量学习算法 .857 为D,=1,2,,M,M是根据D得到的相连的元 本算法采用Visual C#,net语言在LIBSV M[8] 素集合的数目,每一个相连的元素集合都可以看作 的基础上改写而成,在训练本文提出的增量算法和 为一个簇(聚类) SVR中,核函数为高斯径向基核,首先选取1000 步骤2对每个聚类子集建立支持向量机模 个样本作为训练集,对训练样本采用最近邻聚类方 型,得到支持向量集 法进行聚类,最终形成了六个聚类子集S1、S2、S3、 步骤3聚类新增数据 S4、S5和S6,样本个数分别为388、148、133、64、147 (1)计算样本x与所有子集D:(1≤≤M)的 和120,测试样本集个数分别为50、100、150和200. 聚类中心c:(1≤i≤M)的距离d:=‖x-c‖,并 图1和图2给出了分别采用基于本文的增量算 求出最小值k=argmini d,d2,, dw,将样本x 法和SVR的预报模型在150个样本上的预测结果. 加入子集d中,这里c:= N,N;是第i个 从图1和图2可以看出,采用基于聚类的支持向量 机增量学习算法建立的预报模型在样本区间内拟合 聚类中数据的个数, 实际值要比SVR好,基于SVR的预报模型的预测 (②)若新样本x对所有的子集d:都满足‖x一 曲线偏离实际值的波动幅度较大,通过进行仿真研 c‖≥6,那么为新样本x建立一个新的子集,即 究发现,将训练样本聚类后分别进行训练是提高建 M=M十1;同时增加一个支持向量子模型,并用该 模精度的有效方法, 样本训练新增的模型(δ为一阈值,在后面的实验中 600 8的取值为3) 500 步骤4计算新增样本和聚类后形成的支持向 量集样本之间的欧氏距离的倒数,用下式描述: 200 期望值 一预测值 100 残差值 x,z∈Rn =1 -100 式中的x指新增样本,而z是聚类集k中获取的第 50 100 1s0 样本数 i个标准支持向量 步骤5对聚类集内的每一个支持向量样本赋以 图1基于聚类的支持向量机的增量学习算法的预报模型 权重P,然后建立预估模型 Fig.1 Prediction model for SVM incremental learning algorithm based on clustering 步骤6随着系统中新增样本的到来,返回到 步骤3, 600 3应用研究 500 400 应用研究是对某大型钢铁厂生产的热轧产品建 300 一期望值 200 预测值 立钢材力学性能)预报系统,由于该系统是时变 100 残差值 的,随着系统的运行,系统的状态在不断地变化,同 -100 时新的输入输出数据不断得到,为了使模型能准确 50 100 150 样本数 地反应系统的当前状态,本文利用上述基于聚类的 支持向量机结构的增量学习算法建立预报系统,该 图2基于SVR的预报模型 系统采用Q235B带钢不同批次的生产数据,考虑到 Fig-2 Prediction model for SVR method 原始化学成分和热轧生产工艺参数是影响成品最终 为验证基于聚类的支持向量机增量学习算法在 力学性能的主要因素,输入值主要包括原始化学成 不同规模测试集上的性能,分别在不同的测试集上 分和生产工艺参数,原始化学成分除了常规的五项 比较本文的算法和SVR算法的预测误差,引入如 化学成分C、Mn、P、S、Si,还包括了Cr、Ni、Cu、Mo 下评价指标ASE(渐进标准误差平方和): 等多种合金元素,以及H、N、0三种气体成分,生产 工艺参数主要包括精轧开轧温度、终轧温度、卷取温 AsE祥养个费 度和压下率,需要预报的性能对于热轧带钢来说主 A$E越小,说明回归拟合程度越高,结果如表1 要是屈服强度、抗拉强度和延伸率,这里以预报抗 所示 拉强度为例
为 Dii=12…MM 是根据 D 得到的相连的元 素集合的数目.每一个相连的元素集合都可以看作 为一个簇(聚类). 步骤2 对每个聚类子集建立支持向量机模 型得到支持向量集. 步骤3 聚类新增数据. (1) 计算样本 x 与所有子集 Di(1≤ i≤ M)的 聚类中心 ci(1≤ i≤ M)的距离 di=‖ x- ci‖并 求出最小值 k=argmin{d1d2…dM}将样本 x 加入子集 dk 中.这里 ci= ∑x∈ Di x NiNi 是第 i 个 聚类中数据的个数. (2) 若新样本 x 对所有的子集 di 都满足‖x- ci‖≥δ那么为新样本 x 建立一个新的子集即 M= M+1;同时增加一个支持向量子模型并用该 样本训练新增的模型(δ为一阈值在后面的实验中 δ的取值为3). 步骤4 计算新增样本和聚类后形成的支持向 量集样本之间的欧氏距离的倒数用下式描述: pi=1 ∑ l i=1 ( x- z k i ) 2 xz k i∈R n 式中的 x 指新增样本而 z k i 是聚类集 k 中获取的第 i 个标准支持向量. 步骤5对聚类集内的每一个支持向量样本赋以 权重 pi然后建立预估模型. 步骤6 随着系统中新增样本的到来返回到 步骤3. 3 应用研究 应用研究是对某大型钢铁厂生产的热轧产品建 立钢材力学性能[7] 预报系统.由于该系统是时变 的随着系统的运行系统的状态在不断地变化同 时新的输入输出数据不断得到.为了使模型能准确 地反应系统的当前状态本文利用上述基于聚类的 支持向量机结构的增量学习算法建立预报系统.该 系统采用 Q235B 带钢不同批次的生产数据考虑到 原始化学成分和热轧生产工艺参数是影响成品最终 力学性能的主要因素输入值主要包括原始化学成 分和生产工艺参数.原始化学成分除了常规的五项 化学成分 C、Mn、P、S、Si还包括了 Cr、Ni、Cu、Mo 等多种合金元素以及 H、N、O 三种气体成分.生产 工艺参数主要包括精轧开轧温度、终轧温度、卷取温 度和压下率需要预报的性能对于热轧带钢来说主 要是屈服强度、抗拉强度和延伸率.这里以预报抗 拉强度为例. 本算法采用 Visual C#.net 语言在 LIBSVM [8] 的基础上改写而成在训练本文提出的增量算法和 SVR 中核函数为高斯径向基核.首先选取1000 个样本作为训练集对训练样本采用最近邻聚类方 法进行聚类最终形成了六个聚类子集 S1、S2、S3、 S4、S5 和 S6样本个数分别为388、148、133、64、147 和120测试样本集个数分别为50、100、150和200. 图1和图2给出了分别采用基于本文的增量算 法和 SVR 的预报模型在150个样本上的预测结果. 从图1和图2可以看出采用基于聚类的支持向量 机增量学习算法建立的预报模型在样本区间内拟合 实际值要比 SVR 好基于 SVR 的预报模型的预测 曲线偏离实际值的波动幅度较大.通过进行仿真研 究发现将训练样本聚类后分别进行训练是提高建 模精度的有效方法. 图1 基于聚类的支持向量机的增量学习算法的预报模型 Fig.1 Prediction model for SVM incremental learning algorithm based on clustering 图2 基于 SVR 的预报模型 Fig.2 Prediction model for SVR method 为验证基于聚类的支持向量机增量学习算法在 不同规模测试集上的性能分别在不同的测试集上 比较本文的算法和 SVR 算法的预测误差.引入如 下评价指标 ASE(渐进标准误差平方和): ASE= 误差平方和 样本总个数 ASE 越小说明回归拟合程度越高.结果如表1 所示. 第8期 王 玲等: 一种基于聚类的支持向量机增量学习算法 ·857·
858 北京科技大学学报 第29卷 表1不同测试样本集下的ASE 进行增量学习的同时,不需要重新训练所有样本,只 Table 1 ASE of different test sample sets 是根据聚类子集里的不同权重的支持向量重新建立 基于聚类的支持向量机增量学习算法 SVR 预估模型,实验结果表明:这种学习算法在精度和 训练样本集 ASE 训练样本集ASE 支持向量个数上要优于SVR:利用本文提出的算法 S1[388] 0.009831 进行钢材力学性能预报建模,取得了十分有效的应 Sz[148] 0.009870 用结果,今后需要进一步研究如何在样本聚类时消 S3133] 0.010077 1000 0.09928 去含有噪声的样本,使增量学习在实际应用中发挥 s[64] 0.010149 更大的作用等问题 S5[147] 0.010000 s6[120] 0.010100 参考文献 50 0.010087 吧 0.09775 [1]Vapnik N.The Nature of Statistical Learning Theory.New 100 0.010030 100 0.10027 York:Springer Press.2000,16 [2]Vapnik V.Statistical Learning Theory.New York:Willey. 150 0.010057 150 0.12193 1998,21 200 0.010053 200 0.15225 [3]Fung G.Mangasarian OL.Incremental Support Vector Machine Classification//Proc of the Second SIAM International Conference 从表1可以看出,随着测试样本数量的增加,基 on Data Mining.Arlington.2002:247 于SVR的预报模型的渐进标准误差平方和变化越 [4]萧嵘,王继成,孙正兴,等.一种SVM增量学习算法一 来越大,而基于聚类的支持向量机增量学习的预报 1SVM.软件学报,2001,12(12):1818 模型的ASE变化不大,这是由于基于聚类的支持 [5]Ruping S.Incremental Learning with Support Vector Machines/ IEEE International Conference on Data Mining-San Jose,2001: 向量机增量学习的预报模型根据测试样本进行在线 641 增量学习,每收集到一个样本后对模型进行修正的 [6]Tseng L Y,Yang B.A genetic clustering algorithm for data 缘故,随着时间推移,其预测精度要明显高于SVR with nonspherical shape clusters.Pattern Recognit.2000,33 模型,表现出了较好的泛化能力· (7):1251 [7]Wang Y J,Tian Q P.Metal Materials and Heat Treatment.Bei- 4 结论 jing:China Railway Publish Company.199960 [8]Chang CC.Lin C J.LIBSVM:a Library for Support Vector 本文研究了一种基于聚类的支持向量机增量学 Machines (Version 2.3)[EB/OL].[2001-06-08].http:// 习算法,随着时间推移每次在模型中增加一个样本 www.csie.ntu-edu.tw//cjlin/papers/libsvm-pof A sort of support vector machine incremental learning algorithm based on clustering WANG Ling,MU Zhichun,GUO Hui Information Engineering School.University of Science and Technology Beijing.Beijing 100083.China ABSTRACI A sort of incremental learning algorithm for support vector machine based on clustering was pro- posed.The nearest neighbor clustering algorithm was used for separating a whole training data set into several clusters,and each cluster subset was trained by support vector machine to obtain the support vector subset.The new sample data was firstly clustered in a certain subset.Then the distances between the new sample data and the support vectors of the cluster subset were calculated to weight every support vector.Finally,a new weighed model was formed with these samples.The proposed method was applied to a practical case of modeling predic- tion ability of the mechanical properties of steel materials.Comparing with the traditional support vector regres- sion algorithm,this proposed method demonstrates its advantages of the smaller number of support vectors and the better generalization capability. KEY WORDS support vector machine:support vector regression;clustering:incremental learning
表1 不同测试样本集下的 ASE Table1 ASE of different test sample sets 基于聚类的支持向量机增量学习算法 SVR 训练样本集 ASE 训练样本集 ASE S1[388] 0∙009831 S2[148] 0∙009870 S3[133] 0∙010077 1000 0∙09928 S4[64] 0∙010149 S5[147] 0∙010000 S6[120] 0∙010100 50 0∙010087 50 0∙09775 100 0∙010030 100 0∙10027 150 0∙010057 150 0∙12193 200 0∙010053 200 0∙15225 从表1可以看出随着测试样本数量的增加基 于 SVR 的预报模型的渐进标准误差平方和变化越 来越大而基于聚类的支持向量机增量学习的预报 模型的 ASE 变化不大.这是由于基于聚类的支持 向量机增量学习的预报模型根据测试样本进行在线 增量学习每收集到一个样本后对模型进行修正的 缘故随着时间推移其预测精度要明显高于 SVR 模型表现出了较好的泛化能力. 4 结论 本文研究了一种基于聚类的支持向量机增量学 习算法随着时间推移每次在模型中增加一个样本 进行增量学习的同时不需要重新训练所有样本只 是根据聚类子集里的不同权重的支持向量重新建立 预估模型.实验结果表明:这种学习算法在精度和 支持向量个数上要优于 SVR;利用本文提出的算法 进行钢材力学性能预报建模取得了十分有效的应 用结果.今后需要进一步研究如何在样本聚类时消 去含有噪声的样本使增量学习在实际应用中发挥 更大的作用等问题. 参 考 文 献 [1] Vapnik N.The Nature of Statistical Learning Theory.New York:Springer Press2000:16 [2] Vapnik V.Statistical Learning Theory.New York:Willey 1998:21 [3] Fung GMangasarian O L.Incremental Support Vector Machine Classification∥Proc of the Second SIAM International Conference on Data Mining.Arlington2002:247 [4] 萧嵘王继成孙正兴等.一种 SVM 增量学习算法--- ISVM.软件学报200112(12):1818 [5] Ruping S.Incremental Learning with Support Vector Machines∥ IEEE International Conference on Data Mining.San Jose2001: 641 [6] Tseng L YYang S B.A genetic clustering algorithm for data with nonspherical shape clusters.Pattern Recognit200033 (7):1251 [7] Wang Y JTian Q P.Metal Materials and Heat Treatment.Beijing:China Railway Publish Company1999:60 [8] Chang C CLin C J.LIBSVM:a Library for Support Vector Machines (Version 2.3) [ EB/OL ].[2001-06-08].http:∥ www.csie.ntu.edu.tw∥~cjlin/papers/libsvm.pdf A sort of support vector machine incremental learning algorithm based on clustering WA NG L ingMU ZhichunGUO Hui Information Engineering SchoolUniversity of Science and Technology BeijingBeijing100083China ABSTRACT A sort of incremental learning algorithm for support vector machine based on clustering was proposed.The nearest neighbor clustering algorithm was used for separating a whole training data set into several clustersand each cluster subset was trained by support vector machine to obtain the support vector subset.The new sample data was firstly clustered in a certain subset.Then the distances between the new sample data and the support vectors of the cluster subset were calculated to weight every support vector.Finallya new weighed model was formed with these samples.The proposed method was applied to a practical case of modeling prediction ability of the mechanical properties of steel materials.Comparing with the traditional support vector regression algorithmthis proposed method demonstrates its advantages of the smaller number of support vectors and the better generalization capability. KEY WORDS support vector machine;support vector regression;clustering;incremental learning ·858· 北 京 科 技 大 学 学 报 第29卷