正在加载图片...
.856 北京科技大学学报 第29卷 式中,e为回归允许最大误差,常数C(>0)、:和 SVM缺乏对增量式学习的支持,当新增样本与训练 结表示函数∫的平滑度和允许误差大于E的数值 好的数据集相差甚远时,模型的预测准确度将非常 之间的折衷,利用拉格朗日乘子法,上述优化问题 低.要想使模型具备增量学习能力,也就是要求训 的可表示成如下形式: 练好的模型不仅能准确地预测出新的数据,而且也 minw(a,a*)= 不能忘记原来的知识,本文提出的算法并没有采取 立,a 将所有标准训练样本全部加以训练建模的方式,而 1 是采用了选取最接近新增样本的标准训练样本进行 a.a 建模的方法,首先要确定用于训练的标准样本子集 〈(x)(y》- 兰(g-x+t空(e-4. 的数量,对于大样本数据集合来说,为了获取最优 2(a-4)=0 训练样本,本文采用最近邻聚类分析算法,将样本聚 类成为几个子集合,然后对子集样本建立支持向量 约束条件 =1 (4 a,a*∈[0,C] 回归模型获得支持向量,也就是标准训练样本,因 为找到非线性映射函数(·),引进核函数代替非线 此,当新样本到来时,它首先被聚类到相应的某一个 性映射,即用K(x,x)=P(x)P(x)来代替9(·), 子集中,获取和新增样本最接近的标准样本聚类集 则式(4)的目标函数改写为: 合后,为了区分每个训练样本的重要性,给每个训练 minw(a,a")= 样本赋以适当的初始权重,而后再建立预估模型 u.0 根据实际分析,类似的样本得出类似的模型预估值, B.R 为(e-g旷-9列K列 min 2 因此很自然地要给与新增样本更接近的标准支持向 量样本赋以更大的权重,本文采用了一种简单的选 空(-4+白(oi-4 (5) 取权重的做法,是通过计算新增样本和标准样本支 式中,核函数K(x,x:)为满足Mercer条件的任意 持向量之间的欧氏距离的倒数实现的 2.2基于聚类的支持向量机增量学习算法的具体 对称函数.常用的核函数有径向基核K(x,x:)= 实现 exp[-(x-x)2/(2o2)],o为径向基核的宽度系 假定训练样本集为D={x:|i=1,2,…,l}, 数.最后得到的支持向量的输出为: 0=iy:i=1,2,…,l},其中x:∈RN为输入值, f()=空(@-)K(xr)t6 (6) y:∈R为对应的目标值,l为样本数 其中α:、&:是拉格朗日乘子,根据最优化的充要条 步骤1用最近邻聚类算法可对集合D中的 件(KKT条件)可知,只有当c一a不为0时所对 样本进行聚类分析, 应的是支持向量V。,偏置b按如下计算 (1)对任一样本x:∈D中找出与其距离最近的 样本之间的距离: 6=光是会(9))+ dear(x)=min‖xx‖, 是m君9)k+}0 其中‖·‖为向量的2范数 (2)对D中的所有样本,计算dnr(x:)的 2 基于聚类的支持向量机增量学习 均值: 算法 dnear(xi), 2.1设计思想 其中I为集合D中元素的个数 尽管SVM在很多方面都具有其他学习方法难 (③)将这1个样本看作为图的节点,并根据样 于比拟的优越性,但是作为一种新兴的技术,SVM 本之间的距离计算近邻矩阵A×1: 目前还存在着一些局限性,例如在离线建模时,往往 1‖x-y‖≤ad 从测量数据中选出具有代表性的数据,建立系统输 A(i,j)0否则 入输出之间的映射关系,SVM模型建立后一般不再 其中x,x∈D;1≤i,≤l;a为待定参数(在后面 变化·这种模型简单、易用,但将这种模型应用于时 的实验中,a的值取2), 变的系统时,存在一些缺点,随着样本数量的增多, (4)从近邻矩阵中找出相连的元素集合,并记式中‚ε为回归允许最大误差‚常数 C(>0)、ξ- i 和 ξ+ i 表示函数 f 的平滑度和允许误差大于ε的数值 之间的折衷.利用拉格朗日乘子法‚上述优化问题 的可表示成如下形式: min α‚α ∗ w(α‚α∗)= min α‚α ∗ 1 2 ∑ l i=1 ∑ l j=1 (α∗ i -αi)(α∗ j -αj) 〈φ(xi)·φ(xj)〉- ∑ l i=1 (α∗ i -αi)yi+ε∑ l i=1 (α∗ i -αi)‚ 约束条件 ∑ l i=1 (α∗ i -αi) =0 α‚α∗ ∈ [0‚C] (4) 为找到非线性映射函数 φ(·)‚引进核函数代替非线 性映射‚即用 K( xi‚x)=φ( xi)φ( x)来代替 φ(·)‚ 则式(4)的目标函数改写为: min α‚α ∗ w(α‚α∗)= min α‚α ∗ 1 2 ∑ l i=1 ∑ l j=1 (α∗ i -αi)(α∗ j -αj) K( xi‚xj)- ∑ l i=1 (α∗ i -αi) yi+ε∑ l i=1 (α∗ i -αi) (5) 式中‚核函数 K ( x‚xi)为满足 Mercer 条件的任意 对称函数.常用的核函数[1]有径向基核 K( x‚xi)= exp[-( x- xi) 2/(2σ2)]‚σ为径向基核的宽度系 数.最后得到的支持向量的输出为: f ( x)= ∑ l i=1 (α∗ i -αi) K( xi‚x)+b (6) 其中α∗ i 、αi 是拉格朗日乘子.根据最优化的充要条 件(KKT 条件)可知‚只有当 αi-α∗ i 不为0时所对 应的是支持向量 Vs.偏置 b 按如下计算: b= 1 l 0< ∑αi<C yi- x∑ j∈Vs (αj-α∗ j ) K(xj‚xi)-ε + ∑0<α ∗ i < C yi- x∑ j∈ Vs (αj-α∗ j ) K( xj‚xi)+ε (7) 2 基于聚类的支持向量机增量学习 算法 2∙1 设计思想 尽管 SVM 在很多方面都具有其他学习方法难 于比拟的优越性.但是作为一种新兴的技术‚SVM 目前还存在着一些局限性‚例如在离线建模时‚往往 从测量数据中选出具有代表性的数据‚建立系统输 入输出之间的映射关系‚SVM 模型建立后一般不再 变化.这种模型简单、易用‚但将这种模型应用于时 变的系统时‚存在一些缺点.随着样本数量的增多‚ SVM 缺乏对增量式学习的支持‚当新增样本与训练 好的数据集相差甚远时‚模型的预测准确度将非常 低.要想使模型具备增量学习能力‚也就是要求训 练好的模型不仅能准确地预测出新的数据‚而且也 不能忘记原来的知识.本文提出的算法并没有采取 将所有标准训练样本全部加以训练建模的方式‚而 是采用了选取最接近新增样本的标准训练样本进行 建模的方法.首先要确定用于训练的标准样本子集 的数量.对于大样本数据集合来说‚为了获取最优 训练样本‚本文采用最近邻聚类分析算法‚将样本聚 类成为几个子集合‚然后对子集样本建立支持向量 回归模型获得支持向量‚也就是标准训练样本.因 此‚当新样本到来时‚它首先被聚类到相应的某一个 子集中‚获取和新增样本最接近的标准样本聚类集 合后‚为了区分每个训练样本的重要性‚给每个训练 样本赋以适当的初始权重‚而后再建立预估模型. 根据实际分析‚类似的样本得出类似的模型预估值‚ 因此很自然地要给与新增样本更接近的标准支持向 量样本赋以更大的权重.本文采用了一种简单的选 取权重的做法‚是通过计算新增样本和标准样本支 持向量之间的欧氏距离的倒数实现的. 2∙2 基于聚类的支持向量机增量学习算法的具体 实现 假定训练样本集为 D={xi|i=1‚2‚…‚l}‚ O={yi|i=1‚2‚…‚l}‚其中 xi ∈R N 为输入值‚ yi∈R为对应的目标值‚l 为样本数. 步骤1 用最近邻聚类算法[6] 对集合 D 中的 样本进行聚类分析. (1) 对任一样本 xi∈ D 中找出与其距离最近的 样本之间的距离: dnear( xi)=min j≠ i ‖xi-xj‖‚ 其中‖·‖为向量的2范数 (2) 对 D 中的所有样本‚计算 dnear ( xi ) 的 均值: d ave near= 1 l ∑ l i=1 dnear( xi)‚ 其中 l 为集合 D 中元素的个数. (3) 将这 l 个样本看作为图的节点‚并根据样 本之间的距离计算近邻矩阵 Al× l: A( i‚j)= 1 ‖xi-xj‖≤ ad ave near 0 否则 其中 xi‚xj∈ D;1≤ i‚j≤ l;a 为待定参数(在后面 的实验中‚a 的值取2). (4) 从近邻矩阵中找出相连的元素集合‚并记 ·856· 北 京 科 技 大 学 学 报 第29卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有