正在加载图片...
·1340· 北京科技大学学报 第34卷 密度值,消除前面己有聚类中心的影响.按下式修 步骤6计算聚类中心:与(i≠j,i,j=1,2, 正密度值: …,c)之间的距离.如果min‖vi-vj‖≤ra,且 D.-D.-Daep(-Ix-xi (3) D(y>D(v),其中ra=(0.5-0.7)r,则说明聚类 (rh/2)2 子集:与可以合并为一个聚类,该聚类中心为 其中,D。是初始聚类中心对应的最高密度值.修正 否则保持聚类结果不变 半径,的设定是为了避免第二个聚类中心点离前 一个中心点太近,一般设定为=r,1.25≤7≤ 2基于最小二乘支持向量机的数据驱动建 1.5. 模 修正每个数据点的密度指标后,当D4与D1满 2.1最小二乘支持向量机回归建模 足下式时,该密度指标对应的聚类中心即为第k个 标准支持向量机算法复杂度不依赖于输入空间 聚类中心.不断重复这个过程,直到新的聚类中心 的维数,依赖于样本数据的个数,样本数据越大,求 X4的相应的密度指标D4与D。满足下式时终止 解相应的二次规划(quadratic programming,QP)问 聚类: 题越复杂,计算速度越慢.最小二乘支持向量机 D4/Da<8. (4) (least squares support vector machine,LS-SVM) 式中,δ是根据实际情况提前设定的阈值 式约束代替不等式约束,变成了求解一组等式方程, 1.2减法聚类的在线算法 避免了求解耗时的二次规划问题,求解速度相对 传统聚类方法均是基于离线数据缺乏数据更 加快四 新,聚类指标缺乏灵活性,进而影响了子集模型的精 最小二乘支持向量机不需要指定逼近精度,而 确性:本文提出的在线聚类方法则克服了此缺点 是利用SRM准则构造下面的最小化目标函数,可描 基本思想如下:如果一个点到一个组的中心的距离 述为: 小于聚类半径「.,那么该点属于此组;当获得新的数 据时,组和组的中心做相应的变化. min w,e)=w+ 随着输入空间数据的不断增加,本文算法通过 s.t. yk=wp(x)+b+e4,k=1,2,…,N. 实时动态的调整聚类中心与聚类个数获得更好的输 (5) 入空间划分,步骤如下 步骤1数据归一化处理,输入数据各维聚类 式中:x(k=1,2,…,W)为子模型的输入ys是与xk 对应的输出;w代表模型的复杂度;ek表示经验误 半径T.及阈值8等设定 步骤2由历史训练数据集进行减法聚类得到 差:常数c为惩罚系数:y>0;p(x)为非线性变换映 c个聚类中心并存储,(i=1,2,…c)及其对应的密 射函数,将输入样本数据从原空间映射到高维特征 度值D(v). 空间:b为偏置量. 步骤3当新增的在线数据集中的第k个数据 引入Lagrange函数进行求解得: 到来时,计算x4(k=1,2,…,M)到i个聚类中心 L(w,b,er,ag)= :(i=1,2,,c)的距离dh=‖xk-y:‖.若d> J(w,e)- awg)+b+e-小.(6) r,转到步骤4;若d≤r.,转到步骤5. 式中,ak为Lagrange乘子.根据KTT最优条件可 步骤4由式(3)计算xk的密度值D(x),并 得到: 且Dx)>8,6=0.5,mD(),则说明数据x aL 不属于任何一个已有的聚类,则新创建一个聚类,输 a10 =0→w=∑a4p(x), 入空间的聚类个数c=c+1,返回步骤3. aL 步骤5根据最小距离准则确定数据点x4属 ab =0→∑&=0, (7) 于最近的聚类子集,进一步比较新数据x:的密度值 aL 与聚类中心的密度值.如果D(x)>D(:),则数据 ek =0ag=yex' x:更靠近其最近的聚类中心,xk取代原聚类中心 作为该子集的新聚类中心:如果D(x)≤D(":), aL=0→wpx,)+b+e-=0. 00k 则保持聚类结果不改变.判断新增数据组是否结 对于k=1,2,…,N,消去w和e,得到如下线性方 束.如果结束,则转到步骤6;否则,返回步骤3 程组:北 京 科 技 大 学 学 报 第 34 卷 密度值,消除前面已有聚类中心的影响. 按下式修 正密度值: Di = Di - Dc1 [ exp - ‖Xi - Xc1‖2 ( rb /2) 2 ] . ( 3) 其中,Dc1是初始聚类中心对应的最高密度值. 修正 半径 rb 的设定是为了避免第二个聚类中心点离前 一个中心点太近,一般设定为 rb = ηra,1. 25≤η≤ 1. 5. 修正每个数据点的密度指标后,当 Dck与 Dc1满 足下式时,该密度指标对应的聚类中心即为第 k 个 聚类中心. 不断重复这个过程,直到新的聚类中心 Xck的相应的密度指标 Dck 与 Dc1 满足下式时终止 聚类: Dck /Dc1 < δ. ( 4) 式中,δ 是根据实际情况提前设定的阈值. 1. 2 减法聚类的在线算法 传统聚类方法均是基于离线数据缺乏数据更 新,聚类指标缺乏灵活性,进而影响了子集模型的精 确性; 本文提出的在线聚类方法则克服了此缺点. 基本思想如下: 如果一个点到一个组的中心的距离 小于聚类半径 ra,那么该点属于此组; 当获得新的数 据时,组和组的中心做相应的变化. 随着输入空间数据的不断增加,本文算法通过 实时动态的调整聚类中心与聚类个数获得更好的输 入空间划分,步骤如下. 步骤 1 数据归一化处理,输入数据各维聚类 半径 ra 及阈值 δ 等设定. 步骤 2 由历史训练数据集进行减法聚类得到 c 个聚类中心并存储 vi ( i = 1,2,…,c) 及其对应的密 度值 D( vi ) . 步骤 3 当新增的在线数据集中的第 k 个数据 到来时,计算 xk ( k = 1,2,…,M) 到 i 个聚类中心 vi ( i = 1,2,…,c) 的距离 dki = ‖xk - vi‖. 若 dki > ra,转到步骤 4; 若 dki≤ra,转到步骤 5. 步骤 4 由式( 3) 计算 xk 的密度值 D( xk ) ,并 且 D( xk ) > ε,ε = 0. 5 max i = 1,2,…,c D( vi ) ,则说明数据 xk 不属于任何一个已有的聚类,则新创建一个聚类,输 入空间的聚类个数 c = c + 1,返回步骤 3. 步骤 5 根据最小距离准则确定数据点 xk 属 于最近的聚类子集,进一步比较新数据 xk 的密度值 与聚类中心的密度值. 如果 D( xk ) > D( vi ) ,则数据 xk 更靠近其最近的聚类中心,xk 取代原聚类中心 作为该子集的新聚类中心 v' i ; 如果 D( xk ) ≤D( vi ) , 则保持聚类结果不改变. 判断新增数据组是否结 束. 如果结束,则转到步骤 6; 否则,返回步骤 3. 步骤 6 计算聚类中心 v' i 与 v' j( i≠j,i,j = 1,2, …,c) 之间的距离. 如果 min‖v' i - v' j ‖≤rd,且 D( v' j ) > D( v' i ) ,其中 rd = ( 0. 5 - 0. 7) ra,则说明聚类 子集 v' i 与 v' j 可以合并为一个聚类,该聚类中心为 v' j ; 否则保持聚类结果不变. 2 基于最小二乘支持向量机的数据驱动建 模 2. 1 最小二乘支持向量机回归建模 标准支持向量机算法复杂度不依赖于输入空间 的维数,依赖于样本数据的个数,样本数据越大,求 解相应的二次规划( quadratic programming,QP) 问 题越复杂,计算速度越慢. 最小二乘支持向量机 ( least squares support vector machine,LS--SVM) 用等 式约束代替不等式约束,变成了求解一组等式方程, 避免了求解耗时的二次规划问题,求解速度相对 加快[21]. 最小二乘支持向量机不需要指定逼近精度,而 是利用 SRM 准则构造下面的最小化目标函数,可描 述为: min J( w,ek ) = 1 2 wT w + 1 2 γ∑ N k = 1 e 2 k, s. t. yk = wT φ( xk ) + b + ek,k = 1,2,…, { N. ( 5) 式中: xk ( k = 1,2,…,N) 为子模型的输入; yk 是与 xk 对应的输出; w 代表模型的复杂度; ek 表示经验误 差; 常数 c 为惩罚系数; γ > 0; φ( x) 为非线性变换映 射函数,将输入样本数据从原空间映射到高维特征 空间; b 为偏置量. 引入 Lagrange 函数进行求解得: L( w,b,ek,αk ) = J( w,e) - ∑ N k = 1 αk [wT φ( xk ) + b + ek - yk ]. ( 6) 式中,αk 为 Lagrange 乘子. 根据 KTT 最优条件可 得到:  L  w = 0w = ∑ N k = 1 αkφ( xk ) ,  L  b = 0∑ N k = 1 αk = 0,  L  ek = 0αk = γek,  L  αk = 0wT φ( xk ) + b + ek - yk = 0. ( 7) 对于 k = 1,2,…,N,消去 w 和 e,得到如下线性方 程组: ·1340·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有