北京科技大学学报第 34 卷密度值，消除前面已有聚类中心

正在加载图片...

·1340· 北京科技大学学报第34卷密度值，消除前面己有聚类中心的影响.按下式修步骤6计算聚类中心：与(i≠j,i,j=1,2, 正密度值： …,c)之间的距离.如果min‖vi-vj‖≤ra,且 D.-D.-Daep(-Ix-xi (3) D(y>D(v),其中ra=(0.5-0.7)r,则说明聚类 (rh/2)2 子集：与可以合并为一个聚类，该聚类中心为其中，D。是初始聚类中心对应的最高密度值.修正否则保持聚类结果不变半径，的设定是为了避免第二个聚类中心点离前一个中心点太近，一般设定为=r,1.25≤7≤ 2基于最小二乘支持向量机的数据驱动建 1.5. 模修正每个数据点的密度指标后，当D4与D1满 2.1最小二乘支持向量机回归建模足下式时，该密度指标对应的聚类中心即为第k个标准支持向量机算法复杂度不依赖于输入空间聚类中心.不断重复这个过程，直到新的聚类中心的维数，依赖于样本数据的个数，样本数据越大，求 X4的相应的密度指标D4与D。满足下式时终止解相应的二次规划(quadratic programming,QP)问聚类：题越复杂，计算速度越慢.最小二乘支持向量机 D4/Da<8. (4) (least squares support vector machine,LS-SVM) 式中，δ是根据实际情况提前设定的阈值式约束代替不等式约束，变成了求解一组等式方程， 1.2减法聚类的在线算法避免了求解耗时的二次规划问题，求解速度相对传统聚类方法均是基于离线数据缺乏数据更加快四新，聚类指标缺乏灵活性，进而影响了子集模型的精最小二乘支持向量机不需要指定逼近精度，而确性：本文提出的在线聚类方法则克服了此缺点是利用SRM准则构造下面的最小化目标函数，可描基本思想如下：如果一个点到一个组的中心的距离述为：小于聚类半径「.，那么该点属于此组；当获得新的数据时，组和组的中心做相应的变化. min w,e)=w+ 随着输入空间数据的不断增加，本文算法通过 s.t. yk=wp(x)+b+e4,k=1,2,…,N. 实时动态的调整聚类中心与聚类个数获得更好的输 (5) 入空间划分，步骤如下步骤1数据归一化处理，输入数据各维聚类式中：x(k=1,2,…,W)为子模型的输入ys是与xk 对应的输出；w代表模型的复杂度；ek表示经验误半径T.及阈值8等设定步骤2由历史训练数据集进行减法聚类得到差：常数c为惩罚系数：y>0;p(x)为非线性变换映 c个聚类中心并存储，(i=1,2,…c)及其对应的密射函数，将输入样本数据从原空间映射到高维特征度值D(v). 空间：b为偏置量. 步骤3当新增的在线数据集中的第k个数据引入Lagrange函数进行求解得：到来时，计算x4(k=1,2,…,M)到i个聚类中心 L(w,b,er,ag)= :(i=1,2,,c)的距离dh=‖xk-y:‖.若d> J(w,e）- awg)+b+e-小.(6) r,转到步骤4；若d≤r.,转到步骤5. 式中，ak为Lagrange乘子.根据KTT最优条件可步骤4由式(3)计算xk的密度值D(x),并得到：且Dx)>8,6=0.5,mD(),则说明数据x aL 不属于任何一个已有的聚类，则新创建一个聚类，输 a10 =0→w=∑a4p(x), 入空间的聚类个数c=c+1,返回步骤3. aL 步骤5根据最小距离准则确定数据点x4属 ab =0→∑&=0， (7) 于最近的聚类子集，进一步比较新数据x:的密度值 aL 与聚类中心的密度值.如果D(x)>D(:),则数据 ek =0ag=yex' x:更靠近其最近的聚类中心，xk取代原聚类中心作为该子集的新聚类中心：如果D(x)≤D(":), aL=0→wpx,)+b+e-=0. 00k 则保持聚类结果不改变.判断新增数据组是否结对于k=1,2,…,N,消去w和e,得到如下线性方束.如果结束，则转到步骤6；否则，返回步骤3 程组：北京科技大学学报第 34 卷密度值，消除前面已有聚类中心的影响．按下式修正密度值: Di = Di － Dc1 [ exp － ‖Xi － Xc1‖2 ( rb /2) 2 ] ． ( 3) 其中，Dc1是初始聚类中心对应的最高密度值．修正半径 rb 的设定是为了避免第二个聚类中心点离前一个中心点太近，一般设定为 rb = ηra，1. 25≤η≤ 1. 5．修正每个数据点的密度指标后，当 Dck与 Dc1满足下式时，该密度指标对应的聚类中心即为第 k 个聚类中心．不断重复这个过程，直到新的聚类中心 Xck的相应的密度指标 Dck 与 Dc1 满足下式时终止聚类: Dck /Dc1 ＜ δ． ( 4) 式中，δ 是根据实际情况提前设定的阈值． 1. 2 减法聚类的在线算法传统聚类方法均是基于离线数据缺乏数据更新，聚类指标缺乏灵活性，进而影响了子集模型的精确性; 本文提出的在线聚类方法则克服了此缺点．基本思想如下: 如果一个点到一个组的中心的距离小于聚类半径 ra，那么该点属于此组; 当获得新的数据时，组和组的中心做相应的变化．随着输入空间数据的不断增加，本文算法通过实时动态的调整聚类中心与聚类个数获得更好的输入空间划分，步骤如下．步骤 1 数据归一化处理，输入数据各维聚类半径 ra 及阈值 δ 等设定．步骤 2 由历史训练数据集进行减法聚类得到 c 个聚类中心并存储 vi ( i = 1，2，…，c) 及其对应的密度值 D( vi ) ．步骤 3 当新增的在线数据集中的第 k 个数据到来时，计算 xk ( k = 1，2，…，M) 到 i 个聚类中心 vi ( i = 1，2，…，c) 的距离 dki = ‖xk － vi‖．若 dki ＞ ra，转到步骤 4; 若 dki≤ra，转到步骤 5. 步骤 4 由式( 3) 计算 xk 的密度值 D( xk ) ，并且 D( xk ) ＞ ε，ε = 0. 5 max i = 1，2，…，c D( vi ) ，则说明数据 xk 不属于任何一个已有的聚类，则新创建一个聚类，输入空间的聚类个数 c = c + 1，返回步骤 3. 步骤 5 根据最小距离准则确定数据点 xk 属于最近的聚类子集，进一步比较新数据 xk 的密度值与聚类中心的密度值．如果 D( xk ) ＞ D( vi ) ，则数据 xk 更靠近其最近的聚类中心，xk 取代原聚类中心作为该子集的新聚类中心 v' i ; 如果 D( xk ) ≤D( vi ) ，则保持聚类结果不改变．判断新增数据组是否结束．如果结束，则转到步骤 6; 否则，返回步骤 3. 步骤 6 计算聚类中心 v' i 与 v' j( i≠j，i，j = 1，2， …，c) 之间的距离．如果 min‖v' i － v' j ‖≤rd，且 D( v' j ) ＞ D( v' i ) ，其中 rd = ( 0. 5 － 0. 7) ra，则说明聚类子集 v' i 与 v' j 可以合并为一个聚类，该聚类中心为 v' j ; 否则保持聚类结果不变． 2 基于最小二乘支持向量机的数据驱动建模 2. 1 最小二乘支持向量机回归建模标准支持向量机算法复杂度不依赖于输入空间的维数，依赖于样本数据的个数，样本数据越大，求解相应的二次规划( quadratic programming，QP) 问题越复杂，计算速度越慢．最小二乘支持向量机 ( least squares support vector machine，LS--SVM) 用等式约束代替不等式约束，变成了求解一组等式方程，避免了求解耗时的二次规划问题，求解速度相对加快［21］．最小二乘支持向量机不需要指定逼近精度，而是利用 SRM 准则构造下面的最小化目标函数，可描述为: min J( w，ek ) = 1 2 wT w + 1 2 γ∑ N k = 1 e 2 k， s． t． yk = wT φ( xk ) + b + ek，k = 1，2，…， { N． ( 5) 式中: xk ( k = 1，2，…，N) 为子模型的输入; yk 是与 xk 对应的输出; w 代表模型的复杂度; ek 表示经验误差; 常数 c 为惩罚系数; γ ＞ 0; φ( x) 为非线性变换映射函数，将输入样本数据从原空间映射到高维特征空间; b 为偏置量．引入 Lagrange 函数进行求解得: L( w，b，ek，αk ) = J( w，e) － ∑ N k = 1 αk ［wT φ( xk ) + b + ek － yk ］． ( 6) 式中，αk 为 Lagrange 乘子．根据 KTT 最优条件可得到:  L  w = 0w = ∑ N k = 1 αkφ( xk ) ，  L  b = 0∑ N k = 1 αk = 0，  L  ek = 0αk = γek，  L  αk = 0wT φ( xk ) + b + ek － yk = 0． ( 7) 对于 k = 1，2，…，N，消去 w 和 e，得到如下线性方程组: ·1340·

<<向上翻页向下翻页>>

点击下载：基于减法聚类的带钢厚度数据驱动建模