正在加载图片...
第4期 卞则康,等:基于混合距离学习的鲁棒的模糊C均值聚类算法 ·453. 矩阵为U={u,l1≤i≤c,1≤j≤n}。对于每一个样 式中:ω:是通过距离学习得到的权值。 本x,通过构造一个新的隶属约束函数f(“)= 算法3HR-FCM算法 ∑“,(1-写),同时为每一个样本增加一个惩 输入数据矩阵X∈RW,权值向量w,聚类数 罚项α,以提高算法的鲁棒性,那么得到新的目标函 目c,阈值e,模糊指数m,抗噪参数α,最大迭代次 数为 数T; 输出最终的隶属矩阵U。 步骤: 1)初始化:山,=,t=1; 三与=山,0≤4,≤1,1≤i≤c,1≤≤n 2)使用式(16)计算新的聚类中心; (12) 3)使用式(17)计算新的隶属矩阵售; 式中:a,=a×mind(x,y,),0≤a≤1,a为抗噪参数。 4)如果‖U+1-U‖<ε或者t>T,输出最终的隶 1多se 属矩阵,否则t=t+1返回2)。 使用拉格朗日乘数法对式(12)进行优化,得到 HR-FCM算法通过使用距离学习得到的新的混 新的聚类中心和隶属函数如式(13)和式(14): 合距离代替传统FCM算法中的欧式距离,进一步增 ∑写 加了算法的抗噪性能。再者,通过数据集本身的辅 13) ∑写 助信息进行距离的学习的得到的混合距离,比原有 1 的欧式距离更加适合数据集,提高了算法的适用 性。HR-FCM算法与传统的FCM算法相比,具有更 d(x,y)-a×mind(,y,) 佳的聚类性能和鲁棒性。 d(x,y)-a×mind(x,y,) 3实验研究和分析 (14) 本章通过实验检测本文提出的HR-FCM算法 4,(,)=(-P)st1<p<2 的聚类性能和鲁棒性能。本章的实验主要分为两 (15) 个部分:1)将本文提出的HR-FCM算法与现有的基 式(15)是表示样本与类中心的距离度量公式,当p= 于欧氏距离的聚类算法作比较,如:FCM、K-means 2时,式(15)就是传统的欧氏距离。 和K-medoids,检测算法的聚类性能;2)主要是检测 本文提出的HR-FCM算法,加入了距离学习的 算法的鲁棒性能,通过对实验数据加入不同程度的随 过程,通过距离学习出来的距离度量比传统的欧式 机噪声,并与FCM算法和GIFP-FCM算法作比较。 距离更佳适合具有辅助信息的数据集,增加了算法 3.1实验设置和实验数据 的聚类性能和鲁棒性。因此,用新的混合距离D替 本文的实验参数设置如下:阈值ε=10,最大 换式(13)和式(14)中的距离度量dn,得到新的聚类 迭代次数T=300,模糊指数T=300,m∈{1.5,2,3, 中心公式(16)和隶属度计算公式(17): 4},a∈{0.5,0.7,0.9,0.99}。为了实验结果的公平 重复每次聚类过程20,实验结果取均值。 实验中对于候选距离的选取,选择了基于欧式 了: (16) 距离的含有方差的距离分量d(x,y),非线性的距 1 离分量d(x,y),曼哈顿距离分量d2(x,y)。由这3 g= 种距离分量线性组合后的混合距离D(x,y)是一个 D'(x,)-a×minD(x,y ∑k=D2(x,y)-a×minD'(E.g 非线性的距离函数。本文预设的3个距离度量如式 (19)所示: (17) d (x,y)=(x-y)"(x-y) 式中距离度量D的定义如式(18): D(x.y)= d(x,) 4(x.3)= (19) s.t. ∑0:=1,0≤0,≤1 (18) 4(xJ)=1-exp(--3‖r-y2)矩阵为 U = {uij 1≤i≤c,1≤j≤n}。 对于每一个样 本 xj, 通过构造一个新的隶属约束函数 f(uij) = ∑ c i = 1 uij(1 - u m-1 ij ) ,同时为每一个样本增加一个惩 罚项 aj 以提高算法的鲁棒性,那么得到新的目标函 数为 J=∑ c i = 1 ∑ n j = 1 u m ij d 2 p(xj,vi) +∑ n j = 1 aj∑ c i = 1 uij(1 - u m-1 ij ) s.t. m>1 ∑ c i = 1 uij = 1, 0 ≤ uij ≤ 1, 1 ≤ i ≤ c,1 ≤ j ≤ n (12) 式中:aj =α× min 1≤s≤c d 2 p(xj,vs),0≤α≤1,α 为抗噪参数。 使用拉格朗日乘数法对式(12)进行优化,得到 新的聚类中心和隶属函数如式(13)和式(14): vi = ∑ n j = 1 u m ij xj ∑ n j = 1 u m ij (13) uij = 1 ∑ c k = 1 d 2 p(xj,vi) - α × min 1≤s≤c d 2 p(xj,vs) d 2 p(xj,vk) - α × min 1≤s≤c d 2 p(xj,vs) æ è çç ö ø ÷÷ 1 m-1 (14) dp(xj,vi) = (∑ n k = 1 xj - vi p ) 1 p s.t. 1 < p < 2 (15) 式(15)是表示样本与类中心的距离度量公式,当p = 2 时,式(15)就是传统的欧氏距离。 本文提出的 HR⁃FCM 算法,加入了距离学习的 过程,通过距离学习出来的距离度量比传统的欧式 距离更佳适合具有辅助信息的数据集,增加了算法 的聚类性能和鲁棒性。 因此,用新的混合距离 D 替 换式(13)和式(14)中的距离度量 dp,得到新的聚类 中心公式(16)和隶属度计算公式(17); vi = ∑ n j = 1 u m ij xj ∑ n j = 1 u m ij (16) uij = 1 ∑ c k = 1 D 2 (xj,vi) - α × min 1≤s≤c D 2 (xj,vs) D 2 (xj,vk) - α × min 1≤s≤c D 2 (xj,vs) æ è çç ö ø ÷÷ 1 m-1 (17) 式中距离度量 D 的定义如式(18): D(x,y) = ∑ p i = 1 ωidi(x,y) s.t. ∑ p i = 1 ωi = 1,0 ≤ ωi ≤ 1 (18) 式中:ωi 是通过距离学习得到的权值。 算法 3 HR⁃FCM 算法 输入 数据矩阵 X∈R d×N ,权值向量 ω,聚类数 目 c,阈值 ε,模糊指数 m,抗噪参数 α,最大迭代次 数 T; 输出 最终的隶属矩阵 U。 步骤: 1)初始化:uij = u 1 ij,t = 1; 2)使用式(16)计算新的聚类中心 v t+1 i ; 3)使用式(17)计算新的隶属矩阵 u t+1 ij ; 4)如果‖U t+1-U t‖<ε 或者 t>T,输出最终的隶 属矩阵,否则 t = t+1 返回 2)。 HR⁃FCM 算法通过使用距离学习得到的新的混 合距离代替传统 FCM 算法中的欧式距离,进一步增 加了算法的抗噪性能。 再者,通过数据集本身的辅 助信息进行距离的学习的得到的混合距离,比原有 的欧式距离更加适合数据集,提高了算法的适用 性。 HR⁃FCM 算法与传统的 FCM 算法相比,具有更 佳的聚类性能和鲁棒性。 3 实验研究和分析 本章通过实验检测本文提出的 HR⁃FCM 算法 的聚类性能和鲁棒性能。 本章的实验主要分为两 个部分:1)将本文提出的 HR⁃FCM 算法与现有的基 于欧氏距离的聚类算法作比较,如:FCM、K⁃means 和 K⁃medoids,检测算法的聚类性能;2)主要是检测 算法的鲁棒性能,通过对实验数据加入不同程度的随 机噪声,并与 FCM 算法和 GIFP⁃FCM 算法作比较。 3.1 实验设置和实验数据 本文的实验参数设置如下:阈值 ε = 10 -5 ,最大 迭代次数 T = 300,模糊指数 T = 300,m∈{1.5,2,3, 4},α∈{0.5,0.7,0.9,0.99}。 为了实验结果的公平, 重复每次聚类过程 20,实验结果取均值。 实验中对于候选距离的选取,选择了基于欧式 距离的含有方差的距离分量 d1( x,y),非线性的距 离分量 d3(x,y),曼哈顿距离分量 d2(x,y)。 由这 3 种距离分量线性组合后的混合距离 D(x,y)是一个 非线性的距离函数。 本文预设的 3 个距离度量如式 (19)所示: d1(x,y) = (x - y) T 1 σ 2 (x - y) d2(x,y) = ∑ d i = 1 xi - yi σ 2 d3(x,y) = 1 - exp( - - 3 ‖x - y‖2 σ 2 ) ì î í ï ï ï ï ï ï ï ï (19) 第 4 期 卞则康,等:基于混合距离学习的鲁棒的模糊 C 均值聚类算法 ·453·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有