第12卷第4期 智能系统学报 Vol.12 No.4 2017年8月 CAAI Transactions on Intelligent Systems Aug.2017 D0I:10.11992/is.201607019 网络出版地址:http://kns.cmki.net/kcms/detail/23.1538.tp.20170407.1734.004.html 基于混合距离学习的鲁棒的模糊C均值聚类算法 卞则康,王士同 (江南大学数字蝶体学院,江苏无锡214122) 摘要:距离度量对模糊聚类算法FCM的聚类结果有关键性的影响。实际应用中存在这样一种场景,聚类的数据集 中存在着一定量的带标签的成对约束集合的辅助信息。为了充分利用这些辅助信息,首先提出了一种基于混合距 离学习方法,它能利用这样的辅助信息来学习出数据集合的距离度量公式。然后,提出了一种基于混合距离学习的 鲁棒的模糊C均值聚类算法(HR-FCM算法).它是一种半监督的聚类算法。算法HR-FCM既保留了GFP-FCM (Generalized FCM algorithm wit汕h improved fuz四partitions)算法的鲁棒性等性能,也因为所采用更为合适的距离度量而 具有更好的聚类性能。实验结果证明了所提算法的有效性。 关键词:距离度量:FCM聚类算法:成对约束:辅助信息:混合距离:半监督:GIFP-FCM:鲁棒性 中图分类号:TP181文献标志码:A文章编号:1673-4785(2017)04-0450-09 中文引用格式:卞则康,王士同.基于混合距离学习的鲁棒的模糊C均值聚类算法[J].智能系统学报,2017,12(4):450-458. 英文引用格式:BIAN Zekang,WANG Shitong..Robust FCM clustering algorithm based on hybrid-distance learning[J].CAAI transactions on intelligent systems,2017,12(4):450-458. Robust FCM clustering algorithm based on hybrid-distance learning BIAN Zekang,WANG Shitong (School of Digital Media,Jiangnan University,Wuxi 214122,China) Abstract:The distance metric plays a vital role in the fuzzy C-means clustering algorithm.In actual applications, there is a practical scenario in which the clustered data have a certain amount of side information,such as pairwise constraints with labels.To sufficiently utilize this side information,first,we propose a learning method based on hybrid distance,in which side information can be utilized to attain a distance metric formula for the data set.Next, we propose a robust fuzzy C-means clustering algorithm(HR-FCM algorithm)based on hybrid-distance learning, which is semi-supervised.The HR-FCM inherits the robustness of the GIFP-FCM(generalized FCM algorithm with improved fuzzy partitions)and has better clustering performance due to the more appropriate distance metric.The experimental results confirm the effectiveness of the proposed algorithm. Keywords:distance metric;FCM clustering algorithm;pairwise constraints;side information;hybrid distance; semi-supervised;GIFP-FCM;robustness 聚类分析作为一种重要的数据处理技术已经 离的方法通常是假设所有变量都是不相关的,并且 被广泛地应用到各种领域,如模式识别、数据挖掘 数据所有维度的方差都为1,所有变量的协方差为 等。在聚类分析中,需要根据数据点之间的相似或 0):2)欧式距离仅仅适用于特征空间中的超球结 相异程度,对数据点进行区分和分类。因此对于不 构,对于其他结构的数据集不太理想:3)欧式距离 同的数据集,选择合适的距离度量方式对算法的聚 对噪声比较敏感,聚类结果容易受到噪声的干 类性能有重要的影响)。欧式距离是较为常用的 扰[)。因此,欧式距离在实际应用中受到了限制。 距离度量方式,但其具有以下不足:1)采用欧式距 针对这些问题,近年来提出了多种距离学习的 方法,根据在距离学习过程中是否有先验的训练样 收稿日期:2016-07-23.网络出版日期:2017-04-07 本,距离学习可以分为有监督距离学习4和无监 基金项目:国家自然科学基金项目(61272210). 通信作者:卞则康.E-mail:bianzekang@163.com. 督距离学习7-)。在有监督距离学习的方法中,需
第 12 卷第 4 期 智 能 系 统 学 报 Vol.12 №.4 2017 年 8 月 CAAI Transactions on Intelligent Systems Aug. 2017 DOI:10.11992 / tis.201607019 网络出版地址:http: / / kns.cnki.net / kcms/ detail / 23.1538.tp.20170407.1734.004.html 基于混合距离学习的鲁棒的模糊 C 均值聚类算法 卞则康,王士同 (江南大学 数字媒体学院,江苏 无锡 214122) 摘 要:距离度量对模糊聚类算法 FCM 的聚类结果有关键性的影响。 实际应用中存在这样一种场景,聚类的数据集 中存在着一定量的带标签的成对约束集合的辅助信息。 为了充分利用这些辅助信息,首先提出了一种基于混合距 离学习方法,它能利用这样的辅助信息来学习出数据集合的距离度量公式。 然后,提出了一种基于混合距离学习的 鲁棒的模糊 C 均值聚类算法(HR⁃FCM 算法),它是一种半监督的聚类算法。 算法 HR⁃FCM 既保留了 GIFP⁃FCM (Generalized FCM algorithm with improved fuzzy partitions)算法的鲁棒性等性能,也因为所采用更为合适的距离度量而 具有更好的聚类性能。 实验结果证明了所提算法的有效性。 关键词:距离度量;FCM 聚类算法;成对约束;辅助信息;混合距离;半监督;GIFP⁃FCM;鲁棒性 中图分类号:TP181 文献标志码:A 文章编号:1673-4785(2017)04-0450-09 中文引用格式:卞则康,王士同.基于混合距离学习的鲁棒的模糊 C 均值聚类算法[J]. 智能系统学报, 2017, 12(4): 450-458. 英文引用格式:BIAN Zekang, WANG Shitong. Robust FCM clustering algorithm based on hybrid⁃distance learning [ J]. CAAI transactions on intelligent systems, 2017, 12(4): 450-458. Robust FCM clustering algorithm based on hybrid⁃distance learning BIAN Zekang, WANG Shitong (School of Digital Media, Jiangnan University, Wuxi 214122, China) Abstract:The distance metric plays a vital role in the fuzzy C⁃means clustering algorithm. In actual applications, there is a practical scenario in which the clustered data have a certain amount of side information, such as pairwise constraints with labels. To sufficiently utilize this side information, first, we propose a learning method based on hybrid distance, in which side information can be utilized to attain a distance metric formula for the data set. Next, we propose a robust fuzzy C⁃means clustering algorithm (HR⁃FCM algorithm) based on hybrid⁃distance learning, which is semi⁃supervised. The HR⁃FCM inherits the robustness of the GIFP⁃FCM (generalized FCM algorithm with improved fuzzy partitions) and has better clustering performance due to the more appropriate distance metric. The experimental results confirm the effectiveness of the proposed algorithm. Keywords: distance metric; FCM clustering algorithm; pairwise constraints;side information; hybrid distance; semi⁃supervised; GIFP⁃FCM; robustness 收稿日期:2016-07-23. 网络出版日期:2017-04-07. 基金项目:国家自然科学基金项目(61272210). 通信作者:卞则康. E⁃mail:bianzekang@ 163.com. 聚类分析作为一种重要的数据处理技术已经 被广泛地应用到各种领域,如模式识别、数据挖掘 等。 在聚类分析中,需要根据数据点之间的相似或 相异程度,对数据点进行区分和分类。 因此对于不 同的数据集,选择合适的距离度量方式对算法的聚 类性能有重要的影响[1] 。 欧式距离是较为常用的 距离度量方式,但其具有以下不足:1) 采用欧式距 离的方法通常是假设所有变量都是不相关的,并且 数据所有维度的方差都为 1,所有变量的协方差为 0 [2] ;2)欧式距离仅仅适用于特征空间中的超球结 构,对于其他结构的数据集不太理想;3) 欧式距离 对噪声 比 较 敏 感, 聚 类 结 果 容 易 受 到 噪 声 的 干 扰[3] 。 因此,欧式距离在实际应用中受到了限制。 针对这些问题,近年来提出了多种距离学习的 方法,根据在距离学习过程中是否有先验的训练样 本,距离学习可以分为有监督距离学习[4-6] 和无监 督距离学习[7-8] 。 在有监督距离学习的方法中,需
第4期 卞则康,等:基于混合距离学习的鲁棒的模糊C均值聚类算法 ·451- 要借助数据集的辅助信息进行距离学习,其中辅助 在距离学习中,借鉴文献[2]的思想,利用最大 信息通常以约束对的形式来表示[。由数据集辅 边界的框架,优化目标函数: 助信息学习得到的距离函数,可以有效地反映数据 集的自身特点,对数据集具有很好的适用性。 2o-c宫w套d比- k三1 在之前的研究中,人们提出了许多利用辅助信 息进行距离学习的算法。比如,将距离学习转化为 tn)B)0 凸优化问题的方法)、相关成分分析法[)、区分成 分分析法等。然而这些方法大多数将目标函数 0=1,0≤a,≤1,i=1,2… (2) 假设在马氏距离的框架下,本质上来说,针对马氏 式中:山,(x。,x)表示第k对约束对的第i个距离分 量,为了便于表示,在之后的介绍中用来代替 距离学习得到的新距离是欧式距离的线性变换,仍 然有欧式距离的缺点。在含有辅助信息的数据集 d(x。,x)。y为该对样本点的对应类标,C为惩罚 中,欧式距离的聚类性能和鲁棒性不理想。 因子,B为阈值。 因此,本文提出了一种基于混合距离学习的鲁 使用拉格朗日乘子法优化式(2),其拉格朗日 函数为 棒模糊C均值聚类算法(HR-CM)。在此算法中, 数据集的未知距离被表示成若干候选距离的线性 - L=- (2w,d(x,x)-B)+ k=1 组合,在候选的距离度量中加入了非线性的距离度 量。与其他有监督的聚类算法-不同的是,HR (3) FCM利用数据集本身含有的少数的辅助信息进行 式中:9:和入为拉格朗日乘子。则式(3)的KKT条 混合距离的学习,相对于欧式距离没有考虑到数据 件为 集本身的特征,利用数据集的辅助信息学习得到的 aL 混合距离融合了数据集的一些特征,提高了提高算 .=0 a0i 法的聚类性能和鲁棒性。 (4) P:≥0 1混合距离学习 (9,w:=0 显然由式(4)无法求得o,因此先舍弃ω:非负 1.1混合距离 的条件,则可重新构建新的拉格朗日函数,如式(5) 由于数据集结构特征不同,为了合理地计算不 所示: 同数据集之间的距离,在距离学习中引入权重已经 L= 成为一种常用的方法。本文定义数据集中的混合 2 k=1 i=1 距离度量的线性组合如下: 入(1- (5) D(x,y)= aa 可以求得 s20,=1,0≤,≤1,i=1,2,…p() (6) 由文献[13]可证式(1)中D(x,y)是一个距离 由式(6)可以看出,即使在成功的优化过程下 函数。下面将介绍距离学习的过程。 ω:也可能出现负值,由前文看出,在考虑ω:为负的 本文的数据集分为两个部分:1)训练集,它是 条件下,无法用拉格朗日函数求解。因此,在受到 以约束对形式存在的辅助信息:2)用来聚类的数据 加权中心模糊聚类算法[4的启发,可以将w:改写 集。本文将所有的训练样本集合表示为D= 为式(7)的形式: {(x。,x,y),k=1,2,…,n,},其中n,为成对约束的 0, iep 对数。每一对约束对都是一个包含3个元素的元组 W; (x,x,y),其中x和x哈为d维向量的样本点,y 立,iep 是点对x和x之间关系的类标。当x和x属于 (7) 同一类样本时,y为正;相反,y为负。使用X= 式中:P表示所有使w,取正值的i的集合,p表示无 {x1,x2,…,x}来表示D中所有的训练样本点,其 法使w.取正值的i的集合,使用|p|和p|来分别 中N表示样本点的个数。 表示集合p和p的大小
要借助数据集的辅助信息进行距离学习,其中辅助 信息通常以约束对的形式来表示[9] 。 由数据集辅 助信息学习得到的距离函数,可以有效地反映数据 集的自身特点,对数据集具有很好的适用性。 在之前的研究中,人们提出了许多利用辅助信 息进行距离学习的算法。 比如,将距离学习转化为 凸优化问题的方法[4] 、相关成分分析法[5] 、区分成 分分析法等[10] 。 然而这些方法大多数将目标函数 假设在马氏距离的框架下,本质上来说,针对马氏 距离学习得到的新距离是欧式距离的线性变换,仍 然有欧式距离的缺点。 在含有辅助信息的数据集 中,欧式距离的聚类性能和鲁棒性不理想。 因此,本文提出了一种基于混合距离学习的鲁 棒模糊 C 均值聚类算法(HR⁃FCM)。 在此算法中, 数据集的未知距离被表示成若干候选距离的线性 组合,在候选的距离度量中加入了非线性的距离度 量。 与其他有监督的聚类算法[11-12] 不同的是,HR⁃ FCM 利用数据集本身含有的少数的辅助信息进行 混合距离的学习,相对于欧式距离没有考虑到数据 集本身的特征,利用数据集的辅助信息学习得到的 混合距离融合了数据集的一些特征,提高了提高算 法的聚类性能和鲁棒性。 1 混合距离学习 1.1 混合距离 由于数据集结构特征不同,为了合理地计算不 同数据集之间的距离,在距离学习中引入权重已经 成为一种常用的方法。 本文定义数据集中的混合 距离度量的线性组合如下: D(x,y) = ∑ p i = 1 ωidi(x,y) s.t.∑ p i = 1 ωi = 1,0 ≤ ωi ≤ 1,i = 1,2,…,p (1) 由文献[13]可证式(1)中 D( x,y)是一个距离 函数。 下面将介绍距离学习的过程。 本文的数据集分为两个部分:1) 训练集,它是 以约束对形式存在的辅助信息;2)用来聚类的数据 集。 本文 将 所 有 的 训 练 样 本 集 合 表 示 为 D = (x k a ,x k b,yk),k = 1,2,…,np { } ,其中 np 为成对约束的 对数。 每一对约束对都是一个包含 3 个元素的元组 (x k a ,x k b,yk),其中 x k a 和 x k b 为 d 维向量的样本点,yk 是点对 x k a 和 x k b 之间关系的类标。 当 x k a 和 x k b 属于 同一类样本时, yk 为正;相反, yk 为负。 使用 X = x1 ,x2 ,…,xN { } 来表示 D 中所有的训练样本点,其 中 N 表示样本点的个数。 在距离学习中,借鉴文献[2]的思想,利用最大 边界的框架,优化目标函数: min ωi ,β J = 1 2 ∑ p i = 1 ω 2 i - C∑ n k = 1 yk(∑ p i = 1 ωidi(x k a ,x k b) - β) s.t. yk(∑ p i = 1 ωidi(x k a ,x k b) - β) > 0 ∑ p i = 1 ωi = 1,0 ≤ ωi ≤ 1,i = 1,2,…,p (2) 式中:di(x k a ,x k b)表示第 k 对约束对的第 i 个距离分 量,为了便于表示,在之后的介绍中用 d k i 来代替 di(x k a ,x k b)。 yk 为该对样本点的对应类标,C 为惩罚 因子,β 为阈值。 使用拉格朗日乘子法优化式(2),其拉格朗日 函数为 L = 1 2 ∑ p i = 1 ω 2 i - C∑ np k = 1 yk(∑ p i = 1 ωidi(x k a ,x k b) - β) + λ(1 - ∑ p i = 1 ωi) + ∑ p i = 1 φiωi (3) 式中:φi 和 λ 为拉格朗日乘子。 则式(3)的 KKT 条 件为 L ωi = 0 φi ≥ 0 φiωi = 0 ì î í ï ïï ï ï (4) 显然由式(4)无法求得 ωi,因此先舍弃 ωi 非负 的条件,则可重新构建新的拉格朗日函数,如式(5) 所示: L = 1 2 ∑ p i = 1 ω 2 i - C∑ np k = 1 yk(∑ p i = 1 ωidi(x k a ,x k b) - β) + λ(1 - ∑ p i = 1 ωi) (5) 可以求得 ωi = 1 p + C∑ np k = 1 ykd k i - C p ∑ p j = 1 ∑ np k = 1 ykd k j (6) 由式(6)可以看出,即使在成功的优化过程下 ωi 也可能出现负值,由前文看出,在考虑 ωi 为负的 条件下,无法用拉格朗日函数求解。 因此,在受到 加权中心模糊聚类算法[14] 的启发,可以将 ωi 改写 为式(7)的形式: ωi = 0, i ∈ p - 1 p + + C∑ np k = 1 ykd k i - C p + ∑ p j = 1 ∑ np k = 1 ykd k j , i ∈ p + ì î í ï ï ïï (7) 式中:p +表示所有使 ωi 取正值的 i 的集合,p -表示无 法使 ωi 取正值的 i 的集合,使用 p + 和 p - 来分别 表示集合 p +和 p -的大小。 第 4 期 卞则康,等:基于混合距离学习的鲁棒的模糊 C 均值聚类算法 ·451·
.452 智能系统学报 第12卷 对于阈值B,使用梯度下降的方法进行求解,通 过求偏导,得到B的梯度如下: n={y4∈D:y(∑w,d(,)-B>0)} V-GZn ③计算梯度: (8) k=1 7J=C∑a ken 为了满足约束条件:(∑,4(c)-B)> ④更新阈值:B=B-yVgJ: 0,参考w:的表示方式,则符合约束条件的y4的集合: ⑤更新集合p和p,使用算法1: m={beD(∑0,4()->0,重新 ⑥更新w。 定义了B的梯度公式: 至此,通过对训练集的距离学习,得到的权值 1n1 ω:,从而得到新的距离函数。通过数据集本身构成 J=c21 (9) 的辅助信息学习得到的混合距离,对数据集自身的 适应性更高,更有利于聚类效果的改善。 式中:n|表示集合n,的大小。使用梯度下降的 1.2时间复杂度分析 方法,求解B=B-yVJ,其中,y表示为梯度下降的 这个部分主要讨论所提算法的时间复杂度, 学习速率,设置y=。 HR-FCM算法的时间复杂度主要讨论的是混合距离 学习的时间复杂度。总的来说,混合距离学习的最 由于集合n不断改变,则等式进一步修改为 大时间复杂度为O(N2d),其中N表示训练数据集 如下形式: 中样本的个数,d表示样本的维度,p表示候选距离 0,iEp 的个数。算法的主要时间消耗在求解距离矩阵D (10) +CE,i∈p 中,时间复杂度为O(Ndp)。在迭代循环中,每一步 都有一个线性的时间复杂度,为O(max(V,n,))。 式中: 2 基于混合距离学习的鲁棒的FCM (11) 算法 具体的算法描述如下: 模糊C均值聚类算法(FCM),它是一种基于目 求解集合p*和p的算法,算法1如下: 标函数的聚类算法,是迄今为止应用最广泛、理论 1)初始化p=,Po={1,2,…,P},h=0; 最为完善的聚类算法。传统的FCM聚类算法使用 2)h=h+1,P=Pt+{i},P=Pi-,-{,其中i= 欧式距离作为距离度量函数导致其聚类性能和鲁 arg max 棒性较差。 icP-1 3)通过式(10)计算w,并判断其是否大于0。 针对传统FCM算法的缺点,近年来研究者们提 其中g=arg max{E}。如果ω,>0,则返回2),否则 出了一些改进的FCM算法,例如:基于改进的模糊 划分的模糊C均值聚类算法(IFP-FCM)[1s)]和基于 设置p=p1Pi=P-,并终止。 改进的模糊划分的泛化的模糊C均值聚类算法 求解ω具体算法,算法2步骤如下: (GFP-FCM)[I6)。IFP-FCM算法是由Hoppner和 输入数据矩阵X∈R,惩罚因子C,成对约 Klawonn提出的一种改进的FCM聚类算法。FP 束(x。,xy),其中y={+1,-1) FCM算法通过对每个数据增加一个隶属约束函数, 输出距离权值ω,阈值B。 以降低算法对噪声的敏感性,增加了算法的鲁棒 步骤: 性。但是此算法仍然沿用的是传统的欧式距离作 1)初始化:o=w0=二,B=B(在初始权值下 为距离度量,受到IFP-FCM算法的启发,朱林等提 出了GIFP-FCM算法。 取距离的最大值作为B的初值)。 在此启发下,本文提出了一种基于混合距离学 2)计算距离矩阵:D(i,k), 习的鲁棒的FCM聚类算法,算法描述如下: 3)设置迭代步数:t=1, 假设给定一个样本集合X={x1,x2,…,x},其 4)循环,直至收敛: 中n是样本的个数,每一个样本是d维,预设聚类中 ①更新学习率:y=1/1,t=t+1 心的集合为V={y:,1≤i≤c},其中c表示类别数。 ②更新训练子集: 令u:表示第j个样本隶属于第i类的程度。则隶属
对于阈值 β,使用梯度下降的方法进行求解,通 过求偏导,得到 β 的梯度如下: Ñβ J = C ∑ np k = 1 yk (8) 为了满足约束条件: yk ∑ p i = 1 ωidi x k a,x k b ( ( ) - β) > 0,参考 ωi 的表示方式,则符合约束条件的 yk 的集合: n + p = yk ∈ D:yk ∑ p i = 1 ωidi x k a,x k b { ( ( ) - β) > 0} ,重新 定义了 β 的梯度公式: Ñβ J = C∑ | np +| k = 1 yk (9) 式中: n + p 表示集合 np + 的大小。 使用梯度下降的 方法,求解 β′= β-γ Ñβ J,其中,γ 表示为梯度下降的 学习速率,设置 γ = 1 t 。 由于集合 np + 不断改变,则等式进一步修改为 如下形式: ωi = 0, i ∈ p - 1 p + + CEi, i ∈ p + ì î í ï ï ïï (10) 式中: Ei = ∑ np k = 1 ykd k i - 1 p + ∑ j = p +∑ np k = n + p ykd k j (11) 具体的算法描述如下: 求解集合 p +和 p -的算法,算法 1 如下: 1)初始化 p + =∅,p - 0 ={1,2,…,p} ,h = 0; 2)h = h+1,p + h = p + h-1 +{i} ,p - h = p - h-1 -{i} ,其中 i = arg max i∈p - h-1 Ei { } ; 3)通过式(10) 计算 ωg 并判断其是否大于 0。 其中 g = arg max i∈p + h Ei { } 。 如果 ωg >0,则返回 2),否则 设置 p + h = p + h-1 ,p - h = p - h-1并终止。 求解 ω 具体算法,算法 2 步骤如下: 输入 数据矩阵 X∈R d×N ,惩罚因子 C,成对约 束(x k a ,x k b,yk),其中 yk ={+1,-1} ; 输出 距离权值 ω,阈值 β。 步骤: 1)初始化:ω= ω (0) = 1 p ,β = β (0) (在初始权值下 取距离的最大值作为 β 的初值)。 2)计算距离矩阵:D(i,k), 3)设置迭代步数:t = 1, 4)循环,直至收敛: ①更新学习率:γ = 1 / t,t = t+1 ②更新训练子集: n + p = yk ∈ D:yk ∑ p i = 1 ωidi(x k a ,x k { ( b) - β > 0) } ③计算梯度: ∇ β J = C∑k∈n + p yk ④更新阈值:β′= β-γ Ñβ J; ⑤更新集合 p +和 p - ,使用算法 1; ⑥更新 ω。 至此,通过对训练集的距离学习,得到的权值 ωi,从而得到新的距离函数。 通过数据集本身构成 的辅助信息学习得到的混合距离,对数据集自身的 适应性更高,更有利于聚类效果的改善。 1.2 时间复杂度分析 这个部分主要讨论所提算法的时间复杂度, HR⁃FCM 算法的时间复杂度主要讨论的是混合距离 学习的时间复杂度。 总的来说,混合距离学习的最 大时间复杂度为 O(N 2 dp),其中 N 表示训练数据集 中样本的个数,d 表示样本的维度,p 表示候选距离 的个数。 算法的主要时间消耗在求解距离矩阵 D 中,时间复杂度为 O(Ndp)。 在迭代循环中,每一步 都有一个线性的时间复杂度,为 O(max(N,np))。 2 基于混合距离学习的鲁棒的 FCM 算法 模糊 C 均值聚类算法(FCM),它是一种基于目 标函数的聚类算法,是迄今为止应用最广泛、理论 最为完善的聚类算法。 传统的 FCM 聚类算法使用 欧式距离作为距离度量函数导致其聚类性能和鲁 棒性较差。 针对传统 FCM 算法的缺点,近年来研究者们提 出了一些改进的 FCM 算法,例如:基于改进的模糊 划分的模糊 C 均值聚类算法( IFP⁃FCM) [15] 和基于 改进的模糊划分的泛化的模糊 C 均值聚类算法 (GIFP⁃FCM) [16] 。 IFP⁃FCM 算法是由 Höppner 和 Klawonn 提出的一种改进的 FCM 聚类算法。 IFP⁃ FCM 算法通过对每个数据增加一个隶属约束函数, 以降低算法对噪声的敏感性,增加了算法的鲁棒 性。 但是此算法仍然沿用的是传统的欧式距离作 为距离度量,受到 IFP⁃FCM 算法的启发,朱林等提 出了 GIFP⁃FCM 算法。 在此启发下,本文提出了一种基于混合距离学 习的鲁棒的 FCM 聚类算法,算法描述如下: 假设给定一个样本集合 X = x1 ,x2 ,…,xn { } ,其 中 n 是样本的个数,每一个样本是 d 维,预设聚类中 心的集合为 V = v{ i,1≤i≤c} ,其中 c 表示类别数。 令 uij表示第 j 个样本隶属于第 i 类的程度。 则隶属 ·452· 智 能 系 统 学 报 第 12 卷
第4期 卞则康,等:基于混合距离学习的鲁棒的模糊C均值聚类算法 ·453. 矩阵为U={u,l1≤i≤c,1≤j≤n}。对于每一个样 式中:ω:是通过距离学习得到的权值。 本x,通过构造一个新的隶属约束函数f(“)= 算法3HR-FCM算法 ∑“,(1-写),同时为每一个样本增加一个惩 输入数据矩阵X∈RW,权值向量w,聚类数 罚项α,以提高算法的鲁棒性,那么得到新的目标函 目c,阈值e,模糊指数m,抗噪参数α,最大迭代次 数为 数T; 输出最终的隶属矩阵U。 步骤: 1)初始化:山,=,t=1; 三与=山,0≤4,≤1,1≤i≤c,1≤≤n 2)使用式(16)计算新的聚类中心; (12) 3)使用式(17)计算新的隶属矩阵售; 式中:a,=a×mind(x,y,),0≤a≤1,a为抗噪参数。 4)如果‖U+1-U‖T,输出最终的隶 1多se 属矩阵,否则t=t+1返回2)。 使用拉格朗日乘数法对式(12)进行优化,得到 HR-FCM算法通过使用距离学习得到的新的混 新的聚类中心和隶属函数如式(13)和式(14): 合距离代替传统FCM算法中的欧式距离,进一步增 ∑写 加了算法的抗噪性能。再者,通过数据集本身的辅 13) ∑写 助信息进行距离的学习的得到的混合距离,比原有 1 的欧式距离更加适合数据集,提高了算法的适用 性。HR-FCM算法与传统的FCM算法相比,具有更 d(x,y)-a×mind(,y,) 佳的聚类性能和鲁棒性。 d(x,y)-a×mind(x,y,) 3实验研究和分析 (14) 本章通过实验检测本文提出的HR-FCM算法 4,(,)=(-P)st1<p<2 的聚类性能和鲁棒性能。本章的实验主要分为两 (15) 个部分:1)将本文提出的HR-FCM算法与现有的基 式(15)是表示样本与类中心的距离度量公式,当p= 于欧氏距离的聚类算法作比较,如:FCM、K-means 2时,式(15)就是传统的欧氏距离。 和K-medoids,检测算法的聚类性能;2)主要是检测 本文提出的HR-FCM算法,加入了距离学习的 算法的鲁棒性能,通过对实验数据加入不同程度的随 过程,通过距离学习出来的距离度量比传统的欧式 机噪声,并与FCM算法和GIFP-FCM算法作比较。 距离更佳适合具有辅助信息的数据集,增加了算法 3.1实验设置和实验数据 的聚类性能和鲁棒性。因此,用新的混合距离D替 本文的实验参数设置如下:阈值ε=10,最大 换式(13)和式(14)中的距离度量dn,得到新的聚类 迭代次数T=300,模糊指数T=300,m∈{1.5,2,3, 中心公式(16)和隶属度计算公式(17): 4},a∈{0.5,0.7,0.9,0.99}。为了实验结果的公平 重复每次聚类过程20,实验结果取均值。 实验中对于候选距离的选取,选择了基于欧式 了: (16) 距离的含有方差的距离分量d(x,y),非线性的距 1 离分量d(x,y),曼哈顿距离分量d2(x,y)。由这3 g= 种距离分量线性组合后的混合距离D(x,y)是一个 D'(x,)-a×minD(x,y ∑k=D2(x,y)-a×minD'(E.g 非线性的距离函数。本文预设的3个距离度量如式 (19)所示: (17) d (x,y)=(x-y)"(x-y) 式中距离度量D的定义如式(18): D(x.y)= d(x,) 4(x.3)= (19) s.t. ∑0:=1,0≤0,≤1 (18) 4(xJ)=1-exp(--3‖r-y2)
矩阵为 U = {uij 1≤i≤c,1≤j≤n}。 对于每一个样 本 xj, 通过构造一个新的隶属约束函数 f(uij) = ∑ c i = 1 uij(1 - u m-1 ij ) ,同时为每一个样本增加一个惩 罚项 aj 以提高算法的鲁棒性,那么得到新的目标函 数为 J=∑ c i = 1 ∑ n j = 1 u m ij d 2 p(xj,vi) +∑ n j = 1 aj∑ c i = 1 uij(1 - u m-1 ij ) s.t. m>1 ∑ c i = 1 uij = 1, 0 ≤ uij ≤ 1, 1 ≤ i ≤ c,1 ≤ j ≤ n (12) 式中:aj =α× min 1≤s≤c d 2 p(xj,vs),0≤α≤1,α 为抗噪参数。 使用拉格朗日乘数法对式(12)进行优化,得到 新的聚类中心和隶属函数如式(13)和式(14): vi = ∑ n j = 1 u m ij xj ∑ n j = 1 u m ij (13) uij = 1 ∑ c k = 1 d 2 p(xj,vi) - α × min 1≤s≤c d 2 p(xj,vs) d 2 p(xj,vk) - α × min 1≤s≤c d 2 p(xj,vs) æ è çç ö ø ÷÷ 1 m-1 (14) dp(xj,vi) = (∑ n k = 1 xj - vi p ) 1 p s.t. 1 < p < 2 (15) 式(15)是表示样本与类中心的距离度量公式,当p = 2 时,式(15)就是传统的欧氏距离。 本文提出的 HR⁃FCM 算法,加入了距离学习的 过程,通过距离学习出来的距离度量比传统的欧式 距离更佳适合具有辅助信息的数据集,增加了算法 的聚类性能和鲁棒性。 因此,用新的混合距离 D 替 换式(13)和式(14)中的距离度量 dp,得到新的聚类 中心公式(16)和隶属度计算公式(17); vi = ∑ n j = 1 u m ij xj ∑ n j = 1 u m ij (16) uij = 1 ∑ c k = 1 D 2 (xj,vi) - α × min 1≤s≤c D 2 (xj,vs) D 2 (xj,vk) - α × min 1≤s≤c D 2 (xj,vs) æ è çç ö ø ÷÷ 1 m-1 (17) 式中距离度量 D 的定义如式(18): D(x,y) = ∑ p i = 1 ωidi(x,y) s.t. ∑ p i = 1 ωi = 1,0 ≤ ωi ≤ 1 (18) 式中:ωi 是通过距离学习得到的权值。 算法 3 HR⁃FCM 算法 输入 数据矩阵 X∈R d×N ,权值向量 ω,聚类数 目 c,阈值 ε,模糊指数 m,抗噪参数 α,最大迭代次 数 T; 输出 最终的隶属矩阵 U。 步骤: 1)初始化:uij = u 1 ij,t = 1; 2)使用式(16)计算新的聚类中心 v t+1 i ; 3)使用式(17)计算新的隶属矩阵 u t+1 ij ; 4)如果‖U t+1-U t‖<ε 或者 t>T,输出最终的隶 属矩阵,否则 t = t+1 返回 2)。 HR⁃FCM 算法通过使用距离学习得到的新的混 合距离代替传统 FCM 算法中的欧式距离,进一步增 加了算法的抗噪性能。 再者,通过数据集本身的辅 助信息进行距离的学习的得到的混合距离,比原有 的欧式距离更加适合数据集,提高了算法的适用 性。 HR⁃FCM 算法与传统的 FCM 算法相比,具有更 佳的聚类性能和鲁棒性。 3 实验研究和分析 本章通过实验检测本文提出的 HR⁃FCM 算法 的聚类性能和鲁棒性能。 本章的实验主要分为两 个部分:1)将本文提出的 HR⁃FCM 算法与现有的基 于欧氏距离的聚类算法作比较,如:FCM、K⁃means 和 K⁃medoids,检测算法的聚类性能;2)主要是检测 算法的鲁棒性能,通过对实验数据加入不同程度的随 机噪声,并与 FCM 算法和 GIFP⁃FCM 算法作比较。 3.1 实验设置和实验数据 本文的实验参数设置如下:阈值 ε = 10 -5 ,最大 迭代次数 T = 300,模糊指数 T = 300,m∈{1.5,2,3, 4},α∈{0.5,0.7,0.9,0.99}。 为了实验结果的公平, 重复每次聚类过程 20,实验结果取均值。 实验中对于候选距离的选取,选择了基于欧式 距离的含有方差的距离分量 d1( x,y),非线性的距 离分量 d3(x,y),曼哈顿距离分量 d2(x,y)。 由这 3 种距离分量线性组合后的混合距离 D(x,y)是一个 非线性的距离函数。 本文预设的 3 个距离度量如式 (19)所示: d1(x,y) = (x - y) T 1 σ 2 (x - y) d2(x,y) = ∑ d i = 1 xi - yi σ 2 d3(x,y) = 1 - exp( - - 3 ‖x - y‖2 σ 2 ) ì î í ï ï ï ï ï ï ï ï (19) 第 4 期 卞则康,等:基于混合距离学习的鲁棒的模糊 C 均值聚类算法 ·453·
454. 智能系统学报 第12卷 本文选取的实验数据集均来自UCI数据集,数 知标签的原始数据的聚类结果,I(X,Y)定义了X和 据集细节如表1。由于UCI数据集中没有约束对形 Y之间的互信息,H(X)和H(Y)分别代表了X和Y 式的辅助信息,需要选取数据集中的一部分带标签 的嫡,a定义了X和Y中任意两个具有相同类标签 的数据集构成约束对作为训练集。其中,拥有相同 并且属于同一个样本的数目,b定义了X和Y中任 的类标的样本点构成正约束对,不同的类标的构成 意两个具有不同标签并且属于不同类的样本的个 负约束对,选取相同数目的正负约束对进行距离学 数,n表示原始样本的个数。显而易见,NMl和RI 习。对于本文中的数据集,前6个取10%的数据集 的值都是介于0~1的,NMI和RI的值越大,表示X 构成训练集,最后两个取1%的数据集。 和Y之间的相似度就越高,即算法的效果越好。 在抗噪声实验中,在数据集中随机加入10%和 3.3实验结果和分析 20%的高斯白噪声(SNR=40d山或者30d山),分别 在第1部分的实验中,为了检测算法的聚类性 计算本文提出的HR-FCM算法、传统FCM聚类算法 能,设置HR-FCM算法中的抗噪参数a=0,比较使 和GFP-FCM算法的聚类性能。 用了混合距离的HR-FCM算法与使用欧氏距离的 表1数据集信息 FCM算法和其他常用的基于欧氏距离的聚类算法, Table 1 Description of data sets 检测混合距离对聚类性能的影响。选取上述7个数 数据集 样本数 特征数 类别数 据集作为本次实验的实验数据集,每组数据集运行 breast 683 10 2 20次,实验结果选取I和N值的均值,实验结果 2 如图1和图2所示。 wdbe 569 30 第1部分的实验结果表明:对于小数据集,HR vowel 528 10 10 FCM算法的聚类性能不仅比传统的基于欧氏距离 sonar 208 60 2 的FCM聚类算法要好,也比基于欧氏距离的K wine 178 13 mean和K-medoids的聚类算法性能好。对于大样 本数据集,由于样本数对于CM聚类算法的影响比 vehicle 846 18 4 K-means和K-medoids的大,此时,距离度量对于聚 led 3200 24 10 类性能的影响力下降,因此,K-means和K-medoids waveform 5000 21 算法的聚类性能较佳,但是与传统的FCM聚类算法 3.2评价方法 相比,本文提出的基于混合聚类的HR-FCM算法具 为了评估算法的聚类效果,本文采用了一些标 有较好的聚类性能,如waveform数据集。 准的评价方法,包括归一化互信息(NM)1)和芮氏 从表2的实验中还可以得到,对于高维的数据 指数(RI)[18-9),这些将用来评价HR-FCM算法与 集,4种算法聚类性能都有一定的下降。由于数据 FCM的聚类效果。 维度的增加,单个样本的信息增加,在这些信息中 I(X,Y) 存在着不同类型的信息,本文提出的混合距离度量 NMI(X.Y)=- 20 √H(X)·H(Y 函数相比传统的欧氏距离能够充分地度量出样本 之间的距离,学习出样本之间的有效信息,提高算 RI(X,Y)= a+b (21) n×(n-1)/2 法的聚类性能。对于数据集wdbc和sonar,表2的 式中:X定义了已知标签的原始数据,Y定义了对未 实验结果显示了混合距离的有效性。 表2聚类算法性能 Table 2 The performance of clustering algorithm breast wdbe sonar vehicle waveform 算法 RI NMI RI NMI RI NMI RI NMI RI NMI HR-FCM 0.88690.67200.85110.59420.50880.01710.66160.17090.6644 0.3490 FCM 0.51990.00450.75040.46720.50360.00910.65060.18020.6600 0.3209 K-means 0.52060.00470.75040.46720.50320.64300.65230.18680.6673 0.3622 K-medoids 0.52060.00470.77070.49990.50220.00710.65090.18660.6701 0.3681
本文选取的实验数据集均来自 UCI 数据集,数 据集细节如表 1。 由于 UCI 数据集中没有约束对形 式的辅助信息,需要选取数据集中的一部分带标签 的数据集构成约束对作为训练集。 其中,拥有相同 的类标的样本点构成正约束对,不同的类标的构成 负约束对,选取相同数目的正负约束对进行距离学 习。 对于本文中的数据集,前 6 个取 10%的数据集 构成训练集,最后两个取 1%的数据集。 在抗噪声实验中,在数据集中随机加入 10%和 20%的高斯白噪声( SNR = 40 db 或者 30 db),分别 计算本文提出的 HR⁃FCM 算法、传统 FCM 聚类算法 和 GIFP⁃FCM 算法的聚类性能。 表 1 数据集信息 Table 1 Description of data sets 数据集 样本数 特征数 类别数 breast 683 10 2 wdbc 569 30 2 vowel 528 10 10 sonar 208 60 2 wine 178 13 3 vehicle 846 18 4 led 3 200 24 10 waveform 5 000 21 3 3.2 评价方法 为了评估算法的聚类效果,本文采用了一些标 准的评价方法,包括归一化互信息(NMI) [17] 和芮氏 指数(RI) [18-19] ,这些将用来评价 HR⁃FCM 算法与 FCM 的聚类效果。 NMI(X,Y) = I(X,Y) H(X)·H(Y) (20) RI(X,Y) = a + b n × (n - 1) / 2 (21) 式中:X 定义了已知标签的原始数据,Y 定义了对未 知标签的原始数据的聚类结果,I(X,Y)定义了 X 和 Y 之间的互信息,H(X)和 H(Y)分别代表了 X 和 Y 的熵,a 定义了 X 和 Y 中任意两个具有相同类标签 并且属于同一个样本的数目,b 定义了 X 和 Y 中任 意两个具有不同标签并且属于不同类的样本的个 数,n 表示原始样本的个数。 显而易见,NMI 和 RI 的值都是介于 0~1 的,NMI 和 RI 的值越大,表示 X 和 Y 之间的相似度就越高,即算法的效果越好。 3.3 实验结果和分析 在第 1 部分的实验中,为了检测算法的聚类性 能,设置 HR⁃FCM 算法中的抗噪参数 α = 0,比较使 用了混合距离的 HR⁃FCM 算法与使用欧氏距离的 FCM 算法和其他常用的基于欧氏距离的聚类算法, 检测混合距离对聚类性能的影响。 选取上述 7 个数 据集作为本次实验的实验数据集,每组数据集运行 20 次,实验结果选取 RI 和 NMI 值的均值,实验结果 如图 1 和图 2 所示。 第 1 部分的实验结果表明:对于小数据集,HR⁃ FCM 算法的聚类性能不仅比传统的基于欧氏距离 的 FCM 聚类算法要好,也比基于欧氏距离的 K⁃ mean 和 K⁃medoids 的聚类算法性能好。 对于大样 本数据集,由于样本数对于 FCM 聚类算法的影响比 K⁃means 和 K⁃medoids 的大,此时,距离度量对于聚 类性能的影响力下降,因此,K⁃means 和 K⁃medoids 算法的聚类性能较佳,但是与传统的 FCM 聚类算法 相比,本文提出的基于混合聚类的 HR⁃FCM 算法具 有较好的聚类性能,如 waveform 数据集。 从表 2 的实验中还可以得到,对于高维的数据 集,4 种算法聚类性能都有一定的下降。 由于数据 维度的增加,单个样本的信息增加,在这些信息中 存在着不同类型的信息,本文提出的混合距离度量 函数相比传统的欧氏距离能够充分地度量出样本 之间的距离,学习出样本之间的有效信息,提高算 法的聚类性能。 对于数据集 wdbc 和 sonar,表 2 的 实验结果显示了混合距离的有效性。 表 2 聚类算法性能 Table 2 The performance of clustering algorithm 算法 breast wdbc sonar vehicle waveform RI NMI RI NMI RI NMI RI NMI RI NMI HR⁃FCM 0.886 9 0.672 0 0.851 1 0.594 2 0.508 8 0.017 1 0.661 6 0.170 9 0.664 4 0.349 0 FCM 0.519 9 0.004 5 0.750 4 0.467 2 0.503 6 0.009 1 0.650 6 0.180 2 0.660 0 0.320 9 K⁃means 0.520 6 0.004 7 0.750 4 0.467 2 0.503 2 0.643 0 0.652 3 0.186 8 0.667 3 0.362 2 K⁃medoids 0.520 6 0.004 7 0.770 7 0.499 9 0.502 2 0.007 1 0.650 9 0.186 6 0.670 1 0.368 1 ·454· 智 能 系 统 学 报 第 12 卷
第4期 卞则康,等:基于混合距离学习的鲁棒的模糊C均值聚类算法 ·455. 为了检测算法在多类样本数据集中的聚类性 1.0 HR-FCM 能,实验中也使用了多类样本数据集vowel。由于多 0.9 K-means 0.8 类样本中,随着类别的增加,对于样本之间的距离 0.7 FCM 度量的难度增加,因此算法的聚类性能受到一定的 0.6 K-medoids 0.5 影响,如图1和图2中,对于少类别数据集wine,各 0.4 个算法的I和NMI值较高,对于多类别数据集 0.3 vowel,各个算法的指标出现较大幅度的下降。图1 0.2 0.1 和图2的实验结果也表明,对于多样本数据集,本文 10 15 20 25 提出的HR-FCM算法的聚类性能与其他3种算法 实验次数 的聚类性能都出现了一定的下降,但是本文提出的 (b)wine 算法较之其他3种算法的稳定性较高。 图2各数据集的NMⅡ值 1.1 Fig.2 The NMI on the different data sets 1.0 在第2部分的实验中,为了检测本文算法的鲁 0.9 HR-FCM K-means 棒性能,设置了在两个多类别样本数据集上的对比 **+++*+中*+*+K-medoids 0.8 FCM 实验,这两个数据集分别是小样本量的低维数据集 vowel和大样本量的高维数据集led。本次实验主要 0.7 是为了检测HR-FCM算法与传统的FCM算法和 0.6 GIFP-FCM算法在聚类性能和鲁棒性能上面的差 0.5 0 1015 20 25 别,因此本次实验,比较了3种算法在不同模糊指数 实验次数 的情况下的聚类性能,通过改变噪声的添加比例, (a)vowel 比较算法的鲁棒性能。为了进一步检测HR-FCM 算法受抗噪参数的影响,本次实验设置不同的参数 HR-FCM 取值,通过比较聚类指标的变化显示算法的鲁棒性 1.0 FCM 的变化。 0.9 K-means K-medoids 从表3和表4的结果中容易看出在相同的模糊 08 指数的情况下,HR-FCM算法的聚类性能和鲁棒性 0.7 大多强于传统的CM算法。在模糊指数一定的情 0.6 况下,随着抗噪参数α的增加,HR-FCM算法的鲁棒 0.5 性越来越强。在加入噪声后,算法的聚类性能收到 10 15 20 25 实验次数 了一定的影响,算法的聚类性能下降,FCM聚类算 (b)wine 法的聚类性能下降较多。从表4的实验结果中容易 图1各数据集的RI值 看出,在实验数据集为大数据集的情况下,本文提 Fig.1 The RI on the different data sets 出的HR-FCM算法的聚类性能和鲁棒性强于传统 0.8- 的FCM算法。由表3和表4的结果也可以看出本 0.7 文提出的HR-FCM算法的聚类结果要优于GIFP 0.6 FCM算法。由于本文使用混合距离代替传统的欧 0.5 HR-FCM K-medoids 氏距离,因此本文的HR-F℃M算法的鲁棒性能强于 0.4 K-medios GIFP-FCM算法。 0.3 综上所述,对于含有辅助信息的数据集,本文 0.2 A,一FCM 提出的HR-FCM算法由于采用混合距离,使得算法 0.1 具有较好的适应性,比传统的使用欧氏距离作为距 1015 2025 实验次数 离度量的FCM算法和GIFP-FCM算法具有更好的 (a)vowel 聚类性能和鲁棒性
为了检测算法在多类样本数据集中的聚类性 能,实验中也使用了多类样本数据集 vowel。 由于多 类样本中,随着类别的增加,对于样本之间的距离 度量的难度增加,因此算法的聚类性能受到一定的 影响,如图 1 和图 2 中,对于少类别数据集 wine,各 个算法的 RI 和 NMI 值较高,对于多类别数据集 vowel,各个算法的指标出现较大幅度的下降。 图 1 和图 2 的实验结果也表明,对于多样本数据集,本文 提出的 HR⁃FCM 算法的聚类性能与其他 3 种算法 的聚类性能都出现了一定的下降,但是本文提出的 算法较之其他 3 种算法的稳定性较高。 (a) vowel (b) wine 图 1 各数据集的 RI 值 Fig.1 The RI on the different data sets (a) vowel (b) wine 图 2 各数据集的 NMI 值 Fig.2 The NMI on the different data sets 在第 2 部分的实验中,为了检测本文算法的鲁 棒性能,设置了在两个多类别样本数据集上的对比 实验,这两个数据集分别是小样本量的低维数据集 vowel 和大样本量的高维数据集 led。 本次实验主要 是为了检测 HR⁃FCM 算法与传统的 FCM 算法和 GIFP⁃FCM 算法在聚类性能和鲁棒性能上面的差 别,因此本次实验,比较了 3 种算法在不同模糊指数 的情况下的聚类性能,通过改变噪声的添加比例, 比较算法的鲁棒性能。 为了进一步检测 HR⁃FCM 算法受抗噪参数的影响,本次实验设置不同的参数 取值,通过比较聚类指标的变化显示算法的鲁棒性 的变化。 从表 3 和表 4 的结果中容易看出在相同的模糊 指数的情况下,HR⁃FCM 算法的聚类性能和鲁棒性 大多强于传统的 FCM 算法。 在模糊指数一定的情 况下,随着抗噪参数 α 的增加,HR⁃FCM 算法的鲁棒 性越来越强。 在加入噪声后,算法的聚类性能收到 了一定的影响,算法的聚类性能下降,FCM 聚类算 法的聚类性能下降较多。 从表 4 的实验结果中容易 看出,在实验数据集为大数据集的情况下,本文提 出的 HR⁃FCM 算法的聚类性能和鲁棒性强于传统 的 FCM 算法。 由表 3 和表 4 的结果也可以看出本 文提出的 HR⁃FCM 算法的聚类结果要优于 GIFP⁃ FCM 算法。 由于本文使用混合距离代替传统的欧 氏距离,因此本文的 HR⁃FCM 算法的鲁棒性能强于 GIFP⁃FCM 算法。 综上所述,对于含有辅助信息的数据集,本文 提出的 HR⁃FCM 算法由于采用混合距离,使得算法 具有较好的适应性,比传统的使用欧氏距离作为距 离度量的 FCM 算法和 GIFP⁃FCM 算法具有更好的 聚类性能和鲁棒性。 第 4 期 卞则康,等:基于混合距离学习的鲁棒的模糊 C 均值聚类算法 ·455·
456 智能系统学报 第12卷 表3噪声实验结果 Table 3 The results on the data sets with or without random noises 原始数据 加入10%的随机噪声 加入20%的随机噪声 数据集vowel(SNR=40dB) RI NMI RI NMI RI NMI FCM 0.8685 0.4437 0.8687 0.4428 0.8661 0.4276 a=0.5 0.8624 0.4294 0.8612 0.4211 0.8612 0.4085 c=0.7 0.8648 0.4384 0.8624 0.4128 0.8608 0.4121 HR-FCM a=0.9 0.8632 0.4234 0.8603 0.4128 0.8609 0.4114 m=1.5 a=0.99 0.8633 0.4243 0.8595 0.4157 0.8592 0.4115 a=0.5 0.8537 0.3898 0.8577 0.3940 0.8573 0.3941 a=0.7 0.8578 0.3961 0.8584 0.3992 0.8600 0.3967 GIFP-FCM a=0.9 0.8541 0.3912 0.8578 0.3956 0.8613 0.3947 a=0.99 0.8479 0.3462 0.8638 0.4185 0.8588 0.3763 FCM 0.7369 0.3049 0.7270 0.2865 0.7226 0.2920 a=0.5 0.8579 0.4104 0.8558 0.3993 0.8564 0.3998 a=0.7 0.8589 0.4182 0.8587 0.4145 0.8601 0.4090 HR-FCM a=0.9 0.8619 0.4304 0.8620 0.4209 0.8613 0.4165 m=2 x=0.99 0.8614 0.4283 0.8610 0.4133 0.8609 0.4177 a=0.5 0.8557 0.3809 0.8588 0.3891 0.8603 0.3819 a=0.7 0.8559 0.3997 0.8542 0.3797 0.8559 0.3983 GIFP-FCM a=0.9 0.8552 0.3778 0.8554 0.3838 0.8559 0.4030 =0.99 0.8610 0.4211 0.8599 0.4000 0.8533 0.3504 FCM 0.7402 0.3046 0.7478 0.3162 0.7278 0.2916 a=0.5 0.8560 0.4011 0.8562 0.3967 0.8530 0.3837 a=0.7 0.8551 0.3937 0.8557 0.3948 0.8529 0.3955 HR-FCM a=0.9 0.8560 0.4117 0.8558 0.4064 0.8539 0.3933 m=3 a=0.99 0.8609 0.4251 0.8587 0.4082 0.8595 0.4176 a=0.5 0.7733 0.2987 0.7754 0.2693 0.7728 0.3005 a=0.7 0.8606 0.3837 0.8549 0.3800 0.8487 0.3539 GIFP-FCM a=0.9 0.8601 0.3999 0.8519 0.3882 0.8588 0.4079 a=0.99 0.8429 0.3480 0.8546 0.3933 0.8595 0.3885 FCM 0.7509 0.3259 0.7576 0.3229 0.7498 0.3095 a=0.5 0.8538 0.3874 0.8550 0.3868 0.8544 0.3842 a=0.7 0.8519 0.3843 0.8527 0.3833 0.8504 0.3702 HR-FCM a=0.9 0.8534 0.4105 0.8498 0.3849 0.8506 0.3919 m=4 a=0.99 0.8553 0.4197 0.8529 0.4169 0.8555 0.4142 a=0.5 0.7379 0.1847 0.7667 0.2450 0.7775 0.2371 a=0.7 0.8349 0.3598 0.8498 0.3889 0.8348 0.3585 GIFP-FCM a=0.9 0.8544 0.3815 0.8567 0.3780 0.8540 0.3651 a=0.99 0.8422 0.3821 0.8511 0.3634 0.8498 0.3482
表 3 噪声实验结果 Table 3 The results on the data sets with or without random noises 数据集 vowel(SNR= 40 dB) 原始数据 加入 10%的随机噪声 加入 20%的随机噪声 RI NMI RI NMI RI NMI m= 1.5 FCM 0.868 5 0.443 7 0.868 7 0.442 8 0.866 1 0.427 6 HR⁃FCM α= 0.5 0.862 4 0.429 4 0.861 2 0.421 1 0.861 2 0.408 5 α= 0.7 0.864 8 0.438 4 0.862 4 0.412 8 0.860 8 0.412 1 α= 0.9 0.863 2 0.423 4 0.860 3 0.412 8 0.860 9 0.411 4 α= 0.99 0.863 3 0.424 3 0.859 5 0.415 7 0.859 2 0.411 5 GIFP⁃FCM α= 0.5 0.853 7 0.389 8 0.857 7 0.394 0 0.857 3 0.394 1 α= 0.7 0.857 8 0.396 1 0.858 4 0.399 2 0.860 0 0.396 7 α= 0.9 0.854 1 0.391 2 0.857 8 0.395 6 0.861 3 0.394 7 α= 0.99 0.847 9 0.346 2 0.863 8 0.418 5 0.858 8 0.376 3 m= 2 FCM 0.736 9 0.304 9 0.727 0 0.286 5 0.722 6 0.292 0 HR⁃FCM α= 0.5 0.857 9 0.410 4 0.855 8 0.399 3 0.856 4 0.399 8 α= 0.7 0.858 9 0.418 2 0.858 7 0.414 5 0.860 1 0.409 0 α= 0.9 0.861 9 0.430 4 0.862 0 0.420 9 0.861 3 0.416 5 α= 0.99 0.861 4 0.428 3 0.861 0 0.413 3 0.860 9 0.417 7 GIFP⁃FCM α= 0.5 0.855 7 0.380 9 0.858 8 0.389 1 0.860 3 0.381 9 α= 0.7 0.855 9 0.399 7 0.854 2 0.379 7 0.855 9 0.398 3 α= 0.9 0.855 2 0.377 8 0.855 4 0.383 8 0.855 9 0.403 0 α= 0.99 0.861 0 0.421 1 0.859 9 0.400 0 0.853 3 0.350 4 m= 3 FCM 0.740 2 0.304 6 0.747 8 0.316 2 0.727 8 0.291 6 HR⁃FCM α= 0.5 0.856 0 0.401 1 0.856 2 0.396 7 0.853 0 0.383 7 α= 0.7 0.855 1 0.393 7 0.855 7 0.394 8 0.852 9 0.395 5 α= 0.9 0.856 0 0.411 7 0.855 8 0.406 4 0.853 9 0.393 3 α= 0.99 0.860 9 0.425 1 0.858 7 0.408 2 0.859 5 0.417 6 GIFP⁃FCM α= 0.5 0.773 3 0.298 7 0.775 4 0.269 3 0.772 8 0.300 5 α= 0.7 0.860 6 0.383 7 0.854 9 0.380 0 0.848 7 0.353 9 α= 0.9 0.860 1 0.399 9 0.851 9 0.388 2 0.858 8 0.407 9 α= 0.99 0.842 9 0.348 0 0.854 6 0.393 3 0.859 5 0.388 5 m= 4 FCM 0.750 9 0.325 9 0.757 6 0.322 9 0.749 8 0.309 5 HR⁃FCM α= 0.5 0.853 8 0.387 4 0.855 0 0.386 8 0.854 4 0.384 2 α= 0.7 0.851 9 0.384 3 0.852 7 0.383 3 0.850 4 0.370 2 α= 0.9 0.853 4 0.410 5 0.849 8 0.384 9 0.850 6 0.391 9 α= 0.99 0.855 3 0.419 7 0.852 9 0.416 9 0.855 5 0.414 2 GIFP⁃FCM α= 0.5 0.737 9 0.184 7 0.766 7 0.245 0 0.777 5 0.237 1 α= 0.7 0.834 9 0.359 8 0.849 8 0.388 9 0.834 8 0.358 5 α= 0.9 0.854 4 0.381 5 0.856 7 0.378 0 0.854 0 0.365 1 α= 0.99 0.842 2 0.382 1 0.851 1 0.363 4 0.849 8 0.348 2 ·456· 智 能 系 统 学 报 第 12 卷
第4期 卞则康,等:基于混合距离学习的鲁棒的模糊C均值聚类算法 .457. 表4噪声实验结果 Table 4 The results on the data sets with or without random noises 原始数据 加入10%的随机噪声 加入20%的随机噪声 数据集led(SNR=30dB) RI NMI RI NMI RI NMI FCM 0.6624 0.2629 0.6562 0.2656 0.6560 0.2653 a=0.5 0.8542 0.4530 0.8529 0.4519 0.8516 0.4528 a=0.7 0.8879 0.4573 0.8887 0.4593 0.8884 0.4588 HR-FCM a=0.9 0.8865 0.4627 0.8864 0.4607 0.8877 0.4626 m=1.5 a=0.99 0.8850 0.4568 0.8851 0.4574 0.8865 0.4604 a=0.5 0.5557 0.2934 0.5557 0.2930 0.5562 0.2932 a=0.7 0.7898 0.3543 0.7946 0.3549 0.8051 0.3637 GIFP-FCM a=0.9 0.8754 0.4021 0.8735 0.3998 0.8761 0.4066 a=0.99 0.8794 0.4061 0.8753 0.4114 0.8757 0.4148 FCM 0.7182 0.2429 0.7035 0.2552 0.6973 0.2507 a=0.5 0.6308 0.2947 0.6294 0.2997 0.6154 0.2929 a=0.7 0.8472 0.4502 0.8454 0.4511 0.8454 0.4508 HR-FCM a=0.9 0.8854 0.4499 0.8843 0.4484 0.8867 0.4544 m=2 x=0.99 0.8876 0.4643 0.8861 0.4619 0.8869 0.4641 a=0.5 0.5733 0.2909 0.6051 0.2765 0.5745 0.2880 a=0.7 0.5772 0.2921 0.5817 0.2910 0.5729 0.2881 GIFP-FCM a=0.9 0.8773 0.4159 0.8764 0.4123 0.8770 0.4157 =0.99 0.8768 0.4127 0.8791 0.4196 0.8783 0.4296 FCM 0.7462 0.2374 0.7448 0.2338 0.7355 0.2440 a=0.5 0.6456 0.2835 0.6453 0.2849 0.6496 0.2786 a=0.7 0.6749 0.3416 0.6742 0.3399 0.6761 0.3395 HR-FCM a=0.9 0.8890 0.4608 0.8892 0.4618 0.8886 0.4590 m=3 c=0.99 0.8857 0.4524 0.8843 0.4504 0.8858 0.4533 a=0.5 0.6375 0.2719 0.6766 0.2497 0.5988 0.2862 a=0.7 0.5595 0.2923 0.5649 0.2888 0.5578 0.2929 GIFP-FCM a=0.9 0.8564 0.4739 0.8543 0.4351 0.8571 0.4745 a=0.99 0.8758 0.4069 0.8745 0.3996 0.8742 0.4028 FCM 0.7771 0.2257 0.7737 0.2202 0.7661 0.2278 a=0.5 0.6799 0.2847 0.6398 0.2772 0.6740 0.2760 a=0.7 0.6399 0.3257 0.6398 0.3244 0.6403 0.3267 HR-FCM a=0.9 0.8725 0.4644 0.8748 0.4683 0.8730 0.4636 m=4 a=0.99 0.8826 0.4484 0.8839 0.4491 0.8830 0.4432 a=0.5 0.6945 0.2600 0.7173 0.2386 0.7650 0.2260 a=0.7 0.5635 0.2917 0.5763 0.2874 0.6468 0.2635 GIFP-FCM a=0.9 0.8065 0.4090 0.8246 0.4293 0.8154 0.4196 a=0.99 0.8741 0.3984 0.8759 0.4064 0.8737 0.3954
表 4 噪声实验结果 Table 4 The results on the data sets with or without random noises 数据集 led(SNR= 30 dB) 原始数据 加入 10%的随机噪声 加入 20%的随机噪声 RI NMI RI NMI RI NMI m= 1.5 FCM 0.662 4 0.262 9 0.656 2 0.265 6 0.656 0 0.265 3 HR⁃FCM α= 0.5 0.854 2 0.453 0 0.852 9 0.451 9 0.851 6 0.452 8 α= 0.7 0.887 9 0.457 3 0.888 7 0.459 3 0.888 4 0.458 8 α= 0.9 0.886 5 0.462 7 0.886 4 0.460 7 0.887 7 0.462 6 α= 0.99 0.885 0 0.456 8 0.885 1 0.457 4 0.886 5 0.460 4 GIFP⁃FCM α= 0.5 0.555 7 0.293 4 0.555 7 0.293 0 0.556 2 0.293 2 α= 0.7 0.789 8 0.354 3 0.794 6 0.354 9 0.805 1 0.363 7 α= 0.9 0.875 4 0.402 1 0.873 5 0.399 8 0.876 1 0.406 6 α= 0.99 0.879 4 0.406 1 0.875 3 0.411 4 0.875 7 0.414 8 m= 2 FCM 0.718 2 0.242 9 0.703 5 0.255 2 0.697 3 0.250 7 HR⁃FCM α= 0.5 0.630 8 0.294 7 0.629 4 0.299 7 0.615 4 0.292 9 α= 0.7 0.847 2 0.450 2 0.845 4 0.451 1 0.845 4 0.450 8 α= 0.9 0.885 4 0.449 9 0.884 3 0.448 4 0.886 7 0.454 4 α= 0.99 0.887 6 0.464 3 0.886 1 0.461 9 0.886 9 0.464 1 GIFP⁃FCM α= 0.5 0.573 3 0.290 9 0.605 1 0.276 5 0.574 5 0.288 0 α= 0.7 0.577 2 0.292 1 0.581 7 0.291 0 0.572 9 0.288 1 α= 0.9 0.877 3 0.415 9 0.876 4 0.412 3 0.877 0 0.415 7 α= 0.99 0.876 8 0.412 7 0.879 1 0.419 6 0.878 3 0.429 6 m= 3 FCM 0.746 2 0.237 4 0.744 8 0.233 8 0.735 5 0.244 0 HR⁃FCM α= 0.5 0.645 6 0.283 5 0.645 3 0.284 9 0.649 6 0.278 6 α= 0.7 0.674 9 0.341 6 0.674 2 0.339 9 0.676 1 0.339 5 α= 0.9 0.889 0 0.460 8 0.889 2 0.461 8 0.888 6 0.459 0 α= 0.99 0.885 7 0.452 4 0.884 3 0.450 4 0.885 8 0.453 3 GIFP⁃FCM α= 0.5 0.637 5 0.271 9 0.676 6 0.249 7 0.598 8 0.286 2 α= 0.7 0.559 5 0.292 3 0.564 9 0.288 8 0.557 8 0.292 9 α= 0.9 0.856 4 0.473 9 0.854 3 0.435 1 0.857 1 0.474 5 α= 0.99 0.875 8 0.406 9 0.874 5 0.399 6 0.874 2 0.402 8 m= 4 FCM 0.777 1 0.225 7 0.773 7 0.220 2 0.766 1 0.227 8 HR⁃FCM α= 0.5 0.679 9 0.284 7 0.639 8 0.277 2 0.674 0 0.276 0 α= 0.7 0.639 9 0.325 7 0.639 8 0.324 4 0.640 3 0.326 7 α= 0.9 0.872 5 0.464 4 0.874 8 0.468 3 0.873 0 0.463 6 α= 0.99 0.882 6 0.448 4 0.883 9 0.449 1 0.883 0 0.443 2 GIFP⁃FCM α= 0.5 0.694 5 0.260 0 0.717 3 0.238 6 0.765 0 0.226 0 α= 0.7 0.563 5 0.291 7 0.576 3 0.287 4 0.646 8 0.263 5 α= 0.9 0.806 5 0.409 0 0.824 6 0.429 3 0.815 4 0.419 6 α= 0.99 0.874 1 0.398 4 0.875 9 0.406 4 0.873 7 0.395 4 第 4 期 卞则康,等:基于混合距离学习的鲁棒的模糊 C 均值聚类算法 ·457·
·458 智能系统学报 第12卷 [11]曾令伟,伍振兴,杜文才.基于改进自监督学习群体智能 4 结束语 (ILC的高性能聚类算法[J].重庆邮电大学学报:自 在聚类的实际应用中,大多数数据集都含有一 然科学版,2016,28(1):131-137. 定量的辅助信息,这些辅助信息中含有重要的数据 ZENG Lingwei,WU Zhenxing,DU Wencai.Improved self 特征,但是这些辅助信息在聚类过程中常常被忽 supervised learning collection intelligence based high performance data clustering approach [J].Journal of 略。本文提出了一种利用数据集的辅助信息进行 Chongqing university of posts and telecommunications: 距离学习的方法,进而提出了一种改进的CM算法 natural science edition,2016,28(1):131-137. HR-FCM。用数据集的辅助信息进行距离学习得到 [12]程肠,王士同.基于局部保留投影的多可选聚类发掘算 的混合函数,不仅能够反映出数据集本身的特征, 法[J]智能系统学报,2016,11(5):600-607. 而且比欧式距离更加契合数据集,更加适合于实际 CHENG Yang,WANG Shitong.A multiple alternative 应用。在含有辅助信息的数据集中,本文提出的 clusterings mining algorithm using locality preserving HR-FCM算法具有较好的聚类性能和鲁棒性。实验 projections[].CAAI transactions on intelligent systems, 结果证明了结论。 2016,11(5):600-607. [13 DUDA R O,HART P E,STORK D G.Pattern 参考文献: classification[M]//Pattern classification.Wiley,2001: 119-131. [1]王骏,王士同.基于混合距离学习的双指数模糊C均值 [14]MEI J P,CHEN L.Fuzzy clustering with weighted medoids 算法[J].软件学报,2010,21(8):1878-1888. for relational data[].Pattern recognition,2010,43(5): WANG Jun,WANG Shitong.Double indices FCM algorithm 1964-1974. based on hybrid distance metric learning[J].Journal of [15]HOPPNER F,KLAWONN F.Improved fuzzy partitions for software,.2010,21(8):1878-1888. fuzzy regression models J].International journal of [2]WU L,HOI S C H,JIN R,et al.Learning bregman approximate reasoning,2003,32(2/3):85-102. distance functions for semi-supervised clustering[J].IEEE [16]ZHU L,CHUNG F L,WANG S.Generalized fuzzy C-means transactions on knowledge and data engineering,2012,24 clustering algorithm with improved fuzzy partitions[.IEEE (3):478-491. transactions on systems man and cybernetics part B,2009,39 [3 WU K L,YANG M S.Alternative c-means clustering (3):578-591. algorithms J ]Pattern recognition,2002.35(10): [17]STREHL A,GHOSH J.Cluster ensembles-a knowledge reuse 2267-2278. framework for combining multiple partitions[].Journal of [4]XING E P,NG A Y,JORDAN M I,et al.Distance metric machine leaming research,2002,3(3):583-617. learning,with application to clustering with side- [18]IWAYAMA M,TOKUNAGA T.Hierarchical Bayesian information[J].Advances in neural information processing clustering for automatic text classification J].IJCAI, 8 ystems,2003,15:505-512. 1996:1322-1327. [5]BAR-Hillel A,HERTZ T,SHENTAL N,et al.Learning a [19]RAND W M.Objective criteria for the evaluation of mahalanobis metric from equivalence constraints[].Joumal clustering methods[J].Journal of the american statistical of machine learning research,2005,6(6):937-965. association,1971,66(336):846-850. [6]郭瑛洁,王士同,许小龙.基于最大间隔理论的组合距 作者简介: 离学习算法[J].智能系统学报,2015,10(6): 卞则康,男,1993年生,硕士研究 843-850. 生,主要研究方向为人工智能和模式 [7]YE J,ZHAO Z,LIU H.Adaptive distance metric learning 识别。 for clustering[C]//IEEE Conference on Computer Vision and Pattern Recognition.Minneapolis,USA,2007:1-7. [8]WANG X,WANG Y,WANG L.Improving fuzzy c-means clustering based on feature-weight learning [J].Pattern recognition letters,2004,25(10):1123-1132. 王土同,男,1964年生,教授,博士生 [9]HE P,XU X,HU K,et al.Semi-supervised clustering via 导师,主要研究方向为人工智能与模式识 multi-level random walk[J].Pattern recognition,2014,47 别。发表学术论文近百篇,其中被SCI,E (2):820-832. 检索50余篇。 [10]HOI S C H,LIU W,LYU M R,et al.Learning distance metrics with contextual constraints for image retrieval [C]//IEEE Conference on Computer Vision and Pattern Recognition.New York,USA,2006:2072-2078
4 结束语 在聚类的实际应用中,大多数数据集都含有一 定量的辅助信息,这些辅助信息中含有重要的数据 特征,但是这些辅助信息在聚类过程中常常被忽 略。 本文提出了一种利用数据集的辅助信息进行 距离学习的方法,进而提出了一种改进的 FCM 算法 HR⁃FCM。 用数据集的辅助信息进行距离学习得到 的混合函数,不仅能够反映出数据集本身的特征, 而且比欧式距离更加契合数据集,更加适合于实际 应用。 在含有辅助信息的数据集中,本文提出的 HR⁃FCM 算法具有较好的聚类性能和鲁棒性。 实验 结果证明了结论。 参考文献: [1]王骏, 王士同. 基于混合距离学习的双指数模糊 C 均值 算法[J]. 软件学报, 2010, 21(8): 1878-1888. WANG Jun, WANG Shitong. Double indices FCM algorithm based on hybrid distance metric learning [ J ]. Journal of software, 2010, 21(8): 1878-1888. [2] WU L, HOI S C H, JIN R, et al. Learning bregman distance functions for semi⁃supervised clustering[ J]. IEEE transactions on knowledge and data engineering, 2012, 24 (3): 478-491. [ 3 ] WU K L, YANG M S. Alternative c⁃means clustering algorithms [ J ]. Pattern recognition, 2002, 35 ( 10 ): 2267-2278. [4]XING E P, NG A Y, JORDAN M I, et al. Distance metric learning, with application to clustering with side⁃ information[ J]. Advances in neural information processing systems, 2003, 15: 505-512. [5] BAR⁃Hillel A, HERTZ T, SHENTAL N, et al. Learning a mahalanobis metric from equivalence constraints[J]. Journal of machine learning research, 2005, 6(6): 937-965. [6]郭瑛洁, 王士同, 许小龙. 基于最大间隔理论的组合距 离学 习 算 法 [ J ]. 智 能 系 统 学 报, 2015, 10 ( 6 ): 843-850. [7]YE J, ZHAO Z, LIU H. Adaptive distance metric learning for clustering[ C] / / IEEE Conference on Computer Vision and Pattern Recognition. Minneapolis, USA, 2007: 1-7. [8] WANG X, WANG Y, WANG L. Improving fuzzy c⁃means clustering based on feature⁃weight learning [ J ]. Pattern recognition letters, 2004, 25(10): 1123-1132. [9]HE P, XU X, HU K, et al. Semi⁃supervised clustering via multi⁃level random walk[J]. Pattern recognition, 2014, 47 (2): 820-832. [10]HOI S C H, LIU W, LYU M R, et al. Learning distance metrics with contextual constraints for image retrieval [C] / / IEEE Conference on Computer Vision and Pattern Recognition. New York, USA, 2006: 2072-2078. [11]曾令伟,伍振兴,杜文才.基于改进自监督学习群体智能 (ISLCI)的高性能聚类算法[J].重庆邮电大学学报: 自 然科学版, 2016, 28(1): 131-137. ZENG Lingwei, WU Zhenxing, DU Wencai. Improved self supervised learning collection intelligence based high performance data clustering approach [ J ]. Journal of Chongqing university of posts and telecommunications: natural science edition,2016, 28(1): 131-137. [12]程旸,王士同. 基于局部保留投影的多可选聚类发掘算 法[J].智能系统学报, 2016, 11(5): 600-607. CHENG Yang, WANG Shitong. A multiple alternative clusterings mining algorithm using locality preserving projections[ J]. CAAI transactions on intelligent systems, 2016, 11(5): 600-607. [ 13 ] DUDA R O, HART P E, STORK D G. Pattern classification[M] / / Pattern classification. Wiley, 2001: 119-131. [14]MEI J P, CHEN L. Fuzzy clustering with weighted medoids for relational data[J]. Pattern recognition, 2010, 43(5): 1964-1974. [15]HOPPNER F, KLAWONN F. Improved fuzzy partitions for fuzzy regression models [ J ]. International journal of approximate reasoning, 2003, 32(2 / 3): 85-102. [16]ZHU L, CHUNG F L, WANG S. Generalized fuzzy C⁃means clustering algorithm with improved fuzzy partitions[J]. IEEE transactions on systems man and cybernetics part B, 2009, 39 (3): 578-591. [17]STREHL A, GHOSH J. Cluster ensembles⁃a knowledge reuse framework for combining multiple partitions [ J]. Journal of machine learning research, 2002, 3(3): 583-617. [18 ] IWAYAMA M, TOKUNAGA T. Hierarchical Bayesian clustering for automatic text classification [ J ]. IJCAI, 1996: 1322-1327. [19 ] RAND W M. Objective criteria for the evaluation of clustering methods[ J]. Journal of the american statistical association, 1971, 66(336): 846-850. 作者简介: 卞则康,男,1993 年生,硕士研究 生,主要研究方向为人工智能和模式 识别。 王士同,男,1964 年生,教授,博士生 导师,主要研究方向为人工智能与模式识 别。 发表学术论文近百篇,其中被 SCI、EI 检索 50 余篇。 ·458· 智 能 系 统 学 报 第 12 卷