第13卷第4期 智能系统学报 Vol.13 No.4 2018年8月 CAAI Transactions on Intelligent Systems Aug.2018 D0:10.11992/tis.201703047 网络出版地址:http:/kns.cnki.net/kcms/detail/23.1538.TP.20170702.1548.038.html 多层递阶融合模糊特征映射的模糊C均值聚类算法 鲍国强2,应文豪3,蒋亦樟2,张英2,王骏2,王士同2 ((1.江南大学数字媒体学院,江苏无锡214122:2.江苏省蝶体设计与软件技术重点实验室,江苏无锡214122: 3.常熟理工学院计算机科学与工程学院,江苏常熟215500) 摘要:针对复杂非线性数据的无监督学习问题,提出一种新型的映射方式来有效提高算法对复杂非线性数据 的学习能力。以T$K模糊系统的规则前件学习为基础,提出一种新型的模糊特征映射新方法。接着,针对映 射之后的数据维度过大问题,引入多层递阶融合的概念,进一步提出基于多层递阶融合的模糊特征映射新方 法,从而有效避免了因单层模糊特征映射之后特征维数过高而导致的数据混乱和冗余的问题。最后与模糊 C均值算法相结合,提出基于多层递阶融合模糊特征映射的模糊C均值聚类算法。实验研究表明,文中算法相 比于经典模糊聚类方法,有着更加优越、稳定的性能。 关键词:Takagi--Sugeno-Kang(TSK)模糊系统;主成分分析(PCA):无监督学习:模糊C均值聚类 中图分类号:TP181文献标志码:A文章编号:1673-4785(2018)04-0594-08 中文引用格式:鲍国强,应文豪,蒋亦樟,等.多层递阶融合模糊特征映射的模糊C均值聚类算法引.智能系统学报,2018, 13(4):594-601. 英文引用格式:BAO Guoqiang,YING Wenhao,JIANG Yizhang,ctal.Fuzzy C-means clustering algorithm for multilayered hier- archical fusion fuzzy feature mapping[J].CAAI transactions on intelligent systems,2018,13(4):594-601. Fuzzy C-means clustering algorithm for multilayered hierarchical fusion fuzzy feature mapping BAO Guoqiang,YING Wenhao,JIANG Yizhang2,ZHANG Ying2,WANG Jun2, WANG Shitong'2 (1.School of Digital Media,Jiangnan University,Wuxi 214122,China;2.Jiangsu Key Laboratory of Media Design and Software Technology,Wuxi214122,China;3.School of Computer Science and Engineering,Changshu Institute of Technology,Changshu 215500,China) Abstract:In this paper,we propose a novel feature mapping technique called multilayer hierarchical fusion fuzzy fea- ture mapping for the unsupervised learning of complex nonlinear data and combine it with the classical fuzzy C-means clustering.Based on the regular antecedent learning of the Takagi-Sugeno-Kang(TSK)fuzzy system,we first propose a novel fuzzy feature mapping method.Then,to address big data dimensions by fuzzy feature mapping,we propose a fuzzy feature mapping mechanism based on multilayer hierarchical fusion.This mechanism combines fuzzy feature mapping with principal component analysis(PCA),thereby avoiding the data confusion and redundancy caused by the high dimensionality of single-layer fuzzy feature mapping.Finally,we develop a novel FCM clustering algorithm based on multilayered hierarchical fusion feature mapping.The experimental results show that,in comparison with classical fuzzy clustering methods,the performance of the proposed algorithm is superior and more stable. Keywords:Takagi-Sugeno-Kang(TSK)fuzzy system;principal component analysis(PCA);unsupervised learning; fuzzy C-means clustering 收稿日期:2017-03-30.网络出版日期:2017-07-02. 基金项目:国家自然科学基金项目(61300I5I):江苏省自然科 近年来,面向复杂非线性数据的模糊聚类问 学基金项目(BK20160187.BK20161268,BK20151299): 江苏省产学研前瞻联合研究计划项目(BY2015043-03) 题得到了研究人员的广泛关注向。在无监督学习 通信作者:王骏.E-mail:wangjun_sytu@hotmail.com. 环境中为了提高复杂非线性数据的可分性,一个
DOI: 10.11992/tis.201703047 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20170702.1548.038.html 多层递阶融合模糊特征映射的模糊 C 均值聚类算法 鲍国强1,2,应文豪3 ,蒋亦樟1,2,张英1,2,王骏1,2,王士同1,2 (1. 江南大学 数字媒体学院,江苏 无锡 214122; 2. 江苏省媒体设计与软件技术重点实验室,江苏 无锡 214122; 3. 常熟理工学院 计算机科学与工程学院,江苏 常熟 215500) 摘 要:针对复杂非线性数据的无监督学习问题,提出一种新型的映射方式来有效提高算法对复杂非线性数据 的学习能力。以 TSK 模糊系统的规则前件学习为基础,提出一种新型的模糊特征映射新方法。接着,针对映 射之后的数据维度过大问题,引入多层递阶融合的概念,进一步提出基于多层递阶融合的模糊特征映射新方 法,从而有效避免了因单层模糊特征映射之后特征维数过高而导致的数据混乱和冗余的问题。最后与模糊 C 均值算法相结合,提出基于多层递阶融合模糊特征映射的模糊 C 均值聚类算法。实验研究表明,文中算法相 比于经典模糊聚类方法,有着更加优越、稳定的性能。 关键词:Takagi-Sugeno-Kang (TSK) 模糊系统;主成分分析 (PCA);无监督学习;模糊 C 均值聚类 中图分类号:TP181 文献标志码:A 文章编号:1673−4785(2018)04−0594−08 中文引用格式:鲍国强, 应文豪, 蒋亦樟, 等. 多层递阶融合模糊特征映射的模糊 C 均值聚类算法[J]. 智能系统学报, 2018, 13(4): 594–601. 英文引用格式:BAO Guoqiang, YING Wenhao, JIANG Yizhang, et al. Fuzzy C-means clustering algorithm for multilayered hierarchical fusion fuzzy feature mapping[J]. CAAI transactions on intelligent systems, 2018, 13(4): 594–601. Fuzzy C-means clustering algorithm for multilayered hierarchical fusion fuzzy feature mapping BAO Guoqiang1,2 ,YING Wenhao3 ,JIANG Yizhang1,2 ,ZHANG Ying1,2 ,WANG Jun1,2 , WANG Shitong1,2 (1. School of Digital Media, Jiangnan University, Wuxi 214122, China; 2. Jiangsu Key Laboratory of Media Design and Software Technology, Wuxi 214122, China; 3. School of Computer Science and Engineering, Changshu Institute of Technology, Changshu 215500, China) Abstract: In this paper, we propose a novel feature mapping technique called multilayer hierarchical fusion fuzzy feature mapping for the unsupervised learning of complex nonlinear data and combine it with the classical fuzzy C-means clustering. Based on the regular antecedent learning of the Takagi-Sugeno-Kang (TSK) fuzzy system, we first propose a novel fuzzy feature mapping method. Then, to address big data dimensions by fuzzy feature mapping, we propose a fuzzy feature mapping mechanism based on multilayer hierarchical fusion. This mechanism combines fuzzy feature mapping with principal component analysis (PCA), thereby avoiding the data confusion and redundancy caused by the high dimensionality of single-layer fuzzy feature mapping. Finally, we develop a novel FCM clustering algorithm based on multilayered hierarchical fusion feature mapping. The experimental results show that, in comparison with classical fuzzy clustering methods, the performance of the proposed algorithm is superior and more stable. Keywords: Takagi-Sugeno-Kang (TSK) fuzzy system; principal component analysis (PCA); unsupervised learning; fuzzy C-means clustering 近年来,面向复杂非线性数据的模糊聚类问 题得到了研究人员的广泛关注[1-6]。在无监督学习 环境中为了提高复杂非线性数据的可分性,一个 收稿日期:2017−03−30. 网络出版日期:2017−07−02. 基金项目:国家自然科学基金项目 (61300151);江苏省自然科 学基金项目 (BK20160187,BK20161268,BK20151299); 江苏省产学研前瞻联合研究计划项目 (BY2015043-03). 通信作者:王骏. E-mail:wangjun_sytu@hotmail.com. 第 13 卷第 4 期 智 能 系 统 学 报 Vol.13 No.4 2018 年 8 月 CAAI Transactions on Intelligent Systems Aug. 2018
第4期 鲍国强,等:多层递阶融合模糊特征映射的模糊C均值聚类算法 ·595· 重要的研究思路是使用非线性映射将数据映射到 AcR映射到输出空间的模糊集f(X),其中乘算 高维空间中。在众多非线性映射方法中,核方法 子、加算子分别作为合取和析取操作算子,加法 作为经典的隐性映射方法得到了广泛的应用。 算子作为组合算子时,TSK模糊模型的输出可以 研究表明,核方法通过使用核函数代替内积运 表示为 算,将待分类数据隐性地映射到高维空间,从而 (X) 有助于复杂非线性数据的学习。但是,核方法还 (X)(x) (2) 存在着诸多局限性,尤其是如何针对不同的问题 v-i 选择合适的核函数和相关参数,这都会影响算法 式中:止(X)和(X)分别表示为模糊集A相关的模 的聚类效果。 糊隶属函数和归一化模糊隶属函数。这两个函数 模糊系统因其强大的不确定性系统建模能 的计算公式分别为 力、优良的可解释性和出色的泛化能力,近年来 '(X (3) 在复杂非线性数据学习问题中得到了大量的研 究。在已有的经典模糊系统中,Takagi--Sugeno- 和 Kang(TSK)m模糊系统由于其良好的解释性和 w=tw/k (4) 简洁性得到了广泛应用。在TSK模糊系统中,其 v=1 规则前件部分通过显性映射方式(本文称之为模 通常采用高斯函数作为模糊隶属函数,其计 糊特征映射),将输入数据映射到高维空间中去。 算公式为 从本质上讲,模糊特征映射可以视为一种特殊的 x-c)2 (5) 非线性映射方式。基于此,本文将输入数据进行 a:(x)=exp 26 相应的非线性映射。在具体实现过程中我们发 式中:参数c和可以通过聚类技术或其他划分方 现,经模糊特征映射后的特征维数过高,这会增 法计算得出。通常使用模糊C均值(FCM)聚类 加计算量,同时也导致了数据的冗余。为此,本 算法进行数据集的初始划分,进而计算和d 文通过引入多层递阶融合机制和主成分分析,提 公式为 出新型的基于多层递阶融合的模糊特征映射新方 c= (6) 法。并将之与经典模糊聚类技术相结合,进一步 =1 提出基于多层递阶融合模糊特征映射的模糊 C均值聚类新方法。经实验验证,本文算法在处 =h∑u-c∑ae (7) =1 =1 理复杂非线性数据时能够取得比传统模糊聚类算 式中:u表示通过FCM聚类计算出属于第k类的 法更有效的聚类效果。 第j个输入数据X=[x1x2…xdJ'的模糊隶属 1 Takagi-Sugeno-Kang模糊系统及模 度。在这里,h是高斯函数的核带宽参数。令: 糊特征映射 x.=1x四 (8) Takagi--Sugeno--Kang模糊系统模型u2是最重 t=()X (9) 要的用于建模与智能控制的模糊模型之一。对于 x=)(-() (10) 经典的T$K模糊模型,最常用的模糊推理规则的 P=店… (11) 定义如下: 第k条模糊规则: ,=e'(ey'…(pi (12) F TSK模糊模型的训练问题转化为式(13)线性 x1 is AAx2isA货A…xan is A 回归模型的参数学习问题2: THEN y°=PX (13) f*(x)=+px1+…+pxa,k=1,2,…,K(I) 从式(13)中可以观察到,输入向量经式(8)~ 式中:A表示输入向量X第i维特征所对应的第 (10)计算,可以变换为一个(d+1)*K维的高维向 k条模糊规则的模糊子集;K表示模糊规则数; 量,本文中我们将这一转换过程称为模糊特征映 Λ为模糊合取操作。每条规则都对应输入向量 射。与已有核方法中的隐性映射相比,模糊特征 X=x1x2…x,并且把输人空间的模糊子集 映射具有以下特点:1)它是一种显性映射方式
重要的研究思路是使用非线性映射将数据映射到 高维空间中。在众多非线性映射方法中,核方法 作为经典的隐性映射方法得到了广泛的应用[5-13]。 研究表明,核方法通过使用核函数代替内积运 算,将待分类数据隐性地映射到高维空间,从而 有助于复杂非线性数据的学习。但是,核方法还 存在着诸多局限性,尤其是如何针对不同的问题 选择合适的核函数和相关参数,这都会影响算法 的聚类效果。 模糊系统因其强大的不确定性系统建模能 力、优良的可解释性和出色的泛化能力,近年来 在复杂非线性数据学习问题中得到了大量的研 究。在已有的经典模糊系统中,Takagi-SugenoKang(TSK)[14-17]模糊系统由于其良好的解释性和 简洁性得到了广泛应用。在 TSK 模糊系统中,其 规则前件部分通过显性映射方式 (本文称之为模 糊特征映射),将输入数据映射到高维空间中去。 从本质上讲,模糊特征映射可以视为一种特殊的 非线性映射方式。基于此,本文将输入数据进行 相应的非线性映射。在具体实现过程中我们发 现,经模糊特征映射后的特征维数过高,这会增 加计算量,同时也导致了数据的冗余。为此,本 文通过引入多层递阶融合机制和主成分分析,提 出新型的基于多层递阶融合的模糊特征映射新方 法。并将之与经典模糊聚类技术相结合,进一步 提出基于多层递阶融合模糊特征映射的模糊 C 均值聚类新方法。经实验验证,本文算法在处 理复杂非线性数据时能够取得比传统模糊聚类算 法更有效的聚类效果。 1 Takagi-Sugeno-Kang 模糊系统及模 糊特征映射 Takagi-Sugeno-Kang 模糊系统模型[18-23]是最重 要的用于建模与智能控制的模糊模型之一。对于 经典的 TSK 模糊模型,最常用的模糊推理规则的 定义如下: 第 k 条模糊规则: IF x1 is A k 1 ∧ x2 is A k 2 ∧ ··· xd ∧ is A k d THEN f k (x) = p k 0 + p k 1 x1 +···+ p k d xd, k = 1,2,··· ,K (1) A k i ∧ X = [x1 x2 ··· xd] T 式中: 表示输入向量 X 第 i 维特征所对应的第 k 条模糊规则的模糊子集;K 表示模糊规则数; 为模糊合取操作。每条规则都对应输入向量 ,并且把输入空间的模糊子集 A k ⊂ R d f k 映射到输出空间的模糊集 (X) ,其中乘算 子、加算子分别作为合取和析取操作算子,加法 算子作为组合算子时,TSK 模糊模型的输出可以 表示为 y 0 = ∑K k=1 µ k (X) ∑K k ′=1 µ k ′ (X) f k (X) = ∑K k=1 µ˜ k (X) f k (X) (2) µ k (X) µ˜ k (X) A 式中: 和 分别表示为模糊集 k相关的模 糊隶属函数和归一化模糊隶属函数。这两个函数 的计算公式分别为 µ k (X) = ∏d i=1 µA k i (xi) (3) 和 µ˜ k (X) = µ k (X)/ ∑K k ′=1 µ k ′ (X) (4) 通常采用高斯函数作为模糊隶属函数,其计 算公式为 µA k i (xi) = exp − ( xi − c k i )2 2δ k i (5) c k i δ k i c k i δ k i 式中:参数 和 可以通过聚类技术或其他划分方 法计算得出。通常使用模糊 C 均值 (FCM) 聚类 算法进行数据集的初始划分,进而计算 和 公式为 c k i = ∑N j=1 ujkxji/ ∑N j=1 ujk (6) δ k i = h · ∑N j=1 ujk( xji − c k i )2 / ∑N j=1 ujk (7) ujk Xj = [ xj1 xj2 ··· xjd]T 式中: 表示通过 FCM 聚类计算出属于第 k 类的 第 j 个输入数据 的模糊隶属 度。在这里,h 是高斯函数的核带宽参数。令: Xe = [ 1 X T ]T (8) X˜ k = µ˜ k (X)Xe (9) Xg = [( X˜ 1 )T ( X˜ 2 )T ··· ( X˜ K )T ]T (10) P k = [ p k 0 p k 1 ··· p k d ]T (11) Pg = [( P 1 )T ( P 2 )T ··· ( P K )T ]T (12) TSK 模糊模型的训练问题转化为式 (13) 线性 回归模型的参数学习问题[24] : y 0 = P T g Xg (13) (d +1) ∗K 从式 (13) 中可以观察到,输入向量经式 (8)~ (10) 计算,可以变换为一个 维的高维向 量,本文中我们将这一转换过程称为模糊特征映 射。与已有核方法中的隐性映射相比,模糊特征 映射具有以下特点:1) 它是一种显性映射方式, 第 4 期 鲍国强,等:多层递阶融合模糊特征映射的模糊 C 均值聚类算法 ·595·
·596· 智能系统学报 第13卷 用户可以在高维特征空间中得到数据的显式表示 间中的新表示。但是作为单层映射结构,会因映 方法;2)模糊特征映射基于模糊规则进行构建, 射后的特征维数过高使得数据变得混乱和冗余, 而模糊规则本身具有较强的可解释性;3)输入向 继而影响算法后续的聚类效果。研究表明2s26) 量经模糊特征映射后得到的高维特征向量的维数 将单层映射结构改造为多层映射结构,可以有效 可以由模糊规则数确定,这有利于用户控制高维 地提高算法对复杂非线性数据的学习能力。为 空间中数据的复杂程度。 此,本文引入多层递阶融合的概念来构造新型的 2基于多层递阶融合模糊特征映射 映射,提出基于多层递阶融合的模糊特征映射新 的模糊C均值聚类算法 方法(MLHFFFM)。通过对每层模糊特征映射之 后的高维特征表示进行PCA降维,再进行相应的 2.1 基于多层递阶融合的模糊特征映射新方法 信息补充,形成新的融合层,依次进入下一层的 原数据通过模糊特征映射,得到其在高维空 压缩融合过程,其结构如图1所示。 高维 融合 融合 PCA 压缩模 高维 压缩融 模糊 高组 糊空间 空间 合空间 空间 空间 Xg四 X阳 YSm X恩 模糊 模糊 MLHFFFM第1层 特征 特征 输 高维 高维 映射 输 模糊 映射 MLHFFFM 模构 食 MLHFFFM 空间 第2层融合层 空间 第3层融合层 X四 X 图1 MLHFFFM算法结构图 Fig.1 Structure of MLHFFFM algorithm 基于多层递阶融合的模糊特征映射新方法 2.2 基于多层递阶融合模糊特征映射的模糊 MLHFFFM算法描述如下: C均值聚类算法MLHFFFM-FCM 输入给定一个数据集D={X,乃,设置初始 本节中,将多层递阶融合模糊特征映射与经 模糊规则数K,分层融合层数S。 典模糊聚类算法FCM相结合,提出基于多层递阶 输出经多层递阶融合后的数据矩阵X。 融合模糊特征映射的模糊C均值聚类算法。ML- 1)对原数据进行第一层的模糊特征映射(初 HFFFM-FCM算法描述如下: 始层) 输入给定一个数据集D={X,Y,设置初始 ①通过FCM算法计算出隶属度矩阵u; 模糊规则数K,分层融合层数S。 ②经式(6)和式(7)分别计算出对应的和 1)通过基于多层递阶融合的模糊特征映射, (=1,2,…,d,j户1,2,,n,k=1,2,,K) 将输入数据X转化为X。 ③通过高斯隶属度函数(5)和式(3)的计算 2)对最终压缩融合获得的数据矩阵X,采 得到(X)(=1,2,…,K): 用FCM算法聚类。 ④再经过式(8)~(10)的转化,得到映射后高 输出模糊划分矩阵U。 维空间中的数据矩阵XeR+K。 2)多层递阶融合 3实验研究与分析 ①利用PCA对X进行压缩,得到数据矩阵 为了验证MLHFFFM-FCM算法在复杂非线 记为X爬: 性数据分析上的有效性,本节从3个方面进行对 ②For=2:(S-1): 比分析:1)各FCM演变算法之间聚类效果的对比 ③重复步骤1),对原数据进行模糊特征映 实验;2)单层映射结构与多层递阶融合映射结构 射,得到数据矩阵XO∈RxaK; 的聚类效果对比实验;3)关键参数敏感性的对比 ④x9=X阳X9 实验。 ⑤利用PCA对X进行压缩,得到数据矩阵 3.1算法性能的评价指标 记为X; 为了对各类算法的聚类性能进行对比,本文 ⑥end; 采用NMI(normalized mutual information)和RI(rand
用户可以在高维特征空间中得到数据的显式表示 方法;2) 模糊特征映射基于模糊规则进行构建, 而模糊规则本身具有较强的可解释性;3) 输入向 量经模糊特征映射后得到的高维特征向量的维数 可以由模糊规则数确定,这有利于用户控制高维 空间中数据的复杂程度。 2 基于多层递阶融合模糊特征映射 的模糊 C 均值聚类算法 2.1 基于多层递阶融合的模糊特征映射新方法 原数据通过模糊特征映射,得到其在高维空 间中的新表示。但是作为单层映射结构,会因映 射后的特征维数过高使得数据变得混乱和冗余, 继而影响算法后续的聚类效果。研究表明[25-26] , 将单层映射结构改造为多层映射结构,可以有效 地提高算法对复杂非线性数据的学习能力。为 此,本文引入多层递阶融合的概念来构造新型的 映射,提出基于多层递阶融合的模糊特征映射新 方法 (MLHFFFM)。通过对每层模糊特征映射之 后的高维特征表示进行 PCA 降维,再进行相应的 信息补充,形成新的融合层,依次进入下一层的 压缩融合过程,其结构如图 1 所示。 基于多层递阶融合的模糊特征映射新方法 MLHFFFM 算法描述如下: 输入 给定一个数据集 D={X, Y},设置初始 模糊规则数 K,分层融合层数 S。 X (S) 输出 经多层递阶融合后的数据矩阵 pca。 1) 对原数据进行第一层的模糊特征映射 (初 始层) ① 通过 FCM 算法计算出隶属度矩阵 ujk ; c k i δ k i ··· ··· ··· ② 经式 (6) 和式 (7) 分别计算出对应的 和 (i=1, 2, , d,j=1, 2, , n,k=1, 2, , K); µ k (X) ··· ③ 通过高斯隶属度函数 (5) 和式 (3) 的计算 得到 (k=1, 2, , K); X (1) g ∈ R N×(d+1)∗K ④ 再经过式 (8)~(10) 的转化,得到映射后高 维空间中的数据矩阵 。 2) 多层递阶融合 X (1) g X (2) pca ① 利用 PCA 对 进行压缩,得到数据矩阵 记为 ; ② For i=2:(S-1); X (i) g ∈ R N×dK ③ 重复步骤 1),对原数据进行模糊特征映 射,得到数据矩阵 ; X (i) lhffm= [ X (i) pca X (i) g ] ④ ; X (i) lhffm X (i+1) pca ⑤ 利用 PCA 对 进行压缩,得到数据矩阵 记为 ; ⑥ end; 2.2 基于多层递阶融合模糊特征映射的模 糊 C 均值聚类算法 MLHFFFM-FCM 本节中,将多层递阶融合模糊特征映射与经 典模糊聚类算法 FCM 相结合,提出基于多层递阶 融合模糊特征映射的模糊 C 均值聚类算法。MLHFFFM-FCM 算法描述如下: 输入 给定一个数据集 D={X, Y},设置初始 模糊规则数 K,分层融合层数 S。 X (S) pca 1) 通过基于多层递阶融合的模糊特征映射, 将输入数据 X 转化为 。 X (S) 2) 对最终压缩融合获得的数据矩阵 pca,采 用 FCM 算法聚类。 输出 模糊划分矩阵 U。 3 实验研究与分析 为了验证 MLHFFFM-FCM 算法在复杂非线 性数据分析上的有效性,本节从 3 个方面进行对 比分析:1) 各 FCM 演变算法之间聚类效果的对比 实验;2) 单层映射结构与多层递阶融合映射结构 的聚类效果对比实验; 3) 关键参数敏感性的对比 实验。 3.1 算法性能的评价指标 为了对各类算法的聚类性能进行对比,本文 采用 NMI(normalized mutual information) 和 RI(rand 输入层 X 输入层 X 高维 模糊 空间 X g (1) 高维 模糊 空间 X g (2) MLHFFFM 第1层 MLHFFFM 第2层融合层 MLHFFFM 第3层融合层 PCA 模糊 特征 映射 压缩模 糊空间 X (2) pca 压缩融 合空间 X (3) pca 融合 高维 空间 X (2) lhffm 融合 高维 空间 X (3) lhffm 输入层 X 高维 模糊 空间 X g (3) … … 模糊 … 特征 映射 图 1 MLHFFFM 算法结构图 Fig. 1 Structure of MLHFFFM algorithm ·596· 智 能 系 统 学 报 第 13 卷
第4期 鲍国强,等:多层递阶融合模糊特征映射的模糊C均值聚类算法 ·597· index)作为实验评价指标。这两个指标的值越接 选择其中7个具有代表性的数据集Ar2、Diabetes、 近1,说明算法聚类性能越好。其计算公式如下: Zoo、Australian、Breast、Heart、Chronic_Kidney_ 1)NMI Disease进行测试,其中数据集的相关信息如表1 ∑∑Ni.log N×N/W:×N 所示。同时本文选取5种经典的聚类算法与ML 海1=1 NMI= (14) HFFFM-FCM算法进行对比实验,分别为FCM算 N.xlog N./NN,xIogN IN 法、PCA-FCM算法、ELM-FCM算法、KFCM-K算 法以及KFCM-F算法。所有实验运行平台的配置 式中:N表示第个聚类与第类的契合程度,N表 如下:酷睿i33.6 GHz CPU,3.42GRAM,32位 示第个聚类所包含数据样本量,N,表示类j所包 Windows7操作系统,MATLAB R20I2b编程环 含的数据样本量,而N表示整个数据样本大小。 境。另外各算法相关说明及其参数设置如表2所 2)RI 示,其中各算法涉及的模糊指数m的寻优范围均 foo+fu RI=N(N-1)/2 (15) 为{1.2,1.4,1.6,1.8,2.0,2.2,2.4,2.6,2.8,3.0,3.2 3.4,3.6,3.8,4.0}。 式中:fo表示数据点具有不同的类标签并且属于 表1实验数据集 不同类的配对点数目,σ则表示数据点具有相同 Table 1 Experimental data sets 的类标签并且属于同一类的配对点数目,而N表 示整个数据样本的总量大小。以上两种方法,其 数据集 样本数n特征数d类别数c Ar 182 100 13 取值范围均为[0,1],且均随着数值的增大,显示 Diabetes 768 8 出算法的性能更为优越。 Z00 101 16 > 3.2实验设置 Australian 690 14 我们采用UCI真实数据集(htp://archive.ics Breast 277 9 2 uci.edu/ml)/来评估本文算法。为了测试实验应用 Heart 270 13 2 数据集的广泛性以及避免选取数据集的偶然性, Chronic Kidney Disease 400 24 表2各算法的说明以及相关参数设置 Table 2 The description of the algorithm and related parameters 算法 算法说明 相关参数 相关参数寻优范围设置 FCMR7 模糊C均值聚类算法 模糊指数m 基于PCA特征提取的模糊 PCA-FCM 模糊指数m,特征提取数d C均值算法 d的寻优范围为{1,2,3,4,5,6,7,8,9,10} ELM-FCMP8] 基于ELM隐空间映射的模 m,的寻优范围为{100.2,00,300,400,500,600 模糊指数m,隐节点数nh 糊C均值算法 700,800900,1000} KFCM-K191 基于核空间的核模糊C均 模糊指数m,核参数工 22,-x 值聚类算法 0由o2= 1j=2 计算得出 2 KFCM-FR9] 基于特征空间的核模糊C 模糊指数m,核参数工 22k,-xf 均值聚类算法 0由σ2 3 计算得出 基于多层递阶融合模糊特模糊指数m,特征提取数d,d的寻优范围从1到数据集本身维度的一半, MLHFFFM-FCM 征映射的模糊C均值算法高斯函数的宽度参数h h的寻优范围为{102,10,10°,10,102} 3.3聚类效果对比实验 置为5层,并根据表2的实验相关参数设置,分别 为了验证MLHFFFM-FCM算法的有效性,本 对各算法重复运行10次。最终的实验中各算法 节对算法进行对比实验测试。在本实验中,将初 的参数取值情况和实验结果如表3和表4所示。 始模糊规则数r设置为30,多层递阶融合层数设
index) 作为实验评价指标。这两个指标的值越接 近 1,说明算法聚类性能越好。其计算公式如下: 1) NMI NMI= ∑C i=1 ∑C j=1 Ni, j logN ×Ni, j/Ni ×Nj √ ∑C i=1 Ni ×logNi/N × ∑C j=1 Nj ×logNj/N (14) Ni, j i j Ni i Nj j 式中: 表示第 个聚类与第 类的契合程度, 表 示第 个聚类所包含数据样本量, 表示类 所包 含的数据样本量,而 N 表示整个数据样本大小。 2) RI RI = f00 + f11 N(N −1)/2 (15) f00 σ 式中: 表示数据点具有不同的类标签并且属于 不同类的配对点数目, 则表示数据点具有相同 的类标签并且属于同一类的配对点数目,而 N 表 示整个数据样本的总量大小。以上两种方法,其 取值范围均为[0, 1],且均随着数值的增大,显示 出算法的性能更为优越。 3.2 实验设置 我们采用 UCI 真实数据集 (http://archive.ics. uci.edu/ml/) 来评估本文算法。为了测试实验应用 数据集的广泛性以及避免选取数据集的偶然性, 选择其中 7 个具有代表性的数据集 Ar2、Diabetes、 Zoo、Australian、Breast、Heart、Chronic_Kidney_ Disease 进行测试,其中数据集的相关信息如表 1 所示。同时本文选取 5 种经典的聚类算法与 MLHFFFM-FCM 算法进行对比实验,分别为 FCM 算 法、PCA-FCM 算法、ELM-FCM 算法、KFCM-K 算 法以及 KFCM-F 算法。所有实验运行平台的配置 如下:酷睿 i3 3.6 GHz CPU,3.42 G RAM,32 位 Windows 7 操作系统,MATLAB R2012b 编程环 境。另外各算法相关说明及其参数设置如表 2 所 示,其中各算法涉及的模糊指数 m 的寻优范围均 为{1.2, 1.4, 1.6, 1.8, 2.0, 2.2, 2.4, 2.6, 2.8, 3.0, 3.2, 3.4, 3.6, 3.8, 4.0}。 3.3 聚类效果对比实验 为了验证 MLHFFFM-FCM 算法的有效性,本 节对算法进行对比实验测试。在本实验中,将初 始模糊规则数 r 设置为 30,多层递阶融合层数设 置为 5 层,并根据表 2 的实验相关参数设置,分别 对各算法重复运行 10 次。最终的实验中各算法 的参数取值情况和实验结果如表 3 和表 4 所示。 表 1 实验数据集 Table 1 Experimental data sets 数据集 样本数 n 特征数 d 类别数 c Ar2 182 100 13 Diabetes 768 8 2 Zoo 101 16 7 Australian 690 14 2 Breast 277 9 2 Heart 270 13 2 Chronic_Kidney_Disease 400 24 2 表 2 各算法的说明以及相关参数设置 Table 2 The description of the algorithm and related parameters 算法 算法说明 相关参数 相关参数寻优范围设置 FCM[27] 模糊 C 均值聚类算法 模糊指数 m PCA-FCM 基于 PCA 特征提取的模糊 C 均值算法 模糊指数 m,特征提取数 d d 的寻优范围为{1, 2, 3, 4, 5, 6, 7, 8, 9, 10} ELM-FCM[28] 基于 ELM 隐空间映射的模 糊 C 均值算法 模糊指数 m,隐节点数 nh nh 的寻优范围为{100, 2, 00, 300, 400, 500, 600, 700, 800, 900, 1 000} KFCM-K[29] 基于核空间的核模糊 C 均 值聚类算法 模糊指数 m,核参数σ σ σ 2 = ∑n i=1 ∑n j=2 xi − xj 2 n 由 2 计算得出 KFCM-F[29] 基于特征空间的核模糊 C 均值聚类算法 模糊指数 m,核参数σ σ σ 2 = ∑n i=1 ∑n j=2 xi − xj 2 n 由 2 计算得出 MLHFFFM-FCM 基于多层递阶融合模糊特 征映射的模糊 C 均值算法 模糊指数 m,特征提取数 d, 高斯函数的宽度参数 h d 的寻优范围从 1 到数据集本身维度的一半, h 的寻优范围为{10–2, 10–1, 100 , 101 , 102 } 第 4 期 鲍国强,等:多层递阶融合模糊特征映射的模糊 C 均值聚类算法 ·597·
·598· 智能系统学报 第13卷 表3各算法参数取值情况 Table 3 Parameter values of each algorithm 数据集 FCM PCA-FCM ELM-FCM KFCM-K KFCM-F MLHFFFM-FCM 月%=200 m=1.2 Ar2 左10 n1=2.0 m=2.8 m=3.4 h=100 =1.6 m=1.4 =0.8 U=1.4 d17 Diabetes m=2.4 2 %=600 n1=2.2 m=1.6 nm=1.4 h=1 m=1.2 m=2.4 =0.4 =1.2 d-1 Z00 e1.4 d=5 n=1000 =1.2 m=1.6 m=1.8 h=100 m=1.4 m=1.8 =1.4 =0.8 d=9 m=1.2 Australian m=2.0 d=2 nw=100 mF1.2 m=1.2 h=100 m=2.6 m=2.0 0=2.0 =1.4 -9 =1.4 Breast m=3.6 d1 n=100 e1.2 m=4.6 h=10 m=1.2 m=1.2 w=1.8 =0.4 d=1 m=4.6 n1=2.6 作3 Heart m=3.2 n%=100 m=1.2 m=3.2 m=2.2 U=2.0 h=10 =0.6 d=2 n1=2.6 n1e1.2 m=4.0 Chronic_Kidney_Disease m=3.6 d=7 m%=800 m=4.0 m=1.2 σ=1.1 =1.1 h=10 d=11 表4各算法的运行结果 Table 4 Results of each algorithm 数据集 性能指标 FCM PCA-FCM ELM-FCM KFCM-K KFCM-F MLHFFFM-FCM RI mean 0.772 5 0.9501 0.8605 0.8664 0.8386 0.9790 Ar2 RI std 0.0505 0.0025 0.0050 0.0067 0.0198 0.0011 NMI mean 0.5656 0.7893 0.4597 0.3337 0.6271 0.9353 NMI std 0.0358 0.0075 0.0152 0.0295 0.0096 0.0066 RI_mean 0.5591 0.5507 0.5430 0.5723 0.5576 0.5935 Diabetes RI std 0.0048 0 0.0012 0.0020 0 0.0130 NMI mean 0.0733 0.0297 0.0118 0.1187 0.0658 0.0946 NMI_std 0.0083 0 0.0044 0.0030 0 0.0201 RI mean 0.8825 0.8930 0.8264 0.9044 0.9034 0.9187 Zoo RI std 0.0290 0.0201 0.0027 0.0271 0.0832 0.0293 NMI_mean 0.7474 0.7676 0.5663 0.8338 0.7884 0.7962 NMI_std 0.0350 0.0288 0.0058 0.0211 0.1110 0.0245 RI mean 0.7285 0.5071 0.5050 0.7436 0.7336 0.7539 Australian RI std 0.0802 0 0 0 0 0 NMI_mean 0.3880 0.0344 0.0099 0.4159 0.3992 0.4310 NMI_std 0.1361 0 0 0 0 0 RI mean 0.5598 0.6004 0.4982 0.5329 0.5689 0.6297 Breast RI std 0.0524 0 0.0003 0.0473 0.0662 0.0033 NMI_mean 0.0654 0.0897 0.0030 0.0322 0.0577 0.1073 NMI_std 0.0510 0 0 0.0422 0.0567 0.0078 RI mean 0.5229 0.5229 0.5048 0.6674 0.6833 0.7373 Heart RI std 0 0 0.0030 0.0024 0 0.0117 NMI mean 0.032 8 0.0328 0.0388 0.2609 0.2806 0.3870 NMI_std 0 0 0.0588 0.0035 0 0.0214 RI mean 0.78340.7894 0.5009 0.8695 0.8652 0.8825 Chronic Kidney Disease RI std 0.0060 0.0036 0 0 0 0 NMI mean 0.5178 0.5187 0.0830 0.6364 0.6386 0.7053 NMI std 0.0086 0.0053 0 0 0 0
表 3 各算法参数取值情况 Table 3 Parameter values of each algorithm 数据集 FCM PCA-FCM ELM-FCM KFCM-K KFCM-F MLHFFFM-FCM Ar2 m=2.8 d=10 m=1.6 nh=200 m=1.4 σ m=2.0 =0.8 σ m=3.4 =1.4 m=1.2 h=100 d=17 Diabetes m=2.4 d=2 m=1.2 nh=600 m=2.4 σ m=2.2 =0.4 σ m=1.6 =1.2 m=1.4 h=1 d=7 Zoo m=1.4 d=5 m=1.4 nh=1 000 m=1.8 σ m=1.2 =1.4 σ m=1.6 =0.8 m=1.8 h=100 d=9 Australian m=2.0 d=2 m=2.6 nh=100 m=2.0 σ m=1.2 =2.0 σ m=1.2 =1.4 m=1.2 h=100 d=9 Breast m=3.6 d=1 m=1.2 nh=100 m=1.2 σ m=1.2 =1.8 σ m=4.6 =0.4 m=1.4 h=10 d=1 Heart m=3.2 d=3 m=3.2 nh=100 m=2.2 σ m=4.6 =2.0 σ m=1.2 =0.6 m=2.6 h=10 d=2 Chronic_Kidney_Disease m=3.6 d=7 m=4.0 nh=800 m=1.2 σ m=1.2 =1.1 σ m=4.0 =1.1 m=2.6 h=10 d=11 表 4 各算法的运行结果 Table 4 Results of each algorithm 数据集 性能指标 FCM PCA-FCM ELM-FCM KFCM-K KFCM-F MLHFFFM-FCM RI_mean 0.772 5 0.950 1 0.860 5 0.866 4 0.838 6 0.979 0 Ar2 RI_std 0.050 5 0.002 5 0.005 0 0.006 7 0.019 8 0.001 1 NMI_mean 0.565 6 0.789 3 0.459 7 0.333 7 0.627 1 0.935 3 NMI_std 0.035 8 0.007 5 0.015 2 0.029 5 0.009 6 0.006 6 RI_mean 0.559 1 0.550 7 0.543 0 0.572 3 0.557 6 0.593 5 Diabetes RI_std 0.004 8 0 0.001 2 0.002 0 0 0.013 0 NMI_mean 0.073 3 0.029 7 0.011 8 0.118 7 0.065 8 0.094 6 NMI_std 0.008 3 0 0.004 4 0.003 0 0 0.020 1 RI_mean 0.882 5 0.893 0 0.826 4 0.904 4 0.903 4 0.918 7 Zoo RI_std 0.029 0 0.020 1 0.002 7 0.027 1 0.083 2 0.029 3 NMI_mean 0.747 4 0.767 6 0.566 3 0.833 8 0.788 4 0.796 2 NMI_std 0.035 0 0.028 8 0.005 8 0.021 1 0.111 0 0.024 5 RI_mean 0.728 5 0.507 1 0.505 0 0.743 6 0.733 6 0.753 9 Australian RI_std 0.080 2 0 0 0 0 0 NMI_mean 0.388 0 0.034 4 0.009 9 0.415 9 0.399 2 0.431 0 NMI_std 0.136 1 0 0 0 0 0 RI_mean 0.559 8 0.600 4 0.498 2 0.532 9 0.568 9 0.629 7 Breast RI_std 0.052 4 0 0.000 3 0.047 3 0.066 2 0.003 3 NMI_mean 0.065 4 0.089 7 0.003 0 0.032 2 0.057 7 0.107 3 NMI_std 0.051 0 0 0 0.042 2 0.056 7 0.007 8 RI_mean 0.522 9 0.522 9 0.504 8 0.667 4 0.683 3 0.737 3 Heart RI_std 0 0 0.003 0 0.002 4 0 0.011 7 NMI_mean 0.032 8 0.032 8 0.038 8 0.260 9 0.280 6 0.387 0 NMI_std 0 0 0.058 8 0.003 5 0 0.021 4 RI_mean 0.783 4 0.789 4 0.500 9 0.869 5 0.865 2 0.882 5 Chronic_Kidney_Disease RI_std 0.006 0 0.003 6 0 0 0 0 NMI_mean 0.517 8 0.518 7 0.083 0 0.636 4 0.638 6 0.705 3 NMI_std 0.008 6 0.005 3 0 0 0 0 ·598· 智 能 系 统 学 报 第 13 卷
第4期 鲍国强,等:多层递阶融合模糊特征映射的模糊C均值聚类算法 ·599· 从表4中可以明显地看出,在聚类精度上,文 聚类。实验最终的参数取值情况和结果如表5和 中涉及的对比算法只能在某个或某几个数据集上 表6所示,其中因受篇幅所限,仅在表6中给出 取得较优的结果,而MLHFFFM-FCM算法不仅在 RI指标结果,NMI与之有类似的结果,不再列出。 所有的测试数据集上取得满意的结果,并且还有 从表5和表6中可以明显地观察出,相比于 着明显的提高。这说明了MLHFFFM-FCM算法 单层映射结构,基于多层递阶融合映射结构的模 的有效性,也进一步说明了该算法处理复杂非线 糊聚类方法能够取得更好的学习效果。这是由于 性数据的强大能力。 在单层映射之后的数据存在冗余信息,而在压缩 3.4单层映射结构与多层递阶融合映射结构的 之后又会导致信息缺失。但是多层递阶融合的映 聚类效果对比实验与分析 射结构是建立在单层映射结构的基础上,采用 为了体现本文算法引入的多层递阶融合方法 PCA技术对每一层模糊特征映射得到的高维特 的优越性,本节实验针对多层递阶融合映射结构 征表示进行压缩,再对应地结合每一层数据信息 对FCM算法性能的影响进行实验与分析。实验 融合形成的。因此通过多层递阶融合的方法,可 在模糊规则数设置相同的情况下,分别采用单层 以有效地精简冗余信息,同时对每一层进行适当 映射结构和多层递阶融合映射结构对原输入数据 的信息弥补。这也充分体现了本文提出的多层递 进行非线性映射,将映射后的数据采用FCM进行 阶融合映射结构的优越。 表5两种算法结构的参数取值情况 Table 5 Parameter selection of two algorithms 算法映射结构 Ar2 Diabetes Z00 Australian Breast Heart Chronic Kidney Disease 单层 m=4.0 m=1.4 m=1.6 nm=1.2 m=1.2 m=1.4 i=3.4 h=100 h=1 h=100 h=100 h=0.1 h=10 h=10 m=1.2 m=1.4 m=1.8 m=1.2 m=1.4 m=2.6 m=2.6 多层递阶融合 h=100 hl h=100 h=100 h=10 h=10 h=10 d=17 d-7 d=9 d=9 1 d=2 d11 表6两种算法结构的RI_mean性能指标 Table 6 Performance index of two algorithms 算法映射结构 Ar2 Diabetes Z00 Australian Breast Heart Chronic Kidney Disease 单层 0.8590 0.5680 0.8945 0.7539 0.5971 0.7041 0.8762 多层递阶融合 0.9790 0.5935 0.9187 0.7539 0.6297 0.7373 0.8825 3.5参数敏感性实验 状态,这说明MLHFFFM-FCM算法对模糊规则 模糊规则数r作为MLHFFFM-FCM算法中的 数r不敏感。结合上述实验也从另一个方面体现 关键参数,本节针对该参数进行参数敏感性实 了采用本文提出的基于多层递阶融合映射方法的 验。这里为了让实验结果能够直观地进行观察与 优越性,它不仅保证了算法的聚类效果,还克服 对比,我们同时对KFCM-F算法中的关键参数 了KFCM-F等算法对参数敏感的问题,这更有利 σ进行参数敏感性实验,进而研究模糊规则数这 于该算法在实际问题中的应用。 一关键参数对MLHFFFM-FCM算法性能的影响。 1.0 0.9 实验中,MLHFFFM-FCM模糊规则数r的实验取 0.8 值范围为{5,10,15,20,25,30,35,40,45,50}, 0.7 KFCM-F算法中核参数σ的实验取值范围为{0.1, 0.6 0.5 1.5,10,50,100,150,200,500,1000},实验最终结 ◆Ar, 0.4 Australian -Breast 果分别如图2和图3所示。 03 -Diabetes 0.2 -e-Heart 从图2中不难看出,KFCM-F算法的性能随 -0-Z00 0.1 Chronic Kidney Disease 核参数σ变化出现很大的波动,这说明核参数σ对 0 0r 10° 101 102 103 KFCM-F算法的性能有很大的影响。相反,由图3 核参数a 可以观察到,模糊规则数r对MLHFFFM-FCM 图2KFCM-F算法性能随σ变化的影响 算法性能的影响很小,算法性能始终保持稳定的 Fig.2 Effect of o on the performance of KFCM-F
从表 4 中可以明显地看出,在聚类精度上,文 中涉及的对比算法只能在某个或某几个数据集上 取得较优的结果,而 MLHFFFM-FCM 算法不仅在 所有的测试数据集上取得满意的结果,并且还有 着明显的提高。这说明了 MLHFFFM-FCM 算法 的有效性,也进一步说明了该算法处理复杂非线 性数据的强大能力。 3.4 单层映射结构与多层递阶融合映射结构的 聚类效果对比实验与分析 为了体现本文算法引入的多层递阶融合方法 的优越性,本节实验针对多层递阶融合映射结构 对 FCM 算法性能的影响进行实验与分析。实验 在模糊规则数设置相同的情况下,分别采用单层 映射结构和多层递阶融合映射结构对原输入数据 进行非线性映射,将映射后的数据采用 FCM 进行 聚类。实验最终的参数取值情况和结果如表 5 和 表 6 所示,其中因受篇幅所限,仅在表 6 中给出 RI 指标结果,NMI 与之有类似的结果,不再列出。 从表 5 和表 6 中可以明显地观察出,相比于 单层映射结构,基于多层递阶融合映射结构的模 糊聚类方法能够取得更好的学习效果。这是由于 在单层映射之后的数据存在冗余信息,而在压缩 之后又会导致信息缺失。但是多层递阶融合的映 射结构是建立在单层映射结构的基础上,采用 PCA 技术对每一层模糊特征映射得到的高维特 征表示进行压缩,再对应地结合每一层数据信息 融合形成的。因此通过多层递阶融合的方法,可 以有效地精简冗余信息,同时对每一层进行适当 的信息弥补。这也充分体现了本文提出的多层递 阶融合映射结构的优越。 3.5 参数敏感性实验 σ σ 模糊规则数 r 作为 MLHFFFM-FCM 算法中的 关键参数,本节针对该参数进行参数敏感性实 验。这里为了让实验结果能够直观地进行观察与 对比,我们同时对 KFCM-F 算法中的关键参数 进行参数敏感性实验,进而研究模糊规则数这 一关键参数对 MLHFFFM-FCM 算法性能的影响。 实验中,MLHFFFM-FCM 模糊规则数 r 的实验取 值范围为{5, 10, 15, 20, 25, 30, 35, 40, 45, 50}, KFCM-F 算法中核参数 的实验取值范围为{0.1, 1.5, 10, 50, 100, 150, 200, 500, 1 000},实验最终结 果分别如图 2 和图 3 所示。 σ σ 从图 2 中不难看出,KFCM-F 算法的性能随 核参数 变化出现很大的波动,这说明核参数 对 KFCM-F 算法的性能有很大的影响。相反,由图 3 可以观察到,模糊规则数 r 对 MLHFFFM-FCM 算法性能的影响很小,算法性能始终保持稳定的 状态,这说明 MLHFFFM-FCM 算法对模糊规则 数 r 不敏感。结合上述实验也从另一个方面体现 了采用本文提出的基于多层递阶融合映射方法的 优越性,它不仅保证了算法的聚类效果,还克服 了 KFCM-F 等算法对参数敏感的问题,这更有利 于该算法在实际问题中的应用。 表 5 两种算法结构的参数取值情况 Table 5 Parameter selection of two algorithms 算法映射结构 Ar2 Diabetes Zoo Australian Breast Heart Chronic_Kidney_Disease 单层 m=4.0 h=100 m=1.4 h=1 m=1.6 h=100 m=1.2 h=100 m=1.2 h=0.1 m=1.4 h=10 m=3.4 h=10 多层递阶融合 m=1.2 h=100 d=17 m=1.4 h=1 d=7 m=1.8 h=100 d=9 m=1.2 h=100 d=9 m=1.4 h=10 d=1 m=2.6 h=10 d=2 m=2.6 h=10 d=11 表 6 两种算法结构的 RI_mean 性能指标 Table 6 Performance index of two algorithms 算法映射结构 Ar2 Diabetes Zoo Australian Breast Heart Chronic_Kidney_Disease 单层 0.859 0 0.568 0 0.894 5 0.753 9 0.597 1 0.704 1 0.876 2 多层递阶融合 0.979 0 0.593 5 0.918 7 0.753 9 0.629 7 0.737 3 0.882 5 Ar2 Australian Breast Diabetes Heart Zoo Chronic Kidney Disease 1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 10−1 100 RI 101 核参数σ 102 103 图 2 KFCM-F 算法性能随σ变化的影响 Fig. 2 Effect of σ on the performance of KFCM-F 第 4 期 鲍国强,等:多层递阶融合模糊特征映射的模糊 C 均值聚类算法 ·599·
·600· 智能系统学报 第13卷 1.0r Chongqing university of posts and telecommunications 0.9 natural science edition.2016.28(2):254-259. 0.8 0.7 [7]阎辉,张学工,李衍达.基于核函数的最大间隔聚类算法 0.6 [.清华大学学报:自然科学版,2002,42(1)132-134. ¥0.5 --Ar. YAN Hui,ZHANG Xuegong,LI Yanda.Kernel-based 0.4 Australian 0.3 Breast maximal-margin clustring algorithm[J].Journal of Diabetes 0.2 -e-Heart Tsinghua university:science and technology,2002,42(1): 0.1 0-Z00 Chronic Kidney Disease 132-134 0 5101520253035404550 [8]MA Bo,QU Huiyang,WONG H S.Kernel clustering- 模糊规则数, based discriminant analysis[J].Pattern recognition,2007, 图3 MLHFFFM-FCM算法性能随模糊规则数r变化的 40(1)324327. 影响 [9]LIAO Li,ZHOU Jianzhong,ZOU Qiang.Weighted fuzzy Fig.3 Effect of fuzzy rules r on the performance of ML- kernel-clustering algorithm with adaptive differential evol- HFFFM-FCM ution and its application on flood classification[J].Natural 4结束语 hazards.2013,69(1)279-293. [10]李侃,刘玉树.模糊核聚类的自适应算法[几.控制与决 本文提出的MLHFFFM-FCM算法,是一种采 策,2004,195):595-597 用新型的显性映射方式来处理复杂非线性数据的 LI Kan,LIU Yushu.Fuzzy kernel clustering self-adapt- ive algorithm[J].Control and decision,2004,19(5) 无监督学习方法。相比于现有的核函数映射方 595-597. 法,MLHFFFM-FCM算法在取得良好聚类效果的 [11]WANG Jun,DENG Zhaohong,JIANG Yizhang,et al 同时,还对算法中模糊规则数不敏感,这更有利 Multiple-kernel based soft subspace fuzzy clustering 于算法在实际应用中的选用。但是本文提出的 [C]//Proceedings of 2014 IEEE International Conference MLHFFFM-FCM算法仍然具有一定的缺陷,例如 on Fuzzy Systems.Beijing,China,2014:186-193. 对于高维数据,其时间开销较大。如何有效克服 [12]WANG Jun.DENG Zhaohong,CHOI K S,et al.Dis- 这些问题,将是今后进一步研究的重点。 tance metric learning for soft subspace clustering in com- posite Kernel space[J].Pattern recognition,2015,52: 参考文献: 113-134 [13]GIROLAMI M.Mercer kernel-based clustering in feature [1]王骏,王土同,邓赵红.聚类分析研究中的若干问题[) space[J].IEEE transactions on neural networks,2002, 控制与决策,2012,27(3:321-328. 13(3):780-784. WANG Jun,WANG Shitong,DENG Zhaohong.Survey [14]MENDEZ G M,DE LOS ANGELES HERNANDEZ M. on challenges in clustering analysis research[J].Control Hybrid learning mechanism for interval A2-CI type-2 and decision,2012,27(3):321-328 non-singleton type-2 Takagi-Sugeno-Kang fuzzy logic [2]李宝刚.基于读者日志分析的模糊聚类研究).价值工 systems[J].Information sciences,2013,220:149-169. 程,2011,30(33:146-147. [15]TSAKONAS A.GABRYS B.Evolving Takagi-Sugeno- Li Baogang.The fuzzy clustering on analyzing reader's Kang fuzzy systems using multi[J].Journal of clinical en- log[J].Value engineering,2011,30(33):146-147. docrinology and metabolism,2011,96(12):3603-3608. [3]PENG Hong,WANG Jun,PEREZ-JIMENEZ M J,et al. [16]CHUANG CC,SU Shunfeng,CHEN SS.Robust TSK An unsupervised learning algorithm for membrane com- fuzzy modeling for function approximation with outliers puting[J].Information sciences,2015,304:80-91. [J].IEEE transactions on fuzzy systems,2001,9(6): [4]QIN Chen,SONG Shiji,HUANG Gao,et al.Unsuper- 810-821. vised neighborhood component analysis for clustering[J]. [17]SUGENO M.KANG G T.Structure identification of Neurocomputing,2015,168:609-617. fuzzy model[J].Fuzzy sets and systems,1988,28(1): [5]XU Yan,QIU Peng,ROYSAM B.Unsupervised discov- 15-33. ery of subspace trends[J].IEEE transactions on pattern [18]PRICE A L,PATTERSON N J,PLENGE R M,et al. analysis and machine intelligence,2015,37(10):2131- Principal components analysis corrects for stratification in 2145. genome-wide association studies[J].Nature genetics, [6]杨玉梅.基于信息嫡改进的K-means动态聚类算法[J 2006.38(8):904-909. 重庆邮电大学学报:自然科学版,2016,28(2):254-259, [19]JOLLIFFE I T.Principal component analysis[M].Berlin: YANG Yumei.Improved K-means dynamic clustering al- Springer,2012:41-64. gorithm based on information entropy[J].Journal of [20]冯斌,须文波.基于TSK模糊系统的生化变量预估模型
4 结束语 本文提出的 MLHFFFM-FCM 算法,是一种采 用新型的显性映射方式来处理复杂非线性数据的 无监督学习方法。相比于现有的核函数映射方 法,MLHFFFM-FCM 算法在取得良好聚类效果的 同时,还对算法中模糊规则数不敏感,这更有利 于算法在实际应用中的选用。但是本文提出的 MLHFFFM-FCM 算法仍然具有一定的缺陷,例如 对于高维数据,其时间开销较大。如何有效克服 这些问题,将是今后进一步研究的重点。 参考文献: 王骏, 王士同, 邓赵红. 聚类分析研究中的若干问题[J]. 控制与决策, 2012, 27(3): 321–328. WANG Jun, WANG Shitong, DENG Zhaohong. Survey on challenges in clustering analysis research[J]. Control and decision, 2012, 27(3): 321–328. [1] 李宝刚. 基于读者日志分析的模糊聚类研究[J]. 价值工 程, 2011, 30(33): 146–147. Li Baogang. The fuzzy clustering on analyzing reader's log[J]. Value engineering, 2011, 30(33): 146–147. [2] PENG Hong, WANG Jun, PÉREZ-JIMÉNEZ M J, et al. An unsupervised learning algorithm for membrane computing[J]. Information sciences, 2015, 304: 80–91. [3] QIN Chen, SONG Shiji, HUANG Gao, et al. Unsupervised neighborhood component analysis for clustering[J]. Neurocomputing, 2015, 168: 609–617. [4] XU Yan, QIU Peng, ROYSAM B. Unsupervised discovery of subspace trends[J]. IEEE transactions on pattern analysis and machine intelligence, 2015, 37(10): 2131– 2145. [5] 杨玉梅. 基于信息熵改进的 K-means 动态聚类算法[J]. 重庆邮电大学学报: 自然科学版, 2016, 28(2): 254–259. YANG Yumei. Improved K-means dynamic clustering algorithm based on information entropy[J]. Journal of [6] Chongqing university of posts and telecommunications: natural science edition, 2016, 28(2): 254–259. 阎辉, 张学工, 李衍达. 基于核函数的最大间隔聚类算法 [J]. 清华大学学报: 自然科学版, 2002, 42(1): 132–134. YAN Hui, ZHANG Xuegong, LI Yanda. Kernel-based maximal-margin clustring algorithm[J]. Journal of Tsinghua university: science and technology, 2002, 42(1): 132–134. [7] MA Bo, QU Huiyang, WONG H S. Kernel clusteringbased discriminant analysis[J]. Pattern recognition, 2007, 40(1): 324–327. [8] LIAO Li, ZHOU Jianzhong, ZOU Qiang. Weighted fuzzy kernel-clustering algorithm with adaptive differential evolution and its application on flood classification[J]. Natural hazards, 2013, 69(1): 279–293. [9] 李侃, 刘玉树. 模糊核聚类的自适应算法[J]. 控制与决 策, 2004, 19(5): 595–597. LI Kan, LIU Yushu. Fuzzy kernel clustering self-adaptive algorithm[J]. Control and decision, 2004, 19(5): 595–597. [10] WANG Jun, DENG Zhaohong, JIANG Yizhang, et al. Multiple-kernel based soft subspace fuzzy clustering [C]//Proceedings of 2014 IEEE International Conference on Fuzzy Systems. Beijing, China, 2014: 186–193. [11] WANG Jun, DENG Zhaohong, CHOI K S, et al. Distance metric learning for soft subspace clustering in composite Kernel space[J]. Pattern recognition, 2015, 52: 113–134. [12] GIROLAMI M. Mercer kernel-based clustering in feature space[J]. IEEE transactions on neural networks, 2002, 13(3): 780–784. [13] MÉNDEZ G M, DE LOS ANGELES HERNÁNDEZ M. Hybrid learning mechanism for interval A2-C1 type-2 non-singleton type-2 Takagi-Sugeno-Kang fuzzy logic systems[J]. Information sciences, 2013, 220: 149–169. [14] TSAKONAS A, GABRYS B. Evolving Takagi-SugenoKang fuzzy systems using multi[J]. Journal of clinical endocrinology and metabolism, 2011, 96(12): 3603–3608. [15] CHUANG C C, SU Shunfeng, CHEN S S. Robust TSK fuzzy modeling for function approximation with outliers [J]. IEEE transactions on fuzzy systems, 2001, 9(6): 810–821. [16] SUGENO M, KANG G T. Structure identification of fuzzy model[J]. Fuzzy sets and systems, 1988, 28(1): 15–33. [17] PRICE A L, PATTERSON N J, PLENGE R M, et al. Principal components analysis corrects for stratification in genome-wide association studies[J]. Nature genetics, 2006, 38(8): 904–909. [18] JOLLIFFE I T. Principal component analysis[M]. Berlin: Springer, 2012: 41–64. [19] [20] 冯斌, 须文波. 基于 TSK 模糊系统的生化变量预估模型 Ar2 Australian Breast Diabetes Heart Zoo Chronic Kidney Disease 1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 15 RI 30 模糊规则数r 5 20 35 10 25 40 45 50 图 3 MLHFFFM-FCM 算法性能随模糊规则数 r 变化的 影响 Fig. 3 Effect of fuzzy rules r on the performance of MLHFFFM-FCM ·600· 智 能 系 统 学 报 第 13 卷
第4期 鲍国强,等:多层递阶融合模糊特征映射的模糊C均值聚类算法 ·601· [).计算机与应用化学,2006,23(4:343-346. treme learning machine feature space[J].Neurocomput- FENG Bin.XU Wenbo.Biochemical variable estimation ing,2014,128:88-95. model based on TSK fuzzy system[J].Computers and ap- [29]GRAVES D.PEDRYCZ W.Kernel-based fuzzy cluster- plied chemistry,2006,23(4):343-346. [21]WU Dongrui.Approaches for reducing the computational ing and fuzzy clustering:a comparative experimental cost of interval type-2 fuzzy logic systems:overview and study[J].Fuzzy sets and systems,2010,161(4):522-543. comparisons[J].IEEE transactions on fuzzy systems, 作者简介: 2013,21(1)80-99. 鲍国强,男,1992年生,硕士研究 [22]DENG Zhaohong,CHOI K S,CHUNG F L,et al.Scal- 生,主要研究方向为智能计算与模式 able TSK fuzzy modeling for very large datasets using 识别。 minimal-enclosing-ball approximation[J].IEEE transac- tions on fuzzy systems,2011,19(2):210-226. [23】]蒋亦樟,邓赵红,王士同.ML型迁移学习模糊系统. 自动化学报,2012.38(9):1393-1409. JIANG Yizhang,DENG Zhaohong,WANG Shitong. Mamdani-larsen type transfer learning fuzzy system[J]. 应文豪,男,1979年生.副教授, Acta automatica sinica,2012,38(9):1393-1409. 博士,主要研究方向为模式识别与智 [24]LESKIJ M.TSK-fuzzy modeling based on -insensitive 能计算。 learning[J].IEEE transactions on fuzzy systems,2005, 13(2):181-193 [25]ZHOU Hongming,HUANG Guangbin,LIN Zhiping,et al.Stacked extreme learning machines[J].IEEE transac- tions on cybernetics,2015,45(9):2013-2025. 蒋亦樟.男,1988年生.讲师,博 [26]LECUN Y,BENGIO Y,HINTON G.Deep learning[J]. 土,主要研究方向为模式识别与智能 Nature,2015,521(7553):436-444. 计算。 [27]BEZDEK J C,EHRLICH R,FULL W.FCM:the fuzzy c- means clustering algorithm[J].Computers and geosciences, 1984,10(2/3):191-203. [28]HE Qing,JIN Xin,DU Changying,et al.Clustering in ex-
[J]. 计算机与应用化学, 2006, 23(4): 343–346. FENG Bin, XU Wenbo. Biochemical variable estimation model based on TSK fuzzy system[J]. Computers and applied chemistry, 2006, 23(4): 343–346. WU Dongrui. Approaches for reducing the computational cost of interval type-2 fuzzy logic systems: overview and comparisons[J]. IEEE transactions on fuzzy systems, 2013, 21(1): 80–99. [21] DENG Zhaohong, CHOI K S, CHUNG F L, et al. Scalable TSK fuzzy modeling for very large datasets using minimal-enclosing-ball approximation[J]. IEEE transactions on fuzzy systems, 2011, 19(2): 210–226. [22] 蒋亦樟, 邓赵红, 王士同. ML 型迁移学习模糊系统[J]. 自动化学报, 2012, 38(9): 1393–1409. JIANG Yizhang, DENG Zhaohong, WANG Shitong. Mamdani-larsen type transfer learning fuzzy system[J]. Acta automatica sinica, 2012, 38(9): 1393–1409. [23] LESKI J M. TSK-fuzzy modeling based on ε-insensitive learning[J]. IEEE transactions on fuzzy systems, 2005, 13(2): 181–193. [24] ZHOU Hongming, HUANG Guangbin, LIN Zhiping, et al. Stacked extreme learning machines[J]. IEEE transactions on cybernetics, 2015, 45(9): 2013–2025. [25] LECUN Y, BENGIO Y, HINTON G. Deep learning[J]. Nature, 2015, 521(7553): 436–444. [26] BEZDEK J C, EHRLICH R, FULL W. FCM: the fuzzy cmeans clustering algorithm[J]. Computers and geosciences, 1984, 10(2/3): 191–203. [27] [28] HE Qing, JIN Xin, DU Changying, et al. Clustering in extreme learning machine feature space[J]. Neurocomputing, 2014, 128: 88–95. GRAVES D, PEDRYCZ W. Kernel-based fuzzy clustering and fuzzy clustering: a comparative experimental study[J]. Fuzzy sets and systems, 2010, 161(4): 522–543. [29] 作者简介: 鲍国强,男,1992 年生,硕士研究 生,主要研究方向为智能计算与模式 识别。 应文豪,男,1979 年生,副教授, 博士,主要研究方向为模式识别与智 能计算。 蒋亦樟,男,1988 年生,讲师,博 士,主要研究方向为模式识别与智能 计算。 第 4 期 鲍国强,等:多层递阶融合模糊特征映射的模糊 C 均值聚类算法 ·601·