【机器学习】多层递阶融合模糊特征映射的模糊C均值聚类算法

团购合买资源类别：文库，文档格式：PDF，文档页数：8，文件大小：952.56KB

第13卷第4期智能系统学报 Vol.13 No.4 2018年8月 CAAI Transactions on Intelligent Systems Aug.2018 D0:10.11992/tis.201703047 网络出版地址：http:/kns.cnki.net/kcms/detail/23.1538.TP.20170702.1548.038.html 多层递阶融合模糊特征映射的模糊C均值聚类算法鲍国强2，应文豪3，蒋亦樟2，张英2，王骏2，王士同2 (（1.江南大学数字媒体学院，江苏无锡214122：2.江苏省蝶体设计与软件技术重点实验室，江苏无锡214122： 3.常熟理工学院计算机科学与工程学院，江苏常熟215500) 摘要：针对复杂非线性数据的无监督学习问题，提出一种新型的映射方式来有效提高算法对复杂非线性数据的学习能力。以T$K模糊系统的规则前件学习为基础，提出一种新型的模糊特征映射新方法。接着，针对映射之后的数据维度过大问题，引入多层递阶融合的概念，进一步提出基于多层递阶融合的模糊特征映射新方法，从而有效避免了因单层模糊特征映射之后特征维数过高而导致的数据混乱和冗余的问题。最后与模糊 C均值算法相结合，提出基于多层递阶融合模糊特征映射的模糊C均值聚类算法。实验研究表明，文中算法相比于经典模糊聚类方法，有着更加优越、稳定的性能。关键词：Takagi--Sugeno-Kang(TSK)模糊系统；主成分分析(PCA):无监督学习：模糊C均值聚类中图分类号：TP181文献标志码：A文章编号：1673-4785(2018)04-0594-08 中文引用格式：鲍国强，应文豪，蒋亦樟，等.多层递阶融合模糊特征映射的模糊C均值聚类算法引.智能系统学报，2018， 13(4):594-601. 英文引用格式：BAO Guoqiang,YING Wenhao,JIANG Yizhang,ctal.Fuzzy C-means clustering algorithm for multilayered hier- archical fusion fuzzy feature mapping[J].CAAI transactions on intelligent systems,2018,13(4):594-601. Fuzzy C-means clustering algorithm for multilayered hierarchical fusion fuzzy feature mapping BAO Guoqiang,YING Wenhao,JIANG Yizhang2,ZHANG Ying2,WANG Jun2, WANG Shitong'2 (1.School of Digital Media,Jiangnan University,Wuxi 214122,China;2.Jiangsu Key Laboratory of Media Design and Software Technology,Wuxi214122,China;3.School of Computer Science and Engineering,Changshu Institute of Technology,Changshu 215500,China) Abstract:In this paper,we propose a novel feature mapping technique called multilayer hierarchical fusion fuzzy fea- ture mapping for the unsupervised learning of complex nonlinear data and combine it with the classical fuzzy C-means clustering.Based on the regular antecedent learning of the Takagi-Sugeno-Kang(TSK)fuzzy system,we first propose a novel fuzzy feature mapping method.Then,to address big data dimensions by fuzzy feature mapping,we propose a fuzzy feature mapping mechanism based on multilayer hierarchical fusion.This mechanism combines fuzzy feature mapping with principal component analysis(PCA),thereby avoiding the data confusion and redundancy caused by the high dimensionality of single-layer fuzzy feature mapping.Finally,we develop a novel FCM clustering algorithm based on multilayered hierarchical fusion feature mapping.The experimental results show that,in comparison with classical fuzzy clustering methods,the performance of the proposed algorithm is superior and more stable. Keywords:Takagi-Sugeno-Kang(TSK)fuzzy system;principal component analysis(PCA);unsupervised learning; fuzzy C-means clustering 收稿日期：2017-03-30.网络出版日期：2017-07-02. 基金项目：国家自然科学基金项目(61300I5I):江苏省自然科近年来，面向复杂非线性数据的模糊聚类问学基金项目(BK20160187.BK20161268,BK20151299): 江苏省产学研前瞻联合研究计划项目(BY2015043-03) 题得到了研究人员的广泛关注向。在无监督学习通信作者：王骏.E-mail:wangjun_sytu@hotmail.com. 环境中为了提高复杂非线性数据的可分性，一个

DOI: 10.11992/tis.201703047 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20170702.1548.038.html 多层递阶融合模糊特征映射的模糊 C 均值聚类算法鲍国强1,2，应文豪3 ，蒋亦樟1,2，张英1,2，王骏1,2，王士同1,2 （1. 江南大学数字媒体学院，江苏无锡 214122; 2. 江苏省媒体设计与软件技术重点实验室，江苏无锡 214122; 3. 常熟理工学院计算机科学与工程学院，江苏常熟 215500）摘要：针对复杂非线性数据的无监督学习问题，提出一种新型的映射方式来有效提高算法对复杂非线性数据的学习能力。以 TSK 模糊系统的规则前件学习为基础，提出一种新型的模糊特征映射新方法。接着，针对映射之后的数据维度过大问题，引入多层递阶融合的概念，进一步提出基于多层递阶融合的模糊特征映射新方法，从而有效避免了因单层模糊特征映射之后特征维数过高而导致的数据混乱和冗余的问题。最后与模糊 C 均值算法相结合，提出基于多层递阶融合模糊特征映射的模糊 C 均值聚类算法。实验研究表明，文中算法相比于经典模糊聚类方法，有着更加优越、稳定的性能。关键词：Takagi-Sugeno-Kang (TSK) 模糊系统；主成分分析 (PCA)；无监督学习；模糊 C 均值聚类中图分类号：TP181 文献标志码：A 文章编号：1673−4785(2018)04−0594−08 中文引用格式：鲍国强, 应文豪, 蒋亦樟, 等. 多层递阶融合模糊特征映射的模糊 C 均值聚类算法[J]. 智能系统学报, 2018, 13(4): 594–601. 英文引用格式：BAO Guoqiang, YING Wenhao, JIANG Yizhang, et al. Fuzzy C-means clustering algorithm for multilayered hierarchical fusion fuzzy feature mapping[J]. CAAI transactions on intelligent systems, 2018, 13(4): 594–601. Fuzzy C-means clustering algorithm for multilayered hierarchical fusion fuzzy feature mapping BAO Guoqiang1,2 ，YING Wenhao3 ，JIANG Yizhang1,2 ，ZHANG Ying1,2 ，WANG Jun1,2 ， WANG Shitong1,2 (1. School of Digital Media, Jiangnan University, Wuxi 214122, China; 2. Jiangsu Key Laboratory of Media Design and Software Technology, Wuxi 214122, China; 3. School of Computer Science and Engineering, Changshu Institute of Technology, Changshu 215500, China) Abstract: In this paper, we propose a novel feature mapping technique called multilayer hierarchical fusion fuzzy feature mapping for the unsupervised learning of complex nonlinear data and combine it with the classical fuzzy C-means clustering. Based on the regular antecedent learning of the Takagi-Sugeno-Kang (TSK) fuzzy system, we first propose a novel fuzzy feature mapping method. Then, to address big data dimensions by fuzzy feature mapping, we propose a fuzzy feature mapping mechanism based on multilayer hierarchical fusion. This mechanism combines fuzzy feature mapping with principal component analysis (PCA), thereby avoiding the data confusion and redundancy caused by the high dimensionality of single-layer fuzzy feature mapping. Finally, we develop a novel FCM clustering algorithm based on multilayered hierarchical fusion feature mapping. The experimental results show that, in comparison with classical fuzzy clustering methods, the performance of the proposed algorithm is superior and more stable. Keywords: Takagi-Sugeno-Kang (TSK) fuzzy system; principal component analysis (PCA); unsupervised learning; fuzzy C-means clustering 近年来，面向复杂非线性数据的模糊聚类问题得到了研究人员的广泛关注[1-6]。在无监督学习环境中为了提高复杂非线性数据的可分性，一个收稿日期：2017−03−30. 网络出版日期：2017−07−02. 基金项目：国家自然科学基金项目 (61300151)；江苏省自然科学基金项目 (BK20160187，BK20161268，BK20151299)；江苏省产学研前瞻联合研究计划项目 (BY2015043-03). 通信作者：王骏. E-mail：wangjun_sytu@hotmail.com. 第 13 卷第 4 期智能系统学报 Vol.13 No.4 2018 年 8 月 CAAI Transactions on Intelligent Systems Aug. 2018

第4期鲍国强，等：多层递阶融合模糊特征映射的模糊C均值聚类算法 ·595· 重要的研究思路是使用非线性映射将数据映射到 AcR映射到输出空间的模糊集f(X),其中乘算高维空间中。在众多非线性映射方法中，核方法子、加算子分别作为合取和析取操作算子，加法作为经典的隐性映射方法得到了广泛的应用。算子作为组合算子时，TSK模糊模型的输出可以研究表明，核方法通过使用核函数代替内积运表示为算，将待分类数据隐性地映射到高维空间，从而 (X) 有助于复杂非线性数据的学习。但是，核方法还 (X)(x) (2) 存在着诸多局限性，尤其是如何针对不同的问题 v-i 选择合适的核函数和相关参数，这都会影响算法式中：止(X)和(X)分别表示为模糊集A相关的模的聚类效果。糊隶属函数和归一化模糊隶属函数。这两个函数模糊系统因其强大的不确定性系统建模能的计算公式分别为力、优良的可解释性和出色的泛化能力，近年来 '(X (3) 在复杂非线性数据学习问题中得到了大量的研究。在已有的经典模糊系统中，Takagi--Sugeno- 和 Kang(TSK)m模糊系统由于其良好的解释性和 w=tw/k (4) 简洁性得到了广泛应用。在TSK模糊系统中，其 v=1 规则前件部分通过显性映射方式（本文称之为模通常采用高斯函数作为模糊隶属函数，其计糊特征映射)，将输入数据映射到高维空间中去。算公式为从本质上讲，模糊特征映射可以视为一种特殊的 x-c)2 (5) 非线性映射方式。基于此，本文将输入数据进行 a:(x)=exp 26 相应的非线性映射。在具体实现过程中我们发式中：参数c和可以通过聚类技术或其他划分方现，经模糊特征映射后的特征维数过高，这会增法计算得出。通常使用模糊C均值(FCM)聚类加计算量，同时也导致了数据的冗余。为此，本算法进行数据集的初始划分，进而计算和d 文通过引入多层递阶融合机制和主成分分析，提公式为出新型的基于多层递阶融合的模糊特征映射新方 c= (6) 法。并将之与经典模糊聚类技术相结合，进一步 =1 提出基于多层递阶融合模糊特征映射的模糊 C均值聚类新方法。经实验验证，本文算法在处 =h∑u-c∑ae (7) =1 =1 理复杂非线性数据时能够取得比传统模糊聚类算式中：u表示通过FCM聚类计算出属于第k类的法更有效的聚类效果。第j个输入数据X=[x1x2…xdJ'的模糊隶属 1 Takagi-Sugeno-Kang模糊系统及模度。在这里，h是高斯函数的核带宽参数。令：糊特征映射 x.=1x四 (8) Takagi--Sugeno--Kang模糊系统模型u2是最重 t=()X (9) 要的用于建模与智能控制的模糊模型之一。对于 x=)(-() (10) 经典的T$K模糊模型，最常用的模糊推理规则的 P=店… (11) 定义如下：第k条模糊规则： ,=e'(ey'…(pi (12) F TSK模糊模型的训练问题转化为式(13)线性 x1 is AAx2isA货A…xan is A 回归模型的参数学习问题2： THEN y°=PX (13) f*(x)=+px1+…+pxa,k=1,2,…,K(I) 从式(13)中可以观察到，输入向量经式(8)~ 式中：A表示输入向量X第i维特征所对应的第 (10)计算，可以变换为一个(d+1)*K维的高维向 k条模糊规则的模糊子集；K表示模糊规则数；量，本文中我们将这一转换过程称为模糊特征映 Λ为模糊合取操作。每条规则都对应输入向量射。与已有核方法中的隐性映射相比，模糊特征 X=x1x2…x,并且把输人空间的模糊子集映射具有以下特点：1)它是一种显性映射方式

重要的研究思路是使用非线性映射将数据映射到高维空间中。在众多非线性映射方法中，核方法作为经典的隐性映射方法得到了广泛的应用[5-13]。研究表明，核方法通过使用核函数代替内积运算，将待分类数据隐性地映射到高维空间，从而有助于复杂非线性数据的学习。但是，核方法还存在着诸多局限性，尤其是如何针对不同的问题选择合适的核函数和相关参数，这都会影响算法的聚类效果。模糊系统因其强大的不确定性系统建模能力、优良的可解释性和出色的泛化能力，近年来在复杂非线性数据学习问题中得到了大量的研究。在已有的经典模糊系统中，Takagi-SugenoKang(TSK)[14-17]模糊系统由于其良好的解释性和简洁性得到了广泛应用。在 TSK 模糊系统中，其规则前件部分通过显性映射方式 (本文称之为模糊特征映射)，将输入数据映射到高维空间中去。从本质上讲，模糊特征映射可以视为一种特殊的非线性映射方式。基于此，本文将输入数据进行相应的非线性映射。在具体实现过程中我们发现，经模糊特征映射后的特征维数过高，这会增加计算量，同时也导致了数据的冗余。为此，本文通过引入多层递阶融合机制和主成分分析，提出新型的基于多层递阶融合的模糊特征映射新方法。并将之与经典模糊聚类技术相结合，进一步提出基于多层递阶融合模糊特征映射的模糊 C 均值聚类新方法。经实验验证，本文算法在处理复杂非线性数据时能够取得比传统模糊聚类算法更有效的聚类效果。 1 Takagi-Sugeno-Kang 模糊系统及模糊特征映射 Takagi-Sugeno-Kang 模糊系统模型[18-23]是最重要的用于建模与智能控制的模糊模型之一。对于经典的 TSK 模糊模型，最常用的模糊推理规则的定义如下：第 k 条模糊规则： IF x1 is A k 1 ∧ x2 is A k 2 ∧ ··· xd ∧ is A k d THEN f k (x) = p k 0 + p k 1 x1 +···+ p k d xd, k = 1,2,··· ,K (1) A k i ∧ X = [x1 x2 ··· xd] T 式中：表示输入向量 X 第 i 维特征所对应的第 k 条模糊规则的模糊子集；K 表示模糊规则数；为模糊合取操作。每条规则都对应输入向量，并且把输入空间的模糊子集 A k ⊂ R d f k 映射到输出空间的模糊集 (X) ，其中乘算子、加算子分别作为合取和析取操作算子，加法算子作为组合算子时，TSK 模糊模型的输出可以表示为 y 0 = ∑K k=1 µ k (X) ∑K k ′=1 µ k ′ (X) f k (X) = ∑K k=1 µ˜ k (X) f k (X) (2) µ k (X) µ˜ k (X) A 式中：和分别表示为模糊集 k相关的模糊隶属函数和归一化模糊隶属函数。这两个函数的计算公式分别为 µ k (X) = ∏d i=1 µA k i (xi) (3) 和 µ˜ k (X) = µ k (X)/ ∑K k ′=1 µ k ′ (X) (4) 通常采用高斯函数作为模糊隶属函数，其计算公式为 µA k i (xi) = exp   − ( xi − c k i )2 2δ k i   (5) c k i δ k i c k i δ k i 式中：参数和可以通过聚类技术或其他划分方法计算得出。通常使用模糊 C 均值 (FCM) 聚类算法进行数据集的初始划分，进而计算和公式为 c k i = ∑N j=1 ujkxji/ ∑N j=1 ujk (6) δ k i = h · ∑N j=1 ujk( xji − c k i )2 / ∑N j=1 ujk (7) ujk Xj = [ xj1 xj2 ··· xjd]T 式中：表示通过 FCM 聚类计算出属于第 k 类的第 j 个输入数据的模糊隶属度。在这里，h 是高斯函数的核带宽参数。令： Xe = [ 1 X T ]T (8) X˜ k = µ˜ k (X)Xe (9) Xg = [( X˜ 1 )T ( X˜ 2 )T ··· ( X˜ K )T ]T (10) P k = [ p k 0 p k 1 ··· p k d ]T (11) Pg = [( P 1 )T ( P 2 )T ··· ( P K )T ]T (12) TSK 模糊模型的训练问题转化为式 (13) 线性回归模型的参数学习问题[24] ： y 0 = P T g Xg (13) (d +1) ∗K 从式 (13) 中可以观察到，输入向量经式 (8)～ (10) 计算，可以变换为一个维的高维向量，本文中我们将这一转换过程称为模糊特征映射。与已有核方法中的隐性映射相比，模糊特征映射具有以下特点：1) 它是一种显性映射方式，第 4 期鲍国强，等：多层递阶融合模糊特征映射的模糊 C 均值聚类算法 ·595·

·596· 智能系统学报第13卷用户可以在高维特征空间中得到数据的显式表示间中的新表示。但是作为单层映射结构，会因映方法；2)模糊特征映射基于模糊规则进行构建，射后的特征维数过高使得数据变得混乱和冗余，而模糊规则本身具有较强的可解释性；3)输入向继而影响算法后续的聚类效果。研究表明2s26) 量经模糊特征映射后得到的高维特征向量的维数将单层映射结构改造为多层映射结构，可以有效可以由模糊规则数确定，这有利于用户控制高维地提高算法对复杂非线性数据的学习能力。为空间中数据的复杂程度。此，本文引入多层递阶融合的概念来构造新型的 2基于多层递阶融合模糊特征映射映射，提出基于多层递阶融合的模糊特征映射新的模糊C均值聚类算法方法(MLHFFFM)。通过对每层模糊特征映射之后的高维特征表示进行PCA降维，再进行相应的 2.1 基于多层递阶融合的模糊特征映射新方法信息补充，形成新的融合层，依次进入下一层的原数据通过模糊特征映射，得到其在高维空压缩融合过程，其结构如图1所示。高维融合融合 PCA 压缩模高维压缩融模糊高组糊空间空间合空间空间空间 Xg四 X阳 YSm X恩模糊模糊 MLHFFFM第1层特征特征输高维高维映射输模糊映射 MLHFFFM 模构食 MLHFFFM 空间第2层融合层空间第3层融合层 X四 X 图1 MLHFFFM算法结构图 Fig.1 Structure of MLHFFFM algorithm 基于多层递阶融合的模糊特征映射新方法 2.2 基于多层递阶融合模糊特征映射的模糊 MLHFFFM算法描述如下： C均值聚类算法MLHFFFM-FCM 输入给定一个数据集D={X,乃，设置初始本节中，将多层递阶融合模糊特征映射与经模糊规则数K,分层融合层数S。典模糊聚类算法FCM相结合，提出基于多层递阶输出经多层递阶融合后的数据矩阵X。融合模糊特征映射的模糊C均值聚类算法。ML- 1)对原数据进行第一层的模糊特征映射（初 HFFFM-FCM算法描述如下：始层) 输入给定一个数据集D={X,Y,设置初始 ①通过FCM算法计算出隶属度矩阵u; 模糊规则数K,分层融合层数S。 ②经式(6)和式(7)分别计算出对应的和 1)通过基于多层递阶融合的模糊特征映射， (=1,2,…,d,j户1,2，，n,k=1,2,,K) 将输入数据X转化为X。 ③通过高斯隶属度函数(5)和式(3)的计算 2)对最终压缩融合获得的数据矩阵X,采得到(X)(=1,2,…,K): 用FCM算法聚类。 ④再经过式(8)~(10)的转化，得到映射后高输出模糊划分矩阵U。维空间中的数据矩阵XeR+K。 2)多层递阶融合 3实验研究与分析 ①利用PCA对X进行压缩，得到数据矩阵为了验证MLHFFFM-FCM算法在复杂非线记为X爬：性数据分析上的有效性，本节从3个方面进行对 ②For=2:(S-1): 比分析：1)各FCM演变算法之间聚类效果的对比 ③重复步骤1)，对原数据进行模糊特征映实验；2)单层映射结构与多层递阶融合映射结构射，得到数据矩阵XO∈RxaK; 的聚类效果对比实验；3)关键参数敏感性的对比 ④x9=X阳X9 实验。 ⑤利用PCA对X进行压缩，得到数据矩阵 3.1算法性能的评价指标记为X; 为了对各类算法的聚类性能进行对比，本文 ⑥end; 采用NMI(normalized mutual information)和RI(rand

用户可以在高维特征空间中得到数据的显式表示方法；2) 模糊特征映射基于模糊规则进行构建，而模糊规则本身具有较强的可解释性；3) 输入向量经模糊特征映射后得到的高维特征向量的维数可以由模糊规则数确定，这有利于用户控制高维空间中数据的复杂程度。 2 基于多层递阶融合模糊特征映射的模糊 C 均值聚类算法 2.1 基于多层递阶融合的模糊特征映射新方法原数据通过模糊特征映射，得到其在高维空间中的新表示。但是作为单层映射结构，会因映射后的特征维数过高使得数据变得混乱和冗余，继而影响算法后续的聚类效果。研究表明[25-26] ，将单层映射结构改造为多层映射结构，可以有效地提高算法对复杂非线性数据的学习能力。为此，本文引入多层递阶融合的概念来构造新型的映射，提出基于多层递阶融合的模糊特征映射新方法 (MLHFFFM)。通过对每层模糊特征映射之后的高维特征表示进行 PCA 降维，再进行相应的信息补充，形成新的融合层，依次进入下一层的压缩融合过程，其结构如图 1 所示。基于多层递阶融合的模糊特征映射新方法 MLHFFFM 算法描述如下：输入给定一个数据集 D={X, Y}，设置初始模糊规则数 K，分层融合层数 S。 X (S) 输出经多层递阶融合后的数据矩阵 pca。 1) 对原数据进行第一层的模糊特征映射 (初始层) ① 通过 FCM 算法计算出隶属度矩阵 ujk ； c k i δ k i ··· ··· ··· ② 经式 (6) 和式 (7) 分别计算出对应的和 (i=1, 2, , d，j=1, 2, , n，k=1, 2, , K)； µ k (X) ··· ③ 通过高斯隶属度函数 (5) 和式 (3) 的计算得到 (k=1, 2, , K)； X (1) g ∈ R N×(d+1)∗K ④ 再经过式 (8)～(10) 的转化，得到映射后高维空间中的数据矩阵。 2) 多层递阶融合 X (1) g X (2) pca ① 利用 PCA 对进行压缩，得到数据矩阵记为； ② For i=2:(S-1)； X (i) g ∈ R N×dK ③ 重复步骤 1)，对原数据进行模糊特征映射，得到数据矩阵； X (i) lhffm= [ X (i) pca X (i) g ] ④ ； X (i) lhffm X (i+1) pca ⑤ 利用 PCA 对进行压缩，得到数据矩阵记为； ⑥ end； 2.2 基于多层递阶融合模糊特征映射的模糊 C 均值聚类算法 MLHFFFM-FCM 本节中，将多层递阶融合模糊特征映射与经典模糊聚类算法 FCM 相结合，提出基于多层递阶融合模糊特征映射的模糊 C 均值聚类算法。MLHFFFM-FCM 算法描述如下：输入给定一个数据集 D={X, Y}，设置初始模糊规则数 K，分层融合层数 S。 X (S) pca 1) 通过基于多层递阶融合的模糊特征映射，将输入数据 X 转化为。 X (S) 2) 对最终压缩融合获得的数据矩阵 pca，采用 FCM 算法聚类。输出模糊划分矩阵 U。 3 实验研究与分析为了验证 MLHFFFM-FCM 算法在复杂非线性数据分析上的有效性，本节从 3 个方面进行对比分析：1) 各 FCM 演变算法之间聚类效果的对比实验；2) 单层映射结构与多层递阶融合映射结构的聚类效果对比实验； 3) 关键参数敏感性的对比实验。 3.1 算法性能的评价指标为了对各类算法的聚类性能进行对比，本文采用 NMI(normalized mutual information) 和 RI(rand 输入层 X 输入层 X 高维模糊空间 X g (1) 高维模糊空间 X g (2) MLHFFFM 第1层 MLHFFFM 第2层融合层 MLHFFFM 第3层融合层 PCA 模糊特征映射压缩模糊空间 X (2) pca 压缩融合空间 X (3) pca 融合高维空间 X (2) lhffm 融合高维空间 X (3) lhffm 输入层 X 高维模糊空间 X g (3) … … 模糊 … 特征映射图 1 MLHFFFM 算法结构图 Fig. 1 Structure of MLHFFFM algorithm ·596· 智能系统学报第 13 卷

第4期鲍国强，等：多层递阶融合模糊特征映射的模糊C均值聚类算法 ·597· index)作为实验评价指标。这两个指标的值越接选择其中7个具有代表性的数据集Ar2、Diabetes、近1，说明算法聚类性能越好。其计算公式如下： Zoo、Australian、Breast、Heart、Chronic_Kidney_ 1)NMI Disease进行测试，其中数据集的相关信息如表1 ∑∑Ni.log N×N/W:×N 所示。同时本文选取5种经典的聚类算法与ML 海1=1 NMI= (14) HFFFM-FCM算法进行对比实验，分别为FCM算 N.xlog N./NN,xIogN IN 法、PCA-FCM算法、ELM-FCM算法、KFCM-K算法以及KFCM-F算法。所有实验运行平台的配置式中：N表示第个聚类与第类的契合程度，N表如下：酷睿i33.6 GHz CPU,3.42GRAM,32位示第个聚类所包含数据样本量，N,表示类j所包 Windows7操作系统，MATLAB R20I2b编程环含的数据样本量，而N表示整个数据样本大小。境。另外各算法相关说明及其参数设置如表2所 2)RI 示，其中各算法涉及的模糊指数m的寻优范围均 foo+fu RI=N(N-1)/2 (15) 为{1.2,1.4,1.6,1.8,2.0,2.2,2.4,2.6,2.8,3.0,3.2 3.4,3.6,3.8,4.0}。式中：fo表示数据点具有不同的类标签并且属于表1实验数据集不同类的配对点数目，σ则表示数据点具有相同 Table 1 Experimental data sets 的类标签并且属于同一类的配对点数目，而N表示整个数据样本的总量大小。以上两种方法，其数据集样本数n特征数d类别数c Ar 182 100 13 取值范围均为[0,1]，且均随着数值的增大，显示 Diabetes 768 8 出算法的性能更为优越。 Z00 101 16 > 3.2实验设置 Australian 690 14 我们采用UCI真实数据集(htp://archive.ics Breast 277 9 2 uci.edu/ml)/来评估本文算法。为了测试实验应用 Heart 270 13 2 数据集的广泛性以及避免选取数据集的偶然性， Chronic Kidney Disease 400 24 表2各算法的说明以及相关参数设置 Table 2 The description of the algorithm and related parameters 算法算法说明相关参数相关参数寻优范围设置 FCMR7 模糊C均值聚类算法模糊指数m 基于PCA特征提取的模糊 PCA-FCM 模糊指数m,特征提取数d C均值算法 d的寻优范围为{1,2,3,4,5,6,7,8,9,10} ELM-FCMP8] 基于ELM隐空间映射的模 m,的寻优范围为{100.2,00,300,400,500,600 模糊指数m,隐节点数nh 糊C均值算法 700,800900,1000} KFCM-K191 基于核空间的核模糊C均模糊指数m,核参数工 22,-x 值聚类算法 0由o2= 1j=2 计算得出 2 KFCM-FR9] 基于特征空间的核模糊C 模糊指数m,核参数工 22k,-xf 均值聚类算法 0由σ2 3 计算得出基于多层递阶融合模糊特模糊指数m,特征提取数d,d的寻优范围从1到数据集本身维度的一半， MLHFFFM-FCM 征映射的模糊C均值算法高斯函数的宽度参数h h的寻优范围为{102,10,10°，10,102} 3.3聚类效果对比实验置为5层，并根据表2的实验相关参数设置，分别为了验证MLHFFFM-FCM算法的有效性，本对各算法重复运行10次。最终的实验中各算法节对算法进行对比实验测试。在本实验中，将初的参数取值情况和实验结果如表3和表4所示。始模糊规则数r设置为30，多层递阶融合层数设

index) 作为实验评价指标。这两个指标的值越接近 1，说明算法聚类性能越好。其计算公式如下： 1) NMI NMI= ∑C i=1 ∑C j=1 Ni, j logN ×Ni, j/Ni ×Nj √ ∑C i=1 Ni ×logNi/N × ∑C j=1 Nj ×logNj/N (14) Ni, j i j Ni i Nj j 式中：表示第个聚类与第类的契合程度，表示第个聚类所包含数据样本量，表示类所包含的数据样本量，而 N 表示整个数据样本大小。 2) RI RI = f00 + f11 N(N −1)/2 (15) f00 σ 式中：表示数据点具有不同的类标签并且属于不同类的配对点数目，则表示数据点具有相同的类标签并且属于同一类的配对点数目，而 N 表示整个数据样本的总量大小。以上两种方法，其取值范围均为[0, 1]，且均随着数值的增大，显示出算法的性能更为优越。 3.2 实验设置我们采用 UCI 真实数据集 (http://archive.ics. uci.edu/ml/) 来评估本文算法。为了测试实验应用数据集的广泛性以及避免选取数据集的偶然性，选择其中 7 个具有代表性的数据集 Ar2、Diabetes、 Zoo、Australian、Breast、Heart、Chronic_Kidney_ Disease 进行测试，其中数据集的相关信息如表 1 所示。同时本文选取 5 种经典的聚类算法与 MLHFFFM-FCM 算法进行对比实验，分别为 FCM 算法、PCA-FCM 算法、ELM-FCM 算法、KFCM-K 算法以及 KFCM-F 算法。所有实验运行平台的配置如下：酷睿 i3 3.6 GHz CPU，3.42 G RAM，32 位 Windows 7 操作系统，MATLAB R2012b 编程环境。另外各算法相关说明及其参数设置如表 2 所示，其中各算法涉及的模糊指数 m 的寻优范围均为{1.2, 1.4, 1.6, 1.8, 2.0, 2.2, 2.4, 2.6, 2.8, 3.0, 3.2, 3.4, 3.6, 3.8, 4.0}。 3.3 聚类效果对比实验为了验证 MLHFFFM-FCM 算法的有效性，本节对算法进行对比实验测试。在本实验中，将初始模糊规则数 r 设置为 30，多层递阶融合层数设置为 5 层，并根据表 2 的实验相关参数设置，分别对各算法重复运行 10 次。最终的实验中各算法的参数取值情况和实验结果如表 3 和表 4 所示。表 1 实验数据集 Table 1 Experimental data sets 数据集样本数 n 特征数 d 类别数 c Ar2 182 100 13 Diabetes 768 8 2 Zoo 101 16 7 Australian 690 14 2 Breast 277 9 2 Heart 270 13 2 Chronic_Kidney_Disease 400 24 2 表 2 各算法的说明以及相关参数设置 Table 2 The description of the algorithm and related parameters 算法算法说明相关参数相关参数寻优范围设置 FCM[27] 模糊 C 均值聚类算法模糊指数 m PCA-FCM 基于 PCA 特征提取的模糊 C 均值算法模糊指数 m，特征提取数 d d 的寻优范围为{1, 2, 3, 4, 5, 6, 7, 8, 9, 10} ELM-FCM[28] 基于 ELM 隐空间映射的模糊 C 均值算法模糊指数 m，隐节点数 nh nh 的寻优范围为{100, 2, 00, 300, 400, 500, 600, 700, 800, 900, 1 000} KFCM-K[29] 基于核空间的核模糊 C 均值聚类算法模糊指数 m，核参数σ σ σ 2 = ∑n i=1 ∑n j=2 xi − xj 2 n 由 2 计算得出 KFCM-F[29] 基于特征空间的核模糊 C 均值聚类算法模糊指数 m，核参数σ σ σ 2 = ∑n i=1 ∑n j=2 xi − xj 2 n 由 2 计算得出 MLHFFFM-FCM 基于多层递阶融合模糊特征映射的模糊 C 均值算法模糊指数 m，特征提取数 d，高斯函数的宽度参数 h d 的寻优范围从 1 到数据集本身维度的一半， h 的寻优范围为{10–2, 10–1, 100 , 101 , 102 } 第 4 期鲍国强，等：多层递阶融合模糊特征映射的模糊 C 均值聚类算法 ·597·

·598· 智能系统学报第13卷表3各算法参数取值情况 Table 3 Parameter values of each algorithm 数据集 FCM PCA-FCM ELM-FCM KFCM-K KFCM-F MLHFFFM-FCM 月%=200 m=1.2 Ar2 左10 n1=2.0 m=2.8 m=3.4 h=100 =1.6 m=1.4 =0.8 U=1.4 d17 Diabetes m=2.4 2 %=600 n1=2.2 m=1.6 nm=1.4 h=1 m=1.2 m=2.4 =0.4 =1.2 d-1 Z00 e1.4 d=5 n=1000 =1.2 m=1.6 m=1.8 h=100 m=1.4 m=1.8 =1.4 =0.8 d=9 m=1.2 Australian m=2.0 d=2 nw=100 mF1.2 m=1.2 h=100 m=2.6 m=2.0 0=2.0 =1.4 -9 =1.4 Breast m=3.6 d1 n=100 e1.2 m=4.6 h=10 m=1.2 m=1.2 w=1.8 =0.4 d=1 m=4.6 n1=2.6 作3 Heart m=3.2 n%=100 m=1.2 m=3.2 m=2.2 U=2.0 h=10 =0.6 d=2 n1=2.6 n1e1.2 m=4.0 Chronic_Kidney_Disease m=3.6 d=7 m%=800 m=4.0 m=1.2 σ=1.1 =1.1 h=10 d=11 表4各算法的运行结果 Table 4 Results of each algorithm 数据集性能指标 FCM PCA-FCM ELM-FCM KFCM-K KFCM-F MLHFFFM-FCM RI mean 0.772 5 0.9501 0.8605 0.8664 0.8386 0.9790 Ar2 RI std 0.0505 0.0025 0.0050 0.0067 0.0198 0.0011 NMI mean 0.5656 0.7893 0.4597 0.3337 0.6271 0.9353 NMI std 0.0358 0.0075 0.0152 0.0295 0.0096 0.0066 RI_mean 0.5591 0.5507 0.5430 0.5723 0.5576 0.5935 Diabetes RI std 0.0048 0 0.0012 0.0020 0 0.0130 NMI mean 0.0733 0.0297 0.0118 0.1187 0.0658 0.0946 NMI_std 0.0083 0 0.0044 0.0030 0 0.0201 RI mean 0.8825 0.8930 0.8264 0.9044 0.9034 0.9187 Zoo RI std 0.0290 0.0201 0.0027 0.0271 0.0832 0.0293 NMI_mean 0.7474 0.7676 0.5663 0.8338 0.7884 0.7962 NMI_std 0.0350 0.0288 0.0058 0.0211 0.1110 0.0245 RI mean 0.7285 0.5071 0.5050 0.7436 0.7336 0.7539 Australian RI std 0.0802 0 0 0 0 0 NMI_mean 0.3880 0.0344 0.0099 0.4159 0.3992 0.4310 NMI_std 0.1361 0 0 0 0 0 RI mean 0.5598 0.6004 0.4982 0.5329 0.5689 0.6297 Breast RI std 0.0524 0 0.0003 0.0473 0.0662 0.0033 NMI_mean 0.0654 0.0897 0.0030 0.0322 0.0577 0.1073 NMI_std 0.0510 0 0 0.0422 0.0567 0.0078 RI mean 0.5229 0.5229 0.5048 0.6674 0.6833 0.7373 Heart RI std 0 0 0.0030 0.0024 0 0.0117 NMI mean 0.032 8 0.0328 0.0388 0.2609 0.2806 0.3870 NMI_std 0 0 0.0588 0.0035 0 0.0214 RI mean 0.78340.7894 0.5009 0.8695 0.8652 0.8825 Chronic Kidney Disease RI std 0.0060 0.0036 0 0 0 0 NMI mean 0.5178 0.5187 0.0830 0.6364 0.6386 0.7053 NMI std 0.0086 0.0053 0 0 0 0

表 3 各算法参数取值情况 Table 3 Parameter values of each algorithm 数据集 FCM PCA-FCM ELM-FCM KFCM-K KFCM-F MLHFFFM-FCM Ar2 m=2.8 d=10 m=1.6 nh=200 m=1.4 σ m=2.0 =0.8 σ m=3.4 =1.4 m=1.2 h=100 d=17 Diabetes m=2.4 d=2 m=1.2 nh=600 m=2.4 σ m=2.2 =0.4 σ m=1.6 =1.2 m=1.4 h=1 d=7 Zoo m=1.4 d=5 m=1.4 nh=1 000 m=1.8 σ m=1.2 =1.4 σ m=1.6 =0.8 m=1.8 h=100 d=9 Australian m=2.0 d=2 m=2.6 nh=100 m=2.0 σ m=1.2 =2.0 σ m=1.2 =1.4 m=1.2 h=100 d=9 Breast m=3.6 d=1 m=1.2 nh=100 m=1.2 σ m=1.2 =1.8 σ m=4.6 =0.4 m=1.4 h=10 d=1 Heart m=3.2 d=3 m=3.2 nh=100 m=2.2 σ m=4.6 =2.0 σ m=1.2 =0.6 m=2.6 h=10 d=2 Chronic_Kidney_Disease m=3.6 d=7 m=4.0 nh=800 m=1.2 σ m=1.2 =1.1 σ m=4.0 =1.1 m=2.6 h=10 d=11 表 4 各算法的运行结果 Table 4 Results of each algorithm 数据集性能指标 FCM PCA-FCM ELM-FCM KFCM-K KFCM-F MLHFFFM-FCM RI_mean 0.772 5 0.950 1 0.860 5 0.866 4 0.838 6 0.979 0 Ar2 RI_std 0.050 5 0.002 5 0.005 0 0.006 7 0.019 8 0.001 1 NMI_mean 0.565 6 0.789 3 0.459 7 0.333 7 0.627 1 0.935 3 NMI_std 0.035 8 0.007 5 0.015 2 0.029 5 0.009 6 0.006 6 RI_mean 0.559 1 0.550 7 0.543 0 0.572 3 0.557 6 0.593 5 Diabetes RI_std 0.004 8 0 0.001 2 0.002 0 0 0.013 0 NMI_mean 0.073 3 0.029 7 0.011 8 0.118 7 0.065 8 0.094 6 NMI_std 0.008 3 0 0.004 4 0.003 0 0 0.020 1 RI_mean 0.882 5 0.893 0 0.826 4 0.904 4 0.903 4 0.918 7 Zoo RI_std 0.029 0 0.020 1 0.002 7 0.027 1 0.083 2 0.029 3 NMI_mean 0.747 4 0.767 6 0.566 3 0.833 8 0.788 4 0.796 2 NMI_std 0.035 0 0.028 8 0.005 8 0.021 1 0.111 0 0.024 5 RI_mean 0.728 5 0.507 1 0.505 0 0.743 6 0.733 6 0.753 9 Australian RI_std 0.080 2 0 0 0 0 0 NMI_mean 0.388 0 0.034 4 0.009 9 0.415 9 0.399 2 0.431 0 NMI_std 0.136 1 0 0 0 0 0 RI_mean 0.559 8 0.600 4 0.498 2 0.532 9 0.568 9 0.629 7 Breast RI_std 0.052 4 0 0.000 3 0.047 3 0.066 2 0.003 3 NMI_mean 0.065 4 0.089 7 0.003 0 0.032 2 0.057 7 0.107 3 NMI_std 0.051 0 0 0 0.042 2 0.056 7 0.007 8 RI_mean 0.522 9 0.522 9 0.504 8 0.667 4 0.683 3 0.737 3 Heart RI_std 0 0 0.003 0 0.002 4 0 0.011 7 NMI_mean 0.032 8 0.032 8 0.038 8 0.260 9 0.280 6 0.387 0 NMI_std 0 0 0.058 8 0.003 5 0 0.021 4 RI_mean 0.783 4 0.789 4 0.500 9 0.869 5 0.865 2 0.882 5 Chronic_Kidney_Disease RI_std 0.006 0 0.003 6 0 0 0 0 NMI_mean 0.517 8 0.518 7 0.083 0 0.636 4 0.638 6 0.705 3 NMI_std 0.008 6 0.005 3 0 0 0 0 ·598· 智能系统学报第 13 卷

第4期鲍国强，等：多层递阶融合模糊特征映射的模糊C均值聚类算法 ·599· 从表4中可以明显地看出，在聚类精度上，文聚类。实验最终的参数取值情况和结果如表5和中涉及的对比算法只能在某个或某几个数据集上表6所示，其中因受篇幅所限，仅在表6中给出取得较优的结果，而MLHFFFM-FCM算法不仅在 RI指标结果，NMI与之有类似的结果，不再列出。所有的测试数据集上取得满意的结果，并且还有从表5和表6中可以明显地观察出，相比于着明显的提高。这说明了MLHFFFM-FCM算法单层映射结构，基于多层递阶融合映射结构的模的有效性，也进一步说明了该算法处理复杂非线糊聚类方法能够取得更好的学习效果。这是由于性数据的强大能力。在单层映射之后的数据存在冗余信息，而在压缩 3.4单层映射结构与多层递阶融合映射结构的之后又会导致信息缺失。但是多层递阶融合的映聚类效果对比实验与分析射结构是建立在单层映射结构的基础上，采用为了体现本文算法引入的多层递阶融合方法 PCA技术对每一层模糊特征映射得到的高维特的优越性，本节实验针对多层递阶融合映射结构征表示进行压缩，再对应地结合每一层数据信息对FCM算法性能的影响进行实验与分析。实验融合形成的。因此通过多层递阶融合的方法，可在模糊规则数设置相同的情况下，分别采用单层以有效地精简冗余信息，同时对每一层进行适当映射结构和多层递阶融合映射结构对原输入数据的信息弥补。这也充分体现了本文提出的多层递进行非线性映射，将映射后的数据采用FCM进行阶融合映射结构的优越。表5两种算法结构的参数取值情况 Table 5 Parameter selection of two algorithms 算法映射结构 Ar2 Diabetes Z00 Australian Breast Heart Chronic Kidney Disease 单层 m=4.0 m=1.4 m=1.6 nm=1.2 m=1.2 m=1.4 i=3.4 h=100 h=1 h=100 h=100 h=0.1 h=10 h=10 m=1.2 m=1.4 m=1.8 m=1.2 m=1.4 m=2.6 m=2.6 多层递阶融合 h=100 hl h=100 h=100 h=10 h=10 h=10 d=17 d-7 d=9 d=9 1 d=2 d11 表6两种算法结构的RI_mean性能指标 Table 6 Performance index of two algorithms 算法映射结构 Ar2 Diabetes Z00 Australian Breast Heart Chronic Kidney Disease 单层 0.8590 0.5680 0.8945 0.7539 0.5971 0.7041 0.8762 多层递阶融合 0.9790 0.5935 0.9187 0.7539 0.6297 0.7373 0.8825 3.5参数敏感性实验状态，这说明MLHFFFM-FCM算法对模糊规则模糊规则数r作为MLHFFFM-FCM算法中的数r不敏感。结合上述实验也从另一个方面体现关键参数，本节针对该参数进行参数敏感性实了采用本文提出的基于多层递阶融合映射方法的验。这里为了让实验结果能够直观地进行观察与优越性，它不仅保证了算法的聚类效果，还克服对比，我们同时对KFCM-F算法中的关键参数了KFCM-F等算法对参数敏感的问题，这更有利 σ进行参数敏感性实验，进而研究模糊规则数这于该算法在实际问题中的应用。一关键参数对MLHFFFM-FCM算法性能的影响。 1.0 0.9 实验中，MLHFFFM-FCM模糊规则数r的实验取 0.8 值范围为{5,10,15,20,25,30,35,40,45,50}， 0.7 KFCM-F算法中核参数σ的实验取值范围为{0.1， 0.6 0.5 1.5,10,50,100,150,200,500,1000},实验最终结 ◆Ar, 0.4 Australian -Breast 果分别如图2和图3所示。 03 -Diabetes 0.2 -e-Heart 从图2中不难看出，KFCM-F算法的性能随 -0-Z00 0.1 Chronic Kidney Disease 核参数σ变化出现很大的波动，这说明核参数σ对 0 0r 10° 101 102 103 KFCM-F算法的性能有很大的影响。相反，由图3 核参数a 可以观察到，模糊规则数r对MLHFFFM-FCM 图2KFCM-F算法性能随σ变化的影响算法性能的影响很小，算法性能始终保持稳定的 Fig.2 Effect of o on the performance of KFCM-F

从表 4 中可以明显地看出，在聚类精度上，文中涉及的对比算法只能在某个或某几个数据集上取得较优的结果，而 MLHFFFM-FCM 算法不仅在所有的测试数据集上取得满意的结果，并且还有着明显的提高。这说明了 MLHFFFM-FCM 算法的有效性，也进一步说明了该算法处理复杂非线性数据的强大能力。 3.4 单层映射结构与多层递阶融合映射结构的聚类效果对比实验与分析为了体现本文算法引入的多层递阶融合方法的优越性，本节实验针对多层递阶融合映射结构对 FCM 算法性能的影响进行实验与分析。实验在模糊规则数设置相同的情况下，分别采用单层映射结构和多层递阶融合映射结构对原输入数据进行非线性映射，将映射后的数据采用 FCM 进行聚类。实验最终的参数取值情况和结果如表 5 和表 6 所示，其中因受篇幅所限，仅在表 6 中给出 RI 指标结果，NMI 与之有类似的结果，不再列出。从表 5 和表 6 中可以明显地观察出，相比于单层映射结构，基于多层递阶融合映射结构的模糊聚类方法能够取得更好的学习效果。这是由于在单层映射之后的数据存在冗余信息，而在压缩之后又会导致信息缺失。但是多层递阶融合的映射结构是建立在单层映射结构的基础上，采用 PCA 技术对每一层模糊特征映射得到的高维特征表示进行压缩，再对应地结合每一层数据信息融合形成的。因此通过多层递阶融合的方法，可以有效地精简冗余信息，同时对每一层进行适当的信息弥补。这也充分体现了本文提出的多层递阶融合映射结构的优越。 3.5 参数敏感性实验 σ σ 模糊规则数 r 作为 MLHFFFM-FCM 算法中的关键参数，本节针对该参数进行参数敏感性实验。这里为了让实验结果能够直观地进行观察与对比，我们同时对 KFCM-F 算法中的关键参数进行参数敏感性实验，进而研究模糊规则数这一关键参数对 MLHFFFM-FCM 算法性能的影响。实验中，MLHFFFM-FCM 模糊规则数 r 的实验取值范围为{5, 10, 15, 20, 25, 30, 35, 40, 45, 50}， KFCM-F 算法中核参数的实验取值范围为{0.1, 1.5, 10, 50, 100, 150, 200, 500, 1 000}，实验最终结果分别如图 2 和图 3 所示。 σ σ 从图 2 中不难看出，KFCM-F 算法的性能随核参数变化出现很大的波动，这说明核参数对 KFCM-F 算法的性能有很大的影响。相反，由图 3 可以观察到，模糊规则数 r 对 MLHFFFM-FCM 算法性能的影响很小，算法性能始终保持稳定的状态，这说明 MLHFFFM-FCM 算法对模糊规则数 r 不敏感。结合上述实验也从另一个方面体现了采用本文提出的基于多层递阶融合映射方法的优越性，它不仅保证了算法的聚类效果，还克服了 KFCM-F 等算法对参数敏感的问题，这更有利于该算法在实际问题中的应用。表 5 两种算法结构的参数取值情况 Table 5 Parameter selection of two algorithms 算法映射结构 Ar2 Diabetes Zoo Australian Breast Heart Chronic_Kidney_Disease 单层 m=4.0 h=100 m=1.4 h=1 m=1.6 h=100 m=1.2 h=100 m=1.2 h=0.1 m=1.4 h=10 m=3.4 h=10 多层递阶融合 m=1.2 h=100 d=17 m=1.4 h=1 d=7 m=1.8 h=100 d=9 m=1.2 h=100 d=9 m=1.4 h=10 d=1 m=2.6 h=10 d=2 m=2.6 h=10 d=11 表 6 两种算法结构的 RI_mean 性能指标 Table 6 Performance index of two algorithms 算法映射结构 Ar2 Diabetes Zoo Australian Breast Heart Chronic_Kidney_Disease 单层 0.859 0 0.568 0 0.894 5 0.753 9 0.597 1 0.704 1 0.876 2 多层递阶融合 0.979 0 0.593 5 0.918 7 0.753 9 0.629 7 0.737 3 0.882 5 Ar2 Australian Breast Diabetes Heart Zoo Chronic Kidney Disease 1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 10−1 100 RI 101 核参数σ 102 103 图 2 KFCM-F 算法性能随σ变化的影响 Fig. 2 Effect of σ on the performance of KFCM-F 第 4 期鲍国强，等：多层递阶融合模糊特征映射的模糊 C 均值聚类算法 ·599·

·600· 智能系统学报第13卷 1.0r Chongqing university of posts and telecommunications 0.9 natural science edition.2016.28(2):254-259. 0.8 0.7 [7]阎辉，张学工，李衍达.基于核函数的最大间隔聚类算法 0.6 [.清华大学学报：自然科学版，2002,42(1)132-134. ￥0.5 --Ar. YAN Hui,ZHANG Xuegong,LI Yanda.Kernel-based 0.4 Australian 0.3 Breast maximal-margin clustring algorithm[J].Journal of Diabetes 0.2 -e-Heart Tsinghua university:science and technology,2002,42(1): 0.1 0-Z00 Chronic Kidney Disease 132-134 0 5101520253035404550 [8]MA Bo,QU Huiyang,WONG H S.Kernel clustering- 模糊规则数， based discriminant analysis[J].Pattern recognition,2007, 图3 MLHFFFM-FCM算法性能随模糊规则数r变化的 40(1)324327. 影响 [9]LIAO Li,ZHOU Jianzhong,ZOU Qiang.Weighted fuzzy Fig.3 Effect of fuzzy rules r on the performance of ML- kernel-clustering algorithm with adaptive differential evol- HFFFM-FCM ution and its application on flood classification[J].Natural 4结束语 hazards.2013,69(1)279-293. [10]李侃，刘玉树.模糊核聚类的自适应算法[几.控制与决本文提出的MLHFFFM-FCM算法，是一种采策，2004,195)：595-597 用新型的显性映射方式来处理复杂非线性数据的 LI Kan,LIU Yushu.Fuzzy kernel clustering self-adapt- ive algorithm[J].Control and decision,2004,19(5) 无监督学习方法。相比于现有的核函数映射方 595-597. 法，MLHFFFM-FCM算法在取得良好聚类效果的 [11]WANG Jun,DENG Zhaohong,JIANG Yizhang,et al 同时，还对算法中模糊规则数不敏感，这更有利 Multiple-kernel based soft subspace fuzzy clustering 于算法在实际应用中的选用。但是本文提出的 [C]//Proceedings of 2014 IEEE International Conference MLHFFFM-FCM算法仍然具有一定的缺陷，例如 on Fuzzy Systems.Beijing,China,2014:186-193. 对于高维数据，其时间开销较大。如何有效克服 [12]WANG Jun.DENG Zhaohong,CHOI K S,et al.Dis- 这些问题，将是今后进一步研究的重点。 tance metric learning for soft subspace clustering in com- posite Kernel space[J].Pattern recognition,2015,52: 参考文献： 113-134 [13]GIROLAMI M.Mercer kernel-based clustering in feature [1]王骏，王土同，邓赵红.聚类分析研究中的若干问题[) space[J].IEEE transactions on neural networks,2002, 控制与决策，2012,27(3：321-328. 13(3):780-784. WANG Jun,WANG Shitong,DENG Zhaohong.Survey [14]MENDEZ G M,DE LOS ANGELES HERNANDEZ M. on challenges in clustering analysis research[J].Control Hybrid learning mechanism for interval A2-CI type-2 and decision,2012,27(3):321-328 non-singleton type-2 Takagi-Sugeno-Kang fuzzy logic [2]李宝刚.基于读者日志分析的模糊聚类研究).价值工 systems[J].Information sciences,2013,220:149-169. 程，2011,30(33：146-147. [15]TSAKONAS A.GABRYS B.Evolving Takagi-Sugeno- Li Baogang.The fuzzy clustering on analyzing reader's Kang fuzzy systems using multi[J].Journal of clinical en- log[J].Value engineering,2011,30(33):146-147. docrinology and metabolism,2011,96(12):3603-3608. [3]PENG Hong,WANG Jun,PEREZ-JIMENEZ M J,et al. [16]CHUANG CC,SU Shunfeng,CHEN SS.Robust TSK An unsupervised learning algorithm for membrane com- fuzzy modeling for function approximation with outliers puting[J].Information sciences,2015,304:80-91. [J].IEEE transactions on fuzzy systems,2001,9(6): [4]QIN Chen,SONG Shiji,HUANG Gao,et al.Unsuper- 810-821. vised neighborhood component analysis for clustering[J]. [17]SUGENO M.KANG G T.Structure identification of Neurocomputing,2015,168:609-617. fuzzy model[J].Fuzzy sets and systems,1988,28(1): [5]XU Yan,QIU Peng,ROYSAM B.Unsupervised discov- 15-33. ery of subspace trends[J].IEEE transactions on pattern [18]PRICE A L,PATTERSON N J,PLENGE R M,et al. analysis and machine intelligence,2015,37(10):2131- Principal components analysis corrects for stratification in 2145. genome-wide association studies[J].Nature genetics, [6]杨玉梅.基于信息嫡改进的K-means动态聚类算法[J 2006.38(8):904-909. 重庆邮电大学学报：自然科学版，2016,28(2)：254-259， [19]JOLLIFFE I T.Principal component analysis[M].Berlin: YANG Yumei.Improved K-means dynamic clustering al- Springer,2012:41-64. gorithm based on information entropy[J].Journal of [20]冯斌，须文波.基于TSK模糊系统的生化变量预估模型

4 结束语本文提出的 MLHFFFM-FCM 算法，是一种采用新型的显性映射方式来处理复杂非线性数据的无监督学习方法。相比于现有的核函数映射方法，MLHFFFM-FCM 算法在取得良好聚类效果的同时，还对算法中模糊规则数不敏感，这更有利于算法在实际应用中的选用。但是本文提出的 MLHFFFM-FCM 算法仍然具有一定的缺陷，例如对于高维数据，其时间开销较大。如何有效克服这些问题，将是今后进一步研究的重点。参考文献：王骏, 王士同, 邓赵红. 聚类分析研究中的若干问题[J]. 控制与决策, 2012, 27(3): 321–328. WANG Jun, WANG Shitong, DENG Zhaohong. Survey on challenges in clustering analysis research[J]. Control and decision, 2012, 27(3): 321–328. [1] 李宝刚. 基于读者日志分析的模糊聚类研究[J]. 价值工程, 2011, 30(33): 146–147. Li Baogang. The fuzzy clustering on analyzing reader's log[J]. Value engineering, 2011, 30(33): 146–147. [2] PENG Hong, WANG Jun, PÉREZ-JIMÉNEZ M J, et al. An unsupervised learning algorithm for membrane computing[J]. Information sciences, 2015, 304: 80–91. [3] QIN Chen, SONG Shiji, HUANG Gao, et al. Unsupervised neighborhood component analysis for clustering[J]. Neurocomputing, 2015, 168: 609–617. [4] XU Yan, QIU Peng, ROYSAM B. Unsupervised discovery of subspace trends[J]. IEEE transactions on pattern analysis and machine intelligence, 2015, 37(10): 2131– 2145. [5] 杨玉梅. 基于信息熵改进的 K-means 动态聚类算法[J]. 重庆邮电大学学报: 自然科学版, 2016, 28(2): 254–259. YANG Yumei. Improved K-means dynamic clustering algorithm based on information entropy[J]. Journal of [6] Chongqing university of posts and telecommunications: natural science edition, 2016, 28(2): 254–259. 阎辉, 张学工, 李衍达. 基于核函数的最大间隔聚类算法 [J]. 清华大学学报: 自然科学版, 2002, 42(1): 132–134. YAN Hui, ZHANG Xuegong, LI Yanda. Kernel-based maximal-margin clustring algorithm[J]. Journal of Tsinghua university: science and technology, 2002, 42(1): 132–134. [7] MA Bo, QU Huiyang, WONG H S. Kernel clusteringbased discriminant analysis[J]. Pattern recognition, 2007, 40(1): 324–327. [8] LIAO Li, ZHOU Jianzhong, ZOU Qiang. Weighted fuzzy kernel-clustering algorithm with adaptive differential evolution and its application on flood classification[J]. Natural hazards, 2013, 69(1): 279–293. [9] 李侃, 刘玉树. 模糊核聚类的自适应算法[J]. 控制与决策, 2004, 19(5): 595–597. LI Kan, LIU Yushu. Fuzzy kernel clustering self-adaptive algorithm[J]. Control and decision, 2004, 19(5): 595–597. [10] WANG Jun, DENG Zhaohong, JIANG Yizhang, et al. Multiple-kernel based soft subspace fuzzy clustering [C]//Proceedings of 2014 IEEE International Conference on Fuzzy Systems. Beijing, China, 2014: 186–193. [11] WANG Jun, DENG Zhaohong, CHOI K S, et al. Distance metric learning for soft subspace clustering in composite Kernel space[J]. Pattern recognition, 2015, 52: 113–134. [12] GIROLAMI M. Mercer kernel-based clustering in feature space[J]. IEEE transactions on neural networks, 2002, 13(3): 780–784. [13] MÉNDEZ G M, DE LOS ANGELES HERNÁNDEZ M. Hybrid learning mechanism for interval A2-C1 type-2 non-singleton type-2 Takagi-Sugeno-Kang fuzzy logic systems[J]. Information sciences, 2013, 220: 149–169. [14] TSAKONAS A, GABRYS B. Evolving Takagi-SugenoKang fuzzy systems using multi[J]. Journal of clinical endocrinology and metabolism, 2011, 96(12): 3603–3608. [15] CHUANG C C, SU Shunfeng, CHEN S S. Robust TSK fuzzy modeling for function approximation with outliers [J]. IEEE transactions on fuzzy systems, 2001, 9(6): 810–821. [16] SUGENO M, KANG G T. Structure identification of fuzzy model[J]. Fuzzy sets and systems, 1988, 28(1): 15–33. [17] PRICE A L, PATTERSON N J, PLENGE R M, et al. Principal components analysis corrects for stratification in genome-wide association studies[J]. Nature genetics, 2006, 38(8): 904–909. [18] JOLLIFFE I T. Principal component analysis[M]. Berlin: Springer, 2012: 41–64. [19] [20] 冯斌, 须文波. 基于 TSK 模糊系统的生化变量预估模型 Ar2 Australian Breast Diabetes Heart Zoo Chronic Kidney Disease 1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 15 RI 30 模糊规则数r 5 20 35 10 25 40 45 50 图 3 MLHFFFM-FCM 算法性能随模糊规则数 r 变化的影响 Fig. 3 Effect of fuzzy rules r on the performance of MLHFFFM-FCM ·600· 智能系统学报第 13 卷

第4期鲍国强，等：多层递阶融合模糊特征映射的模糊C均值聚类算法 ·601· [).计算机与应用化学，2006,23(4：343-346. treme learning machine feature space[J].Neurocomput- FENG Bin.XU Wenbo.Biochemical variable estimation ing,2014,128:88-95. model based on TSK fuzzy system[J].Computers and ap- [29]GRAVES D.PEDRYCZ W.Kernel-based fuzzy cluster- plied chemistry,2006,23(4):343-346. [21]WU Dongrui.Approaches for reducing the computational ing and fuzzy clustering:a comparative experimental cost of interval type-2 fuzzy logic systems:overview and study[J].Fuzzy sets and systems,2010,161(4):522-543. comparisons[J].IEEE transactions on fuzzy systems, 作者简介： 2013,21(1)80-99. 鲍国强，男，1992年生，硕士研究 [22]DENG Zhaohong,CHOI K S,CHUNG F L,et al.Scal- 生，主要研究方向为智能计算与模式 able TSK fuzzy modeling for very large datasets using 识别。 minimal-enclosing-ball approximation[J].IEEE transac- tions on fuzzy systems,2011,19(2):210-226. [23】]蒋亦樟，邓赵红，王士同.ML型迁移学习模糊系统. 自动化学报，2012.38(9)：1393-1409. JIANG Yizhang,DENG Zhaohong,WANG Shitong. Mamdani-larsen type transfer learning fuzzy system[J]. 应文豪，男，1979年生.副教授， Acta automatica sinica,2012,38(9):1393-1409. 博士，主要研究方向为模式识别与智 [24]LESKIJ M.TSK-fuzzy modeling based on -insensitive 能计算。 learning[J].IEEE transactions on fuzzy systems,2005, 13(2):181-193 [25]ZHOU Hongming,HUANG Guangbin,LIN Zhiping,et al.Stacked extreme learning machines[J].IEEE transac- tions on cybernetics,2015,45(9):2013-2025. 蒋亦樟.男，1988年生.讲师，博 [26]LECUN Y,BENGIO Y,HINTON G.Deep learning[J]. 土，主要研究方向为模式识别与智能 Nature,2015,521(7553):436-444. 计算。 [27]BEZDEK J C,EHRLICH R,FULL W.FCM:the fuzzy c- means clustering algorithm[J].Computers and geosciences, 1984,10(2/3):191-203. [28]HE Qing,JIN Xin,DU Changying,et al.Clustering in ex-

[J]. 计算机与应用化学, 2006, 23(4): 343–346. FENG Bin, XU Wenbo. Biochemical variable estimation model based on TSK fuzzy system[J]. Computers and applied chemistry, 2006, 23(4): 343–346. WU Dongrui. Approaches for reducing the computational cost of interval type-2 fuzzy logic systems: overview and comparisons[J]. IEEE transactions on fuzzy systems, 2013, 21(1): 80–99. [21] DENG Zhaohong, CHOI K S, CHUNG F L, et al. Scalable TSK fuzzy modeling for very large datasets using minimal-enclosing-ball approximation[J]. IEEE transactions on fuzzy systems, 2011, 19(2): 210–226. [22] 蒋亦樟, 邓赵红, 王士同. ML 型迁移学习模糊系统[J]. 自动化学报, 2012, 38(9): 1393–1409. JIANG Yizhang, DENG Zhaohong, WANG Shitong. Mamdani-larsen type transfer learning fuzzy system[J]. Acta automatica sinica, 2012, 38(9): 1393–1409. [23] LESKI J M. TSK-fuzzy modeling based on ε-insensitive learning[J]. IEEE transactions on fuzzy systems, 2005, 13(2): 181–193. [24] ZHOU Hongming, HUANG Guangbin, LIN Zhiping, et al. Stacked extreme learning machines[J]. IEEE transactions on cybernetics, 2015, 45(9): 2013–2025. [25] LECUN Y, BENGIO Y, HINTON G. Deep learning[J]. Nature, 2015, 521(7553): 436–444. [26] BEZDEK J C, EHRLICH R, FULL W. FCM: the fuzzy cmeans clustering algorithm[J]. Computers and geosciences, 1984, 10(2/3): 191–203. [27] [28] HE Qing, JIN Xin, DU Changying, et al. Clustering in extreme learning machine feature space[J]. Neurocomputing, 2014, 128: 88–95. GRAVES D, PEDRYCZ W. Kernel-based fuzzy clustering and fuzzy clustering: a comparative experimental study[J]. Fuzzy sets and systems, 2010, 161(4): 522–543. [29] 作者简介：鲍国强，男，1992 年生，硕士研究生，主要研究方向为智能计算与模式识别。应文豪，男，1979 年生，副教授，博士，主要研究方向为模式识别与智能计算。蒋亦樟，男，1988 年生，讲师，博士，主要研究方向为模式识别与智能计算。第 4 期鲍国强，等：多层递阶融合模糊特征映射的模糊 C 均值聚类算法 ·601·

点击下载完整版文档（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录