【机器感知与模式识别】最近最远得分的聚类性能评价指标

团购合买资源类别：文库，文档格式：PDF，文档页数：8，文件大小：1.66MB

第12卷第1期智能系统学报 Vol.12 No.1 2017年2月 CAAI Transactions on Intelligent Systems Feb.2017 D0I:10.11992/is.201611007 网络出版地址：http://kns.cmki.net/kcms/detail/23.1538.TP.20170227.2211.022.html 最近最远得分的聚类性能评价指标冯柳伟2，常冬霞12，邓勇3，赵耀2 (1.北京交通大学信息科学研究所，北京100044：2.北京交通大学计算机与信息科学学院，北京100044；3.中国科学院软件研究所，北京100190) 摘要：聚类算法是数据分析中广泛使用的方法之一，而类别数往往是决定聚类算法性能的关键。目前，大部分聚类算法需要预先给定类别数，在很多情况下，很难根据数据集的先验知识获得有效的类别数。因此，为了获得数据集的类别数，本文基于最近邻一致性和最远邻相异性的准则，提出了一种最近最远得分评价指标，并在此基础上提出了一种自动确定类别数的聚类算法。实验结果证明了所提评价指标在确定类别数时的有效性和可行性。关键词：最近邻一致性；最远邻相异性：K-means聚类算法；评分机制；评价指标：层次聚类中图分类号：TP391文献标志码：A文章编号：1673-4785(2017)01-0067-08 中文引用格式：冯柳伟，常冬霞，邓勇，等.最近最远得分的聚类性能评价指标[J].智能系统学报，2017,12(1)：67-74. 英文引用格式：FENGLiuwei,CHANG Dongxia,DENG Yong,etal.A clustering evaluation index based on the nearest and furthest score [J].CAAI Transactions on Intelligent Systems,2017,12(1):67-74. A clustering evaluation index based on the nearest and furthest score FENG Liuwei 23,CHANG Dongxia3,DENG Yong',ZHAO Yao23 (1.Institute of Information Science,Beijing Jiaotong University Beijing 100044,China;2.School of Computer and Information Technology,Beijing Jiaotong University,Beijing 100044,China;3.Institute of Software,Chinese Academy of Sciences,Beijing 100190,China) Abstract:The clustering algorithm is one of the widely-used methods in data analysis.However,the number of clusters is essential to determine the performance of the clustering algorithm.At present,the number of clusters usually need to be specified in advance.In most cases,it is difficult to obtain the valid cluster number according to a priori knowledge of the dataset.To obtain the number of clusters automatically,a Nearest and Furthest Score (NFS)index was proposed based on the principles of the nearest neighbor consistency and the furthest neighbor difference.Moreover,an Automatic Clustering NFS (ACNFS)algorithm was also proposed,which can determine the number of clusters automatically.The experimental results prove the index is reasonable and practicable to determine the cluster number. Keywords:the nearest neighbor consistency;the furthest neighbor difference;K-means clustering algorithm; scoring mechanism;evaluation index:hierarchical clustering 聚类算法作为数据分析中广泛使用的主要方数据间的相似度尽可能大，而不同类别数据间的相法之一，已经广泛应用于模式识别、机器学习、图像似度则尽可能小。目前，常用聚类算法可以分为划处理和数据挖掘等方面1。简单来说，聚类就是分法、层次法、基于密度的方法、基于网格的方法和根据数据的特征将数据划分为几类，使得同一类别基于模型的方法。事实上，很多聚类算法往往需要预先知道聚类问题的类别数。然而，在很多实际情收稿日期：2016-11-07.网络出版日期：2017-02-27. 况下，很难根据数据特征获得有效的类别数。因基金项目：国家自然科学基金“重点”项目(61532005). 通信作者：常冬霞.E-mail:dxchange@bjtu.cdu.cn. 此，为了获得有效的类别数，很多学者基于聚类的

第１２卷第１期智能系统学报Ｖｏｌ．１２ №．１２０１７年２月ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓＦｅｂ．２０１７ＤＯＩ：１０．１１９９２／ｔｉｓ．２０１６１１００７网络出版地址：ｈｔｔｐ：／／ｋｎｓ．ｃｎｋｉ．ｎｅｔ／ｋｃｍｓ／ｄｅｔａｉｌ／２３．１５３８．ＴＰ．２０１７０２２７．２２１１．０２２．ｈｔｍｌ最近最远得分的聚类性能评价指标冯柳伟１，２，常冬霞１，２，邓勇３，赵耀１，２（１．北京交通大学信息科学研究所，北京１０００４４；２．北京交通大学计算机与信息科学学院，北京１０００４４；３．中国科学院软件研究所，北京１００１９０）摘要：聚类算法是数据分析中广泛使用的方法之一，而类别数往往是决定聚类算法性能的关键。目前，大部分聚类算法需要预先给定类别数，在很多情况下，很难根据数据集的先验知识获得有效的类别数。因此，为了获得数据集的类别数，本文基于最近邻一致性和最远邻相异性的准则，提出了一种最近最远得分评价指标，并在此基础上提出了一种自动确定类别数的聚类算法。实验结果证明了所提评价指标在确定类别数时的有效性和可行性。关键词：最近邻一致性；最远邻相异性；Ｋ⁃ｍｅａｎｓ聚类算法；评分机制；评价指标；层次聚类中图分类号：ＴＰ３９１文献标志码：Ａ文章编号：１６７３－４７８５（２０１７）０１－００６７－０８中文引用格式：冯柳伟，常冬霞，邓勇，等．最近最远得分的聚类性能评价指标［Ｊ］．智能系统学报，２０１７，１２（１）：６７－７４．英文引用格式：ＦＥＮＧＬｉｕｗｅｉ，ＣＨＡＮＧＤｏｎｇｘｉａ，ＤＥＮＧＹｏｎｇ，ｅｔａｌ．Ａｃｌｕｓｔｅｒｉｎｇｅｖａｌｕａｔｉｏｎｉｎｄｅｘｂａｓｅｄｏｎｔｈｅｎｅａｒｅｓｔａｎｄｆｕｒｔｈｅｓｔｓｃｏｒｅ［Ｊ］．ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓ，２０１７，１２（１）：６７－７４．ＡｃｌｕｓｔｅｒｉｎｇｅｖａｌｕａｔｉｏｎｉｎｄｅｘｂａｓｅｄｏｎｔｈｅｎｅａｒｅｓｔａｎｄｆｕｒｔｈｅｓｔｓｃｏｒｅＦＥＮＧＬｉｕｗｅｉ１，２，３，ＣＨＡＮＧＤｏｎｇｘｉａ１，２，３，ＤＥＮＧＹｏｎｇ４，ＺＨＡＯＹａｏ１，２，３（１．ＩｎｓｔｉｔｕｔｅｏｆＩｎｆｏｒｍａｔｉｏｎＳｃｉｅｎｃｅ，ＢｅｉｊｉｎｇＪｉａｏｔｏｎｇＵｎｉｖｅｒｓｉｔｙＢｅｉｊｉｎｇ１０００４４，Ｃｈｉｎａ；２．ＳｃｈｏｏｌｏｆＣｏｍｐｕｔｅｒａｎｄＩｎｆｏｒｍａｔｉｏｎＴｅｃｈｎｏｌｏｇｙ，ＢｅｉｊｉｎｇＪｉａｏｔｏｎｇＵｎｉｖｅｒｓｉｔｙ，Ｂｅｉｊｉｎｇ１０００４４，Ｃｈｉｎａ；３．ＩｎｓｔｉｔｕｔｅｏｆＳｏｆｔｗａｒｅ，ＣｈｉｎｅｓｅＡｃａｄｅｍｙｏｆＳｃｉｅｎｃｅｓ，Ｂｅｉｊｉｎｇ１００１９０，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：Ｔｈｅｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍｉｓｏｎｅｏｆｔｈｅｗｉｄｅｌｙ⁃ｕｓｅｄｍｅｔｈｏｄｓｉｎｄａｔａａｎａｌｙｓｉｓ．Ｈｏｗｅｖｅｒ，ｔｈｅｎｕｍｂｅｒｏｆｃｌｕｓｔｅｒｓｉｓｅｓｓｅｎｔｉａｌｔｏｄｅｔｅｒｍｉｎｅｔｈｅｐｅｒｆｏｒｍａｎｃｅｏｆｔｈｅｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍ．Ａｔｐｒｅｓｅｎｔ，ｔｈｅｎｕｍｂｅｒｏｆｃｌｕｓｔｅｒｓｕｓｕａｌｌｙｎｅｅｄｔｏｂｅｓｐｅｃｉｆｉｅｄｉｎａｄｖａｎｃｅ．Ｉｎｍｏｓｔｃａｓｅｓ，ｉｔｉｓｄｉｆｆｉｃｕｌｔｔｏｏｂｔａｉｎｔｈｅｖａｌｉｄｃｌｕｓｔｅｒｎｕｍｂｅｒａｃｃｏｒｄｉｎｇｔｏａｐｒｉｏｒｉｋｎｏｗｌｅｄｇｅｏｆｔｈｅｄａｔａｓｅｔ．Ｔｏｏｂｔａｉｎｔｈｅｎｕｍｂｅｒｏｆｃｌｕｓｔｅｒｓａｕｔｏｍａｔｉｃａｌｌｙ，ａＮｅａｒｅｓｔａｎｄＦｕｒｔｈｅｓｔＳｃｏｒｅ（ＮＦＳ）ｉｎｄｅｘｗａｓｐｒｏｐｏｓｅｄｂａｓｅｄｏｎｔｈｅｐｒｉｎｃｉｐｌｅｓｏｆｔｈｅｎｅａｒｅｓｔｎｅｉｇｈｂｏｒｃｏｎｓｉｓｔｅｎｃｙａｎｄｔｈｅｆｕｒｔｈｅｓｔｎｅｉｇｈｂｏｒｄｉｆｆｅｒｅｎｃｅ．Ｍｏｒｅｏｖｅｒ，ａｎＡｕｔｏｍａｔｉｃＣｌｕｓｔｅｒｉｎｇＮＦＳ（ＡＣＮＦＳ）ａｌｇｏｒｉｔｈｍｗａｓａｌｓｏｐｒｏｐｏｓｅｄ，ｗｈｉｃｈｃａｎｄｅｔｅｒｍｉｎｅｔｈｅｎｕｍｂｅｒｏｆｃｌｕｓｔｅｒｓａｕｔｏｍａｔｉｃａｌｌｙ．Ｔｈｅｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｐｒｏｖｅｔｈｅｉｎｄｅｘｉｓｒｅａｓｏｎａｂｌｅａｎｄｐｒａｃｔｉｃａｂｌｅｔｏｄｅｔｅｒｍｉｎｅｔｈｅｃｌｕｓｔｅｒｎｕｍｂｅｒ．Ｋｅｙｗｏｒｄｓ：ｔｈｅｎｅａｒｅｓｔｎｅｉｇｈｂｏｒｃｏｎｓｉｓｔｅｎｃｙ；ｔｈｅｆｕｒｔｈｅｓｔｎｅｉｇｈｂｏｒｄｉｆｆｅｒｅｎｃｅ；Ｋ⁃ｍｅａｎｓｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍ；ｓｃｏｒｉｎｇｍｅｃｈａｎｉｓｍ；ｅｖａｌｕａｔｉｏｎｉｎｄｅｘ；ｈｉｅｒａｒｃｈｉｃａｌｃｌｕｓｔｅｒｉｎｇ收稿日期：２０１６－１１－０７．网络出版日期：２０１７－０２－２７．基金项目：国家自然科学基金“重点”项目（６１５３２００５）．通信作者：常冬霞．Ｅ⁃ｍａｉｌ：ｄｘｃｈａｎｇ＠ｂｊｔｕ．ｅｄｕ．ｃｎ．聚类算法作为数据分析中广泛使用的主要方法之一，已经广泛应用于模式识别、机器学习、图像处理和数据挖掘等方面［１－４］。简单来说，聚类就是根据数据的特征将数据划分为几类，使得同一类别数据间的相似度尽可能大，而不同类别数据间的相似度则尽可能小。目前，常用聚类算法可以分为划分法、层次法、基于密度的方法、基于网格的方法和基于模型的方法。事实上，很多聚类算法往往需要预先知道聚类问题的类别数。然而，在很多实际情况下，很难根据数据特征获得有效的类别数。因此，为了获得有效的类别数，很多学者基于聚类的

·68 智能系统学报第12卷不同性质分别提出了一系列评价聚类结果的评价 BWP指标和IGP指标等。指标。对给定范围的类别数依次对数据集进行聚 l.1 Calinski-Harabasz(CH)指标类，并采用评价指标对每次的聚类结果进行评价， CH指标是Calinski和Harabasz提出的确定最然后选择一个使评价指标最优的类别数。目前，常佳聚类数的评价指标。该指标是一种基于样本用有效性评价指标大致可以分为3种类型，分别是的类内距离和类间离差矩阵的测度，其判断函数为基于数据集模糊划分的指标、基于数据集样本几何 CH(k)= BGSS WGSS (1) 结构的指标和基于数据集统计信息的指标。其中， -1'n-K 1991年，Xie等利用模糊聚类的目标函数，同时考式中：n为数据集样本数，K为类别数。且虑数据集本身的结构和模糊隶属度的性质，提出了 Xie-Beni指标。之后，很多学者基于数据集模糊划 WGSs=2[(m,-1)d+…+(mk-1)d] 分提出了一系列改善的评价指标[6]，但这些指标不适合对硬聚类算法的聚类结果进行评价。另外 BGS5-[(-1)+(n-K)A] -类是基于数据集样本几何结构的评价指标[1c6 式中：d是第j类中样本间的平均距离，j=1,2,…, 1974年，Calinski和Harabasz提出了基于全部样本的类内离差矩阵和类间离差矩阵测度的Calinski- k:?是所有样本间的平均距离。且Ax为 Harabasz(CH)指标2.1979年，Davies和Bouldin Ak=1Σ(n,-1)(2-) 提出了基于样本的类内散度与各聚类中心间距离 n-K台测度的Davies-Bouldin(DB)指标[1]，以及随后提出 CH指标值越大表示聚类结果的类内距离越小的基于最大化类内相似度和最小化类间相似度目而类间距离越大，聚类结果性能越好。但是随着类标的Weighted inter--intra(Wint)指标a)、基于样本别数搜索范围的变化，CH指标得到的最佳聚类数类内离差矩阵的Krzanowski-Lai(KL)指标1]、周世会发生变化，并且随着搜索范围增大，CH指标得到兵等提出的基于样本间的最小类间距离与类内距的最佳聚类数有逐渐增大的趋势[)。离的Between-Within Proportion(BWP)指标Ii6)。但 1.2BWP指标是这些评价指标均具有一定的局限性，对数据结构 BWP指标是周世兵等人提出的一种基于样本无法完全分离的数据集进行评价得到的结果并不的几何结构设计的确定聚类类别数的评价指标[6]」理想。2007年，Kapp等基于数据集统计的思想，使该指标利用聚类结果的类内紧密性和类间分离性用类内数据点的in-goup比例来评价聚类结果，提来衡量聚类结果。指标的最大值对应的类数作为出了n-Group Proportion(IGP)评价指标]。该评聚类数。该指标的判断函数为价指标使用样本与其最近邻样本划分到同一类的 BWP(K) 比例来衡量聚类结果的质量。但是由于IGP只关 n bwp(i,j) (2) 注最近邻一致性，使得IG指标值会随着聚类数的式中：K是类别数，bwp(i,j)为增加而减少，导致在很多实际情况下，利用IG指 b(i,j)-w(i,j) bwp(i,j) 标得到的类别数往往比实际的类别数小。针对这 b(i,j）+w(i,j）种情况，本文基于最近邻一致性和最远邻相异性的式中：b(i,)是第j类中的第i个样本到其他每类中原则，提出了一种最近最远得分指标(NFS),并基于样本平均距离的最小值，称为最小类间距；w(i,)是此指标，提出了一种基于NFS指标自动确定类别数第j类中的第i个样本的类内距离。且的聚类算法。实验结果验证了本文所提的评价指 b(i,j)=, min x-x 标的有效性和可行性。 k,m产八几mp=1 1 已有评价指标 w(i,j)=- ‖xg9-9I2 众所周知，很多聚类算法需要用户根据先验知 BWP指标值越大则表示聚类结果的类内越紧识给出算法所需要的类别数。但是，在很多实际应密而类间越远离，聚类结果性能越好。但是该评价用中很难获得有效的先验知识，因此，确定聚类问指标不适合非完全分离的数据集。题的类别数成为了聚类分析的一个研究的热点。 1.3IGP指标目前传统的确定类别数的方法是根据评价指标来 IGP指标是Kapp提出的评价指标[)。此指标确定类别数。至今提出的评价指标包括CH指标、的设计思想是：当对新的样本进行分类时，新样本

不同性质分别提出了一系列评价聚类结果的评价指标。对给定范围的类别数依次对数据集进行聚类，并采用评价指标对每次的聚类结果进行评价，然后选择一个使评价指标最优的类别数。目前，常用有效性评价指标大致可以分为３种类型，分别是基于数据集模糊划分的指标、基于数据集样本几何结构的指标和基于数据集统计信息的指标。其中，１９９１年，Ｘｉｅ等［５］利用模糊聚类的目标函数，同时考虑数据集本身的结构和模糊隶属度的性质，提出了Ｘｉｅ⁃Ｂｅｎｉ指标。之后，很多学者基于数据集模糊划分提出了一系列改善的评价指标［６⁃９］，但这些指标不适合对硬聚类算法的聚类结果进行评价。另外一类是基于数据集样本几何结构的评价指标［１０⁃１６］。１９７４年，Ｃａｌｉńｓｋｉ和Ｈａｒａｂａｓｚ提出了基于全部样本的类内离差矩阵和类间离差矩阵测度的Ｃａｌｉńｓｋｉ⁃ Ｈａｒａｂａｓｚ（ＣＨ）指标［１２］。１９７９年，Ｄａｖｉｅｓ和Ｂｏｕｌｄｉｎ提出了基于样本的类内散度与各聚类中心间距离测度的Ｄａｖｉｅｓ⁃Ｂｏｕｌｄｉｎ（ＤＢ）指标［１３］，以及随后提出的基于最大化类内相似度和最小化类间相似度目标的Ｗｅｉｇｈｔｅｄｉｎｔｅｒ⁃ｉｎｔｒａ（Ｗｉｎｔ）指标［１４］、基于样本类内离差矩阵的Ｋｒｚａｎｏｗｓｋｉ⁃Ｌａｉ（ＫＬ）指标［１５］、周世兵等提出的基于样本间的最小类间距离与类内距离的Ｂｅｔｗｅｅｎ⁃ＷｉｔｈｉｎＰｒｏｐｏｒｔｉｏｎ（ＢＷＰ）指标［１６］。但是这些评价指标均具有一定的局限性，对数据结构无法完全分离的数据集进行评价得到的结果并不理想。２００７年，Ｋａｐｐ等基于数据集统计的思想，使用类内数据点的ｉｎ⁃ｇｒｏｕｐ比例来评价聚类结果，提出了Ｉｎ⁃ＧｒｏｕｐＰｒｏｐｏｒｔｉｏｎ（ＩＧＰ）评价指标［１７］。该评价指标使用样本与其最近邻样本划分到同一类的比例来衡量聚类结果的质量。但是由于ＩＧＰ只关注最近邻一致性，使得ＩＧＰ指标值会随着聚类数的增加而减少，导致在很多实际情况下，利用ＩＧＰ指标得到的类别数往往比实际的类别数小。针对这种情况，本文基于最近邻一致性和最远邻相异性的原则，提出了一种最近最远得分指标（ＮＦＳ），并基于此指标，提出了一种基于ＮＦＳ指标自动确定类别数的聚类算法。实验结果验证了本文所提的评价指标的有效性和可行性。１已有评价指标众所周知，很多聚类算法需要用户根据先验知识给出算法所需要的类别数。但是，在很多实际应用中很难获得有效的先验知识，因此，确定聚类问题的类别数成为了聚类分析的一个研究的热点。目前传统的确定类别数的方法是根据评价指标来确定类别数。至今提出的评价指标包括ＣＨ指标、ＢＷＰ指标和ＩＧＰ指标等。１．１Ｃａｌｉｎｓｋｉ⁃Ｈａｒａｂａｓｚ（ＣＨ）指标ＣＨ指标是Ｃａｌｉńｓｋｉ和Ｈａｒａｂａｓｚ提出的确定最佳聚类数的评价指标［１２］。该指标是一种基于样本的类内距离和类间离差矩阵的测度，其判断函数为ＣＨ（ｋ）＝ＢＧＳＳＫ－１／ＷＧＳＳｎ－Ｋ（１）式中：ｎ为数据集样本数，Ｋ为类别数。且ＷＧＳＳ＝１２［（ｎ１－１）ｄ－２１＋ … ＋（ｎＫ－１）ｄ－２Ｋ］ＢＧＳＳ＝１２［（Ｋ－１）ｄ－２＋（ｎ－Ｋ）ＡＫ］式中：ｄ－２ｊ是第ｊ类中样本间的平均距离，ｊ＝１，２，…，ｋ；ｄ－２是所有样本间的平均距离。且ＡＫ为ＡＫ＝１ｎ－Ｋ∑ Ｋｉ＝１（ｎｉ－１）（ｄ－２－ｄ－２ｉ）ＣＨ指标值越大表示聚类结果的类内距离越小而类间距离越大，聚类结果性能越好。但是随着类别数搜索范围的变化，ＣＨ指标得到的最佳聚类数会发生变化，并且随着搜索范围增大，ＣＨ指标得到的最佳聚类数有逐渐增大的趋势［１８］。１．２ＢＷＰ指标ＢＷＰ指标是周世兵等人提出的一种基于样本的几何结构设计的确定聚类类别数的评价指标［１６］，该指标利用聚类结果的类内紧密性和类间分离性来衡量聚类结果。指标的最大值对应的类数作为聚类数。该指标的判断函数为ＢＷＰ（Ｋ）＝１ｎ ∑ Ｋｊ＝１ ∑ ｎｊｉ＝１ｂｗｐ（ｉ，ｊ）（２）式中：Ｋ是类别数，ｂｗｐ（ｉ，ｊ）为ｂｗｐ（ｉ，ｊ）＝ｂ（ｉ，ｊ）－ｗ（ｉ，ｊ）ｂ（ｉ，ｊ）＋ｗ（ｉ，ｊ）式中：ｂ（ｉ，ｊ）是第ｊ类中的第ｉ个样本到其他每类中样本平均距离的最小值，称为最小类间距；ｗ（ｉ，ｊ）是第ｊ类中的第ｉ个样本的类内距离。且ｂ（ｉ，ｊ）＝ｍｉｎ１≤ｍ≤ｋ，ｍ≠ｊ１ｎｍ ∑ ｎｍｐ＝１ ‖ ｘ（ｍ）ｐ－ｘ（ｊ）ｉ ‖ æ è ç ö ø ÷ ｗ（ｉ，ｊ）＝１ｎｊ－１ ∑ ｎｊｑ＝１，ｑ≠ｉ ‖ ｘ（ｊ）ｑ－ｘ（ｊ）ｉ ‖２ＢＷＰ指标值越大则表示聚类结果的类内越紧密而类间越远离，聚类结果性能越好。但是该评价指标不适合非完全分离的数据集。１．３ＩＧＰ指标ＩＧＰ指标是Ｋａｐｐ提出的评价指标［１７］。此指标的设计思想是：当对新的样本进行分类时，新样本 ·６８· 智能系统学报第１２卷

第1期冯柳伟，等：最近最远得分的聚类性能评价指标 ·69· 应该被划分到与其最相似的样本所在类别。因此定义4每类的得分。定义cs(G)为第j类的得该指标使用样本与其最近邻样本划分到同一类的分，其定义为属于第j类的所有样本的得分的平均比例来衡量聚类结果的质量。该指标的评价函数为值，即 IGP(K)= 1 ∑ig鄂(u,X) (3) K 0 式中：K是类别数；g即(u,X)表示数据集X中的第u cs(i)=- (7) 类的指标值，式中n:为第j类中的样本总数。 ig鄂(u,X)= (jl Classx(j)=Classx(j)=u) 定义5NFS。定义nfs(K)为在类别数为K下 (jl Classx(j)=u) 聚类结果的最近最远得分，定义为所有类得分的平式中：是距离样本j最近的样本，Classx)表示数均值，即据集X中的第j个样本所属的类别。 nfs(K) cs(j) (8) IGP指标的值越大表示样本和其最近邻划分到同一类的概率越高，聚类结果越好。但是IG指标式中K是类别数。只关注了最近邻一致性，使得IG指标值不适合判 2.2NFS指标的分析断非完全分离的数据集。 NFS指标的设计原则是每个样本应该和距离其 2最近最远得分评价指标最近的样本划分到同一类别中，而与距离其最远的样本划分到不同类别中。因此，每个样本拥有两个为了能准确地得到聚类问题的类别数，本文在影响评分的因子，分别是最近得分因子和最远得分基于最近邻一致性和最远邻相异性的原则上，提出因子。对于最近得分因子，如果某个样本与距离其了最近最远得分(nearest and furthest score,NFS)评最近的样本划分到同一类中，则得1分，表示对此聚价指标。类结果的支持，而如果划分到不同类中，则得-1分， 2.1相关概念定义表示对此聚类结果的反对。最远得分因子的规定 X={x1,x2,…,xn}是一个n维矢量空间的有也是如此。限子集，K是类别数，C={c1,c2,…,cx}是聚类算法随着类别数的增加，样本和其最近邻样本被划所得类别中心集合。分到不同类别中的概率将会增加，从而导致了最近定义1最近得分。定义ns(i)是第i个样本的得分累积和的减少：然而随着类别数的增加，样本最近得分，第个样本是距离其最近的样本，若样本和其最远邻样本被划分到同一类的概率将会减少， i与样本j属于同一类别，则第i个样本的最近得分从而导致了最远得分累积和的增加。因此，在评价值为1：否则其最近得分值为-1，即聚类结果时仅采用最近得分或最远得分将很难得 ns(i)= ∫1，sc(i)=sc() 到正确的类别数，需要综合利用这两个得分才能获 1-1,sc(i)≠sc(Gj) (4) 得好的聚类结果。为了说明这个问题，我们将利用式中：sc(i)代表第i个样本所属的类别，sc()代表图1所示的数据集在不同类别数下的聚类结果来说距离样本i最近的样本j所属的类别。明同时考虑最近得分和最远得分的必要性。观察定义2最远得分。定义s(i)是第i个样本的图1所示数据集，可知此数据集的最佳类别数为4。最远得分，第1个样本是距离其最远的样本，若样本如果只考虑最近邻得分时，如图1(a)所示，当K=2 i与样本1属于不同类别，则第i个样本的最远得分时，所有样本和其最近邻样本都在同一类中，而如值为1，否则其最远得分值-1，即图1(b)和图1(c)所示，当K=3或K=4时，样本和 fs(i)=(-1,se(i)=se(1) 其最近邻划分到不同类的比率就会增大，聚类结果 \1,sc(i)≠sc(l) (5) 的最近得分值会下降，因此K=2时，使最近得分值式中：sC(i)代表第i个样本所属的类别；sc(l)代表达到最大，故采用最近得分准则所得到的最佳类别距离样本i最远的样本1所属的类别。数为2。而如果只考虑最远得分时，如图1(a)所定义3样本得分。定义s(i)是第i个样本的示，当K=2时，样本和其最远邻样本被划分到同一得分值，则第i个样本的最近得分和最远得分的平类的比率很大，而如图1(b)和图1(c)所示，当K=3 均值为第i个样本的得分，即或K=4时，样本与其最远邻样本划分到同一类的比 s(i)=ns(i)+fs(i) 率下降，而且当K=3时，样本和其最远邻样本分别 (6) 划分到不同类中，此时聚类结果的最远得分值达到

应该被划分到与其最相似的样本所在类别。因此该指标使用样本与其最近邻样本划分到同一类的比例来衡量聚类结果的质量。该指标的评价函数为ＩＧＰ（Ｋ）＝１Ｋ∑ Ｋｕ＝１ｉｇｐ（ｕ，Ｘ）（３）式中：Ｋ是类别数；ｉｇｐ（ｕ，Ｘ）表示数据集Ｘ中的第ｕ类的指标值，且ｉｇｐ（ｕ，Ｘ）＝ｊ｜ＣｌａｓｓＸ（ｊ）＝ＣｌａｓｓＸ（ｊＮ { ）＝ｕ} ｊ｜Ｃｌａｓｓ { Ｘ（ｊ）＝ｕ} 式中：ｊＮ是距离样本ｊ最近的样本，ＣｌａｓｓＸ (ｊ) 表示数据集Ｘ中的第ｊ个样本所属的类别。ＩＧＰ指标的值越大表示样本和其最近邻划分到同一类的概率越高，聚类结果越好。但是ＩＧＰ指标只关注了最近邻一致性，使得ＩＧＰ指标值不适合判断非完全分离的数据集。２最近最远得分评价指标为了能准确地得到聚类问题的类别数，本文在基于最近邻一致性和最远邻相异性的原则上，提出了最近最远得分（ｎｅａｒｅｓｔａｎｄｆｕｒｔｈｅｓｔｓｃｏｒｅ，ＮＦＳ）评价指标。２．１相关概念定义Ｘ＝ｘ１，ｘ２，…，ｘｎ { } 是一个ｎ维矢量空间的有限子集，Ｋ是类别数，Ｃ＝ｃ１，ｃ２，…，ｃＫ { } 是聚类算法所得类别中心集合。定义１最近得分。定义ｎｓ（ｉ）是第ｉ个样本的最近得分，第ｊ个样本是距离其最近的样本，若样本ｉ与样本ｊ属于同一类别，则第ｉ个样本的最近得分值为１；否则其最近得分值为－１，即ｎｓ（ｉ）＝１，ｓｃ（ｉ）＝ｓｃ（ｊ）－１，ｓｃ（ｉ） ≠ ｓｃ（ｊ） { （４）式中：ｓｃ（ｉ）代表第ｉ个样本所属的类别，ｓｃ（ｊ）代表距离样本ｉ最近的样本ｊ所属的类别。定义２最远得分。定义ｆｓ（ｉ）是第ｉ个样本的最远得分，第ｌ个样本是距离其最远的样本，若样本ｉ与样本ｌ属于不同类别，则第ｉ个样本的最远得分值为１，否则其最远得分值－１，即ｆｓ（ｉ）＝－１，ｓｃ（ｉ）＝ｓｃ（ｌ）１，ｓｃ（ｉ） ≠ ｓｃ（ｌ） { （５）式中：ｓｃ（ｉ）代表第ｉ个样本所属的类别；ｓｃ（ｌ）代表距离样本ｉ最远的样本ｌ所属的类别。定义３样本得分。定义ｓ（ｉ）是第ｉ个样本的得分值，则第ｉ个样本的最近得分和最远得分的平均值为第ｉ个样本的得分，即ｓ（ｉ）＝ｎｓ（ｉ）＋ｆｓ（ｉ）２（６）定义４每类的得分。定义ｃｓ（ｊ）为第ｊ类的得分，其定义为属于第ｊ类的所有样本的得分的平均值，即ｃｓ（ｊ）＝ ∑ ｎｊｉ＝１ｓ（ｉ）ｎｊ（７）式中ｎｊ为第ｊ类中的样本总数。定义５ＮＦＳ。定义ｎｆｓ（Ｋ）为在类别数为Ｋ下聚类结果的最近最远得分，定义为所有类得分的平均值，即ｎｆｓ（Ｋ）＝１Ｋ∑ Ｋｊ＝１ｃｓ（ｊ）（８）式中Ｋ是类别数。２．２ＮＦＳ指标的分析ＮＦＳ指标的设计原则是每个样本应该和距离其最近的样本划分到同一类别中，而与距离其最远的样本划分到不同类别中。因此，每个样本拥有两个影响评分的因子，分别是最近得分因子和最远得分因子。对于最近得分因子，如果某个样本与距离其最近的样本划分到同一类中，则得１分，表示对此聚类结果的支持，而如果划分到不同类中，则得－１分，表示对此聚类结果的反对。最远得分因子的规定也是如此。随着类别数的增加，样本和其最近邻样本被划分到不同类别中的概率将会增加，从而导致了最近得分累积和的减少；然而随着类别数的增加，样本和其最远邻样本被划分到同一类的概率将会减少，从而导致了最远得分累积和的增加。因此，在评价聚类结果时仅采用最近得分或最远得分将很难得到正确的类别数，需要综合利用这两个得分才能获得好的聚类结果。为了说明这个问题，我们将利用图１所示的数据集在不同类别数下的聚类结果来说明同时考虑最近得分和最远得分的必要性。观察图１所示数据集，可知此数据集的最佳类别数为４。如果只考虑最近邻得分时，如图１（ａ）所示，当Ｋ＝２时，所有样本和其最近邻样本都在同一类中，而如图１（ｂ）和图１（ｃ）所示，当Ｋ＝３或Ｋ＝４时，样本和其最近邻划分到不同类的比率就会增大，聚类结果的最近得分值会下降，因此Ｋ＝２时，使最近得分值达到最大，故采用最近得分准则所得到的最佳类别数为２。而如果只考虑最远得分时，如图１（ａ）所示，当Ｋ＝２时，样本和其最远邻样本被划分到同一类的比率很大，而如图１（ｂ）和图１（ｃ）所示，当Ｋ＝３或Ｋ＝４时，样本与其最远邻样本划分到同一类的比率下降，而且当Ｋ＝３时，样本和其最远邻样本分别划分到不同类中，此时聚类结果的最远得分值达到第１期冯柳伟，等：最近最远得分的聚类性能评价指标 ·６９·

·70 智能系统学报第12卷最大，因此，采用最远得分准则所得到的最佳类别算在不同类别数下的NS评价指标值，第3步是根数为3。为了选择出正确的类别数，评价指标应该据评价指标得到使聚类结果达到最好的类别数。综合考虑最近得分和最远得分这两个因素。基于该算法具体步骤如下。以上的理论，在NS评价指标中每个样本的得分设 1)使用基于最短距离的分层聚类算法[]并设计为最近得分和最远得分的均值。定合适的截止阈值得到类别数，把该类别数作为搜索上限K,设置搜索下限K.=2,得到聚类数的搜索范围[Ka,K]。 2)对于搜索范围[K,K]中不同的聚类数K 分别运行以下步骤： ①利用K-means【2o]算法对数据集进行聚类； ②根据式(4)~(8)计算聚类结果的NFS指标值； ③根据式(9)得到最佳聚类数Kp。 0 2 ACNFS算法流程如图2所示。 (a)K=2 开始输出数据 2 得到类别数搜索范围[KnKJ 设置：Kmn2 K-means算法聚类计算NFS评价指标nfs(K) 0 2 N (b)K=3 Y Kmp-Kianp1 K-maxinfs(》结束○ 图2 ACNFS算法流程图 Fig.2 The flow chart of ACNFS algorithm 3.2 ACNFS时间复杂度分析假定数据集有n个样本，则ACNFS算法的时间 (c)K=4 复杂度分析如下。图1不同聚类数下的聚类 1)ACNFS算法首先采用基于最短距离的分层聚 Fig.1 Clustering under different cluster number 类算法，该算法每次把距离最近的两类合并成一类，其 NS指标值衡量的是样本对聚类结果的满意时间复杂度为O(tn2),其中t为迭代次数且tn。度，NS指标值越大聚类结果就越好。因此，依据 2)算法第二步中使用K-means算法进行聚类， NFS选取最佳类别数的公式为其时间复杂度为O(n),其中l为迭代次数，K为 Ko max (nfs(K)) (9) 2∠K6Km 类别数，且ln,Kgn。 3)采用K-menas聚类之后需要采用NFS评价 3 基于NFS的自动聚类算法指标对聚类结果进行评估。我们需要计算样本间 3.1 ACNFS算法的距离从而计算每个样本的最近得分与最远得分，基于NFS的自动聚类算法(automatic clustering 因此计算NS指标值的时间复杂度为O(n2)。 algorithm based on the NFS,ACNFS)主要包括3个主为了获得类别数，需要重复K-means和计算NS指要步骤。第1步确定类别数的搜索范围，第2步计标值K-K+1次，因此2)和3)的总的时间复杂度为

最大，因此，采用最远得分准则所得到的最佳类别数为３。为了选择出正确的类别数，评价指标应该综合考虑最近得分和最远得分这两个因素。基于以上的理论，在ＮＦＳ评价指标中每个样本的得分设计为最近得分和最远得分的均值。（ａ）Ｋ＝２（ｂ）Ｋ＝３（ｃ）Ｋ＝４图１不同聚类数下的聚类Ｆｉｇ．１ＣｌｕｓｔｅｒｉｎｇｕｎｄｅｒｄｉｆｆｅｒｅｎｔｃｌｕｓｔｅｒｎｕｍｂｅｒＮＦＳ指标值衡量的是样本对聚类结果的满意度，ＮＦＳ指标值越大聚类结果就越好。因此，依据ＮＦＳ选取最佳类别数的公式为Ｋｏｐｔ＝ｍａｘ２≤Ｋ≤Ｋｍａｘ {ｎｆｓ（Ｋ）} （９）３基于ＮＦＳ的自动聚类算法３．１ＡＣＮＦＳ算法基于ＮＦＳ的自动聚类算法（ａｕｔｏｍａｔｉｃｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍｂａｓｅｄｏｎｔｈｅＮＦＳ，ＡＣＮＦＳ）主要包括３个主要步骤。第１步确定类别数的搜索范围，第２步计算在不同类别数下的ＮＦＳ评价指标值，第３步是根据评价指标得到使聚类结果达到最好的类别数。该算法具体步骤如下。１）使用基于最短距离的分层聚类算法［１９］并设定合适的截止阈值得到类别数，把该类别数作为搜索上限Ｋｍａｘ，设置搜索下限Ｋｍｉｎ＝２，得到聚类数的搜索范围Ｋｍｉｎ，Ｋｍａｘ [ ] 。２）对于搜索范围Ｋｍｉｎ，Ｋｍａｘ [ ] 中不同的聚类数Ｋ分别运行以下步骤： ① 利用Ｋ⁃ｍｅａｎｓ［２０］算法对数据集进行聚类； ②根据式（４）～（８）计算聚类结果的ＮＦＳ指标值； ③根据式（９）得到最佳聚类数Ｋｏｐｔ。ＡＣＮＦＳ算法流程如图２所示。图２ＡＣＮＦＳ算法流程图Ｆｉｇ．２ＴｈｅｆｌｏｗｃｈａｒｔｏｆＡＣＮＦＳａｌｇｏｒｉｔｈｍ３．２ＡＣＮＦＳ时间复杂度分析假定数据集有ｎ个样本，则ＡＣＮＦＳ算法的时间复杂度分析如下。１）ＡＣＮＦＳ算法首先采用基于最短距离的分层聚类算法，该算法每次把距离最近的两类合并成一类，其时间复杂度为Ｏｔｎ２ ( ) ，其中ｔ为迭代次数且ｔ≪ｎ。２）算法第二步中使用Ｋ⁃ｍｅａｎｓ算法进行聚类，其时间复杂度为Ｏ（ｎＫｌ），其中ｌ为迭代次数，Ｋ为类别数，且ｌ≪ｎ，Ｋ≪ｎ。３）采用Ｋ⁃ｍｅｎａｓ聚类之后需要采用ＮＦＳ评价指标对聚类结果进行评估。我们需要计算样本间的距离从而计算每个样本的最近得分与最远得分，因此计算ＮＦＳ指标值的时间复杂度为Ｏｎ２ ( ) 。为了获得类别数，需要重复Ｋ⁃ｍｅａｎｓ和计算ＮＦＳ指标值Ｋｍａｘ－Ｋｍｉｎ＋１次，因此２）和３）的总的时间复杂度为 ·７０· 智能系统学报第１２卷

Ｏ（（ｎ２＋ｎｋｌ）×（Ｋｍａｘ－Ｋｍｉｎ＋１）），且（Ｋｍａｘ－Ｋｍｉｎ＋１）≪ｎ。因此，ＡＣＮＦＳ算法总的时间复杂度即为Ｏｔｎ２＋（ｎ２＋ｎｋｌ）×（Ｋｍａｘ ( －Ｋｍｉｎ） ) 。４实验为了验证本文所提ＮＦＳ指标和ＡＣＮＦＳ算法的有效性，我们进行了仿真实验。在实验中我们将采用６个人工数据集和４个ＵＣＩ真实数据，对ＣＨ指标、ＢＷＰ指标、ＩＧＰ指标和ＮＦＳ指标确定类别数的性能进行比较。实验证明，基于ＮＦＳ指标所提出的ＡＣＮＦＳ算法可以有效地确定数据集的类别数，实现类别中心和类别数的自动估计。在仿真实验中，我们所采用的人工数据集如图３所示，而真实数据集则为ＵＣＩ数据库中的ＩＲＩＳ，ＢａｌａｎｃｅＳｃａｌｅ，Ｗｉｎｅ以及Ｓｏｙｂｅａｎ⁃ｓｍａｌｌ数据集。为了方便，我们将上述所有数据集的特征总结到表１中，其中ｎ表示数据集中样本点的个数，Ｋ表示数据集中样本点的类别数，ｄ表示数据集中样本点的特征维数，最后一列表示各类别中样本点的个数。（ａ）Ｄａｔａｓｅｔ１（ｂ）Ｄａｔａｓｅｔ２（ｃ）Ｄａｔａｓｅｔ３（ｄ）Ｄａｔａｓｅｔ４（ｅ）Ｄａｔａｓｅｔ５（ｆ）Ｄａｔａｓｅｔ６图３人工数据集Ｆｉｇ．３Ａｒｔｉｆｉｃｉａｌｄａｔａｓｅｔ表１实验中所使用的１０组数据集特征Ｔａｂｌｅ１Ｔｈｅｃｈａｒａｃｔｅｒｓｏｆｔｈｅｔｅｎｄａｔａｓｅｔｓｕｓｅｄｉｎｏｕｒｅｘｐｅｒｉｍｅｎｔｓ数据集ｎＫｄ每类中样本点的个数Ｄａｔａｓｅｔ１８００２２４００，４００Ｄａｔａｓｅｔ２８００３２４００，２００，２００Ｄａｔａｓｅｔ３８００３２４００，２００，２００Ｄａｔａｓｅｔ４１１００４２２００，４００，２００Ｄａｔａｓｅｔ５１０００５２４００，２００，２００，３００Ｄａｔａｓｅｔ６９００６２２００，２００，２００，２００，２００Ｉｒｉｓ１５０３４１５０，１５０，１５０，１５０，１５０，１５０ＢａｌａｎｃｅＳｃａｌｅ６３０３４５０，５０，５０Ｗｉｎｅ１７８３１３５４，２８８，２８８Ｓｏｙｂｅａｎ⁃ｓｍａｌｌ４７４３５５９，７１，４８第１期冯柳伟，等：最近最远得分的聚类性能评价指标 ·７１·

·72 智能系统学报第12卷首先，分别采用CH指标、BWP指标，IGP指标表5给出了对数据集Dataset4采用不同评价和NFS指标估计人工数据集Dataset 1~Dataset6的指标得到的类别数和各类别数出现的百分比。采类别数，实验结果如表2~7所示。用NFS指标、CH指标和BWP指标均可以得到正确表2中给出了对数据集Dataset1采用不同评的类别数，而采用IGP指标却无法得到正确的类别价指标得到的类别数和各类别数出现的百分比。数。从具体情况分析，NFS指标和CH指标性能较第2列到第8列的数据是百分数值，而百分数值代好，评价结果稳定，每次都可以得到正确的类别数：表算法在运行N次，得到相应的类别数的次数与N 而BWP指标差一点，正确率只有71.3%。的比值。实验中取N=20。表2中的最后1列表示表5 Dataset4的类别数通过投票准则获得的数据集的类别数。从表2可以 Table 5 The cluster number of Dataset 4 看出，对人工数据集Dataset1采用这4种评价指标评价指标23456.78 最终类别数均能得到正确的类别数，而且评价结果稳定，每次 CH 001000000 4 都能得到正确类别数。 BWP 0071.3208.700 4 表2 Dataset1的类别数 IGP 95500000 2 Table 2 The cluster number of Dataset 1 NFS 001000000 评价指标2345678 最终类别数 CH100000000 表6给出了对数据集Dataset5采用不同评价 BWP10000000 0 2 指标得到的类别数和各类别数出现的百分比。采 1GP100000000 用NFS指标、CH指标和BWP指标均可以得到正确 NFS100000000 2 的类别数，而采用IGP指标却无法得到正确的表3给出了对数据集Dataset2采用不同评价类别数。指标得到的类别数和各类别数出现的百分比。从表6 Dataset5的类别数 Dataset2的散点分布图中可以看出，有两类数据无 Table 6 The cluster number of Dataset 5 法完全分离。因此，只有采用NFS指标得到的类别评价指标2345678 最终类别数数是正确的类别数，而且评价结果稳定，每次都能 CH 00.0100000 5 得到正确的类别数；而采用其他的评价指标却无法 BWP 00 01000 0 0 5 得到正确的类别数。 IGP 750250000 2 表3 Dataset2的类别数 NFS000100000 Table 3 The cluster number of Dataset 2 评价指标23 45678 最终类别数表7给出了对数据集Dataset6采用不同评价 CH100000000 指标得到的类别数和各类别数出现的百分比。采用四种评价指标均能得到该数据集的正确类别数。 BWP100000000 IGP100000000 其中NFS指标、BWP指标和CH指标的性能较好，评价结果稳定；而IGP指标性能差一点，正确率 NFS010000000 3 为90%。表4给出了对数据集Dataset3采用不同评价表7 Dataset6的类别数指标得到的类别数和各类别数出现的百分比。由 Table 7 The cluster number of Dataset 6 于在数据集Dataset3中，不同类之间是完全可分评价指标2345678最终类别数的，因此采用这4个评价指标，均可以得到正确的类 CH 000010000 别数，而且评价结果稳定。 6 表4 Dataset3的类别数 BWP 00 001000 0 6 Table 4 The cluster number of Dataset 3 IGP 100009000 6 评价指标2345678最终类别数 NFS 000010000 6 CH 01000000 0 3 由表2~7所示的实验结果可如，对于可分性较 BWP 010000000 3 好的人工数据集，CH指标、BWP指标和NFS指标 IGP 010000000 3 均能获得正确的类别数。下面将采用UCI中的真 NFS010000000 3 实数据集IRIS、Balance Scale、Wine以及

首先，分别采用ＣＨ指标、ＢＷＰ指标、ＩＧＰ指标和ＮＦＳ指标估计人工数据集Ｄａｔａｓｅｔ１～Ｄａｔａｓｅｔ６的类别数，实验结果如表２～７所示。表２中给出了对数据集Ｄａｔａｓｅｔ１采用不同评价指标得到的类别数和各类别数出现的百分比。第２列到第８列的数据是百分数值，而百分数值代表算法在运行Ｎ次，得到相应的类别数的次数与Ｎ的比值。实验中取Ｎ＝２０。表２中的最后１列表示通过投票准则获得的数据集的类别数。从表２可以看出，对人工数据集Ｄａｔａｓｅｔ１采用这４种评价指标均能得到正确的类别数，而且评价结果稳定，每次都能得到正确类别数。表２Ｄａｔａｓｅｔ１的类别数Ｔａｂｌｅ２ＴｈｅｃｌｕｓｔｅｒｎｕｍｂｅｒｏｆＤａｔａｓｅｔ１评价指标２３４５６７８最终类别数ＣＨ１００００００００２ＢＷＰ１００００００００２ＩＧＰ１００００００００２ＮＦＳ１００００００００２表３给出了对数据集Ｄａｔａｓｅｔ２采用不同评价指标得到的类别数和各类别数出现的百分比。从Ｄａｔａｓｅｔ２的散点分布图中可以看出，有两类数据无法完全分离。因此，只有采用ＮＦＳ指标得到的类别数是正确的类别数，而且评价结果稳定，每次都能得到正确的类别数；而采用其他的评价指标却无法得到正确的类别数。表３Ｄａｔａｓｅｔ２的类别数Ｔａｂｌｅ３ＴｈｅｃｌｕｓｔｅｒｎｕｍｂｅｒｏｆＤａｔａｓｅｔ２评价指标２３４５６７８最终类别数ＣＨ１００００００００２ＢＷＰ１００００００００２ＩＧＰ１００００００００２ＮＦＳ０１０００００００３表４给出了对数据集Ｄａｔａｓｅｔ３采用不同评价指标得到的类别数和各类别数出现的百分比。由于在数据集Ｄａｔａｓｅｔ３中，不同类之间是完全可分的，因此采用这４个评价指标，均可以得到正确的类别数，而且评价结果稳定。表４Ｄａｔａｓｅｔ３的类别数Ｔａｂｌｅ４ＴｈｅｃｌｕｓｔｅｒｎｕｍｂｅｒｏｆＤａｔａｓｅｔ３评价指标２３４５６７８最终类别数ＣＨ０１０００００００３ＢＷＰ０１０００００００３ＩＧＰ０１０００００００３ＮＦＳ０１０００００００３表５给出了对数据集Ｄａｔａｓｅｔ４采用不同评价指标得到的类别数和各类别数出现的百分比。采用ＮＦＳ指标、ＣＨ指标和ＢＷＰ指标均可以得到正确的类别数，而采用ＩＧＰ指标却无法得到正确的类别数。从具体情况分析，ＮＦＳ指标和ＣＨ指标性能较好，评价结果稳定，每次都可以得到正确的类别数；而ＢＷＰ指标差一点，正确率只有７１．３％。表５Ｄａｔａｓｅｔ４的类别数Ｔａｂｌｅ５ＴｈｅｃｌｕｓｔｅｒｎｕｍｂｅｒｏｆＤａｔａｓｅｔ４评价指标２３４５６７８最终类别数ＣＨ００１００００００４ＢＷＰ００７１．３２０８．７００４ＩＧＰ９５５０００００２ＮＦＳ００１００００００４表６给出了对数据集Ｄａｔａｓｅｔ５采用不同评价指标得到的类别数和各类别数出现的百分比。采用ＮＦＳ指标、ＣＨ指标和ＢＷＰ指标均可以得到正确的类别数，而采用ＩＧＰ指标却无法得到正确的类别数。表６Ｄａｔａｓｅｔ５的类别数Ｔａｂｌｅ６ＴｈｅｃｌｕｓｔｅｒｎｕｍｂｅｒｏｆＤａｔａｓｅｔ５评价指标２３４５６７８最终类别数ＣＨ０００１０００００５ＢＷＰ０００１０００００５ＩＧＰ７５０２５００００２ＮＦＳ０００１０００００５表７给出了对数据集Ｄａｔａｓｅｔ６采用不同评价指标得到的类别数和各类别数出现的百分比。采用四种评价指标均能得到该数据集的正确类别数。其中ＮＦＳ指标、ＢＷＰ指标和ＣＨ指标的性能较好，评价结果稳定；而ＩＧＰ指标性能差一点，正确率为９０％。表７Ｄａｔａｓｅｔ６的类别数Ｔａｂｌｅ７ＴｈｅｃｌｕｓｔｅｒｎｕｍｂｅｒｏｆＤａｔａｓｅｔ６评价指标２３４５６７８最终类别数ＣＨ００００１００００６ＢＷＰ００００１００００６ＩＧＰ１００００９０００６ＮＦＳ００００１００００６由表２～７所示的实验结果可如，对于可分性较好的人工数据集，ＣＨ指标、ＢＷＰ指标和ＮＦＳ指标均能获得正确的类别数。下面将采用ＵＣＩ中的真实数据集ＩＲＩＳ、ＢａｌａｎｃｅＳｃａｌｅ、Ｗｉｎｅ以及 ·７２· 智能系统学报第１２卷

第1期冯柳伟，等：最近最远得分的聚类性能评价指标 ·73· Soybean-small来验证CH指标、BWP指标、IGP指标 5 结束语和NFS指标在确定类别数时的性能。表8给出了数据集Wine在采用不同评价指标众所周知，很多聚类算法需要根据先验知识给时，在不同的类别数下的指标值，其中带下划线的出算法所需要的类别数。但是，在很多实际应用中数据是该指标下的最大值。NFS指标和BWP指标很难获得有效的先验知识，因此确定聚类问题的类在类别数K=3时取最大值，而其他指标在类别数K 别数成为了一个研究的热点。本文首先基于最近 =2时取最大值，但是由于数据集Wime的真实类别邻一致性和最远邻相异性的原则，提出了一种最近数为3，因此采用NFS指标和BWP指标可以得到正最远得分评价指标(NFS),并在此基础上提出了一确的类别数，而采用其他评价指标则无法得到正确种基于NS自动聚类算法，实现了对类别数和类别的类别数。中心的自动估计。与已经提出的评价指标相比，表81 Wine的指标值 NFS指标是基于数据集统计信息的指标，而且NFS Table 8 The index value for Wine 指标考虑了最近样本和最远样本两个方面，通过评类别数 CH BWP IGP NFS 分机制还保证了每个样本都对评价指标产生影响。从而使NFS指标在RIS等数据集中呈现较好的结 2 7521600 0.32507 0.96217 0.86706 果。但是NFS指标并不是最完美的，因此还需要继 49268500.33404 0.94062 0.9009 续进行相关研究。 33564400.3023 0.78952 0.77477 参考文献： 25788400.26958 0.71 0.69746 [1]刘恋，常冬霞，邓勇.动态小生境人工鱼群算法的图像 6 21474150.23255 0.67366 0.69212 分割[J].智能系统学报，2015,10(5)：669-674. > 18239050.20382 0.64983 0.66635 LIU Lian,CHANG Dongxia,DENG Yong.An image 16088700.18771 0.64815 0.6332 segmentation method based on dynamic niche artificial fish- swarm algorithm J].CAAI transactions on intelligent 14387650.18471 0.61281 0.61655 systems,2015,10(5):669-674. 12918500.178710.59433 0.5766 [2]NIKOLAOU T G.KOLOKOTSA DS,STAVRAKAKIS G S. 最终类别数 2 et al.On the application of clustering techniques for office buildings'energy and thermal comfort classification [J]. 表9给出了4组真实数据集分别在采用不同评 IEEE transactions on smart grid,2012,3(4):2196-2210. 价指标下得到的类别数，这里依然是运行多次实验 [3]CHANG Hong,YEUNG D Y.Robust path-based spectral 通过投票准则确定最终的类别数，括号中的数据表 clustering with application to image segmentation [C]/ 示类别数出现的百分比。参考表1中各数据集的真 Proceedings of the Tenth IEEE International Conference on 实类别数，可以得到如下结论：采用NS指标可以 Computer Vision.Beijing,China,2005,1:278-285. 得到所有真实数据集的正确的类别数，其中对于 [4]SHI Jianbo,MALIK J.Normalized cuts and image Balance Scale和Wine数据集，评价结果稳定，效果 segmentation[J].IEEE transactions on pattern analysis 较好，而对于IRIS和Soybean-small数据集，评价结 and machine intelligence,2000,22(8):888-905. 果差一点，只有60%和45%的正确率：然而采用 [5]XIE X L,BENI G.A validity measure for Fuzzy clustering BWP指标只可以得到数据集Wine的正确类别数， [J].IEEE transactions on pattern analysis and machine 而且评价结果稳定：但是采用CH指标和IGP指标 intelligence,1991,13(8):841-847 则无法得到数据集的正确类别数。 [6]PAL N R.BEZDEK J C.On cluster validity for the fuzzy c- 表9真实数据集的类别数 means model J].IEEE transactions on fuzzy systems, Table 9 The cluster number of the real datasets 1995,3(3):370-379. [7]郑宏亮，徐本强，赵晓慧，等.新的模糊聚类有效性指数据集 CH BWP IGP NFS 标[J].计算机应用，2014.34(8)：2166-2169 IRIS 2(100)2(100) 2(100) 3(60) ZHENG Hongliang,XU Benqiang,ZHAO Xiaohui,et al. Balance Scale 2(100)8(70)2(100) 3(100) Novel validity index for fuzzy clustering J].Journal of Wine 2(100)3(100)2(100) 3(100) computer applications,2014,34(8):2166-2169. Soybean-small 2(100)3(32.9)3(40) 4(45) [8]岳士弘，黄妮，王鹏龙.基于矩阵特征值分析的模糊聚

Ｓｏｙｂｅａｎ⁃ｓｍａｌｌ来验证ＣＨ指标、ＢＷＰ指标、ＩＧＰ指标和ＮＦＳ指标在确定类别数时的性能。表８给出了数据集Ｗｉｎｅ在采用不同评价指标时，在不同的类别数下的指标值，其中带下划线的数据是该指标下的最大值。ＮＦＳ指标和ＢＷＰ指标在类别数Ｋ＝３时取最大值，而其他指标在类别数Ｋ＝２时取最大值，但是由于数据集Ｗｉｎｅ的真实类别数为３，因此采用ＮＦＳ指标和ＢＷＰ指标可以得到正确的类别数，而采用其他评价指标则无法得到正确的类别数。表８Ｗｉｎｅ的指标值Ｔａｂｌｅ８ＴｈｅｉｎｄｅｘｖａｌｕｅｆｏｒＷｉｎｅ类别数ＣＨＢＷＰＩＧＰＮＦＳ２７５２１６０００．３２５０７０．９６２１７０．８６７０６３４９２６８５００．３３４０４０．９４０６２０．９００９４３３５６４４００．３０２３０．７８９５２０．７７４７７５２５７８８４００．２６９５８０．７１０．６９７４６６２１４７４１５０．２３２５５０．６７３６６０．６９２１２７１８２３９０５０．２０３８２０．６４９８３０．６６６３５８１６０８８７００．１８７７１０．６４８１５０．６３３２９１４３８７６５０．１８４７１０．６１２８１０．６１６５５１０１２９１８５００．１７８７１０．５９４３３０．５７６６最终类别数２３２３表９给出了４组真实数据集分别在采用不同评价指标下得到的类别数，这里依然是运行多次实验通过投票准则确定最终的类别数，括号中的数据表示类别数出现的百分比。参考表１中各数据集的真实类别数，可以得到如下结论：采用ＮＦＳ指标可以得到所有真实数据集的正确的类别数，其中对于ＢａｌａｎｃｅＳｃａｌｅ和Ｗｉｎｅ数据集，评价结果稳定，效果较好，而对于ＩＲＩＳ和Ｓｏｙｂｅａｎ⁃ｓｍａｌｌ数据集，评价结果差一点，只有６０％和４５％的正确率；然而采用ＢＷＰ指标只可以得到数据集Ｗｉｎｅ的正确类别数，而且评价结果稳定；但是采用ＣＨ指标和ＩＧＰ指标则无法得到数据集的正确类别数。表９真实数据集的类别数Ｔａｂｌｅ９Ｔｈｅｃｌｕｓｔｅｒｎｕｍｂｅｒｏｆｔｈｅｒｅａｌｄａｔａｓｅｔｓ数据集ＣＨＢＷＰＩＧＰＮＦＳＩＲＩＳ２（１００）２（１００）２（１００）３（６０）ＢａｌａｎｃｅＳｃａｌｅ２（１００）８（７０）２（１００）３（１００）Ｗｉｎｅ２（１００）３（１００）２（１００）３（１００）Ｓｏｙｂｅａｎ⁃ｓｍａｌｌ２（１００）３（３２．９）３（４０）４（４５）５结束语众所周知，很多聚类算法需要根据先验知识给出算法所需要的类别数。但是，在很多实际应用中很难获得有效的先验知识，因此确定聚类问题的类别数成为了一个研究的热点。本文首先基于最近邻一致性和最远邻相异性的原则，提出了一种最近最远得分评价指标（ＮＦＳ），并在此基础上提出了一种基于ＮＦＳ自动聚类算法，实现了对类别数和类别中心的自动估计。与已经提出的评价指标相比，ＮＦＳ指标是基于数据集统计信息的指标，而且ＮＦＳ指标考虑了最近样本和最远样本两个方面，通过评分机制还保证了每个样本都对评价指标产生影响。从而使ＮＦＳ指标在ＩＲＩＳ等数据集中呈现较好的结果。但是ＮＦＳ指标并不是最完美的，因此还需要继续进行相关研究。参考文献：［１］刘恋，常冬霞，邓勇．动态小生境人工鱼群算法的图像分割［Ｊ］．智能系统学报，２０１５，１０（５）：６６９－６７４．ＬＩＵＬｉａｎ，ＣＨＡＮＧＤｏｎｇｘｉａ，ＤＥＮＧＹｏｎｇ．Ａｎｉｍａｇｅｓｅｇｍｅｎｔａｔｉｏｎｍｅｔｈｏｄｂａｓｅｄｏｎｄｙｎａｍｉｃｎｉｃｈｅａｒｔｉｆｉｃｉａｌｆｉｓｈ⁃ ｓｗａｒｍａｌｇｏｒｉｔｈｍ［Ｊ］．ＣＡＡＩｔｒａｎｓａｃｔｉｏｎｓｏｎｉｎｔｅｌｌｉｇｅｎｔｓｙｓｔｅｍｓ，２０１５，１０（５）：６６９－６７４．［２］ＮＩＫＯＬＡＯＵＴＧ，ＫＯＬＯＫＯＴＳＡＤＳ，ＳＴＡＶＲＡＫＡＫＩＳＧＳ，ｅｔａｌ．Ｏｎｔｈｅａｐｐｌｉｃａｔｉｏｎｏｆｃｌｕｓｔｅｒｉｎｇｔｅｃｈｎｉｑｕｅｓｆｏｒｏｆｆｉｃｅｂｕｉｌｄｉｎｇｓ􀆳 ｅｎｅｒｇｙａｎｄｔｈｅｒｍａｌｃｏｍｆｏｒｔｃｌａｓｓｉｆｉｃａｔｉｏｎ［Ｊ］．ＩＥＥＥｔｒａｎｓａｃｔｉｏｎｓｏｎｓｍａｒｔｇｒｉｄ，２０１２，３（４）：２１９６－２２１０．［３］ＣＨＡＮＧＨｏｎｇ，ＹＥＵＮＧＤＹ．Ｒｏｂｕｓｔｐａｔｈ⁃ｂａｓｅｄｓｐｅｃｔｒａｌｃｌｕｓｔｅｒｉｎｇｗｉｔｈａｐｐｌｉｃａｔｉｏｎｔｏｉｍａｇｅｓｅｇｍｅｎｔａｔｉｏｎ［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＴｅｎｔｈＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ．Ｂｅｉｊｉｎｇ，Ｃｈｉｎａ，２００５，１：２７８－２８５．［４］ＳＨＩＪｉａｎｂｏ，ＭＡＬＩＫＪ．Ｎｏｒｍａｌｉｚｅｄｃｕｔｓａｎｄｉｍａｇｅｓｅｇｍｅｎｔａｔｉｏｎ［Ｊ］．ＩＥＥＥｔｒａｎｓａｃｔｉｏｎｓｏｎｐａｔｔｅｒｎａｎａｌｙｓｉｓａｎｄｍａｃｈｉｎｅｉｎｔｅｌｌｉｇｅｎｃｅ，２０００，２２（８）：８８８－９０５．［５］ＸＩＥＸＬ，ＢＥＮＩＧ．ＡｖａｌｉｄｉｔｙｍｅａｓｕｒｅｆｏｒＦｕｚｚｙｃｌｕｓｔｅｒｉｎｇ［Ｊ］．ＩＥＥＥｔｒａｎｓａｃｔｉｏｎｓｏｎｐａｔｔｅｒｎａｎａｌｙｓｉｓａｎｄｍａｃｈｉｎｅｉｎｔｅｌｌｉｇｅｎｃｅ，１９９１，１３（８）：８４１－８４７．［６］ＰＡＬＮＲ，ＢＥＺＤＥＫＪＣ．Ｏｎｃｌｕｓｔｅｒｖａｌｉｄｉｔｙｆｏｒｔｈｅｆｕｚｚｙｃ⁃ ｍｅａｎｓｍｏｄｅｌ［Ｊ］．ＩＥＥＥｔｒａｎｓａｃｔｉｏｎｓｏｎｆｕｚｚｙｓｙｓｔｅｍｓ，１９９５，３（３）：３７０－３７９．［７］郑宏亮，徐本强，赵晓慧，等．新的模糊聚类有效性指标［Ｊ］．计算机应用，２０１４，３４（８）：２１６６－２１６９．ＺＨＥＮＧＨｏｎｇｌｉａｎｇ，ＸＵＢｅｎｑｉａｎｇ，ＺＨＡＯＸｉａｏｈｕｉ，ｅｔａｌ．Ｎｏｖｅｌｖａｌｉｄｉｔｙｉｎｄｅｘｆｏｒｆｕｚｚｙｃｌｕｓｔｅｒｉｎｇ［Ｊ］．Ｊｏｕｒｎａｌｏｆｃｏｍｐｕｔｅｒａｐｐｌｉｃａｔｉｏｎｓ，２０１４，３４（８）：２１６６－２１６９．［８］岳士弘，黄媞，王鹏龙．基于矩阵特征值分析的模糊聚第１期冯柳伟，等：最近最远得分的聚类性能评价指标 ·７３·

·74 智能系统学报第12卷类有效性指标[J].天津大学学报：自然科学与工程技 ZHOU Shibing,XU Zhenyuan,TANG Xuqing.Method for 术版，2014,47(8)：689-696. determining optimal number of clusters in K-means YUE Shihong,HUANG Ti,WANG Penglong.Matrix clustering algorithm[J].Journal of computer applications, eigenvalue analysis-based clustering validity index[J]. 2010,30(8):1995-1998. Journal of Tianjin university:science and technology,2014, [17]KAPP A V,TIBSHIRANI R.Are clusters found in one 47(8):689-696. dataset present in another dataset[].Biostatistics,2007, [9]卿铭，孙晓梅.一种新的聚类有效性函数：模糊划分的 8(1):9-31 模糊嫡[J].智能系统学报，2015,10(1)：75-80. [18]周世兵.聚类分析中的最佳聚类数确定方法研究及应 QING Mei,SUN Xiaomei.A new clustering effectiveness 用[D].无锡：江南大学，2011. function:fuzzy entropy of fuzzy partition [J].CAAI ZHOU Shibing.Research and application on determining transactions on intelligent systems,2015,10(1):75-80. optimal number of cluster in cluster analysis[D].Wuxi: [10]王开军，李健，张军英，等.聚类分析中类数估计方法 Jiangnan University,2011. 的实验比较[J].计算机工程，2008,34(9)：198- [19]Gower J C,Ross G J S.Minimum spanning trees and 199.202. single linkage cluster analysis [J].Journal of the royal WANG Kaijun,LI Jian,ZHANG Junying,et al. statistical society,1969.18(1):54-64. Experimental comparison of clusters number estimation for [20 MACQUEEN J.Some methods for classification and cluster analysis[J].Computer engineering,2008,34(9): analysis of multivariate observations[C]//Proceedings of 198-199,202. the 5th Berkeley Symposium on Mathematical Statistics [ll]王勇，唐靖，饶勤菲，等.高效率的K-means最佳聚类 and Probability.Berkeley,USA,1967:281-297 数确定算法[J].计算机应用，2014,34(5)：作者简介： 1331-1335 冯柳伟，女，1992年生，硕士研究 WANG Yong,TANG Jing,RAO Qinfei,et al.High 生，研究方向为聚类算法。 efficient K-means algorithm for determining optimal number of clusters[J].Journal of computer applications,2014,34 (5):1331-1335 [12]CALINSKI T,HARABASZ J.A dendrite method for cluster analysis [J].Communications in statistics,1974,3 (1):1-27 常冬霞，女，1977年生.副教授，硕 [13]DAVIES D L.BOULDIN D W.A cluster separation 士生导师，主要研究方向为进化计算、 measure[J].IEEE transactions on pattern analysis and 非监督分类算法、图像分割以及图像分 machine intelligence,1979,PAMI-1(2):224-227. 类。发表学术论文10余篇，其中SC检 [14]DIMITRIADOU E,DOLNICAR S,WEINGESSEL A.An 索5篇，El检索2篇。 examination of indexes for determining the number of clusters in binary data sets[J].Psychometrika,2002,67 (1):137-159. 邓勇，男，1974年生，副研究员，博 [15]KRZANOWSKI W J,LAI Y T.A criterion for determining 士，主要研究方向为智能信息处理、数 the number of groups in a data set using sum-of-squares 据库系统技术及应用等。主持和参与 clustering[J].Biometrics,1988,44(1):23-34. 国家“863”计划1项，北京市自然科学 [16]周世兵，徐振源，唐旭清.K-means算法最佳聚类数确基金项目1项。发表学术论文20余定方法[J】.计算机应用，2010,30(8)：1995-1998 篇，其中收录10余篇

类有效性指标［Ｊ］．天津大学学报：自然科学与工程技术版，２０１４，４７（８）：６８９－６９６．ＹＵＥＳｈｉｈｏｎｇ，ＨＵＡＮＧＴｉ，ＷＡＮＧＰｅｎｇｌｏｎｇ．Ｍａｔｒｉｘｅｉｇｅｎｖａｌｕｅａｎａｌｙｓｉｓ－ｂａｓｅｄｃｌｕｓｔｅｒｉｎｇｖａｌｉｄｉｔｙｉｎｄｅｘ［Ｊ］．ＪｏｕｒｎａｌｏｆＴｉａｎｊｉｎｕｎｉｖｅｒｓｉｔｙ：ｓｃｉｅｎｃｅａｎｄｔｅｃｈｎｏｌｏｇｙ，２０１４，４７（８）：６８９－６９６．［９］卿铭，孙晓梅．一种新的聚类有效性函数：模糊划分的模糊熵［Ｊ］．智能系统学报，２０１５，１０（１）：７５－８０．ＱＩＮＧＭｅｉ，ＳＵＮＸｉａｏｍｅｉ．Ａｎｅｗｃｌｕｓｔｅｒｉｎｇｅｆｆｅｃｔｉｖｅｎｅｓｓｆｕｎｃｔｉｏｎ：ｆｕｚｚｙｅｎｔｒｏｐｙｏｆｆｕｚｚｙｐａｒｔｉｔｉｏｎ［Ｊ］．ＣＡＡＩｔｒａｎｓａｃｔｉｏｎｓｏｎｉｎｔｅｌｌｉｇｅｎｔｓｙｓｔｅｍｓ，２０１５，１０（１）：７５－８０．［１０］王开军，李健，张军英，等．聚类分析中类数估计方法的实验比较［Ｊ］．计算机工程，２００８，３４（９）：１９８－１９９，２０２．ＷＡＮＧＫａｉｊｕｎ，ＬＩＪｉａｎ，ＺＨＡＮＧＪｕｎｙｉｎｇ，ｅｔａｌ．Ｅｘｐｅｒｉｍｅｎｔａｌｃｏｍｐａｒｉｓｏｎｏｆｃｌｕｓｔｅｒｓｎｕｍｂｅｒｅｓｔｉｍａｔｉｏｎｆｏｒｃｌｕｓｔｅｒａｎａｌｙｓｉｓ［Ｊ］．Ｃｏｍｐｕｔｅｒｅｎｇｉｎｅｅｒｉｎｇ，２００８，３４（９）：１９８－１９９，２０２．［１１］王勇，唐靖，饶勤菲，等．高效率的Ｋ－ｍｅａｎｓ最佳聚类数确定算法［Ｊ］．计算机应用，２０１４，３４（５）：１３３１－１３３５．ＷＡＮＧＹｏｎｇ，ＴＡＮＧＪｉｎｇ，ＲＡＯＱｉｎｆｅｉ，ｅｔａｌ．ＨｉｇｈｅｆｆｉｃｉｅｎｔＫ⁃ｍｅａｎｓａｌｇｏｒｉｔｈｍｆｏｒｄｅｔｅｒｍｉｎｉｎｇｏｐｔｉｍａｌｎｕｍｂｅｒｏｆｃｌｕｓｔｅｒｓ［Ｊ］．Ｊｏｕｒｎａｌｏｆｃｏｍｐｕｔｅｒａｐｐｌｉｃａｔｉｏｎｓ，２０１４，３４（５）：１３３１－１３３５．［１２］ＣＡＬＩＮ＇ＳＫＩＴ，ＨＡＲＡＢＡＳＺＪ．Ａｄｅｎｄｒｉｔｅｍｅｔｈｏｄｆｏｒｃｌｕｓｔｅｒａｎａｌｙｓｉｓ［Ｊ］．Ｃｏｍｍｕｎｉｃａｔｉｏｎｓｉｎｓｔａｔｉｓｔｉｃｓ，１９７４，３（１）：１－２７．［１３］ＤＡＶＩＥＳＤＬ，ＢＯＵＬＤＩＮＤＷ．Ａｃｌｕｓｔｅｒｓｅｐａｒａｔｉｏｎｍｅａｓｕｒｅ［Ｊ］．ＩＥＥＥｔｒａｎｓａｃｔｉｏｎｓｏｎｐａｔｔｅｒｎａｎａｌｙｓｉｓａｎｄｍａｃｈｉｎｅｉｎｔｅｌｌｉｇｅｎｃｅ，１９７９，ＰＡＭＩ－１（２）：２２４－２２７．［１４］ＤＩＭＩＴＲＩＡＤＯＵＥ，ＤＯＬＮＩＣ ˇ ＡＲＳ，ＷＥＩＮＧＥＳＳＥＬＡ．Ａｎｅｘａｍｉｎａｔｉｏｎｏｆｉｎｄｅｘｅｓｆｏｒｄｅｔｅｒｍｉｎｉｎｇｔｈｅｎｕｍｂｅｒｏｆｃｌｕｓｔｅｒｓｉｎｂｉｎａｒｙｄａｔａｓｅｔｓ［Ｊ］．Ｐｓｙｃｈｏｍｅｔｒｉｋａ，２００２，６７（１）：１３７－１５９．［１５］ＫＲＺＡＮＯＷＳＫＩＷＪ，ＬＡＩＹＴ．Ａｃｒｉｔｅｒｉｏｎｆｏｒｄｅｔｅｒｍｉｎｉｎｇｔｈｅｎｕｍｂｅｒｏｆｇｒｏｕｐｓｉｎａｄａｔａｓｅｔｕｓｉｎｇｓｕｍ⁃ｏｆ⁃ｓｑｕａｒｅｓｃｌｕｓｔｅｒｉｎｇ［Ｊ］．Ｂｉｏｍｅｔｒｉｃｓ，１９８８，４４（１）：２３－３４．［１６］周世兵，徐振源，唐旭清．Ｋ⁃ｍｅａｎｓ算法最佳聚类数确定方法［Ｊ］．计算机应用，２０１０，３０（８）：１９９５－１９９８．ＺＨＯＵＳｈｉｂｉｎｇ，ＸＵＺｈｅｎｙｕａｎ，ＴＡＮＧＸｕｑｉｎｇ．ＭｅｔｈｏｄｆｏｒｄｅｔｅｒｍｉｎｉｎｇｏｐｔｉｍａｌｎｕｍｂｅｒｏｆｃｌｕｓｔｅｒｓｉｎＫ⁃ｍｅａｎｓｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍ［Ｊ］．Ｊｏｕｒｎａｌｏｆｃｏｍｐｕｔｅｒａｐｐｌｉｃａｔｉｏｎｓ，２０１０，３０（８）：１９９５－１９９８．［１７］ＫＡＰＰＡＶ，ＴＩＢＳＨＩＲＡＮＩＲ．Ａｒｅｃｌｕｓｔｅｒｓｆｏｕｎｄｉｎｏｎｅｄａｔａｓｅｔｐｒｅｓｅｎｔｉｎａｎｏｔｈｅｒｄａｔａｓｅｔ［Ｊ］．Ｂｉｏｓｔａｔｉｓｔｉｃｓ，２００７，８（１）：９－３１．［１８］周世兵．聚类分析中的最佳聚类数确定方法研究及应用［Ｄ］．无锡：江南大学，２０１１．ＺＨＯＵＳｈｉｂｉｎｇ．Ｒｅｓｅａｒｃｈａｎｄａｐｐｌｉｃａｔｉｏｎｏｎｄｅｔｅｒｍｉｎｉｎｇｏｐｔｉｍａｌｎｕｍｂｅｒｏｆｃｌｕｓｔｅｒｉｎｃｌｕｓｔｅｒａｎａｌｙｓｉｓ［Ｄ］．Ｗｕｘｉ：ＪｉａｎｇｎａｎＵｎｉｖｅｒｓｉｔｙ，２０１１．［１９］ＧｏｗｅｒＪＣ，ＲｏｓｓＧＪＳ．Ｍｉｎｉｍｕｍｓｐａｎｎｉｎｇｔｒｅｅｓａｎｄｓｉｎｇｌｅｌｉｎｋａｇｅｃｌｕｓｔｅｒａｎａｌｙｓｉｓ［Ｊ］．Ｊｏｕｒｎａｌｏｆｔｈｅｒｏｙａｌｓｔａｔｉｓｔｉｃａｌｓｏｃｉｅｔｙ，１９６９，１８（１）：５４－６４．［２０］ＭＡＣＱＵＥＥＮＪ．Ｓｏｍｅｍｅｔｈｏｄｓｆｏｒｃｌａｓｓｉｆｉｃａｔｉｏｎａｎｄａｎａｌｙｓｉｓｏｆｍｕｌｔｉｖａｒｉａｔｅｏｂｓｅｒｖａｔｉｏｎｓ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ５ｔｈＢｅｒｋｅｌｅｙＳｙｍｐｏｓｉｕｍｏｎＭａｔｈｅｍａｔｉｃａｌＳｔａｔｉｓｔｉｃｓａｎｄＰｒｏｂａｂｉｌｉｔｙ．Ｂｅｒｋｅｌｅｙ，ＵＳＡ，１９６７：２８１－２９７．作者简介：冯柳伟，女，１９９２年生，硕士研究生，研究方向为聚类算法。常冬霞，女，１９７７年生，副教授，硕士生导师，主要研究方向为进化计算、非监督分类算法、图像分割以及图像分类。发表学术论文１０余篇，其中ＳＣＩ检索５篇，ＥＩ检索２篇。邓勇，男，１９７４年生，副研究员，博士，主要研究方向为智能信息处理、数据库系统技术及应用等。主持和参与国家“８６３”计划１项，北京市自然科学基金项目１项。发表学术论文２０余篇，其中收录１０余篇。 ·７４· 智能系统学报第１２卷

点击进入文档下载页（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录