【人工智能基础】聚类有效性评价新指标

团购合买资源类别：文库，文档格式：PDF，文档页数：10，文件大小：2.06MB

第12卷第6期智能系统学报 Vol.12 No.6 2017年12月 CAAI Transactions on Intelligent Systems Dec.2017 D0:10.11992/tis.201706029 网络出版地址：http:/kns.cnki.net/kcms/detail/23.1538.TP.20171109.1250.006.html 聚类有效性评价新指标谢娟英，周颖，王明钊，姜炜亮 (陕西师范大学计算算计科学学院，陕西西安710062)】摘要：聚类有效性评价指标分为外部评价指标和内部评价指标两大类。现有外部评价指标没有考虑聚类结果类偏斜现象：现有内部评价指标的聚类有效性检验效果难以得到最佳类簇数。针对现有内外部聚类评价指标的缺陷，提出同时考虑正负类信息的分别基于相依表和样本对的外部评价指标，用于评价任意分布数据集的聚类结果；提出采用方差度量类内紧密度和类间分离度，以类间分离度与类内紧密度之比作为度量指标的内部评价指标。UCI数据集和人工模拟数据集实验测试表明，提出的新内部评价指标能有效发现数据集的真实类簇数：提出的基于相依表和样本对的外部评价指标，可有效评价存在类偏斜与噪音数据的聚类结果。关键词：聚类：聚类有效性：评价指标：外部指标：内部指标：F-measure:Adjusted Rand Index:STDI:S2:PS2 中图分类号：TP108文献标志码：A文章编号：1673-4785(2017)06-0873-10 中文引用格式：谢娟英，周颖，王明钊，等.聚类有效性评价新指标.智能系统学报，2017,12(6)：873-882. 英文引用格式：XIE Juanying,.ZHOU Ying,VANG Mingzhao,etal.New criteria for evaluating the validity of clustering Jl..CAAI transactions on intelligent systems,2017,12(6):873-882. New criteria for evaluating the validity of clustering XIE Juanying,ZHOU Ying,WANG Mingzhao,JIANG Weiliang (School of Computer Science,Shaanxi Normal University,Xi'an 710062,China) Abstract:There are two kinds of criteria for evaluating the clustering ability of a clustering algorithm,internal and ex- ternal.The current external evaluation indexes fails to consider the skewed clustering result,it is difficult to get optim- um cluster numbers from the clustering validity inspection results from the internal evaluation indexes.Considering the defects in the present internal and external clustering evaluation indices,we propose two external evaluation indexes, which consider both positive and negative information and which are respectively based on the contingency table and sample pairs for the evaluation of clustering results from a dataset with arbitrary distribution.The variance is proposed to measure the tightness of a cluster and the separability between clusters,and the ratio of these parameters is used as an internal evaluation index for the measurement index.Experiments on the datesets from UCI (University of California in Iven)machine learning repository and artificially simulated datasets show that the proposed new internal index can be used to effectively find the truenumber of clusters in a dataset.The proposed external indexes based on the contingency table and sample pairs are a very effective external evaluation indexes and can be used to evaluate the clustering results from existing types of skewed and noisy data. Keywords:clustering;validity of clustering;evaluation index;external criteria;internal criteria;F-measure;Adjusted Rand Index:STDI:S2:PS2 收稿日期：2017-06-08.网络出版日期：2017-11-09 随着人工智能技术如火如茶地发展，机器学习基金项目：国家自然科学基金项目(61673251)：陕西省科技攻关项目(2013K12-03-24):陕西师范大学研究生创新基金项在各行业得到了空前的重视和应用，并取得了前所目(2015CXS028,2016CSY009):中央高校基本科研业未有的成功。聚类分析作为无监督学习方法，是务费重点项目(GK201701006). 通信作者：谢娟英.E-mail:xiejuany@snnu.edu.cn 各行业数据分析的主要工具之一，其旨在发现数据

DOI: 10.11992/tis.201706029 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20171109.1250.006.html 聚类有效性评价新指标谢娟英，周颖，王明钊，姜炜亮（陕西师范大学计算算计科学学院，陕西西安 710062）摘要：聚类有效性评价指标分为外部评价指标和内部评价指标两大类。现有外部评价指标没有考虑聚类结果类偏斜现象；现有内部评价指标的聚类有效性检验效果难以得到最佳类簇数。针对现有内外部聚类评价指标的缺陷，提出同时考虑正负类信息的分别基于相依表和样本对的外部评价指标，用于评价任意分布数据集的聚类结果；提出采用方差度量类内紧密度和类间分离度，以类间分离度与类内紧密度之比作为度量指标的内部评价指标。UCI 数据集和人工模拟数据集实验测试表明，提出的新内部评价指标能有效发现数据集的真实类簇数；提出的基于相依表和样本对的外部评价指标，可有效评价存在类偏斜与噪音数据的聚类结果。关键词：聚类；聚类有效性；评价指标；外部指标；内部指标；F-measure；Adjusted Rand Index；STDI；S2；PS2 中图分类号：TP108 文献标志码：A 文章编号：1673−4785(2017)06−0873−10 中文引用格式：谢娟英, 周颖, 王明钊, 等. 聚类有效性评价新指标[J]. 智能系统学报, 2017, 12(6): 873–882. 英文引用格式：XIE Juanying, ZHOU Ying, WANG Mingzhao, et al. New criteria for evaluating the validity of clustering[J]. CAAI transactions on intelligent systems, 2017, 12(6): 873–882. New criteria for evaluating the validity of clustering XIE Juanying，ZHOU Ying，WANG Mingzhao，JIANG Weiliang (School of Computer Science, Shaanxi Normal University, Xi’an 710062, China) Abstract: There are two kinds of criteria for evaluating the clustering ability of a clustering algorithm, internal and external. The current external evaluation indexes fails to consider the skewed clustering result; it is difficult to get optimum cluster numbers from the clustering validity inspection results from the internal evaluation indexes. Considering the defects in the present internal and external clustering evaluation indices, we propose two external evaluation indexes, which consider both positive and negative information and which are respectively based on the contingency table and sample pairs for the evaluation of clustering results from a dataset with arbitrary distribution. The variance is proposed to measure the tightness of a cluster and the separability between clusters, and the ratio of these parameters is used as an internal evaluation index for the measurement index. Experiments on the datesets from UCI (University of California in Iven) machine learning repository and artificially simulated datasets show that the proposed new internal index can be used to effectively find the truenumber of clusters in a dataset. The proposed external indexes based on the contingency table and sample pairs are a very effective external evaluation indexes and can be used to evaluate the clustering results from existing types of skewed and noisy data. Keywords: clustering; validity of clustering; evaluation index; external criteria; internal criteria; F-measure; Adjusted Rand Index; STDI; S2; PS2 随着人工智能技术如火如荼地发展，机器学习在各行业得到了空前的重视和应用，并取得了前所未有的成功[1-5]。聚类分析作为无监督学习方法，是各行业数据分析的主要工具之一，其旨在发现数据收稿日期：2017−06−08. 网络出版日期：2017−11−09. 基金项目：国家自然科学基金项目 (61673251)；陕西省科技攻关项目 (2013K12-03-24)；陕西师范大学研究生创新基金项目 (2015CXS028，2016CSY009)；中央高校基本科研业务费重点项目 (GK201701006). 通信作者：谢娟英. E-mail：xiejuany@snnu.edu.cn. 第 12 卷第 6 期智能系统学报 Vol.12 No.6 2017 年 12 月 CAAI Transactions on Intelligent Systems Dec. 2017

·874· 智能系统学报第12卷集样本的潜在分布模式与内在结构，发现数据集样簇结构难以判别，聚类有效性检验效果不理想，很本中所隐藏的知识。聚类分析使得同类簇的样本尽难得到正确的聚类结果和发现最佳类簇数。针对现可能相似，不同类簇的样本尽可能不相似s”。聚类有内部评价指标的上述问题，本文利用方差的性评价指标是度量聚类结果有效性的客观指标，也是质，定义类内距离和类间距离，以表达类簇间的分衡量聚类算法性能的客观依据，设计一个全面的聚离性与类簇内的紧促性，提出基于类间分离性与类类结果评价指标是一个困难而复杂的问题8)。内紧密性之比的新内部评价指标STDI(standard de- 根据是否利用数据集样本真实类标信息（真实 viation based index),以期发现数据集的真实类簇分的样本分布信息)，聚类有效性评价指标分为外部评布结构。价指标和内部评价指标。外部评价指标通过比较聚 UCI机器学习数据库真实数据集和人工模拟的类结果与真实分布的匹配程度，对聚类结果进行评带有刁难性的及带有噪音与类偏斜的人工模拟数据价。现有外部评价指标分为基于相依表的，基于样集实验测试表明，提出的内部评价新指标STDI能本对的和基于信息熵的指标&1-w。F-measure-1阁发现更合理的数据集类簇数；提出的分别基于相依是最先提出的外部评价指标，是针对两类问题的评表和样本对的外部评价指标S2和PS2可以有效评价指标，是精度和召回率的调和平均，后来被推广价有类偏斜现象的聚类结果。到多类问题。常用的外部评价指标还有Jaccard系 1外部指标数、Rand index参数、ARI(adjusted rand index)参数、标准化互信息NMI(normalized mutual informa- 聚类分析中可能遇到如表1所示的极端情况。 tion)和调整互信息AMl(adjusted mutual informa- 此时，若用F-measure指标评价表1所示极端聚类 tion),以及B3(bcubed index)等，-1。不同外部评结果的有效性，将失去意义。因为，此时的F-meas- 价指标侧重点不同，Amigo等20提出4个形式化约 ure指标值是0.67，但实际聚类结果毫无意义。导 (cluster homogeneity,cluster completeness,rag 致这种现象的原因是：F-measure是精度和召回率的 bag和clusters size vs.quantity)对现有外部评价指调和平均。对于两类问题，F-measure只强调了聚类标进行比较。Vih等2指出ARI指标是目前最好算法对正类的聚类效果，而未考虑聚类算法对负类的聚类评价指标。聚类结果类偏斜是现实世界的聚类效果。数据，特别是生物医学数据聚类分析中的普遍现表1极端聚类结果示例象221。尽管已经出现针对不平衡数据和不同类簇 Table 1 Rare case of clustering 密度的聚类评价指标研究2刘，但还没有考虑聚类聚类前/ 真实分布相依表聚类算法得到的相依表结果偏斜的外部评价指标。鉴于此，本文利用聚类聚类后聚类后正类聚类后负类聚类后正类聚类后负类结果的相依表和样本对信息，同时考虑聚类结果的聚类前 50 50 正负类信息，提出分别基于相依表和基于样本对的正类 0 外部评价指标S2(harmonic mean of sensitivity and 聚类前 0 50 50 0 specificity)PS2(harmonic mean of sensitivity and 负类 specificity based on pairwise),以期有效评价偏斜聚为了避免此类问题，本文提出一种基于相依表类结果。的、同时考虑正负类聚类结果的评价指标S2。S2 内部评价指标没有使用原始数据分布的先验信指标调和了聚类算法对于正负类的聚类效果，是灵息，常通过评价聚类结果优劣来发现数据集的内部敏度和特异度的调和平均。如同F-measure可推广结构和分布状态，是发现数据集最佳类簇数的常用于多类问题一样，S2同样适用于作为多类问题的聚办法。内部指标有基于统计信息和基于样本几何类评价指标。结构的指标。IGP指标2(in-group proportion)是基设聚类结果类簇数为K,原始类簇数为C,则聚于统计信息的指标，通过度量在某一类簇中，距离类结果相依表是表2所示的C×K矩阵，U是真实分某个样本最近的样本是否和该样本在同一类簇，来布，V是聚类算法所得聚类结果，则任意类簇c的评价聚类结果的优劣。常用的基于数据集样本几何 TP、FNc、FP、TN。分别定义如式(1)所示。其中，结构的内部指标有DB指标(davies-bouldin).2 l为原始类标信息，L为聚类所得类标信息，n为样 XB指标(xie-beni)2、Sil指标(silhouettes)3o1、本数。以类簇c为正类的sensitivity和specificity BWP指标(between-within proportion)等。这些聚定义如式(2)所示。则新聚类指标$2如式(3)定类有效性评价内部指标自身的缺陷，使得其对于类义。当类簇数K=2时，式(3)的S2指标退化为式

集样本的潜在分布模式与内在结构，发现数据集样本中所隐藏的知识。聚类分析使得同类簇的样本尽可能相似，不同类簇的样本尽可能不相似[6-7]。聚类评价指标是度量聚类结果有效性的客观指标，也是衡量聚类算法性能的客观依据，设计一个全面的聚类结果评价指标是一个困难而复杂的问题[8-13]。根据是否利用数据集样本真实类标信息 (真实的样本分布信息)，聚类有效性评价指标分为外部评价指标和内部评价指标。外部评价指标通过比较聚类结果与真实分布的匹配程度，对聚类结果进行评价。现有外部评价指标分为基于相依表的，基于样本对的和基于信息熵的指标[8, 13-14]。F-measure[17-18] 是最先提出的外部评价指标，是针对两类问题的评价指标，是精度和召回率的调和平均，后来被推广到多类问题。常用的外部评价指标还有 Jaccard 系数、Rand index 参数、ARI (adjusted rand index) 参数、标准化互信息 NMI (normalized mutual information) 和调整互信息 AMI (adjusted mutual information)，以及 B3(bcubed index) 等 [8, 17-19]。不同外部评价指标侧重点不同，Amigó等 [20]提出 4 个形式化约束 (cluster homogeneity, cluster completeness, rag bag 和 clusters size vs. quantity) 对现有外部评价指标进行比较。Vinh 等 [21]指出 ARI 指标是目前最好的聚类评价指标。聚类结果类偏斜是现实世界数据，特别是生物医学数据聚类分析中的普遍现象 [22-23]。尽管已经出现针对不平衡数据和不同类簇密度的聚类评价指标研究[8, 24] ，但还没有考虑聚类结果偏斜的外部评价指标。鉴于此，本文利用聚类结果的相依表和样本对信息，同时考虑聚类结果的正负类信息，提出分别基于相依表和基于样本对的外部评价指标 S2(harmonic mean of sensitivity and specificity) 和 PS2(harmonic mean of sensitivity and specificity based on pairwise)，以期有效评价偏斜聚类结果。内部评价指标没有使用原始数据分布的先验信息，常通过评价聚类结果优劣来发现数据集的内部结构和分布状态，是发现数据集最佳类簇数的常用办法[25]。内部指标有基于统计信息和基于样本几何结构的指标。IGP 指标[26] (in-group proportion) 是基于统计信息的指标，通过度量在某一类簇中，距离某个样本最近的样本是否和该样本在同一类簇，来评价聚类结果的优劣。常用的基于数据集样本几何结构的内部指标有 DB 指标 (davies-bouldin)[27-28] 、 XB 指标 (xie-beni)[29] 、Sil 指标 (silhouettes)[30] 、 BWP 指标 (between-within proportion)[31]等。这些聚类有效性评价内部指标自身的缺陷，使得其对于类簇结构难以判别，聚类有效性检验效果不理想，很难得到正确的聚类结果和发现最佳类簇数。针对现有内部评价指标的上述问题，本文利用方差的性质，定义类内距离和类间距离，以表达类簇间的分离性与类簇内的紧促性，提出基于类间分离性与类内紧密性之比的新内部评价指标 STDI(standard deviation based index)，以期发现数据集的真实类簇分布结构。 UCI 机器学习数据库真实数据集和人工模拟的带有刁难性的及带有噪音与类偏斜的人工模拟数据集实验测试表明，提出的内部评价新指标 STDI 能发现更合理的数据集类簇数；提出的分别基于相依表和样本对的外部评价指标 S2 和 PS2 可以有效评价有类偏斜现象的聚类结果。 1 外部指标聚类分析中可能遇到如表 1 所示的极端情况。此时，若用 F-measure 指标评价表 1 所示极端聚类结果的有效性，将失去意义。因为，此时的 F-measure 指标值是 0.67，但实际聚类结果毫无意义。导致这种现象的原因是：F-measure 是精度和召回率的调和平均。对于两类问题，F-measure 只强调了聚类算法对正类的聚类效果，而未考虑聚类算法对负类的聚类效果。为了避免此类问题，本文提出一种基于相依表的、同时考虑正负类聚类结果的评价指标 S2。S2 指标调和了聚类算法对于正负类的聚类效果，是灵敏度和特异度的调和平均。如同 F-measure 可推广于多类问题一样，S2 同样适用于作为多类问题的聚类评价指标。设聚类结果类簇数为 K，原始类簇数为 C，则聚类结果相依表是表 2 所示的 C×K 矩阵，U 是真实分布，V 是聚类算法所得聚类结果，则任意类簇 c 的 TPc、FNc、FPc、TNc 分别定义如式 (1) 所示。其中， l 为原始类标信息，L 为聚类所得类标信息，n 为样本数。以类簇 c 为正类的 sensitivity 和 specificity 定义如式 (2) 所示。则新聚类指标 S2 如式 (3) 定义。当类簇数 K=2 时，式 (3) 的 S2 指标退化为式表 1 极端聚类结果示例 Table 1 Rare case of clustering 聚类前/ 聚类后真实分布相依表聚类算法得到的相依表聚类后正类聚类后负类聚类后正类聚类后负类聚类前正类 50 0 50 0 聚类前负类 0 50 50 0 ·874· 智能系统学报第 12 卷

第6期谢娟英，等：聚类有效性评价新指标 ·875· (4),其中的sensitivity和specificity同F-measure指 TP、FN、FP和TN也可根据表2所示的相依表计算标在两类问题中的定义一致。由此可见，我们定义得到。计算公式如式(6)所示。基于样本对的sensi- 的新指标S2适用于任意类的聚类问题。 tivity,specificity定义如式(7)所示，则基于样本对表2聚类结果相依表的新聚类评价指标PS2定义为式(8)。 Table 2 The contingency table of a clustering 表3聚类结果混淆矩阵 UIV V Ve SUM Table 3 Confusion matrix of a clustering U 聚类前/聚类后 T F 11 112 nle nik n TP FN Uz 21 122 ne n2K n2. ◇ FP TN TP=((x.)I(x)=I(x )L(x )L(x) Ue ncl ne nck ne FN={(x,x)Ilx）=Ix,L(x)≠L(x)川 (5) FP=I(x,x)Il(x)≠Ix,L(c)=L(x)川 Uc nCI nc. TN=x,x)Ilx)≠l(x),L(x)≠L(x)川 SUM n.I -2 ne n.K P=( TPe={il(x)=L(x)=c,1≤i≤nl=nc 2 FNe=HiHZ()=c}A{L(x)≠c,l≤i≤nl=ne-nc p (6) FP.=l{ill(x)≠cA{L(x)=ch,1≤i≤n‖=ne-n TNe=l{ill(x)≠c,L(x)≠c,1≤i≤n川=n-ne.-ne+ne m-2 -TP (1) TN=N-(TP+FN+FP) sensitivity= TP:=" TP TPe+FNe ne sensitivity TN。=n-n-ne+ne (2) TP+FN specificity=TN+FP. (7) TN n-ne. specificity=TN+FP 1 S2= 2xsensitivityXspecificity (3) 2×sensitivity×specificity min(C,K] PS2= sensitivity.specificity. sensitivity +specificity (8) S2= 2×sensitivity×specificity 2XTP×TN sensitivity+specificity (4) TP FP+TN)+TN(TP+FN) 外部评价指标中的Rand index、Adjusted rand index、Jaccard系数，AM等均是基于样本对的聚类 2内部指标评价指标。因此，本文类似地提出基于样本对的聚方差作为一种度量样本分布情况的概率统计类结果外部评价指标PS2,调和聚类结果的正类识量，通常用来描述样本的离散程度。样本方差越别率和负类识别率，以评价聚类结果的有效性。小，样本分布越密集，反之则越分散。方差的性质任意两样本点x、x,若I(x)=1(x),且Lx)= 可以用于计算类内距离和类间距离，同一类簇中样 L(x,即聚类前后属于同一类，则称为正事件T;反本分布越密集，方差越小，因此将同一类簇中样本之，如果I(x)=1(x),但L(x,)≠L(x,),即聚类前属于的方差作为类内距离，度量类簇内部的紧促性。同类簇，但聚类后不属于同一类，称之为负事件F。基于“类内尽可能紧密，类间尽可能分离”原则，依据正负事件，可得表3所示混淆矩阵。其中，TP、利用方差思想定义度量类内距离和类间距离测度， FN、FP和TN分别表示聚类前后都在同一类簇的类间距离越大越好，类内距离越小越好，提出将类样本对数；聚类前在同一类簇，聚类后不在同一类间距离与类内距离之比作为聚类效果的内部评价指簇的样本对数：聚类前不在同一类簇，聚类后在于标STDI(standard deviation based index),如式(9)所同一类簇的样本对数；和聚类前后都不在同一类簇示。从式(9)STDI的定义可知，其值越大，表明聚类的样本对数。其形式化定义如式（⑤）所示。由定义结果越好。可知，TP和TN统计了聚类所得划分与原始分布的 -致性，FN和FP统计了聚类所得划分与原始分布 STDI= 9 的差异性。设N表示规模为n的数据集的所有样本对数，则w= 2 ）=",即，AeP=NP4TN 式中：c是类簇k的质心，是所有样本的质心，七是

(4)，其中的 sensitivity 和 specificity 同 F-measure 指标在两类问题中的定义一致。由此可见，我们定义的新指标 S2 适用于任意类的聚类问题。    TPc = |{i|l(xi) = L(xi) = c,1 ⩽ i ⩽ n}| = ncc FNc = |{i|{l(xi) = c}∧{L(xi) , c},1 ⩽ i ⩽ n}| = nc· −ncc FPc = |{i|{l(xi) , c}∧{L(xi) = c},1 ⩽ i ⩽ n}| = n·c −ncc TNc = |{i|l(xi) , c, L(xi),c,1 ⩽ i ⩽ n}|=n−nc· −n·c+ncc (1) sensitivityc = TPc TPc +FNc = ncc nc· specificityc = TNc TNc +FPc = n−nc· −n·c +ncc n−nc· (2) S 2 = 1 min{C,K} min∑ {C,K} c=1 2×sensitivityc ×specificityc sensitivityc +specificityc (3) S 2 = 2×sensitivity×specificity sensitivity+specificity (4) 外部评价指标中的 Rand index、Adjusted rand index、Jaccard 系数，AMI 等均是基于样本对的聚类评价指标。因此，本文类似地提出基于样本对的聚类结果外部评价指标 PS2，调和聚类结果的正类识别率和负类识别率，以评价聚类结果的有效性。 l(xi) = l ( xj ) L(xi) = L ( xj ) l(xi) = l ( xj ) L(xi) , L ( xj ) N = ( n 2 ) = n(n−1) 2 任意两样本点 xi、xj，若，且，即聚类前后属于同一类，则称为正事件 T；反之，如果，但，即聚类前属于同类簇，但聚类后不属于同一类，称之为负事件 F。依据正负事件，可得表 3 所示混淆矩阵。其中，TP、 FN、FP 和 TN 分别表示聚类前后都在同一类簇的样本对数；聚类前在同一类簇，聚类后不在同一类簇的样本对数；聚类前不在同一类簇，聚类后在于同一类簇的样本对数；和聚类前后都不在同一类簇的样本对数。其形式化定义如式 (5) 所示。由定义可知，TP 和 TN 统计了聚类所得划分与原始分布的一致性，FN 和 FP 统计了聚类所得划分与原始分布的差异性。设 N 表示规模为 n 的数据集的所有样本对数，则，即，N=TP+FN+FP+TN。 TP、FN、FP 和 TN 也可根据表 2 所示的相依表计算得到。计算公式如式 (6) 所示。基于样本对的 sensitivity，specificity 定义如式 (7) 所示，则基于样本对的新聚类评价指标 PS2 定义为式 (8)。    TP = {(xi , xj ) |l(xi) = l(xj), L(xi) = L(xj) } FN= {(xi , xj ) |l(xi) = l(xj), L(xi) , L(xj) } FP = {(xi , xj ) |l(xi) , l(xj), L(xi) = L(xj) } TN= {(xi , xj ) |l(xi) , l(xj), L(xi) , L(xj) } (5)    TP = ∑C i=1 ∑K j=1 ( ni j 2 ) FN = ∑C i=1 ( ni· 2 ) −TP FP = ∑K j=1 ( n· j 2 ) −TP TN = N −(TP+FN+FP) (6)    sensitivity = TP TP+FN specificity = TN TN+FP (7)    PS2 = 2×sensitivity×specificity sensitivity+specificity = 2×TP×TN TP(FP+TN)+TN(TP+FN) (8) 2 内部指标方差作为一种度量样本分布情况的概率统计量，通常用来描述样本的离散程度[32]。样本方差越小，样本分布越密集，反之则越分散。方差的性质可以用于计算类内距离和类间距离，同一类簇中样本分布越密集，方差越小，因此将同一类簇中样本的方差作为类内距离，度量类簇内部的紧促性。基于“类内尽可能紧密，类间尽可能分离”原则，利用方差思想定义度量类内距离和类间距离测度，类间距离越大越好，类内距离越小越好，提出将类间距离与类内距离之比作为聚类效果的内部评价指标 STDI(standard deviation based index)，如式 (9) 所示。从式 (9)STDI 的定义可知，其值越大，表明聚类结果越好。 STDI = 1 K ( ∑K k=1 ∥ck − x¯∥ 2 ) ∑K k=1 1 nk ( ∑nk i=1 ∥xi − ck∥ 2 ) (9) 式中：c x¯ k 是类簇 k 的质心，是所有样本的质心，xi 是表 2 聚类结果相依表 Table 2 The contingency table of a clustering U/V V1 V2 ··· Vc VK SUM U1 n11 n12 ··· n1c n1K n1· U2 n21 n22 ··· n2c n2K n2· . . . . . . . . . . . . . . . . . . Uc nc1 nc2 ··· ncc ncK nc· . . . . . . . . . . . . . . . . . . UC nC1 nC2 ··· nCc nCK nC· SUM n·1 n·2 ··· n·c n·K n 表 3 聚类结果混淆矩阵 Table 3 Confusion matrix of a clustering 聚类前/聚类后 T' F' T TP FN F FP TN 第 6 期谢娟英，等：聚类有效性评价新指标 ·875·

类簇 k 的第 i 个样本，nk 是类簇 k 的样本数，K 是数据集的类簇数。STDI 指标的分子表示各类簇间方差，分母表示各类簇方差之和。显然簇内方差越小，则分母越小，表示类簇内部分布越紧密，簇间方差越大，则分子越大，表示各类簇的分离性越好。因此，STDI 的值越大越好。 3 实验分析本节将分别测试提出的内部指标和外部指标的性能。因为篇幅所限，内部指标只使用图 1 所示的具有挑战性的人工模拟数据集进行测试，该数据集经常被识别为 3 个类簇。外部评价指标将使用来自 UCI 机器学习数据库[33]的真实数据集和人工模拟数据集两大类数据进行测试。其中的人工模拟数据包括：类簇样本分布不平衡的偏斜数据，以及类簇样本分布平衡但各类簇间存在部分交叠的数据。这样设计人工模拟数据集的目的在于：检测提出的外部指标 S2 与 PS2 对带有噪音以及类别分布不平衡数据聚类结果的判断能力。测试外部指标的人工模拟数据集如图 2 所示，表 4 是图 2 各数据集的详细信息，测试外部指标的 UCI 机器学习数据库的真实数据集如表 5 所示。 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 X Y 图 1 测试内部指标 STDI 的人工数据集原始分布 Fig. 1 The synthetic data set to test the new internal criteria STDI −4 −2 0 2 4 6 8 10 12 −4 −2 0 2 4 6 8 10 12 14 X Y 2.5 3.0 3.5 4.0 4.5 5.0 5.5 6.0 6.5 7.0 7.5 1 2 3 4 5 6 7 8 X Y −4 −2 0 2 4 6 8 10 −4 −2 0 2 4 6 8 10 X X Y −10 −5 0 5 10 15 20 −10 −5 0 5 10 15 20 Y −50 −40 −30 −20 −10 0 10 20 30 40 50 −40 −30 −20 −10 0 10 20 30 40 X Y −20 −10 0 10 20 30 40 −20 −15 −10 −5 0 5 10 15 20 25 30 X Y (a) 2 ㆧ᎟㶍᪜ᢚ䯲 Ec2 (b) 2 ㆧ̹᎟㶍᪜ᢚ䯲 UEc2 (c) 3 ㆧ᎟㶍᪜ᢚ䯲 Ec3 (d) 3 ㆧ̹᎟㶍᪜ᢚ䯲 UEc3 (e) 4 ㆧ᎟㶍᪜ᢚ䯲 Ec4 (f) 4 ㆧ̹᎟㶍᪜ᢚ䯲 UEc4 ·876· 智能系统学报第 12 卷

第6期谢娟英，等：聚类有效性评价新指标 ·877· 30 30 20 20 10 20 -20 -30 -30 20 -10 0 1020 30 30 -20-100102030 (g)5类平衡数据集Ec5 (h)5类不平衡数据集UEc5 30 25 20 20 15 10 -10 20 -15 -3 -2 -40-30-20-10010203040 -30 -20-100102030 (①6类平衡数据集Ec6 G)6类不平衡数据集UEc6 图2测试外部指标S2和PS2的人工数据集原始分布 Fig.2 The synthetic data sets to test the new external criteria S2 and PS2 表4测试新外部指标S2和PS2的人工模拟数据集信息表5测试新外部指标S2和PS2的UCI数据集 Table 4 The detail information of synthetic data sets to Table 5 The data sets from UCI machine learning reposit- test the proposed external criteria S2 and PS2 ory to test the proposed external criteria S2 and PS2 数据集样本数类簇数各类簇样本数数据集样本数类簇数各类簇样本数 Ec2 2000 10001000 Iris 150 3505050 Ec3 1200 3 400 400400 Seeds 210 3707070 Ec4 800 4 200 200200200 Segmentation 210 730303030303030 Ec5 3000 5 600600600600600 Soybean 47 410101017 Ec6 2400 6 400400400400400400 wine 178 3 597148 UEc2 2000 5001500 wdbc 569 2357212 UEc3 1200 3 200 400600 Bupa 345 2145200 UEc4 800 50 150200400 pima-indians-diabetes 768 2500268 UEc5 3000 5 10008006001400200 Balance scale 625 349288288 UEc62400 6100200300400600800 New_thyroid 215 31503530 3.1内部指标有效性测试实验 Ionosphere 351 238313 内部指标不需要任何先验知识，通过评价聚类 Haberman 306 222581 结果，发现数据集样本的潜在分布与内在结构，常用于发现数据集的类簇数。因此，我们以能否准确从图3各指标的实验结果可以看出，只有图发现数据集的真实类簇数来测试提出的内部指标 3(a)展示的STDI指标的实验结果可以发现图1 STDI指标的有效性，并与现有内部指标DB、XB、所示人工数据集的真实类簇数9，其余5个指标均 IGP、Sil和BWP的性能进行比较。图3给出了各在类簇数为3时最佳，即其余指标发现的该数据集内部指标对图1所示人工模拟数据集的实验结果。类簇数是3。因此，只有用本文提出内部聚类指标这里的聚类算法使用的是SD算法B。 STDI可以得到该人工模拟数据集的正确类簇数

3.1 内部指标有效性测试实验内部指标不需要任何先验知识，通过评价聚类结果，发现数据集样本的潜在分布与内在结构，常用于发现数据集的类簇数。因此，我们以能否准确发现数据集的真实类簇数来测试提出的内部指标 STDI 指标的有效性，并与现有内部指标 DB、XB、 IGP、Sil 和 BWP 的性能进行比较。图 3 给出了各内部指标对图 1 所示人工模拟数据集的实验结果。这里的聚类算法使用的是 SD 算法[35]。从图 3 各指标的实验结果可以看出，只有图 3(a) 展示的 STDI 指标的实验结果可以发现图 1 所示人工数据集的真实类簇数 9，其余 5 个指标均在类簇数为 3 时最佳，即其余指标发现的该数据集类簇数是 3。因此，只有用本文提出内部聚类指标 STDI 可以得到该人工模拟数据集的正确类簇数。表 4 测试新外部指标 S2 和 PS2 的人工模拟数据集信息 Table 4 The detail information of synthetic data sets to test the proposed external criteria S2 and PS2 数据集样本数类簇数各类簇样本数 Ec2 2 000 2 1 000 1 000 Ec3 1 200 3 400 400 400 Ec4 800 4 200 200 200 200 Ec5 3 000 5 600 600 600 600 600 Ec6 2 400 6 400 400 400 400 400 400 UEc2 2 000 2 500 1 500 UEc3 1 200 3 200 400 600 UEc4 800 4 50 150 200 400 UEc5 3 000 5 1 000 800 600 1 400 200 UEc6 2 400 6 100 200 300 400 600 800 表 5 测试新外部指标 S2 和 PS2 的 UCI 数据集 Table 5 The data sets from UCI machine learning repository to test the proposed external criteria S2 and PS2 数据集样本数类簇数各类簇样本数 Iris 150 3 50 50 50 Seeds 210 3 70 70 70 Segmentation 210 7 30 30 30 30 30 30 30 Soybean 47 4 10 10 10 17 wine 178 3 59 71 48 wdbc 569 2 357 212 Bupa 345 2 145 200 pima-indians-diabetes 768 2 500 268 Balance_scale 625 3 49 288 288 New_thyroid 215 3 150 35 30 Ionosphere 351 2 38 313 Haberman 306 2 225 81 −30 −10 0 10 20 30 −20 −20 −30 −10 0 10 20 30 X X Y −30 −10 0 10 20 30 −20 −15 −20 −10 −5 0 10 5 20 15 25 X X Y −30 −10 0 10 20 30 −20 −20 −30 −10 0 10 20 30 Y −40 −10 0 10 20 40 −30 −20 30 −20 −30 −10 0 10 20 30 Y (g) 5 ㊫ᒣ㺑ᮠᦞ䳶 Ec5 (h) 5 ㊫нᒣ㺑ᮠᦞ䳶 UEc5 (i) 6 ㊫ᒣ㺑ᮠᦞ䳶 Ec6 (j) 6 ㊫нᒣ㺑ᮠᦞ䳶 UEc6 图 2 测试外部指标 S2 和 PS2 的人工数据集原始分布 Fig. 2 The synthetic data sets to test the new external criteria S2 and PS2 第 6 期谢娟英，等：聚类有效性评价新指标 ·877·

·878· 智能系统学报第12卷分析原因是：本文提出的STDI指标采用各类簇质较大，而簇内样本方差较小，因此得到最佳聚类结心方差度量类间分离程度，用各类簇样本方差度量果，发现数据集的正确类簇数。由此可见，本文提类内紧密程度，当类簇数为9时，各类簇质心方差出的STDI指标是非常有效的一种聚类评价指标。 1.4 13 1.2 1.0 1.0 0.8 0.9 0.8 0.6 0.7 0g 0.6 0.5 02 0.4 02 0.3 46 810立468022 468 10121416182022 类簇数类簇数 (a)STDI (b)DB 1.09-00 0.9 20 0.8 0.7 15 离06 0.5 0.4 0.3 0.2 0.1 810121416182022 0 468102141618202 类簇数类簇数 (c)XB (d)IGP 350 300r 300 250 250 200 200 150 100 50 50 -50 -100 50 2 46810121416182022 46810121416182022 类簇数类簇数 (e)Sil (f)BWP 图3各内部指标在人工数据集的测试结果 Fig.3 The results on synthetic data set of internal criteria 3.2外部指标有效性测试实验 2~6,类簇数相同的人工模拟数据集包括两类：类簇本小节对提出的2种聚类有效性评价外部指样本数均衡，但簇间样本重叠的情况：类簇样本数标S2和PS2进行测试，聚类算法选取快速K-me 不平衡，即存在类簇偏斜，簇间样本重叠或很少量 doids算法B。为了充分说明提出的外部评价指标重叠的情况。这样的人工模拟数据集将测试提出的 S2和PS2的有效性，特别设计了带有噪音，类簇分外部评价指标S2和PS2对存在类偏斜或样本重叠布平衡和不平衡的人工模拟数据集，并选择了来自分布的数据聚类结果的评价情况。表5来自UCI机 UCI机器学习数据库的样本数、类簇数和各类簇样器学习数据库的12个真实数据集的样本数，类簇本规模各异的真实数据集来进行测试，同时将提出数和类簇样本分布也各不相同。这些真实数据集的S2和PS2指标与聚类准确率Accuracy,以及经将进一步检测提出的外部评价指标2和PS2的有典外部评价指标F-measure、Rand index、Jaccard系效性。数和ARI的指标值进行比较。为了清楚展示S2和PS2指标的性能，分别将图2和表4所示人工模拟数据集的类簇数从 S2和PS2的实验测试结果与聚类准确率Accuracy

分析原因是：本文提出的 STDI 指标采用各类簇质心方差度量类间分离程度，用各类簇样本方差度量类内紧密程度，当类簇数为 9 时，各类簇质心方差较大，而簇内样本方差较小，因此得到最佳聚类结果，发现数据集的正确类簇数。由此可见，本文提出的 STDI 指标是非常有效的一种聚类评价指标。 3.2 外部指标有效性测试实验本小节对提出的 2 种聚类有效性评价外部指标 S2 和 PS2 进行测试，聚类算法选取快速 K-medoids 算法[35]。为了充分说明提出的外部评价指标 S2 和 PS2 的有效性，特别设计了带有噪音，类簇分布平衡和不平衡的人工模拟数据集，并选择了来自 UCI 机器学习数据库的样本数、类簇数和各类簇样本规模各异的真实数据集来进行测试，同时将提出的 S2 和 PS2 指标与聚类准确率 Accuracy，以及经典外部评价指标 F-measure、Rand index、Jaccard 系数和 ARI 的指标值进行比较。图 2 和表 4 所示人工模拟数据集的类簇数从 2~6，类簇数相同的人工模拟数据集包括两类：类簇样本数均衡，但簇间样本重叠的情况；类簇样本数不平衡，即存在类簇偏斜，簇间样本重叠或很少量重叠的情况。这样的人工模拟数据集将测试提出的外部评价指标 S2 和 PS2 对存在类偏斜或样本重叠分布的数据聚类结果的评价情况。表 5 来自 UCI 机器学习数据库的 12 个真实数据集的样本数，类簇数和类簇样本分布也各不相同。这些真实数据集将进一步检测提出的外部评价指标 S2 和 PS2 的有效性。为了清楚展示 S2 和 PS2 指标的性能，分别将 S2 和 PS2 的实验测试结果与聚类准确率 Accuracy， 2 4 6 8 10 12 14 16 18 20 22 0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 ㆧㄳ᪜ ᠳᴳը 2 4 6 8 10 12 14 16 18 20 22 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 ㆧㄳ᪜ 2 4 6 8 10 12 14 16 18 20 22 ㆧㄳ᪜ 2 4 6 8 10 12 14 16 18 20 22 ㆧㄳ᪜ 2 4 6 8 10 12 14 16 18 20 22 ㆧㄳ᪜ 2 4 6 8 10 12 14 16 18 20 22 ㆧㄳ᪜ ᠳᴳը 0 5 10 15 20 25 ᠳᴳը 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 ᠳᴳը −100 −50 0 50 100 150 200 250 300 350 ᠳᴳը −50 0 50 100 150 200 250 300 ᠳᴳը (a) STDI (b) DB (c) XB (d) IGP (e) Sil (f) BWP 0.3 图 3 各内部指标在人工数据集的测试结果 Fig. 3 The results on synthetic data set of internal criteria ·878· 智能系统学报第 12 卷

经典外部评价指标 F-measure、Rand index、Jaccard 系数和 ARI 指数进行比较，并将 S2 和 PS2 指标与聚类准确率独立比较。图 4 展示了 S2 指标在人工模拟数据集和真实数据集的测试结果与其他指标的比较。图 5 给出了 PS2 指标的实验测试结果与其他指标的比较。S2 与 PS2 的性能比较如图 6 所示，图 6 同时展示了聚类准确率指标。图 4 和图 5 中的 R 是 Rand index 的简写。图 4(a) 人工模拟数据集的实验结果揭示，除了含有 6 个不平衡类簇的人工模拟数据集外，本文提出的同时考虑正负类信息的聚类有效性评价指标 S2 与其他指标相比具有最高值，且与其他指标在各数据集测试的指标值走势一致。因此，可以说提出的 S2 指标可以有效评价存在类偏斜分布的聚类结果。图 4(b) 所示的 UCI 机器学习数据库真实数据集的实验测试结果显示，提出的外部评价指标 Ec2 Ec3 Ec4 Ec5 Ec6 UEc2 UEc3 UEc4 UEc5 UEc6 0.4 0.5 0.6 0.7 0.8 0.9 1.0 ᪜ᢚ䯲 ᠳᴳը S2 Accuracy ARI R Jaccard F_measure Iris Seeds Seg Soy wine wdbc Bupa pima Bal New Iono Haber 0 0.2 0.4 0.6 0.8 1.0 1.2 ᪜ᢚ䯲 ᠳᴳը S2 Accuracy ARI R Jaccard F_measure (a) Ϧ጑Ὅ᠋᪜ᢚ䯲 (b) UCI ⱋ჊᪜ᢚ䯲图 4 S2 指标与其他指标的测试结果比较 Fig. 4 The comparison of S2 with other criteria 0.4 0.5 0.6 0.7 0.8 0.9 1.0 ᠳᴳը 0 0.2 0.4 0.6 0.8 1.0 1.2 ᠳᴳը PS2 Accuracy ARI R Jaccard F_measure PS2 Accuracy ARI R Jaccard F_measure Ec2 Ec3 Ec4 Ec5 Ec6 UEc2 UEc3 UEc4 UEc5 UEc6 ᪜ᢚ䯲 Iris Seeds Seg Soy wine wdbc Bupa pima Bal New Iono Haber ᪜ᢚ䯲 (a) Ϧ጑Ὅ᠋᪜ᢚ䯲 (b) UCI ⱋ჊᪜ᢚ䯲图 5 PS2 指标的测试结果与其他指标的比较 Fig. 5 The comparison of PS2 with other criteria 0.65 0.70 0.75 0.80 0.85 0.90 0.95 1.00 ᠳᴳը S2 PS2 Accuracy 0.4 0.5 0.6 0.7 0.8 0.9 1.0 ᠳᴳը S2 PS2 Accuracy Ec2 Ec3 Ec4 Ec5 Ec6 UEc2 UEc3 UEc4 UEc5 UEc6 ᪜ᢚ䯲 Iris Seeds Seg Soy wine wdbc Bupa pima Bal New Iono Haber ᪜ᢚ䯲 (a) Ϧ጑Ὅ᠋᪜ᢚ䯲 (b) UCI ⱋ჊᪜ᢚ䯲图 6 S2 与 PS2 指标与聚类准确率比较 Fig. 6 The comparison of S2 and PS2 and clustering accuracy 第 6 期谢娟英，等：聚类有效性评价新指标 ·879·

·880· 智能系统学报第12卷 S2在l2个真实数据集的指标值只有在Segmenta- 发现的重要方法之一。聚类学习结果的有效性评价 tion和Bupa两个数据集的测试指标值不是最高，在是聚类分析不可或缺的重要组成部分。现有聚类评其余10个真实数据集的测试结果值均高于聚类准价指标的外部评价指标侧重于正类，对聚类结果类确率Accuracy,.以及经典外部指标Rand index指偏斜问题缺少考虑，为此，提出了分别基于相依表数，ARL,Jaccard系数和F-measure。.另外，提出的和样本对的，同时考虑正负类信息的外部评价新指 S2指标在各真实数据集的测试值与Accuracy,Jac 标S2和PS2。另外，针对现有内部评价指标在发现 card,ARI和F-measure各指标值的走势基本一致，数据集最佳类簇数方面的局限，提出了基于方差的但与Rand index指标不太一致。图4(a)和(b)的实类内紧密度和类间分离性度量，定义了以类间分离验结果共同揭示，提出的S2指标的测试值与聚类性与类内紧密度之比为度量指标的内部评价新指准确率Accuracy,外部指标F-measure,.Rand index 标STDI。UCI机器学习数据库真实数据集和带有指数，ARI和Jaccard系数在各数据集的基本走势大刁难性的人工模拟数据集实验测试表明.提出的新体一致。当前最优的外部评价指标ARI在各指标内部指标STDI能有效发现数据集的真实类簇数；值中位居后两位，特别是在真实数据集，ARI特别提出的外部指标S2和PS2是非常有效的聚类有效突出的位于后两位。这更进一步说明了提出的同时性外部评价指标，可有效评价存在类偏斜与噪音数考虑正负类信息的外部评价指标S2的有效性。据的聚类结果。图5(a)人工模拟数据集的实验结果显示，除了含有6个不平衡类簇的人工模拟数据集，提出的基参考文献：于样本对信息，同时考虑正负类信息的外部评价指标PS2在其他人工模拟数据集的指标值基本与聚 [1]ESTEVA A,KUPREL B,NOVOA RA,et al.Dermatolo- 类准确率重合，或略低于聚类准确率，但走势一致。 gist-level classification of skin cancer with deep neural net- works[J.Nature,.2017,542(7639:115-118. 图5(b)真实数据集实验结果显示，提出的PS2指标 [2]FARINA D,VUJAKLIJA I,SARTORI M,et al.Man/ma- 低于或等于聚类准确率，聚类准确率或Rand index chine interface based on the discharge timings of spinal mo- 指数在真实数据集的测试结果高于等于提出的 tor neurons after targeted muscle reinnervation[J]. PS2指标。当前最佳聚类评价指标ARI在带有噪 Nature biomedical engineering,2017,1:25. 音和类簇分布不平衡的人工模拟数据集，以及样本 [3]GULSHAN V,PENG L,CORAM M,et al.Development 规模，类簇数和各类簇样本规模变化各异的真实数 and validation of a deep learning algorithm for detection of 据集的测试结果与其他指标相比，取值较低，在 diabetic retinopathy in retinal fundus photographs[J]. 6个比较指标中居后两位。 JAMA.2016.316(22)2402-2410 图6(a)人工模拟数据集实验结果显示，除了在 [4]LONG E,LIN H,LIU Z,et al.An artificial intelligence plat- 含有6个不平衡类簇的人工模拟数据集的S2指标 form for the multihospital collaborative management of con- 低于PS2指标和聚类准确率外，在其余人工模拟数 genital cataracts[J].Nature biomedical engineering,2017,1: 据集上，S2指标的指标值均高于PS2指标，聚类准 0024. 确率居中。图6(b)真实数据集实验结果显示，在真 [5]ORRINGER DA,PANDIAN B,NIKNAFS Y S,et al.Rap- 实数据集的S2指标明显高于PS2指标值。真实数 id intraoperative histology of unprocessed surgical speci- 据集的聚类准确率Accuracy除了在Bupa数据集高 mens via fibre-laser-based stimulated Raman scattering mi- 于S2和PS2指标，在Segmentation数据集低于 croscopy[J].Nature biomedical engineering.2017,1:0027. S2和PS2指标外，在其余数据集的聚类准确率均低 [6]HAN J,PEI J,KAMBER M.Data mining:concepts and 于等于S2指标，但高于PS2指标。聚类分析的目 techniques[M].Singapore:Elsevier,2011 的是发现数据集的正确类簇分布。图6(a)~(b)的 [7]JAIN AK,DUBES RC.Algorithms for clustering data 实验结果揭示，提出的分别基于相依表和样本对， [MI.Prentice-Hall,1988. 且同时考虑正负类信息的外部评价指标S2和 [8]DE SOUTO MCP,COELHO ALV,FACELI K,et al.A PS2均能正确评价聚类结果的有效性，其走势与聚 comparison of external clustering evaluation indices in the 类准确率大体一致。其中，S2指标的走势更趋近于 context of imbalanced data sets[Cl//2012 Brazilian Sym- posium on Neural Networks (SBRN).[S.1.],2012:49-54. 聚类准确率。 [9]HUANG S,CHRNG Y,LANG D,et al.A formal al- 4结束语 gorithm for verifying the validity of clustering results based on model checking[J].PloS one,2014,9(3):e90109. 聚类作为无监督学习，是大数据集背景下知识 [10]RENDON E.ABUNDEZ I,ARIZMENDI A,et al.Intern-

S2 在 12 个真实数据集的指标值只有在 Segmentation 和 Bupa 两个数据集的测试指标值不是最高，在其余 10 个真实数据集的测试结果值均高于聚类准确率 Accuracy，以及经典外部指标 Rand index 指数，ARI，Jaccard 系数和 F-measure。另外，提出的 S2 指标在各真实数据集的测试值与 Accuracy，Jaccard，ARI 和 F-measure 各指标值的走势基本一致，但与 Rand index 指标不太一致。图 4(a) 和 (b) 的实验结果共同揭示，提出的 S2 指标的测试值与聚类准确率 Accuracy，外部指标 F-measure，Rand index 指数，ARI 和 Jaccard 系数在各数据集的基本走势大体一致。当前最优的外部评价指标 ARI 在各指标值中位居后两位，特别是在真实数据集，ARI 特别突出的位于后两位。这更进一步说明了提出的同时考虑正负类信息的外部评价指标 S2 的有效性。图 5(a) 人工模拟数据集的实验结果显示，除了含有 6 个不平衡类簇的人工模拟数据集，提出的基于样本对信息，同时考虑正负类信息的外部评价指标 PS2 在其他人工模拟数据集的指标值基本与聚类准确率重合，或略低于聚类准确率，但走势一致。图 5(b) 真实数据集实验结果显示，提出的 PS2 指标低于或等于聚类准确率，聚类准确率或 Rand index 指数在真实数据集的测试结果高于等于提出的 PS2 指标。当前最佳聚类评价指标 ARI 在带有噪音和类簇分布不平衡的人工模拟数据集，以及样本规模，类簇数和各类簇样本规模变化各异的真实数据集的测试结果与其他指标相比，取值较低，在 6 个比较指标中居后两位。图 6(a) 人工模拟数据集实验结果显示，除了在含有 6 个不平衡类簇的人工模拟数据集的 S2 指标低于 PS2 指标和聚类准确率外，在其余人工模拟数据集上，S2 指标的指标值均高于 PS2 指标，聚类准确率居中。图 6(b) 真实数据集实验结果显示，在真实数据集的 S2 指标明显高于 PS2 指标值。真实数据集的聚类准确率 Accuracy 除了在 Bupa 数据集高于 S2 和 PS2 指标，在 Segmentation 数据集低于 S2 和 PS2 指标外，在其余数据集的聚类准确率均低于等于 S2 指标，但高于 PS2 指标。聚类分析的目的是发现数据集的正确类簇分布。图 6(a)～(b) 的实验结果揭示，提出的分别基于相依表和样本对，且同时考虑正负类信息的外部评价指标 S2 和 PS2 均能正确评价聚类结果的有效性，其走势与聚类准确率大体一致。其中，S2 指标的走势更趋近于聚类准确率。 4 结束语聚类作为无监督学习，是大数据集背景下知识发现的重要方法之一。聚类学习结果的有效性评价是聚类分析不可或缺的重要组成部分。现有聚类评价指标的外部评价指标侧重于正类，对聚类结果类偏斜问题缺少考虑，为此，提出了分别基于相依表和样本对的，同时考虑正负类信息的外部评价新指标 S2 和 PS2。另外，针对现有内部评价指标在发现数据集最佳类簇数方面的局限，提出了基于方差的类内紧密度和类间分离性度量，定义了以类间分离性与类内紧密度之比为度量指标的内部评价新指标 STDI。UCI 机器学习数据库真实数据集和带有刁难性的人工模拟数据集实验测试表明，提出的新内部指标 STDI 能有效发现数据集的真实类簇数；提出的外部指标 S2 和 PS2 是非常有效的聚类有效性外部评价指标，可有效评价存在类偏斜与噪音数据的聚类结果。参考文献： ESTEVA A, KUPREL B, NOVOA RA, et al. Dermatologist-level classification of skin cancer with deep neural networks[J]. Nature, 2017, 542(7639): 115–118. [1] FARINA D, VUJAKLIJA I, SARTORI M, et al. Man/machine interface based on the discharge timings of spinal motor neurons after targeted muscle reinnervation[J]. Nature biomedical engineering, 2017, 1: 25. [2] GULSHAN V, PENG L, CORAM M, et al. Development and validation of a deep learning algorithm for detection of diabetic retinopathy in retinal fundus photographs[J]. JAMA, 2016, 316(22): 2402–2410. [3] LONG E, LIN H, LIU Z, et al. An artificial intelligence platform for the multihospital collaborative management of congenital cataracts[J]. Nature biomedical engineering, 2017, 1: 0024. [4] ORRINGER DA, PANDIAN B, NIKNAFS Y S, et al. Rapid intraoperative histology of unprocessed surgical specimens via fibre-laser-based stimulated Raman scattering microscopy[J]. Nature biomedical engineering, 2017, 1: 0027. [5] HAN J, PEI J, KAMBER M. Data mining: concepts and techniques[M]. Singapore: Elsevier, 2011. [6] JAIN AK, DUBES RC. Algorithms for clustering data [M]. Prentice-Hall, 1988. [7] DE SOUTO MCP, COELHO ALV, FACELI K, et al. A comparison of external clustering evaluation indices in the context of imbalanced data sets[C]//2012 Brazilian Symposium on Neural Networks (SBRN). [S.l.], 2012: 49-54. [8] HUANG S, CHRNG Y, LANG D, et al. A formal algorithm for verifying the validity of clustering results based on model checking[J]. PloS one, 2014, 9(3): e90109. [9] [10] RENDÓN E, ABUNDEZ I, ARIZMENDI A, et al. Intern- ·880· 智能系统学报第 12 卷

第6期谢娟英，等：聚类有效性评价新指标 ·881· al versus external cluster validation indexes[J].Internation- ternational Conference on Machine Learning,Montreal, al journal of computers and communications,2011,5(1): Canada.2009.New York,USA:ACM,2009:1073-1080 27-34 [22]D'HAESELEER P.How does gene expression clustering [11]ROSALES-MENDEZ H,RAMIREZ-CRUZ Y.CICE- work[J].Nature biotechnology,2005,23(12):1499. BCubed:A new evaluation measure for overlapping clus- [23]QUACKENBUSH J.Computational analysis of microar tering algorithms[C]//Iberoamerican Congress on Pattern ray data[J].Nature reviews genetics,2001,2(6):418-427. Recognition.Berlin:Springer Berlin Heidelberg,2013: [24]CHOU CH,SU MC,LAI E.A new cluster validity meas- 157-164. ure for clusters with different densities[Cl/IASTED Inter [12]SAID AB,HADJIDJ R,FOUFOU S.Cluster validity in- national Conference on Intelligent Systems and Control. dex based on jeffrey divergence[J].Pattern analysis and ap- Calgary,Canada:ACTA Press,2003:276-281 plications,2017,20(1:21-31 [25]谢娟英，周颖.一种新聚类评价指标)，陕西师范大学学 [13]XIONG H,WU J,CHEN J.K-means clustering versus val- 报：自然科学版，2015,43(6：1-8. idation measures:a data-distribution perspective[J].IEEE XIE Juanying,ZHOU Ying.A new criterion for clustering transactions on systems,man,and cybernetics,part b(cy- algorithm[J].Journal of Shaanxi normal university:natural bernetics,2009,392)318-331 science edition,2015,43(6):1-8 [14]POWERS D M W.Evaluation:from precision,recall and [26]KAPP AV,TIBSHIRANI R.Are clusters found in one F-factor to ROC,informedness,markedness and correla- dataset present in another dataset[J].Biostatistics,2007, tion[J].Journal of machine learning technologies,2011,2: 8(1)9-31 2229-3981 [27]DAVIES DL,BOULDIN DW.A cluster separation meas- [15]LARSEN B,AONE C.Fast and effective text mining us- ure[J].IEEE transactions on pattern analysis and machine ing linear-time document clustering[C]//Proceedings of the intelligence,1979(2):224-227. fifth ACM SIGKDD international conference on Know- [28]HASHIMOTO W,NAKAMURA T,MIYAMOTO S. ledge discovery and data mining.New York,USA:ACM, Comparison and evaluation of different cluster validity 1999:16-22. measures including their kernelization[J].Journal of ad- [16]ZU EISSEN,B SS M,WIBBROCK F.On cluster validity vanced computational intelligence and intelligent informat- and the information need of users[Cl//Conference on Arti- ics,2009,13(3):204-209. ficial Intelligence and Applications,Benalmadena,Spain, [29]XIE XL,BENI G.A validity measure for fuzzy 2003.Calgary,Canada:ACTA Press,2003:216-221. clustering[J.IEEE transactions on pattern analysis and [1刀谢娟英.无监督学习方法及其应用[M.北京：电子工业 machine intelligence.1991,13(8):841-847. 出版社，2016. [30]ROUSSEEUW PJ.Silhouettes:a graphical aid to the inter- XIE Juanying,Unsupervised learning methods and applica- pretation and validation of cluster analysis[J].Journal of tions[M].Beijing:Publishing House of Electronics In- computational and applied mathematics,1987,20:53-65. dustry,2016. [3]周世兵，徐振源，唐旭清。一种基于近邻传播算法的最佳 [18]XIE J Y,GAO HC,XIE W X,et al.Robust clustering by 聚类数确定方法[.控制与决策，2011,26(8)：1147- detecting density peaks and assigning points based on 1152. fuzzy weighted K-nearest neighbors[J].Information sci- ZHOU Shibing,XU Zhenyuan,TANG Xuqing.Method for ences.2016.354:19-40. determining optimal number of clusters based on affinity [19]谢娟英，高红超，谢维信.K近邻优化的密度峰值快速搜 propagation clustering[J]Control and decision,2011,26(8):1147- 索聚类算法[J,中国科学：信息科学，2016,46(2)： 1152. 258-280. [32]盛骤，谢式千.概率论与数理统计及其应用M.北京：高 XIE Juanying,GAO Hongchao,XIE Weixin.K-nearest 等教育出版社，2004. neighbors optimized clustering algorithm by fast search SHENG Zhou,XIE Shiqian.Probability and mathematical and finding the density peaks of a dataset[J].Scientia sin- statistics and its application[M].Beijing:Higher education ica informationis,2016,46(2):258-280. press,2004. [20]AMIGO E,GONZALO J,ARTILES J,et al.A comparis- [33]LICHMAN M,UCI Machine learning repository [EB/OL]. on of extrinsic clustering evaluation metrics based on form- 2013,University of California,Irvine,School of Informa- al constraints[J].Information retrieval,2009,12(4): tion and Computer Sciences.http://archive.ics.uci.edu/ml. 461-486. [34们谢娟英，高瑞.方差优化初始中心的K-medoids聚类算 [21]VINH NX,EPPS J,BAILEY J.Information theoretic 法[円.计算机科学与探索，2015,9(8：973-984. measures for clusterings comparison:is a correction for XIE Juanying,GAO Rui.K-medoids clustering algorithms chance necessary [C]//Proceedings of the 26th Annual In- with optimized initial seeds by variance[J].Journal of fron-

al versus external cluster validation indexes[J]. International journal of computers and communications, 2011, 5(1): 27–34. ROSALES-MENDÉZ H, RAMÍREZ-CRUZ Y. CICEBCubed: A new evaluation measure for overlapping clustering algorithms[C]//Iberoamerican Congress on Pattern Recognition. Berlin: Springer Berlin Heidelberg, 2013: 157-164. [11] SAID AB, HADJIDJ R, FOUFOU S. Cluster validity index based on jeffrey divergence[J]. Pattern analysis and applications, 2017, 20(1): 21–31. [12] XIONG H, WU J, CHEN J. K-means clustering versus validation measures: a data-distribution perspective[J]. IEEE transactions on systems, man, and cybernetics, part b (cybernetics), 2009, 39(2): 318–331. [13] POWERS D M W. Evaluation: from precision, recall and F-factor to ROC, informedness, markedness and correlation[J]. Journal of machine learning technologies, 2011, 2: 2229–3981. [14] LARSEN B, AONE C. Fast and effective text mining using linear-time document clustering[C]//Proceedings of the fifth ACM SIGKDD international conference on Knowledge discovery and data mining. New York, USA: ACM, 1999: 16-22. [15] ZU EISSEN, B S S M, WIßBROCK F. On cluster validity and the information need of users[C]//Conference on Artificial Intelligence and Applications, Benalmádena, Spain, 2003. Calgary, Canada: ACTA Press, 2003: 216-221. [16] 谢娟英. 无监督学习方法及其应用[M]. 北京: 电子工业出版社, 2016. XIE Juanying, Unsupervised learning methods and applications[M]. Beijing: Publishing House of Electronics Industry, 2016. [17] XIE J Y, GAO H C, XIE W X, et al. Robust clustering by detecting density peaks and assigning points based on fuzzy weighted K-nearest neighbors[J]. Information sciences, 2016, 354: 19–40. [18] 谢娟英, 高红超, 谢维信. K 近邻优化的密度峰值快速搜索聚类算法[J]. 中国科学: 信息科学, 2016, 46(2): 258–280. XIE Juanying, GAO Hongchao, XIE Weixin. K-nearest neighbors optimized clustering algorithm by fast search and finding the density peaks of a dataset[J]. Scientia sinica informationis, 2016, 46(2): 258–280. [19] AMIGÓ E, GONZALO J, ARTILES J, et al. A comparison of extrinsic clustering evaluation metrics based on formal constraints[J]. Information retrieval, 2009, 12(4): 461–486. [20] VINH NX, EPPS J, BAILEY J. Information theoretic measures for clusterings comparison: is a correction for chance necessary [C]//Proceedings of the 26th Annual In- [21] ternational Conference on Machine Learning, Montreal, Canada, 2009. New York, USA: ACM, 2009: 1073-1080. D'HAESELEER P. How does gene expression clustering work[J]. Nature biotechnology, 2005, 23(12): 1499. [22] QUACKENBUSH J. Computational analysis of microarray data[J]. Nature reviews genetics, 2001, 2(6): 418–427. [23] CHOU CH, SU MC, LAI E. A new cluster validity measure for clusters with different densities[C]//IASTED International Conference on Intelligent Systems and Control. Calgary, Canada: ACTA Press, 2003: 276-281. [24] 谢娟英, 周颖. 一种新聚类评价指标[J]. 陕西师范大学学报: 自然科学版, 2015, 43(6): 1–8. XIE Juanying, ZHOU Ying. A new criterion for clustering algorithm[J]. Journal of Shaanxi normal university: natural science edition, 2015, 43(6): 1–8. [25] KAPP AV, TIBSHIRANI R. Are clusters found in one dataset present in another dataset[J]. Biostatistics, 2007, 8(1): 9–31. [26] DAVIES DL, BOULDIN DW. A cluster separation measure[J]. IEEE transactions on pattern analysis and machine intelligence, 1979(2): 224–227. [27] HASHIMOTO W, NAKAMURA T, MIYAMOTO S. Comparison and evaluation of different cluster validity measures including their kernelization[J]. Journal of advanced computational intelligence and intelligent informatics, 2009, 13(3): 204–209. [28] XIE XL, BENI G. A validity measure for fuzzy clustering[J]. IEEE transactions on pattern analysis and machine intelligence, 1991, 13(8): 841–847. [29] ROUSSEEUW PJ. Silhouettes: a graphical aid to the interpretation and validation of cluster analysis[J]. Journal of computational and applied mathematics, 1987, 20: 53–65. [30] 周世兵, 徐振源, 唐旭清. 一种基于近邻传播算法的最佳聚类数确定方法[J]. 控制与决策, 2011, 26(8): 1147– 1152. ZHOU Shibing, XU Zhenyuan, TANG Xuqing. Method for determining optimal number of clusters based on affinity propagation clustering[J]. Control and decision, 2011, 26(8): 1147– 1152. [31] 盛骤, 谢式千. 概率论与数理统计及其应用[M]. 北京: 高等教育出版社, 2004. SHENG Zhou, XIE Shiqian. Probability and mathematical statistics and its application[M]. Beijing: Higher education press, 2004. [32] LICHMAN M, UCI Machine learning repository[EB/OL]. 2013, University of California, Irvine, School of Information and Computer Sciences. http://archive.ics.uci.edu/ml. [33] 谢娟英, 高瑞. 方差优化初始中心的 K-medoids 聚类算法[J]. 计算机科学与探索, 2015, 9(8): 973–984. XIE Juanying, GAO Rui. K-medoids clustering algorithms with optimized initial seeds by variance[J]. Journal of fron- [34] 第 6 期谢娟英，等：聚类有效性评价新指标 ·881·

·882- 智能系统学报第12卷 tiers of computer science and technology,2015,9(8): 周颖，女，1992年生，硕士研究 973-984 生，主要研究方向为数据挖掘。 [35]PARK HS,JUN CH.A simple and fast algorithm for K- medoids clustering[J].Expert systems with applications, 2009,36(2):3336-3341. 作者简介：谢娟英，女，1971年生，副教授王明钊，男，1990年生，硕士研究博士，主要研究方向为机器学习、数据生，主要研究方向为数据挖掘。挖掘和生物医学大数据分析。国际期刊HSS副编委。发表学术论文60余篇，单篇google scholar他引次数百余次，SCI源刊数据库单篇他引次数 40余次。出版专著2部。第二届智能计算与信号处理国际学术会议(ICSP2018) 2018 2nd International Conference on Intelligent Computing and Signal Processing 第二届智能计算与信号处理国际学术会议(1CSP2018)定于2018年3月23日至25日在中国武汉隆重举行。会议主要围绕智能计算与信号处理等研究领域展开讨论。旨在为智能计算与信号处理的专家学者及企业发展人提供一个分享研究成果、讨论存在的问题与挑战、探索前沿科技的国际性合作交流平台。欢迎海内外学者投稿和参会。论文评审及出版 1、论文必须是英文稿件，且论文应具有学术或实用价值，未在国内外学术期刊或会议发表过。发表论文的作者需提交全文进行同行评审，只做报告不发表论文的作者只需提交摘要。 2、作者可通过CrossCheck,Turnitin或其他查询体统自费查重，否则由文章重复率引起的被拒搞将由作者自行承担责任。涉嫌抄袭的论文将不被出版，且公布在会议主页。 3、论文需按照会议官网的模板排版，不得少于4页。 4、本次论文直接由出版社安排审稿，一旦被录用，均可被发表和检索。征文主题 (1)智能计算 (2)信号处理 (3)自动化软件工程 (4)生物信息学与科学计算 (5)其它相关领域大会网站以及组委会联系方式 (I)大会网站：http:/www.icicsp.org (2)投稿邮箱：ICICSP@yeah.net (3)会务组联系电话（徐老师）： Tel:+86-18702044440(cellphone),+86-020-29035993(office phone) (4)会务组即时通讯：(QQ)1571351296 (5)AEIC理工科学术交流群：219312476 (6)AEIC官网：http:/www.keoaeic.org

tiers of computer science and technology, 2015, 9(8): 973–984. PARK HS, JUN CH. A simple and fast algorithm for Kmedoids clustering[J]. Expert systems with applications, 2009, 36(2): 3336–3341. [35] 作者简介：谢娟英，女，1971 年生，副教授，博士，主要研究方向为机器学习、数据挖掘和生物医学大数据分析。国际期刊 HISS 副编委。发表学术论文 60 余篇，单篇 google scholar 他引次数百余次，SCI 源刊数据库单篇他引次数 40 余次。出版专著 2 部。周颖，女，1992 年生，硕士研究生，主要研究方向为数据挖掘。王明钊，男，1990 年生，硕士研究生，主要研究方向为数据挖掘。第二届智能计算与信号处理国际学术会议 (ICSP 2018) 2018 2nd International Conference on Intelligent Computing and Signal Processing 第二届智能计算与信号处理国际学术会议 (ICSP 2018) 定于 2018 年 3 月 23 日至 25 日在中国武汉隆重举行。会议主要围绕智能计算与信号处理等研究领域展开讨论。旨在为智能计算与信号处理的专家学者及企业发展人提供一个分享研究成果、讨论存在的问题与挑战、探索前沿科技的国际性合作交流平台。欢迎海内外学者投稿和参会。论文评审及出版 1、论文必须是英文稿件，且论文应具有学术或实用价值，未在国内外学术期刊或会议发表过。发表论文的作者需提交全文进行同行评审，只做报告不发表论文的作者只需提交摘要。 2、作者可通过 CrossCheck, Turnitin 或其他查询体统自费查重，否则由文章重复率引起的被拒搞将由作者自行承担责任。涉嫌抄袭的论文将不被出版，且公布在会议主页。 3、论文需按照会议官网的模板排版，不得少于 4 页。 4、本次论文直接由出版社安排审稿，一旦被录用，均可被发表和检索。征文主题 (1) 智能计算 (2) 信号处理 (3) 自动化软件工程 (4) 生物信息学与科学计算 (5) 其它相关领域大会网站以及组委会联系方式 (1) 大会网站: http://www.icicsp.org/ (2) 投稿邮箱: ICICSP@yeah.net (3) 会务组联系电话（徐老师）： Tel: +86- 18702044440 (cellphone), +86-020- 29035993 (office phone) (4) 会务组即时通讯：(QQ) 1571351296 (5)AEIC 理工科学术交流群：219312476 (6)AEIC 官网：http://www.keoaeic.org ·882· 智能系统学报第 12 卷

点击进入文档下载页（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录

【人工智能基础】聚类有效性评价新指标