【机器学习】基于置换检验的聚类结果评估编辑部

团购合买资源类别：文库，文档格式：PDF，文档页数：9，文件大小：1.04MB

第11卷第3期智能系统学报 Vol.11 No.3 2016年6月 CAAI Transactions on Intelligent Systems Jun.2016 D0I:10.11992/is.201603038 网络出版地址：http://www.enki..net/kcms/detail/23.1538.TP.20160513.0925.028.html 基于置换检验的聚类结果评估谷飞洋，田博，张思萌，陈征，何增有 (大连理工大学软件学院，辽宁大连116621) 摘要：对聚类结果，传统的评估方法不能从统计意义上对结果评估。ECP是一种新颖的基于置换检验的评估算法。ECP直接对聚类结果进行置换检验从而计算出p-value。为了测试ECP的效果，利用了UCI中的iris,wine, yest数据集对算法进行评测。实验结果表明，ECP可以在能够接受的时间内运算出比较准确的实验结果。关键词：聚类：聚类评估；统计检验：置换检验中图分类号：TP393文献标志码：A文章编号：1673-4785(2016)03-0301-09 中文引用格式：谷飞洋，田博，张思萌，等.基于置换检验的聚类结果评估[J].智能系统学报，2016,11(3)：301-309. 英文引用格式：GU Feiyang,.TIAN Bo,.ZHANG Simeng,etal.Statistical evaluation of the clustering results based on permutation test[J].CAAI transactions on intelligent systems,2016,11(3):301-309. Statistical evaluation of the clustering results based on permutation test GU Feiyang,TIAN Bo,ZHANG Simeng,CHEN Zheng,HE Zengyou (Software School,Dalian University of Technology,Dalian 116621,China) Abstract:For the result of clustering,tranditional methods of evalution couldn't assess the result in statistics.We propose a new algorithm called ECP(Statistical evaluation of Clustering based on Permutation test)which uses per- mutation test to evaluate the result of clustering.To evaluate the performance of the algorithm,we use the data sets, iris,wine,yeast,from UCI datasets.Experimental results show that the performance of the algorithm is good. Keywords:clustering;clustering evaluation;statistical test;permutation test 随着获得的数据越来越多，利用机器学习、数据 houette-ndex,Dunn-ndex等。这些函数能够评估挖掘[1]等手段从数据中获取潜在的知识变得越来聚类结果，但是这些函数评估出来的结果往往没有越重要。然而如何评估挖掘出来的信息，即评估数一个比较好的可以参考的值。即一个评估值计算出据挖掘结果的质量是一个十分重要的问题。只有一来之后得到的只是一个评估值，至于这个值达到什个好的评估方法，才能保证挖掘算法发现高质量的么标准能够接受并不能确定。利用统计方法评估聚信息。聚类41是数据挖掘领域一个很重要的分类结果的算法很少，其主要原因是聚类的特殊性与支。同时，聚类的应用也越来越广泛。随着聚类的复杂性使传统的统计方法很难用到聚类质量评估广泛应用，如何有效地评估聚类结果的质量[6]成上。近年来有一些利用随机方法来评估聚类结果的为一个重要的研究课题。虽然评估聚类结果的重要研究，但也存在一定的问题。本文根据存在的问题性一点不亚于挖掘算法本身，但是评估方面却没有提出了一种基于置换检验的评估方法。受到它应有的重视。针对聚类，现有的方法主要是用评价函数对聚 1相关研究类结果评估。这种函数一般分3种类型：紧密型、分 1.1利用簇结构评估聚类质量散型和连接型。常见的评估函数有DB-Index,Si- 该方法先对原始数据聚类，然后将原始数据集按照一定的约束随机置换抽样构造新的数据集。抽收稿日期：2016-03-19.网络出版日期：2016-05-13 基金项目：国家自然科学基金项目(61572094). 样之后用同样的聚类算法对样本数据集进行聚类。通信作者：何增有.E-mail:zyhc@dlut.cdu.cm

第１１卷第３期智能系统学报Ｖｏｌ．１１ №．３２０１６年６月ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓＪｕｎ．２０１６ＤＯＩ：１０．１１９９２／ｔｉｓ．２０１６０３０３８网络出版地址：ｈｔｔｐ：／／ｗｗｗ．ｃｎｋｉ．ｎｅｔ／ｋｃｍｓ／ｄｅｔａｉｌ／２３．１５３８．ＴＰ．２０１６０５１３．０９２５．０２８．ｈｔｍｌ基于置换检验的聚类结果评估谷飞洋，田博，张思萌，陈征，何增有（大连理工大学软件学院，辽宁大连１１６６２１）摘要：对聚类结果，传统的评估方法不能从统计意义上对结果评估。ＥＣＰ是一种新颖的基于置换检验的评估算法。ＥＣＰ直接对聚类结果进行置换检验从而计算出ｐ ⁃ｖａｌｕｅ。为了测试ＥＣＰ的效果，利用了ＵＣＩ中的ｉｒｉｓ，ｗｉｎｅ，ｙｅａｓｔ数据集对算法进行评测。实验结果表明，ＥＣＰ可以在能够接受的时间内运算出比较准确的实验结果。关键词：聚类；聚类评估；统计检验；置换检验中图分类号：ＴＰ３９３文献标志码：Ａ文章编号：１６７３⁃４７８５（２０１６）０３⁃０３０１⁃０９中文引用格式：谷飞洋，田博，张思萌，等．基于置换检验的聚类结果评估［Ｊ］．智能系统学报，２０１６，１１（３）：３０１⁃３０９．英文引用格式：ＧＵＦｅｉｙａｎｇ，ＴＩＡＮＢｏ，ＺＨＡＮＧＳｉｍｅｎｇ，ｅｔａｌ．Ｓｔａｔｉｓｔｉｃａｌｅｖａｌｕａｔｉｏｎｏｆｔｈｅｃｌｕｓｔｅｒｉｎｇｒｅｓｕｌｔｓｂａｓｅｄｏｎｐｅｒｍｕｔａｔｉｏｎｔｅｓｔ［Ｊ］．ＣＡＡＩｔｒａｎｓａｃｔｉｏｎｓｏｎｉｎｔｅｌｌｉｇｅｎｔｓｙｓｔｅｍｓ，２０１６，１１（３）：３０１⁃３０９．ＳｔａｔｉｓｔｉｃａｌｅｖａｌｕａｔｉｏｎｏｆｔｈｅｃｌｕｓｔｅｒｉｎｇｒｅｓｕｌｔｓｂａｓｅｄｏｎｐｅｒｍｕｔａｔｉｏｎｔｅｓｔＧＵＦｅｉｙａｎｇ，ＴＩＡＮＢｏ，ＺＨＡＮＧＳｉｍｅｎｇ，ＣＨＥＮＺｈｅｎｇ，ＨＥＺｅｎｇｙｏｕ（ＳｏｆｔｗａｒｅＳｃｈｏｏｌ，ＤａｌｉａｎＵｎｉｖｅｒｓｉｔｙｏｆＴｅｃｈｎｏｌｏｇｙ，Ｄａｌｉａｎ１１６６２１，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：Ｆｏｒｔｈｅｒｅｓｕｌｔｏｆｃｌｕｓｔｅｒｉｎｇ，ｔｒａｎｄｉｔｉｏｎａｌｍｅｔｈｏｄｓｏｆｅｖａｌｕｔｉｏｎｃｏｕｌｄｎ＇ｔａｓｓｅｓｓｔｈｅｒｅｓｕｌｔｉｎｓｔａｔｉｓｔｉｃｓ．ＷｅｐｒｏｐｏｓｅａｎｅｗａｌｇｏｒｉｔｈｍｃａｌｌｅｄＥＣＰ（ＳｔａｔｉｓｔｉｃａｌｅｖａｌｕａｔｉｏｎｏｆＣｌｕｓｔｅｒｉｎｇｂａｓｅｄｏｎＰｅｒｍｕｔａｔｉｏｎｔｅｓｔ）ｗｈｉｃｈｕｓｅｓｐｅｒ⁃ ｍｕｔａｔｉｏｎｔｅｓｔｔｏｅｖａｌｕａｔｅｔｈｅｒｅｓｕｌｔｏｆｃｌｕｓｔｅｒｉｎｇ．Ｔｏｅｖａｌｕａｔｅｔｈｅｐｅｒｆｏｒｍａｎｃｅｏｆｔｈｅａｌｇｏｒｉｔｈｍ，ｗｅｕｓｅｔｈｅｄａｔａｓｅｔｓ，ｉｒｉｓ，ｗｉｎｅ，ｙｅａｓｔ，ｆｒｏｍＵＣＩｄａｔａｓｅｔｓ．Ｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｓｈｏｗｔｈａｔｔｈｅｐｅｒｆｏｒｍａｎｃｅｏｆｔｈｅａｌｇｏｒｉｔｈｍｉｓｇｏｏｄ．Ｋｅｙｗｏｒｄｓ：ｃｌｕｓｔｅｒｉｎｇ；ｃｌｕｓｔｅｒｉｎｇｅｖａｌｕａｔｉｏｎ；ｓｔａｔｉｓｔｉｃａｌｔｅｓｔ；ｐｅｒｍｕｔａｔｉｏｎｔｅｓｔ收稿日期：２０１６⁃０３⁃１９．网络出版日期：２０１６⁃０５⁃１３．基金项目：国家自然科学基金项目（６１５７２０９４）．通信作者：何增有．Ｅ⁃ｍａｉｌ：ｚｙｈｅ＠ｄｌｕｔ．ｅｄｕ．ｃｎ．随着获得的数据越来越多，利用机器学习、数据挖掘［１⁃３］等手段从数据中获取潜在的知识变得越来越重要。然而如何评估挖掘出来的信息，即评估数据挖掘结果的质量是一个十分重要的问题。只有一个好的评估方法，才能保证挖掘算法发现高质量的信息。聚类［４⁃５］是数据挖掘领域一个很重要的分支。同时，聚类的应用也越来越广泛。随着聚类的广泛应用，如何有效地评估聚类结果的质量［６⁃７］成为一个重要的研究课题。虽然评估聚类结果的重要性一点不亚于挖掘算法本身，但是评估方面却没有受到它应有的重视。针对聚类，现有的方法主要是用评价函数对聚类结果评估。这种函数一般分３种类型：紧密型、分散型和连接型。常见的评估函数有ＤＢ⁃Ｉｎｄｅｘ，Ｓｉ⁃ ｈｏｕｅｔｔｅ⁃Ｉｎｄｅｘ，Ｄｕｎｎ⁃Ｉｎｄｅｘ等。这些函数能够评估聚类结果，但是这些函数评估出来的结果往往没有一个比较好的可以参考的值。即一个评估值计算出来之后得到的只是一个评估值，至于这个值达到什么标准能够接受并不能确定。利用统计方法评估聚类结果的算法很少，其主要原因是聚类的特殊性与复杂性使传统的统计方法很难用到聚类质量评估上。近年来有一些利用随机方法来评估聚类结果的研究，但也存在一定的问题。本文根据存在的问题提出了一种基于置换检验的评估方法。１相关研究１．１利用簇结构评估聚类质量该方法先对原始数据聚类，然后将原始数据集按照一定的约束随机置换抽样构造新的数据集。抽样之后用同样的聚类算法对样本数据集进行聚类

·302· 智能系统学报第11卷这样重复大量的次数后，再用评估函数（如DB-In- 量不同簇的两个最近成员的距离。全连接：度量不 dex)计算每个样本的函数值。如果原始数据集聚类同簇的两个最远成员的距离。质心比较：度量不同结果的函数值小于大部分随机构造的数据集聚类结簇的中心点的距离。果的函数值，那么说明挖掘出来的信息是可靠的，否链接度链接度指簇中的元素成员至少要跟同则说明聚类结果不可靠。更通俗一点，如果原来数一个簇内的元素比较像。这个可以用来评估簇模型据集没有好的簇结构，那么无论怎么聚类，结果都是不是圆形或者球形的聚类结果，比如DBSCAN的聚不好的。代表性的方法有最大熵模型抽样[】、矩阵类结果。元素交换9]等。利用数据集簇结构来评估聚类质本文用一种无监督评估聚类质量的方法，Da- 量[]的方法能很好地评估出簇结构不好的聚类结 vies-Bouldin Index,DB_Index. 果。实验证实对不同数据集进行聚类，有明显簇结构数据集的p-value会比没有明显簇结构的p-value DBI =1 、+s) max(D, =1 小很多。但是这种方法并不能准确评估聚类的质式中：S表示第i个簇内的元素与质心的标准方差，量。从某种意义上讲，这种方法更适合评估一个数 D,表示第i个簇与第j个簇质心间的欧几里德距据集是否有好的簇结构。离，k表示簇的数目。 1.2 SigClust DBI的思想是一个高质量的聚类结果需要满 SigClust!)认为如果一个数据集符合高斯分足：同一个簇的各元素间相似度大，不同类之间的相布，那么对这个数据集的任何分割都是不合理的。似度小。在DBI中，分子越小意味着簇内元素相似因此这个方法的前提假设是：一个单一的簇的元素度越大，分母越大意味着簇间相似度越小。符合高斯分布。SigClust主要是针对k=2的聚类评 2.2聚类评估的p-value 估。对于>2的情况，还没有比较好的解决办法。给一个数据集X,用DB-ndex计算聚类结果的 l.3层次聚类的p-value计算函数值为xox。数据集X所有可能的聚类结果的函这种方法主要针对层次聚类的评估2，)。层数值为x1,x,xN。置换检验的p-value定义为次聚类后会形成一个二叉树。对二叉树上的每个节点都进行置换检验，算出每个节点划分对应的p ∑a1(xn≤xo） value。这种算法的空假设为：当前节点的左子树和 N 右子树应该属于一个簇。如果算出p-value足够小式中I是一个逻辑函数。当x.≤xo的情况下为1，就说明空假设是一个小概率事件，应该拒绝。该方否则为0。由于要枚举出所有的聚类方案的复杂度法是将当前节点的左子树和右子树打乱，按照一定是指数级别的，所以需要采取其他的策略。抽样出的约束随机分配左子树和右子树的元素。抽样若干所有情况的一个子集Y,并计算子集Y中所有元素次后形成的随机样本集按照某种指标与原始划分对的函数值为x1,x2,xw,其中N≤N。这时候置比计算出p-value.。这个评估只能针对层次聚类，不换检验的p-value被定义为能对其他的聚类算法进行评估。另外这样计算出的 ∑N1(xn≤o） p-value只是每个节点上的p-value,并不是全局聚 N 类的p-value. 一些研究为了避免p-value为0的情况，将p-value 2基本概念的定义修改为 2.1无监督聚类质量评估函数 1+1x≤w) 如果数据集中的元素没有类标签，聚类结果的 Ppeml N+1 评价就只能依赖数据集自身的特征和量值。在这种这种方法把分子加1的理由是把x。也看作置情况下，聚类的度量追求有3个目标：紧密度、分离换检验一个样本的函数值。这就避免了得到p-vl- 度和链接度。 ue为0的试验结果。然而这种做法事实上是不太紧密度簇中的每个元素应该彼此尽可能接合理的。试想如果抽样999次没有发现比x。更小近。紧密度的常用度量是方差，方差越小说明紧密的统计值，这样草率地得出结论当前置换检验的结度越大。果为0.001显然太武断了。因为可能抽样99999次分离度簇与簇之间应该充分分离。有3种常依旧没有比x。更优的样本。那么依照这个计算公用方法来度量两个不同簇之间的距离。单连接：度式p-value又为0.000O1。而实际上p-value的值可

这样重复大量的次数后，再用评估函数（如ＤＢ⁃Ｉｎ⁃ ｄｅｘ）计算每个样本的函数值。如果原始数据集聚类结果的函数值小于大部分随机构造的数据集聚类结果的函数值，那么说明挖掘出来的信息是可靠的，否则说明聚类结果不可靠。更通俗一点，如果原来数据集没有好的簇结构，那么无论怎么聚类，结果都是不好的。代表性的方法有最大熵模型抽样［８］、矩阵元素交换［９］等。利用数据集簇结构来评估聚类质量［１０］的方法能很好地评估出簇结构不好的聚类结果。实验证实对不同数据集进行聚类，有明显簇结构数据集的ｐ⁃ｖａｌｕｅ会比没有明显簇结构的ｐ⁃ｖａｌｕｅ小很多。但是这种方法并不能准确评估聚类的质量。从某种意义上讲，这种方法更适合评估一个数据集是否有好的簇结构。１．２ＳｉｇＣｌｕｓｔＳｉｇＣｌｕｓｔ［１１］认为如果一个数据集符合高斯分布，那么对这个数据集的任何分割都是不合理的。因此这个方法的前提假设是：一个单一的簇的元素符合高斯分布。ＳｉｇＣｌｕｓｔ主要是针对ｋ＝２的聚类评估。对于ｋ＞２的情况，还没有比较好的解决办法。１．３层次聚类的ｐ ⁃ｖａｌｕｅ计算这种方法主要针对层次聚类的评估［１２，１３］。层次聚类后会形成一个二叉树。对二叉树上的每个节点都进行置换检验，算出每个节点划分对应的ｐ ⁃ ｖａｌｕｅ。这种算法的空假设为：当前节点的左子树和右子树应该属于一个簇。如果算出ｐ ⁃ｖａｌｕｅ足够小就说明空假设是一个小概率事件，应该拒绝。该方法是将当前节点的左子树和右子树打乱，按照一定的约束随机分配左子树和右子树的元素。抽样若干次后形成的随机样本集按照某种指标与原始划分对比计算出ｐ ⁃ｖａｌｕｅ。这个评估只能针对层次聚类，不能对其他的聚类算法进行评估。另外这样计算出的ｐ ⁃ｖａｌｕｅ只是每个节点上的ｐ ⁃ｖａｌｕｅ，并不是全局聚类的ｐ ⁃ｖａｌｕｅ。２基本概念２．１无监督聚类质量评估函数如果数据集中的元素没有类标签，聚类结果的评价就只能依赖数据集自身的特征和量值。在这种情况下，聚类的度量追求有３个目标：紧密度、分离度和链接度。紧密度簇中的每个元素应该彼此尽可能接近。紧密度的常用度量是方差，方差越小说明紧密度越大。分离度簇与簇之间应该充分分离。有３种常用方法来度量两个不同簇之间的距离。单连接：度量不同簇的两个最近成员的距离。全连接：度量不同簇的两个最远成员的距离。质心比较：度量不同簇的中心点的距离。链接度链接度指簇中的元素成员至少要跟同一个簇内的元素比较像。这个可以用来评估簇模型不是圆形或者球形的聚类结果，比如ＤＢＳＣＡＮ的聚类结果。本文用一种无监督评估聚类质量的方法，Ｄａ⁃ ｖｉｅｓ⁃ＢｏｕｌｄｉｎＩｎｄｅｘ，即ＤＢ＿Ｉｎｄｅｘ。ＤＢＩ＝１ｋ ∑ ｋｉ＝１ｍａｘ（Ｓｉ＋ＳｊＤｉｊ）．式中：Ｓｉ表示第ｉ个簇内的元素与质心的标准方差，Ｄｉｊ表示第ｉ个簇与第ｊ个簇质心间的欧几里德距离，ｋ表示簇的数目。ＤＢＩ的思想是一个高质量的聚类结果需要满足：同一个簇的各元素间相似度大，不同类之间的相似度小。在ＤＢＩ中，分子越小意味着簇内元素相似度越大，分母越大意味着簇间相似度越小。２．２聚类评估的ｐ ⁃ｖａｌｕｅ给一个数据集Ｘ，用ＤＢ⁃Ｉｎｄｅｘ计算聚类结果的函数值为ｘ０ｘ０。数据集Ｘ所有可能的聚类结果的函数值为ｘ１，ｘ２，…ｘＮａｌｌ。置换检验的ｐ ⁃ｖａｌｕｅ定义为Ｐｐｅｒｍ＝ ∑ Ｎａｌｌｎ＝１Ｉ（ｘｎ ≤ ｘ０）Ｎａｌｌ式中Ｉ是一个逻辑函数。当ｘｎ≤ｘ０的情况下为１，否则为０。由于要枚举出所有的聚类方案的复杂度是指数级别的，所以需要采取其他的策略。抽样出所有情况的一个子集Ｙ，并计算子集Ｙ中所有元素的函数值为ｘ１，ｘ２，…ｘＮ，其中Ｎ≪ Ｎａｌｌ。这时候置换检验的ｐ ⁃ｖａｌｕｅ被定义为Ｐｐｅｒｍ０＝ ∑ Ｎｎ＝１Ｉ（ｘｎ ≤ ｘ０）Ｎ．一些研究为了避免ｐ ⁃ｖａｌｕｅ为０的情况，将ｐ ⁃ｖａｌｕｅ的定义修改为Ｐｐｅｒｍ１＝１＋ ∑ Ｎｎ＝１１（ｘｎ ≤ ｘ０）Ｎ＋１这种方法把分子加１的理由是把ｘ０也看作置换检验一个样本的函数值。这就避免了得到ｐ ⁃ｖａｌ⁃ ｕｅ为０的试验结果。然而这种做法事实上是不太合理的。试想如果抽样９９９次没有发现比ｘ０更小的统计值，这样草率地得出结论当前置换检验的结果为０．００１显然太武断了。因为可能抽样９９９９９次依旧没有比ｘ０更优的样本。那么依照这个计算公式ｐ ⁃ｖａｌｕｅ又为０．００００１。而实际上ｐ ⁃ｖａｌｕｅ的值可 ·３０２· 智能系统学报第１１卷

第3期谷飞洋，等：基于置换检验的聚类结果评估 ·303· 能更小。因此本文把p-value的定义为PpemoP 法。算法1描述了抽样的过程。置换检验的准确性取决于抽样的数目，一般的算法1 Shuffle(CI,n) 置换检验抽样的次数都在1000次以上。为了得到 fori←-0ton-ldo 更精确的p-value抽样的次数越多越好，理想的情 index +rand()mod (i+1) 况是置换所有的可能。然而对于不同的数据集合， swap(CI,Cline CI,CI) 甚至很难预测需要执行多少次置换才能够得到比较可以用数学归纳法进行证明算法1保证了每个好的结果。往往为了得到更精确的值就会增大抽样元素获得同一簇标号的概率是一样的。抽样的复杂次数，但是增加抽样次数的代价是增加计算的复杂度为O(n)。这样进行抽样N次，就得到了N个样性。对于普通的数据集往往抽样次数达到10000 本。然后利用样本对原始聚类结果进行评估。用次之后就不太容易提高抽样次数。而这样做又产生 DB-Index算出原始聚类的函数值x。与样本的函数出了一个问题。如果一个聚类结果真实的p-value 值x1,x2,…,xw。有了这些值就能计算p-value了。为0.000001。而抽样的次数只有10000次的话，那具体算法如下。么p-value为就为0了。针对这些问题，本文提出算法2ECP1 了一种新的聚类评估方法，ECP,该方法能比较好地用DB-Index计算聚类结果的函数值xo。解决上文提到的问题。 fori←-1 to N do 3 基于置换检验的聚类结果评估 Shuffle(CI,n) 用DB-Index计算样本的函数值x 3.1基本思想计算p-value 本文提出的置换检验方法将关注点锁定在了聚一般情况下kn,因此DB-ndex的复杂度为类的结果上。评估聚类结果的本质是看聚类算法对数据集中元素的划分质量。从这个角度出发，可以 O(n×d)。抽样一次的复杂度是O(n),容易算出总体复杂度为O(N×n×d)。这个复杂度还是比较高枚举对数据集的划分，然后用评估函数算出枚举划的。所以需要想一些方法来降低复杂度。N是抽样分的函数值。如果绝大部分划分都没有要评估的聚次数，期望越大越好。可以看到DB-ndex是影响复类结果质量好的话，那么就说明要评估的聚类结果杂度的主要因素。如果降低DB-ndex计算的复杂质量比较好。相反地，就说明要评估的聚类结果质性，那么就可以在相同的时间内抽取更多的样本来量并不好。因此对于一个聚类结果，本文定义了零假0：提高p-value的准确度。本文发现了DB-ndex公式当前聚类结果不是一个高质量的聚类。然后计算这的特点，对上文提到的算法做了改进。个零假设的p-value。如果这个p-value非常小，就认 3.2加速技巧为这个划分结果可以接受，可以拒绝0。否则认为首先选取聚类结果作为初始状态。然后随机交这个聚类结果不能接受。换一对簇标号不同的元素的簇标号。交换后把此时定义数据集X是一个包含n个元素的d维数的划分作为一个样本，直接计算DB-ndex的函数值型矩阵。首先对数据集聚类，聚成k簇后每个元值。接下来继续交换一对簇标号不同的元素的簇标素都会归属于一个簇。我们对每个簇进行标号。标号，交换后计算DB-Index的值。这样迭代N次后就号从0开始，往后依次是1,2，…，k-1。定义C1为会得到N个样本的函数值。利用这N个值就可以第i个元素所属的簇标号。比如C13=2表示第3个计算出p-value。整个算法流程如下。元素属于标号为2的簇。算法3ECP2 接下来是抽样。抽样要满足一定约束。本文定用DB-Index计算聚类结果的函数值xo 义的约束是：样本中簇包含元素的数目要与待评估 for i1 to N do 聚类结果中簇中元素的数目保持一致。举个例子，随机交换一对簇标号不同元素的簇标号假设数据集元素数目n为100。划分成3簇，划分用DB-Index计算抽样结果的函数值x, 簇中的数目分别是40、33、27。那么抽样出来的样计算p-value 本也要满足这些条件，也就是要划分成3簇，并且簇对比ECP1,ECP2只是修改了第3步的抽样方中元素的数目也必须是40、33、27。具体的抽样方法。为什么修改了抽样方法就可以增大抽样次数？法：首先搜集所有元素的簇标号，然后将这些簇标下面将仔细讨论DB-Index的计算过程。DB-ndex 号随机地分配给每个元素。其实这个过程是洗牌算的计算公式为

能更小。因此本文把ｐ ⁃ｖａｌｕｅ的定义为Ｐｐｅｒｍ０Ｐｅｃｄｆ０。置换检验的准确性取决于抽样的数目，一般的置换检验抽样的次数都在１０００次以上。为了得到更精确的ｐ ⁃ｖａｌｕｅ抽样的次数越多越好，理想的情况是置换所有的可能。然而对于不同的数据集合，甚至很难预测需要执行多少次置换才能够得到比较好的结果。往往为了得到更精确的值就会增大抽样次数，但是增加抽样次数的代价是增加计算的复杂性。对于普通的数据集往往抽样次数达到１００００次之后就不太容易提高抽样次数。而这样做又产生出了一个问题。如果一个聚类结果真实的ｐ ⁃ｖａｌｕｅ为０．０００００１。而抽样的次数只有１００００次的话，那么ｐ ⁃ｖａｌｕｅ为就为０了。针对这些问题，本文提出了一种新的聚类评估方法，ＥＣＰ，该方法能比较好地解决上文提到的问题。３基于置换检验的聚类结果评估３．１基本思想本文提出的置换检验方法将关注点锁定在了聚类的结果上。评估聚类结果的本质是看聚类算法对数据集中元素的划分质量。从这个角度出发，可以枚举对数据集的划分，然后用评估函数算出枚举划分的函数值。如果绝大部分划分都没有要评估的聚类结果质量好的话，那么就说明要评估的聚类结果质量比较好。相反地，就说明要评估的聚类结果质量并不好。因此对于一个聚类结果，本文定义了零假Ｈ０：当前聚类结果不是一个高质量的聚类。然后计算这个零假设的ｐ⁃ｖａｌｕｅ。如果这个ｐ⁃ｖａｌｕｅ非常小，就认为这个划分结果可以接受，可以拒绝Ｈ０。否则认为这个聚类结果不能接受。定义数据集Ｘ是一个包含ｎ个元素的ｄ维数值型矩阵。首先对数据集聚类，聚成ｋ簇后每个元素都会归属于一个簇。我们对每个簇进行标号。标号从０开始，往后依次是１，２， …，ｋ－１。定义ＣＩｉ为第ｉ个元素所属的簇标号。比如ＣＩ３＝２表示第３个元素属于标号为２的簇。接下来是抽样。抽样要满足一定约束。本文定义的约束是：样本中簇包含元素的数目要与待评估聚类结果中簇中元素的数目保持一致。举个例子，假设数据集元素数目ｎ为１００。划分成３簇，划分簇中的数目分别是４０、３３、２７。那么抽样出来的样本也要满足这些条件，也就是要划分成３簇，并且簇中元素的数目也必须是４０、３３、２７。具体的抽样方法：首先搜集所有元素的簇标号，然后将这些簇标号随机地分配给每个元素。其实这个过程是洗牌算法。算法１描述了抽样的过程。算法１Ｓｈｕｆｆｌｅ（ＣＩ，ｎ）ｆｏｒｉ← ０ｔｏｎ－１ｄｏｉｎｄｅｘ ← ｒａｎｄ（）ｍｏｄ（ｉ＋１）ｓｗａｐ（ＣＩｉ，ＣＩｉｎｄｅｘＣＩｉ，ＣＩｉｎｄｅｘ）可以用数学归纳法进行证明算法１保证了每个元素获得同一簇标号的概率是一样的。抽样的复杂度为Ｏ（ｎ）。这样进行抽样Ｎ次，就得到了Ｎ个样本。然后利用样本对原始聚类结果进行评估。用ＤＢ⁃Ｉｎｄｅｘ算出原始聚类的函数值ｘ０与样本的函数值ｘ１，ｘ２，…，ｘＮ。有了这些值就能计算ｐ ⁃ｖａｌｕｅ了。具体算法如下。算法２ＥＣＰ１用ＤＢ⁃Ｉｎｄｅｘ计算聚类结果的函数值ｘ０。ｆｏｒｉ ← １ｔｏＮｄｏＳｈｕｆｆｌｅ（ＣＩ，ｎ）用ＤＢ⁃Ｉｎｄｅｘ计算样本的函数值ｘｉ计算ｐ ⁃ｖａｌｕｅ一般情况下ｋ≪ｎ，因此ＤＢ⁃Ｉｎｄｅｘ的复杂度为Ｏ（ｎ×ｄ）。抽样一次的复杂度是Ｏ（ｎ），容易算出总体复杂度为Ｏ（Ｎ×ｎ×ｄ）。这个复杂度还是比较高的。所以需要想一些方法来降低复杂度。Ｎ是抽样次数，期望越大越好。可以看到ＤＢ⁃Ｉｎｄｅｘ是影响复杂度的主要因素。如果降低ＤＢ⁃Ｉｎｄｅｘ计算的复杂性，那么就可以在相同的时间内抽取更多的样本来提高ｐ ⁃ｖａｌｕｅ的准确度。本文发现了ＤＢ⁃Ｉｎｄｅｘ公式的特点，对上文提到的算法做了改进。３．２加速技巧首先选取聚类结果作为初始状态。然后随机交换一对簇标号不同的元素的簇标号。交换后把此时的划分作为一个样本，直接计算ＤＢ⁃Ｉｎｄｅｘ的函数值。接下来继续交换一对簇标号不同的元素的簇标号，交换后计算ＤＢ⁃Ｉｎｄｅｘ的值。这样迭代Ｎ次后就会得到Ｎ个样本的函数值。利用这Ｎ个值就可以计算出ｐ ⁃ｖａｌｕｅ。整个算法流程如下。算法３ＥＣＰ２用ＤＢ⁃Ｉｎｄｅｘ计算聚类结果的函数值ｘ０ｆｏｒｉ← １ｔｏＮｄｏ随机交换一对簇标号不同元素的簇标号用ＤＢ⁃Ｉｎｄｅｘ计算抽样结果的函数值ｘｉ计算ｐ ⁃ｖａｌｕｅ对比ＥＣＰ１，ＥＣＰ２只是修改了第３步的抽样方法。为什么修改了抽样方法就可以增大抽样次数？下面将仔细讨论ＤＢ⁃Ｉｎｄｅｘ的计算过程。ＤＢ⁃Ｉｎｄｅｘ的计算公式为第３期谷飞洋，等：基于置换检验的聚类结果评估 ·３０３·

·304. 智能系统学报第11卷如果知道了样本DB-Index函数值的概率分布 DBI= max( Di 就可以根据原始聚类结果的函数值算出精确的p 由S,的定义可以得出： value了。聚类是一种半监督的机器学习，其本质对元素所属类别的划分。如果对元素随机划分无 S:= 13- 穷次。那么质量特别高的划分的比例会很小。同样 m 的，质量极端差的划分占的比例也会很小。很大比式中m,是簇zi中元素的数目。z,是簇i中第j个元重的划分都介于它们之间。而正态分布的特点是：素的属性向量，z是簇i质心的属性向量。由于数据极端概率很小，中间的概率很大。经过对数据的分是d维的，所以3-乏‖2就是各个维度的平方和。析，聚类划分的DB-Index函数值比较符合正态分因此可以单独对每一维计算，然后再把所有维度的布。因此可以假设抽样样本DB-ndex的函数值符平方相加即可：合正态分布。实际上正态分布符合很多自然概率分 ∑3-2=∑∑(4-a,)2, 布的指标。下面要做的就是得到正态分布的参数。对于一维的正态分布均值和方差用式(1)和(2) 式中：aa是簇i中第j个元素的第t个属性值，a,是得到：簇i质心的第t个属性值。下面直接讨论第t维的计算方法： i=1 u= (1) ∑3-2∑∑(a-a)2 N m m d= (2) ∑(4-a2 N-1 有了概率分布函数，就能将原始聚类结果x。代入概率分布算出p-value了。其中：这样估出概率分布函数实现了在整体复杂度没有增加的前提下用较少的抽样得到更为精确p-val m m: ue的目的了。因此立.>) ∑3-2 2 m=1 2 本文利用公式P perm 一计算p-val- mi =1 mi N ∑，4，是筷中所有元素中第！维的平方和， u实际上是利用了大数定律。大数定律的本质是如果有无穷次试验，事件出现的频率就会无限趋近 a,是簇i中所有元素第t维的平均值。所以为了计于事件发生的概率。而由于抽样次数有限，本文假算S,每一维只需要维护两个值就可以了：平方和与设了DB-Index的函数值符合正态分布。不过对于平均值。当簇标号交换的话，能在O(1)复杂度内抽样N次后发现，已经有足够的样本可以精确算出修正这两个值。修改完每个维度的这两个值后，就 p-vaue的话，就不需要用正态分布计算了。然而如可以用DB-Index算出函数值了。果抽样N次后没有足够的样本可以用大数定律精可以看出修改一个簇的平方和与平均值复杂度确地计算p-value的话就要拟合正态概率分布函数是O(d)的。因此DB-Index的计算复杂度就是了。对于有多少个样本满足x:≤x。算是足够呢？ O(k×k×d)了。没有加速的DB-Index的计算复杂度这是一个阈值问题。上边的过程总结起来如算是O(n×d)。一般情况下，k≤n。所以这种方法的法4。效率有明显的提升。算法4ECP 3.3更准确的p-vaue 抽样N次，算出每次的函数值x 上边提到计算DB-Index的方法的复杂度为统计x:≤x。的数目M O(kx×d)。虽然相比于原先的计算方法已经优化如果M≥Limit利用公式P,mo计算p-value 很多，但是对于p-value非常小的情况，可能依I旧由否则，拟合正态概率分布算出p-value 于抽样数目有限而无法算出精确的p-value。这种其中Limit是ECP的一个参数，是用Ppmo计算情况下算出的p-value就会为O,然而这样的结果是出p-value的最低数目限制。ECP不同于很多其他不准确的。的置换检验方法。这种方法实现了用较少的抽样计

ＤＢＩ＝１ｋ ∑ ｋｉ＝１ｍａｘ（Ｓｉ＋ＳｊＤｉｊ）．由Ｓｉ的定义可以得出：Ｓｉ＝ ∑ ｍｉｊ＝１‖ｚｊ－ｚ‖２ｍｉ．式中ｍｉ是簇ｚｉ中元素的数目。ｚｊ是簇ｉ中第ｊ个元素的属性向量，ｚ是簇ｉ质心的属性向量。由于数据是ｄ维的，所以‖ｚｊ－ｚ‖２就是各个维度的平方和。因此可以单独对每一维计算，然后再把所有维度的平方相加即可： ∑ ｍｉｊ＝１‖ｚｊ－ｚ‖２＝ ∑ ｄｔ＝１∑ ｍｉｊ＝１（ａｊｔ－ａｔ）２，式中：ａｊｔ是簇ｉ中第ｊ个元素的第ｔ个属性值，ａｔ是簇ｉ质心的第ｔ个属性值。下面直接讨论第ｔ维的计算方法： ∑ ｍｉｊ＝１‖ｚｊ－ｚ‖２ｍｉ＝ ∑ ｄｔ＝１∑ ｍｉｊ＝１（ａｊｔ－ａｔ）２ｍｉ＝ ∑ ｄｔ＝１ ∑ ｍｉｊ＝１（ａｊｔ－ａｔ）２ｍｉ其中： ∑ ｍｉｊ＝１（ａｊｔ－ａｔ）２ｍｉ＝ ∑ ｍｉｊ＝１ａｊｔ２ｍｉ－ａｔ２因此 ∑ ｍｉｊ＝１‖ｚｊ－ｚ‖２ｍｉ＝ ∑ ｄｔ＝１ ∑ ｍｉｊ＝１ａｊｔ２ｍｉ－ａｔ２ ∑ ｍｉｊ＝１ａｊｔ２是簇ｉ中所有元素中第ｔ维的平方和，ａｔ是簇ｉ中所有元素第ｔ维的平均值。所以为了计算Ｓｉ，每一维只需要维护两个值就可以了：平方和与平均值。当簇标号交换的话，能在Ｏ（１）复杂度内修正这两个值。修改完每个维度的这两个值后，就可以用ＤＢ⁃Ｉｎｄｅｘ算出函数值了。可以看出修改一个簇的平方和与平均值复杂度是Ｏ（ｄ）的。因此ＤＢ⁃Ｉｎｄｅｘ的计算复杂度就是Ｏ（ｋ×ｋ×ｄ）了。没有加速的ＤＢ⁃Ｉｎｄｅｘ的计算复杂度是Ｏ（ｎ×ｄ）。一般情况下，ｋ≪ｎ。所以这种方法的效率有明显的提升。３．３更准确的ｐ ⁃ｖａｌｕｅ上边提到计算ＤＢ⁃Ｉｎｄｅｘ的方法的复杂度为Ｏ（ｋ×ｋ×ｄ）。虽然相比于原先的计算方法已经优化很多，但是对于ｐ ⁃ｖａｌｕｅ非常小的情况，可能依旧由于抽样数目有限而无法算出精确的ｐ ⁃ｖａｌｕｅ。这种情况下算出的ｐ ⁃ｖａｌｕｅ就会为０，然而这样的结果是不准确的。如果知道了样本ＤＢ⁃Ｉｎｄｅｘ函数值的概率分布就可以根据原始聚类结果的函数值算出精确的ｐ ⁃ ｖａｌｕｅ了［１４］。聚类是一种半监督的机器学习，其本质对元素所属类别的划分。如果对元素随机划分无穷次。那么质量特别高的划分的比例会很小。同样的，质量极端差的划分占的比例也会很小。很大比重的划分都介于它们之间。而正态分布的特点是：极端概率很小，中间的概率很大。经过对数据的分析，聚类划分的ＤＢ⁃Ｉｎｄｅｘ函数值比较符合正态分布。因此可以假设抽样样本ＤＢ⁃Ｉｎｄｅｘ的函数值符合正态分布。实际上正态分布符合很多自然概率分布的指标。下面要做的就是得到正态分布的参数。对于一维的正态分布均值和方差用式（１）和（２）得到： μ ＝ ∑ Ｎｉ＝１ｘｉＮ（１） ∂ ＝（ｘｉ－ｘ）２Ｎ－１（２）有了概率分布函数，就能将原始聚类结果ｘ０代入概率分布算出ｐ ⁃ｖａｌｕｅ了。这样估出概率分布函数实现了在整体复杂度没有增加的前提下用较少的抽样得到更为精确ｐ ⁃ｖａｌ⁃ ｕｅ的目的了。本文利用公式Ｐｐｅｒｍ０ ∑ Ｎｎ＝１Ｉ（ｙｎ＞ｘ０）Ｎ计算ｐ ⁃ｖａｌ⁃ ｕｅ实际上是利用了大数定律。大数定律的本质是如果有无穷次试验，事件出现的频率就会无限趋近于事件发生的概率。而由于抽样次数有限，本文假设了ＤＢ⁃Ｉｎｄｅｘ的函数值符合正态分布。不过对于抽样Ｎ次后发现，已经有足够的样本可以精确算出ｐ ⁃ｖａｌｕｅ的话，就不需要用正态分布计算了。然而如果抽样Ｎ次后没有足够的样本可以用大数定律精确地计算ｐ ⁃ｖａｌｕｅ的话就要拟合正态概率分布函数了。对于有多少个样本满足ｘｉ ≤ ｘ０算是足够呢？这是一个阈值问题。上边的过程总结起来如算法４。算法４ＥＣＰ抽样Ｎ次，算出每次的函数值ｘｉ统计ｘｉ≤ｘ０的数目Ｍ如果Ｍ≥Ｌｉｍｉｔ利用公式Ｐｐｅｒｍ０计算ｐ ⁃ｖａｌｕｅ否则，拟合正态概率分布算出ｐ ⁃ｖａｌｕｅ其中Ｌｉｍｉｔ是ＥＣＰ的一个参数，是用Ｐｐｅｒｍ０计算出ｐ ⁃ｖａｌｕｅ的最低数目限制。ＥＣＰ不同于很多其他的置换检验方法。这种方法实现了用较少的抽样计 ·３０４· 智能系统学报第１１卷

第3期谷飞洋，等：基于置换检验的聚类结果评估 ·305. 算出更为精确p-value的目的，在效率上有了非常针对iis数据集，利用ECP计算出的p-value 大的飞跃。与f-score的相关系数为-0.578018，与accuracy的 4实验相关系数为-0.699331。具体的结果如图1。针对 wine数据集，利用ECP计算得到的p-value与f 实验选取了iris、wine和yeast等3个数据集。 score的相系数为-0.535734，与accuracy的相关系这3个数据集都来自UCI数据库。iis、wime和数为-0.538754。具体的结果为图2。对于yeast数 yeast数据集的属性都是数值型的，并且这3个数据据集，利用ECP计算得到的p-value与f-score的相集都带有类标签。关系数为-0.500340，与accuracy的相关系数为 4.1利用p-value选择合适的聚类算法 -0.167325。具体结果为图3。从聚类这个概念提出以来出现了很多聚类算从实验结果可以看出用本文方法算出来的P 法。对于一个具体的应用，选择合适的聚类算法是 value是可靠的。需要注意的是yeast的数据集簇结一个很重要的问题。本文认为对于同一个数据集用构比较明显，聚类的结果比较集中。不同的算法聚类，p-value小的那个结果更为可靠。 3.0 为此本文对同一数据集选用多种算法聚类来验证 2.5 p-value对选择聚类算法的有效性。实验结果如表。 1。从实验结果可以看出，对于同一数据集p-value 2.0 8 小的聚类算法对应的f-score和accuracy比较大。这说明利用p-value选择聚类算法是可靠的。本文 0 还计算了p-value与f-score和accuracy的相关系 o 数。本文用k-means对同一数据集聚类100次。通 0. 0 0.2 0.4 0.6 0.8 过控制k-means的迭代次数来控制划分的质量。这 p-value 样就避免了正常k-means聚类只会出现若干个固定 (a)p-value与f-score的关系情况的问题。 1.0r 表1不同聚类方法的p-value,f-score,accuracy 0.9 Table 1 The p-value,f-score,accuracy of different clus- 0.8 ter algorithms 数据算法 p-value f-score accuracy 0.6 Random 0.456254 1.134140 0.380000 0.5 0.4 P Hierarchical 0.100548 1.656570 0.666667 0 Iris Clustering 0.2 04 0.6 08 p-value DBSCAN 0.042825 2.7144000.906667 (b)p-value与accuracy的关系 k-means 0.042751 2.655840 0.886667 图1Iris数据集p-value与f~score和accuracy的关系 Random 0.5595881.095420 0.410112 Fig.1 The relationship between p-value and f-score, Hierarchical accuracy of iris dataset 0.0015741.666460 0.657303 Wine Clustering DBSCAN1.892991e-052.8337500.943820 2.58 k-means1.818384e-052.832200 0.943820 Random 0.6881451.0782600.357198 2.0 0 Hierarchical 0.0038710.835371 0.360277 1.5 Yeast Clustering DBSCAn 0.0007111.304800 0.434950 1.0 ×10 0 5 k-means7.544556e-051.881950 0.480370 p-value (a)p-value与f-score的关系

算出更为精确ｐ ⁃ｖａｌｕｅ的目的，在效率上有了非常大的飞跃。４实验实验选取了ｉｒｉｓ、ｗｉｎｅ和ｙｅａｓｔ等３个数据集。这３个数据集都来自ＵＣＩ数据库［１５］。ｉｒｉｓ、ｗｉｎｅ和ｙｅａｓｔ数据集的属性都是数值型的，并且这３个数据集都带有类标签。４．１利用ｐ ⁃ｖａｌｕｅ选择合适的聚类算法从聚类这个概念提出以来出现了很多聚类算法。对于一个具体的应用，选择合适的聚类算法是一个很重要的问题。本文认为对于同一个数据集用不同的算法聚类，ｐ ⁃ｖａｌｕｅ小的那个结果更为可靠。为此本文对同一数据集选用多种算法聚类来验证ｐ ⁃ｖａｌｕｅ对选择聚类算法的有效性。实验结果如表１。从实验结果可以看出，对于同一数据集ｐ ⁃ｖａｌｕｅ小的聚类算法对应的ｆ ⁃ｓｃｏｒｅ和ａｃｃｕｒａｃｙ比较大。这说明利用ｐ ⁃ｖａｌｕｅ选择聚类算法是可靠的。本文还计算了ｐ ⁃ｖａｌｕｅ与ｆ ⁃ｓｃｏｒｅ和ａｃｃｕｒａｃｙ的相关系数。本文用ｋ⁃ｍｅａｎｓ对同一数据集聚类１００次。通过控制ｋ⁃ｍｅａｎｓ的迭代次数来控制划分的质量。这样就避免了正常ｋ⁃ｍｅａｎｓ聚类只会出现若干个固定情况的问题。表１不同聚类方法的ｐ ⁃ｖａｌｕｅ，ｆ ⁃ｓｃｏｒｅ，ａｃｃｕｒａｃｙＴａｂｌｅ１Ｔｈｅｐ ⁃ｖａｌｕｅ，ｆ ⁃ｓｃｏｒｅ，ａｃｃｕｒａｃｙｏｆｄｉｆｆｅｒｅｎｔｃｌｕｓ⁃ ｔｅｒａｌｇｏｒｉｔｈｍｓ数据算法ｐ⁃ｖａｌｕｅｆ⁃ｓｃｏｒｅａｃｃｕｒａｃｙＩｒｉｓＲａｎｄｏｍ０．４５６２５４１．１３４１４００．３８００００ＨｉｅｒａｒｃｈｉｃａｌＣｌｕｓｔｅｒｉｎｇ０．１００５４８１．６５６５７００．６６６６６７ＤＢＳＣＡＮ０．０４２８２５２．７１４４０００．９０６６６７ｋ⁃ｍｅａｎｓ０．０４２７５１２．６５５８４００．８８６６６７ＷｉｎｅＲａｎｄｏｍ０．５５９５８８１．０９５４２００．４１０１１２ＨｉｅｒａｒｃｈｉｃａｌＣｌｕｓｔｅｒｉｎｇ０．００１５７４１．６６６４６００．６５７３０３ＤＢＳＣＡＮ１．８９２９９１ｅ⁃０５２．８３３７５００．９４３８２０ｋ⁃ｍｅａｎｓ１．８１８３８４ｅ⁃０５２．８３２２０００．９４３８２０ＹｅａｓｔＲａｎｄｏｍ０．６８８１４５１．０７８２６００．３５７１９８ＨｉｅｒａｒｃｈｉｃａｌＣｌｕｓｔｅｒｉｎｇ０．００３８７１０．８３５３７１０．３６０２７７ＤＢＳＣＡＮ０．０００７１１１．３０４８０００．４３４９５０ｋ⁃ｍｅａｎｓ７．５４４５５６ｅ⁃０５１．８８１９５００．４８０３７０针对ｉｒｉｓ数据集，利用ＥＣＰ计算出的ｐ ⁃ｖａｌｕｅ与ｆ ⁃ｓｃｏｒｅ的相关系数为－０．５７８０１８，与ａｃｃｕｒａｃｙ的相关系数为－０．６９９３３１。具体的结果如图１。针对ｗｉｎｅ数据集，利用ＥＣＰ计算得到的ｐ ⁃ｖａｌｕｅ与ｆ ⁃ ｓｃｏｒｅ的相系数为－０．５３５７３４，与ａｃｃｕｒａｃｙ的相关系数为－０．５３８７５４。具体的结果为图２。对于ｙｅａｓｔ数据集，利用ＥＣＰ计算得到的ｐ ⁃ｖａｌｕｅ与ｆ ⁃ｓｃｏｒｅ的相关系数为－０．５００３４０，与ａｃｃｕｒａｃｙ的相关系数为－０．１６７３２５。具体结果为图３。从实验结果可以看出用本文方法算出来的ｐ ⁃ ｖａｌｕｅ是可靠的。需要注意的是ｙｅａｓｔ的数据集簇结构比较明显，聚类的结果比较集中。（ａ）ｐ⁃ｖａｌｕｅ与ｆ⁃ｓｃｏｒｅ的关系（ｂ）ｐ⁃ｖａｌｕｅ与ａｃｃｕｒａｃｙ的关系图１Ｉｒｉｓ数据集ｐ⁃ｖａｌｕｅ与ｆ⁃ｓｃｏｒｅ和ａｃｃｕｒａｃｙ的关系Ｆｉｇ．１Ｔｈｅｒｅｌａｔｉｏｎｓｈｉｐｂｅｔｗｅｅｎｐ⁃ｖａｌｕｅａｎｄｆ⁃ｓｃｏｒｅ，ａｃｃｕｒａｃｙｏｆｉｒｉｓｄａｔａｓｅｔ（ａ）ｐ⁃ｖａｌｕｅ与ｆ⁃ｓｃｏｒｅ的关系第３期谷飞洋，等：基于置换检验的聚类结果评估 ·３０５·

·306· 智能系统学报第11卷 1.0r 4.2利用p-vaue决定数据集簇的数目k 0.9 很多聚类算法需要预先设定划分数目k。本文研究了p-value与k的关系。对于同一数据集，选择 0.8 不同的k用k-means分别聚类，然后计算对应的p- 0.7 vaue。计算结果如表2。 0.6 。° % 从表2中看出随着k的增加，p-value的值变 0.5 小。因为k越大，对数据集划分得越细，同一个簇内 0.4 ×103 0 2 的元素就会越相似，p-value自然就会越小。然而 p-value 划分的越细并不意味着就一定越好。举个极端的例 (b)p-value与accuracy的关系子，将一个数据量为n的数据集划分成n个簇是毫图2Wine数据集p-value与∫score和accuracy的关系 Fig.2 The relationship between p-value and f-score, 无意义的。 accuracy of wine dataset 本文研究了一种利用p-value的变化幅度来确 2.6 定k的新方法。这里给出一个定义： R(i)=P(i-1) 2.2 p() 20 式中：p(i-1)是当k取i-1时聚类结果的p-val 00 ue,p(i)是当k取i时的聚类结果的p-value。R(i) 1.6 w。的意义是当k增加I时p-value的变化幅度。将表 1.4 000 2的结果按照公式计算的结果如表3。 ×10H 0 2 4 6 8 由实验结果可以看出，对于iis数据集，当k取 p-value 3的时候，R(3)=2.538900最大。事实上iis的类 (a)p-value与f-score的关系 0.54 别数目就是3。接着看wine数据集，当i取3的时 B 0.53 候R(3)=97.836510最大。真实情况wine的类别 0.52 数目就是3。对于yeast数据集当i取4的时候 0.51 R(4)=14.991890最大，以此来确定簇的数目为4。而事实上yeast的类别数目就是4。 0.49 利用本文提出的定义能正确算出数据集中的簇 0.48 0.47 。。。°。数目k。因此可以说明计算聚类的p-value对于确 ×10时 4 6 定聚类数目k也是有一定意义的。不过对于R() p-value 这个定义还存在一定的问题。根据R的定义，i的 (b)p-value与accuracy的关系图3 Yeast数据集p-value与f-score和accuracy的关系取值不小于3。因此对于簇数目为2的情况还不能 Fig.3 The relationship between p-value and f-score, 够做出合适的处理。 accuracy of yeast dataset 表2不同k下的p -value Table 2 The p-value of clusters for differentk 数据 2 3 4 5 6 7 Iris 0.108518 0.042742 0.020435 0.017261 0.006991 0.003208 Wine 0.001946 1.988773e-05 7.579904e-07 2.381891e-08 2.125773e-09 1.537855e-09 Yeast 0.006911 0.001040 6.937873e-05 9.647412e-06 1.327582e-06 3.264579e-06 表3不同k下的R(k) Table 3 The R(k)of clusters for differentk 数据 3 4 5 6 Iris 2.538900 2.091640 1.183870 2.469150 2.179010 Wine 97.836510 26.237440 31.823050 11.204820 1.382300 Yeast 6.644860 14.991890 7.191430 7.266900 0.406660

（ｂ）ｐ⁃ｖａｌｕｅ与ａｃｃｕｒａｃｙ的关系图２Ｗｉｎｅ数据集ｐ⁃ｖａｌｕｅ与ｆ⁃ｓｃｏｒｅ和ａｃｃｕｒａｃｙ的关系Ｆｉｇ．２Ｔｈｅｒｅｌａｔｉｏｎｓｈｉｐｂｅｔｗｅｅｎｐ ⁃ｖａｌｕｅａｎｄｆ⁃ｓｃｏｒｅ，ａｃｃｕｒａｃｙｏｆｗｉｎｅｄａｔａｓｅｔ（ａ）ｐ⁃ｖａｌｕｅ与ｆ⁃ｓｃｏｒｅ的关系（ｂ）ｐ⁃ｖａｌｕｅ与ａｃｃｕｒａｃｙ的关系图３Ｙｅａｓｔ数据集ｐ⁃ｖａｌｕｅ与ｆ⁃ｓｃｏｒｅ和ａｃｃｕｒａｃｙ的关系Ｆｉｇ．３Ｔｈｅｒｅｌａｔｉｏｎｓｈｉｐｂｅｔｗｅｅｎｐ⁃ｖａｌｕｅａｎｄｆ⁃ｓｃｏｒｅ，ａｃｃｕｒａｃｙｏｆｙｅａｓｔｄａｔａｓｅｔ４．２利用ｐ ⁃ｖａｌｕｅ决定数据集簇的数目ｋ很多聚类算法需要预先设定划分数目ｋ。本文研究了ｐ ⁃ｖａｌｕｅ与ｋ的关系。对于同一数据集，选择不同的ｋ用ｋ⁃ｍｅａｎｓ分别聚类，然后计算对应的ｐ ⁃ ｖａｌｕｅ。计算结果如表２。从表２中看出随着ｋ的增加，ｐ ⁃ｖａｌｕｅ的值变小。因为ｋ越大，对数据集划分得越细，同一个簇内的元素就会越相似，ｐ ⁃ｖａｌｕｅ自然就会越小。然而划分的越细并不意味着就一定越好。举个极端的例子，将一个数据量为ｎ的数据集划分成ｎ个簇是毫无意义的。本文研究了一种利用ｐ ⁃ｖａｌｕｅ的变化幅度来确定ｋ的新方法。这里给出一个定义：Ｒ（ｉ）＝ｐ（ｉ－１）ｐ（ｉ），式中：ｐ（ｉ－１）是当ｋ取ｉ – １时聚类结果的ｐ ⁃ｖａｌ⁃ ｕｅ，ｐ（ｉ）是当ｋ取ｉ时的聚类结果的ｐ ⁃ｖａｌｕｅ。Ｒ（ｉ）的意义是当ｋ增加１时ｐ ⁃ｖａｌｕｅ的变化幅度。将表２的结果按照公式计算的结果如表３。由实验结果可以看出，对于ｉｒｉｓ数据集，当ｋ取３的时候，Ｒ（３）＝２．５３８９００最大。事实上ｉｒｉｓ的类别数目就是３。接着看ｗｉｎｅ数据集，当ｉ取３的时候Ｒ（３）＝９７．８３６５１０最大。真实情况ｗｉｎｅ的类别数目就是３。对于ｙｅａｓｔ数据集当ｉ取４的时候Ｒ（４）＝１４．９９１８９０最大，以此来确定簇的数目为４。而事实上ｙｅａｓｔ的类别数目就是４。利用本文提出的定义能正确算出数据集中的簇数目ｋ。因此可以说明计算聚类的ｐ ⁃ｖａｌｕｅ对于确定聚类数目ｋ也是有一定意义的。不过对于Ｒ（ｉ）这个定义还存在一定的问题。根据Ｒ的定义，ｉ的取值不小于３。因此对于簇数目为２的情况还不能够做出合适的处理。表２不同ｋ下的ｐ ⁃ｖａｌｕｅＴａｂｌｅ２Ｔｈｅｐ ⁃ｖａｌｕｅｏｆｃｌｕｓｔｅｒｓｆｏｒｄｉｆｆｅｒｅｎｔｋ数据２３４５６７Ｉｒｉｓ０．１０８５１８０．０４２７４２０．０２０４３５０．０１７２６１０．００６９９１０．００３２０８Ｗｉｎｅ０．００１９４６１．９８８７７３ｅ⁃０５７．５７９９０４ｅ⁃０７２．３８１８９１ｅ⁃０８２．１２５７７３ｅ⁃０９１．５３７８５５ｅ⁃０９Ｙｅａｓｔ０．００６９１１０．００１０４０６．９３７８７３ｅ⁃０５９．６４７４１２ｅ⁃０６１．３２７５８２ｅ⁃０６３．２６４５７９ｅ⁃０６表３不同ｋ下的Ｒ（ｋ）Ｔａｂｌｅ３ＴｈｅＲ（ｋ）ｏｆｃｌｕｓｔｅｒｓｆｏｒｄｉｆｆｅｒｅｎｔｋ数据３４５６７Ｉｒｉｓ２．５３８９００２．０９１６４０１．１８３８７０２．４６９１５０２．１７９０１０Ｗｉｎｅ９７．８３６５１０２６．２３７４４０３１．８２３０５０１１．２０４８２０１．３８２３００Ｙｅａｓｔ６．６４４８６０１４．９９１８９０７．１９１４３０７．２６６９０００．４０６６６０ ·３０６· 智能系统学报第１１卷

研究了对于ｉｒｉｓ、ｗｉｎｅ和ｙｅａｓｔ数据集需要多少样本能保证ｐ ⁃ｖａｌｕｅ不会因样本数目的增加而改变。对于每个数据集用不同数目样本计算ｐ ⁃ｖａｌｕｅ，结果如图５。（ａ）Ｉｒｉｓ（ｂ）Ｗｉｎｅ（ｃ）Ｙｅａｓｔ图４ｐ⁃ｖａｌｕｅ稳定性Ｆｉｇ．４Ｔｈｅｓｔａｂｉｌｉｔｙｏｆｐ⁃ｖａｌｕｅ（ａ）Ｉｒｉｓ（ｂ）Ｗｉｎｅ（ｃ）Ｙｅａｓｔ图５ｐ⁃ｖａｌｕｅ与抽样次数的关系Ｆｉｇ．５Ｔｈｅｒｅｌａｔｉｏｎｓｈｉｐｂｅｔｗｅｅｎｐ⁃ｖａｌｕｅａｎｄｔｈｅｎｕｍ⁃ ｂｅｒｏｆｓａｍｐｌｅｓ实验最多抽取１００００００个样本。对于这３个数据集，当抽样数目达１００００时ｐ ⁃ｖａｌｕｅ就基本稳定了。这一结果证实该方法具有很强的可行性。４．３与相关算法对比４．３．１ＥＣＰ与最大熵模型比较本文重复了最大熵模型的评估方法，这３个数据集算出的ｐ ⁃ｖａｌｕｅ都为１／Ｎ。这是因为样本太少，算法把原始聚类结果也当做一个样本。前文分析了这种做法的不合理性。利用ＥＣＰ就可以避免这样的情况。除此之外，本文也尝试将最大熵方法的抽样评估值拟合出正态分布。实验结果如表４。从实验结果可以看出，对于ｗｉｎｅ数据集，最大熵方法算出的ｐ⁃ｖａｌｕｅ为０．００１，拟合正态后的ｐ⁃ｖａｌｕｅ为０．３７００３５２。这两者差距比较大，这说明将最大熵方法拟合成正态分布是不合适的。这一实验说明利用ＥＣＰ评估聚类结果更为可靠。４．３．２ＥＣＰ与ＳｉｇＣｌｕｓｔ对比ＳｉｇＣｌｕｓｔ算法是主要针对ｋ为２聚类结果的评估。本文从每个数据集中选出了两类用ｋ⁃ｍｅａｎｓ进行聚类（比如ｉｒｉｓ数据集中选出了Ｓｅｔｏｓａ、Ｖｅｒｓｉｃｏｌｏｕｒ第３期谷飞洋，等：基于置换检验的聚类结果评估 ·３０７·

·308 智能系统学报第11卷两类进行对比)。为了让聚类质量有层次的差距，表6ECP与ECP1效率对比对k-means的聚类结果进行不同程度的破坏。破坏 Table 6 The comparison of ECP and ECPI 的程度越大，聚类的质量越差。实验结果如表5。算法 iris wine yeast 从实验看SigClust与ECP都能够区别出很好和很差 ECP1 18s 50s 56s 的聚类。但是可以很明显地看出，SigClust对聚类质 ECP 1109s 734÷ 280m 量的区分度不够大。比如对于iis数据集计算的f 为2和1.8，SigClust算出的p-value都是0，没有区分 5 结束语开这2个不同划分的质量。同样地iis数据集f为本文提出了一种新的基于置换检验的聚类结果 1.36和1.15865，SigClust算出的p-value都为1。实评估方法ECP。为了增大抽样的数目，利用DB-n- 验可以看出ECP能很好地区分聚类质量的差距。 dex的计算特点减小了对样本函数值计算的复杂因此，与SigClust相比，ECP不仅能处理k>2的情度。为了得到更精确的p-value,根据聚类划分的特况，而且能更好地评估聚类质量。点，假设了DB-Index的函数值是符合高斯分布的，表4ECP与最大熵方法对比 Table 4 The comparison of ECP and maximum entropy 进而可以用较少的抽样估出更为准确的p-value。 method 从实验的结果来看，ECP对评估聚类结果有很好的算法 iris 效果，并且具有很强的实用性。 wine yeast 最大嫡 0.001 0.001 0.001 最大嫡参考文献： 4.891817e-050.37003520.002626655 拟合正态 [1]TAN Pangning,STEINBACH M,KUMAR V.Introduction ECP 0.042742131.988773e-056.937873e-05 to data mining[M.Boston:Addison-Wesley,2005. [2]HAN Jiawei,KAMBER M,PEI Jian.Data mining:con- 表5ECP与Sigclust对比 cepts and techniques[M].3rd ed.Burlington,MA,USA: Table 5 The comparison of ECP and Sigclust Elsevier,2012:1-33. [3]尹宏伟，李凡长.谱机器学习研究综述[J].计算机科学 p-value/Sigclust 数据p-value/ECP f-score accuracy 与探索，2015,9(12)：1409-1419. Sigclust YIN Hongwei,LI Fanzhang.Survey on spectral machine 0.1145728 0 2 1 learning[]].Journal of frontiers of computer science and 0.1216881 0 1.8 0.9 Iris technolog,2015,9(12):1409-1419. 0.1571689 1.36 0.68 0.2282965 [4]JAIN A K,MURTY M N,FLYNN P J.Data clustering:a 1.15865 0.58 0.001534783 0 1.876810.938462 review[J].ACM computing surveys,1999,31(3):264- 0.002878496 0.1992 1.673660.838462 323 wine 0.006082356 1 1.430740.715385 [5]WU Xindong,KUMAR V,QUINLAN J R,et al.Top 10 al- 0.221656 1.011640.546154 gorithms in data mining[J].Knowledge and information sys- 0.006761993 0 1.130050.567265 tems,2008,14(1):1-37. 0.0107751 1.077860.539238 [6]HALKIDI M,BATISTAKIS Y,VAZIRGIANNIS M.On yeast 0.01254987 1 1.073480.536996 clustering validation techniques[J].Journal of intelligent 0.2564062 1.044030.522422 information systems,2001,17(2-3):107-145. 4.3.3 ECP与ECP1对比 [7]HANDL J,KNOWLES J,KELL D B.Computational cluster 这一部分说明ECP比加速的ECP1在效率上 validation in post-genomic data analysis[J].Bioinformatics. 有很大提高。ECP1是未加速的ECP算法。本文将 2005,21(15):3201-3212. 这两种算法进行了效率上的对比。实验结果如表 8]KONTONASIOS K N.VREEKEN J,DE BIE T.Maximum 6。实验分别用两种算法抽样100000次并得到对 entropy modelling for assessing results on real-valued data [C]//Proceedings of the 11th international conference on 应的统计值。可以看出，对于iis数据集，ECP比 data mining.Vancouver,BC,Canada,2011:350-359. ECP1快了60倍。可见ECP在效率上有质的提升

两类进行对比）。为了让聚类质量有层次的差距，对ｋ⁃ｍｅａｎｓ的聚类结果进行不同程度的破坏。破坏的程度越大，聚类的质量越差。实验结果如表５。从实验看ＳｉｇＣｌｕｓｔ与ＥＣＰ都能够区别出很好和很差的聚类。但是可以很明显地看出，ＳｉｇＣｌｕｓｔ对聚类质量的区分度不够大。比如对于ｉｒｉｓ数据集计算的ｆ１为２和１．８，ＳｉｇＣｌｕｓｔ算出的ｐ⁃ｖａｌｕｅ都是０，没有区分开这２个不同划分的质量。同样地ｉｒｉｓ数据集ｆ１为１．３６和１．１５８６５，ＳｉｇＣｌｕｓｔ算出的ｐ⁃ｖａｌｕｅ都为１。实验可以看出ＥＣＰ能很好地区分聚类质量的差距。因此，与ＳｉｇＣｌｕｓｔ相比，ＥＣＰ不仅能处理ｋ＞２的情况，而且能更好地评估聚类质量。表４ＥＣＰ与最大熵方法对比Ｔａｂｌｅ４ＴｈｅｃｏｍｐａｒｉｓｏｎｏｆＥＣＰａｎｄｍａｘｉｍｕｍｅｎｔｒｏｐｙｍｅｔｈｏｄ算法ｉｒｉｓｗｉｎｅｙｅａｓｔ最大熵０．００１０．００１０．００１最大熵拟合正态４．８９１８１７ｅ⁃０５０．３７００３５２０．００２６２６６５５ＥＣＰ０．０４２７４２１３１．９８８７７３ｅ⁃０５６．９３７８７３ｅ⁃０５表５ＥＣＰ与Ｓｉｇｃｌｕｓｔ对比Ｔａｂｌｅ５ＴｈｅｃｏｍｐａｒｉｓｏｎｏｆＥＣＰａｎｄＳｉｇｃｌｕｓｔ数据ｐ⁃ｖａｌｕｅ／ＥＣＰｐ⁃ｖａｌｕｅ／ＳｉｇｃｌｕｓｔＳｉｇｃｌｕｓｔｆ⁃ｓｃｏｒｅａｃｃｕｒａｃｙＩｒｉｓ０．１１４５７２８０２１０．１２１６８８１０１．８０．９０．１５７１６８９１１．３６０．６８０．２２８２９６５１１．１５８６５０．５８ｗｉｎｅ０．００１５３４７８３０１．８７６８１０．９３８４６２０．００２８７８４９６０．１９９２１．６７３６６０．８３８４６２０．００６０８２３５６１１．４３０７４０．７１５３８５０．２２１６５６１１．０１１６４０．５４６１５４ｙｅａｓｔ０．００６７６１９９３０１．１３００５０．５６７２６５０．０１０７７５１１１．０７７８６０．５３９２３８０．０１２５４９８７１１．０７３４８０．５３６９９６０．２５６４０６２１１．０４４０３０．５２２４２２４．３．３ＥＣＰ与ＥＣＰ１对比这一部分说明ＥＣＰ比加速的ＥＣＰ１在效率上有很大提高。ＥＣＰ１是未加速的ＥＣＰ算法。本文将这两种算法进行了效率上的对比。实验结果如表６。实验分别用两种算法抽样１０００００次并得到对应的统计值。可以看出，对于ｉｒｉｓ数据集，ＥＣＰ比ＥＣＰ１快了６０倍。可见ＥＣＰ在效率上有质的提升。表６ＥＣＰ与ＥＣＰ１效率对比Ｔａｂｌｅ６ＴｈｅｃｏｍｐａｒｉｓｏｎｏｆＥＣＰａｎｄＥＣＰ１算法ｉｒｉｓｗｉｎｅｙｅａｓｔＥＣＰ１１８ｓ５０ｓ５６ｓＥＣＰ１１０９ｓ７３４ｓ２８０ｍ５结束语本文提出了一种新的基于置换检验的聚类结果评估方法ＥＣＰ。为了增大抽样的数目，利用ＤＢ⁃Ｉｎ⁃ ｄｅｘ的计算特点减小了对样本函数值计算的复杂度。为了得到更精确的ｐ ⁃ｖａｌｕｅ，根据聚类划分的特点，假设了ＤＢ⁃Ｉｎｄｅｘ的函数值是符合高斯分布的，进而可以用较少的抽样估出更为准确的ｐ ⁃ｖａｌｕｅ。从实验的结果来看，ＥＣＰ对评估聚类结果有很好的效果，并且具有很强的实用性。参考文献：［１］ＴＡＮＰａｎｇｎｉｎｇ，ＳＴＥＩＮＢＡＣＨＭ，ＫＵＭＡＲＶ．Ｉｎｔｒｏｄｕｃｔｉｏｎｔｏｄａｔａｍｉｎｉｎｇ［Ｍ］．Ｂｏｓｔｏｎ：Ａｄｄｉｓｏｎ⁃Ｗｅｓｌｅｙ，２００５．［２］ＨＡＮＪｉａｗｅｉ，ＫＡＭＢＥＲＭ，ＰＥＩＪｉａｎ．Ｄａｔａｍｉｎｉｎｇ：ｃｏｎ⁃ ｃｅｐｔｓａｎｄｔｅｃｈｎｉｑｕｅｓ［Ｍ］．３ｒｄｅｄ．Ｂｕｒｌｉｎｇｔｏｎ，ＭＡ，ＵＳＡ：Ｅｌｓｅｖｉｅｒ，２０１２：１⁃３３．［３］尹宏伟，李凡长．谱机器学习研究综述［Ｊ］．计算机科学与探索，２０１５，９（１２）：１４０９⁃１４１９．ＹＩＮＨｏｎｇｗｅｉ，ＬＩＦａｎｚｈａｎｇ．Ｓｕｒｖｅｙｏｎｓｐｅｃｔｒａｌｍａｃｈｉｎｅｌｅａｒｎｉｎｇ［Ｊ］．Ｊｏｕｒｎａｌｏｆｆｒｏｎｔｉｅｒｓｏｆｃｏｍｐｕｔｅｒｓｃｉｅｎｃｅａｎｄｔｅｃｈｎｏｌｏｇｙ，２０１５，９（１２）：１４０９⁃１４１９．［４］ＪＡＩＮＡＫ，ＭＵＲＴＹＭＮ，ＦＬＹＮＮＰＪ．Ｄａｔａｃｌｕｓｔｅｒｉｎｇ：ａｒｅｖｉｅｗ［Ｊ］．ＡＣＭｃｏｍｐｕｔｉｎｇｓｕｒｖｅｙｓ，１９９９，３１（３）：２６４⁃ ３２３．［５］ＷＵＸｉｎｄｏｎｇ，ＫＵＭＡＲＶ，ＱＵＩＮＬＡＮＪＲ，ｅｔａｌ．Ｔｏｐ１０ａｌ⁃ ｇｏｒｉｔｈｍｓｉｎｄａｔａｍｉｎｉｎｇ［Ｊ］．Ｋｎｏｗｌｅｄｇｅａｎｄｉｎｆｏｒｍａｔｉｏｎｓｙｓ⁃ ｔｅｍｓ，２００８，１４（１）：１⁃３７．［６］ＨＡＬＫＩＤＩＭ，ＢＡＴＩＳＴＡＫＩＳＹ，ＶＡＺＩＲＧＩＡＮＮＩＳＭ．Ｏｎｃｌｕｓｔｅｒｉｎｇｖａｌｉｄａｔｉｏｎｔｅｃｈｎｉｑｕｅｓ［Ｊ］．Ｊｏｕｒｎａｌｏｆｉｎｔｅｌｌｉｇｅｎｔｉｎｆｏｒｍａｔｉｏｎｓｙｓｔｅｍｓ，２００１，１７（２⁃３）：１０７⁃１４５．［７］ＨＡＮＤＬＪ，ＫＮＯＷＬＥＳＪ，ＫＥＬＬＤＢ．Ｃｏｍｐｕｔａｔｉｏｎａｌｃｌｕｓｔｅｒｖａｌｉｄａｔｉｏｎｉｎｐｏｓｔ⁃ｇｅｎｏｍｉｃｄａｔａａｎａｌｙｓｉｓ［Ｊ］．Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ，２００５，２１（１５）：３２０１⁃３２１２．［８］ＫＯＮＴＯＮＡＳＩＯＳＫＮ，ＶＲＥＥＫＥＮＪ，ＤＥＢＩＥＴ．Ｍａｘｉｍｕｍｅｎｔｒｏｐｙｍｏｄｅｌｌｉｎｇｆｏｒａｓｓｅｓｓｉｎｇｒｅｓｕｌｔｓｏｎｒｅａｌ⁃ｖａｌｕｅｄｄａｔａ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１１ｔｈｉｎｔｅｒｎａｔｉｏｎａｌｃｏｎｆｅｒｅｎｃｅｏｎｄａｔａｍｉｎｉｎｇ．Ｖａｎｃｏｕｖｅｒ，ＢＣ，Ｃａｎａｄａ，２０１１：３５０⁃３５９． ·３０８· 智能系统学报第１１卷

第3期谷飞洋，等：基于置换检验的聚类结果评估 .309. [9]OJALA M.Assessing data mining results on matrices with Bioinformatics,2009,25(12):i161-i168. randomization[C]//Proceedings of international conference [15]ASUNCION A,NEWMAN D J.UCI machine leaming re- on data mining.Sydney,Australia,2010:959-964. pository[EB/OL].2007.http://archive.ics.uci.edu/ml/. [10]OJALA M,VUOKKO N,KALLIO A,et al.Randomiza- 作者简介： tion methods for assessing data analysis results on real-val- 谷飞洋，男，1991年生，硕士研究 ued matrices [J].Statistical analysis and data mining, 生，主要研究方向是数据挖掘和生物 2009,2(4):209-230. 信息。 [11]LIU Yufeng,HAYES D N,NOBEL A,et al.Statistical significance of clustering for high-dimension,low-sample size data[J].Journal of the American statistical associa- ion,2008,103(483):1281-1293. [12]PARK P J,MANJOURIDES J,BOONETTI M,et al.A 田博，女，1992年生，硕士研究生， permutation test for determining significance of clusters 主要研究方向为数据挖掘和生物信息。 with applications to spatial and gene expression data[J]. Computational statistics data analysis,2009,53(12): 4290-4300. [13]张刚，刘悦，郭嘉丰，等.一种层次化的检索结果聚类方法[J].计算机研究与发展，2008,45(3)：542-547. ZHANG Gang,LIU Yue,GUO Jiafeng,et al.A Hierar- 何增有，男，1976年生，副教授，主 chical search result clustering method[J].Journal of com- 要研究方向为数据挖掘和生物信息学， puter research and development,2008,45(3):542-547. 学术论文均发表在该领域的顶级期刊 [14]KNIJNENBURG T A,WESSELS L F A,REINDERS M J 或会议上，出版学术专著1部。 T,et al.Fewer permutations,more accurate p-values[J]. 2016年第九届SPE机器学习国际会议 2016 The 9th International Conference on Machine Vision (ICMV 2016) Welcome to the official website for 2016 The 9th International Conference on Machine Vision (ICMV 2016).ICMV conference is ini- tiated by School of Electronics,Si Chuan University,China,assisted by Halmstad University,Sweden,University of Barcelona,Spain. This is the annual conference started in 2007(Islamabad,Pakistan),ICMV 2009 (Dubai,UAE),ICMV 2010 (Hong Kong),ICMV 2011 (Singapore),ICMV 2012 (Wuhan,China),ICMV 2013 London,UK),ICMV 2014 Milano,Italy),ICMV 2015 (Barcelona, Spain).ICMV 2016 will take place in Nice,France during November 18-20,2016,the conference chairs are Prof.Antanas Verikas, Halmstad University,Sweden,Prof.Petia Radeva,University of Barcelona,Spain and Prof.Dmitry Nikolaev,Russian Academy of Sci- ence,Russia. The emergence of Machine Vision as a ubiquitous platform for innovations has laid the foundation for the rapid growth of the Informa- tion.Side-by-side,the use of mobile and wireless devices such as PDA,laptop,and cell phones for accessing the Intemet has paved the ways for related technologies to flourish through recent developments.In addition,the Machine Vision Technology is promoting better inte- gration of the digital world with physical environment.This conference serves to foster communication among researchers and practitioners working in a wide variety of scientific areas with a common interest in improving Machine Vision related techniques. High quality,original papers are solicited in all areas of Machine Vision.The final program will be the result of a highly selective re- view process designed to include the best work of its kind in every category.The program will include invited talks as well as oral and poster presentations of refereed papers. Website:http://www.icmv.org/index.html

［９］ＯＪＡＬＡＭ．Ａｓｓｅｓｓｉｎｇｄａｔａｍｉｎｉｎｇｒｅｓｕｌｔｓｏｎｍａｔｒｉｃｅｓｗｉｔｈｒａｎｄｏｍｉｚａｔｉｏｎ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｉｎｔｅｒｎａｔｉｏｎａｌｃｏｎｆｅｒｅｎｃｅｏｎｄａｔａｍｉｎｉｎｇ．Ｓｙｄｎｅｙ，Ａｕｓｔｒａｌｉａ，２０１０：９５９⁃９６４．［１０］ＯＪＡＬＡＭ，ＶＵＯＫＫＯＮ，ＫＡＬＬＩＯＡ，ｅｔａｌ．Ｒａｎｄｏｍｉｚａ⁃ ｔｉｏｎｍｅｔｈｏｄｓｆｏｒａｓｓｅｓｓｉｎｇｄａｔａａｎａｌｙｓｉｓｒｅｓｕｌｔｓｏｎｒｅａｌ⁃ｖａｌ⁃ ｕｅｄｍａｔｒｉｃｅｓ［Ｊ］．Ｓｔａｔｉｓｔｉｃａｌａｎａｌｙｓｉｓａｎｄｄａｔａｍｉｎｉｎｇ，２００９，２（４）：２０９⁃２３０．［１１］ＬＩＵＹｕｆｅｎｇ，ＨＡＹＥＳＤＮ，ＮＯＢＥＬＡ，ｅｔａｌ．Ｓｔａｔｉｓｔｉｃａｌｓｉｇｎｉｆｉｃａｎｃｅｏｆｃｌｕｓｔｅｒｉｎｇｆｏｒｈｉｇｈ⁃ｄｉｍｅｎｓｉｏｎ，ｌｏｗ⁃ｓａｍｐｌｅｓｉｚｅｄａｔａ［Ｊ］．ＪｏｕｒｎａｌｏｆｔｈｅＡｍｅｒｉｃａｎｓｔａｔｉｓｔｉｃａｌａｓｓｏｃｉａ⁃ ｔｉｏｎ，２００８，１０３（４８３）：１２８１⁃１２９３．［１２］ＰＡＲＫＰＪ，ＭＡＮＪＯＵＲＩＤＥＳＪ，ＢＯＯＮＥＴＴＩＭ，ｅｔａｌ．Ａｐｅｒｍｕｔａｔｉｏｎｔｅｓｔｆｏｒｄｅｔｅｒｍｉｎｉｎｇｓｉｇｎｉｆｉｃａｎｃｅｏｆｃｌｕｓｔｅｒｓｗｉｔｈａｐｐｌｉｃａｔｉｏｎｓｔｏｓｐａｔｉａｌａｎｄｇｅｎｅｅｘｐｒｅｓｓｉｏｎｄａｔａ［Ｊ］．Ｃｏｍｐｕｔａｔｉｏｎａｌｓｔａｔｉｓｔｉｃｓ＆ｄａｔａａｎａｌｙｓｉｓ，２００９，５３（１２）：４２９０⁃４３００．［１３］张刚，刘悦，郭嘉丰，等．一种层次化的检索结果聚类方法［Ｊ］．计算机研究与发展，２００８，４５（３）：５４２⁃５４７．ＺＨＡＮＧＧａｎｇ，ＬＩＵＹｕｅ，ＧＵＯＪｉａｆｅｎｇ，ｅｔａｌ．ＡＨｉｅｒａｒ⁃ ｃｈｉｃａｌｓｅａｒｃｈｒｅｓｕｌｔｃｌｕｓｔｅｒｉｎｇｍｅｔｈｏｄ［Ｊ］．Ｊｏｕｒｎａｌｏｆｃｏｍ⁃ ｐｕｔｅｒｒｅｓｅａｒｃｈａｎｄｄｅｖｅｌｏｐｍｅｎｔ，２００８，４５（３）：５４２⁃５４７．［１４］ＫＮＩＪＮＥＮＢＵＲＧＴＡ，ＷＥＳＳＥＬＳＬＦＡ，ＲＥＩＮＤＥＲＳＭＪＴ，ｅｔａｌ．Ｆｅｗｅｒｐｅｒｍｕｔａｔｉｏｎｓ，ｍｏｒｅａｃｃｕｒａｔｅｐ ⁃ｖａｌｕｅｓ［Ｊ］．Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ，２００９，２５（１２）：ｉ１６１⁃ｉ１６８．［１５］ＡＳＵＮＣＩＯＮＡ，ＮＥＷＭＡＮＤＪ．ＵＣＩｍａｃｈｉｎｅｌｅａｒｎｉｎｇｒｅ⁃ ｐｏｓｉｔｏｒｙ［ＥＢ／ＯＬ］．２００７．ｈｔｔｐ：／／ａｒｃｈｉｖｅ．ｉｃｓ．ｕｃｉ．ｅｄｕ／ｍｌ／．作者简介：谷飞洋，男，１９９１年生，硕士研究生，主要研究方向是数据挖掘和生物信息。田博，女，１９９２年生，硕士研究生，主要研究方向为数据挖掘和生物信息。何增有，男，１９７６年生，副教授，主要研究方向为数据挖掘和生物信息学，学术论文均发表在该领域的顶级期刊或会议上，出版学术专著１部。２０１６年第九届ＳＰＩＥ机器学习国际会议２０１６Ｔｈｅ９ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭａｃｈｉｎｅＶｉｓｉｏｎ（ＩＣＭＶ２０１６）Ｗｅｌｃｏｍｅｔｏｔｈｅｏｆｆｉｃｉａｌｗｅｂｓｉｔｅｆｏｒ２０１６Ｔｈｅ９ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭａｃｈｉｎｅＶｉｓｉｏｎ（ＩＣＭＶ２０１６）．ＩＣＭＶｃｏｎｆｅｒｅｎｃｅｉｓｉｎｉ⁃ ｔｉａｔｅｄｂｙＳｃｈｏｏｌｏｆＥｌｅｃｔｒｏｎｉｃｓ，ＳｉＣｈｕａｎＵｎｉｖｅｒｓｉｔｙ，Ｃｈｉｎａ，ａｓｓｉｓｔｅｄｂｙＨａｌｍｓｔａｄＵｎｉｖｅｒｓｉｔｙ，Ｓｗｅｄｅｎ，ＵｎｉｖｅｒｓｉｔｙｏｆＢａｒｃｅｌｏｎａ，Ｓｐａｉｎ．Ｔｈｉｓｉｓｔｈｅａｎｎｕａｌｃｏｎｆｅｒｅｎｃｅｓｔａｒｔｅｄｉｎ２００７（Ｉｓｌａｍａｂａｄ，Ｐａｋｉｓｔａｎ），ＩＣＭＶ２００９（Ｄｕｂａｉ，ＵＡＥ），ＩＣＭＶ２０１０（ＨｏｎｇＫｏｎｇ），ＩＣＭＶ２０１１（Ｓｉｎｇａｐｏｒｅ），ＩＣＭＶ２０１２（Ｗｕｈａｎ，Ｃｈｉｎａ），ＩＣＭＶ２０１３（Ｌｏｎｄｏｎ，ＵＫ），ＩＣＭＶ２０１４（Ｍｉｌａｎｏ，Ｉｔａｌｙ），ＩＣＭＶ２０１５（Ｂａｒｃｅｌｏｎａ，Ｓｐａｉｎ）．ＩＣＭＶ２０１６ｗｉｌｌｔａｋｅｐｌａｃｅｉｎＮｉｃｅ，ＦｒａｎｃｅｄｕｒｉｎｇＮｏｖｅｍｂｅｒ１８⁃２０，２０１６，ｔｈｅｃｏｎｆｅｒｅｎｃｅｃｈａｉｒｓａｒｅＰｒｏｆ．ＡｎｔａｎａｓＶｅｒｉｋａｓ，ＨａｌｍｓｔａｄＵｎｉｖｅｒｓｉｔｙ，Ｓｗｅｄｅｎ，Ｐｒｏｆ．ＰｅｔｉａＲａｄｅｖａ，ＵｎｉｖｅｒｓｉｔｙｏｆＢａｒｃｅｌｏｎａ，ＳｐａｉｎａｎｄＰｒｏｆ．ＤｍｉｔｒｙＮｉｋｏｌａｅｖ，ＲｕｓｓｉａｎＡｃａｄｅｍｙｏｆＳｃｉ⁃ ｅｎｃｅ，Ｒｕｓｓｉａ．ＴｈｅｅｍｅｒｇｅｎｃｅｏｆＭａｃｈｉｎｅＶｉｓｉｏｎａｓａｕｂｉｑｕｉｔｏｕｓｐｌａｔｆｏｒｍｆｏｒｉｎｎｏｖａｔｉｏｎｓｈａｓｌａｉｄｔｈｅｆｏｕｎｄａｔｉｏｎｆｏｒｔｈｅｒａｐｉｄｇｒｏｗｔｈｏｆｔｈｅＩｎｆｏｒｍａ⁃ ｔｉｏｎ．Ｓｉｄｅ⁃ｂｙ⁃ｓｉｄｅ，ｔｈｅｕｓｅｏｆｍｏｂｉｌｅａｎｄｗｉｒｅｌｅｓｓｄｅｖｉｃｅｓｓｕｃｈａｓＰＤＡ，ｌａｐｔｏｐ，ａｎｄｃｅｌｌｐｈｏｎｅｓｆｏｒａｃｃｅｓｓｉｎｇｔｈｅＩｎｔｅｒｎｅｔｈａｓｐａｖｅｄｔｈｅｗａｙｓｆｏｒｒｅｌａｔｅｄｔｅｃｈｎｏｌｏｇｉｅｓｔｏｆｌｏｕｒｉｓｈｔｈｒｏｕｇｈｒｅｃｅｎｔｄｅｖｅｌｏｐｍｅｎｔｓ．Ｉｎａｄｄｉｔｉｏｎ，ｔｈｅＭａｃｈｉｎｅＶｉｓｉｏｎＴｅｃｈｎｏｌｏｇｙｉｓｐｒｏｍｏｔｉｎｇｂｅｔｔｅｒｉｎｔｅ⁃ ｇｒａｔｉｏｎｏｆｔｈｅｄｉｇｉｔａｌｗｏｒｌｄｗｉｔｈｐｈｙｓｉｃａｌｅｎｖｉｒｏｎｍｅｎｔ．ＴｈｉｓｃｏｎｆｅｒｅｎｃｅｓｅｒｖｅｓｔｏｆｏｓｔｅｒｃｏｍｍｕｎｉｃａｔｉｏｎａｍｏｎｇｒｅｓｅａｒｃｈｅｒｓａｎｄｐｒａｃｔｉｔｉｏｎｅｒｓｗｏｒｋｉｎｇｉｎａｗｉｄｅｖａｒｉｅｔｙｏｆｓｃｉｅｎｔｉｆｉｃａｒｅａｓｗｉｔｈａｃｏｍｍｏｎｉｎｔｅｒｅｓｔｉｎｉｍｐｒｏｖｉｎｇＭａｃｈｉｎｅＶｉｓｉｏｎｒｅｌａｔｅｄｔｅｃｈｎｉｑｕｅｓ．Ｈｉｇｈｑｕａｌｉｔｙ，ｏｒｉｇｉｎａｌｐａｐｅｒｓａｒｅｓｏｌｉｃｉｔｅｄｉｎａｌｌａｒｅａｓｏｆＭａｃｈｉｎｅＶｉｓｉｏｎ．Ｔｈｅｆｉｎａｌｐｒｏｇｒａｍｗｉｌｌｂｅｔｈｅｒｅｓｕｌｔｏｆａｈｉｇｈｌｙｓｅｌｅｃｔｉｖｅｒｅ⁃ ｖｉｅｗｐｒｏｃｅｓｓｄｅｓｉｇｎｅｄｔｏｉｎｃｌｕｄｅｔｈｅｂｅｓｔｗｏｒｋｏｆｉｔｓｋｉｎｄｉｎｅｖｅｒｙｃａｔｅｇｏｒｙ．Ｔｈｅｐｒｏｇｒａｍｗｉｌｌｉｎｃｌｕｄｅｉｎｖｉｔｅｄｔａｌｋｓａｓｗｅｌｌａｓｏｒａｌａｎｄｐｏｓｔｅｒｐｒｅｓｅｎｔａｔｉｏｎｓｏｆｒｅｆｅｒｅｅｄｐａｐｅｒｓ．Ｗｅｂｓｉｔｅ：ｈｔｔｐ：／／ｗｗｗ．ｉｃｍｖ．ｏｒｇ／ｉｎｄｅｘ．ｈｔｍｌ第３期谷飞洋，等：基于置换检验的聚类结果评估 ·３０９·

点击进入文档下载页（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录