两类进行对比）。为了让聚类质量有层次的差距，对ｋ⁃ｍｅａｎｓ的聚类

正在加载图片...

·308 智能系统学报第11卷两类进行对比)。为了让聚类质量有层次的差距，表6ECP与ECP1效率对比对k-means的聚类结果进行不同程度的破坏。破坏 Table 6 The comparison of ECP and ECPI 的程度越大，聚类的质量越差。实验结果如表5。算法 iris wine yeast 从实验看SigClust与ECP都能够区别出很好和很差 ECP1 18s 50s 56s 的聚类。但是可以很明显地看出，SigClust对聚类质 ECP 1109s 734÷ 280m 量的区分度不够大。比如对于iis数据集计算的f 为2和1.8，SigClust算出的p-value都是0，没有区分 5 结束语开这2个不同划分的质量。同样地iis数据集f为本文提出了一种新的基于置换检验的聚类结果 1.36和1.15865，SigClust算出的p-value都为1。实评估方法ECP。为了增大抽样的数目，利用DB-n- 验可以看出ECP能很好地区分聚类质量的差距。 dex的计算特点减小了对样本函数值计算的复杂因此，与SigClust相比，ECP不仅能处理k>2的情度。为了得到更精确的p-value,根据聚类划分的特况，而且能更好地评估聚类质量。点，假设了DB-Index的函数值是符合高斯分布的，表4ECP与最大熵方法对比 Table 4 The comparison of ECP and maximum entropy 进而可以用较少的抽样估出更为准确的p-value。 method 从实验的结果来看，ECP对评估聚类结果有很好的算法 iris 效果，并且具有很强的实用性。 wine yeast 最大嫡 0.001 0.001 0.001 最大嫡参考文献： 4.891817e-050.37003520.002626655 拟合正态 [1]TAN Pangning,STEINBACH M,KUMAR V.Introduction ECP 0.042742131.988773e-056.937873e-05 to data mining[M.Boston:Addison-Wesley,2005. [2]HAN Jiawei,KAMBER M,PEI Jian.Data mining:con- 表5ECP与Sigclust对比 cepts and techniques[M].3rd ed.Burlington,MA,USA: Table 5 The comparison of ECP and Sigclust Elsevier,2012:1-33. [3]尹宏伟，李凡长.谱机器学习研究综述[J].计算机科学 p-value/Sigclust 数据p-value/ECP f-score accuracy 与探索，2015,9(12)：1409-1419. Sigclust YIN Hongwei,LI Fanzhang.Survey on spectral machine 0.1145728 0 2 1 learning[]].Journal of frontiers of computer science and 0.1216881 0 1.8 0.9 Iris technolog,2015,9(12):1409-1419. 0.1571689 1.36 0.68 0.2282965 [4]JAIN A K,MURTY M N,FLYNN P J.Data clustering:a 1.15865 0.58 0.001534783 0 1.876810.938462 review[J].ACM computing surveys,1999,31(3):264- 0.002878496 0.1992 1.673660.838462 323 wine 0.006082356 1 1.430740.715385 [5]WU Xindong,KUMAR V,QUINLAN J R,et al.Top 10 al- 0.221656 1.011640.546154 gorithms in data mining[J].Knowledge and information sys- 0.006761993 0 1.130050.567265 tems,2008,14(1):1-37. 0.0107751 1.077860.539238 [6]HALKIDI M,BATISTAKIS Y,VAZIRGIANNIS M.On yeast 0.01254987 1 1.073480.536996 clustering validation techniques[J].Journal of intelligent 0.2564062 1.044030.522422 information systems,2001,17(2-3):107-145. 4.3.3 ECP与ECP1对比 [7]HANDL J,KNOWLES J,KELL D B.Computational cluster 这一部分说明ECP比加速的ECP1在效率上 validation in post-genomic data analysis[J].Bioinformatics. 有很大提高。ECP1是未加速的ECP算法。本文将 2005,21(15):3201-3212. 这两种算法进行了效率上的对比。实验结果如表 8]KONTONASIOS K N.VREEKEN J,DE BIE T.Maximum 6。实验分别用两种算法抽样100000次并得到对 entropy modelling for assessing results on real-valued data [C]//Proceedings of the 11th international conference on 应的统计值。可以看出，对于iis数据集，ECP比 data mining.Vancouver,BC,Canada,2011:350-359. ECP1快了60倍。可见ECP在效率上有质的提升。两类进行对比）。为了让聚类质量有层次的差距，对ｋ⁃ｍｅａｎｓ的聚类结果进行不同程度的破坏。破坏的程度越大，聚类的质量越差。实验结果如表５。从实验看ＳｉｇＣｌｕｓｔ与ＥＣＰ都能够区别出很好和很差的聚类。但是可以很明显地看出，ＳｉｇＣｌｕｓｔ对聚类质量的区分度不够大。比如对于ｉｒｉｓ数据集计算的ｆ１为２和１．８，ＳｉｇＣｌｕｓｔ算出的ｐ⁃ｖａｌｕｅ都是０，没有区分开这２个不同划分的质量。同样地ｉｒｉｓ数据集ｆ１为１．３６和１．１５８６５，ＳｉｇＣｌｕｓｔ算出的ｐ⁃ｖａｌｕｅ都为１。实验可以看出ＥＣＰ能很好地区分聚类质量的差距。因此，与ＳｉｇＣｌｕｓｔ相比，ＥＣＰ不仅能处理ｋ＞２的情况，而且能更好地评估聚类质量。表４ＥＣＰ与最大熵方法对比Ｔａｂｌｅ４ＴｈｅｃｏｍｐａｒｉｓｏｎｏｆＥＣＰａｎｄｍａｘｉｍｕｍｅｎｔｒｏｐｙｍｅｔｈｏｄ算法ｉｒｉｓｗｉｎｅｙｅａｓｔ最大熵０．００１０．００１０．００１最大熵拟合正态４．８９１８１７ｅ⁃０５０．３７００３５２０．００２６２６６５５ＥＣＰ０．０４２７４２１３１．９８８７７３ｅ⁃０５６．９３７８７３ｅ⁃０５表５ＥＣＰ与Ｓｉｇｃｌｕｓｔ对比Ｔａｂｌｅ５ＴｈｅｃｏｍｐａｒｉｓｏｎｏｆＥＣＰａｎｄＳｉｇｃｌｕｓｔ数据ｐ⁃ｖａｌｕｅ／ＥＣＰｐ⁃ｖａｌｕｅ／ＳｉｇｃｌｕｓｔＳｉｇｃｌｕｓｔｆ⁃ｓｃｏｒｅａｃｃｕｒａｃｙＩｒｉｓ０．１１４５７２８０２１０．１２１６８８１０１．８０．９０．１５７１６８９１１．３６０．６８０．２２８２９６５１１．１５８６５０．５８ｗｉｎｅ０．００１５３４７８３０１．８７６８１０．９３８４６２０．００２８７８４９６０．１９９２１．６７３６６０．８３８４６２０．００６０８２３５６１１．４３０７４０．７１５３８５０．２２１６５６１１．０１１６４０．５４６１５４ｙｅａｓｔ０．００６７６１９９３０１．１３００５０．５６７２６５０．０１０７７５１１１．０７７８６０．５３９２３８０．０１２５４９８７１１．０７３４８０．５３６９９６０．２５６４０６２１１．０４４０３０．５２２４２２４．３．３ＥＣＰ与ＥＣＰ１对比这一部分说明ＥＣＰ比加速的ＥＣＰ１在效率上有很大提高。ＥＣＰ１是未加速的ＥＣＰ算法。本文将这两种算法进行了效率上的对比。实验结果如表６。实验分别用两种算法抽样１０００００次并得到对应的统计值。可以看出，对于ｉｒｉｓ数据集，ＥＣＰ比ＥＣＰ１快了６０倍。可见ＥＣＰ在效率上有质的提升。表６ＥＣＰ与ＥＣＰ１效率对比Ｔａｂｌｅ６ＴｈｅｃｏｍｐａｒｉｓｏｎｏｆＥＣＰａｎｄＥＣＰ１算法ｉｒｉｓｗｉｎｅｙｅａｓｔＥＣＰ１１８ｓ５０ｓ５６ｓＥＣＰ１１０９ｓ７３４ｓ２８０ｍ５结束语本文提出了一种新的基于置换检验的聚类结果评估方法ＥＣＰ。为了增大抽样的数目，利用ＤＢ⁃Ｉｎ⁃ ｄｅｘ的计算特点减小了对样本函数值计算的复杂度。为了得到更精确的ｐ ⁃ｖａｌｕｅ，根据聚类划分的特点，假设了ＤＢ⁃Ｉｎｄｅｘ的函数值是符合高斯分布的，进而可以用较少的抽样估出更为准确的ｐ ⁃ｖａｌｕｅ。从实验的结果来看，ＥＣＰ对评估聚类结果有很好的效果，并且具有很强的实用性。参考文献：［１］ＴＡＮＰａｎｇｎｉｎｇ，ＳＴＥＩＮＢＡＣＨＭ，ＫＵＭＡＲＶ．Ｉｎｔｒｏｄｕｃｔｉｏｎｔｏｄａｔａｍｉｎｉｎｇ［Ｍ］．Ｂｏｓｔｏｎ：Ａｄｄｉｓｏｎ⁃Ｗｅｓｌｅｙ，２００５．［２］ＨＡＮＪｉａｗｅｉ，ＫＡＭＢＥＲＭ，ＰＥＩＪｉａｎ．Ｄａｔａｍｉｎｉｎｇ：ｃｏｎ⁃ ｃｅｐｔｓａｎｄｔｅｃｈｎｉｑｕｅｓ［Ｍ］．３ｒｄｅｄ．Ｂｕｒｌｉｎｇｔｏｎ，ＭＡ，ＵＳＡ：Ｅｌｓｅｖｉｅｒ，２０１２：１⁃３３．［３］尹宏伟，李凡长．谱机器学习研究综述［Ｊ］．计算机科学与探索，２０１５，９（１２）：１４０９⁃１４１９．ＹＩＮＨｏｎｇｗｅｉ，ＬＩＦａｎｚｈａｎｇ．Ｓｕｒｖｅｙｏｎｓｐｅｃｔｒａｌｍａｃｈｉｎｅｌｅａｒｎｉｎｇ［Ｊ］．Ｊｏｕｒｎａｌｏｆｆｒｏｎｔｉｅｒｓｏｆｃｏｍｐｕｔｅｒｓｃｉｅｎｃｅａｎｄｔｅｃｈｎｏｌｏｇｙ，２０１５，９（１２）：１４０９⁃１４１９．［４］ＪＡＩＮＡＫ，ＭＵＲＴＹＭＮ，ＦＬＹＮＮＰＪ．Ｄａｔａｃｌｕｓｔｅｒｉｎｇ：ａｒｅｖｉｅｗ［Ｊ］．ＡＣＭｃｏｍｐｕｔｉｎｇｓｕｒｖｅｙｓ，１９９９，３１（３）：２６４⁃ ３２３．［５］ＷＵＸｉｎｄｏｎｇ，ＫＵＭＡＲＶ，ＱＵＩＮＬＡＮＪＲ，ｅｔａｌ．Ｔｏｐ１０ａｌ⁃ ｇｏｒｉｔｈｍｓｉｎｄａｔａｍｉｎｉｎｇ［Ｊ］．Ｋｎｏｗｌｅｄｇｅａｎｄｉｎｆｏｒｍａｔｉｏｎｓｙｓ⁃ ｔｅｍｓ，２００８，１４（１）：１⁃３７．［６］ＨＡＬＫＩＤＩＭ，ＢＡＴＩＳＴＡＫＩＳＹ，ＶＡＺＩＲＧＩＡＮＮＩＳＭ．Ｏｎｃｌｕｓｔｅｒｉｎｇｖａｌｉｄａｔｉｏｎｔｅｃｈｎｉｑｕｅｓ［Ｊ］．Ｊｏｕｒｎａｌｏｆｉｎｔｅｌｌｉｇｅｎｔｉｎｆｏｒｍａｔｉｏｎｓｙｓｔｅｍｓ，２００１，１７（２⁃３）：１０７⁃１４５．［７］ＨＡＮＤＬＪ，ＫＮＯＷＬＥＳＪ，ＫＥＬＬＤＢ．Ｃｏｍｐｕｔａｔｉｏｎａｌｃｌｕｓｔｅｒｖａｌｉｄａｔｉｏｎｉｎｐｏｓｔ⁃ｇｅｎｏｍｉｃｄａｔａａｎａｌｙｓｉｓ［Ｊ］．Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ，２００５，２１（１５）：３２０１⁃３２１２．［８］ＫＯＮＴＯＮＡＳＩＯＳＫＮ，ＶＲＥＥＫＥＮＪ，ＤＥＢＩＥＴ．Ｍａｘｉｍｕｍｅｎｔｒｏｐｙｍｏｄｅｌｌｉｎｇｆｏｒａｓｓｅｓｓｉｎｇｒｅｓｕｌｔｓｏｎｒｅａｌ⁃ｖａｌｕｅｄｄａｔａ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１１ｔｈｉｎｔｅｒｎａｔｉｏｎａｌｃｏｎｆｅｒｅｎｃｅｏｎｄａｔａｍｉｎｉｎｇ．Ｖａｎｃｏｕｖｅｒ，ＢＣ，Ｃａｎａｄａ，２０１１：３５０⁃３５９． ·３０８· 智能系统学报第１１卷

<<向上翻页向下翻页>>

点击下载：【机器学习】基于置换检验的聚类结果评估编辑部