研究了对于ｉｒｉｓ、ｗｉｎｅ和ｙｅａｓｔ数据集需要多少样本能保证

正在加载图片...

第3期谷飞洋，等：基于置换检验的聚类结果评估 .307· 研究了对于iris、wine和yeast数据集需要多少样本 0.20 能保证p-value不会因样本数目的增加而改变。对于每个数据集用不同数目样本计算p-vaue,结果如图5。 0.15 0.06 0.10 0.04 0.05 4000-0企0丑0-0 0.02 2 4 6 46 810 次数抽样次数（以10为底的指数） (a)Iris (b)Wine 0.20 ×10 0.15 美a10 0.05 810 次数 0 00-0-0000 0 2 4 6 (b)Wine 抽样次数（以10为底的指数） ×10 2 (c)Yeast 图5p-value与抽样次数的关系 Fig.5 The relationship between p-value and the num- ber of samples 实验最多抽取1000000个样本。对于这3个 G 数据集，当抽样数目达10000时p-value就基本稳定了。这一结果证实该方法具有很强的可行性。 4.3与相关算法对比、2 44 68 0 4.3.1ECP与最大熵模型比较次数本文重复了最大熵模型的评估方法，这3个数 (c)Yeast 据集算出的p-value都为l/W。这是因为样本太少，图4p-value稳定性算法把原始聚类结果也当做一个样本。前文分析了 Fig.4 The stability of p-value 这种做法的不合理性。利用ECP就可以避免这样 0.15 的情况。除此之外，本文也尝试将最大熵方法的抽样评估值拟合出正态分布。实验结果如表4。从实 0.10 验结果可以看出，对于wine数据集，最大熵方法算出的p-value为0.O0l,拟合正态后的p-value为 0.3700352。这两者差距比较大，这说明将最大嫡 0.05 方法拟合成正态分布是不合适的。这一实验说明利用ECP评估聚类结果更为可靠。 4.3.2ECP与SigClust对比 2 4 6 抽样次数（以10为底的指数） SigClust算法是主要针对k为2聚类结果的评估。本文从每个数据集中选出了两类用k-means进 (a)Iris 行聚类（比如iris数据集中选出了Setosa、Versicolour研究了对于ｉｒｉｓ、ｗｉｎｅ和ｙｅａｓｔ数据集需要多少样本能保证ｐ ⁃ｖａｌｕｅ不会因样本数目的增加而改变。对于每个数据集用不同数目样本计算ｐ ⁃ｖａｌｕｅ，结果如图５。（ａ）Ｉｒｉｓ（ｂ）Ｗｉｎｅ（ｃ）Ｙｅａｓｔ图４ｐ⁃ｖａｌｕｅ稳定性Ｆｉｇ．４Ｔｈｅｓｔａｂｉｌｉｔｙｏｆｐ⁃ｖａｌｕｅ（ａ）Ｉｒｉｓ（ｂ）Ｗｉｎｅ（ｃ）Ｙｅａｓｔ图５ｐ⁃ｖａｌｕｅ与抽样次数的关系Ｆｉｇ．５Ｔｈｅｒｅｌａｔｉｏｎｓｈｉｐｂｅｔｗｅｅｎｐ⁃ｖａｌｕｅａｎｄｔｈｅｎｕｍ⁃ ｂｅｒｏｆｓａｍｐｌｅｓ实验最多抽取１００００００个样本。对于这３个数据集，当抽样数目达１００００时ｐ ⁃ｖａｌｕｅ就基本稳定了。这一结果证实该方法具有很强的可行性。４．３与相关算法对比４．３．１ＥＣＰ与最大熵模型比较本文重复了最大熵模型的评估方法，这３个数据集算出的ｐ ⁃ｖａｌｕｅ都为１／Ｎ。这是因为样本太少，算法把原始聚类结果也当做一个样本。前文分析了这种做法的不合理性。利用ＥＣＰ就可以避免这样的情况。除此之外，本文也尝试将最大熵方法的抽样评估值拟合出正态分布。实验结果如表４。从实验结果可以看出，对于ｗｉｎｅ数据集，最大熵方法算出的ｐ⁃ｖａｌｕｅ为０．００１，拟合正态后的ｐ⁃ｖａｌｕｅ为０．３７００３５２。这两者差距比较大，这说明将最大熵方法拟合成正态分布是不合适的。这一实验说明利用ＥＣＰ评估聚类结果更为可靠。４．３．２ＥＣＰ与ＳｉｇＣｌｕｓｔ对比ＳｉｇＣｌｕｓｔ算法是主要针对ｋ为２聚类结果的评估。本文从每个数据集中选出了两类用ｋ⁃ｍｅａｎｓ进行聚类（比如ｉｒｉｓ数据集中选出了Ｓｅｔｏｓａ、Ｖｅｒｓｉｃｏｌｏｕｒ第３期谷飞洋，等：基于置换检验的聚类结果评估 ·３０７·

<<向上翻页向下翻页>>

点击下载：【机器学习】基于置换检验的聚类结果评估编辑部