正在加载图片...
第3期 谷飞洋,等:基于置换检验的聚类结果评估 .307· 研究了对于iris、wine和yeast数据集需要多少样本 0.20 能保证p-value不会因样本数目的增加而改变。对于每 个数据集用不同数目样本计算p-vaue,结果如图5。 0.15 0.06 0.10 0.04 0.05 4000-0企0丑0-0 0.02 2 4 6 46 810 次数 抽样次数(以10为底的指数) (a)Iris (b)Wine 0.20 ×10 0.15 美a10 0.05 810 次数 0 00-0-0000 0 2 4 6 (b)Wine 抽样次数(以10为底的指数) ×10 2 (c)Yeast 图5p-value与抽样次数的关系 Fig.5 The relationship between p-value and the num- ber of samples 实验最多抽取1000000个样本。对于这3个 G 数据集,当抽样数目达10000时p-value就基本稳 定了。这一结果证实该方法具有很强的可行性。 4.3与相关算法对比 、2 44 68 0 4.3.1ECP与最大熵模型比较 次数 本文重复了最大熵模型的评估方法,这3个数 (c)Yeast 据集算出的p-value都为l/W。这是因为样本太少, 图4p-value稳定性 算法把原始聚类结果也当做一个样本。前文分析了 Fig.4 The stability of p-value 这种做法的不合理性。利用ECP就可以避免这样 0.15 的情况。除此之外,本文也尝试将最大熵方法的抽 样评估值拟合出正态分布。实验结果如表4。从实 0.10 验结果可以看出,对于wine数据集,最大熵方法算 出的p-value为0.O0l,拟合正态后的p-value为 0.3700352。这两者差距比较大,这说明将最大嫡 0.05 方法拟合成正态分布是不合适的。这一实验说明利 用ECP评估聚类结果更为可靠。 4.3.2ECP与SigClust对比 2 4 6 抽样次数(以10为底的指数) SigClust算法是主要针对k为2聚类结果的评 估。本文从每个数据集中选出了两类用k-means进 (a)Iris 行聚类(比如iris数据集中选出了Setosa、Versicolour研究了对于 iris、wine 和 yeast 数据集需要多少样本 能保证 p ⁃value 不会因样本数目的增加而改变。 对于每 个数据集用不同数目样本计算 p ⁃value,结果如图5。 (a)Iris (b) Wine (c) Yeast 图 4 p⁃value 稳定性 Fig.4 The stability of p⁃value (a)Iris (b) Wine (c) Yeast 图 5 p⁃value 与抽样次数的关系 Fig.5 The relationship between p⁃value and the num⁃ ber of samples 实验最多抽取1 000 000个样本。 对于这 3 个 数据集,当抽样数目达 10 000 时 p ⁃value 就基本稳 定了。 这一结果证实该方法具有很强的可行性。 4.3 与相关算法对比 4.3.1 ECP 与最大熵模型比较 本文重复了最大熵模型的评估方法,这 3 个数 据集算出的 p ⁃value 都为 1 / N。 这是因为样本太少, 算法把原始聚类结果也当做一个样本。 前文分析了 这种做法的不合理性。 利用 ECP 就可以避免这样 的情况。 除此之外,本文也尝试将最大熵方法的抽 样评估值拟合出正态分布。 实验结果如表 4。 从实 验结果可以看出,对于 wine 数据集,最大熵方法算 出的 p⁃value 为 0. 001, 拟 合 正 态 后 的 p⁃value 为 0.370 035 2。 这两者差距比较大,这说明将最大熵 方法拟合成正态分布是不合适的。 这一实验说明利 用 ECP 评估聚类结果更为可靠。 4.3.2 ECP 与 SigClust 对比 SigClust 算法是主要针对 k 为 2 聚类结果的评 估。 本文从每个数据集中选出了两类用 k⁃means 进 行聚类(比如 iris 数据集中选出了 Setosa、Versicolour 第 3 期 谷飞洋,等:基于置换检验的聚类结果评估 ·307·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有