正在加载图片...
第6期 谢娟英,等:聚类有效性评价新指标 ·877· 30 30 20 20 10 20 -20 -30 -30 20 -10 0 1020 30 30 -20-100102030 (g)5类平衡数据集Ec5 (h)5类不平衡数据集UEc5 30 25 20 20 15 10 -10 20 -15 -3 -2 -40-30-20-10010203040 -30 -20-100102030 (①6类平衡数据集Ec6 G)6类不平衡数据集UEc6 图2测试外部指标S2和PS2的人工数据集原始分布 Fig.2 The synthetic data sets to test the new external criteria S2 and PS2 表4测试新外部指标S2和PS2的人工模拟数据集信息 表5测试新外部指标S2和PS2的UCI数据集 Table 4 The detail information of synthetic data sets to Table 5 The data sets from UCI machine learning reposit- test the proposed external criteria S2 and PS2 ory to test the proposed external criteria S2 and PS2 数据集样本数类簇数 各类簇样本数 数据集 样本数类簇数 各类簇样本数 Ec2 2000 10001000 Iris 150 3505050 Ec3 1200 3 400 400400 Seeds 210 3707070 Ec4 800 4 200 200200200 Segmentation 210 730303030303030 Ec5 3000 5 600600600600600 Soybean 47 410101017 Ec6 2400 6 400400400400400400 wine 178 3 597148 UEc2 2000 5001500 wdbc 569 2357212 UEc3 1200 3 200 400600 Bupa 345 2145200 UEc4 800 50 150200400 pima-indians-diabetes 768 2500268 UEc5 3000 5 10008006001400200 Balance scale 625 349288288 UEc62400 6100200300400600800 New_thyroid 215 31503530 3.1内部指标有效性测试实验 Ionosphere 351 238313 内部指标不需要任何先验知识,通过评价聚类 Haberman 306 222581 结果,发现数据集样本的潜在分布与内在结构,常 用于发现数据集的类簇数。因此,我们以能否准确 从图3各指标的实验结果可以看出,只有图 发现数据集的真实类簇数来测试提出的内部指标 3(a)展示的STDI指标的实验结果可以发现图1 STDI指标的有效性,并与现有内部指标DB、XB、 所示人工数据集的真实类簇数9,其余5个指标均 IGP、Sil和BWP的性能进行比较。图3给出了各 在类簇数为3时最佳,即其余指标发现的该数据集 内部指标对图1所示人工模拟数据集的实验结果。 类簇数是3。因此,只有用本文提出内部聚类指标 这里的聚类算法使用的是SD算法B。 STDI可以得到该人工模拟数据集的正确类簇数。3.1 内部指标有效性测试实验 内部指标不需要任何先验知识,通过评价聚类 结果,发现数据集样本的潜在分布与内在结构,常 用于发现数据集的类簇数。因此,我们以能否准确 发现数据集的真实类簇数来测试提出的内部指标 STDI 指标的有效性,并与现有内部指标 DB、XB、 IGP、Sil 和 BWP 的性能进行比较。图 3 给出了各 内部指标对图 1 所示人工模拟数据集的实验结果。 这里的聚类算法使用的是 SD 算法[35]。 从图 3 各指标的实验结果可以看出,只有图 3(a) 展示的 STDI 指标的实验结果可以发现图 1 所示人工数据集的真实类簇数 9,其余 5 个指标均 在类簇数为 3 时最佳,即其余指标发现的该数据集 类簇数是 3。因此,只有用本文提出内部聚类指标 STDI 可以得到该人工模拟数据集的正确类簇数。 表 4 测试新外部指标 S2 和 PS2 的人工模拟数据集信息 Table 4 The detail information of synthetic data sets to test the proposed external criteria S2 and PS2 数据集 样本数 类簇数 各类簇样本数 Ec2 2 000 2 1 000 1 000 Ec3 1 200 3 400 400 400 Ec4 800 4 200 200 200 200 Ec5 3 000 5 600 600 600 600 600 Ec6 2 400 6 400 400 400 400 400 400 UEc2 2 000 2 500 1 500 UEc3 1 200 3 200 400 600 UEc4 800 4 50 150 200 400 UEc5 3 000 5 1 000 800 600 1 400 200 UEc6 2 400 6 100 200 300 400 600 800 表 5 测试新外部指标 S2 和 PS2 的 UCI 数据集 Table 5 The data sets from UCI machine learning reposit￾ory to test the proposed external criteria S2 and PS2 数据集 样本数类簇数 各类簇样本数 Iris 150 3 50 50 50 Seeds 210 3 70 70 70 Segmentation 210 7 30 30 30 30 30 30 30 Soybean 47 4 10 10 10 17 wine 178 3 59 71 48 wdbc 569 2 357 212 Bupa 345 2 145 200 pima-indians-diabetes 768 2 500 268 Balance_scale 625 3 49 288 288 New_thyroid 215 3 150 35 30 Ionosphere 351 2 38 313 Haberman 306 2 225 81 −30 −10 0 10 20 30 −20 −20 −30 −10 0 10 20 30 X X Y −30 −10 0 10 20 30 −20 −15 −20 −10 −5 0 10 5 20 15 25 X X Y −30 −10 0 10 20 30 −20 −20 −30 −10 0 10 20 30 Y −40 −10 0 10 20 40 −30 −20 30 −20 −30 −10 0 10 20 30 Y (g) 5 ㊫ᒣ㺑ᮠᦞ䳶 Ec5 (h) 5 ㊫нᒣ㺑ᮠᦞ䳶 UEc5 (i) 6 ㊫ᒣ㺑ᮠᦞ䳶 Ec6 (j) 6 ㊫нᒣ㺑ᮠᦞ䳶 UEc6 图 2 测试外部指标 S2 和 PS2 的人工数据集原始分布 Fig. 2 The synthetic data sets to test the new external criteria S2 and PS2 第 6 期 谢娟英,等:聚类有效性评价新指标 ·877·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有