正在加载图片...
·902· 智能系统学报 第14卷 表2UCI数据集上的CE比较 Table 2 Comparison of CE on the UCI datasets % 数据集 KASP SC STSC AFS Nystrom LSC-R LSC-K 本文算法 Heart 19.47 19.63 21.14 29.62 21.64 17.18 16.25 15.27 Hepatitis 37.48 29.72 38.77 44.18 36.74 31.36 29.43 27.14 Sonar 40.25 42.38 42.85 37.24 40.57 39.26 38.27 35.61 Wobc 3.31 3.45 3.37 2.78 3.24 3.12 2.84 2.72 Wdbc 8.58 9.54 7.27 18.13 8.32 6.85 6.53 6.03 Iris 9.57 10.05 7.31 9.66 9.34 8.78 8.62 7.42 Wine 3.62 3.46 2.82 3.47 3.74 3.36 3.15 2.89 Protein 56.53 53.74 56.28 64.65 56.35 54.37 53.58 51.12 Libras 57.56 55.46 53.48 62.76 58.82 56.27 55.63 52.31 LetterRec 45.42 47.83 46.56 48.35 45.27 43.85 43.26 41.37 Covertype 53.81 54.76 54.36 52.25 53.68 52.85 52.24 51.15 在归一化互信息NM⑩中测量的聚类性能如 性更加复杂。所以在Covertype数据集下所有算 表3所示。所提出的算法的聚类结果NMI与其 法的NMI都普遍较低,但是所提算法获得了比其 他方法的NMI相比都得到了改善,尤其在 他算法更好的聚类效果。 Heart和Protein数据集上,所提算法相对于 从实验结果可以看出,STSC不是很稳定,它 KASP、SC、STSC、AFS和Nystrom对比算法而言 在Hepatitis和Sonar数据集上的NMI情况都非常 NM均提高了5%以上。只是在Wine数据集上, 差,由于在STSC和本文算法中都考虑到了数据 所提算法的NM为87.86%,与其他算法相当,但 之间的相互关系,利用到了数据邻居的近邻作 在整个对比表格中为最好的聚类性能。由于所 用,所以可以从中得出结论,与考虑到数据样本 选Covertype数据集是一个从地图变量预测森林 关系之间的传统距离度量作为相似性度量相比, 覆盖类型的数据集,它们都主要是在荒野地区发 采用具有数据样本模糊关系的模糊隶属度作为距 现的,所以覆盖类型在实际地理上是非常接近 离度量,在相似性度量上更具有鲁棒性。总体而 的,相对于其他数据集而言,这个数据集数据特 言,所提算法相较于对比算法都具有明显的改善。 表3UCI数据集上的NMⅡ比较 Table 3 Comparison of NMI on the UCI datasets % 数据集 KASP SC STSC AFS Nystrom LSC-R LSC-K 本文算法 Heart 32.61 28.51 25.83 17.62 30.37 35.45 37.11 38.18 Hepatitis 14.84 14.55 4.84 3.23 14.68 15.16 15.33 15.86 Sonar 14.53 7.56 1.67 17.22 12.15 16.48 17.23 19.09 Wobc 78.57 77.12 80.04 73.86 78.34 80.49 81.13 81.76 Wdbc 65.69 63.33 61.45 60.31 64.57 67.14 67.62 68.97 Iris 79.73 77.85 79.21 78.57 78.67 80.24 80.75 81.46 Wine 87.59 87.32 86.93 85.56 87.46 87.61 87.69 87.86 Protein 56.17 54.42 46.25 35.63 56.83 59.43 60.85 62.18 Libras 65.48 63.72 64.91 38.14 64.63 66.37 66.88 68.07 LetterRec 40.16 35.19 37.67 34.53 39.12 37.34 39.63 41.27 Covertype 7.44 6.87 7.19 6.54 7.42 8.31 9.02 9.83 3.3USPS数据集实验结果与分析 局通过扫描信封中的手写数字获得的数字数据。 选择两个典型谱聚类算法SC和STSC与所 原始扫描的数字是二进制的,大小和方向不同。 提方法在广泛使用的USPS数据库中的手写数字 本文使用的图像经过了大小归一化,得到了 数据集进行对比实验。该数据集包含美国邮政总 1616张256维的灰度图像。它包含7291个训练表 2 UCI 数据集上的 CE 比较 Table 2 Comparison of CE on the UCI datasets % 数据集 KASP SC STSC AFS Nystrom LSC-R LSC-K 本文算法 Heart 19.47 19.63 21.14 29.62 21.64 17.18 16.25 15.27 Hepatitis 37.48 29.72 38.77 44.18 36.74 31.36 29.43 27.14 Sonar 40.25 42.38 42.85 37.24 40.57 39.26 38.27 35.61 Wobc 3.31 3.45 3.37 2.78 3.24 3.12 2.84 2.72 Wdbc 8.58 9.54 7.27 18.13 8.32 6.85 6.53 6.03 Iris 9.57 10.05 7.31 9.66 9.34 8.78 8.62 7.42 Wine 3.62 3.46 2.82 3.47 3.74 3.36 3.15 2.89 Protein 56.53 53.74 56.28 64.65 56.35 54.37 53.58 51.12 Libras 57.56 55.46 53.48 62.76 58.82 56.27 55.63 52.31 LetterRec 45.42 47.83 46.56 48.35 45.27 43.85 43.26 41.37 Covertype 53.81 54.76 54.36 52.25 53.68 52.85 52.24 51.15 在归一化互信息 (NMI) 中测量的聚类性能如 表 3 所示。所提出的算法的聚类结果 NMI 与其 他方法 的 N M I 相比都得到了改善,尤其 在 Heart 和 Protei n 数据集上,所提算法相对 于 KASP、SC、STSC、AFS 和 Nystrom 对比算法而言 NMI 均提高了 5% 以上。只是在 Wine 数据集上, 所提算法的 NMI 为 87.86%,与其他算法相当,但 在整个对比表格中为最好的聚类性能。由于所 选 Covertype 数据集是一个从地图变量预测森林 覆盖类型的数据集,它们都主要是在荒野地区发 现的,所以覆盖类型在实际地理上是非常接近 的,相对于其他数据集而言,这个数据集数据特 性更加复杂。所以在 Covertype 数据集下所有算 法的 NMI 都普遍较低,但是所提算法获得了比其 他算法更好的聚类效果。 从实验结果可以看出,STSC 不是很稳定,它 在 Hepatitis 和 Sonar 数据集上的 NMI 情况都非常 差,由于在 STSC 和本文算法中都考虑到了数据 之间的相互关系,利用到了数据邻居的近邻作 用,所以可以从中得出结论,与考虑到数据样本 关系之间的传统距离度量作为相似性度量相比, 采用具有数据样本模糊关系的模糊隶属度作为距 离度量,在相似性度量上更具有鲁棒性。总体而 言,所提算法相较于对比算法都具有明显的改善。 表 3 UCI 数据集上的 NMI 比较 Table 3 Comparison of NMI on the UCI datasets % 数据集 KASP SC STSC AFS Nystrom LSC-R LSC-K 本文算法 Heart 32.61 28.51 25.83 17.62 30.37 35.45 37.11 38.18 Hepatitis 14.84 14.55 4.84 3.23 14.68 15.16 15.33 15.86 Sonar 14.53 7.56 1.67 17.22 12.15 16.48 17.23 19.09 Wobc 78.57 77.12 80.04 73.86 78.34 80.49 81.13 81.76 Wdbc 65.69 63.33 61.45 60.31 64.57 67.14 67.62 68.97 Iris 79.73 77.85 79.21 78.57 78.67 80.24 80.75 81.46 Wine 87.59 87.32 86.93 85.56 87.46 87.61 87.69 87.86 Protein 56.17 54.42 46.25 35.63 56.83 59.43 60.85 62.18 Libras 65.48 63.72 64.91 38.14 64.63 66.37 66.88 68.07 LetterRec 40.16 35.19 37.67 34.53 39.12 37.34 39.63 41.27 Covertype 7.44 6.87 7.19 6.54 7.42 8.31 9.02 9.83 3.3 USPS 数据集实验结果与分析 选择两个典型谱聚类算法 SC 和 STSC 与所 提方法在广泛使用的 USPS 数据库中的手写数字 数据集进行对比实验。该数据集包含美国邮政总 局通过扫描信封中的手写数字获得的数字数据。 原始扫描的数字是二进制的,大小和方向不同。 本文使用的图像经过了大小归一化,得到了 1 616 张 256 维的灰度图像。它包含 7 291 个训练 ·902· 智 能 系 统 学 报 第 14 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有