表 2 UCI 数据集上的 CE 比较 Table 2 Compariso

正在加载图片...

·902· 智能系统学报第14卷表2UCI数据集上的CE比较 Table 2 Comparison of CE on the UCI datasets % 数据集 KASP SC STSC AFS Nystrom LSC-R LSC-K 本文算法 Heart 19.47 19.63 21.14 29.62 21.64 17.18 16.25 15.27 Hepatitis 37.48 29.72 38.77 44.18 36.74 31.36 29.43 27.14 Sonar 40.25 42.38 42.85 37.24 40.57 39.26 38.27 35.61 Wobc 3.31 3.45 3.37 2.78 3.24 3.12 2.84 2.72 Wdbc 8.58 9.54 7.27 18.13 8.32 6.85 6.53 6.03 Iris 9.57 10.05 7.31 9.66 9.34 8.78 8.62 7.42 Wine 3.62 3.46 2.82 3.47 3.74 3.36 3.15 2.89 Protein 56.53 53.74 56.28 64.65 56.35 54.37 53.58 51.12 Libras 57.56 55.46 53.48 62.76 58.82 56.27 55.63 52.31 LetterRec 45.42 47.83 46.56 48.35 45.27 43.85 43.26 41.37 Covertype 53.81 54.76 54.36 52.25 53.68 52.85 52.24 51.15 在归一化互信息NM⑩中测量的聚类性能如性更加复杂。所以在Covertype数据集下所有算表3所示。所提出的算法的聚类结果NMI与其法的NMI都普遍较低，但是所提算法获得了比其他方法的NMI相比都得到了改善，尤其在他算法更好的聚类效果。 Heart和Protein数据集上，所提算法相对于从实验结果可以看出，STSC不是很稳定，它 KASP、SC、STSC、AFS和Nystrom对比算法而言在Hepatitis和Sonar数据集上的NMI情况都非常 NM均提高了5%以上。只是在Wine数据集上，差，由于在STSC和本文算法中都考虑到了数据所提算法的NM为87.86%，与其他算法相当，但之间的相互关系，利用到了数据邻居的近邻作在整个对比表格中为最好的聚类性能。由于所用，所以可以从中得出结论，与考虑到数据样本选Covertype数据集是一个从地图变量预测森林关系之间的传统距离度量作为相似性度量相比，覆盖类型的数据集，它们都主要是在荒野地区发采用具有数据样本模糊关系的模糊隶属度作为距现的，所以覆盖类型在实际地理上是非常接近离度量，在相似性度量上更具有鲁棒性。总体而的，相对于其他数据集而言，这个数据集数据特言，所提算法相较于对比算法都具有明显的改善。表3UCI数据集上的NMⅡ比较 Table 3 Comparison of NMI on the UCI datasets % 数据集 KASP SC STSC AFS Nystrom LSC-R LSC-K 本文算法 Heart 32.61 28.51 25.83 17.62 30.37 35.45 37.11 38.18 Hepatitis 14.84 14.55 4.84 3.23 14.68 15.16 15.33 15.86 Sonar 14.53 7.56 1.67 17.22 12.15 16.48 17.23 19.09 Wobc 78.57 77.12 80.04 73.86 78.34 80.49 81.13 81.76 Wdbc 65.69 63.33 61.45 60.31 64.57 67.14 67.62 68.97 Iris 79.73 77.85 79.21 78.57 78.67 80.24 80.75 81.46 Wine 87.59 87.32 86.93 85.56 87.46 87.61 87.69 87.86 Protein 56.17 54.42 46.25 35.63 56.83 59.43 60.85 62.18 Libras 65.48 63.72 64.91 38.14 64.63 66.37 66.88 68.07 LetterRec 40.16 35.19 37.67 34.53 39.12 37.34 39.63 41.27 Covertype 7.44 6.87 7.19 6.54 7.42 8.31 9.02 9.83 3.3USPS数据集实验结果与分析局通过扫描信封中的手写数字获得的数字数据。选择两个典型谱聚类算法SC和STSC与所原始扫描的数字是二进制的，大小和方向不同。提方法在广泛使用的USPS数据库中的手写数字本文使用的图像经过了大小归一化，得到了数据集进行对比实验。该数据集包含美国邮政总 1616张256维的灰度图像。它包含7291个训练表 2 UCI 数据集上的 CE 比较 Table 2 Comparison of CE on the UCI datasets % 数据集 KASP SC STSC AFS Nystrom LSC-R LSC-K 本文算法 Heart 19.47 19.63 21.14 29.62 21.64 17.18 16.25 15.27 Hepatitis 37.48 29.72 38.77 44.18 36.74 31.36 29.43 27.14 Sonar 40.25 42.38 42.85 37.24 40.57 39.26 38.27 35.61 Wobc 3.31 3.45 3.37 2.78 3.24 3.12 2.84 2.72 Wdbc 8.58 9.54 7.27 18.13 8.32 6.85 6.53 6.03 Iris 9.57 10.05 7.31 9.66 9.34 8.78 8.62 7.42 Wine 3.62 3.46 2.82 3.47 3.74 3.36 3.15 2.89 Protein 56.53 53.74 56.28 64.65 56.35 54.37 53.58 51.12 Libras 57.56 55.46 53.48 62.76 58.82 56.27 55.63 52.31 LetterRec 45.42 47.83 46.56 48.35 45.27 43.85 43.26 41.37 Covertype 53.81 54.76 54.36 52.25 53.68 52.85 52.24 51.15 在归一化互信息 (NMI) 中测量的聚类性能如表 3 所示。所提出的算法的聚类结果 NMI 与其他方法的 N M I 相比都得到了改善，尤其在 Heart 和 Protei n 数据集上，所提算法相对于 KASP、SC、STSC、AFS 和 Nystrom 对比算法而言 NMI 均提高了 5% 以上。只是在 Wine 数据集上，所提算法的 NMI 为 87.86%，与其他算法相当，但在整个对比表格中为最好的聚类性能。由于所选 Covertype 数据集是一个从地图变量预测森林覆盖类型的数据集，它们都主要是在荒野地区发现的，所以覆盖类型在实际地理上是非常接近的，相对于其他数据集而言，这个数据集数据特性更加复杂。所以在 Covertype 数据集下所有算法的 NMI 都普遍较低，但是所提算法获得了比其他算法更好的聚类效果。从实验结果可以看出，STSC 不是很稳定，它在 Hepatitis 和 Sonar 数据集上的 NMI 情况都非常差，由于在 STSC 和本文算法中都考虑到了数据之间的相互关系，利用到了数据邻居的近邻作用，所以可以从中得出结论，与考虑到数据样本关系之间的传统距离度量作为相似性度量相比，采用具有数据样本模糊关系的模糊隶属度作为距离度量，在相似性度量上更具有鲁棒性。总体而言，所提算法相较于对比算法都具有明显的改善。表 3 UCI 数据集上的 NMI 比较 Table 3 Comparison of NMI on the UCI datasets % 数据集 KASP SC STSC AFS Nystrom LSC-R LSC-K 本文算法 Heart 32.61 28.51 25.83 17.62 30.37 35.45 37.11 38.18 Hepatitis 14.84 14.55 4.84 3.23 14.68 15.16 15.33 15.86 Sonar 14.53 7.56 1.67 17.22 12.15 16.48 17.23 19.09 Wobc 78.57 77.12 80.04 73.86 78.34 80.49 81.13 81.76 Wdbc 65.69 63.33 61.45 60.31 64.57 67.14 67.62 68.97 Iris 79.73 77.85 79.21 78.57 78.67 80.24 80.75 81.46 Wine 87.59 87.32 86.93 85.56 87.46 87.61 87.69 87.86 Protein 56.17 54.42 46.25 35.63 56.83 59.43 60.85 62.18 Libras 65.48 63.72 64.91 38.14 64.63 66.37 66.88 68.07 LetterRec 40.16 35.19 37.67 34.53 39.12 37.34 39.63 41.27 Covertype 7.44 6.87 7.19 6.54 7.42 8.31 9.02 9.83 3.3 USPS 数据集实验结果与分析选择两个典型谱聚类算法 SC 和 STSC 与所提方法在广泛使用的 USPS 数据库中的手写数字数据集进行对比实验。该数据集包含美国邮政总局通过扫描信封中的手写数字获得的数字数据。原始扫描的数字是二进制的，大小和方向不同。本文使用的图像经过了大小归一化，得到了 1 616 张 256 维的灰度图像。它包含 7 291 个训练 ·902· 智能系统学报第 14 卷

<<向上翻页向下翻页>>

点击下载：【机器学习】公理化模糊共享近邻自适应谱聚类算法