·694· 智能系统学报 第15卷 数的选取影响很大。总体来说,在不同地标点的 0.90 o-LSC-K 个数选取下,本文算法展现出优于其他算法的聚 0.85 ★SCAL- 一本文算法 类性能。 0.80 ★ 表4不同距离度量方案的算法性能对比 0.75 Table 4 Performance comparision of algorithms with dif- ferent distance measurement schemes 0.65 数据集 算法 SCE SCK 本文算法 0.60 0 200 400 600 8001000 ACC 0.8733 0.8624 0.9012 地标点的个数 MNIST NMI 0.8489 0.8545 0.8821 (a)MNIST数据集 ACC 0.8391 0.8214 0.8903 0.90 -o-LSC-K COIL100 0.85 ★SCAL-K NMI 0.8547 0.8427 0.8702 一本文算法 90.80 ACC 0.5975 0.5899 0.6129 CIFAR10 0.75 NMI 0.1124 0.1324 0.1521 0.65 0.95 -o-LSC-K 0.60 0.90 200 400600 800 1000 ★SCAL-K 一 本文算法 地标点的个数 0.85 (b)COL100数据集 0.80 0.16 0.75 o-LSC-K 0.14 ★SCAL-K 0.70 厨0.12 一本文算法 0.65 0.60 0 200 400600 8001000 0.08 地标点的个数 0e (a)MNIST数据集 0.04 ★★ 0.9r -o-LSC-K ★SCAL-K 0.02 0 200 400 600 8001000 0.8 一本文算法 地标点的个数 (C)CIFARI0数据集 0.7 图2不同数据集上3种算法的NMⅡ比较 0.6 Fig.2 Comparison of the NMIs of three algorithms on dif- 0.5 ferent dataset 0.4 0 200 4006008001000 4结束语 地标点的个数 (b)COL100数据集 随着数据规模的增大,结构信息的复杂度提 0.65 高,在聚类过程中往往会耗费大量时间,存在相 -o-LSC-K ◆SA✉K 0.60 似度矩阵存储开销大及矩阵分解复杂度高的问 本文算法 题,且聚类精度也会受到影响。为此,本文提出 0.55 一种结合度量融合和地标表示的自编码谱聚类算 法,通过引入节点相对质量概念作为地标点选择 0.45 的依据,以地标点与其他样本点之间相似度构造 图相似度矩阵,以降低存储开销。同时,融合欧 0.40 0 200 400 600 800 1000 氏距离与Kendall Tau距离作为相似度度量方式, 地标点的个数 (c)CIFAR10数据集 充分挖掘数据底层结构信息,且以栈式自编码器 代替拉普拉斯矩阵分解步骤,通过联合学习框架 图1不同数据集上3种算法的ACC比较 Fig.1 Comparison of the ACCs of three algorithms on dif. 进一步提高聚类精度。实验表明在几种大规模数 ferent datasets 据集上本文算法具有较好的聚类性能,但由于本数的选取影响很大。总体来说,在不同地标点的 个数选取下,本文算法展现出优于其他算法的聚 类性能。 表 4 不同距离度量方案的算法性能对比 Table 4 Performance comparision of algorithms with different distance measurement schemes 数据集 算法 SCE SCK 本文算法 MNIST ACC 0.873 3 0.862 4 0.901 2 NMI 0.848 9 0.854 5 0.882 1 COIL100 ACC 0.839 1 0.821 4 0.890 3 NMI 0.854 7 0.842 7 0.870 2 CIFAR10 ACC 0.597 5 0.589 9 0.612 9 NMI 0.112 4 0.132 4 0.152 1 0.95 0.90 0.85 0.80 聚类准确率 聚类准确率 聚类准确率 0.75 0.70 0.65 0.60 0.40 0.45 0.50 0.55 0.60 0.65 0.4 0.5 0.6 0.7 0.8 0.9 0 400 600 200 地标点的个数 800 1 000 0 400 600 200 地标点的个数 800 1 000 0 400 600 200 地标点的个数 800 1 000 LSC-K SCAL-K 本文算法 LSC-K SCAL-K 本文算法 LSC-K SCAL-K 本文算法 (a) MNIST 数据集 (b) COIL100 数据集 (c) CIFAR10 数据集 图 1 不同数据集上 3 种算法的 ACC 比较 Fig. 1 Comparison of the ACCs of three algorithms on different datasets 0.90 0.85 0.80 标准化互信息 标准化互信息 标准化互信息 0.75 0.70 0.65 0.60 0.02 0.04 0.06 0.08 0.10 0.14 0.12 0.16 0.60 0.65 0.70 0.75 0.80 0.85 0.90 0 400 600 200 地标点的个数 800 1 000 0 400 600 200 地标点的个数 800 1 000 0 400 600 200 地标点的个数 800 1 000 LSC-K SCAL-K 本文算法 LSC-K SCAL-K 本文算法 LSC-K SCAL-K 本文算法 (a) MNIST 数据集 (b) COIL100 数据集 (c) CIFAR10 数据集 图 2 不同数据集上 3 种算法的 NMI 比较 Fig. 2 Comparison of the NMIs of three algorithms on different dataset 4 结束语 随着数据规模的增大,结构信息的复杂度提 高,在聚类过程中往往会耗费大量时间,存在相 似度矩阵存储开销大及矩阵分解复杂度高的问 题,且聚类精度也会受到影响。为此,本文提出 一种结合度量融合和地标表示的自编码谱聚类算 法,通过引入节点相对质量概念作为地标点选择 的依据,以地标点与其他样本点之间相似度构造 图相似度矩阵,以降低存储开销。同时,融合欧 氏距离与 Kendall Tau 距离作为相似度度量方式, 充分挖掘数据底层结构信息,且以栈式自编码器 代替拉普拉斯矩阵分解步骤,通过联合学习框架 进一步提高聚类精度。实验表明在几种大规模数 据集上本文算法具有较好的聚类性能,但由于本 ·694· 智 能 系 统 学 报 第 15 卷