数的选取影响很大。总体来说，在不同地标点的个数选取下，本文算法展现出优于

正在加载图片...

·694· 智能系统学报第15卷数的选取影响很大。总体来说，在不同地标点的 0.90 o-LSC-K 个数选取下，本文算法展现出优于其他算法的聚 0.85 ★SCAL- 一本文算法类性能。 0.80 ★ 表4不同距离度量方案的算法性能对比 0.75 Table 4 Performance comparision of algorithms with dif- ferent distance measurement schemes 0.65 数据集算法 SCE SCK 本文算法 0.60 0 200 400 600 8001000 ACC 0.8733 0.8624 0.9012 地标点的个数 MNIST NMI 0.8489 0.8545 0.8821 (a)MNIST数据集 ACC 0.8391 0.8214 0.8903 0.90 -o-LSC-K COIL100 0.85 ★SCAL-K NMI 0.8547 0.8427 0.8702 一本文算法 90.80 ACC 0.5975 0.5899 0.6129 CIFAR10 0.75 NMI 0.1124 0.1324 0.1521 0.65 0.95 -o-LSC-K 0.60 0.90 200 400600 800 1000 ★SCAL-K 一本文算法地标点的个数 0.85 (b)COL100数据集 0.80 0.16 0.75 o-LSC-K 0.14 ★SCAL-K 0.70 厨0.12 一本文算法 0.65 0.60 0 200 400600 8001000 0.08 地标点的个数 0e (a)MNIST数据集 0.04 ★★ 0.9r -o-LSC-K ★SCAL-K 0.02 0 200 400 600 8001000 0.8 一本文算法地标点的个数 (C)CIFARI0数据集 0.7 图2不同数据集上3种算法的NMⅡ比较 0.6 Fig.2 Comparison of the NMIs of three algorithms on dif- 0.5 ferent dataset 0.4 0 200 4006008001000 4结束语地标点的个数 (b)COL100数据集随着数据规模的增大，结构信息的复杂度提 0.65 高，在聚类过程中往往会耗费大量时间，存在相 -o-LSC-K ◆SA✉K 0.60 似度矩阵存储开销大及矩阵分解复杂度高的问本文算法题，且聚类精度也会受到影响。为此，本文提出 0.55 一种结合度量融合和地标表示的自编码谱聚类算法，通过引入节点相对质量概念作为地标点选择 0.45 的依据，以地标点与其他样本点之间相似度构造图相似度矩阵，以降低存储开销。同时，融合欧 0.40 0 200 400 600 800 1000 氏距离与Kendall Tau距离作为相似度度量方式，地标点的个数 (c)CIFAR10数据集充分挖掘数据底层结构信息，且以栈式自编码器代替拉普拉斯矩阵分解步骤，通过联合学习框架图1不同数据集上3种算法的ACC比较 Fig.1 Comparison of the ACCs of three algorithms on dif. 进一步提高聚类精度。实验表明在几种大规模数 ferent datasets 据集上本文算法具有较好的聚类性能，但由于本数的选取影响很大。总体来说，在不同地标点的个数选取下，本文算法展现出优于其他算法的聚类性能。表 4 不同距离度量方案的算法性能对比 Table 4 Performance comparision of algorithms with different distance measurement schemes 数据集算法 SCE SCK 本文算法 MNIST ACC 0.873 3 0.862 4 0.901 2 NMI 0.848 9 0.854 5 0.882 1 COIL100 ACC 0.839 1 0.821 4 0.890 3 NMI 0.854 7 0.842 7 0.870 2 CIFAR10 ACC 0.597 5 0.589 9 0.612 9 NMI 0.112 4 0.132 4 0.152 1 0.95 0.90 0.85 0.80 聚类准确率聚类准确率聚类准确率 0.75 0.70 0.65 0.60 0.40 0.45 0.50 0.55 0.60 0.65 0.4 0.5 0.6 0.7 0.8 0.9 0 400 600 200 地标点的个数 800 1 000 0 400 600 200 地标点的个数 800 1 000 0 400 600 200 地标点的个数 800 1 000 LSC-K SCAL-K 本文算法 LSC-K SCAL-K 本文算法 LSC-K SCAL-K 本文算法 (a) MNIST 数据集 (b) COIL100 数据集 (c) CIFAR10 数据集图 1 不同数据集上 3 种算法的 ACC 比较 Fig. 1 Comparison of the ACCs of three algorithms on different datasets 0.90 0.85 0.80 标准化互信息标准化互信息标准化互信息 0.75 0.70 0.65 0.60 0.02 0.04 0.06 0.08 0.10 0.14 0.12 0.16 0.60 0.65 0.70 0.75 0.80 0.85 0.90 0 400 600 200 地标点的个数 800 1 000 0 400 600 200 地标点的个数 800 1 000 0 400 600 200 地标点的个数 800 1 000 LSC-K SCAL-K 本文算法 LSC-K SCAL-K 本文算法 LSC-K SCAL-K 本文算法 (a) MNIST 数据集 (b) COIL100 数据集 (c) CIFAR10 数据集图 2 不同数据集上 3 种算法的 NMI 比较 Fig. 2 Comparison of the NMIs of three algorithms on different dataset 4 结束语随着数据规模的增大，结构信息的复杂度提高，在聚类过程中往往会耗费大量时间，存在相似度矩阵存储开销大及矩阵分解复杂度高的问题，且聚类精度也会受到影响。为此，本文提出一种结合度量融合和地标表示的自编码谱聚类算法，通过引入节点相对质量概念作为地标点选择的依据，以地标点与其他样本点之间相似度构造图相似度矩阵，以降低存储开销。同时，融合欧氏距离与 Kendall Tau 距离作为相似度度量方式，充分挖掘数据底层结构信息，且以栈式自编码器代替拉普拉斯矩阵分解步骤，通过联合学习框架进一步提高聚类精度。实验表明在几种大规模数据集上本文算法具有较好的聚类性能，但由于本 ·694· 智能系统学报第 15 卷

<<向上翻页向下翻页>>

点击下载：【机器学习】结合度量融合和地标表示的自编码谱聚类算法