正在加载图片...
·694· 智能系统学报 第15卷 数的选取影响很大。总体来说,在不同地标点的 0.90 o-LSC-K 个数选取下,本文算法展现出优于其他算法的聚 0.85 ★SCAL- 一本文算法 类性能。 0.80 ★ 表4不同距离度量方案的算法性能对比 0.75 Table 4 Performance comparision of algorithms with dif- ferent distance measurement schemes 0.65 数据集 算法 SCE SCK 本文算法 0.60 0 200 400 600 8001000 ACC 0.8733 0.8624 0.9012 地标点的个数 MNIST NMI 0.8489 0.8545 0.8821 (a)MNIST数据集 ACC 0.8391 0.8214 0.8903 0.90 -o-LSC-K COIL100 0.85 ★SCAL-K NMI 0.8547 0.8427 0.8702 一本文算法 90.80 ACC 0.5975 0.5899 0.6129 CIFAR10 0.75 NMI 0.1124 0.1324 0.1521 0.65 0.95 -o-LSC-K 0.60 0.90 200 400600 800 1000 ★SCAL-K 一 本文算法 地标点的个数 0.85 (b)COL100数据集 0.80 0.16 0.75 o-LSC-K 0.14 ★SCAL-K 0.70 厨0.12 一本文算法 0.65 0.60 0 200 400600 8001000 0.08 地标点的个数 0e (a)MNIST数据集 0.04 ★★ 0.9r -o-LSC-K ★SCAL-K 0.02 0 200 400 600 8001000 0.8 一本文算法 地标点的个数 (C)CIFARI0数据集 0.7 图2不同数据集上3种算法的NMⅡ比较 0.6 Fig.2 Comparison of the NMIs of three algorithms on dif- 0.5 ferent dataset 0.4 0 200 4006008001000 4结束语 地标点的个数 (b)COL100数据集 随着数据规模的增大,结构信息的复杂度提 0.65 高,在聚类过程中往往会耗费大量时间,存在相 -o-LSC-K ◆SA✉K 0.60 似度矩阵存储开销大及矩阵分解复杂度高的问 本文算法 题,且聚类精度也会受到影响。为此,本文提出 0.55 一种结合度量融合和地标表示的自编码谱聚类算 法,通过引入节点相对质量概念作为地标点选择 0.45 的依据,以地标点与其他样本点之间相似度构造 图相似度矩阵,以降低存储开销。同时,融合欧 0.40 0 200 400 600 800 1000 氏距离与Kendall Tau距离作为相似度度量方式, 地标点的个数 (c)CIFAR10数据集 充分挖掘数据底层结构信息,且以栈式自编码器 代替拉普拉斯矩阵分解步骤,通过联合学习框架 图1不同数据集上3种算法的ACC比较 Fig.1 Comparison of the ACCs of three algorithms on dif. 进一步提高聚类精度。实验表明在几种大规模数 ferent datasets 据集上本文算法具有较好的聚类性能,但由于本数的选取影响很大。总体来说,在不同地标点的 个数选取下,本文算法展现出优于其他算法的聚 类性能。 表 4 不同距离度量方案的算法性能对比 Table 4 Performance comparision of algorithms with dif￾ferent distance measurement schemes 数据集 算法 SCE SCK 本文算法 MNIST ACC 0.873 3 0.862 4 0.901 2 NMI 0.848 9 0.854 5 0.882 1 COIL100 ACC 0.839 1 0.821 4 0.890 3 NMI 0.854 7 0.842 7 0.870 2 CIFAR10 ACC 0.597 5 0.589 9 0.612 9 NMI 0.112 4 0.132 4 0.152 1 0.95 0.90 0.85 0.80 聚类准确率 聚类准确率 聚类准确率 0.75 0.70 0.65 0.60 0.40 0.45 0.50 0.55 0.60 0.65 0.4 0.5 0.6 0.7 0.8 0.9 0 400 600 200 地标点的个数 800 1 000 0 400 600 200 地标点的个数 800 1 000 0 400 600 200 地标点的个数 800 1 000 LSC-K SCAL-K 本文算法 LSC-K SCAL-K 本文算法 LSC-K SCAL-K 本文算法 (a) MNIST 数据集 (b) COIL100 数据集 (c) CIFAR10 数据集 图 1 不同数据集上 3 种算法的 ACC 比较 Fig. 1 Comparison of the ACCs of three algorithms on dif￾ferent datasets 0.90 0.85 0.80 标准化互信息 标准化互信息 标准化互信息 0.75 0.70 0.65 0.60 0.02 0.04 0.06 0.08 0.10 0.14 0.12 0.16 0.60 0.65 0.70 0.75 0.80 0.85 0.90 0 400 600 200 地标点的个数 800 1 000 0 400 600 200 地标点的个数 800 1 000 0 400 600 200 地标点的个数 800 1 000 LSC-K SCAL-K 本文算法 LSC-K SCAL-K 本文算法 LSC-K SCAL-K 本文算法 (a) MNIST 数据集 (b) COIL100 数据集 (c) CIFAR10 数据集 图 2 不同数据集上 3 种算法的 NMI 比较 Fig. 2 Comparison of the NMIs of three algorithms on dif￾ferent dataset 4 结束语 随着数据规模的增大,结构信息的复杂度提 高,在聚类过程中往往会耗费大量时间,存在相 似度矩阵存储开销大及矩阵分解复杂度高的问 题,且聚类精度也会受到影响。为此,本文提出 一种结合度量融合和地标表示的自编码谱聚类算 法,通过引入节点相对质量概念作为地标点选择 的依据,以地标点与其他样本点之间相似度构造 图相似度矩阵,以降低存储开销。同时,融合欧 氏距离与 Kendall Tau 距离作为相似度度量方式, 充分挖掘数据底层结构信息,且以栈式自编码器 代替拉普拉斯矩阵分解步骤,通过联合学习框架 进一步提高聚类精度。实验表明在几种大规模数 据集上本文算法具有较好的聚类性能,但由于本 ·694· 智 能 系 统 学 报 第 15 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有