正在加载图片...
·103· 邓廷权,等:半监督类保持局部线性嵌人方法 第1期 100 ■5%☐20%☐40% 度考虑标记信息的方法较局部效果要好,充分说 90 明SSCLLE方法基于全局考虑的正确性。除在 第6组数据中SSLLE方法的聚类精度最高外,其 60 它组中都是本文中提出的SSCLLE方法精度最高。 0000 表5C0L20数据集在不同方法下的平均聚类精度 Table 5 Average clustering accuracy of COIL 20 10 dataset under different methods % 0 LLE SSLLE SSLE CCDR SSCLLE SSLLE SSLE CCDR SSCLLE Dataset b)WDBC数据集 Group 62.96 63.57 54.17 54.77 93.52 100 ■5%☐20%☐40% Group2 49.07 51.39 48.19 52.27 80.56 90 70.85 71.99 43.56 51.99 88.89 000 Group3 Group4 49.35 52.18 48.94 51.16 80.09 50 Groups 51.39 51.85 47.22 48.80 74.54 4 Groupe 75.00 78.03 44.21 59.17 77.63 Group 81.53 86.11 46.71 63.29 20 87.50 10 Groups 63.98 63.10 51.02 71.16 81.02 SSLLE SSLE CCDR SSCLLE Groupo 74.93 75.00 55.93 69.54 89.81 (c)Seeds数据集 接下来随机选出一组数据为{7,3,9;,来做在 图2标记样本的比例对聚类精度的影响,作2 不同标签比例下不同方法聚类精度的折线图,参 Fig.2 Influence of proportion of labeled samples on clus- tering accuracy,d-2 数设置为:k=7,d=8,a=1,b=10,r=0.5,u=1,v=0.5。 3.2实物数据集COL20 100 ★一★一★一★一一★ 这里采用哥伦比亚大学(COL-20)数据集中 第2种(背景被丢弃,图像由包含物体的最小正方 90 形组成),数据集共有20种不同的物体,每种有 72张图片。每个图片都是50×50的灰度图像,在 80 实验中将每张图片以行拉成一个2500的向量。 oLLE·SSLLE+SSLE -·CCDR-◆SSCLLE 最后以向量集的形式进行处理与分析。 705 -0--0-0-0--0-0-0-0--0 从数据集中按顺序选取6组数据,每组3类 65 5101520253035404550 不同的物体。分组分别是{1,2,3},{4,5,6}, 标签比例% {7,8,9},10,11,12:,{13,14,15}和{16,17,18},然后再 图3不同标记比例C0L20数据集聚类精度 随机选取3组不同的数据{9,7,10},{7,3,5}, Fig.3 The clustering accuracy of COIL 20 dataset under {4,10,1},每组运行20次计算聚类精度。其中 different labeling ratios Group~Group,分别对应以上9组数据,用不同方 由图3可看出在这组数据中随着标记比例的 法做实验得到聚类精度。参数设置为:k=8,d=8, 增加无监督LLE方法精度保持不变,而SSLLE r=0.5,a=1,b=10,u=1,v=0.5,标记比例为15%, 与SSLE方法的聚类精度随着标记比例的增加只 实验结果如表5所示。 发生了波动,基本没有体现出上升趋势,说明这 由表5实验结果可以看到,在这9组数据中 2种利用类信息只调节近邻关系的方法对一些数据 由于SSLLE和本文方法SSCLLE都是在LLE方 提取到的特征不能很好地提高可分性。而SSCLLE 法上进行的一种改进,所以它们的聚类精度都高 和CCDR方法都是考虑全局的调整,可看到聚类 于LLE。且本方法利用了全局标记信息进行调 精度呈上升趋势,且高于其他方法,除在5%的情 整,聚类精度明显高于SSLLE。SSLE与CCDR 况下略低于CCDR方法外,其余比例下均高于其 都是一种在LE基础上做的改进,分析数据可以 他方法。体现出SSCLLE方法对近邻及全局做调 看出整体上它们略低于LLE的改进。且由于CCDR 整的优势。 也是一种基于全局考虑标记信息的方法,基本上 3.3数据可视化 聚类精度都高于SSLE。由此体现出基于全局角 数据可视化作为一种重要的数据分析方式,3.2 实物数据集 COIL _20 这里采用哥伦比亚大学 (COIL-20) 数据集中 第 2 种 (背景被丢弃,图像由包含物体的最小正方 形组成),数据集共有 20 种不同的物体,每种有 72 张图片。每个图片都是 50×50 的灰度图像,在 实验中将每张图片以行拉成一个 2 500 的向量。 最后以向量集的形式进行处理与分析。 k = 8,d = 8, r = 0.5,a = 1,b = 10,u = 1, v = 0.5 从数据集中按顺序选取 6 组数据,每组 3 类 不同的物体。分组分别是 {1,2,3} , {4,5,6} , {7,8,9},{10,11,12},{13,14,15}和{16,17,18},然后再 随机选 取 3 组不同的数据 {9,7,10}, {7,3,5}, {4,10,1},每组运行 20 次计算聚类精度。其中 Group1~Group9 分别对应以上 9 组数据,用不同方 法做实验得到聚类精度。参数设置为: ,标记比例为 15%, 实验结果如表 5 所示。 由表 5 实验结果可以看到,在这 9 组数据中 由于 SSLLE 和本文方法 SSCLLE 都是在 LLE 方 法上进行的一种改进,所以它们的聚类精度都高 于 LLE。且本方法利用了全局标记信息进行调 整,聚类精度明显高于 SSLLE。SSLE 与 CCDR 都是一种在 LE 基础上做的改进,分析数据可以 看出整体上它们略低于 LLE 的改进。且由于 CCDR 也是一种基于全局考虑标记信息的方法,基本上 聚类精度都高于 SSLE。由此体现出基于全局角 度考虑标记信息的方法较局部效果要好,充分说 明 SSCLLE 方法基于全局考虑的正确性。除在 第 6 组数据中 SSLLE 方法的聚类精度最高外,其 它组中都是本文中提出的 SSCLLE 方法精度最高。 表 5 COIL_20 数据集在不同方法下的平均聚类精度 Table 5 Average clustering accuracy of COIL_20 dataset under different methods % Dataset LLE SSLLE SSLE CCDR SSCLLE Group1 62.96 63.57 54.17 54.77 93.52 Group2 49.07 51.39 48.19 52.27 80.56 Group3 70.85 71.99 43.56 51.99 88.89 Group4 49.35 52.18 48.94 51.16 80.09 Group5 51.39 51.85 47.22 48.80 74.54 Group6 75.00 78.03 44.21 59.17 77.63 Group7 81.53 86.11 46.71 63.29 87.50 Group8 63.98 63.10 51.02 71.16 81.02 Group9 74.93 75.00 55.93 69.54 89.81 k = 7,d = 8,a = 1,b = 10,r = 0.5,u = 1, v = 0.5 接下来随机选出一组数据为{7,3,9},来做在 不同标签比例下不同方法聚类精度的折线图,参 数设置为: 。 5 10 15 20 25 30 35 40 45 50 标签比例/% 65 70 75 80 85 90 95 100 LLE SSLLE SSLE CCDR SSCLLE 聚类精度/% 图 3 不同标记比例 COIL_20 数据集聚类精度 Fig. 3 The clustering accuracy of COIL_20 dataset under different labeling ratios 由图 3 可看出在这组数据中随着标记比例的 增加无监督 LLE 方法精度保持不变,而 SSLLE 与 SSLE 方法的聚类精度随着标记比例的增加只 发生了波动,基本没有体现出上升趋势,说明这 2 种利用类信息只调节近邻关系的方法对一些数据 提取到的特征不能很好地提高可分性。而 SSCLLE 和 CCDR 方法都是考虑全局的调整,可看到聚类 精度呈上升趋势,且高于其他方法,除在 5% 的情 况下略低于 CCDR 方法外,其余比例下均高于其 他方法。体现出 SSCLLE 方法对近邻及全局做调 整的优势。 3.3 数据可视化 数据可视化作为一种重要的数据分析方式, SSLLE SSLE CCDR SSCLLE SSLLE SSLE CCDR SSCLLE 5% 20% 40% 5% 20% 40% 0 10 20 30 40 50 60 70 80 90 100 聚类精度/% 0 10 20 30 40 50 60 70 80 90 100 聚类精度/% (b) WDBC 数据集 (c) Seeds 数据集 图 2 标记样本的比例对聚类精度的影响,d=2 Fig. 2 Influence of proportion of labeled samples on clus￾tering accuracy, d=2 ·103· 邓廷权,等:半监督类保持局部线性嵌入方法 第 1 期
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有