正在加载图片...
第16卷 智能系统学报 ·102· SSCLLE方法中a和B分别用a和b表示,r与 之间聚类精度各有高低。而当d为2时,虽然 SSLLE中设置相同。 SSCLLE方法在Seeds数据集的实验中的聚类精 3.1UCI中几个数据集 度并不是全部保持最高,当标记比例为5%时 实验中从UCI数据库里选3个数据集,分别 S$LLE方法仅仅略高于本文方法,在标记比例为 为Wine数据集、Seeds数据集和WDBC(wisconsin 15%以及另外2个数据集时SSCLLE的聚类精度 diagnostic breast cancer) 最高。总体实验分析可知,本文提出的半监督流 然后,分别用5种方法进行实验比较和分 形学习方法SSCLLE相比无监督方法LLE与其 析。根据特征提取的维数d做3组实验,分别设 他3种半监督方法聚类精度最高,体现出本文方 置d的值为2、3和4。每类数据随机标记5%,每 法的优势。 组实验进行20次,求聚类精度的平均值来评判 表4d=4时5种方法的平均聚类精度 5种方法的特征提取效果。表1~3分别是d值为 Table 4 Average clustering accuracy of the five 2、3和4时,各方法对3个数据集进行特征提取 methods when d=4 % 后得到的平均聚类精度。实验中,将参数设置 数据集 Wine Seeds WDBC 为:k=6,r=0.8,v=0.5,u=1,a=0.9,b=10。 比例% 5 15 5 15 5 15 LLE 92.1392.1372.4872.4884.3684.36 表1数据集信息 93.3894.2783.3183.52 Table 1 Data set information SSLLE 86.8986.87 SSLE 87.6487.7580.5780.48 79.3778.87 数据集 数据个数 属性个数 类别 CCDR 88.290.1180.4382.3875.4876.94 Wine 178 3 SSCLLE 94.1894.2783.8183.7686.9687.99 Seeds 210 7 3 对于半监督方法来说标记信息的多少会影响 WDBC 569 30 聚类的结果。这里把3组UCI数据中的每一个类 标记信息比例设置为5%、20%和40%,提取特征 表2d=2时5种方法的平均聚类精度 维数=2。图2为3个数据集在4种半监督方法 Table 2 Average clustering accuracy of the five methods when d=2 % 下的实验结果。 由图2的实验结果可以看出:3个数据集的 数据集 Wine Seeds WDBC 柱状分析图,随着数据的标记比例的增加,各个 比例% 15 15 15 半监督方法的聚类精度也在增加,符合半监督方 LLE 93.4493.44 76.23 76.23 84.7184.71 法利用越多标记信息就会提高聚类精度的设想。 SSLLE 95.1796.63 91.19191.22 89.0989.96 但明显可以看出2种基于局部标记信息进行调整 的方法SSLLE和SSLE,随着标记信息的增加聚 SSLE 95.7397.19 87.70387.91 89.75 90.9 类精度提升,相对考虑全局信息的SSCLLE与CCDR CCDR 95.6296.97 88.17190.01 85.2 90.11 不明显。而SSCLLE方法的聚类精度已经达到了 SSCLLE 96.2997.53 91.10592.19 91.5392.09 一个很高的值,明显高于CCDR,所以相对没有 CCDR提升比率那么高。总体实验分析中可以看 表3d=3时5种方法的平均聚类精度 到,在每组实验里SSCLLE方法的聚类精度基本 Table 3 Average clustering accuracy of the five methods when d=3 % 都能保持最高,证明了本方法在UCI数据上的 优势。 数据集 Wine Seeds WDBC 100 ■5%☐20%☐40% 比例/% 15 15 5 15 90 LLE 94.9493.9464.7664.7676.7776.77 80 SSLLE 94.3894.49.89.0589.1 78.0382.39 70 SSLE 93.2693.2383.8184.19 63.5175.04 50 CCDR92.9293.8186.1489.0563.6979.3 SSCLLE95.0695.3889.0590.178.2286.53 30 由表2~4数据可知:当特征空间的维数d为 3和4时,在3个数据集上SSCLLE方法的聚类精 SSLLE SSLE CCDR SSCLLE 度都比其他4种方法高,其他方法在不同数据集 (a)Wine数据集SSCLLE 方法中 α 和 β 分别用 a 和 b 表示,r 与 SSLLE 中设置相同。 3.1 UCI 中几个数据集 实验中从 UCI 数据库里选 3 个数据集,分别 为 Wine 数据集、Seeds 数据集和 WDBC(wisconsin diagnostic breast cancer)。 k = 6,r = 0.8, v = 0.5,u = 1,a = 0.9,b = 10 然后,分别用 5 种方法进行实验比较和分 析。根据特征提取的维数 d 做 3 组实验,分别设 置 d 的值为 2、3 和 4。每类数据随机标记 5%,每 组实验进行 20 次,求聚类精度的平均值来评判 5 种方法的特征提取效果。表 1~3 分别是 d 值为 2、3 和 4 时,各方法对 3 个数据集进行特征提取 后得到的平均聚类精度。实验中,将参数设置 为: 。 表 1 数据集信息 Table 1 Data set information 数据集 数据个数 属性个数 类别 Wine 178 13 3 Seeds 210 7 3 WDBC 569 30 2 表 2 d = 2 时 5 种方法的平均聚类精度 Table 2 Average clustering accuracy of the five methods when d=2 % 数据集 Wine Seeds WDBC 比例/% 5 15 5 15 5 15 LLE 93.44 93.44 76.23 76.23 84.71 84.71 SSLLE 95.17 96.63 91.191 91.22 89.09 89.96 SSLE 95.73 97.19 87.703 87.91 89.75 90.9 CCDR 95.62 96.97 88.171 90.01 85.2 90.11 SSCLLE 96.29 97.53 91.105 92.19 91.53 92.09 表 3 d = 3 时 5 种方法的平均聚类精度 Table 3 Average clustering accuracy of the five methods when d =3 % 数据集 Wine Seeds WDBC 比例/% 5 15 5 15 5 15 LLE 94.94 93.94 64.76 64.76 76.77 76.77 SSLLE 94.38 94.49 89.05 89.1 78.03 82.39 SSLE 93.26 93.23 83.81 84.19 63.51 75.04 CCDR 92.92 93.81 86.14 89.05 63.69 79.3 SSCLLE 95.06 95.38 89.05 90.1 78.22 86.53 由表 2~4 数据可知:当特征空间的维数 d 为 3 和 4 时,在 3 个数据集上 SSCLLE 方法的聚类精 度都比其他 4 种方法高,其他方法在不同数据集 之间聚类精度各有高低。而当 d 为 2 时,虽然 SSCLLE 方法在 Seeds 数据集的实验中的聚类精 度并不是全部保持最高,当标记比例为 5% 时 SSLLE 方法仅仅略高于本文方法,在标记比例为 15% 以及另外 2 个数据集时 SSCLLE 的聚类精度 最高。总体实验分析可知,本文提出的半监督流 形学习方法 SSCLLE 相比无监督方法 LLE 与其 他 3 种半监督方法聚类精度最高,体现出本文方 法的优势。 表 4 d = 4 时 5 种方法的平均聚类精度 Table 4 Average clustering accuracy of the five methods when d=4 % 数据集 Wine Seeds WDBC 比例/% 5 15 5 15 5 15 LLE 92.13 92.13 72.48 72.48 84.36 84.36 SSLLE 93.38 94.27 83.31 83.52 86.89 86.87 SSLE 87.64 87.75 80.57 80.48 79.37 78.87 CCDR 88.2 90.11 80.43 82.38 75.48 76.94 SSCLLE 94.18 94.27 83.81 83.76 86.96 87.99 对于半监督方法来说标记信息的多少会影响 聚类的结果。这里把 3 组 UCI 数据中的每一个类 标记信息比例设置为 5%、20% 和 40%,提取特征 维数 d=2。图 2 为 3 个数据集在 4 种半监督方法 下的实验结果。 由图 2 的实验结果可以看出:3 个数据集的 柱状分析图,随着数据的标记比例的增加,各个 半监督方法的聚类精度也在增加,符合半监督方 法利用越多标记信息就会提高聚类精度的设想。 但明显可以看出 2 种基于局部标记信息进行调整 的方法 SSLLE 和 SSLE,随着标记信息的增加聚 类精度提升,相对考虑全局信息的 SSCLLE 与 CCDR 不明显。而 SSCLLE 方法的聚类精度已经达到了 一个很高的值,明显高于 CCDR,所以相对没有 CCDR 提升比率那么高。总体实验分析中可以看 到,在每组实验里 SSCLLE 方法的聚类精度基本 都能保持最高,证明了本方法在 UCI 数据上的 优势。 SSLLE SSLE CCDR SSCLLE 0 10 20 30 40 50 60 70 80 90 100 5% 20% 40% 聚类精度/% (a) Wine 数据集 第 16 卷 智 能 系 统 学 报 ·102·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有