正在加载图片...
第2期 朱星字,等:联合不相关回归和非负谱分析的无监督特征选择 ·309· 数据量较大,标签类数只有5,因此每一类标签的 择获得的精炼的数据包含更多有价值的信息,而 训练数据集较大,这也可能是JURNFS优于其他 URNFS通过广义不相关回归以及结构化最优 算法的原因,因为在这种情况下JURNFS可以选 图,所选择的特征更具判别性及有效性,因而可 择更准确、更判别性的特征。总之,通过特征选 以获得更好的性能。 0.56 0.44 0.54 0.42 0.52 0.40 型0.38 0.50 0.36 0.48 0.34 0.46 0.32 0.44 0.30 9 0.42 0.28 50 100 150 200 250 300 100 150200 250 300 选择特征数量 选择特征数量 (a)ORL数据集 (b)BIO数据集 0.7 0.44 0.42 0.6 0.40 0.38 0.36 0.4 0.34 0.32 0.30 0.2 0.28 0. JURNFS 0.26 0.2 JURNFS 40 60 80 100 120 20 40 60 80 100 120 选择特征数量 选择特征数量 (c)COL20数据集 (dBA数据集 0.50 0.80 0.48 0.75 0.46 0.70 0.44 0.65 0.42 0.40 0.60 0.38 D FS 0.55 jESR◆JURNFS 臘濰 0.36 0.5 50 100 200 250 300 00 150 200250300350 选择特征数量 选择特征数量 (e)LEAVES数据集 (①LUNG数据集 图26个算法在6个数据集上的聚类精度 Fig.2 Clustering accuracies of six methods on six different datasets 为了进一步说明JURNFS的优越性,表2给出 而言,NM值越高,特征选择的性能越好。显然, 了在6个不同的数据集上6种不同算法的标准偏 与其他特征选择算法相比,JURNFS的NMI相 差的最优NMI值,其中最优值以黑体加粗。一般 对较高,这也表明JURNFS具有更好的算法性能。 表2不同数据集上不同方法的最佳NMⅡ(标准偏差) Table 2 Best NMI with standard deviation of different methods on different data sets % NMI±STD ORL BIO COIL20 BA LEAVES LUNG UDFS 70.04±0.99 55.33±1.06 63.30±2.25 55.90±0.63 51.28±4.14 46.43±2.83 NDFS 71.26±0.88 52.27±1.02 74.00±1.07 55.68±0.93 48.49±2.95 51.83±8.62 JELSR 70.91±1.50 50.98±1.12 71.89±1.50 54.56±1.05 49.53±2.49 52.82±5.72 SOGFS 72.76±1.14 47.98±1.61 70.65±2.82 57.08±1.32 43.49±1.68 49.78±6.60 URAFS 71.69±2.30 52.58±0.85 70.57±1.83 55.93±1.28 48.43±2.95 51.79±5.51 JURNFS 75.08±1.64 55.78±1.70 74.04±1.40 57.73±1.05 53.85±3.25 53.97±5.86数据量较大,标签类数只有 5,因此每一类标签的 训练数据集较大,这也可能是 JURNFS 优于其他 算法的原因,因为在这种情况下 JURNFS 可以选 择更准确、更判别性的特征。总之,通过特征选 择获得的精炼的数据包含更多有价值的信息,而 JURNFS 通过广义不相关回归以及结构化最优 图,所选择的特征更具判别性及有效性,因而可 以获得更好的性能。 UDFS NDFS JELSR SOGFS URAFS JURNFS (b) BIO 数据集 聚类精度 选择特征数量 0.44 0.42 0.40 0.38 0.36 0.34 0.32 0.30 0.28 50 100 150 200 250 300 0.42 0.44 0.46 0.48 0.50 0.52 0.54 0.56 UDFS NDFS JELSR SOGFS URAFS JURNFS (a) ORL 数据集 聚类精度 选择特征数量 50 100 150 200 250 300 UDFS NDFS JELSR SOGFS URAFS JURNFS (e) LEAVES 数据集 聚类精度 选择特征数量 0.50 0.48 0.46 0.44 0.42 0.40 0.38 0.36 50 100 150 200 250 300 UDFS NDFS JELSR SOGFS URAFS JURNFS 0.50 0.55 0.60 0.65 0.70 0.75 0.80 (f) LUNG 数据集 聚类精度 选择特征数量 100 150 200 250 300 350 UDFS NDFS JELSR SOGFS URAFS JURNFS 0.24 0.26 0.28 0.30 0.32 0.34 0.36 0.38 0.40 0.42 0.44 (d) BA 数据集 聚类精度 选择特征数量 20 40 60 80 100 120 UDFS NDFS JELSR SOGFS URAFS JURNFS (c) COIL20 数据集 聚类精度 选择特征数量 0.7 0.6 0.5 0.4 0.3 0.2 0.1 20 40 60 80 100 120 图 2 6 个算法在 6 个数据集上的聚类精度 Fig. 2 Clustering accuracies of six methods on six different datasets 为了进一步说明 JURNFS 的优越性,表 2 给出 了在 6 个不同的数据集上 6 种不同算法的标准偏 差的最优 NMI 值,其中最优值以黑体加粗。一般 而言,NMI 值越高,特征选择的性能越好。显然, 与其他特征选择算法相比,JURNFS 的 NMI 相 对较高,这也表明 JURNFS 具有更好的算法性能。 表 2 不同数据集上不同方法的最佳 NMI (标准偏差) Table 2 Best NMI with standard deviation of different methods on different data sets % NMI±STD ORL BIO COIL20 BA LEAVES LUNG UDFS 70.04±0.99 55.33±1.06 63.30±2.25 55.90±0.63 51.28±4.14 46.43±2.83 NDFS 71.26±0.88 52.27±1.02 74.00±1.07 55.68±0.93 48.49±2.95 51.83±8.62 JELSR 70.91±1.50 50.98±1.12 71.89±1.50 54.56±1.05 49.53±2.49 52.82±5.72 SOGFS 72.76±1.14 47.98±1.61 70.65±2.82 57.08±1.32 43.49±1.68 49.78±6.60 URAFS 71.69±2.30 52.58±0.85 70.57±1.83 55.93±1.28 48.43±2.95 51.79±5.51 JURNFS 75.08±1.64 55.78±1.70 74.04±1.40 57.73±1.05 53.85±3.25 53.97±5.86 第 2 期 朱星宇,等:联合不相关回归和非负谱分析的无监督特征选择 ·309·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有