正在加载图片...
第4期 胡敏杰,等:基于特征相关的谱特征选择算法 .523. 表3不同特征选择算法在CART分类器下的分类精度比较 Table 3 Classification accuracies of feature selection with different algorithms based on CART 数据集 SPFC Laplacian CFS ChiSquare FCBF NRS Relief AC 84.2(4.5) 83.6(3.3) 82.6(7.3) 81.1(4.5) 82.4(7.5) 83.4(4.7) 80.5(4.0) crx 83.9(16.9) 82.0(13.4) 80.1(14.4) 79.5(13.6) 79.9(14) 82.4(15.4) 80.1(12.8) heart 81.1(7.9) 76.3(6.8) 77.0(6.9) 76.6(7.4) 77.7(7.4) 75.1(9.2) 77.7(7.8) ICU 92.1(2.3) 90.5(7.9) 90.5(7.9) 90.5(7.9) 90.5(7.9) 85.3(17.5) 92.6(2.3) rice 83.9(9.4) 83.9(9.4) 83.0(10.0) 83.0(10.0) 83.0(10.0) 82.0(11.7) 80.8(7.5) Ve 70.6(10.7) 70.6(10.7) 70.6(10.7) 70.6(10.7) 70.6(10.7) 68.7(11.5) 70.7(1.5) wpbe 73.2(8.8) 69.0(12.9) 72.6(9.5) 72.6(9.5) 72.6(9.5) 67.0(8.4) 64.4(20.3) Z00 96.9(9.8) 96.9(9.8) 93.6(10.1) 88.6(10.2) 89.6(8.5) 84.3(6.9) 87.7(10.5) 平均值 83.24 81.6 81.25 80.31 80.79 78.53 79.31 结合表2、3的实验结果可知: 式中:k代表对比算法个数,N表示数据集个数,R 1)从总体上看,SPFC算法相比CFS、ChiSquare、 表示第i个算法在8个数据集上的排序均值(见表 FCBF、Laplacian、NRS以及Relief算法在KNN、 4)。由表4结合式(5)算出KNN分类器下FF的值 CART基分类器下表现稳定,且均获得最高平均分 为2.18,cart分类器下Fe的值为3.05,又当显著性 类精度。相比考虑类信息的传统谱特征选择算法 水平a=0.1时F(6,42)=1.87,因此在两个分类器 Laplacian,SPFC算法优于Laplacian.。 下都拒绝了零假设(所有算法性能相等),这时还需 2)相比ChiSquare、Laplacian、Relief这3种同样 要结合特定的post-hoc test来进一步分析各个算法 获得特征系列的算法,SPF℃算法以相同的前k个特 性能的差异。本文采用显著性水平为0.1的 征在不同的基分类器下获得的平均分精度明显较 Bonferroni--Dunn test。在这里定义两个算法的不同 高,相比子集约简的算法CFS、FCBF、NRS,SPFC取 用下面的临界差: 它们子集约简数量的最小值在两个基分类器下分 类精度明显要高于NRS,在CART基分类器下SPFC k(k+1) CD=4 6/ 的分类精度高于CS、FCBF达两个百分点以上,而 在KNN基分类器下也显著高于CFS、FCBF。 在Bonferroni-Dunn test里显著性水平为0.1且 3)每一种算法均会在某一个分类器上某个数 7个算法对比时9.=2.394,因此CD=2.58(k=7,V= 据集上获得最高分类精度,但只有SPFC能在两个 8)。如果两个算法在所有数据集上的平均排序的 基分类器上多个数据集上获得最高分类精度。 差不低于临界差CD,则认为它们有显著性差异。图 SPF℃算法在数据集ICU、ice、zoo上性能提升更为 2给出了在两个分类器下SPFC算法与其他算法的 明显,在两个分类器上均达到最高。而ICU为混合 比较,其中,每个子图中最上行为临界值,坐标轴画 型数据,rice为连续型数据、zoo为离散型数据。说 出了各种算法的平均排序且最左(右)边的平均排 明SP℉C可以处理多类型数据集,在大部分各类型 序最高(低)。用一根加粗的线连接性能没有显著 数据集上SP℉C均能达到较好的稳定表现。 差异的算法组。 实验2为了进一步研究比较SPFC算法与其 从图2可以直观看出在KNN分类器下,SPEC 他算法在两个分类器下的分类性能是否明显不同, 算法显著优于Relief算法,虽然与其他算法没有显 我们采用Friedman test和Bonferroni-Dunn在统计上 著差别,但可以看出SP℉C算法性能要高于其他算 进行验证。Friedman统计值定义为 法;在CART分类器下SPFC算法性能显著优于算 法NRs、ChiSquare、Relief,而与算法Laplacain、CFS、 4 FCBF性能相当,但性能相当的同一组里SPFC算法 (N-1)x F=Nk-1))-号 (5) 要远远优于算法Laplacain、CFS、FCBF。表 3 不同特征选择算法在 CART 分类器下的分类精度比较 Table 3 Classification accuracies of feature selection with different algorithms based on CART % 数据集 SPFC Laplacian CFS ChiSquare FCBF NRS Relief AC 84.2(4.5) 83.6(3.3) 82.6(7.3) 81.1(4.5) 82.4(7.5) 83.4(4.7) 80.5(4.0) crx 83.9(16.9) 82.0(13.4) 80.1(14.4) 79.5(13.6) 79.9(14) 82.4(15.4) 80.1(12.8) heart 81.1(7.9) 76.3(6.8) 77.0(6.9) 76.6(7.4) 77.7(7.4) 75.1(9.2) 77.7(7.8) ICU 92.1(2.3) 90.5(7.9) 90.5(7.9) 90.5(7.9) 90.5(7.9) 85.3(17.5) 92.6(2.3) rice 83.9(9.4) 83.9(9.4) 83.0(10.0) 83.0(10.0) 83.0(10.0) 82.0(11.7) 80.8(7.5) Ve 70.6(10.7) 70.6(10.7) 70.6(10.7) 70.6(10.7) 70.6(10.7) 68.7(11.5) 70.7(1.5) wpbc 73.2(8.8) 69.0(12.9) 72.6(9.5) 72.6(9.5) 72.6(9.5) 67.0(8.4) 64.4(20.3) zoo 96.9(9.8) 96.9(9.8) 93.6(10.1) 88.6(10.2) 89.6(8.5) 84.3(6.9) 87.7(10.5) 平均值 83.24 81.6 81.25 80.31 80.79 78.53 79.31 结合表 2、3 的实验结果可知: 1)从总体上看,SPFC 算法相比 CFS、ChiSquare、 FCBF、 Laplacian、 NRS 以 及 Relief 算 法 在 KNN、 CART 基分类器下表现稳定,且均获得最高平均分 类精度。 相比考虑类信息的传统谱特征选择算法 Laplacian, SPFC 算法优于 Laplacian。 2)相比 ChiSquare、Laplacian、Relief 这 3 种同样 获得特征系列的算法,SPFC 算法以相同的前 k 个特 征在不同的基分类器下获得的平均分精度明显较 高,相比子集约简的算法 CFS、FCBF、NRS,SPFC 取 它们子集约简数量的最小值在两个基分类器下分 类精度明显要高于 NRS,在 CART 基分类器下 SPFC 的分类精度高于 CFS、FCBF 达两个百分点以上,而 在 KNN 基分类器下也显著高于 CFS、FCBF。 3)每一种算法均会在某一个分类器上某个数 据集上获得最高分类精度,但只有 SPFC 能在两个 基分类 器 上 多 个 数 据 集 上 获 得 最 高 分 类 精 度。 SPFC 算法在数据集 ICU、rice、zoo 上性能提升更为 明显,在两个分类器上均达到最高。 而 ICU 为混合 型数据,rice 为连续型数据、zoo 为离散型数据。 说 明 SPFC 可以处理多类型数据集,在大部分各类型 数据集上 SPFC 均能达到较好的稳定表现。 实验 2 为了进一步研究比较 SPFC 算法与其 他算法在两个分类器下的分类性能是否明显不同, 我们采用 Friedman test 和 Bonferroni⁃Dunn 在统计上 进行验证。 Friedman 统计值定义为 x 2 F = 12N k (k + 1) ∑ k i = 1 R 2 i - k (k + 1) 2 4 é ë ê ê ù û ú ú FF = (N - 1)x 2 F N(k - 1) - x 2 F (5) 式中:k 代表对比算法个数,N 表示数据集个数,Ri 表示第 i 个算法在 8 个数据集上的排序均值(见表 4)。 由表 4 结合式(5)算出 KNN 分类器下 FF 的值 为 2.18,cart 分类器下 FF 的值为 3.05,又当显著性 水平 a = 0.1 时 F(6,42)= 1.87,因此在两个分类器 下都拒绝了零假设(所有算法性能相等),这时还需 要结合特定的 post⁃hoc test 来进一步分析各个算法 性能 的 差 异。 本 文 采 用 显 著 性 水 平 为 0. 1 的 Bonferroni⁃Dunn test。 在这里定义两个算法的不同 用下面的临界差: CDα = qα k(k + 1) 6N 在 Bonferroni⁃Dunn test 里显著性水平为 0.1 且 7 个算法对比时 qα = 2.394,因此 CD= 2.58(k = 7,N= 8)。 如果两个算法在所有数据集上的平均排序的 差不低于临界差 CD,则认为它们有显著性差异。 图 2 给出了在两个分类器下 SPFC 算法与其他算法的 比较,其中,每个子图中最上行为临界值,坐标轴画 出了各种算法的平均排序且最左(右)边的平均排 序最高(低)。 用一根加粗的线连接性能没有显著 差异的算法组。 从图 2 可以直观看出在 KNN 分类器下,SPEC 算法显著优于 Relief 算法,虽然与其他算法没有显 著差别,但可以看出 SPFC 算法性能要高于其他算 法;在 CART 分类器下 SPFC 算法性能显著优于算 法 NRS、ChiSquare、Relief,而与算法 Laplacain、CFS、 FCBF 性能相当,但性能相当的同一组里 SPFC 算法 要远远优于算法 Laplacain、CFS、FCBF。 第 4 期 胡敏杰,等:基于特征相关的谱特征选择算法 ·523·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有