表３不同特征选择算法在ＣＡＲＴ分类器下的分类精度比较Ｔａｂｌｅ

正在加载图片...

第4期胡敏杰，等：基于特征相关的谱特征选择算法 .523. 表3不同特征选择算法在CART分类器下的分类精度比较 Table 3 Classification accuracies of feature selection with different algorithms based on CART 数据集 SPFC Laplacian CFS ChiSquare FCBF NRS Relief AC 84.2(4.5) 83.6(3.3) 82.6(7.3) 81.1(4.5) 82.4(7.5) 83.4(4.7) 80.5(4.0) crx 83.9(16.9) 82.0(13.4) 80.1(14.4) 79.5(13.6) 79.9(14) 82.4(15.4) 80.1(12.8) heart 81.1(7.9) 76.3(6.8) 77.0(6.9) 76.6(7.4) 77.7(7.4) 75.1(9.2) 77.7(7.8) ICU 92.1(2.3) 90.5(7.9) 90.5(7.9) 90.5(7.9) 90.5(7.9) 85.3(17.5) 92.6(2.3) rice 83.9(9.4) 83.9(9.4) 83.0(10.0) 83.0(10.0) 83.0(10.0) 82.0(11.7) 80.8(7.5) Ve 70.6(10.7) 70.6(10.7) 70.6(10.7) 70.6(10.7) 70.6(10.7) 68.7(11.5) 70.7(1.5) wpbe 73.2(8.8) 69.0(12.9) 72.6(9.5) 72.6(9.5) 72.6(9.5) 67.0(8.4) 64.4(20.3) Z00 96.9(9.8) 96.9(9.8) 93.6(10.1) 88.6(10.2) 89.6(8.5) 84.3(6.9) 87.7(10.5) 平均值 83.24 81.6 81.25 80.31 80.79 78.53 79.31 结合表2、3的实验结果可知：式中：k代表对比算法个数，N表示数据集个数，R 1)从总体上看，SPFC算法相比CFS、ChiSquare、表示第i个算法在8个数据集上的排序均值（见表 FCBF、Laplacian、NRS以及Relief算法在KNN、 4)。由表4结合式(5)算出KNN分类器下FF的值 CART基分类器下表现稳定，且均获得最高平均分为2.18，cart分类器下Fe的值为3.05，又当显著性类精度。相比考虑类信息的传统谱特征选择算法水平a=0.1时F(6,42)=1.87,因此在两个分类器 Laplacian,SPFC算法优于Laplacian.。下都拒绝了零假设（所有算法性能相等），这时还需 2)相比ChiSquare、Laplacian、Relief这3种同样要结合特定的post-hoc test来进一步分析各个算法获得特征系列的算法，SPF℃算法以相同的前k个特性能的差异。本文采用显著性水平为0.1的征在不同的基分类器下获得的平均分精度明显较 Bonferroni--Dunn test。在这里定义两个算法的不同高，相比子集约简的算法CFS、FCBF、NRS,SPFC取用下面的临界差：它们子集约简数量的最小值在两个基分类器下分类精度明显要高于NRS,在CART基分类器下SPFC k(k+1) CD=4 6/ 的分类精度高于CS、FCBF达两个百分点以上，而在KNN基分类器下也显著高于CFS、FCBF。在Bonferroni-Dunn test里显著性水平为0.1且 3)每一种算法均会在某一个分类器上某个数 7个算法对比时9.=2.394，因此CD=2.58(k=7,V= 据集上获得最高分类精度，但只有SPFC能在两个 8)。如果两个算法在所有数据集上的平均排序的基分类器上多个数据集上获得最高分类精度。差不低于临界差CD,则认为它们有显著性差异。图 SPF℃算法在数据集ICU、ice、zoo上性能提升更为 2给出了在两个分类器下SPFC算法与其他算法的明显，在两个分类器上均达到最高。而ICU为混合比较，其中，每个子图中最上行为临界值，坐标轴画型数据，rice为连续型数据、zoo为离散型数据。说出了各种算法的平均排序且最左（右）边的平均排明SP℉C可以处理多类型数据集，在大部分各类型序最高（低）。用一根加粗的线连接性能没有显著数据集上SP℉C均能达到较好的稳定表现。差异的算法组。实验2为了进一步研究比较SPFC算法与其从图2可以直观看出在KNN分类器下，SPEC 他算法在两个分类器下的分类性能是否明显不同，算法显著优于Relief算法，虽然与其他算法没有显我们采用Friedman test和Bonferroni-Dunn在统计上著差别，但可以看出SP℉C算法性能要高于其他算进行验证。Friedman统计值定义为法；在CART分类器下SPFC算法性能显著优于算法NRs、ChiSquare、Relief,而与算法Laplacain、CFS、 4 FCBF性能相当，但性能相当的同一组里SPFC算法 (N-1)x F=Nk-1)）-号 (5) 要远远优于算法Laplacain、CFS、FCBF。表３不同特征选择算法在ＣＡＲＴ分类器下的分类精度比较Ｔａｂｌｅ３ＣｌａｓｓｉｆｉｃａｔｉｏｎａｃｃｕｒａｃｉｅｓｏｆｆｅａｔｕｒｅｓｅｌｅｃｔｉｏｎｗｉｔｈｄｉｆｆｅｒｅｎｔａｌｇｏｒｉｔｈｍｓｂａｓｅｄｏｎＣＡＲＴ％数据集ＳＰＦＣＬａｐｌａｃｉａｎＣＦＳＣｈｉＳｑｕａｒｅＦＣＢＦＮＲＳＲｅｌｉｅｆＡＣ８４．２（４．５）８３．６（３．３）８２．６（７．３）８１．１（４．５）８２．４（７．５）８３．４（４．７）８０．５（４．０）ｃｒｘ８３．９（１６．９）８２．０（１３．４）８０．１（１４．４）７９．５（１３．６）７９．９（１４）８２．４（１５．４）８０．１（１２．８）ｈｅａｒｔ８１．１（７．９）７６．３（６．８）７７．０（６．９）７６．６（７．４）７７．７（７．４）７５．１（９．２）７７．７（７．８）ＩＣＵ９２．１（２．３）９０．５（７．９）９０．５（７．９）９０．５（７．９）９０．５（７．９）８５．３（１７．５）９２．６（２．３）ｒｉｃｅ８３．９（９．４）８３．９（９．４）８３．０（１０．０）８３．０（１０．０）８３．０（１０．０）８２．０（１１．７）８０．８（７．５）Ｖｅ７０．６（１０．７）７０．６（１０．７）７０．６（１０．７）７０．６（１０．７）７０．６（１０．７）６８．７（１１．５）７０．７（１．５）ｗｐｂｃ７３．２（８．８）６９．０（１２．９）７２．６（９．５）７２．６（９．５）７２．６（９．５）６７．０（８．４）６４．４（２０．３）ｚｏｏ９６．９（９．８）９６．９（９．８）９３．６（１０．１）８８．６（１０．２）８９．６（８．５）８４．３（６．９）８７．７（１０．５）平均值８３．２４８１．６８１．２５８０．３１８０．７９７８．５３７９．３１结合表２、３的实验结果可知：１）从总体上看，ＳＰＦＣ算法相比ＣＦＳ、ＣｈｉＳｑｕａｒｅ、ＦＣＢＦ、Ｌａｐｌａｃｉａｎ、ＮＲＳ以及Ｒｅｌｉｅｆ算法在ＫＮＮ、ＣＡＲＴ基分类器下表现稳定，且均获得最高平均分类精度。相比考虑类信息的传统谱特征选择算法Ｌａｐｌａｃｉａｎ，ＳＰＦＣ算法优于Ｌａｐｌａｃｉａｎ。２）相比ＣｈｉＳｑｕａｒｅ、Ｌａｐｌａｃｉａｎ、Ｒｅｌｉｅｆ这３种同样获得特征系列的算法，ＳＰＦＣ算法以相同的前ｋ个特征在不同的基分类器下获得的平均分精度明显较高，相比子集约简的算法ＣＦＳ、ＦＣＢＦ、ＮＲＳ，ＳＰＦＣ取它们子集约简数量的最小值在两个基分类器下分类精度明显要高于ＮＲＳ，在ＣＡＲＴ基分类器下ＳＰＦＣ的分类精度高于ＣＦＳ、ＦＣＢＦ达两个百分点以上，而在ＫＮＮ基分类器下也显著高于ＣＦＳ、ＦＣＢＦ。３）每一种算法均会在某一个分类器上某个数据集上获得最高分类精度，但只有ＳＰＦＣ能在两个基分类器上多个数据集上获得最高分类精度。ＳＰＦＣ算法在数据集ＩＣＵ、ｒｉｃｅ、ｚｏｏ上性能提升更为明显，在两个分类器上均达到最高。而ＩＣＵ为混合型数据，ｒｉｃｅ为连续型数据、ｚｏｏ为离散型数据。说明ＳＰＦＣ可以处理多类型数据集，在大部分各类型数据集上ＳＰＦＣ均能达到较好的稳定表现。实验２为了进一步研究比较ＳＰＦＣ算法与其他算法在两个分类器下的分类性能是否明显不同，我们采用Ｆｒｉｅｄｍａｎｔｅｓｔ和Ｂｏｎｆｅｒｒｏｎｉ⁃Ｄｕｎｎ在统计上进行验证。Ｆｒｉｅｄｍａｎ统计值定义为ｘ２Ｆ＝１２Ｎｋ (ｋ＋１) ∑ ｋｉ＝１Ｒ２ｉ－ｋ (ｋ＋１) ２４ é ë ê ê ù û ú ú ＦＦ＝（Ｎ－１）ｘ２ＦＮ(ｋ－１) －ｘ２Ｆ（５）式中：ｋ代表对比算法个数，Ｎ表示数据集个数，Ｒｉ表示第ｉ个算法在８个数据集上的排序均值（见表４）。由表４结合式（５）算出ＫＮＮ分类器下ＦＦ的值为２．１８，ｃａｒｔ分类器下ＦＦ的值为３．０５，又当显著性水平ａ＝０．１时Ｆ（６，４２）＝１．８７，因此在两个分类器下都拒绝了零假设（所有算法性能相等），这时还需要结合特定的ｐｏｓｔ⁃ｈｏｃｔｅｓｔ来进一步分析各个算法性能的差异。本文采用显著性水平为０．１的Ｂｏｎｆｅｒｒｏｎｉ⁃Ｄｕｎｎｔｅｓｔ。在这里定义两个算法的不同用下面的临界差：ＣＤα ＝ｑα ｋ（ｋ＋１）６Ｎ在Ｂｏｎｆｅｒｒｏｎｉ⁃Ｄｕｎｎｔｅｓｔ里显著性水平为０．１且７个算法对比时ｑα ＝２．３９４，因此ＣＤ＝２．５８（ｋ＝７，Ｎ＝８）。如果两个算法在所有数据集上的平均排序的差不低于临界差ＣＤ，则认为它们有显著性差异。图２给出了在两个分类器下ＳＰＦＣ算法与其他算法的比较，其中，每个子图中最上行为临界值，坐标轴画出了各种算法的平均排序且最左（右）边的平均排序最高（低）。用一根加粗的线连接性能没有显著差异的算法组。从图２可以直观看出在ＫＮＮ分类器下，ＳＰＥＣ算法显著优于Ｒｅｌｉｅｆ算法，虽然与其他算法没有显著差别，但可以看出ＳＰＦＣ算法性能要高于其他算法；在ＣＡＲＴ分类器下ＳＰＦＣ算法性能显著优于算法ＮＲＳ、ＣｈｉＳｑｕａｒｅ、Ｒｅｌｉｅｆ，而与算法Ｌａｐｌａｃａｉｎ、ＣＦＳ、ＦＣＢＦ性能相当，但性能相当的同一组里ＳＰＦＣ算法要远远优于算法Ｌａｐｌａｃａｉｎ、ＣＦＳ、ＦＣＢＦ。第４期胡敏杰，等：基于特征相关的谱特征选择算法 ·５２３·

<<向上翻页向下翻页>>

点击下载：【机器学习】基于特征相关的谱特征选择算法