第16卷第4期 智能系统学报 Vol.16 No.4 2021年7月 CAAI Transactions on Intelligent Systems Jul.2021 D0:10.11992/tis.202009016 网络出版地址:https:/ns.cnki.net/kcms/detail/23.1538.TP.20210406.0853.002.html 一种新的最大相关最小冗余特征选择算法 李顺勇,王改变 (山西大学数学科学学院,山西太原030006) 摘要:传统的基于特征选择的分类算法中,由于其采用的冗余度和相关度评价标准单一,从而使得此类算法 应用范围受限。针对这个问题,本文提出一种新的最大相关最小冗余特征选择算法,该算法在度量特征之间冗 余度的评价准则中引入了两种不同的评价准则:在度量特征与类别之间的相关度中引入了4种不同的评价准 则,衍生出8种不同的特征选择算法,从而使得该算法应用范围增大。此外,由于传统的最大相关最小冗余特 征选择算法不能根据用户实际需求的数据维度进行特征选择。所以,引入了指示向量入来刻画用户实际的数 据维度需求,提出了一种新的目标函数来求解最优特征子集,利用支持向量机对4个UCI数据集的特征子集进 行了实验,最后,利用分类正确率、成对单边T检验充分验证了该算法的有效性。 关键词:特征选择;冗余度;相关度:降维;分类;分类正确率;支持向量机;T检验 中图分类号:TP181文献标志码:A文章编号:1673-4785(2021)04-0649-13 中文引用格式:李顺勇,王改变.一种新的最大相关最小冗余特征选择算法.智能系统学报,2021,16(4):649-661. 英文引用格式:LI Shunyong,WANG Gaibian.New MRMR feature selection algorithm[Jl.CAAI transactions on intelligent sys- tems,2021,16(4:649-661. New MRMR feature selection algorithm LI Shunyong,WANG Gaibian (School of Mathematical Sciences,Shanxi University,Taiyuan 030006,China) Abstract:The application scopes of traditional classification algorithms based on feature selection are limited due to the single evaluation criteria of redundancy and relevance adopted.To solve this problem,this paper proposes a new max- imum relevance,minimum redundancy(MRMR)feature selection algorithm,which enlarges its application scope by in- troducing two different evaluation criteria to measure the redundancy between features of measurement,measuring the correlation between features and categories,and deriving eight different feature selection algorithms.In addition,be- cause the traditional MRMR feature selection algorithms cannot realize feature selection according to the data dimen- sion of users'actual demand,the study also applies an indicator vector A to achieve that,proposes a new objective func- tion to obtain the optimal feature subset,and conducts experiments on four feature subsets of UCI using a support vec- tor machine.Finally,the study verifies the effectiveness of the algorithm using classification accuracy and pairs of uni- lateral T-tests. Keywords:feature selection;redundancy;relevance;dimension reduction;classification;classification accuracy;sup- port vector machines;T-test 特征选择是数据挖掘、机器学习和模式识别 中的一项重要技术,是当前信息领域的研究热点 收稿日期:2020-09-11.网络出版日期:202104-06 之一。它在数据分析和预处理过程中起着非 基金项目:山西省留学人员科技活动择优资助项目(201913: 山西省基础研究计划项目(201901D111320):太原市 常重要的作用。特征选择在不改变特征原始表达 科技计划研发项目(2018140105000084):山西省高等 的基础上,仅从特征集中筛选最能代表数据特点 学校精品共享课程项目(K2020022). 通信作者:李顺勇.E-mail:lisy75@sxu.edu.cn. 的最优特征子集。因此,不仅可以去除不相关和
DOI: 10.11992/tis.202009016 网络出版地址: https://kns.cnki.net/kcms/detail/23.1538.TP.20210406.0853.002.html 一种新的最大相关最小冗余特征选择算法 李顺勇,王改变 (山西大学 数学科学学院,山西 太原 030006) λ 摘 要:传统的基于特征选择的分类算法中,由于其采用的冗余度和相关度评价标准单一,从而使得此类算法 应用范围受限。针对这个问题,本文提出一种新的最大相关最小冗余特征选择算法,该算法在度量特征之间冗 余度的评价准则中引入了两种不同的评价准则;在度量特征与类别之间的相关度中引入了 4 种不同的评价准 则,衍生出 8 种不同的特征选择算法,从而使得该算法应用范围增大。此外,由于传统的最大相关最小冗余特 征选择算法不能根据用户实际需求的数据维度进行特征选择。所以,引入了指示向量 来刻画用户实际的数 据维度需求,提出了一种新的目标函数来求解最优特征子集,利用支持向量机对 4 个 UCI 数据集的特征子集进 行了实验,最后,利用分类正确率、成对单边 T 检验充分验证了该算法的有效性。 关键词:特征选择;冗余度;相关度;降维;分类;分类正确率;支持向量机;T 检验 中图分类号:TP181 文献标志码:A 文章编号:1673−4785(2021)04−0649−13 中文引用格式:李顺勇, 王改变. 一种新的最大相关最小冗余特征选择算法 [J]. 智能系统学报, 2021, 16(4): 649–661. 英文引用格式:LI Shunyong, WANG Gaibian. New MRMR feature selection algorithm[J]. CAAI transactions on intelligent systems, 2021, 16(4): 649–661. New MRMR feature selection algorithm LI Shunyong,WANG Gaibian (School of Mathematical Sciences, Shanxi University, Taiyuan 030006, China) ¸ Abstract: The application scopes of traditional classification algorithms based on feature selection are limited due to the single evaluation criteria of redundancy and relevance adopted. To solve this problem, this paper proposes a new maximum relevance, minimum redundancy (MRMR) feature selection algorithm, which enlarges its application scope by introducing two different evaluation criteria to measure the redundancy between features of measurement, measuring the correlation between features and categories, and deriving eight different feature selection algorithms. In addition, because the traditional MRMR feature selection algorithms cannot realize feature selection according to the data dimension of users’ actual demand, the study also applies an indicator vector to achieve that, proposes a new objective function to obtain the optimal feature subset, and conducts experiments on four feature subsets of UCI using a support vector machine. Finally, the study verifies the effectiveness of the algorithm using classification accuracy and pairs of unilateral T-tests. Keywords: feature selection; redundancy; relevance; dimension reduction; classification; classification accuracy; support vector machines; T-test 特征选择是数据挖掘、机器学习和模式识别 中的一项重要技术,是当前信息领域的研究热点 之一[1-3]。它在数据分析和预处理过程中起着非 常重要的作用。特征选择在不改变特征原始表达 的基础上,仅从特征集中筛选最能代表数据特点 的最优特征子集。因此,不仅可以去除不相关和 收稿日期:2020−09−11. 网络出版日期:2021−04−06. 基金项目:山西省留学人员科技活动择优资助项目 (2019-13); 山西省基础研究计划项目 (201901D111320);太原市 科技计划研发项目 (2018140105000084);山西省高等 学校精品共享课程项目 (K2020022). 通信作者:李顺勇. E-mail:lisy75@sxu.edu.cn. 第 16 卷第 4 期 智 能 系 统 学 报 Vol.16 No.4 2021 年 7 月 CAAI Transactions on Intelligent Systems Jul. 2021
·650· 智能系统学报 第16卷 冗余信息,降低训练样本的维度和分类样本的复 余度。2020年,周传华等m提出的最大相关与独 杂度,而且能很好地保持原始特征包含的信息, 立分类信息最大化特征选择算法,用互信息度量 对于人们理解和判断观测来说更加容易。特征选 特征与类别之间的相关性,用独立分类信息综合 择根据其是否与后续学习算法独立可以分为过滤 衡量新分类信息和特征冗余,尽管在特征选择过 式和封装式两种。过滤式特征选择方法独立于后 程中综合考虑了特征与类别的相关性、特征之间 续的学习算法,通过数据的本质属性对所有特征 的冗余性,以及特征包含的新分类信息,并结合最 进行评分,在此评价过程中不会借用分类模型来 大最小准则对特征的重要性进行了非线性评价, 完成1。其中具有代表性的方法有T检验(T 但其目标函数与传统的MRMR算法的目标函数 test)l、Fisher score、信息增益(information gain, 类似,依然不能根据客户的实际需求进行特征 IG)⑧等。但是,过滤式特征选择方法往往会忽略 选择。 特征之间的相关性。封装式特征选择算法与后续 针对上述特征选择算法中存在的冗余度和相 学习算法相关,利用学习算法的性能评价所选特 关度的度量准则单一以及评价函数问题,提出了 征子集的好坏,因此在精度方面要优于过滤式特 新方案。在冗余度度量准则方面引入了2种不同 征选择以。基于特征选择的目的,已经有部分学 的方法,在相关度度量准则方面引入了4种不同 者做了相关研究。例如,传统的基于空间搜索的 的方法,从而组合衍生出8种特征选择算法,提出 最大相关最小冗余(minimal redundancy maximal 了新的目标函数。 relevance,.MRMR)1算法,使用互信息来度量特 征之间的冗余度以及与类别之间的相关度,并且 1新的特征选择算法 利用信息嫡和信息差两个函数来选取最优特征子 MRMR算法是最常用、最典型的基于空间搜 集。但是,由于冗余度和相关度的评价准则单一, 索的特征选择算法。其中,最大相关即特征与类 所以使得该特征选择算法的使用范围较窄。 别间的相关度要最大,最小冗余即特征与特征之 2018年,郭凯文等提出了基于特征选择和聚类 间的相关度要最小8,该算法中,冗余度和相关 的分类算法,特征选择标准采用的是传统的基于 度均是利用互信息作为度量准则,就效能而言, 空间搜索的最大相关最小冗余准则,将信息差作 比只考虑特征与类别之间的相关度,或者只考虑 为目标函数来求解最优特征子集。虽然该算法在 特征之间冗余度的特征选择算法要好。但是,在 目标函数中增加了相关度和冗余度的权重因子, 现实生活中,我们面临的数据往往纷繁复杂,面 但是,在求解最优特征子集的过程中需要对权重 对不同的数据,MRMR算法呈现出的效果有较大 因子不断地赋值以寻求最优子集,计算量较大; 差异,从而降低了该算法的适用范围。 2020年,李纯果等提出的基于排序互信息的无 针对MRMR算法存在的问题,提出一种新的 监督特征选择,是基于排序互信息反应的两属性 最大相关最小冗余特征选择算法(new algorithm 之间的单调关系,用每个属性与其他属性之间的 for feature selection with maximum relation and min- 平均互信息,来衡量每个属性与排序学习的相关 imum redundancy,New-MRMR)。这里New- 度,平均互信息最高的视为排序最相关的属性。 MRMR算法仅是新提出的一个特征选择的框架, 但是,该算法忽略了特征与特征之间的冗余度, 在度量特征与特征之间冗余度时选用了2种评价 只在低维度且样本量较少的模拟数据集上进行了 准则,在度量特征与特征之间相似度时选用了 有效性验证,对真实数据集的特征选择效果不明 4种评价准则,从而衍生出8种特征选择算法,当 了;2020年,刘云等16提出了混合蒙特卡罗搜索 面对不同的用户需求时,选用不同特征选择算 的特征选择算法的优化,根据蒙特卡罗树搜索方 法,使得新提算法的适用范围更广。具体的特征 法生成了一个初始特征子集,然后利用ReliefF算 选择流程见图1。 法选择前k个特征组成候选特征集,最后,用 图1可以看出,特征选择算法的基本流程为: KNN分类器的分类精度评估候选特征,选择高精 先对原始数据集进行预处理,将原始数据集分为 度的候选特征作为最佳特征子集。然而,Re- 测试集和训练集,然后,在训练集上选择不同的 liefF算法是从同类和不同类中各选取k个近邻样 冗余度和相关度评价准则来训练模型,进行特征 本,求平均值得到各个特性权值,即特征与类别 选择,得到最优特征子集,最后,利用测试集来验 之间的相关性,并没有考虑特征与特征之间的冗 证模型的有效性
冗余信息,降低训练样本的维度和分类样本的复 杂度,而且能很好地保持原始特征包含的信息, 对于人们理解和判断观测来说更加容易。特征选 择根据其是否与后续学习算法独立可以分为过滤 式和封装式两种。过滤式特征选择方法独立于后 续的学习算法,通过数据的本质属性对所有特征 进行评分,在此评价过程中不会借用分类模型来 完成[4-5]。其中具有代表性的方法有 T 检验 (Ttest)[6] 、Fisher score[7] 、信息增益 (information gain, IG)[8] 等。但是,过滤式特征选择方法往往会忽略 特征之间的相关性。封装式特征选择算法与后续 学习算法相关,利用学习算法的性能评价所选特 征子集的好坏,因此在精度方面要优于过滤式特 征选择[8-12]。基于特征选择的目的,已经有部分学 者做了相关研究。例如,传统的基于空间搜索的 最大相关最小冗余 (minimal redundancy maximal relevance,MRMR)[13] 算法,使用互信息来度量特 征之间的冗余度以及与类别之间的相关度,并且 利用信息熵和信息差两个函数来选取最优特征子 集。但是,由于冗余度和相关度的评价准则单一, 所以使得该特征选择算法的使用范围较窄。 2018 年,郭凯文等[14] 提出了基于特征选择和聚类 的分类算法,特征选择标准采用的是传统的基于 空间搜索的最大相关最小冗余准则,将信息差作 为目标函数来求解最优特征子集。虽然该算法在 目标函数中增加了相关度和冗余度的权重因子, 但是,在求解最优特征子集的过程中需要对权重 因子不断地赋值以寻求最优子集,计算量较大; 2020 年,李纯果等[15] 提出的基于排序互信息的无 监督特征选择,是基于排序互信息反应的两属性 之间的单调关系,用每个属性与其他属性之间的 平均互信息,来衡量每个属性与排序学习的相关 度,平均互信息最高的视为排序最相关的属性。 但是,该算法忽略了特征与特征之间的冗余度, 只在低维度且样本量较少的模拟数据集上进行了 有效性验证,对真实数据集的特征选择效果不明 了;2020 年,刘云等[16] 提出了混合蒙特卡罗搜索 的特征选择算法的优化,根据蒙特卡罗树搜索方 法生成了一个初始特征子集,然后利用 ReliefF 算 法选择前 k 个特征组成候选特征集,最后,用 KNN 分类器的分类精度评估候选特征, 选择高精 度的候选特征作为最佳特征子集。然而,ReliefF 算法是从同类和不同类中各选取 k 个近邻样 本,求平均值得到各个特性权值,即特征与类别 之间的相关性,并没有考虑特征与特征之间的冗 余度。2020 年,周传华等[17] 提出的最大相关与独 立分类信息最大化特征选择算法,用互信息度量 特征与类别之间的相关性,用独立分类信息综合 衡量新分类信息和特征冗余,尽管在特征选择过 程中综合考虑了特征与类别的相关性、特征之间 的冗余性,以及特征包含的新分类信息,并结合最 大最小准则对特征的重要性进行了非线性评价, 但其目标函数与传统的 MRMR 算法的目标函数 类似,依然不能根据客户的实际需求进行特征 选择。 针对上述特征选择算法中存在的冗余度和相 关度的度量准则单一以及评价函数问题,提出了 新方案。在冗余度度量准则方面引入了 2 种不同 的方法,在相关度度量准则方面引入了 4 种不同 的方法,从而组合衍生出 8 种特征选择算法,提出 了新的目标函数。 1 新的特征选择算法 MRMR 算法是最常用、最典型的基于空间搜 索的特征选择算法。其中,最大相关即特征与类 别间的相关度要最大,最小冗余即特征与特征之 间的相关度要最小[18-19] ,该算法中,冗余度和相关 度均是利用互信息作为度量准则,就效能而言, 比只考虑特征与类别之间的相关度,或者只考虑 特征之间冗余度的特征选择算法要好。但是,在 现实生活中,我们面临的数据往往纷繁复杂,面 对不同的数据,MRMR 算法呈现出的效果有较大 差异,从而降低了该算法的适用范围。 针对 MRMR 算法存在的问题,提出一种新的 最大相关最小冗余特征选择算法 (new algorithm for feature selection with maximum relation and minimum redundancy,New-MRMR)。这里 NewMRMR 算法仅是新提出的一个特征选择的框架, 在度量特征与特征之间冗余度时选用了 2 种评价 准则,在度量特征与特征之间相似度时选用了 4 种评价准则,从而衍生出 8 种特征选择算法,当 面对不同的用户需求时,选用不同特征选择算 法,使得新提算法的适用范围更广。具体的特征 选择流程见图 1。 图 1 可以看出,特征选择算法的基本流程为: 先对原始数据集进行预处理,将原始数据集分为 测试集和训练集,然后,在训练集上选择不同的 冗余度和相关度评价准则来训练模型,进行特征 选择,得到最优特征子集,最后,利用测试集来验 证模型的有效性。 ·650· 智 能 系 统 学 报 第 16 卷
第4期 李顺勇,等:一种新的最大相关最小冗余特征选择算法 ·651· 原始数据集 为相关度的度量准则。 1.3目标函数 数据预处理 基于特征选择和聚类的众多分类算法中,目 标函数常采用加权的信息差方式,并且通过对权 训练集 测试集 重信息不断赋值来求解最优特征子集,不能根据 不同用户实际需求的维度求解最优特征子集。因 冗余度评价函数 相关度评价函数 此,本文提出了一种新的目标函数,引入了一个 指示向量1以及参数k来表示所选的特征维度。 Fisher Score pearson相关系数 NHWN-MON 具体目标函数如下: Information Gain 互信息 Chi-square Test (AD ACA Laplacian Score mk依-)st∑=k4e0,山 式中:k为用户需求的实际数据维度;D为冗余度 带有指示向量的 用户需求维度的 矩阵;C为特征与类别之间的相关性矩阵。 目标函数 特征子集 A=12…J',n为原始特征集的特征数。当 取值为0时,说明对应的特征不会被选择进最终 最优特征子集 的特征子集,取值越大时,表明其对应的特征越 图1New-MRMR特征选择流程 容易被选进最终的特征子集。 Fig.1 New-MRMR feature selection flow 对于该目标函数的求解,与最优化标准二次 1.1冗余度评价准则 规划问题21相似,本文采用成对更新方法网来求 特征选择是为了去除原始特征集中的冗余特 解以上目标函数的最优解。 征,达到降维目的。因此,利用冗余度评价可以 2实验结果与分析 作为New-MRMR特征选择算法的一部分,其基 本思想是:两个特征的相关度越大,则这两个特 2.1数据集信息及评价指标 征冗余度也越高。但是,由于评价特征之间冗余 为验证New-MRMR算法的有效性,本文使用 度以及特征与类别之间相关度的准则众多,且目 了4个真实的UCI数据集。先利用新提出的算法 前缺乏相关研究给出具体哪种方法更适用于哪种 处理原始特征,进而使用支持向量机对所得到的 数据类型。所以,本文新提出的算法仅采用了 特征子集进行分类实验,最后比较各种算法在测 Pearson相关系数4以及互信息两种准则来度 试集上的分类准确率(classification precision, 量特征之间的冗余度。 CP)。相关定义如下: 1.2相关度评价准则 CC CP= ×100% 在特征选择过程中,通常优先选择与类别相 Num 关度较大的特征,而特征的重要度在一定程度上 式中:CC(correct classification,CC)为正确分类的 反映了与类别的相关度大小,因此,相关度的度 样本数量;Num为样本数量总数。 量准则就转化成了特征重要度的衡量。衡量特征 表1为4个UC2数据集的具体信息: 重要度的评价准则有很多,例如:Fisher scorem、信 表1实验数据集 息增益((information gain,IG)、Laplacian Scor Table 1 Experimental data set Chi--squar Test-2等。Fisher score主要是按照类 数据集 特征数样本数 测试集 训练集 内距离小,类间距离大的原则,选出包含鉴别信 isolet 617 7797 2599 5198 息比较多的特征,其值越大,说明该特征越重要, waveform 40 5000 1666 3334 与类别的相关度越大;信息增益是通过计算某特 clean 168 476 158 318 征被使用前后的信息嫡来为该特征进行打分,信 Parkinson's Disease 754 756 252 504 息增益越大,说明该特征越重要,与类别的相关 度越大;Laplacian Score是根据拉普拉斯特征映射 实验中,与新提算法进行对比的特征选择算 等对单个特征评分,然后选出方差和局部几何结 法分别是:Fisher Score、基于Information Gain的 构保持能力较强的特征,其分值越高,特征越重 方法、基于Laplacian Score的方法、基于Chi-squar 要。New-MRMR算法也采用这4种评价准则作 Test的方法、基于MRMR的方法。表2列出了以
原始数据集 数据预处理 训练集 测试集 冗余度评价函数 相关度评价函数 Fisher Score Information Gain Chi-square Test Laplacian Score pearson 相关系数 互信息 带有指示向量的 目标函数 用户需求维度的 特征子集 最优特征子集 New-MRMR 图 1 New-MRMR 特征选择流程 Fig. 1 New-MRMR feature selection flow 1.1 冗余度评价准则 特征选择是为了去除原始特征集中的冗余特 征,达到降维目的。因此,利用冗余度评价可以 作为 New-MRMR 特征选择算法的一部分,其基 本思想是:两个特征的相关度越大,则这两个特 征冗余度也越高。但是,由于评价特征之间冗余 度以及特征与类别之间相关度的准则众多,且目 前缺乏相关研究给出具体哪种方法更适用于哪种 数据类型。所以,本文新提出的算法仅采用了 Pearson 相关系数[14] 以及互信息[14] 两种准则来度 量特征之间的冗余度。 1.2 相关度评价准则 在特征选择过程中,通常优先选择与类别相 关度较大的特征,而特征的重要度在一定程度上 反映了与类别的相关度大小,因此,相关度的度 量准则就转化成了特征重要度的衡量。衡量特征 重要度的评价准则有很多,例如:Fisher score[7] 、信 息增益 (information gain,IG)[8] 、Laplacian Score[20] 、 Chi-squar Test[21-22] 等。Fisher score 主要是按照类 内距离小,类间距离大的原则,选出包含鉴别信 息比较多的特征,其值越大,说明该特征越重要, 与类别的相关度越大;信息增益是通过计算某特 征被使用前后的信息熵来为该特征进行打分,信 息增益越大,说明该特征越重要,与类别的相关 度越大;Laplacian Score 是根据拉普拉斯特征映射 等对单个特征评分,然后选出方差和局部几何结 构保持能力较强的特征,其分值越高,特征越重 要。New-MRMR 算法也采用这 4 种评价准则作 为相关度的度量准则。 1.3 目标函数 λ 基于特征选择和聚类的众多分类算法中,目 标函数常采用加权的信息差方式,并且通过对权 重信息不断赋值来求解最优特征子集,不能根据 不同用户实际需求的维度求解最优特征子集。因 此,本文提出了一种新的目标函数,引入了一个 指示向量 以及参数 k 来表示所选的特征维度。 具体目标函数如下: max λ ( λ T D k − λ TCλ k(k−1)) ,s.t. ∑ λi = k, λi ∈ [0,1] λ =[λ1 λ2 ··· λn] T λi λi 式中:k 为用户需求的实际数据维度;D 为冗余度 矩阵; C 为特征与类别之间的相关性矩阵。 ,n 为原始特征集的特征数。当 取值为 0 时,说明对应的特征不会被选择进最终 的特征子集, 取值越大时,表明其对应的特征越 容易被选进最终的特征子集。 对于该目标函数的求解,与最优化标准二次 规划问题[23] 相似,本文采用成对更新方法[24] 来求 解以上目标函数的最优解。 2 实验结果与分析 2.1 数据集信息及评价指标 为验证 New-MRMR 算法的有效性,本文使用 了 4 个真实的 UCI 数据集。先利用新提出的算法 处理原始特征,进而使用支持向量机对所得到的 特征子集进行分类实验,最后比较各种算法在测 试集上的分类准确率 (classification precision, CP)。相关定义如下: CP = CC Num ×100% 式中:CC(correct classification,CC) 为正确分类的 样本数量;Num 为样本数量总数。 表 1 为 4 个 UCI[25] 数据集的具体信息: 表 1 实验数据集 Table 1 Experimental data set 数据集 特征数 样本数 测试集 训练集 isolet 617 7797 2 599 5 198 waveform 40 5000 1 666 3 334 clean 168 476 158 318 Parkinson's Disease 754 756 252 504 实验中,与新提算法进行对比的特征选择算 法分别是:Fisher Score、基于 Information Gain 的 方法、基于 Laplacian Score 的方法、基于 Chi-squar Test 的方法、基于 MRMR 的方法。表 2 列出了以 第 4 期 李顺勇,等:一种新的最大相关最小冗余特征选择算法 ·651·
·652· 智能系统学报 第16卷 上方法。 各种算法在数据降维和用支持向量机分类后的分 2.2实验结果对比分析 类准确率,表3给出了以上各种算法在数据集isolet 特征选择过程是剔除原始数据集中的不相关 上的实验结果,即经支持向量机分类后,计算得 以及冗余特征,达到数据降维目的。为验证以上 到的分类准确率达到最大时所选择的特征数。 表2新提出的8种特征选择算法与其他算法对比 Table 2 Comparison of 8 newly proposed feature selection algorithms with other algorithms 对比算法 特征选择算法 冗余度评价准则 相关度评价准则 New-MRMR-F-P Pearson相关系数 Fisher Score New-MRMR-F-NI 互信息 Fisher Score New-MRMR-L-P Pearson相关系数 Laplacian Score New-MRMR-L-NI 互信息 Laplacian Score 本文新提出的8种算法 New-MRMR-K-P Pearson相关系数 Chi-squar Test New-MRMR-K-NI 互信息 Chi-squar Test New-MRMR-IG-P Pearson相关系数 Information Gian New-MRMR-IG-NI 互信息 Information Gian MRMR 互信息 互信息 Fisher Score Fisher Score Fisher Score 传统算法 Laplacian Score Laplacian Score Laplacian Score Chi-squar Test Chi-squar Test Chi-squar Test Information Gian Information Gian Information Gian 表3分类准确率最大时,数据集isolet上各种算法分别所选择的特征数 Table 3 Number of features selected by various algorithms when the Classification precision is maximum on the isolet data- set 对比算法 特征选择算法 所选特征数 分类准确率 New-MRMR-F-P 340 0.9583 New-MRMR-F-NI 341 0.9405 New-MRMR-IG-P 343 0.9635 New-MRMR-IG-NI 387 0.9583 本文新提出的8种算法 New-MRMR-K-P 289 0.9558 New-MRMR-K-NI 332 0.9557 New-MRMR-L-P 342 0.9457 New-MRMR-L-NI 288 0.9453 MRMR 391 0.9088 Fisher Score 389 0.8857 传统算法 Laplacian Score 487 0.9184 Chi-square Test 542 0.9335 Information Gain 489 0.9161 由表3可以看出,由以上各种算法对数据集 法,尤其是新提出的算法New-MRMR-IG-P,其分 isolet进行特征选择后,利用支持向量机对所选特 类准确率达到了0.9635,远高于传统的5种特征 征子集进行分类,本文新提出的8种特征选择算 选择算法。在保证准确率的情况下,其所选的特征 法的分类准确率,均高于传统的5种特征选择算 数也均小于传统的5种特征选择算法。可见,本文
上方法。 2.2 实验结果对比分析 特征选择过程是剔除原始数据集中的不相关 以及冗余特征,达到数据降维目的。为验证以上 各种算法在数据降维和用支持向量机分类后的分 类准确率,表 3 给出了以上各种算法在数据集 isolet 上的实验结果,即经支持向量机分类后,计算得 到的分类准确率达到最大时所选择的特征数。 表 2 新提出的 8 种特征选择算法与其他算法对比 Table 2 Comparison of 8 newly proposed feature selection algorithms with other algorithms 对比算法 特征选择算法 冗余度评价准则 相关度评价准则 本文新提出的8种算法 New-MRMR-F-P Pearson相关系数 Fisher Score New-MRMR-F-NI 互信息 Fisher Score New-MRMR-L-P Pearson相关系数 Laplacian Score New-MRMR-L-NI 互信息 Laplacian Score New-MRMR-K-P Pearson相关系数 Chi-squar Test New-MRMR-K-NI 互信息 Chi-squar Test New-MRMR-IG-P Pearson相关系数 Information Gian New-MRMR-IG-NI 互信息 Information Gian 传统算法 MRMR 互信息 互信息 Fisher Score Fisher Score Fisher Score Laplacian Score Laplacian Score Laplacian Score Chi-squar Test Chi-squar Test Chi-squar Test Information Gian Information Gian Information Gian 表 3 分类准确率最大时,数据集 isolet 上各种算法分别所选择的特征数 Table 3 Number of features selected by various algorithms when the Classification precision is maximum on the isolet dataset 对比算法 特征选择算法 所选特征数 分类准确率 本文新提出的8种算法 New-MRMR-F-P 340 0.958 3 New-MRMR-F-NI 341 0.940 5 New-MRMR-IG-P 343 0.963 5 New-MRMR-IG-NI 387 0.958 3 New-MRMR-K-P 289 0.955 8 New-MRMR-K-NI 332 0.955 7 New-MRMR-L-P 342 0.945 7 New-MRMR-L-NI 288 0.945 3 传统算法 MRMR 391 0.908 8 Fisher Score 389 0.885 7 Laplacian Score 487 0.918 4 Chi-square Test 542 0.933 5 Information Gain 489 0.916 1 由表 3 可以看出,由以上各种算法对数据集 isolet 进行特征选择后,利用支持向量机对所选特 征子集进行分类,本文新提出的 8 种特征选择算 法的分类准确率,均高于传统的 5 种特征选择算 法,尤其是新提出的算法 New-MRMR-IG-P,其分 类准确率达到了 0.963 5,远高于传统的 5 种特征 选择算法。在保证准确率的情况下,其所选的特征 数也均小于传统的 5 种特征选择算法。可见,本文 ·652· 智 能 系 统 学 报 第 16 卷
第4期 李顺勇,等:一种新的最大相关最小冗余特征选择算法 ·653· 新提出的特征选择算法在数据降维方面效果更佳。 且,在所选特征子集数为289时,其分类准确率达 图2是在数据集isolet上,本文新提出的特征 到了最高,既很好地去除了原始特征集中的冗余 选择算法New-MRMR-F-NI、New-MRMR-F-P,传 和不相关特征,又保证了分类准确率。此外,算 统特征选择算法MRMR、Fisher Score在不同维度 法New-MRMR-K-P除了在维度为195时的分类 下的分类准确率变化趋势。 准确率与传统算法MRMR相近之外,在其他维度 1.0 上的分类准确率均高于Chi-Square-Test、MRMR。 可见,本文新提出的特征选择算法效果更佳。 0.9 不同维度下,新提出的特征选择算法New- 0.8 MRMR-L-NI、New-MRMR-L-P,传统特征选择算 0.7 法MRMR、Laplacian-Score的分类准确率变化趋 0.6 -Fisher-Score 势见图4。 二Ne-MiRMR-F-N 1.0 0.5 +New-MRMR-F-P 0.4 0 200 400 600 数据维度K 0.8 图2 New-MRMR-F-NI、New-MRMR-F-P、Fisher-Score、 MRMR在数据集isolet上分类准确率的变化趋势 ◆Laplacian-Score Fig.2 Correct classification trend of New-MRMR-F-NI, -MRMR New-MRMR-F-P,Fisher-Score,MRMR on the New-MRMR-L-NI dataset isolet 0.4 -New-MRMR-L-P 从图2可以看出,对于在不同维度下的分类 200 400 600 准确率,新提出的特征选择算法New-MRMR-F 数据维度K NI、New-MRMR-F-P明显高于传统算法Fisher 图4 New-MRMR-L-NI、New-MRMR-L-P、Laplacian- Score、MRMR。所以,对于减少原始特征集中的 Score、MRMR在数据集isolet上,分类正确的变化 趋势 冗余和不相关特征,New-MRMR-F-NI、New- Fig.4 Correct classification trend of New-MRMR-L-NI, MRMR-F-P有更好的优势。 New-MRMR-L-P,Laplacian-Score,MRMR on the 不同维度下,本文新提算法New-MRMR-K- dataset isolet NI、New-MRMR-K-P,传统算法MRMR、Chi- 图4显示,在特征维度为342的时候,算法 Square-Test在数据集isolet上的分类准确率变化 New-MRMR-L-P的分类准确率就已经达到了最 趋势见图3。 高,并且大于传统算法Laplacian-Score、MRMR的 1.0 最大分类准确率。此外,在分类准确率达到最高 时,算法New-MRMR-L-NI所选的特征子集数仅 0.9 为288,远小于传统算法Laplacian-Score、 0.8 MRMR所选的特征子集数。因此,新提出的算法 0.7 New-MRMR-L-NI、New-MRMR-L-P对于特征选择 -Chi-square-Test 0.6 效果更好。 -MRMR .New-MRMR-K-NI 不同维度下,新提出的特征选择算法New- 0.5 -New-MRMR-K-P MRMR-IG-NI、New-MRMR-IG-P,传统特征选择 0.4 0 200 400 600 算法MRMR、Laplacian-Score的分类准确率变化 数据维度K 趋势见图5。 图3New-MRMR-K-NI、New-MRMR-K-P、Chi-Square- 由图5可以看出,在不同维度下,算法New: Test、MRMR在数据集isolet上分类准确率的变化 MRMR-IG-NI、New-MRMR-IG-P分类准确率的曲 趋势 Fig.3 Correct classification trend of New-MRMR-K-NI, 线,均高于传统的两种特征选择算法Information- New-MRMR-K-P、Chi-Square-.Test、MRMR on the Gain、MRMR所代表的曲线。分类准确率越高, dataset isolet 表明所选特征子集越好。可见,新出的算法New- 图3显示,不同维度下,New-MRMR-K-P的 MRMR-IG-NI以及New-MRMR-IG-P在特征选择 分类准确率曲线明显高于传统特征选择算法,并 方面更加有效
新提出的特征选择算法在数据降维方面效果更佳。 图 2 是在数据集 isolet 上,本文新提出的特征 选择算法 New-MRMR-F-NI、New-MRMR-F-P,传 统特征选择算法 MRMR、Fisher Score 在不同维度 下的分类准确率变化趋势。 0.9 1.0 0.8 0.7 0.6 0.5 0.4 分类准确率 0 400 600 200 数据维度 K MRMR Fisher-Score New-MRMR-F-NI New-MRMR-F-P 图 2 New-MRMR-F-NI、New-MRMR-F-P、Fisher-Score、 MRMR 在数据集 isolet 上分类准确率的变化趋势 Fig. 2 Correct classification trend of New-MRMR- F-NI, New-MRMR-F-P, Fisher-Score, MRMR on the dataset isolet 从图 2 可以看出,对于在不同维度下的分类 准确率,新提出的特征选择算法 New-MRMR-FNI、New-MRMR-F-P 明显高于传统算法 Fisher Score、MRMR。所以,对于减少原始特征集中的 冗余和不相关特征,New-MRMR-F-NI、NewMRMR-F-P 有更好的优势。 不同维度下,本文新提算法 New-MRMR-KNI、New-MRMR-K-P,传统算法 MRMR、ChiSquare-Test 在数据集 isolet 上的分类准确率变化 趋势见图 3。 MRMR Chi-square-Test New-MRMR-K-NI New-MRMR-K-P 0.9 1.0 0.8 0.7 0.6 0.5 0.4 分类准确率 0 400 600 200 数据维度 K 图 3 New-MRMR-K-NI、New-MRMR-K-P、Chi-SquareTest、MRMR 在数据集 isolet 上分类准确率的变化 趋势 Fig. 3 Correct classification trend of New-MRMR-K-NI、 New-MRMR-K-P、Chi-Square-Test、MRMR on the dataset isolet 图 3 显示,不同维度下,New-MRMR-K-P 的 分类准确率曲线明显高于传统特征选择算法,并 且,在所选特征子集数为 289 时,其分类准确率达 到了最高,既很好地去除了原始特征集中的冗余 和不相关特征,又保证了分类准确率。此外,算 法 New-MRMR-K-P 除了在维度为 195 时的分类 准确率与传统算法 MRMR 相近之外,在其他维度 上的分类准确率均高于 Chi-Square-Test、MRMR。 可见,本文新提出的特征选择算法效果更佳。 不同维度下,新提出的特征选择算法 NewMRMR-L-NI、New-MRMR-L-P,传统特征选择算 法 MRMR、Laplacian-Score 的分类准确率变化趋 势见图 4。 0.8 1.0 0.6 0.4 分类准确率 0 400 600 200 数据维度 K MRMR Laplacian-Score New-MRMR-L-NI New-MRMR-L-P 图 4 New-MRMR-L-NI、New-MRMR-L-P、LaplacianScore、MRMR 在数据集 isolet 上,分类正确的变化 趋势 Fig. 4 Correct classification trend of New-MRMR-L-NI、 New-MRMR-L-P, Laplacian-Score, MRMR on the dataset isolet 图 4 显示,在特征维度为 342 的时候,算法 New-MRMR-L-P 的分类准确率就已经达到了最 高,并且大于传统算法 Laplacian-Score、MRMR 的 最大分类准确率。此外,在分类准确率达到最高 时,算法 New-MRMR-L-NI 所选的特征子集数仅 为 288 ,远小于传统算 法 Laplacian-Score、 MRMR 所选的特征子集数。因此,新提出的算法 New-MRMR-L-NI、New-MRMR-L-P 对于特征选择 效果更好。 不同维度下,新提出的特征选择算法 NewMRMR-IG-NI、New-MRMR-IG-P,传统特征选择 算法 MRMR、Laplacian-Score 的分类准确率变化 趋势见图 5。 由图 5 可以看出,在不同维度下,算法 NewMRMR-IG-NI、New-MRMR-IG-P 分类准确率的曲 线,均高于传统的两种特征选择算法 InformationGain、MRMR 所代表的曲线。分类准确率越高, 表明所选特征子集越好。可见,新出的算法 NewMRMR-IG-NI 以及 New-MRMR-IG-P 在特征选择 方面更加有效。 第 4 期 李顺勇,等:一种新的最大相关最小冗余特征选择算法 ·653·
·654· 智能系统学报 第16卷 1.0 表4给出了以上各种算法在数据集wave- 0.9 form上的实验结果,即经支持向量机分类后计算 得到的分类准确率达到最大时所选择的特征数。 0.8 表4显示,在数据集waveform上,本文新提 0.7 出的算法New-MRMR-F-P的最大分类准确率达 0.6 -Information-Gain -MRMR 到了0.9534,远大于传统特征选择算法的分类准 .New-MRMR-IG-NI 05 New-MRMR-IG-P 确率;并且New-MRMR-F-P在分类准确率达到最 大时,所选的特征子集数仅为17,小于传统的 0.4 200 400 600 5种特征选择算法在分类准确率达到最大时所选 数据维度K 的特征子集数。除此之外,本文新提出的其余特 图5 New-MRMR-IG-NI、New-MRMR-IG-P、Informa- 征选择算法的分类准确率,也均大于传统的特征 tion-Gain、MRMR在数据集isolet上,分类准确率 选择算法的分类准确率,且所选特征子集数相对 的变化趋势 Fig.5 Correct classification trend of New-MRMR-IG-NI, 来说较小。因此,综合考虑分类准确率以及所选 New-MRMR-IG-P,Information-Gain,MRMR on 特征子集维度两个方面,本文新提算法特征选择 the dataset isolet 效果更加明显。 表4分类准确率最大时数据集waveform上各种算法分别所选择的特征数 Table 4 Number of features selected by various algorithms when the Classification precision is maximum on the waveform dataset 对比算法 特征选择算法 所选特征数 分类准确率 New-MRMR-F-P 16 0.9534 New-MRMR-F-NI 20 0.8904 New-MRMR-IG-P 24 0.8916 New-MRMR-IG-NI 17 0.9000 本文提出的8种算法 New-MRMR-K-P 12 0.9412 New-MRMR-K-NI 20 0.8944 New-MRMR-L-P 17 0.8892 New-MRMR-L-NI 21 0.9344 MRMR 20 0.8624 Fisher Score 40 0.8384 传统算法 Laplacian Score 25 0.7252 Chi-square Test 32 0.8095 Information Gain 33 0.7983 不同维度下,本文新提出的特征选择算法 Score。综合分析,本文新提算法New-MRMR-F- New-MRMR-F-NI、New-MRMR-F-P,传统特征选 NI、New-MRMR-F-P的特征选择效果更好。 择算法MRMR、Fisher Score在数据集wave- 不同维度下,算法New-MRMR-K-NI、New- form上的分类准确率变化趋势见图6。 MRMR-K-P以及传统特征选择算法MRMR以及 由图6看出,在数据集waveform上,New- Chi-Square-Test在数据集waveform上的分类准确 MRMR-F-P的表现最好,其所代表的曲线远高于 率变化趋势见图7。 传统的特征选择算法MRMR、Fisher-Score所代表 图7显示,维度为20时,New-MRMR-K-NI的 的曲线。此外,虽然在维度为24时,算法New- 分类准确率就达到了最大,大于MRMR、Chi- MRMR-F-NI的分类准确率低于传统算法 Square-Test的最大分类准确率。并且其所选特征 MRMR、Fisher--Score。但是,在其余维度上,New- 子集数小于MRMR、Chi-Square-Test的最优特征 MRMR-F-NI的分类准确率均高于MRMR、Fisher-- 子集数。此外,算法New-MRMR-K-P的分类准确
MRMR Information-Gain New-MRMR-IG-NI New-MRMR-IG-P 0.9 1.0 0.8 0.7 0.6 0.5 0.4 分类准确率 0 400 600 200 数据维度 K 图 5 New-MRMR-IG-NI、New-MRMR-IG-P、Information-Gain、MRMR 在数据集 isolet 上,分类准确率 的变化趋势 Fig. 5 Correct classification trend of New-MRMR-IG-NI, New-MRMR-IG-P, Information-Gain, MRMR on the dataset isolet 表 4 给出了以上各种算法在数据集 waveform 上的实验结果,即经支持向量机分类后计算 得到的分类准确率达到最大时所选择的特征数。 表 4 显示,在数据集 waveform 上,本文新提 出的算法 New-MRMR-F-P 的最大分类准确率达 到了 0.953 4,远大于传统特征选择算法的分类准 确率;并且 New-MRMR-F-P 在分类准确率达到最 大时,所选的特征子集数仅为 17,小于传统的 5 种特征选择算法在分类准确率达到最大时所选 的特征子集数。除此之外,本文新提出的其余特 征选择算法的分类准确率,也均大于传统的特征 选择算法的分类准确率,且所选特征子集数相对 来说较小。因此,综合考虑分类准确率以及所选 特征子集维度两个方面,本文新提算法特征选择 效果更加明显。 表 4 分类准确率最大时数据集 waveform 上各种算法分别所选择的特征数 Table 4 Number of features selected by various algorithms when the Classification precision is maximum on the waveform dataset 对比算法 特征选择算法 所选特征数 分类准确率 本文提出的8种算法 New-MRMR-F-P 16 0.953 4 New-MRMR-F-NI 20 0.890 4 New-MRMR-IG-P 24 0.891 6 New-MRMR-IG-NI 17 0.900 0 New-MRMR-K-P 12 0.941 2 New-MRMR-K-NI 20 0.894 4 New-MRMR-L-P 17 0.889 2 New-MRMR-L-NI 21 0.934 4 传统算法 MRMR 20 0.862 4 Fisher Score 40 0.838 4 Laplacian Score 25 0.725 2 Chi-square Test 32 0.809 5 Information Gain 33 0.798 3 不同维度下,本文新提出的特征选择算法 New-MRMR-F-NI、New-MRMR- F-P,传统特征选 择算法 MRMR、Fisher Score 在数据集 waveform 上的分类准确率变化趋势见图 6。 由图 6 看出,在数据集 waveform 上 ,NewMRMR-F-P 的表现最好,其所代表的曲线远高于 传统的特征选择算法 MRMR、Fisher-Score 所代表 的曲线。此外,虽然在维度为 24 时,算法 NewMRMR-F-N I 的分类准确率低于传统算 法 MRMR、Fisher-Score。但是,在其余维度上,NewMRMR-F-NI 的分类准确率均高于 MRMR、FisherScore。综合分析,本文新提算法 New-MRMR-FNI、New-MRMR-F-P 的特征选择效果更好。 不同维度下,算法 New-MRMR-K-NI、NewMRMR-K-P 以及传统特征选择算法 MRMR 以及 Chi-Square-Test 在数据集 waveform 上的分类准确 率变化趋势见图 7。 图 7 显示,维度为 20 时,New-MRMR-K-NI 的 分类准确率就达到了最大,大于 MRMR、ChiSquare-Test 的最大分类准确率。并且其所选特征 子集数小于 MRMR、Chi-Square-Test 的最优特征 子集数。此外,算法 New-MRMR-K-P 的分类准确 ·654· 智 能 系 统 学 报 第 16 卷
第4期 李顺勇,等:一种新的最大相关最小冗余特征选择算法 ·655· 率曲线高于MRMR、Chi-Square--Test的分类准确 New-MRMR-L-P的特征选择效果更好。 率曲线。所以,在waveform数据集上,本文新提 1.0 出的算法New-MRMR-K-NI、New-MRMR-K-P的 特征选择效果更好。 08 1.0 0.9 0.6 →Laplacian-Score -MRMR 0.8 New-MRMR-L-NI 0.4 New-MRMR-L-P 的07 -Fisher-Score 10 20 30 40 数据维度K -MRMR 0.6 New-MRMR-F-NI -New-MRMR-F-P 图gNew-MRMR-L-NI、New-MRMR-L-P、Laplacian- 0.5 Score、MRMR在数据集waveform上,分类准确率 0 10 20 30 40 的变化趋势 数据维度K Fig.8 Correct classification trend of New-MRMR-L-NI, 图6 New-MRMR-F-NI、New-MRMR-F-P、Fisher-Score、 New-MRMR-L-P,Laplacian-Score,MRMR on the MRMR在数据集waveform上,分类准确率的变 dataset waveform 化趋势 不同维度下,New-MRMR-IG-NI、New-MRMR- Fig.6 Correct classification trend of New-MRMR-F-NI New-MRMR-F-P,Fisher-Score,MRMR on the IG-P、传统算法MRMR、Information-Gain在数据 dataset waveform 集waveform上分类准确率变化趋势见图9。 1.0 0.9 0.8 0.8 0.6 0.7 Chi-square-Test -MRMR -Information-Gain 0.4 New-MRMR-K-NI 0.6 New-MRMR-K-P +·MRMR New-MRMR-IG-NI -New-MRMR-IG-P 0.2 0.5 0 10 20 30 40 0 10 20 30 40 数据维度K 数据维度K 图7 New-MRMR-K-NI、New-MRMR-K-P、Chi-Square- 图9 New-MRMR-IG-NI、New-MRMR-IG-P、Informa Test、MRMR在数据集waveform上,分类准确率 tion-Gain、MRMR在数据集waveform上,分类准 的变化趋势 确率的变化趋势 Fig.7 Correct classification trend of New-MRMR-K-NI Fig.9 Correct classification trend of New-MRMR-IG-NI, New-MRMR-K-P,Chi-Square-Test,MRMR on the New-MRMR-IG-P,Information-Gain,MRMR on dataset waveform the dataset waveform 不同维度下,算法New-MRMR-L-NI、New- 图9显示,在数据集waveform上,算法New MRMR-L-P,传统特征选择算法MRMR、Lapla- MRMR-IG-NI的分类准确率的曲线高于传统的算 cian-Score在数据集waveform上的分类准确率变 法MRMR、Information-Gain的分类准确率。且算 化趋势见图8。 法New-MRMR-IG-P的分类准确率在维度为 图8显示,New-MRMR-L-NI的分类准确率高 24时达到最大。维度为11时,New-MRMR-IG- 于传统算法MRMR、Laplacian--Score。在分类准确 P的分类准确率略低于MRMR、Information-Gain, 率达到最大时,New-MRMR-L-NI所选特征子集 但是,在其余维度上均大于MRMR、Information- 数仅为20,小于MRMR、Laplacian-Score的最优特 Gain。综上分析,在数据集waveform上,本文新 征子集数。另外,新提算法在多数维度上均大于 提出的特征选择算法效果明显。 传统算法MRMR、Laplacian-Score的分类准确 表5给出了以上各种算法在数据集clean上 率。由于分类准确率越高,特征选择效果越好, 的实验结果,即经支持向量机分类后,得到的分 所以,在数据集waveform上,New-MRMR-L-NI、 类准确率达到最大时所选择的特征数
率曲线高于 MRMR、Chi-Square-Test 的分类准确 率曲线。所以,在 waveform 数据集上,本文新提 出的算法 New-MRMR-K-NI、New-MRMR-K-P 的 特征选择效果更好。 0.8 0.7 0.9 1.0 0.6 0.5 分类准确率 0 10 20 30 40 数据维度 K MRMR Fisher-Score New-MRMR-F-NI New-MRMR-F-P 图 6 New-MRMR-F-NI、New-MRMR-F-P、Fisher-Score、 MRMR 在数据集 waveform 上,分类准确率的变 化趋势 Fig. 6 Correct classification trend of New-MRMR-F-NI New-MRMR-F-P, Fisher-Score, MRMR on the dataset waveform 0.8 1.0 0.6 0.4 0.2 分类准确率 0 10 20 30 40 数据维度 K MRMR Chi-square-Test New-MRMR-K-NI New-MRMR-K-P 图 7 New-MRMR-K-NI、New-MRMR-K-P、Chi-SquareTest、MRMR 在数据集 waveform 上,分类准确率 的变化趋势 Fig. 7 Correct classification trend of New-MRMR-K-NI, New-MRMR-K-P, Chi-Square-Test, MRMR on the dataset waveform 不同维度下,算法 New-MRMR-L-NI、NewMRMR-L-P,传统特征选择算法 MRMR、Laplacian-Score 在数据集 waveform 上的分类准确率变 化趋势见图 8。 图 8 显示,New-MRMR-L-NI 的分类准确率高 于传统算法 MRMR、Laplacian-Score。在分类准确 率达到最大时,New-MRMR-L-NI 所选特征子集 数仅为 20,小于 MRMR、Laplacian-Score 的最优特 征子集数。另外,新提算法在多数维度上均大于 传统算法 MRMR、Laplacian-Score 的分类准确 率。由于分类准确率越高,特征选择效果越好, 所以,在数据集 waveform 上,New-MRMR-L-NI、 New-MRMR-L-P 的特征选择效果更好。 0.8 1.0 0.6 0.4 分类准确率 0 10 20 30 40 数据维度 K MRMR Laplacian-Score New-MRMR-L-NI New-MRMR-L-P 图 8 New-MRMR-L-NI、New-MRMR-L-P、LaplacianScore、MRMR 在数据集 waveform 上,分类准确率 的变化趋势 Fig. 8 Correct classification trend of New-MRMR-L-NI, New-MRMR-L-P, Laplacian-Score, MRMR on the dataset waveform 不同维度下,New-MRMR-IG-NI、New-MRMRIG-P、传统算法 MRMR、Information-Gain 在数据 集 waveform 上分类准确率变化趋势见图 9。 0.8 0.7 0.9 0.6 0.5 分类准确率 0 10 20 30 40 数据维度 K MRMR Information-Gain New-MRMR-IG-NI New-MRMR-IG-P 图 9 New-MRMR-IG-NI、New-MRMR-IG-P、Information-Gain、MRMR 在数据集 waveform 上,分类准 确率的变化趋势 Fig. 9 Correct classification trend of New-MRMR-IG-NI, New-MRMR-IG-P, Information-Gain, MRMR on the dataset waveform 图 9 显示,在数据集 waveform 上,算法 NewMRMR-IG-NI 的分类准确率的曲线高于传统的算 法 MRMR、Information-Gain 的分类准确率。且算 法 New-MRMR-IG-P 的分类准确率在维度为 24 时达到最大。维度为 11 时,New-MRMR-IGP 的分类准确率略低于 MRMR、Information-Gain, 但是,在其余维度上均大于 MRMR、InformationGain。综上分析,在数据集 waveform 上,本文新 提出的特征选择算法效果明显。 表 5 给出了以上各种算法在数据集 clean 上 的实验结果,即经支持向量机分类后,得到的分 类准确率达到最大时所选择的特征数。 第 4 期 李顺勇,等:一种新的最大相关最小冗余特征选择算法 ·655·
·656· 智能系统学报 第16卷 表5分类准确率最大时数据集clean上各种算法分别所选择的特征数 Table 5 Number of features selected by various algorithms when the Classification precision is maximum on the clean data- set 对比算法 特征选择算法 所选特征数 分类准确率 New-MRMR-F-P 50 0.8656 New-MRMR-F-NI 70 0.8655 New-MRMR-IG-P 130 0.8654 New-MRMR-IG-NI 60 0.8487 本文提出的8种算法 New-MRMR-K-P 130 0.8658 New-MRMR-K-NI 20 0.8759 New-MRMR-L-P 90 0.8273 New-MRMR-L-NI 40 0.8837 MRMR 110 0.8175 Fisher Score 90 0.7982 传统算法 Laplacian Score 140 0.7823 Chi-square Test 130 0.8084 Information Gain 130 0.8259 由表5可以看出,在分类准确率方面,本文新 由图10可以看出,本文新提算法New-MRMR 提出的算法的最大分类准确率均高于5种传统的 F-NI、New-MRMR-F-P的分类准确率曲线均 特征选择算法。在分类准确率达到最优时所选的 MRMR、Fisher-Score的分类准确率的曲线之上。 特征子集数方面,尤其是算法Nw-MRMR-K-NI, 由此可见,在数据集claen上,算法New-MRMR-F- 其所选的特征子集数仅20,远小于原始的特征子 NI、New-MRMR-F-P的特征选择结果更优。 集数。所以,对于数据集clean而言,本文新提出 不同维度下,算法New-MRMR-K-NI、New- 的特征选择算法更加有效。 MRMR-K-P、传统特征选择算法MRMR、Chi- 不同维度下,算法New-MRMR-F-NI、New- Square-Test在数据集clean上的分类准确率变化 MRMR-F-P、传统特征选择算法MRMR、Fisher 趋势见图11。 Score在数据集clean上的分类准确率变化趋势见 0.9 图10。 0.9 0.8 0.7 0.8 0.6 Chi-square-Test 0.7 Fisher-Score -MRMR MRMR New-MRMR-K-NI New-MRMR-F-NI 02 -New-MRMR-K-P 0.6 -New-MRMR-F-P 40 80 120 160 数据维度K 0.5 0 40 80 120 160 图11 New-MRMR-K-NI、New-MRMR-K-P、Chi-Square- 数据维度K Test、MRMR在数据集clean上,分类准确率的变 化趋势 图10New-MRMR-F-NI、New-MRMR-F-P、Fisher- Fig.11 Correct classification trend of New-MRMR-K-NI, Score、MRMR在数据集clean上分类准确率的变化 New-MRMR-K-P,Chi-Square-Test,MRMR on 趋势 the dataset clean Fig.10 Correct classification trend of New-MRMR-F-NI, New-MRMR-F-P,Fisher-Score,MRMR on the 图I1中,New-MRMR-K-NI、New-MRMR-K dataset clean P的分类准确率的曲线均在传统的特征选择算法
表 5 分类准确率最大时数据集 clean 上各种算法分别所选择的特征数 Table 5 Number of features selected by various algorithms when the Classification precision is maximum on the clean dataset 对比算法 特征选择算法 所选特征数 分类准确率 本文提出的8种算法 New-MRMR-F-P 50 0.865 6 New-MRMR-F-NI 70 0.865 5 New-MRMR-IG-P 130 0.865 4 New-MRMR-IG-NI 60 0.848 7 New-MRMR-K-P 130 0.865 8 New-MRMR-K-NI 20 0.875 9 New-MRMR-L-P 90 0.827 3 New-MRMR-L-NI 40 0.883 7 传统算法 MRMR 110 0.817 5 Fisher Score 90 0.798 2 Laplacian Score 140 0.782 3 Chi-square Test 130 0.808 4 Information Gain 130 0.825 9 由表 5 可以看出,在分类准确率方面,本文新 提出的算法的最大分类准确率均高于 5 种传统的 特征选择算法。在分类准确率达到最优时所选的 特征子集数方面,尤其是算法 New-MRMR-K-NI, 其所选的特征子集数仅 20,远小于原始的特征子 集数。所以,对于数据集 clean 而言,本文新提出 的特征选择算法更加有效。 不同维度下,算法 New-MRMR-F-NI、NewMRMR-F-P、传统特征选择算法 MRMR、Fisher Score 在数据集 clean 上的分类准确率变化趋势见 图 10。 0.8 0.9 0.7 0.6 0.5 分类准确率 0 80 120 160 40 数据维度 K MRMR Fisher-Score New-MRMR-F-NI New-MRMR-F-P 图 10 New-MRMR-F-NI、New-MRMR-F-P、FisherScore、MRMR 在数据集 clean 上分类准确率的变化 趋势 Fig. 10 Correct classification trend of New-MRMR-F-NI, New-MRMR-F-P, Fisher-Score, MRMR on the dataset clean 由图 10 可以看出,本文新提算法 New-MRMRF-NI、 New-MRMR-F-P 的分类准确率曲线均 MRMR、Fisher-Score 的分类准确率的曲线之上。 由此可见,在数据集 claen 上,算法 New-MRMR-FNI、New-MRMR-F-P 的特征选择结果更优。 不同维度下,算法 New-MRMR-K-NI、NewMRMR-K-P、传统特征选择算法 MRMR、ChiSquare-Test 在数据集 clean 上的分类准确率变化 趋势见图 11。 0.8 0.9 0.7 0.5 0.6 分类准确率 0 80 40 120 160 数据维度 K MRMR Chi-square-Test New-MRMR-K-NI New-MRMR-K-P 图 11 New-MRMR-K-NI、New-MRMR-K-P、Chi-SquareTest、MRMR 在数据集 clean 上,分类准确率的变 化趋势 Fig. 11 Correct classification trend of New-MRMR-K-NI, New-MRMR-K-P, Chi-Square-Test, MRMR on the dataset clean 图 11 中,New-MRMR-K-NI、New-MRMR-KP 的分类准确率的曲线均在传统的特征选择算法 ·656· 智 能 系 统 学 报 第 16 卷
第4期 李顺勇,等:一种新的最大相关最小冗余特征选择算法 ·657· MRMR、Chi-quare-.Test之上,尤其是New-MRMR- 可见,在数据集clean上,新提算法New- K-NI,当分类准确率达到最大时,所选的特征子集 MRMR-LNM、New-MRMR-LP的特征选择效果更好。 数为20,远小于两种传统算法所选择的最优特征 不同维度下,算法New-MRMR-IG-NI、New- 子集数。可见,在数据集clean上,算法New-MRMR- MRMR-IG-P、传统特征选择算法MRMR、Fisher KNI、New-MRMR-K-P的特征选择效果更优。 Score在数据集clean上的分类准确率变化趋势见 不同维度下,算法New-MRMR-L-NI、New- 图13。 MRMR-L-P、传统特征选择算法MRMR、Fisher 0.9 Score在数据集clean上的分类准确率变化趋势见 图12。 08 09 08 Information-Gain MRMr ew-MRMR-IG-NI New-MRMR-IG-P 0.6 40 80 120 160 Laplacian-Score 数据维度K MRMR New-MRMR-L-NI New-MRMR-L-P 图13New-MRMR-lG-NI、New-MRMR-lG-P、Informa- 0.6 0 40 80 120 160 tion-Gain、MRMR在数据集clean上分类准确率 数据维度K 的变化趋势 Fig.13 Correct classification trend of New-MRMR-IG-NI, 图I2New-MRMR-L-NI、New-MRMR-L-P、Laplacian- New-MRMR-IG-P,Information-Gain,MRMR on Score、MRMR在数据集clean上分类准确率的变 the dataset clean 化趋势 Fig.12 Correct classification trend of New-MRMR-L-NI, 图13显示,本文新提算法New-MRMR-IG- New-MRMR-L-P,Laplacian-Score,MRMR on the NI、New-MRMR-IG-P的分类准确率曲线均在传 dataset clean 统算法的分类准确率曲线之上。所以,对于数据 图12可以看出,维度为40时,算法New-MRMR- 集clean,本文新提出的两种特征选择算法New- L-I就达到了最大分类准确率,且高于传统算法 MRMR-IG-NI、New-MRMR-IG-P所选择的特征子 MRMR、Laplacian-Score的分类准确率。此外,虽 集更加有效。 然在维度为I10时,New-MRMR-L-P的分类准确 表6给出了以上各种算法在数据集Parkinson's 率略低于MRMR,但在其余维度上的分类准确率 Disease上的实验结果,即经支持向量机分类后, 均高于MRMR、Laplacian-Score的分类准确率。 得到的分类准确率达到最大时所选择的特征数。 表6分类准确率最大时,数据集Parkinson's Disease上各种算法分别所选择的特征数 Table 6 Number of features selected by various algorithms when the Classification precision is maximum on the Parkinson's Disease dataset 对比算法 特征选择算法 所选特征数 分类准确率 New-MRMR-F-P 150 0.9142 New-MRMR-F-NI 210 0.8779 New-MRMR-IG-P 180 0.8834 New-MRMR-IG-NI 210 0.9142 本文新提出的8种算法 New-MRMR-K-P 300 0.8624 New-MRMR-K-NI 120 0.8874 New-MRMR-L-P 150 0.8816 New-MRMR-L-NI 240 0.9016 MRMR 540 0.8670 传统算法 Fisher Score 540 0.8253
MRMR、Chi-quare-Test 之上,尤其是 New-MRMRK-NI,当分类准确率达到最大时,所选的特征子集 数为 20,远小于两种传统算法所选择的最优特征 子集数。可见,在数据集 clean 上,算法 New-MRMRK-NI、New-MRMR-K-P 的特征选择效果更优。 不同维度下,算法 New-MRMR-L-NI、NewMRMR-L-P、传统特征选择算法 MRMR、Fisher Score 在数据集 clean 上的分类准确率变化趋势见 图 12。 0.8 0.9 0.7 0.6 分类准确率 0 80 120 160 40 数据维度 K MRMR Laplacian-Score New-MRMR-L-NI New-MRMR-L-P 图 12 New-MRMR-L-NI、New-MRMR-L-P、LaplacianScore、MRMR 在数据集 clean 上分类准确率的变 化趋势 Fig. 12 Correct classification trend of New-MRMR-L-NI, New-MRMR-L-P, Laplacian-Score, MRMR on the dataset clean 图 12 可以看出,维度为 40 时,算法 New-MRMRL-NI 就达到了最大分类准确率,且高于传统算法 MRMR、Laplacian-Score 的分类准确率。此外,虽 然在维度为 110 时,New-MRMR-L-P 的分类准确 率略低于 MRMR,但在其余维度上的分类准确率 均高于 MRMR、Laplacian-Score 的分类准确率。 可见,在数据集 clean 上,新提算法 NewMRMR-L-NI、New-MRMR-L-P 的特征选择效果更好。 不同维度下,算法 New-MRMR-IG-NI、NewMRMR-IG-P、传统特征选择算法 MRMR、Fisher Score 在数据集 clean 上的分类准确率变化趋势见 图 13。 0.8 0.9 0.7 0.6 分类准确率 0 40 80 120 160 数据维度 K MRMR Information-Gain New-MRMR-IG-NI New-MRMR-IG-P 图 13 New-MRMR-IG-NI、New-MRMR-IG-P、Information-Gain、MRMR 在数据集 clean 上分类准确率 的变化趋势 Fig. 13 Correct classification trend of New-MRMR-IG-NI, New-MRMR-IG-P, Information-Gain, MRMR on the dataset clean 图 13 显示,本文新提算法 New-MRMR-IGNI、New-MRMR-IG-P 的分类准确率曲线均在传 统算法的分类准确率曲线之上。所以,对于数据 集 clean,本文新提出的两种特征选择算法 NewMRMR-IG-NI、New-MRMR-IG-P 所选择的特征子 集更加有效。 表 6 给出了以上各种算法在数据集 Parkinson’s Disease 上的实验结果,即经支持向量机分类后, 得到的分类准确率达到最大时所选择的特征数。 表 6 分类准确率最大时,数据集 Parkinson’s Disease 上各种算法分别所选择的特征数 Table 6 Number of features selected by various algorithms when the Classification precision is maximum on the Parkinson’s Disease dataset 对比算法 特征选择算法 所选特征数 分类准确率 本文新提出的8种算法 New-MRMR-F-P 150 0.914 2 New-MRMR-F-NI 210 0.877 9 New-MRMR-IG-P 180 0.883 4 New-MRMR-IG-NI 210 0.914 2 New-MRMR-K-P 300 0.862 4 New-MRMR-K-NI 120 0.887 4 New-MRMR-L-P 150 0.881 6 New-MRMR-L-NI 240 0.901 6 传统算法 MRMR 540 0.867 0 Fisher Score 540 0.825 3 第 4 期 李顺勇,等:一种新的最大相关最小冗余特征选择算法 ·657·
·658· 智能系统学报 第16卷 续表6 对比算法 特征选择算法 所选特征数 分类准确率 Laplacian Score 240 0.8100 Chi-square Test 300 0.7249 Information Gain 210 0.7538 表6显示,算法New-MRMR-F-P的分类准确 Score在数据集Parkinson's Disease上的分类准 率高达0.9124,且此时所选择的特征子集数仅为 确率变化趋势见图15。 150,远小于传统的5种算法的最优特征子集数。 0.9 另外,除了New-MRMR-K-P的分类准确率略低于 传统算法MRMR的分类准确率之外,新提出的其 0.8 余算法均大于传统特征选择算法。由此可见,本 文新提出的特征选择算法在数据集Parkinson's 0.7 Disease上的特征选择效果更好。 Chi-square-Test -MRMR 不同维度下,算法New-MRMR-F-NI、New- 0.6 *New-MRMR-F-NI -New-MRMR-F-P MRMR-F-P,传统特征选择算法MRMR、Fisher- Score在数据集Parkinson's Disease上的分类准 0.5 200 400 600800 确率变化趋势见图14。 数据维度K 0.95 图15 New-MRMR-K-NI、New-MRMR-K-P、Chi-Square- Test、MRMR在数据集Parkinson's Disease上分 类准确率的变化趋势 0.90 Fig.15 Correct classification trend of New-MRMR- K-NI,New-MRMR-K-P,Chi-Square-Test, 0.85 MRMR on the Parkinson's Disease dataset 由图I5可见,在绝大多数维度上,New-MRMR- 0.80 Fisher-Score MrMr F-NI、New-MRMR-F-P的分类准确率均高于 New-MRMR-F-NI New-MRMR-F-P MRMR、Chi-Square-Test的分类准确率。在维度 0.75 0 200 400 600 800 为l20时,New-MRMR-F-NI就已然达到了最大分 数据维度K 类准确率,大于MRMR、Chi-Square-Test的最大分 图14New-MRMR-F-NI、New-MRMR-F-P、Fisher- 类准确率。由此可见,在数据集Parkinson'sDis Score、MRMR在数据集Parkinson's Disease上 ease上,本文新提算法特征选择效果更好。 分类准确率的变化趋势 不同维度下,本文新提出的特征选择算法 Fig.14 Correct classification trend of New-MRMR-F-NI, New-MRMR-F-P,Fisher-Score,MRMR on the New-MRMR-F-NI、New-MRMR-F-P以及传统特征 Parkinson's Disease dataset 选择算法MRMR以及Fisher Score在数据集Par- 图14显示,算法New-MRMR-F-NI的分类准 kinson's Disease上的分类准确率变化趋势见图l6。 确率曲线在传统算法MRMR、Fisher-Score的分类 由图I6可以看出,算法New-MRMR-L-P的 准确率曲线之上。在维度为540时,New-MRMR- 分类准确率的曲线高于传统算法MRMR、Lapla- F-P的分类准确率略低于MRMR的分类准确率。 cian-Score的分类准确率曲线,并且,在维度为 但是,在其余维度上,New-MRMR-F-P的分类准 240时,New-MRMR-L-NI就已经达到了最大分类 确率均高于传统算法MRMR、Fisher-Score的分类 准确率,远小于MRMR达到最大分类准确率时所 准确率。更重要的是,在达到最大分类准确率 选择的特征子集数(540)。由此可见,在数据集 时,New-MRMR-F-NI所选的特征子集数仅为 Parkinson's Disease上,本文新提算法特征选择 2l0,远低于MRMR、Fisher-Score的最优特征子集 效果更好。 数。所以,在数据集Parkinson's Disease上,本 不同维度下,本文新提算法New-MRMR-F- 文新提出的算法特征选择效果更好。 NI、New-MRMR-F-P以及传统算法MRMR、Fish- 不同维度下,本文新提算法New-MRMR-F- er Score在数据集Parkinson's Disease上的分类 NI、New-MRMR-F-P、传统算法MRMR、Fisher- 准确率变化趋势见图17
表 6 显示,算法 New-MRMR-F-P 的分类准确 率高达 0.912 4,且此时所选择的特征子集数仅为 150,远小于传统的 5 种算法的最优特征子集数。 另外,除了 New-MRMR-K-P 的分类准确率略低于 传统算法 MRMR 的分类准确率之外,新提出的其 余算法均大于传统特征选择算法。由此可见,本 文新提出的特征选择算法在数据集 Parkinson’s Disease 上的特征选择效果更好。 不同维度下,算法 New-MRMR-F-NI、NewMRMR-F-P,传统特征选择算法 MRMR、FisherScore 在数据集 Parkinson’s Disease 上的分类准 确率变化趋势见图 14。 0.85 0.90 0.95 0.80 0.75 分类准确率 0 200 400 600 800 数据维度 K MRMR Fisher-Score New-MRMR-F-NI New-MRMR-F-P 图 14 New-MRMR-F-NI、New-MRMR-F-P、FisherScore、MRMR 在数据集 Parkinson’s Disease 上 分类准确率的变化趋势 Fig. 14 Correct classification trend of New-MRMR-F-NI, New-MRMR-F-P, Fisher-Score, MRMR on the Parkinson’s Disease dataset 图 14 显示,算法 New-MRMR-F-NI 的分类准 确率曲线在传统算法 MRMR、Fisher-Score 的分类 准确率曲线之上。在维度为 540 时,New-MRMRF-P 的分类准确率略低于 MRMR 的分类准确率。 但是,在其余维度上,New-MRMR-F-P 的分类准 确率均高于传统算法 MRMR、Fisher-Score 的分类 准确率。更重要的是,在达到最大分类准确率 时 ,New-MRMR-F-NI 所选的特征子集数仅为 210,远低于 MRMR、Fisher-Score 的最优特征子集 数。所以,在数据集 Parkinson’s Disease 上,本 文新提出的算法特征选择效果更好。 不同维度下,本文新提算法 New-MRMR-FNI、New-MRMR-F-P、传统算法 MRMR、FisherScore 在数据集 Parkinson’s Disease 上的分类准 确率变化趋势见图 15。 0.8 0.9 0.7 0.6 0.5 分类准确率 0 200 400 600 800 数据维度 K MRMR Chi-square-Test New-MRMR-F-NI New-MRMR-F-P 图 15 New-MRMR-K-NI、New-MRMR-K-P、Chi-SquareTest、MRMR 在数据集 Parkinson’s Disease 上分 类准确率的变化趋势 Fig. 15 Correct classification trend of New-MRMRK-NI, New-MRMR-K-P, Chi-Square-Test, MRMR on the Parkinson’s Disease dataset 由图 15 可见,在绝大多数维度上,New-MRMRF-NI、 New-MRMR-F-P 的分类准确率均高于 MRMR、Chi-Square-Test 的分类准确率。在维度 为 120 时,New-MRMR-F-NI 就已然达到了最大分 类准确率,大于 MRMR、Chi-Square-Test 的最大分 类准确率。由此可见,在数据集 Parkinson’s Disease 上,本文新提算法特征选择效果更好。 不同维度下,本文新提出的特征选择算法 New-MRMR-F-NI、New-MRMR-F-P 以及传统特征 选择算法 MRMR 以及 Fisher Score 在数据集 Parkinson's Disease 上的分类准确率变化趋势见图 16。 由图 16 可以看出,算法 New-MRMR-L-P 的 分类准确率的曲线高于传统算法 MRMR、Laplacian-Score 的分类准确率曲线,并且,在维度为 240 时,New-MRMR-L-NI 就已经达到了最大分类 准确率,远小于 MRMR 达到最大分类准确率时所 选择的特征子集数 (540)。由此可见,在数据集 Parkinson’s Disease 上,本文新提算法特征选择 效果更好。 不同维度下,本文新提算法 New-MRMR-FNI、New-MRMR-F-P 以及传统算法 MRMR、Fisher Score 在数据集 Parkinson’s Disease 上的分类 准确率变化趋势见图 17。 续表 6 对比算法 特征选择算法 所选特征数 分类准确率 Laplacian Score 240 0.810 0 Chi-square Test 300 0.724 9 Information Gain 210 0.753 8 ·658· 智 能 系 统 学 报 第 16 卷