正在加载图片...
·650· 智能系统学报 第16卷 冗余信息,降低训练样本的维度和分类样本的复 余度。2020年,周传华等m提出的最大相关与独 杂度,而且能很好地保持原始特征包含的信息, 立分类信息最大化特征选择算法,用互信息度量 对于人们理解和判断观测来说更加容易。特征选 特征与类别之间的相关性,用独立分类信息综合 择根据其是否与后续学习算法独立可以分为过滤 衡量新分类信息和特征冗余,尽管在特征选择过 式和封装式两种。过滤式特征选择方法独立于后 程中综合考虑了特征与类别的相关性、特征之间 续的学习算法,通过数据的本质属性对所有特征 的冗余性,以及特征包含的新分类信息,并结合最 进行评分,在此评价过程中不会借用分类模型来 大最小准则对特征的重要性进行了非线性评价, 完成1。其中具有代表性的方法有T检验(T 但其目标函数与传统的MRMR算法的目标函数 test)l、Fisher score、信息增益(information gain, 类似,依然不能根据客户的实际需求进行特征 IG)⑧等。但是,过滤式特征选择方法往往会忽略 选择。 特征之间的相关性。封装式特征选择算法与后续 针对上述特征选择算法中存在的冗余度和相 学习算法相关,利用学习算法的性能评价所选特 关度的度量准则单一以及评价函数问题,提出了 征子集的好坏,因此在精度方面要优于过滤式特 新方案。在冗余度度量准则方面引入了2种不同 征选择以。基于特征选择的目的,已经有部分学 的方法,在相关度度量准则方面引入了4种不同 者做了相关研究。例如,传统的基于空间搜索的 的方法,从而组合衍生出8种特征选择算法,提出 最大相关最小冗余(minimal redundancy maximal 了新的目标函数。 relevance,.MRMR)1算法,使用互信息来度量特 征之间的冗余度以及与类别之间的相关度,并且 1新的特征选择算法 利用信息嫡和信息差两个函数来选取最优特征子 MRMR算法是最常用、最典型的基于空间搜 集。但是,由于冗余度和相关度的评价准则单一, 索的特征选择算法。其中,最大相关即特征与类 所以使得该特征选择算法的使用范围较窄。 别间的相关度要最大,最小冗余即特征与特征之 2018年,郭凯文等提出了基于特征选择和聚类 间的相关度要最小8,该算法中,冗余度和相关 的分类算法,特征选择标准采用的是传统的基于 度均是利用互信息作为度量准则,就效能而言, 空间搜索的最大相关最小冗余准则,将信息差作 比只考虑特征与类别之间的相关度,或者只考虑 为目标函数来求解最优特征子集。虽然该算法在 特征之间冗余度的特征选择算法要好。但是,在 目标函数中增加了相关度和冗余度的权重因子, 现实生活中,我们面临的数据往往纷繁复杂,面 但是,在求解最优特征子集的过程中需要对权重 对不同的数据,MRMR算法呈现出的效果有较大 因子不断地赋值以寻求最优子集,计算量较大; 差异,从而降低了该算法的适用范围。 2020年,李纯果等提出的基于排序互信息的无 针对MRMR算法存在的问题,提出一种新的 监督特征选择,是基于排序互信息反应的两属性 最大相关最小冗余特征选择算法(new algorithm 之间的单调关系,用每个属性与其他属性之间的 for feature selection with maximum relation and min- 平均互信息,来衡量每个属性与排序学习的相关 imum redundancy,New-MRMR)。这里New- 度,平均互信息最高的视为排序最相关的属性。 MRMR算法仅是新提出的一个特征选择的框架, 但是,该算法忽略了特征与特征之间的冗余度, 在度量特征与特征之间冗余度时选用了2种评价 只在低维度且样本量较少的模拟数据集上进行了 准则,在度量特征与特征之间相似度时选用了 有效性验证,对真实数据集的特征选择效果不明 4种评价准则,从而衍生出8种特征选择算法,当 了;2020年,刘云等16提出了混合蒙特卡罗搜索 面对不同的用户需求时,选用不同特征选择算 的特征选择算法的优化,根据蒙特卡罗树搜索方 法,使得新提算法的适用范围更广。具体的特征 法生成了一个初始特征子集,然后利用ReliefF算 选择流程见图1。 法选择前k个特征组成候选特征集,最后,用 图1可以看出,特征选择算法的基本流程为: KNN分类器的分类精度评估候选特征,选择高精 先对原始数据集进行预处理,将原始数据集分为 度的候选特征作为最佳特征子集。然而,Re- 测试集和训练集,然后,在训练集上选择不同的 liefF算法是从同类和不同类中各选取k个近邻样 冗余度和相关度评价准则来训练模型,进行特征 本,求平均值得到各个特性权值,即特征与类别 选择,得到最优特征子集,最后,利用测试集来验 之间的相关性,并没有考虑特征与特征之间的冗 证模型的有效性。冗余信息,降低训练样本的维度和分类样本的复 杂度,而且能很好地保持原始特征包含的信息, 对于人们理解和判断观测来说更加容易。特征选 择根据其是否与后续学习算法独立可以分为过滤 式和封装式两种。过滤式特征选择方法独立于后 续的学习算法,通过数据的本质属性对所有特征 进行评分,在此评价过程中不会借用分类模型来 完成[4-5]。其中具有代表性的方法有 T 检验 (T￾test)[6] 、Fisher score[7] 、信息增益 (information gain, IG)[8] 等。但是,过滤式特征选择方法往往会忽略 特征之间的相关性。封装式特征选择算法与后续 学习算法相关,利用学习算法的性能评价所选特 征子集的好坏,因此在精度方面要优于过滤式特 征选择[8-12]。基于特征选择的目的,已经有部分学 者做了相关研究。例如,传统的基于空间搜索的 最大相关最小冗余 (minimal redundancy maximal relevance,MRMR)[13] 算法,使用互信息来度量特 征之间的冗余度以及与类别之间的相关度,并且 利用信息熵和信息差两个函数来选取最优特征子 集。但是,由于冗余度和相关度的评价准则单一, 所以使得该特征选择算法的使用范围较窄。 2018 年,郭凯文等[14] 提出了基于特征选择和聚类 的分类算法,特征选择标准采用的是传统的基于 空间搜索的最大相关最小冗余准则,将信息差作 为目标函数来求解最优特征子集。虽然该算法在 目标函数中增加了相关度和冗余度的权重因子, 但是,在求解最优特征子集的过程中需要对权重 因子不断地赋值以寻求最优子集,计算量较大; 2020 年,李纯果等[15] 提出的基于排序互信息的无 监督特征选择,是基于排序互信息反应的两属性 之间的单调关系,用每个属性与其他属性之间的 平均互信息,来衡量每个属性与排序学习的相关 度,平均互信息最高的视为排序最相关的属性。 但是,该算法忽略了特征与特征之间的冗余度, 只在低维度且样本量较少的模拟数据集上进行了 有效性验证,对真实数据集的特征选择效果不明 了;2020 年,刘云等[16] 提出了混合蒙特卡罗搜索 的特征选择算法的优化,根据蒙特卡罗树搜索方 法生成了一个初始特征子集,然后利用 ReliefF 算 法选择前 k 个特征组成候选特征集,最后,用 KNN 分类器的分类精度评估候选特征, 选择高精 度的候选特征作为最佳特征子集。然而,Re￾liefF 算法是从同类和不同类中各选取 k 个近邻样 本,求平均值得到各个特性权值,即特征与类别 之间的相关性,并没有考虑特征与特征之间的冗 余度。2020 年,周传华等[17] 提出的最大相关与独 立分类信息最大化特征选择算法,用互信息度量 特征与类别之间的相关性,用独立分类信息综合 衡量新分类信息和特征冗余,尽管在特征选择过 程中综合考虑了特征与类别的相关性、特征之间 的冗余性,以及特征包含的新分类信息,并结合最 大最小准则对特征的重要性进行了非线性评价, 但其目标函数与传统的 MRMR 算法的目标函数 类似,依然不能根据客户的实际需求进行特征 选择。 针对上述特征选择算法中存在的冗余度和相 关度的度量准则单一以及评价函数问题,提出了 新方案。在冗余度度量准则方面引入了 2 种不同 的方法,在相关度度量准则方面引入了 4 种不同 的方法,从而组合衍生出 8 种特征选择算法,提出 了新的目标函数。 1 新的特征选择算法 MRMR 算法是最常用、最典型的基于空间搜 索的特征选择算法。其中,最大相关即特征与类 别间的相关度要最大,最小冗余即特征与特征之 间的相关度要最小[18-19] ,该算法中,冗余度和相关 度均是利用互信息作为度量准则,就效能而言, 比只考虑特征与类别之间的相关度,或者只考虑 特征之间冗余度的特征选择算法要好。但是,在 现实生活中,我们面临的数据往往纷繁复杂,面 对不同的数据,MRMR 算法呈现出的效果有较大 差异,从而降低了该算法的适用范围。 针对 MRMR 算法存在的问题,提出一种新的 最大相关最小冗余特征选择算法 (new algorithm for feature selection with maximum relation and min￾imum redundancy,New-MRMR)。这里 New￾MRMR 算法仅是新提出的一个特征选择的框架, 在度量特征与特征之间冗余度时选用了 2 种评价 准则,在度量特征与特征之间相似度时选用了 4 种评价准则,从而衍生出 8 种特征选择算法,当 面对不同的用户需求时,选用不同特征选择算 法,使得新提算法的适用范围更广。具体的特征 选择流程见图 1。 图 1 可以看出,特征选择算法的基本流程为: 先对原始数据集进行预处理,将原始数据集分为 测试集和训练集,然后,在训练集上选择不同的 冗余度和相关度评价准则来训练模型,进行特征 选择,得到最优特征子集,最后,利用测试集来验 证模型的有效性。 ·650· 智 能 系 统 学 报 第 16 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有