正在加载图片...
第12卷第4期 智能系统学报 Vol.12 No.4 2017年8月 CAAI Transactions on Intelligent Systems Aug.2017 D0I:10.11992/is.201609008 网络出版地址:http://kns.cmki.net/kcms/detail/23.1538.tp.20170407.1758.016.html 基于特征相关的谱特征选择算法 胡敏杰,林耀进,杨红和,郑荔平,傅为 (闽南师范大学计算机学院,福建漳州363000) 摘要:针对传统的谱特征选择算法只考虑单特征的重要性,将特征之间的统计相关性引人到传统谱分析中,构造 了基于特征相关的谱特征选择模型。首先利用Laplacian Score找出最核心的一个特征作为已选特征,然后设计了新 的特征组区分能力目标函数,采用前向贪心搜索策略依次评价候选特征,并选中使目标函数最小的候选特征加入到 已选特征。该算法不仅考虑了特征重要性,而且充分考虑了特征之间的关联性,最后在2个不同分类器和8个UC 数据集上的实验结果表明:该算法不仅提高了特征子集的分类性能,而且获得较高的分类精度下所需特征子集的数 量较少。 关键词:特征选择:谱特征选择;谱图理论:特征关联;区分能力;索搜策略;拉普拉斯;分类精度 中图分类号:TP18文献标志码:A文章编号:1673-4785(2017)04-0519-07 中文引用格式:胡敏杰,林耀进,杨红和,等.基于特征相关的谱特征选择算法[J].智能系统学报,2017,12(4):519-525. 英文引用格式:HU Minjie,LIN Yaojin,YANG Honghe,etal.Spectral feature selection based on feature correlation[J].CAAI transactions on intelligent systems,2017,12(4):519-525. Spectral feature selection based on feature correlation HU Minjie,LIN Yaojin,YANG Honghe,ZHENG Liping,FU Wei (School of Computer Science,Minnan Normal University,Zhangzhou 363000,China) Abstract:In the traditional spectrum feature selection algorithm,only the importance of single features are considered.In this paper,we introduce the statistical correlation between features into traditional spectrum analysis and construct a spectral feature selection model based on feature correlation.First,the proposed model utilizes the Laplacian Score to identify the most central feature as the selected feature,then designs a new feature group discernibility objective function,and applies the forward greedy search strategy to sequentially evaluate the candidate features.Then,the candidate feature with the minimum objective function is added to the selected features.The algorithm considers both the importance of feature as well as the correlations between features.We conducted experiments on two different classifiers and eight UCI datasets,the results of which show that the algorithm effectively improves the classification performance of the feature subset and also obtains a small number of feature subsets with high classification precision. Keywords:feature selection;spectral feature selection;spectral graph theory;feature relevance;discernibility; search strategy;Laplacian score:;classification performance 特征选择是指在原始特征空间中选择能让给 和不显著改变类分布情况下选择一个重要特征子 定任务的评价准则达到最优的特征子集的过程,是 集并且移除不相关或不重要的特征,使留下的特征 模式识别、机器学习等领域中数据预处理的关键步 具有更强的分辨率。其中评价准则是特征选择 骤之一【1]。其主要目标是在不显著降低分类精度 算法中的关键步骤,国内外研究者已设计了多种评 价准则,包括距离度量[)、信息度量[6和谱图理 收稿日期:2016-09-08.网络出版日期:2017-04-07 论[7-剧等方法。由于基于谱图理论的特征选择模型 基金项目:国家自然科学基金项目(61303131,61379021):福建省教 有厅科技项目UA14192). 的可理解性及其完备的数学理论,受到了广泛的 通信作者:胡敏杰.E-mail:zzhuminjie@sina.com, 关注[8-]。1); 第 12 卷第 4 期 智 能 系 统 学 报 Vol.12 №.4 2017 年 8 月 CAAI Transactions on Intelligent Systems Aug. 201 通信作者:胡敏杰.E-mail:zzhuminjie@ sina.com. 7 DOI:10.11992 / tis.201609008 网络出版地址:http: / / kns.cnki.net / kcms/ detail / 23.1538.tp.20170407.1758.016.html 基于特征相关的谱特征选择算法 胡敏杰,林耀进,杨红和,郑荔平,傅为 (闽南师范大学 计算机学院,福建 漳州 363000) 摘 要:针对传统的谱特征选择算法只考虑单特征的重要性,将特征之间的统计相关性引入到传统谱分析中,构造 了基于特征相关的谱特征选择模型。 首先利用 Laplacian Score 找出最核心的一个特征作为已选特征,然后设计了新 的特征组区分能力目标函数,采用前向贪心搜索策略依次评价候选特征,并选中使目标函数最小的候选特征加入到 已选特征。 该算法不仅考虑了特征重要性,而且充分考虑了特征之间的关联性,最后在 2 个不同分类器和 8 个 UCI 数据集上的实验结果表明:该算法不仅提高了特征子集的分类性能,而且获得较高的分类精度下所需特征子集的数 量较少。 关键词:特征选择;谱特征选择;谱图理论;特征关联;区分能力;索搜策略;拉普拉斯;分类精度 中图分类号:TP18 文献标志码:A 文章编号:1673-4785(2017)04-0519-07 中文引用格式:胡敏杰,林耀进,杨红和,等.基于特征相关的谱特征选择算法[J]. 智能系统学报, 2017, 12(4): 519-525. 英文引用格式:HU Minjie, LIN Yaojin, YANG Honghe, et al. Spectral feature selection based on feature correlation[ J]. CAAI transactions on intelligent systems, 2017, 12(4): 519-525. Spectral feature selection based on feature correlation HU Minjie, LIN Yaojin, YANG Honghe, ZHENG Liping, FU Wei (School of Computer Science, Minnan Normal University, Zhangzhou 363000, China) Abstract:In the traditional spectrum feature selection algorithm, only the importance of single features are considered. In this paper, we introduce the statistical correlation between features into traditional spectrum analysis and construct a spectral feature selection model based on feature correlation. First, the proposed model utilizes the Laplacian Score to identify the most central feature as the selected feature, then designs a new feature group discernibility objective function, and applies the forward greedy search strategy to sequentially evaluate the candidate features. Then, the candidate feature with the minimum objective function is added to the selected features. The algorithm considers both the importance of feature as well as the correlations between features. We conducted experiments on two different classifiers and eight UCI datasets, the results of which show that the algorithm effectively improves the classification performance of the feature subset and also obtains a small number of feature subsets with high classification precision. Keywords: feature selection; spectral feature selection; spectral graph theory; feature relevance; discernibility; search strategy; Laplacian score;classification performance 收稿日期:2016-09-08. 网络出版日期:2 4-07. 基金项目:国家自然科学基金项目( 613031 , 37902 - 6 0 1 0 3 1 1 7 特征选择是指在原始特征空间中选择能让给 定任务的评价准则达到最优的特征子集的过程,是 模式识别、机器学习等领域中数据预处理的关键步 骤之一[1-3] 。 其主要目标是在不显著降低分类精度 和不显著改变类分布情况下选择一个重要特征子 集并且移除不相关或不重要的特征,使留下的特征 具有更强的分辨率[4] 。 其中评价准则是特征选择 算法中的关键步骤,国内外研究者已设计了多种评 价准则,包括距离度量[5] 、 信息度量[6] 和谱图理 论[7-8]等方法。 由于基于谱图理论的特征选择模型 的可理解性及其完备的数学理论,受到了广泛的 关注[8-9] 。 育厅科技项目(JA14192). 福建省教
向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有