正在加载图片...
第12卷第3期 智能系统学报 Vol.12 No.3 2017年6月 CAAI Transactions on Intelligent Systems Jun.2017 D0I:10.11992/is.201705004 网络出版地址:http:/kns.cmki.net/kcms/detail/23.1538.TP.20170703.1854.018.html 基于粗糙集相对分类信息熵和 粒子群优化的特征选择方法 翟俊海12,刘博3,张素芳4 (1.河北大学河北省机器学习与计算智能重点实验室,河北保定071002:2.浙江师范大学数理与信息工程学院,浙 江金华321004:3.河北大学计算机科学与技术学院,河北保定071002:4.中国气象局气象干部培训学院河北分 院,河北保定071000) 摘要:特征选择是指从初始特征全集中,依据既定规则筛选出特征子集的过程,是数据挖掘的重要预处理步骤。 通过剔除冗余属性,以达到降低算法复杂度和提高算法性能的目的。针对离散值特征选择问题,提出了一种将粗糙 集相对分类信息嫡和粒子群算法相结合的特征选择方法,依托粒子群算法,以相对分类信息嫡作为适应度函数,并 与其他基于进化算法的特征选择方法进行了实验比较,实验结果表明本文提出的方法具有一定的优势。 关键词:数据挖掘:特征选择:数据预处理:粗糙集:决策表:粒子群算法:信息嫡:适应度函数 中图分类号:TP181文献标志码:A文章编号:1673-4785(2017)03-0397-08 中文引用格式:翟俊海,刘博,张素芳.基于粗糙集相对分类信息熵和粒子群优化的特征选择方法[J].智能系统学报,2017,12(3): 397-404. 英文引用格式:ZHAI Junhai,LIU Bo,ZHANG Sufang.A feature selection approach based on rough set relative classification information entropy and particle swarm optimization[.CAAI transactions on intelligent systems,2017,12(3):397-404. A feature selection approach based on rough set relative classification information entropy and particle swarm optimization ZHAI Junhai2,LIU Bo3,ZHANG Sufang" (1.Key Lab of Machine Learning and Computational Intelligence,Hebei University,Baoding 071002,China;2.College of Mathematics,Physics and Information Engineering,Zhejiang Normal University,Jinhua 321004,China;3.College of Computer Science and Technology,Hebei University,Baoding 071002,China;4.Hebei Branch of Meteorological Cadres Training Institute, China Meteorological Administration,Baoding 071000,China) Abstract:Feature selection,an important step in data mining,is a process that selects a subset from an original feature set based on some criteria.Its purpose is to reduce the computational complexity of the learning algorithm and to improve the performance of data mining by removing irrelevant and redundant features.To deal with the problem of discrete values,a feature selection approach was proposed in this paper.It uses a particle swarm optimization algorithm to search the optimal feature subset.Further,it employs relative classification information entropy as a fitness function to measure the significance of the feature subset.Then,the proposed approach was compared with other evolutionary algorithm-based methods of feature selection.The experimental results confirm that the proposed approach outperforms genetic algorithm-based methods. Keywords:data mining;feature selection;data preprocessing;rough set;decision table;particle swarm optimization;information entropy;fitness function 特征选择1-]是数据挖掘的重要预处理步骤, 集的评价准则或启发式确定后,特征选择问题从某 通过删除不必要特征,以达到降低算法复杂度,提 种意义上来说就是在特征空间中搜索最优特征子 高算法的性能。特征子集的评价至关重要,特征子 集问题。研究人员提出了许多特征选择算法,这些 算法有的是从设计特征子集搜索的方法考虑的,有 收稿日期:2017-05-07.网络出版日期:2017-07-03. 基金项目:国家自然科学基金项目(71371063):河北省自然科学基金的是从设计评价特征子集重要性的度量考虑的。 项目(F2017201026):浙江省计算机科学与技术重中之重学 科(浙江师范大学)资助项目. 特征选择方法主要有筛选法(6 ilter method)、封 通信作者:翟俊海.E-mail:mcjh@126.com第 12 卷第 3 期 智 能 系 统 学 报 Vol.12 №.3 2017 年 6 月 CAAI Transactions on Intelligent Systems Jun. 2017 DOI:10.11992 / tis. 201705004 网络出版地址:http: / / kns.cnki.net / kcms/ detail / 23.1538.TP.20170703.1854.018.html 基于粗糙集相对分类信息熵和 粒子群优化的特征选择方法 翟俊海1, 2 , 刘博3 , 张素芳4 (1.河北大学 河北省机器学习与计算智能重点实验室,河北 保定 071002; 2. 浙江师范大学 数理与信息工程学院,浙 江 金华 321004; 3. 河北大学 计算机科学与技术学院,河北 保定 071002; 4. 中国气象局 气象干部培训学院河北分 院,河北 保定 071000) 摘 要:特征选择是指从初始特征全集中,依据既定规则筛选出特征子集的过程,是数据挖掘的重要预处理步骤。 通过剔除冗余属性,以达到降低算法复杂度和提高算法性能的目的。 针对离散值特征选择问题,提出了一种将粗糙 集相对分类信息熵和粒子群算法相结合的特征选择方法,依托粒子群算法,以相对分类信息熵作为适应度函数,并 与其他基于进化算法的特征选择方法进行了实验比较,实验结果表明本文提出的方法具有一定的优势。 关键词:数据挖掘;特征选择;数据预处理;粗糙集;决策表;粒子群算法;信息熵;适应度函数 中图分类号:TP181 文献标志码:A 文章编号:1673-4785(2017)03-0397-08 中文引用格式:翟俊海,刘博,张素芳.基于粗糙集相对分类信息熵和粒子群优化的特征选择方法[J]. 智能系统学报, 2017, 12(3): 397-404. 英文引用格式:ZHAI Junhai,LIU Bo,ZHANG Sufang. A feature selection approach based on rough set relative classification information entropy and particle swarm optimization[J]. CAAI transactions on intelligent systems, 2017, 12(3): 397-404. A feature selection approach based on rough set relative classification information entropy and particle swarm optimization ZHAI Junhai 1,2 , LIU Bo 3 , ZHANG Sufang 4 (1. Key Lab of Machine Learning and Computational Intelligence, Hebei University, Baoding 071002, China; 2. College of Mathematics, Physics and Information Engineering, Zhejiang Normal University, Jinhua 321004, China; 3. College of Computer Science and Technology, Hebei University, Baoding 071002, China; 4. Hebei Branch of Meteorological Cadres Training Institute, China Meteorological Administration, Baoding 071000, China) Abstract:Feature selection, an important step in data mining, is a process that selects a subset from an original feature set based on some criteria. Its purpose is to reduce the computational complexity of the learning algorithm and to improve the performance of data mining by removing irrelevant and redundant features. To deal with the problem of discrete values, a feature selection approach was proposed in this paper. It uses a particle swarm optimization algorithm to search the optimal feature subset. Further, it employs relative classification information entropy as a fitness function to measure the significance of the feature subset. Then, the proposed approach was compared with other evolutionary algorithm⁃based methods of feature selection. The experimental results confirm that the proposed approach outperforms genetic algorithm⁃based methods. Keywords: data mining; feature selection; data preprocessing; rough set; decision table; particle swarm optimization; information entropy; fitness function 收稿日期:2017-05-07. 网络出版日期:2017-07-03. 基金项目:国家自然科学基金项目(71371063); 河北省自然科学基金 项目(F2017201026); 浙江省计算机科学与技术重中之重学 科(浙江师范大学)资助项目. 通信作者:翟俊海. E⁃mail: mczjh@ 126.com. 特征选择[1-2] 是数据挖掘的重要预处理步骤, 通过删除不必要特征,以达到降低算法复杂度,提 高算法的性能。 特征子集的评价至关重要,特征子 集的评价准则或启发式确定后,特征选择问题从某 种意义上来说就是在特征空间中搜索最优特征子 集问题。 研究人员提出了许多特征选择算法,这些 算法有的是从设计特征子集搜索的方法考虑的,有 的是从设计评价特征子集重要性的度量考虑的。 特征选择方法主要有筛选法(filter method )、封
向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有