第１２卷第３期智能系统学报Ｖｏｌ．１２ №．３２０

正在加载图片...

第12卷第3期智能系统学报 Vol.12 No.3 2017年6月 CAAI Transactions on Intelligent Systems Jun.2017 D0I:10.11992/is.201705004 网络出版地址：http:/kns.cmki.net/kcms/detail/23.1538.TP.20170703.1854.018.html 基于粗糙集相对分类信息熵和粒子群优化的特征选择方法翟俊海12，刘博3，张素芳4 (1.河北大学河北省机器学习与计算智能重点实验室，河北保定071002：2.浙江师范大学数理与信息工程学院，浙江金华321004：3.河北大学计算机科学与技术学院，河北保定071002：4.中国气象局气象干部培训学院河北分院，河北保定071000) 摘要：特征选择是指从初始特征全集中，依据既定规则筛选出特征子集的过程，是数据挖掘的重要预处理步骤。通过剔除冗余属性，以达到降低算法复杂度和提高算法性能的目的。针对离散值特征选择问题，提出了一种将粗糙集相对分类信息嫡和粒子群算法相结合的特征选择方法，依托粒子群算法，以相对分类信息嫡作为适应度函数，并与其他基于进化算法的特征选择方法进行了实验比较，实验结果表明本文提出的方法具有一定的优势。关键词：数据挖掘：特征选择：数据预处理：粗糙集：决策表：粒子群算法：信息嫡：适应度函数中图分类号：TP181文献标志码：A文章编号：1673-4785(2017)03-0397-08 中文引用格式：翟俊海，刘博，张素芳.基于粗糙集相对分类信息熵和粒子群优化的特征选择方法[J].智能系统学报，2017,12(3)： 397-404. 英文引用格式：ZHAI Junhai,LIU Bo,ZHANG Sufang.A feature selection approach based on rough set relative classification information entropy and particle swarm optimization[.CAAI transactions on intelligent systems,2017,12(3):397-404. A feature selection approach based on rough set relative classification information entropy and particle swarm optimization ZHAI Junhai2,LIU Bo3,ZHANG Sufang" (1.Key Lab of Machine Learning and Computational Intelligence,Hebei University,Baoding 071002,China;2.College of Mathematics,Physics and Information Engineering,Zhejiang Normal University,Jinhua 321004,China;3.College of Computer Science and Technology,Hebei University,Baoding 071002,China;4.Hebei Branch of Meteorological Cadres Training Institute, China Meteorological Administration,Baoding 071000,China) Abstract:Feature selection,an important step in data mining,is a process that selects a subset from an original feature set based on some criteria.Its purpose is to reduce the computational complexity of the learning algorithm and to improve the performance of data mining by removing irrelevant and redundant features.To deal with the problem of discrete values,a feature selection approach was proposed in this paper.It uses a particle swarm optimization algorithm to search the optimal feature subset.Further,it employs relative classification information entropy as a fitness function to measure the significance of the feature subset.Then,the proposed approach was compared with other evolutionary algorithm-based methods of feature selection.The experimental results confirm that the proposed approach outperforms genetic algorithm-based methods. Keywords:data mining;feature selection;data preprocessing;rough set;decision table;particle swarm optimization;information entropy;fitness function 特征选择1-]是数据挖掘的重要预处理步骤，集的评价准则或启发式确定后，特征选择问题从某通过删除不必要特征，以达到降低算法复杂度，提种意义上来说就是在特征空间中搜索最优特征子高算法的性能。特征子集的评价至关重要，特征子集问题。研究人员提出了许多特征选择算法，这些算法有的是从设计特征子集搜索的方法考虑的，有收稿日期：2017-05-07.网络出版日期：2017-07-03. 基金项目：国家自然科学基金项目(71371063)：河北省自然科学基金的是从设计评价特征子集重要性的度量考虑的。项目(F2017201026):浙江省计算机科学与技术重中之重学科（浙江师范大学）资助项目. 特征选择方法主要有筛选法(6 ilter method)、封通信作者：翟俊海.E-mail:mcjh@126.com第１２卷第３期智能系统学报Ｖｏｌ．１２ №．３２０１７年６月ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓＪｕｎ．２０１７ＤＯＩ：１０．１１９９２／ｔｉｓ．２０１７０５００４网络出版地址：ｈｔｔｐ：／／ｋｎｓ．ｃｎｋｉ．ｎｅｔ／ｋｃｍｓ／ｄｅｔａｉｌ／２３．１５３８．ＴＰ．２０１７０７０３．１８５４．０１８．ｈｔｍｌ基于粗糙集相对分类信息熵和粒子群优化的特征选择方法翟俊海１，２，刘博３，张素芳４（１．河北大学河北省机器学习与计算智能重点实验室，河北保定０７１００２；２．浙江师范大学数理与信息工程学院，浙江金华３２１００４；３．河北大学计算机科学与技术学院，河北保定０７１００２；４．中国气象局气象干部培训学院河北分院，河北保定０７１０００）摘要：特征选择是指从初始特征全集中，依据既定规则筛选出特征子集的过程，是数据挖掘的重要预处理步骤。通过剔除冗余属性，以达到降低算法复杂度和提高算法性能的目的。针对离散值特征选择问题，提出了一种将粗糙集相对分类信息熵和粒子群算法相结合的特征选择方法，依托粒子群算法，以相对分类信息熵作为适应度函数，并与其他基于进化算法的特征选择方法进行了实验比较，实验结果表明本文提出的方法具有一定的优势。关键词：数据挖掘；特征选择；数据预处理；粗糙集；决策表；粒子群算法；信息熵；适应度函数中图分类号：ＴＰ１８１文献标志码：Ａ文章编号：１６７３－４７８５（２０１７）０３－０３９７－０８中文引用格式：翟俊海，刘博，张素芳．基于粗糙集相对分类信息熵和粒子群优化的特征选择方法［Ｊ］．智能系统学报，２０１７，１２（３）：３９７－４０４．英文引用格式：ＺＨＡＩＪｕｎｈａｉ，ＬＩＵＢｏ，ＺＨＡＮＧＳｕｆａｎｇ．Ａｆｅａｔｕｒｅｓｅｌｅｃｔｉｏｎａｐｐｒｏａｃｈｂａｓｅｄｏｎｒｏｕｇｈｓｅｔｒｅｌａｔｉｖｅｃｌａｓｓｉｆｉｃａｔｉｏｎｉｎｆｏｒｍａｔｉｏｎｅｎｔｒｏｐｙａｎｄｐａｒｔｉｃｌｅｓｗａｒｍｏｐｔｉｍｉｚａｔｉｏｎ［Ｊ］．ＣＡＡＩｔｒａｎｓａｃｔｉｏｎｓｏｎｉｎｔｅｌｌｉｇｅｎｔｓｙｓｔｅｍｓ，２０１７，１２（３）：３９７－４０４．ＡｆｅａｔｕｒｅｓｅｌｅｃｔｉｏｎａｐｐｒｏａｃｈｂａｓｅｄｏｎｒｏｕｇｈｓｅｔｒｅｌａｔｉｖｅｃｌａｓｓｉｆｉｃａｔｉｏｎｉｎｆｏｒｍａｔｉｏｎｅｎｔｒｏｐｙａｎｄｐａｒｔｉｃｌｅｓｗａｒｍｏｐｔｉｍｉｚａｔｉｏｎＺＨＡＩＪｕｎｈａｉ１，２，ＬＩＵＢｏ３，ＺＨＡＮＧＳｕｆａｎｇ４（１．ＫｅｙＬａｂｏｆＭａｃｈｉｎｅＬｅａｒｎｉｎｇａｎｄＣｏｍｐｕｔａｔｉｏｎａｌＩｎｔｅｌｌｉｇｅｎｃｅ，ＨｅｂｅｉＵｎｉｖｅｒｓｉｔｙ，Ｂａｏｄｉｎｇ０７１００２，Ｃｈｉｎａ；２．ＣｏｌｌｅｇｅｏｆＭａｔｈｅｍａｔｉｃｓ，ＰｈｙｓｉｃｓａｎｄＩｎｆｏｒｍａｔｉｏｎＥｎｇｉｎｅｅｒｉｎｇ，ＺｈｅｊｉａｎｇＮｏｒｍａｌＵｎｉｖｅｒｓｉｔｙ，Ｊｉｎｈｕａ３２１００４，Ｃｈｉｎａ；３．ＣｏｌｌｅｇｅｏｆＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅａｎｄＴｅｃｈｎｏｌｏｇｙ，ＨｅｂｅｉＵｎｉｖｅｒｓｉｔｙ，Ｂａｏｄｉｎｇ０７１００２，Ｃｈｉｎａ；４．ＨｅｂｅｉＢｒａｎｃｈｏｆＭｅｔｅｏｒｏｌｏｇｉｃａｌＣａｄｒｅｓＴｒａｉｎｉｎｇＩｎｓｔｉｔｕｔｅ，ＣｈｉｎａＭｅｔｅｏｒｏｌｏｇｉｃａｌＡｄｍｉｎｉｓｔｒａｔｉｏｎ，Ｂａｏｄｉｎｇ０７１０００，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：Ｆｅａｔｕｒｅｓｅｌｅｃｔｉｏｎ，ａｎｉｍｐｏｒｔａｎｔｓｔｅｐｉｎｄａｔａｍｉｎｉｎｇ，ｉｓａｐｒｏｃｅｓｓｔｈａｔｓｅｌｅｃｔｓａｓｕｂｓｅｔｆｒｏｍａｎｏｒｉｇｉｎａｌｆｅａｔｕｒｅｓｅｔｂａｓｅｄｏｎｓｏｍｅｃｒｉｔｅｒｉａ．Ｉｔｓｐｕｒｐｏｓｅｉｓｔｏｒｅｄｕｃｅｔｈｅｃｏｍｐｕｔａｔｉｏｎａｌｃｏｍｐｌｅｘｉｔｙｏｆｔｈｅｌｅａｒｎｉｎｇａｌｇｏｒｉｔｈｍａｎｄｔｏｉｍｐｒｏｖｅｔｈｅｐｅｒｆｏｒｍａｎｃｅｏｆｄａｔａｍｉｎｉｎｇｂｙｒｅｍｏｖｉｎｇｉｒｒｅｌｅｖａｎｔａｎｄｒｅｄｕｎｄａｎｔｆｅａｔｕｒｅｓ．Ｔｏｄｅａｌｗｉｔｈｔｈｅｐｒｏｂｌｅｍｏｆｄｉｓｃｒｅｔｅｖａｌｕｅｓ，ａｆｅａｔｕｒｅｓｅｌｅｃｔｉｏｎａｐｐｒｏａｃｈｗａｓｐｒｏｐｏｓｅｄｉｎｔｈｉｓｐａｐｅｒ．Ｉｔｕｓｅｓａｐａｒｔｉｃｌｅｓｗａｒｍｏｐｔｉｍｉｚａｔｉｏｎａｌｇｏｒｉｔｈｍｔｏｓｅａｒｃｈｔｈｅｏｐｔｉｍａｌｆｅａｔｕｒｅｓｕｂｓｅｔ．Ｆｕｒｔｈｅｒ，ｉｔｅｍｐｌｏｙｓｒｅｌａｔｉｖｅｃｌａｓｓｉｆｉｃａｔｉｏｎｉｎｆｏｒｍａｔｉｏｎｅｎｔｒｏｐｙａｓａｆｉｔｎｅｓｓｆｕｎｃｔｉｏｎｔｏｍｅａｓｕｒｅｔｈｅｓｉｇｎｉｆｉｃａｎｃｅｏｆｔｈｅｆｅａｔｕｒｅｓｕｂｓｅｔ．Ｔｈｅｎ，ｔｈｅｐｒｏｐｏｓｅｄａｐｐｒｏａｃｈｗａｓｃｏｍｐａｒｅｄｗｉｔｈｏｔｈｅｒｅｖｏｌｕｔｉｏｎａｒｙａｌｇｏｒｉｔｈｍ⁃ｂａｓｅｄｍｅｔｈｏｄｓｏｆｆｅａｔｕｒｅｓｅｌｅｃｔｉｏｎ．Ｔｈｅｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｃｏｎｆｉｒｍｔｈａｔｔｈｅｐｒｏｐｏｓｅｄａｐｐｒｏａｃｈｏｕｔｐｅｒｆｏｒｍｓｇｅｎｅｔｉｃａｌｇｏｒｉｔｈｍ⁃ｂａｓｅｄｍｅｔｈｏｄｓ．Ｋｅｙｗｏｒｄｓ：ｄａｔａｍｉｎｉｎｇ；ｆｅａｔｕｒｅｓｅｌｅｃｔｉｏｎ；ｄａｔａｐｒｅｐｒｏｃｅｓｓｉｎｇ；ｒｏｕｇｈｓｅｔ；ｄｅｃｉｓｉｏｎｔａｂｌｅ；ｐａｒｔｉｃｌｅｓｗａｒｍｏｐｔｉｍｉｚａｔｉｏｎ；ｉｎｆｏｒｍａｔｉｏｎｅｎｔｒｏｐｙ；ｆｉｔｎｅｓｓｆｕｎｃｔｉｏｎ收稿日期：２０１７－０５－０７．网络出版日期：２０１７－０７－０３．基金项目：国家自然科学基金项目（７１３７１０６３）；河北省自然科学基金项目（Ｆ２０１７２０１０２６）；浙江省计算机科学与技术重中之重学科（浙江师范大学）资助项目．通信作者：翟俊海．Ｅ⁃ｍａｉｌ：ｍｃｚｊｈ＠１２６．ｃｏｍ．特征选择［１－２］是数据挖掘的重要预处理步骤，通过删除不必要特征，以达到降低算法复杂度，提高算法的性能。特征子集的评价至关重要，特征子集的评价准则或启发式确定后，特征选择问题从某种意义上来说就是在特征空间中搜索最优特征子集问题。研究人员提出了许多特征选择算法，这些算法有的是从设计特征子集搜索的方法考虑的，有的是从设计评价特征子集重要性的度量考虑的。特征选择方法主要有筛选法（ｆｉｌｔｅｒｍｅｔｈｏｄ）、封

向下翻页>>

点击下载：【知识工程】基于粗糙集相对分类信息熵和粒子群优化的特征选择方法