【知识工程】基于粗糙集相对分类信息熵和粒子群优化的特征选择方法

团购合买资源类别：文库，文档格式：PDF，文档页数：8，文件大小：1.21MB

第12卷第3期智能系统学报 Vol.12 No.3 2017年6月 CAAI Transactions on Intelligent Systems Jun.2017 D0I:10.11992/is.201705004 网络出版地址：http:/kns.cmki.net/kcms/detail/23.1538.TP.20170703.1854.018.html 基于粗糙集相对分类信息熵和粒子群优化的特征选择方法翟俊海12，刘博3，张素芳4 (1.河北大学河北省机器学习与计算智能重点实验室，河北保定071002：2.浙江师范大学数理与信息工程学院，浙江金华321004：3.河北大学计算机科学与技术学院，河北保定071002：4.中国气象局气象干部培训学院河北分院，河北保定071000) 摘要：特征选择是指从初始特征全集中，依据既定规则筛选出特征子集的过程，是数据挖掘的重要预处理步骤。通过剔除冗余属性，以达到降低算法复杂度和提高算法性能的目的。针对离散值特征选择问题，提出了一种将粗糙集相对分类信息嫡和粒子群算法相结合的特征选择方法，依托粒子群算法，以相对分类信息嫡作为适应度函数，并与其他基于进化算法的特征选择方法进行了实验比较，实验结果表明本文提出的方法具有一定的优势。关键词：数据挖掘：特征选择：数据预处理：粗糙集：决策表：粒子群算法：信息嫡：适应度函数中图分类号：TP181文献标志码：A文章编号：1673-4785(2017)03-0397-08 中文引用格式：翟俊海，刘博，张素芳.基于粗糙集相对分类信息熵和粒子群优化的特征选择方法[J].智能系统学报，2017,12(3)： 397-404. 英文引用格式：ZHAI Junhai,LIU Bo,ZHANG Sufang.A feature selection approach based on rough set relative classification information entropy and particle swarm optimization[.CAAI transactions on intelligent systems,2017,12(3):397-404. A feature selection approach based on rough set relative classification information entropy and particle swarm optimization ZHAI Junhai2,LIU Bo3,ZHANG Sufang" (1.Key Lab of Machine Learning and Computational Intelligence,Hebei University,Baoding 071002,China;2.College of Mathematics,Physics and Information Engineering,Zhejiang Normal University,Jinhua 321004,China;3.College of Computer Science and Technology,Hebei University,Baoding 071002,China;4.Hebei Branch of Meteorological Cadres Training Institute, China Meteorological Administration,Baoding 071000,China) Abstract:Feature selection,an important step in data mining,is a process that selects a subset from an original feature set based on some criteria.Its purpose is to reduce the computational complexity of the learning algorithm and to improve the performance of data mining by removing irrelevant and redundant features.To deal with the problem of discrete values,a feature selection approach was proposed in this paper.It uses a particle swarm optimization algorithm to search the optimal feature subset.Further,it employs relative classification information entropy as a fitness function to measure the significance of the feature subset.Then,the proposed approach was compared with other evolutionary algorithm-based methods of feature selection.The experimental results confirm that the proposed approach outperforms genetic algorithm-based methods. Keywords:data mining;feature selection;data preprocessing;rough set;decision table;particle swarm optimization;information entropy;fitness function 特征选择1-]是数据挖掘的重要预处理步骤，集的评价准则或启发式确定后，特征选择问题从某通过删除不必要特征，以达到降低算法复杂度，提种意义上来说就是在特征空间中搜索最优特征子高算法的性能。特征子集的评价至关重要，特征子集问题。研究人员提出了许多特征选择算法，这些算法有的是从设计特征子集搜索的方法考虑的，有收稿日期：2017-05-07.网络出版日期：2017-07-03. 基金项目：国家自然科学基金项目(71371063)：河北省自然科学基金的是从设计评价特征子集重要性的度量考虑的。项目(F2017201026):浙江省计算机科学与技术重中之重学科（浙江师范大学）资助项目. 特征选择方法主要有筛选法(6 ilter method)、封通信作者：翟俊海.E-mail:mcjh@126.com

第１２卷第３期智能系统学报Ｖｏｌ．１２ №．３２０１７年６月ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓＪｕｎ．２０１７ＤＯＩ：１０．１１９９２／ｔｉｓ．２０１７０５００４网络出版地址：ｈｔｔｐ：／／ｋｎｓ．ｃｎｋｉ．ｎｅｔ／ｋｃｍｓ／ｄｅｔａｉｌ／２３．１５３８．ＴＰ．２０１７０７０３．１８５４．０１８．ｈｔｍｌ基于粗糙集相对分类信息熵和粒子群优化的特征选择方法翟俊海１，２，刘博３，张素芳４（１．河北大学河北省机器学习与计算智能重点实验室，河北保定０７１００２；２．浙江师范大学数理与信息工程学院，浙江金华３２１００４；３．河北大学计算机科学与技术学院，河北保定０７１００２；４．中国气象局气象干部培训学院河北分院，河北保定０７１０００）摘要：特征选择是指从初始特征全集中，依据既定规则筛选出特征子集的过程，是数据挖掘的重要预处理步骤。通过剔除冗余属性，以达到降低算法复杂度和提高算法性能的目的。针对离散值特征选择问题，提出了一种将粗糙集相对分类信息熵和粒子群算法相结合的特征选择方法，依托粒子群算法，以相对分类信息熵作为适应度函数，并与其他基于进化算法的特征选择方法进行了实验比较，实验结果表明本文提出的方法具有一定的优势。关键词：数据挖掘；特征选择；数据预处理；粗糙集；决策表；粒子群算法；信息熵；适应度函数中图分类号：ＴＰ１８１文献标志码：Ａ文章编号：１６７３－４７８５（２０１７）０３－０３９７－０８中文引用格式：翟俊海，刘博，张素芳．基于粗糙集相对分类信息熵和粒子群优化的特征选择方法［Ｊ］．智能系统学报，２０１７，１２（３）：３９７－４０４．英文引用格式：ＺＨＡＩＪｕｎｈａｉ，ＬＩＵＢｏ，ＺＨＡＮＧＳｕｆａｎｇ．Ａｆｅａｔｕｒｅｓｅｌｅｃｔｉｏｎａｐｐｒｏａｃｈｂａｓｅｄｏｎｒｏｕｇｈｓｅｔｒｅｌａｔｉｖｅｃｌａｓｓｉｆｉｃａｔｉｏｎｉｎｆｏｒｍａｔｉｏｎｅｎｔｒｏｐｙａｎｄｐａｒｔｉｃｌｅｓｗａｒｍｏｐｔｉｍｉｚａｔｉｏｎ［Ｊ］．ＣＡＡＩｔｒａｎｓａｃｔｉｏｎｓｏｎｉｎｔｅｌｌｉｇｅｎｔｓｙｓｔｅｍｓ，２０１７，１２（３）：３９７－４０４．ＡｆｅａｔｕｒｅｓｅｌｅｃｔｉｏｎａｐｐｒｏａｃｈｂａｓｅｄｏｎｒｏｕｇｈｓｅｔｒｅｌａｔｉｖｅｃｌａｓｓｉｆｉｃａｔｉｏｎｉｎｆｏｒｍａｔｉｏｎｅｎｔｒｏｐｙａｎｄｐａｒｔｉｃｌｅｓｗａｒｍｏｐｔｉｍｉｚａｔｉｏｎＺＨＡＩＪｕｎｈａｉ１，２，ＬＩＵＢｏ３，ＺＨＡＮＧＳｕｆａｎｇ４（１．ＫｅｙＬａｂｏｆＭａｃｈｉｎｅＬｅａｒｎｉｎｇａｎｄＣｏｍｐｕｔａｔｉｏｎａｌＩｎｔｅｌｌｉｇｅｎｃｅ，ＨｅｂｅｉＵｎｉｖｅｒｓｉｔｙ，Ｂａｏｄｉｎｇ０７１００２，Ｃｈｉｎａ；２．ＣｏｌｌｅｇｅｏｆＭａｔｈｅｍａｔｉｃｓ，ＰｈｙｓｉｃｓａｎｄＩｎｆｏｒｍａｔｉｏｎＥｎｇｉｎｅｅｒｉｎｇ，ＺｈｅｊｉａｎｇＮｏｒｍａｌＵｎｉｖｅｒｓｉｔｙ，Ｊｉｎｈｕａ３２１００４，Ｃｈｉｎａ；３．ＣｏｌｌｅｇｅｏｆＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅａｎｄＴｅｃｈｎｏｌｏｇｙ，ＨｅｂｅｉＵｎｉｖｅｒｓｉｔｙ，Ｂａｏｄｉｎｇ０７１００２，Ｃｈｉｎａ；４．ＨｅｂｅｉＢｒａｎｃｈｏｆＭｅｔｅｏｒｏｌｏｇｉｃａｌＣａｄｒｅｓＴｒａｉｎｉｎｇＩｎｓｔｉｔｕｔｅ，ＣｈｉｎａＭｅｔｅｏｒｏｌｏｇｉｃａｌＡｄｍｉｎｉｓｔｒａｔｉｏｎ，Ｂａｏｄｉｎｇ０７１０００，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：Ｆｅａｔｕｒｅｓｅｌｅｃｔｉｏｎ，ａｎｉｍｐｏｒｔａｎｔｓｔｅｐｉｎｄａｔａｍｉｎｉｎｇ，ｉｓａｐｒｏｃｅｓｓｔｈａｔｓｅｌｅｃｔｓａｓｕｂｓｅｔｆｒｏｍａｎｏｒｉｇｉｎａｌｆｅａｔｕｒｅｓｅｔｂａｓｅｄｏｎｓｏｍｅｃｒｉｔｅｒｉａ．Ｉｔｓｐｕｒｐｏｓｅｉｓｔｏｒｅｄｕｃｅｔｈｅｃｏｍｐｕｔａｔｉｏｎａｌｃｏｍｐｌｅｘｉｔｙｏｆｔｈｅｌｅａｒｎｉｎｇａｌｇｏｒｉｔｈｍａｎｄｔｏｉｍｐｒｏｖｅｔｈｅｐｅｒｆｏｒｍａｎｃｅｏｆｄａｔａｍｉｎｉｎｇｂｙｒｅｍｏｖｉｎｇｉｒｒｅｌｅｖａｎｔａｎｄｒｅｄｕｎｄａｎｔｆｅａｔｕｒｅｓ．Ｔｏｄｅａｌｗｉｔｈｔｈｅｐｒｏｂｌｅｍｏｆｄｉｓｃｒｅｔｅｖａｌｕｅｓ，ａｆｅａｔｕｒｅｓｅｌｅｃｔｉｏｎａｐｐｒｏａｃｈｗａｓｐｒｏｐｏｓｅｄｉｎｔｈｉｓｐａｐｅｒ．Ｉｔｕｓｅｓａｐａｒｔｉｃｌｅｓｗａｒｍｏｐｔｉｍｉｚａｔｉｏｎａｌｇｏｒｉｔｈｍｔｏｓｅａｒｃｈｔｈｅｏｐｔｉｍａｌｆｅａｔｕｒｅｓｕｂｓｅｔ．Ｆｕｒｔｈｅｒ，ｉｔｅｍｐｌｏｙｓｒｅｌａｔｉｖｅｃｌａｓｓｉｆｉｃａｔｉｏｎｉｎｆｏｒｍａｔｉｏｎｅｎｔｒｏｐｙａｓａｆｉｔｎｅｓｓｆｕｎｃｔｉｏｎｔｏｍｅａｓｕｒｅｔｈｅｓｉｇｎｉｆｉｃａｎｃｅｏｆｔｈｅｆｅａｔｕｒｅｓｕｂｓｅｔ．Ｔｈｅｎ，ｔｈｅｐｒｏｐｏｓｅｄａｐｐｒｏａｃｈｗａｓｃｏｍｐａｒｅｄｗｉｔｈｏｔｈｅｒｅｖｏｌｕｔｉｏｎａｒｙａｌｇｏｒｉｔｈｍ⁃ｂａｓｅｄｍｅｔｈｏｄｓｏｆｆｅａｔｕｒｅｓｅｌｅｃｔｉｏｎ．Ｔｈｅｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｃｏｎｆｉｒｍｔｈａｔｔｈｅｐｒｏｐｏｓｅｄａｐｐｒｏａｃｈｏｕｔｐｅｒｆｏｒｍｓｇｅｎｅｔｉｃａｌｇｏｒｉｔｈｍ⁃ｂａｓｅｄｍｅｔｈｏｄｓ．Ｋｅｙｗｏｒｄｓ：ｄａｔａｍｉｎｉｎｇ；ｆｅａｔｕｒｅｓｅｌｅｃｔｉｏｎ；ｄａｔａｐｒｅｐｒｏｃｅｓｓｉｎｇ；ｒｏｕｇｈｓｅｔ；ｄｅｃｉｓｉｏｎｔａｂｌｅ；ｐａｒｔｉｃｌｅｓｗａｒｍｏｐｔｉｍｉｚａｔｉｏｎ；ｉｎｆｏｒｍａｔｉｏｎｅｎｔｒｏｐｙ；ｆｉｔｎｅｓｓｆｕｎｃｔｉｏｎ收稿日期：２０１７－０５－０７．网络出版日期：２０１７－０７－０３．基金项目：国家自然科学基金项目（７１３７１０６３）；河北省自然科学基金项目（Ｆ２０１７２０１０２６）；浙江省计算机科学与技术重中之重学科（浙江师范大学）资助项目．通信作者：翟俊海．Ｅ⁃ｍａｉｌ：ｍｃｚｊｈ＠１２６．ｃｏｍ．特征选择［１－２］是数据挖掘的重要预处理步骤，通过删除不必要特征，以达到降低算法复杂度，提高算法的性能。特征子集的评价至关重要，特征子集的评价准则或启发式确定后，特征选择问题从某种意义上来说就是在特征空间中搜索最优特征子集问题。研究人员提出了许多特征选择算法，这些算法有的是从设计特征子集搜索的方法考虑的，有的是从设计评价特征子集重要性的度量考虑的。特征选择方法主要有筛选法（ｆｉｌｔｅｒｍｅｔｈｏｄ）、封

·398 智能系统学报第12卷装法(wrapper method)和嵌人法(embedded 算法的第一部专著Swarm Intelligence2)出版后，粒 method)3种分类。筛选法独立于学习算法，它依据子群算法才得到广泛应用。为解决PS0算法在连启发式（如依赖度、互信息、不一致性等）搜索整体续空间中的局限性，Kennedy等]提出了离散二进最优解。因为这类特征选择算法独立于数据挖掘制PS0算法。在此基础上，Chuang等列提出了一算法，所以通用性好，适应各种数据挖掘任务，研究种改进的二进制粒子群算法(IBPSO),有效简化了也最为广泛。实际上，粗糙集领域中的属性约简方特征选择，并在医疗诊断基因表达领域取得了较好法就是这类方法的一种典型代表[3-)。Swiniarski 的效果：Chuang等f3o基于Catfish机制，提出了一种等)针对模式识别问题，系统地研究了特征选择的二进制粒子群特征选择算法，可避免过早收敛的问粗糙集方法；Jensen等[6)提出了基于模糊粗糙集的题；Wang等[3]提出了一种基于粗糙集的粒子群算方法，但是它在某些情况下不收敛：Bhatt等]针对法，具有较强的搜索能力能更快地寻找到最优解；文献[6]中的问题，深人研究模糊粗糙集特征选择 Cervante等]提出了基于信息嫡的BPSO方法，测算法的收敛性，得出了非常有价值的结论：Jensen 试结果非常理想。Liu等〔)提出了一种集成邻域信等[]研究了模糊粗糙集特征选择算法的可扩展性息和粒子群算法的特征选择方法，结合粒子加权提问题，并提出了相应的方法：钱宇华等)提出了基高了算法的稳定性；Fog等面向高维和数据流于粗糙集正域逼近的属性约简（或特征选择）加速格式的大数据，提出了一种基于粒子群算法的特征方法，该方法具有很高的计算效率，受到了广泛关选择方法，提高测试精度的同时降低了处理注：胡清华等[]在邻域粗糙集框架下研究了异构特时间3)。征选择问题，提出的特征选择算法可以处理实数值本文选择相对分类信息熵作为适应度函数，用异构特征选择问题。粒子群算法搜索最优特征子集，并与其他进化算法除了基于粗糙集知识的算法，其他特征选择问进行了实验比较，实验结果表明本文所提的方法更题代表性的工作还包括基于一致性的方法[2,1-2] 为有效。基于互信息的方法[-]及基于依赖度的方 1 法等[16-7]。基础知识封装法以算法性能为标准衡量特征子集，由 1.1粒子群算法 Kohavi等于1997年提出[18]。多年来，一些专家学粒子群算法是一种群体搜索行为。群体由若者沿着封装法的思路做出了大量研究：Sindhwani等千个粒子p:组成，P:包含位置信息x和速度信息将多层感知器和SVM相结合，提出了基于最大输出。位置信息x表示P:在第k次迭代时其位置信信息的特征选择算法[19]：Yang等提出了一种随机息，速度信息表示P:在第k次迭代时移动的速度扰动特征选择方法，具有较好表示能力[20。封装法和方向。从一组初始粒子（初始种群）出发，通过一过于依赖学习算法，对于全部筛选出的特征子集，次次迭代，不断更新速度和位置信息，每个粒子不必须重复分类器训练的过程，虽然最终得到的特征断向gbest和pbest靠近，最终找到整体最优解。方子集比较理想，但复杂度太高，代价过大。法过程如图1所示，具体步骤见第2节。在嵌入法中，特征选择与分类器的构造同步完粒子群算法应用的关键是问题编码和粒子适成。实际上，著名的D3算法[2和CART算法[ 应度评价标准。在问题编码上，显然二进制编码是都可以看作嵌入式特征选择方法。基于神经网络最为合适的。在粒子适应度评价标准上，一个合适剪枝思想，Setiono等[2]提出了一种特征选择算法。的适应度函数对特征子集的选择影响很大，因此适该算法通过计算删除某个特征（剪枝）对神经网络应度函数的设计是尤为关键的。性能的影响来选择特征。在此基础上，Shen等提出 1.2粗糙集了基于SVM的敏感度特征选择算法2]。而后，定义1设DT=(U,AUD,V,f月为知识涉及的 Perkins等提出了Grafting嵌人式特征选择算法[2]。决策表。其中，U={x1,x2,…,xn}为论域；A={a1, 粒子群算法由Kennedy提出[2]，逐渐被专家学 a2,…,am}是描述对象的属性集合：D={d,即目标者广泛接受和应用。但是直到2001年关于粒子群概念唯一；V为属性值域；f:U×A→V为信息函数

装法（ｗｒａｐｐｅｒｍｅｔｈｏｄ）和嵌入法（ｅｍｂｅｄｄｅｄｍｅｔｈｏｄ）３种分类。筛选法独立于学习算法，它依据启发式（如依赖度、互信息、不一致性等）搜索整体最优解。因为这类特征选择算法独立于数据挖掘算法，所以通用性好，适应各种数据挖掘任务，研究也最为广泛。实际上，粗糙集领域中的属性约简方法就是这类方法的一种典型代表［３－４］。Ｓｗｉｎｉａｒｓｋｉ等［５］针对模式识别问题，系统地研究了特征选择的粗糙集方法；Ｊｅｎｓｅｎ等［６］提出了基于模糊粗糙集的方法，但是它在某些情况下不收敛；Ｂｈａｔｔ等［７］针对文献［６］中的问题，深入研究模糊粗糙集特征选择算法的收敛性，得出了非常有价值的结论；Ｊｅｎｓｅｎ等［８］研究了模糊粗糙集特征选择算法的可扩展性问题，并提出了相应的方法；钱宇华等［９］提出了基于粗糙集正域逼近的属性约简（或特征选择）加速方法，该方法具有很高的计算效率，受到了广泛关注；胡清华等［１０］在邻域粗糙集框架下研究了异构特征选择问题，提出的特征选择算法可以处理实数值异构特征选择问题。除了基于粗糙集知识的算法，其他特征选择问题代表性的工作还包括基于一致性的方法［２，１１－１２］、基于互信息的方法［１３－１５］及基于依赖度的方法等［１６－１７］。封装法以算法性能为标准衡量特征子集，由Ｋｏｈａｖｉ等于１９９７年提出［１８］。多年来，一些专家学者沿着封装法的思路做出了大量研究；Ｓｉｎｄｈｗａｎｉ等将多层感知器和ＳＶＭ相结合，提出了基于最大输出信息的特征选择算法［１９］；Ｙａｎｇ等提出了一种随机扰动特征选择方法，具有较好表示能力［２０］。封装法过于依赖学习算法，对于全部筛选出的特征子集，必须重复分类器训练的过程，虽然最终得到的特征子集比较理想，但复杂度太高，代价过大。在嵌入法中，特征选择与分类器的构造同步完成。实际上，著名的ＩＤ３算法［２１］和ＣＡＲＴ算法［２２］都可以看作嵌入式特征选择方法。基于神经网络剪枝思想，Ｓｅｔｉｏｎｏ等［２３］提出了一种特征选择算法。该算法通过计算删除某个特征（剪枝）对神经网络性能的影响来选择特征。在此基础上，Ｓｈｅｎ等提出了基于ＳＶＭ的敏感度特征选择算法［２４］。而后，Ｐｅｒｋｉｎｓ等提出了Ｇｒａｆｔｉｎｇ嵌入式特征选择算法［２５］。粒子群算法由Ｋｅｎｎｅｄｙ提出［２６］，逐渐被专家学者广泛接受和应用。但是直到２００１年关于粒子群算法的第一部专著ＳｗａｒｍＩｎｔｅｌｌｉｇｅｎｃｅ［２７］出版后，粒子群算法才得到广泛应用。为解决ＰＳＯ算法在连续空间中的局限性，Ｋｅｎｎｅｄｙ等［２８］提出了离散二进制ＰＳＯ算法。在此基础上，Ｃｈｕａｎｇ等［２９］提出了一种改进的二进制粒子群算法（ＩＢＰＳＯ），有效简化了特征选择，并在医疗诊断基因表达领域取得了较好的效果；Ｃｈｕａｎｇ等［３０］基于Ｃａｔｆｉｓｈ机制，提出了一种二进制粒子群特征选择算法，可避免过早收敛的问题；Ｗａｎｇ等［３１］提出了一种基于粗糙集的粒子群算法，具有较强的搜索能力能更快地寻找到最优解；Ｃｅｒｖａｎｔｅ等［３２］提出了基于信息熵的ＢＰＳＯ方法，测试结果非常理想。Ｌｉｕ等［３３］提出了一种集成邻域信息和粒子群算法的特征选择方法，结合粒子加权提高了算法的稳定性；Ｆｏｎｇ等［３４］面向高维和数据流格式的大数据，提出了一种基于粒子群算法的特征选择方法，提高测试精度的同时降低了处理时间［３４］。本文选择相对分类信息熵作为适应度函数，用粒子群算法搜索最优特征子集，并与其他进化算法进行了实验比较，实验结果表明本文所提的方法更为有效。１基础知识１．１粒子群算法粒子群算法是一种群体搜索行为。群体由若干个粒子ｐｉ组成，ｐｉ包含位置信息ｘｋｉ和速度信息ｖｋｉ。位置信息ｘｋｉ表示ｐｉ在第ｋ次迭代时其位置信息，速度信息ｖｋｉ表示ｐｉ在第ｋ次迭代时移动的速度和方向。从一组初始粒子（初始种群）出发，通过一次次迭代，不断更新速度和位置信息，每个粒子不断向ｇｂｅｓｔ和ｐｂｅｓｔ靠近，最终找到整体最优解。方法过程如图１所示，具体步骤见第２节。粒子群算法应用的关键是问题编码和粒子适应度评价标准。在问题编码上，显然二进制编码是最为合适的。在粒子适应度评价标准上，一个合适的适应度函数对特征子集的选择影响很大，因此适应度函数的设计是尤为关键的。１．２粗糙集定义１设ＤＴ＝（Ｕ，Ａ∪Ｄ，Ｖ，ｆ）为知识涉及的决策表。其中，Ｕ＝｛ｘ１，ｘ２，…，ｘｎ｝为论域；Ａ＝｛ａ１，ａ２，…，ａｍ｝是描述对象的属性集合；Ｄ＝｛ｄ｝，即目标概念唯一；Ｖ为属性值域；ｆ：Ｕ×Ａ→Ｖ为信息函数。 ·３９８· 智能系统学报第１２卷

第3期翟俊海，等：基于粗糙集相对分类信息嫡和粒子群优化的特征选择方法 ·399. 开始定理1给定决策表DT=(U,AUD,V,f),假初始化粒子群设A1,ACA且ACA2,则H(U/A2)≤H(U/A)。定理1保证了本文提出的方法的收敛性，即能计算每个粒子的适应度值够以很高概率找到整体最优解。更新pbest、gbest粒子位置和速度算法1基于粒子群算法的特征选择算法。输入离散值决策表DT=(U,AUD,V,f),群是否满足结束条件体大小N、惯性系数W、常量系数c,和c,、数据集维数D。 Y 输出结果○ 输出A'二A。 1)随机初始化大小为N的种群：图1PS0算法流程图 Fig.I The flowchart of particle swarm optimization 2)repeat; algorithm 3)for(i=1;isN;i=i+1); 定义2对于任意条件属性子集BCA,B的等 4)用式(6)计算种群中每一个个体的适应价关系为度值； IND(B)={(x,y)∈U×UVb∈B, 5)更新历史最佳位置best: b(x)=b(y)} (1)》 6)end for; 式中b(x)和b(y)分别是对象x和y在属性b上的 7)更新全局最佳位置gbest; 属性值。 8)for(i=1;isN;i=i+1); 定义3令XCU,BCA,X关于B的下近似为 9)for(d=1;dsD;d=d+1); BX=x[x] (2)》 10)更新速度信息a 定义4令XCU,BCA,X关于B的上近似为 11)更新位置信息xa; 12)end for; BX={xl[x]B∩X≠} (3) 定义5令X二U,BCA,X关于B的边界域为 13)end for; 14)until(满足终止条件时)； BN(X)=BX-BX (4) 15)输出A'。 2基于粗糙集相对分类信息熵的粒子本文选择适用于离散值特征选择的二进制粒群特征选择方法子群算法，问题的解可用d维0-1向量表示，其中d 是属性个数。向量的第i个分量为0或1表示属性首先定义适用于特征选择问题的适应度函数。是否被选择。特征选择的过程分为以下几步。对于形如DT=(U,AUD,V,f)的决策表，BC 1)随机产生N。个0-1向量（粒子）作为初始粒 A,B和D对U的划分表示为子群，其中N。是种群的大小。 U/B=X,+X2+…+Xm 2)利用式(6)计算所有粒子的适应度值。 U/D=Y,+Y2+…+Yk 3)更新粒子历史最优点pbest:将所有粒子的适应定义6划分U/B相对于U/D的概率分布为度值和其历史最佳点pbest做比对，择优更新pbest。 x n y P三X (5) 4)更新全局最最优点gbest:将所有粒子的适应定义7划分U/B相对于U/D的相对分类信度值和全局最优点gbest做比对，择优更新gbest。息熵为 5)根据上一步更新得到的pbest和gbest,更新粒子的速度和位置。其中速度是根据上一步得到 H(UWB)=-X TUPylogaPy (6) 的pbest和gbest按照公式(7)进行更新：相对分类信息嫡反映的不一致程度与其值成 =wv c rand(pbest -x)+ 正比，因此值越小效果越好。本文所选择的适应度 czrand(gbest -x) (7) 函数，即(6)式定义的相对分类信息熵，可通过定理这里需要注意的是，P:的位置信息x中的每个 1的证明来验证其合理性3]。 x只能取0或1，相应的速度信息也发生了改变，用

图１ＰＳＯ算法流程图Ｆｉｇ．１Ｔｈｅｆｌｏｗｃｈａｒｔｏｆｐａｒｔｉｃｌｅｓｗａｒｍｏｐｔｉｍｉｚａｔｉｏｎａｌｇｏｒｉｔｈｍ定义２对于任意条件属性子集Ｂ⊆Ａ，Ｂ的等价关系为ＩＮＤ（Ｂ）＝ {（ｘ，ｙ） ∈ Ｕ × Ｕ ∀ｂ ∈ Ｂ，ｂ（ｘ）＝ｂ（ｙ）} （１）式中ｂ（ｘ）和ｂ（ｙ）分别是对象ｘ和ｙ在属性ｂ上的属性值。定义３令Ｘ⊆Ｕ，Ｂ⊆Ａ，Ｘ关于Ｂ的下近似为ＢＸ＝｛ｘ［ｘ］Ｂ ⊆ Ｘ｝（２）定义４令Ｘ⊆Ｕ，Ｂ⊆Ａ，Ｘ关于Ｂ的上近似为ＢＸ＝｛ｘ［ｘ］Ｂ ∩ Ｘ ≠ ⌀｝（３）定义５令Ｘ⊆Ｕ，Ｂ⊆Ａ，Ｘ关于Ｂ的边界域为ＢＮ（Ｘ）＝ＢＸ－ＢＸ（４）２基于粗糙集相对分类信息熵的粒子群特征选择方法首先定义适用于特征选择问题的适应度函数。对于形如ＤＴ＝（Ｕ，Ａ∪Ｄ，Ｖ，ｆ）的决策表，Ｂ⊆ Ａ，Ｂ和Ｄ对Ｕ的划分表示为Ｕ／Ｂ＝Ｘ１＋Ｘ２＋ … ＋ＸｍＵ／Ｄ＝Ｙ１＋Ｙ２＋ … ＋Ｙｋ定义６划分Ｕ／Ｂ相对于Ｕ／Ｄ的概率分布为ｐｉｊ＝Ｘｉ ∩ ＹｊＸｉ（５）定义７划分Ｕ／Ｂ相对于Ｕ／Ｄ的相对分类信息熵为Ｈ（Ｕ／Ｂ）＝－ ∑ ｍｉ＝１ ∑ ｋｊ＝１ＸｉＵｐｉｊｌｏｇ２ｐｉｊ（６）相对分类信息熵反映的不一致程度与其值成正比，因此值越小效果越好。本文所选择的适应度函数，即（６）式定义的相对分类信息熵，可通过定理１的证明来验证其合理性［３５］。定理１给定决策表ＤＴ＝ (Ｕ，Ａ∪Ｄ，Ｖ，ｆ ) ，假设Ａ１，Ａ２⊆Ａ且Ａ１⊆Ａ２，则Ｈ（Ｕ／Ａ２）≤Ｈ（Ｕ／Ａ１）。定理１保证了本文提出的方法的收敛性，即能够以很高概率找到整体最优解。算法１基于粒子群算法的特征选择算法。输入离散值决策表ＤＴ＝（Ｕ，Ａ∪Ｄ，Ｖ，ｆ），群体大小Ｎ、惯性系数ｗ、常量系数ｃ１和ｃ２、数据集维数Ｄ。输出Ａ′⊆Ａ。１）随机初始化大小为Ｎ的种群；２）ｒｅｐｅａｔ；３）ｆｏｒ（ｉ＝１；ｉ≤Ｎ；ｉ＝ｉ＋１）；４）用式（６）计算种群中每一个个体的适应度值；５）更新历史最佳位置ｂｅｓｔ；６）ｅｎｄｆｏｒ；７）更新全局最佳位置ｇｂｅｓｔ；８）ｆｏｒ（ｉ＝１；ｉ≤Ｎ；ｉ＝ｉ＋１）；９）ｆｏｒ（ｄ＝１；ｄ≤Ｄ；ｄ＝ｄ＋１）；１０）更新速度信息ｖｉｄ；１１）更新位置信息ｘｉｄ；１２）ｅｎｄｆｏｒ；１３）ｅｎｄｆｏｒ；１４）ｕｎｔｉｌ（满足终止条件时）；１５）输出Ａ′。本文选择适用于离散值特征选择的二进制粒子群算法，问题的解可用ｄ维０－１向量表示，其中ｄ是属性个数。向量的第ｉ个分量为０或１表示属性是否被选择。特征选择的过程分为以下几步。１）随机产生Ｎ０个０－１向量（粒子）作为初始粒子群，其中Ｎ０是种群的大小。２）利用式（６）计算所有粒子的适应度值。３）更新粒子历史最优点ｐｂｅｓｔ：将所有粒子的适应度值和其历史最佳点ｐｂｅｓｔ做比对，择优更新ｐｂｅｓｔ。４）更新全局最最优点ｇｂｅｓｔ：将所有粒子的适应度值和全局最优点ｇｂｅｓｔ做比对，择优更新ｇｂｅｓｔ。５）根据上一步更新得到的ｐｂｅｓｔ和ｇｂｅｓｔ，更新粒子的速度和位置。其中速度是根据上一步得到的ｐｂｅｓｔ和ｇｂｅｓｔ按照公式（７）进行更新：ｖｋ＋１ｉ＝ｗｖｋｉ＋ｃ１ｒａｎｄ（ｐｂｅｓｔ－ｘｋｉ）＋ｃ２ｒａｎｄ（ｇｂｅｓｔ－ｘｋｉ）（７）这里需要注意的是，ｐｉ的位置信息ｘｋｉ中的每个ｘｋｉｄ只能取０或１，相应的速度信息也发生了改变，用第３期翟俊海，等：基于粗糙集相对分类信息熵和粒子群优化的特征选择方法 ·３９９·

·400 智能系统学报第12卷 Sigmoid()函数将v映射到(0,1)区间上，决定x在 1.00 5 下一代位置分量为1的概率，如公式(8)： 0.95 0.90 (1,rand Sigmoid(v;) 0.85 0,其他解0.80 (8) 0.75 Sigmoid()=1 要0.70 1+e-y 0.65 +相对分类信息嫡 0.60 RSPSO 6)若迭代次数已达到设定值，终止并输出当前 IBPSO 0.55& gbest对应的解：否则，令k=k+1转入2)。 0.5 05101520253035404550 粒子运动的步骤即全局最优解的求解过程，通迭代次数过不断计算每个粒子的适应度值，粒子依靠自我认图2在Kr-vs-Kp数据集上的实验结果知能力和社会认知能力来搜索最优特征子集，逐渐 Fig.2 The experimental results of data set Kr-vs-Kp 向全局最佳位置靠拢，并最终得到理想结果。 0.70 0.65 *+4+4H4# 3实验结果及统计分析 0.60 在实验过程中，选择规模大小和属性个数各异部0.55 的8个离散UCI数据集进行实验。实验采用Win7 操作系统PC机(Intel Core i3处理器，内存大小 0.45 ·相对分类信息镝 4GB)。70%的样例用作训练，30%的样例用作测 0.40 -e-RSPSO IBPSO 试。实验研究发现，当惯性系数取值在0.9~1.2 035 5 101520253035404550 时，粒子群算法在全局搜索和收敛能力上表现均较迭代次数好。惯性系数和加速系数在常用范围内多次实图3在Voting数据集上的实验结果验，确定最终取值。惯性系数心取值为1。加速系 Fig.3 The experimental results of data set Voting 数c1和c2取1.42694，种群数目统一设定为20，终 0.95m 0.90 止代数设定为50。 0.85 首先选择与本文方法背景知识相关、时间复杂 0.80 0.75 度相仿的方法进行比较，即选用粗糙集与粒子群算 0.70 法相结合的RSPS0算法[3)]和改进的二进制粒子群 0.654 0.60 算法[9。在表1中给出本文方法与文献[31]和 0.55 +一相对分类信息嫡 0.50 RSPSO [29]两种方法实验对比结果，主要对比两个方面的 -IBPSO 0.4 差异，其中#Fs代表被选择的特征个数，Ac代表测 0510152025.3035404550 迭代次数试精度。更直观的结果见图2~9所示。表1实验结果比较图4在Mushroom数据集上的实验结果 Table 1 The comparison of experimental results Fig.4 The experimental results of data set Mushroom 0.95r 本文方法文献[31]方法文献[29]方法数据集 0.90 思 #Fs Ac #Fs Ac #Fs Ac 0.85 Kr-vs-Kp 120.9733150.9545130.9792 Voting 100.6558100.6085110.6512 0.80 舞 Mushroom 8 0.8829100.81368 0.8762 0.75 一相对分类信息嫡 Nursery 60.919770.899160.9076 0.70 RSPSO ·-IBPSO Car 50.877350.85785 0.8821 0.6505101520253035404550 Soybean 160.9987170.9907180.9976 迭代次数 Tic-Tac-Toe70.992960.97997 0.9878 图5在Nursery数据集上的实验结果 SPECT120.984211 0.8868130.9805 Fig.5 The experimental results of data set Nursery

Ｓｉｇｍｏｉｄ（）函数将ｖｋｉｄ映射到（０，１）区间上，决定ｘｋｉｄ在下一代位置分量为１的概率，如公式（８）：ｘｉｊ＝１，ｒａｎｄ＜Ｓｉｇｍｏｉｄ（ｖｉｊ） {０，其他Ｓｉｇｍｏｉｄ（ｖｉｊ）＝１１＋ｅ－ｖｉｊ（８）６）若迭代次数已达到设定值，终止并输出当前ｇｂｅｓｔ对应的解；否则，令ｋ＝ｋ＋１转入２）。粒子运动的步骤即全局最优解的求解过程，通过不断计算每个粒子的适应度值，粒子依靠自我认知能力和社会认知能力来搜索最优特征子集，逐渐向全局最佳位置靠拢，并最终得到理想结果。３实验结果及统计分析在实验过程中，选择规模大小和属性个数各异的８个离散ＵＣＩ数据集进行实验。实验采用Ｗｉｎ７操作系统ＰＣ机（ＩｎｔｅｌＣｏｒｅｉ３处理器，内存大小４ＧＢ）。７０％的样例用作训练，３０％的样例用作测试。实验研究发现，当惯性系数取值在０􀆰 ９～１􀆰 ２时，粒子群算法在全局搜索和收敛能力上表现均较好［３６］。惯性系数和加速系数在常用范围内多次实验，确定最终取值。惯性系数ｗ取值为１。加速系数ｃ１和ｃ２取１．４２６９４，种群数目统一设定为２０，终止代数设定为５０。首先选择与本文方法背景知识相关、时间复杂度相仿的方法进行比较，即选用粗糙集与粒子群算法相结合的ＲＳＰＳＯ算法［３１］和改进的二进制粒子群算法［２９］。在表１中给出本文方法与文献［３１］和［２９］两种方法实验对比结果，主要对比两个方面的差异，其中＃Ｆｓ代表被选择的特征个数，Ａｃ代表测试精度。更直观的结果见图２～９所示。表１实验结果比较Ｔａｂｌｅ１Ｔｈｅｃｏｍｐａｒｉｓｏｎｏｆｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓ数据集本文方法文献［３１］方法文献［２９］方法＃ＦｓＡｃ＃ＦｓＡｃ＃ＦｓＡｃＫｒ⁃ｖｓ⁃Ｋｐ１２０．９７３３１５０．９５４５１３０．９７９２Ｖｏｔｉｎｇ１００．６５５８１００．６０８５１１０．６５１２Ｍｕｓｈｒｏｏｍ８０．８８２９１００．８１３６８０．８７６２Ｎｕｒｓｅｒｙ６０．９１９７７０．８９９１６０．９０７６Ｃａｒ５０．８７７３５０．８５７８５０．８８２１Ｓｏｙｂｅａｎ１６０．９９８７１７０．９９０７１８０．９９７６Ｔｉｃ⁃Ｔａｃ⁃Ｔｏｅ７０．９９２９６０．９７９９７０．９８７８ＳＰＥＣＴ１２０．９８４２１１０．８８６８１３０．９８０５图２在Ｋｒ⁃ｖｓ⁃Ｋｐ数据集上的实验结果Ｆｉｇ．２ＴｈｅｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｏｆｄａｔａｓｅｔＫｒ⁃ｖｓ⁃Ｋｐ图３在Ｖｏｔｉｎｇ数据集上的实验结果Ｆｉｇ．３ＴｈｅｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｏｆｄａｔａｓｅｔＶｏｔｉｎｇ图４在Ｍｕｓｈｒｏｏｍ数据集上的实验结果Ｆｉｇ．４ＴｈｅｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｏｆｄａｔａｓｅｔＭｕｓｈｒｏｏｍ图５在Ｎｕｒｓｅｒｙ数据集上的实验结果Ｆｉｇ．５ＴｈｅｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｏｆｄａｔａｓｅｔＮｕｒｓｅｒｙ ·４００· 智能系统学报第１２卷

第3期翟俊海，等：基于粗糙集相对分类信息嫡和粒子群优化的特征选择方法 ·401. 0.90 通过上述实验，我们可以看出采用相对分类信 0.80 息熵作适应度函数的粒子群算法与单纯粗糙集知 0.70 识作为适应度函数的粒子群算法相比，在实验精度盖0a0 和筛选特征个数方面要明显占优。接下来实验中，比较粒子群算法和遗传算法在 0.504 +相对分类信息嫡处理特征选择上的优劣，对比方法为文献[35]中的 0.40 ◆-RSPSO -IBPSO 采用相同适应度函数的遗传特征选择方法。从#Fs、 0.3 05 101520253035404550 Ac、σ和Time4个方面进行了比较，结果列于表2 迭代次数和表3中。其中，#Fs表示选出的特征数，Ac表示测图6在Car数据集上的实验结果试精度，c表示分类标准差，Time表示运行时间。 Fig.6 The experimental results of data set Car 更直观的实验结果如图10~17所示。 1.00 广88555288555555558555582港853 表2与遗传算法比较的实验结果(1) 0.95 Table 2 The experimental results compared with genetic algorithm(1) 0.90 本文方法文献[35]方法共0.85 数据集 #Fs Ac #Fs Ac 0.80 十相对分类信息嫡 RSPSO Kr-vs-Kp 12 0.9733 13 0.9516 ·-IBPSO 0.7505101520253035404550 Voting 10 0.6558 y 0.6224 迭代次数 Mushroom 8 0.8829 10 0.8371 图7在Sovbean数据集上的实验结果 Fig.7 The experimental results of data set Soybean Nursery 6 0.9197 > 0.9021 1.00 Car 5 0.8773 5 0.8628 0.99 0.98 Soybean 16 0.9987 9 0.9979 0.97 银0.96 Tic-Tac-Toe 7 0.9929 7 0.9935 0.95 共0.94 0.93 SPECT 12 0.9842 0.9769 0.92 +一相对分类信息嫡 --RSPSO 0.91 表3与遗传算法比较的实验结果(2) -IBPSO 0.9 5101520253035404550 Table 3 The experimental results compared with 0 迭代次数 genetic algorithm(2) 图8在Tic-Tac-Toe数据集上的实验结果本文方法文献[35]方法数据集 Fig.8 The experimental results of data set Tic-Tac-Toe a Time a Time 1.00 Kr-vs-Kp 2.27×103415.25764.75×103508.5847 0.98 0.96 Voting 4.62×10324.31667.15×103 26.0479 0.94 Mushroom1.08×10-485.12186.68×10-3 96.0086 0.92 营0.90 0.88 Nursery 8.72×10-32311.14381.04×10-22653.8612 0.86 +相对分类信息熵 Car 5.19×10-3 10.52683.97×10-310.2885 0.84 --RSPSO 0.82 -IBPSO Sovbean2.01×10-335.17362.59×10-364.1101 0.8 05101520253035404550 迭代次数 Tic-Tac-Toe3.68×10-312.16356.02×10319.9828 图9在SPECT数据集上的实验结果 SPECT5.43×10-320.56397.52×10329.7611 Fig.9 The experimental results of data set SPECT

图６在Ｃａｒ数据集上的实验结果Ｆｉｇ．６ＴｈｅｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｏｆｄａｔａｓｅｔＣａｒ图７在Ｓｏｙｂｅａｎ数据集上的实验结果Ｆｉｇ．７ＴｈｅｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｏｆｄａｔａｓｅｔＳｏｙｂｅａｎ图８在Ｔｉｃ⁃Ｔａｃ⁃Ｔｏｅ数据集上的实验结果Ｆｉｇ．８ＴｈｅｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｏｆｄａｔａｓｅｔＴｉｃ⁃Ｔａｃ⁃Ｔｏｅ图９在ＳＰＥＣＴ数据集上的实验结果Ｆｉｇ．９ＴｈｅｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｏｆｄａｔａｓｅｔＳＰＥＣＴ通过上述实验，我们可以看出采用相对分类信息熵作适应度函数的粒子群算法与单纯粗糙集知识作为适应度函数的粒子群算法相比，在实验精度和筛选特征个数方面要明显占优。接下来实验中，比较粒子群算法和遗传算法在处理特征选择上的优劣，对比方法为文献［３５］中的采用相同适应度函数的遗传特征选择方法。从＃Ｆｓ、Ａｃ、σ 和Ｔｉｍｅ４个方面进行了比较，结果列于表２和表３中。其中，＃Ｆｓ表示选出的特征数，Ａｃ表示测试精度，σ 表示分类标准差，Ｔｉｍｅ表示运行时间。更直观的实验结果如图１０～１７所示。表２与遗传算法比较的实验结果（１）Ｔａｂｌｅ２Ｔｈｅｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｃｏｍｐａｒｅｄｗｉｔｈｇｅｎｅｔｉｃａｌｇｏｒｉｔｈｍ（１）数据集本文方法文献［３５］方法＃ＦｓＡｃ＃ＦｓＡｃＫｒ⁃ｖｓ⁃Ｋｐ１２０．９７３３１３０．９５１６Ｖｏｔｉｎｇ１００．６５５８１２０．６２２４Ｍｕｓｈｒｏｏｍ８０．８８２９１００．８３７１Ｎｕｒｓｅｒｙ６０．９１９７７０．９０２１Ｃａｒ５０．８７７３５０．８６２８Ｓｏｙｂｅａｎ１６０．９９８７１９０．９９７９Ｔｉｃ⁃Ｔａｃ⁃Ｔｏｅ７０．９９２９７０．９９３５ＳＰＥＣＴ１２０．９８４２１５０．９７６９表３与遗传算法比较的实验结果（２）Ｔａｂｌｅ３Ｔｈｅｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｃｏｍｐａｒｅｄｗｉｔｈｇｅｎｅｔｉｃａｌｇｏｒｉｔｈｍ（２）数据集本文方法文献［３５］方法 σ Ｔｉｍｅ σ ＴｉｍｅＫｒ⁃ｖｓ⁃Ｋｐ２．２７×１０－３４１５．２５７６４．７５×１０－３５０８．５８４７Ｖｏｔｉｎｇ４．６２×１０－３２４．３１６６７．１５×１０－３２６．０４７９Ｍｕｓｈｒｏｏｍ１．０８×１０－４８５．１２１８６．６８×１０－３９６．００８６Ｎｕｒｓｅｒｙ８．７２×１０－３２３１１．１４３８１．０４×１０－２２６５３．８６１２Ｃａｒ５．１９×１０－３１０．５２６８３．９７×１０－３１０．２８８５Ｓｏｙｂｅａｎ２．０１×１０－３３５．１７３６２．５９×１０－３６４．１１０１Ｔｉｃ⁃Ｔａｃ⁃Ｔｏｅ３．６８×１０－３１２．１６３５６．０２×１０－３１９．９８２８ＳＰＥＣＴ５．４３×１０－３２０．５６３９７．５２×１０－３２９．７６１１第３期翟俊海，等：基于粗糙集相对分类信息熵和粒子群优化的特征选择方法 ·４０１·

图１０在数据集Ｋｒ⁃ｖｓ⁃Ｋｐ上的实验结果（ＰＳＯ与ＧＡ对比）Ｆｉｇ．１０ＴｈｅｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｏｆｄａｔａｓｅｔＫｒ⁃ｖｓ⁃Ｋｐ（ＰＳＯ，ＧＡ）图１１在数据集Ｖｏｔｉｎｇ上的实验结果（ＰＳＯ与ＧＡ对比）Ｆｉｇ．１１ＴｈｅｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｏｆｄａｔａｓｅｔＶｏｔｉｎｇ（ＰＳＯ，ＧＡ）图１２在数据集Ｍｕｓｈｒｏｏｍ上的实验结果（ＰＳＯ与ＧＡ对比）Ｆｉｇ．１２ＴｈｅｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｏｆｄａｔａｓｅｔＭｕｓｈｒｏｏｍ（ＰＳＯ，ＧＡ）图１３在数据集Ｎｕｒｓｅｒｙ上的实验结果（ＰＳＯ与ＧＡ对比）Ｆｉｇ．１３ＴｈｅｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｏｆｄａｔａｓｅｔＮｕｒｓｅｒｙ（ＰＳＯ，ＧＡ）图１４在数据集Ｃａｒ上的实验结果（ＰＳＯ与ＧＡ对比）Ｆｉｇ．１４ＴｈｅｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｏｆｄａｔａｓｅｔＣａｒ（ＰＳＯ，ＧＡ）图１５在数据集Ｓｏｙｂｅａｎ上的实验结果（ＰＳＯ与ＧＡ对比）Ｆｉｇ．１５ＴｈｅｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｏｆｄａｔａｓｅｔＳｏｙｂｅａｎ（ＰＳＯ，ＧＡ）图１６在数据集Ｔｉｃ⁃Ｔａｃ⁃Ｔｏｅ上的实验结果（ＰＳＯ与ＧＡ对比）Ｆｉｇ．１６ＴｈｅｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｏｆｄａｔａｓｅｔＴｉｃ⁃Ｔａｃ⁃Ｔｏｅ（ＰＳＯ，ＧＡ）图１７在数据集ＳＰＥＣＴ上的实验结果（ＰＳＯ与ＧＡ对比）Ｆｉｇ．１７ＴｈｅｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｏｆｄａｔａｓｅｔＳＰＥＣＴ（ＰＳＯ，ＧＡ） ·４０２· 智能系统学报第１２卷

第3期翟俊海，等：基于粗糙集相对分类信息嫡和粒子群优化的特征选择方法 ·403. 从表2、表3、图10~11可以看出，用粒子群算 [3]PAWLAK Z.Rough sets [J].Internationa journal of infor- 法选出的特征子集在测试精度总体上优于遗传算 mation and computer sciences,1982,11:341-356. 法，且收敛速度比遗传算法有大幅提升，筛选出的 [4]苗夺谦，李道国.粗糙集理论、算法与应用[M].北京：特征个数和运行时间较遗传算法有一定程度的提清华大学出版社，2008. [5]SWINIARSKI R W,SKOWRON A.Rough set methods in 高，两者分类标准差基本相当。其原因在于，粒子 feature selection and recognition[].Pattern recognition let- 群算法在迭代的过程中具有一定的记忆功能，能够 tes,2003,24(6):833-849. 在保持自身优势的同时感知全局走向，且不需要进 [6]JENSEN R,SHEN Q.Fuzzy-rough sets for descriptive dimen- 行较多的参数设置，省去了遗传和变异的过程，实 sionality reduction[Cl//IEEE International Conference on 现起来更容易。实验结果说明本文方法是行之有 Fuzzy Systems,2002.Fuzz-IEEE.2002:29-34. 效的。 [7]BHATT R B,GOPAL M.On fuzzy-rough sets approach to 为进一步验证方法的有效性，由上述两种方法 feature selection[J].Pattern recognition letters,2005,26 分别对每个数据集随机实验10次，得到的10组测 (7):965-975. [8]JENSEN R,PARTHALGIN N M.Towards scalable fuzzy 试结果组成两个10维向量，记为X,和X2,对X,和 rough feature selection[J].Information sciences,2015,323 X2进行配对t检验，p值如表4所示。 (C):1-15. 表4配对1检验p值 [9]QIAN Y H,LIANG J,PEDRYCZ W,et al.Positive ap- Table 4 p values of paired t-test proximation:an accelerator for attribute reduction in rough 数据集 P值 set theory[J].Artificial intelligence,2010,174(9/10): 597-618. Kr-vs-Kp 1.5139×10-9 [10]HU Q H,YU D R,LIU J F,et al.Neighborhood rough set Voting 6.1237×10- based heterogeneous feature subset selection J ] Mushroom 9.0657×10~0 Information sciences,2008,178(18):3577-3594. [11]ALMUALLIM H,DIETTERICH T G.Learning boolean Nursery 2.6381×10-7 concepts in the presence of many irrelevant features[J] Car 7.2183×10- Artificial intelligence,1994,69(1/2):279-305. Soybean 1.0262×10-4 [12]DASH M,LIU H.Consistency-based search in feature Tic-Tac-Toe 8.8209×10-12 selection[J].Artificial intelligence 2003(151):155-176. [13]BATTITI R.Using mutual information for selecting features SPECT 1.6338×105 in supervised neural net learning[J].IEEE transactions on p值均较小，显著性差异较大，进一步证明了方 neural networks,1994,5(4):537-549. 法的可行。 [14]KWAK N,CHOI C H.Input feature selection by mutual in- formation based on parzen window [J].IEEE transactions on 4 结论 pattern analysis and machine intelligence,2002,24(12): 1667-1671. 本文选择相对分类信息嫡作为适应度函数，用 [15]ESTEVEZ P A,TESMER M,PEREZ C A,et al.Normal- 粒子群算法寻找最优特征子集，在解决离散值特征 ized mutual information feature selection [J.IEEE trans- 选择问题上效果较好，并与其他方法进行了比较。 actions on neural networks,2009,20(2):189-201. 通过实验我们得出以下结论：1)粒子群算法相比遗 [16]SONG L,SMOLA A,GRETTON A,et al.Feature 传算法过程更简单，省去了复杂的参数设置，容易 selection via dependence maximization [J].Journal of ma- 实现：2)粒子群算法拥有较好的测试精度，且在选 chine learning research,2012,13:1393-1434. 择的特征个数和运行时间方面都有一定程度的提 [17]HU Q H,ZHU Pengfei,LIU Jinfu,et al.Feature selection via 高：3)粒子群算法收敛较快，可以更早得到拥有更 maximizing fuzzy dependency[.Fundamenta informaticae, 2010.98:167-181. 好表示能力的特征子集。 [18]KOHAVI R.JOHN G.Wrappers for feature subset selection 参考文献： [J].Artificial intelligence,1997,97(1/2):273-324. [19]SINDHWANI V,RAKSHIT S,DEODHARE D.et al. [1]GUYON I,GUNN S,NIKRAVESH M,et al.Feature extraction. Feature selection in MLPs and SVMs based on maximum foundations and applications[M].Berlin:Springer,2006. output information[.IEEE transactions on neural net- [2]DASH M,LIU H.Feature selection for classification [J]. works,.2004,15(4):937-947. Intelligent data analysis,1997,1:131-151. [20]YANG Jianbo,SHEN Kaiquan,ONG Chongjin,et al.Fea-

从表２、表３、图１０～１１可以看出，用粒子群算法选出的特征子集在测试精度总体上优于遗传算法，且收敛速度比遗传算法有大幅提升，筛选出的特征个数和运行时间较遗传算法有一定程度的提高，两者分类标准差基本相当。其原因在于，粒子群算法在迭代的过程中具有一定的记忆功能，能够在保持自身优势的同时感知全局走向，且不需要进行较多的参数设置，省去了遗传和变异的过程，实现起来更容易。实验结果说明本文方法是行之有效的。为进一步验证方法的有效性，由上述两种方法分别对每个数据集随机实验１０次，得到的１０组测试结果组成两个１０维向量，记为Ｘ１和Ｘ２，对Ｘ１和Ｘ２进行配对ｔ检验，ｐ值如表４所示。表４配对ｔ检验ｐ值Ｔａｂｌｅ４ｐｖａｌｕｅｓｏｆｐａｉｒｅｄｔ⁃ｔｅｓｔ数据集Ｐ值Ｋｒ⁃ｖｓ⁃Ｋｐ１．５１３９×１０－９Ｖｏｔｉｎｇ６．１２３７×１０－８Ｍｕｓｈｒｏｏｍ９．０６５７×１０－１０Ｎｕｒｓｅｒｙ２．６３８１×１０－７Ｃａｒ７．２１８３×１０－１１Ｓｏｙｂｅａｎ１．０２６２×１０－４Ｔｉｃ⁃Ｔａｃ⁃Ｔｏｅ８．８２０９×１０－１２ＳＰＥＣＴ１．６３３８×１０－１５ｐ值均较小，显著性差异较大，进一步证明了方法的可行。４结论本文选择相对分类信息熵作为适应度函数，用粒子群算法寻找最优特征子集，在解决离散值特征选择问题上效果较好，并与其他方法进行了比较。通过实验我们得出以下结论：１）粒子群算法相比遗传算法过程更简单，省去了复杂的参数设置，容易实现；２）粒子群算法拥有较好的测试精度，且在选择的特征个数和运行时间方面都有一定程度的提高；３）粒子群算法收敛较快，可以更早得到拥有更好表示能力的特征子集。参考文献：［１］ＧＵＹＯＮＩ，ＧＵＮＮＳ，ＮＩＫＲＡＶＥＳＨＭ，ｅｔａｌ．Ｆｅａｔｕｒｅｅｘｔｒａｃｔｉｏｎ，ｆｏｕｎｄａｔｉｏｎｓａｎｄａｐｐｌｉｃａｔｉｏｎｓ［Ｍ］．Ｂｅｒｌｉｎ：Ｓｐｒｉｎｇｅｒ，２００６．［２］ＤＡＳＨＭ，ＬＩＵＨ．Ｆｅａｔｕｒｅｓｅｌｅｃｔｉｏｎｆｏｒｃｌａｓｓｉｆｉｃａｔｉｏｎ［Ｊ］．Ｉｎｔｅｌｌｉｇｅｎｔｄａｔａａｎａｌｙｓｉｓ，１９９７，１：１３１－１５１．［３］ＰＡＷＬＡＫＺ．Ｒｏｕｇｈｓｅｔｓ［Ｊ］．Ｉｎｔｅｒｎａｔｉｏｎａｊｏｕｒｎａｌｏｆｉｎｆｏｒ⁃ ｍａｔｉｏｎａｎｄｃｏｍｐｕｔｅｒｓｃｉｅｎｃｅｓ，１９８２，１１：３４１－３５６．［４］苗夺谦，李道国．粗糙集理论、算法与应用［Ｍ］．北京：清华大学出版社，２００８．［５］ＳＷＩＮＩＡＲＳＫＩＲＷ，ＳＫＯＷＲＯＮＡ．Ｒｏｕｇｈｓｅｔｍｅｔｈｏｄｓｉｎｆｅａｔｕｒｅｓｅｌｅｃｔｉｏｎａｎｄｒｅｃｏｇｎｉｔｉｏｎ［Ｊ］．Ｐａｔｔｅｒｎｒｅｃｏｇｎｉｔｉｏｎｌｅｔ⁃ ｔｅｒｓ，２００３，２４（６）：８３３－８４９．［６］ＪＥＮＳＥＮＲ，ＳＨＥＮＱ．Ｆｕｚｚｙ⁃ｒｏｕｇｈｓｅｔｓｆｏｒｄｅｓｃｒｉｐｔｉｖｅｄｉｍｅｎ⁃ ｓｉｏｎａｌｉｔｙｒｅｄｕｃｔｉｏｎ［Ｃ］／／ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＦｕｚｚｙＳｙｓｔｅｍｓ，２００２．Ｆｕｚｚ⁃ＩＥＥＥ．２００２：２９－３４．［７］ＢＨＡＴＴＲＢ，ＧＯＰＡＬＭ．Ｏｎｆｕｚｚｙ⁃ｒｏｕｇｈｓｅｔｓａｐｐｒｏａｃｈｔｏｆｅａｔｕｒｅｓｅｌｅｃｔｉｏｎ［Ｊ］．Ｐａｔｔｅｒｎｒｅｃｏｇｎｉｔｉｏｎｌｅｔｔｅｒｓ，２００５，２６（７）：９６５－９７５．［８］ＪＥＮＳＥＮＲ，ＰＡＲＴＨＡＬáＩＮＮＭ．Ｔｏｗａｒｄｓｓｃａｌａｂｌｅｆｕｚｚｙｒｏｕｇｈｆｅａｔｕｒｅｓｅｌｅｃｔｉｏｎ［Ｊ］．Ｉｎｆｏｒｍａｔｉｏｎｓｃｉｅｎｃｅｓ，２０１５，３２３（Ｃ）：１－１５．［９］ＱＩＡＮＹＨ，ＬＩＡＮＧＪ，ＰＥＤＲＹＣＺＷ，ｅｔａｌ．Ｐｏｓｉｔｉｖｅａｐ⁃ ｐｒｏｘｉｍａｔｉｏｎ：ａｎａｃｃｅｌｅｒａｔｏｒｆｏｒａｔｔｒｉｂｕｔｅｒｅｄｕｃｔｉｏｎｉｎｒｏｕｇｈｓｅｔｔｈｅｏｒｙ［Ｊ］．Ａｒｔｉｆｉｃｉａｌｉｎｔｅｌｌｉｇｅｎｃｅ，２０１０，１７４（９／１０）：５９７－６１８．［１０］ＨＵＱＨ，ＹＵＤＲ，ＬＩＵＪＦ，ｅｔａｌ．Ｎｅｉｇｈｂｏｒｈｏｏｄｒｏｕｇｈｓｅｔｂａｓｅｄｈｅｔｅｒｏｇｅｎｅｏｕｓｆｅａｔｕｒｅｓｕｂｓｅｔｓｅｌｅｃｔｉｏｎ［Ｊ］．Ｉｎｆｏｒｍａｔｉｏｎｓｃｉｅｎｃｅｓ，２００８，１７８（１８）：３５７７－３５９４．［１１］ＡＬＭＵＡＬＬＩＭＨ，ＤＩＥＴＴＥＲＩＣＨＴＧ．Ｌｅａｒｎｉｎｇｂｏｏｌｅａｎｃｏｎｃｅｐｔｓｉｎｔｈｅｐｒｅｓｅｎｃｅｏｆｍａｎｙｉｒｒｅｌｅｖａｎｔｆｅａｔｕｒｅｓ［Ｊ］．Ａｒｔｉｆｉｃｉａｌｉｎｔｅｌｌｉｇｅｎｃｅ，１９９４，６９（１／２）：２７９－３０５．［１２］ＤＡＳＨＭ，ＬＩＵＨ．Ｃｏｎｓｉｓｔｅｎｃｙ⁃ｂａｓｅｄｓｅａｒｃｈｉｎｆｅａｔｕｒｅｓｅｌｅｃｔｉｏｎ［Ｊ］．Ａｒｔｉｆｉｃｉａｌｉｎｔｅｌｌｉｇｅｎｃｅ２００３（１５１）：１５５－１７６．［１３］ＢＡＴＴＩＴＩＲ．Ｕｓｉｎｇｍｕｔｕａｌｉｎｆｏｒｍａｔｉｏｎｆｏｒｓｅｌｅｃｔｉｎｇｆｅａｔｕｒｅｓｉｎｓｕｐｅｒｖｉｓｅｄｎｅｕｒａｌｎｅｔｌｅａｒｎｉｎｇ［Ｊ］．ＩＥＥＥｔｒａｎｓａｃｔｉｏｎｓｏｎｎｅｕｒａｌｎｅｔｗｏｒｋｓ，１９９４，５（４）：５３７－５４９．［１４］ＫＷＡＫＮ，ＣＨＯＩＣＨ．Ｉｎｐｕｔｆｅａｔｕｒｅｓｅｌｅｃｔｉｏｎｂｙｍｕｔｕａｌｉｎ⁃ ｆｏｒｍａｔｉｏｎｂａｓｅｄｏｎｐａｒｚｅｎｗｉｎｄｏｗ［Ｊ］．ＩＥＥＥｔｒａｎｓａｃｔｉｏｎｓｏｎｐａｔｔｅｒｎａｎａｌｙｓｉｓａｎｄｍａｃｈｉｎｅｉｎｔｅｌｌｉｇｅｎｃｅ，２００２，２４（１２）：１６６７－１６７１．［１５］ＥＳＴＥＶＥＺＰＡ，ＴＥＳＭＥＲＭ，ＰＥＲＥＺＣＡ，ｅｔａｌ．Ｎｏｒｍａｌ⁃ ｉｚｅｄｍｕｔｕａｌｉｎｆｏｒｍａｔｉｏｎｆｅａｔｕｒｅｓｅｌｅｃｔｉｏｎ［Ｊ］．ＩＥＥＥｔｒａｎｓ⁃ ａｃｔｉｏｎｓｏｎｎｅｕｒａｌｎｅｔｗｏｒｋｓ，２００９，２０（２）：１８９－２０１．［１６］ＳＯＮＧＬ，ＳＭＯＬＡＡ，ＧＲＥＴＴＯＮＡ，ｅｔａｌ．Ｆｅａｔｕｒｅｓｅｌｅｃｔｉｏｎｖｉａｄｅｐｅｎｄｅｎｃｅｍａｘｉｍｉｚａｔｉｏｎ［Ｊ］．Ｊｏｕｒｎａｌｏｆｍａ⁃ ｃｈｉｎｅｌｅａｒｎｉｎｇｒｅｓｅａｒｃｈ，２０１２，１３：１３９３－１４３４．［１７］ＨＵＱＨ，ＺＨＵＰｅｎｇｆｅｉ，ＬＩＵＪｉｎｆｕ，ｅｔａｌ．Ｆｅａｔｕｒｅｓｅｌｅｃｔｉｏｎｖｉａｍａｘｉｍｉｚｉｎｇｆｕｚｚｙｄｅｐｅｎｄｅｎｃｙ［Ｊ］．Ｆｕｎｄａｍｅｎｔａｉｎｆｏｒｍａｔｉｃａｅ，２０１０，９８：１６７－１８１．［１８］ＫＯＨＡＶＩＲ，ＪＯＨＮＧ．Ｗｒａｐｐｅｒｓｆｏｒｆｅａｔｕｒｅｓｕｂｓｅｔｓｅｌｅｃｔｉｏｎ［Ｊ］．Ａｒｔｉｆｉｃｉａｌｉｎｔｅｌｌｉｇｅｎｃｅ，１９９７，９７（１／２）：２７３－３２４．［１９］ＳＩＮＤＨＷＡＮＩＶ，ＲＡＫＳＨＩＴＳ，ＤＥＯＤＨＡＲＥＤ，ｅｔａｌ．ＦｅａｔｕｒｅｓｅｌｅｃｔｉｏｎｉｎＭＬＰｓａｎｄＳＶＭｓｂａｓｅｄｏｎｍａｘｉｍｕｍｏｕｔｐｕｔｉｎｆｏｒｍａｔｉｏｎ［Ｊ］．ＩＥＥＥｔｒａｎｓａｃｔｉｏｎｓｏｎｎｅｕｒａｌｎｅｔ⁃ ｗｏｒｋｓ，２００４，１５（４）：９３７－９４７．［２０］ＹＡＮＧＪｉａｎｂｏ，ＳＨＥＮＫａｉｑｕａｎ，ＯＮＧＣｈｏｎｇｊｉｎ，ｅｔａｌ．Ｆｅａ⁃ 第３期翟俊海，等：基于粗糙集相对分类信息熵和粒子群优化的特征选择方法 ·４０３·

·404 智能系统学报第12卷 ture selection for MLP neural network:the use of random [33 LIU Quanjin,ZHAO Zhimin,LI Yingxin.Ensemble permutation of probabilistic outputs[.IEEE transactions feature selection method based on neighborhood information on neural networks,2009,20(12):1911-1922 and PSO algorithm[J].Acta electronica sinica,2016,44 [21]QUINLAN J R.Induction of decision trees [J].Machine (4):995-1002. learning,1986,1:81-106. [34]FONG S,WONG R,VASILAKOS A.Accelerated PSO [22]BREIMAN L,FRIEDMAN J H,RICHARD A S,et al. swarm search feature selection for data stream mining big Classification and regression trees[M].Belmont,CA: data[J].IEEE transactions on services computing,2016, wadsworth international group,1984. 9(1):33-45. [23]SETIONO R,LIU H.Neural-network feature selector [J]. [35]翟俊海，刘博，张素芳.基于相对分类信息嫡的进化特 IEEE transactions on neural networks,1997,8(3):654-662. 征选择算法[J].模式识别与人工智能，2016,29(8)： [24]SHEN Kaiquan,ONG Chongjin,LI Xiaoping,et al.Feature 682-690. selection via sensitivity analysis of SVM probabilistic ZHAI Junhai,LIU Bo,ZHANG Sufang.Feature selection outputs[J].Machine learning,2008,70:1-20. via evolutionary computation based on relative classification [25]PERKINS S,LACKER K,THEILER J.Grafting:fast,in- information entropy[].Pattern recognition and artificial cremental feature selection by gradient descent in function intelligence,2016,29(8):682-690. space [J].Journal of machine learning research,2003 [36]SHI B Y,EBERHART R.A modified particle swarm opti- (3)：1333-1356. mizer[J].IEEE world congress on computational intelli- [26]KENNEDY J,EBERHART R.Particle swarm optimization gence,1999,6:69-73. [C].IEEE International Conference on Neural Networks. 作者简介： Perth,Australia,1995,4:1942-1948. 翟俊海，男，1964年生，男，教授，中 [27]EBERHART R C,SHI Y H,KENNEDY J.Swarm Intelli- 国人工智能学会粗糙集与软计算专业 gence[M].Massachusetts:Morgan Kaufmann,2001. 委员会委员，主要研究方向为机器学 [28]EBERHART R C,KENNEDY J.A discrete binary version 习。近几年主持或参与省部级以上项 of the particle swarm algorithm [J].IEEE conference on 日10余项，获河北省自然科学三等奖1 systems,1997,5:4104-4109. 项，出版专著4部，发表论文70余篇。 [29]CHUANG L Y,CHANG H W,TU C J,et al.Improved binary PSO for feature selection using gene expression data[J].Computational biology chemistry,2008,32(1): 刘博，男.1989年生.硕士研究生. 29-37. 主要研究方向为机器学习。 [30]CHUANG L Y,TSAI S W,YANG C H.Improved binary particle swarm optimization using catfish effect for feature selection[J].Expert systems with applications,2011,38 (10):12699-12707. [31]WANG Xiangyang,YANG Jie,TENG Xiaolong,et al. Feature selection based on rough sets and particle swarm 张素芳，女，1966年生，副教授，主 optimization[J].Pattern recognition letters,2007,28 要研究方向为机器学习。 (4):459-471. [32]CERVANTE L,XUE B,ZHANG M,et al.Binary particle swarm optimisation for feature selection:a filter based approach[]].Evolutionary computation,2012,41:1-8

ｔｕｒｅｓｅｌｅｃｔｉｏｎｆｏｒＭＬＰｎｅｕｒａｌｎｅｔｗｏｒｋ：ｔｈｅｕｓｅｏｆｒａｎｄｏｍｐｅｒｍｕｔａｔｉｏｎｏｆｐｒｏｂａｂｉｌｉｓｔｉｃｏｕｔｐｕｔｓ［Ｊ］．ＩＥＥＥｔｒａｎｓａｃｔｉｏｎｓｏｎｎｅｕｒａｌｎｅｔｗｏｒｋｓ，２００９，２０（１２）：１９１１－１９２２．［２１］ＱＵＩＮＬＡＮＪＲ．Ｉｎｄｕｃｔｉｏｎｏｆｄｅｃｉｓｉｏｎｔｒｅｅｓ［Ｊ］．Ｍａｃｈｉｎｅｌｅａｒｎｉｎｇ，１９８６，１：８１－１０６．［２２］ＢＲＥＩＭＡＮＬ，ＦＲＩＥＤＭＡＮＪＨ，ＲＩＣＨＡＲＤＡＳ，ｅｔａｌ．Ｃｌａｓｓｉｆｉｃａｔｉｏｎａｎｄｒｅｇｒｅｓｓｉｏｎｔｒｅｅｓ［Ｍ］．Ｂｅｌｍｏｎｔ，ＣＡ：ｗａｄｓｗｏｒｔｈｉｎｔｅｒｎａｔｉｏｎａｌｇｒｏｕｐ，１９８４．［２３］ＳＥＴＩＯＮＯＲ，ＬＩＵＨ．Ｎｅｕｒａｌ⁃ｎｅｔｗｏｒｋｆｅａｔｕｒｅｓｅｌｅｃｔｏｒ［Ｊ］．ＩＥＥＥｔｒａｎｓａｃｔｉｏｎｓｏｎｎｅｕｒａｌｎｅｔｗｏｒｋｓ，１９９７，８（３）：６５４－６６２．［２４］ＳＨＥＮＫａｉｑｕａｎ，ＯＮＧＣｈｏｎｇｊｉｎ，ＬＩＸｉａｏｐｉｎｇ，ｅｔａｌ．ＦｅａｔｕｒｅｓｅｌｅｃｔｉｏｎｖｉａｓｅｎｓｉｔｉｖｉｔｙａｎａｌｙｓｉｓｏｆＳＶＭｐｒｏｂａｂｉｌｉｓｔｉｃｏｕｔｐｕｔｓ［Ｊ］．Ｍａｃｈｉｎｅｌｅａｒｎｉｎｇ，２００８，７０：１－２０．［２５］ＰＥＲＫＩＮＳＳ，ＬＡＣＫＥＲＫ，ＴＨＥＩＬＥＲＪ．Ｇｒａｆｔｉｎｇ：ｆａｓｔ，ｉｎ⁃ ｃｒｅｍｅｎｔａｌｆｅａｔｕｒｅｓｅｌｅｃｔｉｏｎｂｙｇｒａｄｉｅｎｔｄｅｓｃｅｎｔｉｎｆｕｎｃｔｉｏｎｓｐａｃｅ［Ｊ］．Ｊｏｕｒｎａｌｏｆｍａｃｈｉｎｅｌｅａｒｎｉｎｇｒｅｓｅａｒｃｈ，２００３（３）：１３３３－１３５６．［２６］ＫＥＮＮＥＤＹＪ，ＥＢＥＲＨＡＲＴＲ．Ｐａｒｔｉｃｌｅｓｗａｒｍｏｐｔｉｍｉｚａｔｉｏｎ［Ｃ］．ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＮｅｕｒａｌＮｅｔｗｏｒｋｓ．Ｐｅｒｔｈ，Ａｕｓｔｒａｌｉａ，１９９５，４：１９４２－１９４８．［２７］ＥＢＥＲＨＡＲＴＲＣ，ＳＨＩＹＨ，ＫＥＮＮＥＤＹＪ．ＳｗａｒｍＩｎｔｅｌｌｉ⁃ ｇｅｎｃｅ［Ｍ］．Ｍａｓｓａｃｈｕｓｅｔｔｓ：ＭｏｒｇａｎＫａｕｆｍａｎｎ，２００１．［２８］ＥＢＥＲＨＡＲＴＲＣ，ＫＥＮＮＥＤＹＪ．Ａｄｉｓｃｒｅｔｅｂｉｎａｒｙｖｅｒｓｉｏｎｏｆｔｈｅｐａｒｔｉｃｌｅｓｗａｒｍａｌｇｏｒｉｔｈｍ［Ｊ］．ＩＥＥＥｃｏｎｆｅｒｅｎｃｅｏｎｓｙｓｔｅｍｓ，１９９７，５：４１０４－４１０９．［２９］ＣＨＵＡＮＧＬＹ，ＣＨＡＮＧＨＷ，ＴＵＣＪ，ｅｔａｌ．ＩｍｐｒｏｖｅｄｂｉｎａｒｙＰＳＯｆｏｒｆｅａｔｕｒｅｓｅｌｅｃｔｉｏｎｕｓｉｎｇｇｅｎｅｅｘｐｒｅｓｓｉｏｎｄａｔａ［Ｊ］．Ｃｏｍｐｕｔａｔｉｏｎａｌｂｉｏｌｏｇｙ＆ｃｈｅｍｉｓｔｒｙ，２００８，３２（１）：２９－３７．［３０］ＣＨＵＡＮＧＬＹ，ＴＳＡＩＳＷ，ＹＡＮＧＣＨ．Ｉｍｐｒｏｖｅｄｂｉｎａｒｙｐａｒｔｉｃｌｅｓｗａｒｍｏｐｔｉｍｉｚａｔｉｏｎｕｓｉｎｇｃａｔｆｉｓｈｅｆｆｅｃｔｆｏｒｆｅａｔｕｒｅｓｅｌｅｃｔｉｏｎ［Ｊ］．Ｅｘｐｅｒｔｓｙｓｔｅｍｓｗｉｔｈａｐｐｌｉｃａｔｉｏｎｓ，２０１１，３８（１０）：１２６９９－１２７０７．［３１］ＷＡＮＧＸｉａｎｇｙａｎｇ，ＹＡＮＧＪｉｅ，ＴＥＮＧＸｉａｏｌｏｎｇ，ｅｔａｌ．Ｆｅａｔｕｒｅｓｅｌｅｃｔｉｏｎｂａｓｅｄｏｎｒｏｕｇｈｓｅｔｓａｎｄｐａｒｔｉｃｌｅｓｗａｒｍｏｐｔｉｍｉｚａｔｉｏｎ［Ｊ］．Ｐａｔｔｅｒｎｒｅｃｏｇｎｉｔｉｏｎｌｅｔｔｅｒｓ，２００７，２８（４）：４５９－４７１．［３２］ＣＥＲＶＡＮＴＥＬ，ＸＵＥＢ，ＺＨＡＮＧＭ，ｅｔａｌ．Ｂｉｎａｒｙｐａｒｔｉｃｌｅｓｗａｒｍｏｐｔｉｍｉｓａｔｉｏｎｆｏｒｆｅａｔｕｒｅｓｅｌｅｃｔｉｏｎ：ａｆｉｌｔｅｒｂａｓｅｄａｐｐｒｏａｃｈ［Ｊ］．Ｅｖｏｌｕｔｉｏｎａｒｙｃｏｍｐｕｔａｔｉｏｎ，２０１２，４１：１－８．［３３］ＬＩＵＱｕａｎｊｉｎ，ＺＨＡＯＺｈｉｍｉｎ，ＬＩＹｉｎｇｘｉｎ．ＥｎｓｅｍｂｌｅｆｅａｔｕｒｅｓｅｌｅｃｔｉｏｎｍｅｔｈｏｄｂａｓｅｄｏｎｎｅｉｇｈｂｏｒｈｏｏｄｉｎｆｏｒｍａｔｉｏｎａｎｄＰＳＯａｌｇｏｒｉｔｈｍ［Ｊ］．Ａｃｔａｅｌｅｃｔｒｏｎｉｃａｓｉｎｉｃａ，２０１６，４４（４）：９９５－１００２．［３４］ＦＯＮＧＳ，ＷＯＮＧＲ，ＶＡＳＩＬＡＫＯＳＡ．ＡｃｃｅｌｅｒａｔｅｄＰＳＯｓｗａｒｍｓｅａｒｃｈｆｅａｔｕｒｅｓｅｌｅｃｔｉｏｎｆｏｒｄａｔａｓｔｒｅａｍｍｉｎｉｎｇｂｉｇｄａｔａ［Ｊ］．ＩＥＥＥｔｒａｎｓａｃｔｉｏｎｓｏｎｓｅｒｖｉｃｅｓｃｏｍｐｕｔｉｎｇ，２０１６，９（１）：３３－４５．［３５］翟俊海，刘博，张素芳．基于相对分类信息熵的进化特征选择算法［Ｊ］．模式识别与人工智能，２０１６，２９（８）：６８２－６９０．ＺＨＡＩＪｕｎｈａｉ，ＬＩＵＢｏ，ＺＨＡＮＧＳｕｆａｎｇ．Ｆｅａｔｕｒｅｓｅｌｅｃｔｉｏｎｖｉａｅｖｏｌｕｔｉｏｎａｒｙｃｏｍｐｕｔａｔｉｏｎｂａｓｅｄｏｎｒｅｌａｔｉｖｅｃｌａｓｓｉｆｉｃａｔｉｏｎｉｎｆｏｒｍａｔｉｏｎｅｎｔｒｏｐｙ［Ｊ］．Ｐａｔｔｅｒｎｒｅｃｏｇｎｉｔｉｏｎａｎｄａｒｔｉｆｉｃｉａｌｉｎｔｅｌｌｉｇｅｎｃｅ，２０１６，２９（８）：６８２－６９０．［３６］ＳＨＩＢＹ，ＥＢＥＲＨＡＲＴＲ．Ａｍｏｄｉｆｉｅｄｐａｒｔｉｃｌｅｓｗａｒｍｏｐｔｉ⁃ ｍｉｚｅｒ［Ｊ］．ＩＥＥＥｗｏｒｌｄｃｏｎｇｒｅｓｓｏｎｃｏｍｐｕｔａｔｉｏｎａｌｉｎｔｅｌｌｉ⁃ ｇｅｎｃｅ，１９９９，６：６９－７３．作者简介：翟俊海，男，１９６４年生，男，教授，中国人工智能学会粗糙集与软计算专业委员会委员，主要研究方向为机器学习。近几年主持或参与省部级以上项目１０余项，获河北省自然科学三等奖１项，出版专著４部，发表论文７０余篇。刘博，男，１９８９年生，硕士研究生，主要研究方向为机器学习。张素芳，女，１９６６年生，副教授，主要研究方向为机器学习。 ·４０４· 智能系统学报第１２卷

点击进入文档下载页（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录