第6卷第3期 智能系统学报 Vol.6 No.3 2011年6月 CAAI Transactions on Intelligent Systems Jun.2011 doi:10.3969/i.i8sn.16734785.2011.03.010 结合粗糙集和禁忌搜索的网络流量特征选择 顾成杰,张顺颐,杜安源 (1.南京邮电大学信息网络技术研究所,江苏南京210003:2.中国移动通信集团设计院有限公司安徽分公司,安徽 合肥230041) 摘要:针对网络流量特征属性的优化选择问题,提出了一种结合粗糙集和禁忌搜索的网络流量特征选择方法(S S).该方法通过粗糙集算法对网络流量特征属性进行约简,将所得到的特征子集作为禁忌搜索的初始解,并利用禁 忌搜索得到最优特征子集.实验验证S-TS方法优于基于GA的特征选择方法和基于IG的特征选择方法,能够有效 地去除网络流量的冗余特征属性,提高网络流量分类精度 关键词:粗糙集;禁忌搜索;特征选择;网络流量 中图分类号:TP391文献标识码:A文章编号:16734785(2011)03025407 Feature selection of network traffic using a rough set and tabu search GU Chengjie',ZHANG Shunyi',DU Anyuan2 (1.Institute of Information Network Technology,Nanjing University of Posts and Telecommunications,Nanjing 210003,China;2.An- hui Branch,China Mobile Group Design Institute,Hefei 230041,China) Abstract:A feature selection of network traffic using a rough set and tabu search (RS-TS)was proposed for the purpose of optimization in the feature selection of traffic classification.This approach reduced the traffic feature at- tribute with a rough set and established the feature subset as the initial value of a tabu search,as well as the opti- mal feature subset on the basis of a tabu search.The optimal feature subset with a tabu search can be selected on the basis of a feature subset.In contrast with the traditional feature selection methods based on GA and IG,RS-TS was validated optimal by experimental results.It can diminish redundant feature attribution of network traffic effec- tively and greatly improve the classification accuracy. Keywords:rough set;tabu search;feature selection;network traffic 网络流量的精确分类是网络流量建模、用户行 在很多冗余特征属性和弱特征属性,过多特征属性 为分析、网络流量控制等行为的重要前提.随着 有时甚至会影响学习质量,导致分类精度下降,计算 互联网流量日趋复杂和动态多变,越来越多的网络 复杂度增加,计算时间延长[4].特征选择是在保持 应用采用动态端口、伪装端口和应用层加密等规避 原有网络流量完整性的基础上,去除其中的冗余特 手段,使得利用机器学习方法进行网络流量分类成 征属性或弱特征属性,同时维持分类精度的过 为一个重要的研究方向21.在使用机器学习方法处 程51.因此,寻找一种高效的网络流量特征选择方 理网络流量分类问题时,研究对象是网络流量的流 法以降低特征空间维数,提高网络流量分类的精度 统计特征属性,一般情况下,特征属性越多,就越能 成为本文要解决的重要问题 精确地区分不同的网络流量];但网络流量中也存 特征选择作为数据预处理的一类方法,是数据 挖掘、机器学习和模式识别的重要方法].目前有 收稿日期:2010-0828. 基金项目:国家“8683”计划资助项目(2006AA01Z32,2009AA01Z212, 基于信息熵、神经网络、粗糙集和遗传算法等各种特 2009AA01Z202);江苏省自然科学基金资助项目(BK2007603): 江苏省高技术研究计划资助项目(BG2007045);江苏省重大科 征选择方法.Kira和Rendell在文献[7]提出了一种 技支撑计划资助项目(BE2008134):江苏省科技成果转化专项 基于特征相关性的Relief算法,能够有效地进行特 基金资助项目(BA2007012). 通信作者:顾成杰.E-mail:jackiee.即@gmail.com 征选择,但Relief算法只能使用在二值分类环境中
第3期 顾成杰,等:结合粗糙集和禁忌搜索的网络流量特征选择 ·255· 而且不能识别出冗余特性.ⅵ等人利用遗传算法进 f(xi,a)eV 行特征属性选择,具有搜索能力强等优点,适合于大 定义1最小特征子集P设C、D分别是信息 规模复杂问题的求解,但容易过早收敛[8].文献[9] 系统S的条件特征属性集和决策特征属性集,特征 中将粒子群算法用于特征搜索,解决了遗传算法存 属性集P(PCC)是C的一个最小特征属性集,当且 在的计算量大的缺点:但算法中粒子被束缚在局部 仅当Y(P,D)=y(C,D),并且HP'CP,Y(P',D)≠ 最优点及整个种群全局最优点附近,导致其搜索区 y(C,D),则说明P是C的最小属性集,P具有和C 域有限,易于陷入局部最优.文献[10]中提出了一 同样的区分决策能力. 种基于免疫克隆算法的特征选择方法,该方法利用 定义2区分矩阵G信息系统S=(U,A,V, 免疫克隆算法能够快速收敛于全局最优的特性,加 )可以用一个1U川×IU川的对称矩阵来表示,并对矩 快了搜索到最优特征子集的收敛速度,但存在求解 阵的每一项定义为: 过程中亲和度的计算工作量较大的缺点. 「{a∈A|a()≠a(x)},D(x)≠D(x): Cy= 目前在网络流量特征选择研究方面,大多是采 【⑦,其他 用已成熟的方法进行网络流量特征选择,但由于真 本文采用基于区分矩阵的启发式粗糙集约简算 实环境中的网络流量存在大量噪声,根据网络流量 法,该算法利用特征属性在区分矩阵中出现的频率 统计特征分析得到的特征属性数目庞大,同时也存 f(a:)作为启发规则,寻找最小特征子集.特征属性 在大量冗余特征属性,所以使用现有算法进行网络 的出现频率定义为 流量特征选择还存在一定局限性.笔者在分析网络 流量特性的基础上,提出一种结合粗糙集和禁忌搜 fa,)=fa,)+k×B I C I 索的网络流量特征选择方法,通过粗糙集算法对特 式中:IC表示数据集中条件特征属性的个数;IB1 征属性进行约简,将得到的特征子集作为禁忌搜索 表示区分矩阵G中每项所包含的特征属性个数;k 的初始解,利用禁忌搜索能够得到更广的搜索空间, 是权重系数,本文默认k=1, 从而寻找到全局最优解,得到最优特征子集,该方法 若某个特征属性在区分矩阵中出现的次数越 能够较好地降低特征维度,提高分类性能 多,则该特征属性的重要性就越大:若某个特征属性 所出现的区分矩阵的项越短,则该特征属性的重要 1结合粗糙集和禁忌搜索的网络流量 程度就越大,算法描述如下. 1)初始化算法参数,候选最小特征属性子集 特征选择方法 R=⑦,每个条件特征属性在区分矩阵的出现频率 f(a:)=0. 1.1基于粗糙集的特征属性约简 2)计算区分矩阵G的每项m,同时计算各特征 粗糙集理论(rough set,.RS)是波兰数学家 属性的加权频率f代a:), Paulat提出的一种处理模糊和不确定知识的数学工 3)合并并按照特征属性的长度排序区分矩阵G 具,其中特征约简是粗糙集理论的核心问题之 4)对区分矩阵G的每项m执行: 一【2].特征约简的实质就是找到冗余特征属性。 如果m∩R==☑,选择m中f(a:)最大的特征 在特征集中去掉冗余特征后的特征集称为最小特征 属性a:,R=RU{a:. 子集,它具有与全部条件特征属性同样的区分决策 5)返回得到的最小特征子集R,算法结束, 能力 1.2禁忌搜索算法及相关参数设置 给定一个四元组的信息系统S=(U,A,V,f), 禁忌搜索(tabu search,TS)是Glover提出的一 其中:U是给定网络流量的数据样本集,为一个非空 种全局搜索算法.它模仿人类的记忆功能,在求解问 的有限集合;A=C∩D,C是网络流量样本中抽取的 题的过程中,采用禁忌技术对已经搜索过的局部最 n个条件特征属性集合,D={d}为决策属性集,即A 优解进行标记,并且在迭代中尽量避免重复的搜索, 表示网络流量样本的特征属性集合;V=UV,是特 从而获得更广的搜索区间来寻找到全局最优解4], 征的取值范围构成的集合,其中V,是特征r的值 但是它对初始解有较强的依赖性,好的初始解可使 域:f是U×A→V的映射函数,它为每一个样本的每 禁忌搜索在解空间中搜索到最优解,并且收敛速度 个特征属性赋予一个属性值,即Ha∈A,x:∈U, 快51」
·256 智能系统学报 第6卷 禁忌搜索算法首先确定一个初始可行解x,并 流统计特征属性反映了业务流的本质和度量,能以 且对于每一个解x定义一个邻域N(x).确定完初始 此来区分不同的业务流.一般情况下,特征越多,越 可行解后,定义可行解x的邻域移动集s(x),然后从 能精确地区分不同的业务;但获得特征数据不仅需 邻域移动集中挑选一个能改进当前解x的移动 要大量的测量时间,而且样本存储占用的空间,尤其 s(x),再从新解x'开始,重复搜索,如果邻域移动集 当训练集中有很多流时,就会大大增加,不适于用在 中只接受比当前解x好的解,搜索就可能陷入循环 实时分类中.另外过多、过细的网络流量特征虽然也 的危险.为避免陷人循环和局部最优,需要构造禁忌 能在一定程度上起到提高分类精度的作用,但这是 表(tabu list),禁忌表中存放刚刚进行过的n个邻域 以付出计算复杂度为代价,而且过多特征(或有些 移动.对于当前的移动,在以后的n次循环内是禁止 特征)甚至会影响学习质量,导致分类精度下降,计 的,以避免回到原先的解,次循环以后释放该移 算复杂度增加,计算时间延长,所以挖掘出最本质的 动.即使引入了禁忌表,禁忌搜索算法仍有可能出现 信息,提取最能刻画样本数据的最少特征是非常重 循环,因此还必须给定停止准则以避免算法出现循 要的.但最优特征子集选择是一个NP难问题,所以 环,当在规定迭代次数内所发现的最优解无法改进 本文目的在于寻找一个较好的解决这个问题的近似 或无法离开它时,则算法停止「6 方法.首先基于粗糙集对网络流特征属性进行约简, 根据以上分析,为了利用禁忌搜索算法解决网 剔除对分类起干扰作用的冗余特征属性,解决禁忌 络流量特征选择问题,需要解决解的表示、邻域结 搜索对初始解依赖性强的问题.然后将所得到的特 构、禁忌长度、禁忌表更新策略、终止条件等问题, 征子集作为禁忌搜索的初始解,利用禁忌搜索得到 1)解的表示.设解向量为(x1,,…,,…, 最优特征子集,算法步骤如下 xn),采用二进制编码形式表示,则解向量用0/1二 1)初始化参数,禁忌长度n=10,最大迭代次数 进制位串来表示,1表示第i个特征在最优特征子集 m1=500,最大无改进次数m2=50, 中,0表示第i个特征不在最优特征子集中. 2)使用粗糙集得到网络流量特征子集,作为禁 2)初始解.由于网络流样本存在很多冗余特征 忌搜索的初始解. 属性,为了解决禁忌搜索对初始解的依赖性,采用粗 3)将网络流量特征子集用二进制编码形式表 糙集算法来获得禁忌搜索所需要的初始解, 示,生成初始解,并且将禁忌表置空 3)邻域结构.用于实现邻域搜索,将初始解x的 4)判断是否满足终止条件,若满足,转步骤9); 邻域结构定义为每次改变一个特征的状态,即每次 若不满足,转步骤5). 加入1个特征属性或者减掉1个特征属性. 5)利用初始解的邻域函数获得所有的邻域解, 4)禁忌长度.它表示被禁忌对象不允许被选取 通过计算各个解的评价值,得到若干候选解, 的迭代次数,体现了算法的短期记忆能力,禁忌长度 6)判断是否满足特赦淮则,若满足,转步骤7): 越长,表示搜索范围越广泛,获得最优解的可能性越 若不满足,转步骤8). 大.本文设定禁忌长度n=10. 7)将满足特赦准则的解作为当前解,其对应的 5)禁忌表更新策略.采用队列来记录禁忌表的 对象替换最早进入禁忌表中的对象,更新最优解,转 操作,每次迭代将禁忌对象记录在队首,队列溢出则 步骤4) 将排在队尾的禁忌对象删除。 8)计算候选解对应的各对象的禁忌属性,选择候 6)特赦准则.为了避免遗失全局最优解,如果 选解中非禁忌对象的最优状态作为新的当前解,并用 某个解处于禁忌表中,但该解优于当前最优解,可以 该对象替换最早进入禁忌表中的对象,转步骤4), 将该解重新选为新的解. 9)结束算法,输出最优网络流量特征子集, 7)终止条件.本文采用最大迭代次数m1和最 该方法将粗糙集和禁忌搜索相结合,通过粗糙 大无改进次数m2作为终止条件,当禁忌搜索迭代 集算法对特征属性进行约简,将得到的特征子集作 到m:次时,停止搜索;当通过m2次搜索最优解没 为禁忌搜索的初始解,利用禁忌搜索能够在更广的 有改进时,停止搜索。 搜索空间中寻找到全局最优解的特性,得到最优特 1.3新的网络流量特征选择方法 征子集,降低了特征维度,加快了收敛速度,同时提 网络流量特征选择目的是减少特征数以降低分 高了后续分类性能.其流程如图1所示。 类器的计算复杂度,同时维持分类精度.网络流量的
第3期 顾成杰,等:结合粗糙集和禁忌搜索的网络流量特征选择 ·257. 初始化参数 使用粗糙集得到网络流量特征子集, 作为禁忌搜索的初始解 将网络流量特征子集川二进制编码形式 表示,生成初始解,并且将禁忌表置空 判断是否满足终止条件 Y N 利加初始解的邻域函数获得所有邻域解】 通过计算各个解的评价值得到若干候选解 N 判断是否满足特敖准则 将满足特放准则的解作为当前解,其对应的对象 替换最早进人禁忌表巾的对象,更新最优解 计算候选解对应的各对象的禁忌属性,选择候选解中非禁忌对象的最优 状态为新的当前解,并用该对象替换最早进入禁忌表巾的对象 结束算法,输出最优网络流量特征子集 图1结合粗糙集和禁忌搜索的网络流量特征选择方法流程 Fig.1 The flow chart of feature selection of network traffic using rough set and tabu search 采用这2个属性.使用粗糙集进行特征属性约简时, 2实验验证 要求属性值用离散数据表示,因此还需要对各个属 2.1实验数据集 性值进行离散化、 为了验证所提出的特征选择算法的有效性,通 表1实验数据集统计信息 过实验来验证.实验数据集的选择非常重要,经过分 Table 1 Statistics of Moore_Set 析和比较,采用剑桥大学Moore教授等人使用的网 类别 应用名称 流数目所占比例/% 络流量实验数据集n],记为Moore_.Set.该数据集采 WWW http,https 328091 86.910 自2003年8月20日0时至24时流经某生物学研 MAIL Imap,pop3,smtp 28567 7.567 究所网络出口的双向网络流量,通过采样提取出10 BULK ftp 11539 3.056 个平均抽样时间大约是1680s的子集,形成实验数 DATABASE oracle,mysql 2648 0.701 据集.该实验数据集中共包含了377526个网络流样 SERVER ident,ntp,x11,dns 2099 0.556 P2P kazaa,bittorrent 2094 0.555 本,被分成10种类型,每种类型所包含的应用名称、 ATTACK worm,virus 1793 0.475 每类网络流的数量和所占比例见表1. MEDIA real,media player 1152 0.305 Moore_Set中每条网络流样本都是从一条完整 INT telnet,ssh,rlogin 110 0.029 的TCP双向流抽象而来,包含248项属性,其中第1 GAME half-life 8 0.002 项属性和第2项属性分别是该流的源端口号和目的 总计 26种 377526 100 端口号.为了避免端口信息对分类的影响,本文没有
·258 智能系统学报 第6卷 2.2实验工具 表2运用RS-TS方法后得到的最优特征子集 实验所使用的数据挖掘工具是Weka-3.5.8,该 Table 2 Optimal feature subset with RS-TS 软件由新西兰Waikato大学所开发,可以在代码中 序号 特征描述 缩写 调用,也可以直接使用.本文采用Matlab7.0用于数 Duration of the flow duration 值计算,实验采用普通PC机,操作系统为Windows Number of packets in forward direction fpkts XP Professional SP.2,其中CPU为Intel Pentium Number of packets in backward direction bpkts Number of bytes in forward direction fbytes 2.66GHz,内存为DDR-6672GB. Number of bytes in backward direction bbytes 2.3评估策略与所采用的分类器 6 Minimum forward packet length minfpktl 为了评估所提出方法的性能,同时便于与其他 7 Mean forward packet length meanfpktl 特征选择方法进行对比,采用反馈率(recall)和准确 8 Maximum forward packet length maxfpktl Minimum backward packet length minbpktl 率(precious)作为衡量算法有效性的指标. 10 Mean backward packet length meanbpktl 反馈率=检索到的相关样本数量。 11 Maximum backward packet length maxbpktl 相关样本数量 12 Minimum forward inter-arrival time minfiat Np+N×100%, 13 Mean forward inter-arrival time meanfiat 14 Maximum forward inter-arrival time maxfiat 准确率=检索到的相关样本数量 15 Minimum backward inter-arrival time minbiat 检索到的样本数量 16 Mean backward inter-arrival time meanbiat 17 Maximum backward inter-arrival time maxbiat -×100%. 18 Minimum of active flow Np Np minaf 19 Mean of active flow meanaf 式中:Np、W、Wp含义定义如下: 20 Maximum of active flow maxaf I)Wp(true positive):实际类型为i的样本被分 2 Minimum of idle flow minif 类模型正确分类的样本数量; 22 Mean of idle flow meanif 2)Na(false negative):实际类型为i的样本被 23 Maximum of idle flow maxif 分类模型错误分类的样本数量; 在相同的实验数据集上分别基于全部特征属性 3)N。(false positive):实际类型为非i的样本 和最优特征属性训练C4.5决策树分类器,并利用 被分类模型分为类的样本数量. 得到的C4.5决策树分类器进行网络流量分类,表3 实验采用C4.5决策树分类器来对比各特征选 是特征选择前后C4.5决策树分类器分类精度的对 择算法,因为C4.5决策树分类器在进行样本分类 比结果 表3全部特征属性与最优特征子集的分类精度对比 时,仅需要根据网络样本流特征属性自顶向下进行 Table 3 Comparison of classification accuracy between full 比较,处理相对简单,同时不依赖于网络流量样本的 feature and optimal feature subset 名 先验概率,能有效地避免网络流样本变化所带来的 全部特征属性 最优特征子集 影响,具有较高的分类效率, 类别 2.4实验结果分析 反馈率 准确率 反馈率 准确率 WWW 93.58 96.65 97.67 98.19 为了验证结合粗糙集和禁忌搜索的特征选择方 MAIL 92.69 93.28 96.82 94.07 法(RS-TS)的正确性,在Moore_.Set上运用RS-TS方 BULK 85.23 85.83 88.96 86.85 法进行网络流量特征属性选择,得到相应的最优特 DATABASE 90.72 90.18 91.07 90.37 征子集如表2所示,从表中可以看出,网络流量样本 SERVER 90.85 89.29 93.73 91.32 具有大量特征属性,但同时也存在很多冗余特征属性 P2P 83.28 81.95 89.84 85.72 ATTACK 88.74 82.41 85.82 83.03 和弱相关特征属性,经过RS-TS方法特征选择后,从 MEDIA 93.87 86.73 94.62 87.46 246个特征属性中得到包含23个特征属性的最优特 INT 85.36 81.59 87.18 83.92 征子集,最优特征子集的特征个数仅为全部特征个数 GAME 82.03 79.65 88.22 83.07 的9.35%.RS-TS方法能够有效地获得对流量分类能 从表3可以得出,对于P2P类别来说,使用最 够发挥更大权重的特征属性,同时也避免了分类精度 优特征子集比使用全部特征属性分类的准确率提高 受一些弱相关特征或沉余特征的影响, 了4.60%,从所有业务的平均值来看,分类准确率
第3期 顾成杰,等:结合粗糙集和禁忌搜索的网络流量特征选择 ·259· 提高了1.89%.由此可以得到,利用最优特征子集 征子集,大大减弱了冗余特征对分类精度的影响, 训练出来的分类器具有更高的分类精度.实验结果 为了说明结合粗糙集和禁忌搜索的特征选择方 表明,基于S-TS的特征选择方法不仅降低了特征 法的有效性,本文选择文献[8]所使用的基于GA的 维数,而且提高了分类精度.其原因在于,由于 特征选择方法、文献[18]所使用的基于IG的特征 Moore_.Set包含的246项网络流特征属性中,存在众 选择方法与RS-TS方法对后续网络流量分类精度 多冗余属性和弱相关属性,而基于RS-TS的特征选 的影响进行对比试验.在这3种特征选择方法后都 择方法首先通过粗糙集进行特征属性的约减,在保 采用C4.5分类器对网络流量进行分类,试验结果 证分类精度的同时极大地降低了特征空间的维度, 如表4所示。 并在此基础上使用禁忌搜索,得到网络流量最优特 表4不同特征选择方法对分类精度的影响 Table 4 Comparison of classification accuracy between different feature selection algorithms % RS-TS CA IG 类别 反馈率 准确率 反馈率 准确率 反馈率 准确率 WWw 97.67 98.19 94.72 93.28 93.36 91.97 MAIL 96.82 94.07 93.34 92.92 90.12 89.25 BULK 88.96 86.85 87.09 83.34 79.89 81.29 DATABASE 91.07 90.37 89.63 88.03 84.47 83.85 SERVER 93.73 91.32 87.78 85.24 82.81 80.73 P2P 89.84 85.72 82.22 80.16 79.42 78.51 ATTACK 85.82 83.03 87.07 81.81 77.93 75.04 MEDIA 94.62 87.46 89.26 84.54 82.01 84.69 INT 87.18 83.92 83.19 79.93 80.36 77.73 GAME 88.22 83.07 79.27 76.78 74.17 69.94 表4可以得出,从所有类别的平均值来看,使用 征选择方法和基于IG的特征选择方法的效果.该方 RSTS方法比使用基于GA的特征选择方法的分类 法一方面利用粗糙集进行特征属性约简可以大大减 反馈率提高了4.62%,比使用基于IG的特征选择 少冗余特征属性的数量,解决禁忌搜索对初始解依 方法的分类反馈率提高了10.84%.由此可以得出, 赖性强的问题:并在此基础上使用禁忌搜索,可以加 RS-TS较GA、IG方法可以得到较高的反馈率和准 快收敛速度,较快地获得最优特征子集.如何减小 确率,说明了RS-TS方法的有效性.其原因在于,相 RS-TS的计算开销将是下一步研究的工作重点. 比于RS-TS方法,基于GA的特征选择方法容易过 早收敛,很难在特征空间中获得全局最优解;基于 参考文献: IG的特征选择方法易受样本分布的影响,而实际网 [1]NGUYEN TT,ARMITAGE G.A survey of techniques for 络环境中各种网络应用并不是均衡分布,所以在样 internet traffic classification using machine learning[J]. 本类别分布不均匀的网络环境下,基于IG的特征选 IEEE Communications Surveys and Tutorials,2008,10 择方法的分类精度严重受到影响.RS-TS方法结合 (4):56-76. 了粗糙集和禁忌搜索的优点,一方面通过粗糙集可 [2]CALLADO A,KAMIENSKI C.A survey on interet traffic 以消除网络流量中大量的冗余特征属性,同时为搜 identification[J].IEEE Communications Surveys and Tuto- 索最优解提供较优的初始解,另一方面利用禁忌搜 rials,2009,11(3):37-52. 索避免陷人“局部最优”,保证能够在特征子集空间 [3]ESTE A,GRINGOLI F,SALGARELLI L.Support vector machines for TCP traffic classification[J].Computer Net- 中找到全局最优解. w0rks,2009,53(14):2476-2490. 3 结束语 4]POLAT K.GUNES S.A new feature selection method on classification of medical datasets:kemel F-score feature se- 针对网络流量中存在大量冗余特征或弱特征, lection[J].Expert Systems with Applications,2009,36 从而导致分类精度下降的问题.根据粗糙集和禁忌 (7):10367-10373. 搜索各自的优点,提出了一种结合粗糙集和禁忌搜 [5]PATRICIA E N,ENGELBRECHT A P.A decision rule 索的网络流量特征选择方法(RS-TS).实验表明,该 based method for feature selection in predictive data mining 方法在实际网络流量中可以取得优于基于GA的特 [J].Expert Systems with Applications,2010,37(1):
·280· 智能系统学报 第6卷 602-609 for attribute reduction in rough set theory[J].Soft Compu- [6]BARALDI P,PEDRONI N,ZIO E.Application of a nicked ting,2008,12(9)):909-918. Pareto genetic algorithm for selecting features for nuclear [16]CHIOU Chiewun,WU Muhcheng.A GA-tabu algorithm transients classification[J].International Joural of Intelli- for scheduling in-line steppers in low-yield scenarios[]. gent Systems,,2009,24(2):118-151. Expert Systems with Applications,2009,36(9)::11925- ]KIRA K,RENDELL L A.Feature selection problem::tradi- 11933. tional methods and a new algorithm[C]//Proceedings of the [17]MOORE A W.ZUEV D.Internet traffic classification u- Tenth National Conference on Artificial Intelligence.San Jo- sing Bayesian analysis techniques[C]//Intemational Con- se,USA,1992::129-134. ference on Measurement and Modeling of Computer Sys- 8]LI Yongming.ZHANG Sujuan,ZENG Xiaoping.Research tems.New York,USA,2005:50-60. of multi-population agent genetic algorithm for feature selec- [18]YANG Y M.PEDERSEN J O.A comparative study on tion[J].Expert Systems with Applications,2009,36(7)): feature selection in text categorization[C]//Proceedings of 11570-11581. the Fourteenth International Conference on Machine Learn- ]HUANG Chenglung,DUN Jianfan.A distributed PSO-SVM ing.Nashville,USA,1997::412-420. hybrid system with feature selection and parameter optimiza 作者简介: tion[J].Applied Soft Computing Journal,2008,8(4)': 顾成杰,男,1985年生,博士研究 1381-1391. 生,主要研究方向为通信网与IP技术、 [10]ZHANG Li,MENG Xiangru,WU Weijia,et al.Network P2P网络、网络流量识别与认知网络. fault feature selection based on adaptive immune clone se- lection algorithm C]//Proceedings of the 2009 Interna- tional Joint Conference on Computational Sciences and Op- timization.Sanya,China,2009:969-973. [11]SWINIARSKIR W,SKOWRON A.Rough set methods in 张顺顾,男,1944年生,教授,博士 feature selection and recognition[J].Pattern Recognition 生导师,江苏省通信与网络工程技术研 Letters,2003,24(6):833-849. 究中心主任,中国通信学会IP应用与 12]殷志伟,张健沛.基于浓缩布尔矩阵的属性约简算法 增值电信业务专委会主任,中国电子学 [0].哈尔滨工程大学学报,2009,30(3):307-311. 会通信学分会副主任.主要研究方向为 YIN Zhiwei,ZHANG Jianpei.An attribute reduction algo- 计算机网络通信、下一代网络与P技术 rithm based on a concentration Boolean matrix[]].Journal 互联网络监测与管理.近年来先后主持完成国家"863“计划 of Harbin Engineering University,2009,30(3)307- 项目5项,国家科技支撑计划项目1项,江苏省重大科技成果 311. 产业化项目1项,江苏省高技术研究计划重点项目2项.获得 [3]]THANGAVELK,PETHALAKSHMI A.Dimensionality re- 省部级科技进步奖8项,完成专利申请30余项,发表学术论 duction based on rough set theory::a review[J]]Applied 文100余篇, Soft Computing Journal,2009,9(1):H2 [4]]WANG Yong,LI Lin,N Jun,et al.Feature selection u- 杜安源,男,1979年生,工程师,主 sing tabu search with long-term memories and probabilistic 要研究方向为移动通信与无线资源管 neural networks[J].Pattern Recognition Letters,2009. 理、3G标准的应用性研究、移动通信技 30(7)).:661-670. 术设计与实施等 [15]HEDAR A R,WANG J,FUKUSHIMA M.Tabu search
[10] ZHANG Li,MENG Xiangru,WU Weijia,et al. Network fault feature selection based on adaptive immune clone selection algorithm [ C]//Proceedings of the 2009 International Joint Conference on Computational Sciences and Optimization. Sanya,China,2009: 969-973. [13] THANGAVELK,PETHALAKSHMI A. Dimensionality reduction based on rough set theory: a review[J] . Applied Soft Computing Journal,2009,9(1) : 1-12. 张顺颐,男,1944年生,教授,博士 12] 殷志伟,张健沛.基于浓缩布尔矩阵的属性约简算法 [J] .哈尔滨工程大学学报,2009,30(3) :307-311. YIN Zhiwei,ZHANG Jianpei.An attribute reduction algorithm based on a concentration Boolean matrix[J] . Journal of Harbin Engineering University,2009,30(3) : 307- 311. 第6卷 [14] WANG Yong,LI Lin,N Jun,et al. Feature selection using tabu search with long-term memories and probabilistic neural networks[ J] . Pattern Recognition Letters,2009, 30(7) : 661-670. [7] KIRA K,RENDELL L A. Feature selection problem: traditional methods and a new algorithm[ C] //Proceedings of the Tenth National Conference on Artificial Intelligence. San Jose,USA,1992: 129-134. [16] CHIOU Chiewun,WU Muhcheng. A GA-tabu algorithm for scheduling in-line steppers in low-yield scenarios[J] . Expert Systems with Applications,2009,36(9) : 11925- 11933. 智 能 系 统 学 报 [17] MOORE A W,ZUEV D. Internet traffic classification using Bayesian analysis techniques[ C] //International Conference on Measurement and Modeling of Computer Sys- 8 ] LI Yongming,ZHANG Sujuan,ZENG Xiaoping. Research tems. New York,USA,2005: 50-60. of multi-population agent genetic algorithm for feature selection[J]. Expert Systems with Applications,2009,36(7) : 11570-11581. [9] HUANG Chenglung,DUN Jianfan. A distributed PSO-SVM hybrid system with feature selection and parameter optimization[J] . Applied Soft Computing Journal,2008,8(4) : 1381-1391. [18] YANG Y M,PEDERSEN J O. A comparative study on feature selection in text categorization[ C] //Proceedings of the Fourteenth International Conference on Machine Learning. Nashville,USA,1997: 412-420. [11] SWINIARSKI R W,SKOWRON A. Rough set methods in feature selection and recognition[J] . Pattern Recognition Letters,2003,24(6) :833-849. 顾成杰,男,1985年生,博士研究 生,主要研究方向为通信网与IP技术、 P2P网络、网络流量识别与认知网络. for attribute reduction in rough set theory[J]. Soft Computing,2008,12(9) :909-918. 作者简介: 602-609. 杜安源,男,1979年生,工程师,主 要研究方向为移动通信与无线资源管 理、3G标准的应用性研究、移动通信技 术设计与实施等. [6] BARALDI P,PEDRONI N,ZIO E. Application of a nicked Pareto genetic algorithm for selecting features for nuclear transients classification[J]. International Journal of Intelligent Systems,2009,24(2) : 118-151. · 260· [15] HEDAR A R,WANG J,FUKUSHIMA M. Tabu search 互联网络监测与管理.近年来先后主持完成国家"863"计划 项目5项,国家科技支撑计划项目1项,江苏省重大科技成果 产业化项目1项,江苏省高技术研究计划重点项目2项.获得 省部级科技进步奖8项,完成专利申请30余项,发表学术论 文100余篇. 生导师,江苏省通信与网络工程技术研 究中心主任,中国通信学会IP应用与 增值电信业务专委会主任,中国电子学 会通信学分会副主任.主要研究方向为 计算机网络通信、下一代网络与IP技术