正在加载图片...
第6卷第3期 智能系统学报 Vol.6 No.3 2011年6月 CAAI Transactions on Intelligent Systems Jun.2011 doi:10.3969/i.i8sn.16734785.2011.03.010 结合粗糙集和禁忌搜索的网络流量特征选择 顾成杰,张顺颐,杜安源 (1.南京邮电大学信息网络技术研究所,江苏南京210003:2.中国移动通信集团设计院有限公司安徽分公司,安徽 合肥230041) 摘要:针对网络流量特征属性的优化选择问题,提出了一种结合粗糙集和禁忌搜索的网络流量特征选择方法(S S).该方法通过粗糙集算法对网络流量特征属性进行约简,将所得到的特征子集作为禁忌搜索的初始解,并利用禁 忌搜索得到最优特征子集.实验验证S-TS方法优于基于GA的特征选择方法和基于IG的特征选择方法,能够有效 地去除网络流量的冗余特征属性,提高网络流量分类精度 关键词:粗糙集;禁忌搜索;特征选择;网络流量 中图分类号:TP391文献标识码:A文章编号:16734785(2011)03025407 Feature selection of network traffic using a rough set and tabu search GU Chengjie',ZHANG Shunyi',DU Anyuan2 (1.Institute of Information Network Technology,Nanjing University of Posts and Telecommunications,Nanjing 210003,China;2.An- hui Branch,China Mobile Group Design Institute,Hefei 230041,China) Abstract:A feature selection of network traffic using a rough set and tabu search (RS-TS)was proposed for the purpose of optimization in the feature selection of traffic classification.This approach reduced the traffic feature at- tribute with a rough set and established the feature subset as the initial value of a tabu search,as well as the opti- mal feature subset on the basis of a tabu search.The optimal feature subset with a tabu search can be selected on the basis of a feature subset.In contrast with the traditional feature selection methods based on GA and IG,RS-TS was validated optimal by experimental results.It can diminish redundant feature attribution of network traffic effec- tively and greatly improve the classification accuracy. Keywords:rough set;tabu search;feature selection;network traffic 网络流量的精确分类是网络流量建模、用户行 在很多冗余特征属性和弱特征属性,过多特征属性 为分析、网络流量控制等行为的重要前提.随着 有时甚至会影响学习质量,导致分类精度下降,计算 互联网流量日趋复杂和动态多变,越来越多的网络 复杂度增加,计算时间延长[4].特征选择是在保持 应用采用动态端口、伪装端口和应用层加密等规避 原有网络流量完整性的基础上,去除其中的冗余特 手段,使得利用机器学习方法进行网络流量分类成 征属性或弱特征属性,同时维持分类精度的过 为一个重要的研究方向21.在使用机器学习方法处 程51.因此,寻找一种高效的网络流量特征选择方 理网络流量分类问题时,研究对象是网络流量的流 法以降低特征空间维数,提高网络流量分类的精度 统计特征属性,一般情况下,特征属性越多,就越能 成为本文要解决的重要问题 精确地区分不同的网络流量];但网络流量中也存 特征选择作为数据预处理的一类方法,是数据 挖掘、机器学习和模式识别的重要方法].目前有 收稿日期:2010-0828. 基金项目:国家“8683”计划资助项目(2006AA01Z32,2009AA01Z212, 基于信息熵、神经网络、粗糙集和遗传算法等各种特 2009AA01Z202);江苏省自然科学基金资助项目(BK2007603): 江苏省高技术研究计划资助项目(BG2007045);江苏省重大科 征选择方法.Kira和Rendell在文献[7]提出了一种 技支撑计划资助项目(BE2008134):江苏省科技成果转化专项 基于特征相关性的Relief算法,能够有效地进行特 基金资助项目(BA2007012). 通信作者:顾成杰.E-mail:jackiee.即@gmail.com 征选择,但Relief算法只能使用在二值分类环境中
向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有