正在加载图片...
·258 智能系统学报 第6卷 2.2实验工具 表2运用RS-TS方法后得到的最优特征子集 实验所使用的数据挖掘工具是Weka-3.5.8,该 Table 2 Optimal feature subset with RS-TS 软件由新西兰Waikato大学所开发,可以在代码中 序号 特征描述 缩写 调用,也可以直接使用.本文采用Matlab7.0用于数 Duration of the flow duration 值计算,实验采用普通PC机,操作系统为Windows Number of packets in forward direction fpkts XP Professional SP.2,其中CPU为Intel Pentium Number of packets in backward direction bpkts Number of bytes in forward direction fbytes 2.66GHz,内存为DDR-6672GB. Number of bytes in backward direction bbytes 2.3评估策略与所采用的分类器 6 Minimum forward packet length minfpktl 为了评估所提出方法的性能,同时便于与其他 7 Mean forward packet length meanfpktl 特征选择方法进行对比,采用反馈率(recall)和准确 8 Maximum forward packet length maxfpktl Minimum backward packet length minbpktl 率(precious)作为衡量算法有效性的指标. 10 Mean backward packet length meanbpktl 反馈率=检索到的相关样本数量。 11 Maximum backward packet length maxbpktl 相关样本数量 12 Minimum forward inter-arrival time minfiat Np+N×100%, 13 Mean forward inter-arrival time meanfiat 14 Maximum forward inter-arrival time maxfiat 准确率=检索到的相关样本数量 15 Minimum backward inter-arrival time minbiat 检索到的样本数量 16 Mean backward inter-arrival time meanbiat 17 Maximum backward inter-arrival time maxbiat -×100%. 18 Minimum of active flow Np Np minaf 19 Mean of active flow meanaf 式中:Np、W、Wp含义定义如下: 20 Maximum of active flow maxaf I)Wp(true positive):实际类型为i的样本被分 2 Minimum of idle flow minif 类模型正确分类的样本数量; 22 Mean of idle flow meanif 2)Na(false negative):实际类型为i的样本被 23 Maximum of idle flow maxif 分类模型错误分类的样本数量; 在相同的实验数据集上分别基于全部特征属性 3)N。(false positive):实际类型为非i的样本 和最优特征属性训练C4.5决策树分类器,并利用 被分类模型分为类的样本数量. 得到的C4.5决策树分类器进行网络流量分类,表3 实验采用C4.5决策树分类器来对比各特征选 是特征选择前后C4.5决策树分类器分类精度的对 择算法,因为C4.5决策树分类器在进行样本分类 比结果 表3全部特征属性与最优特征子集的分类精度对比 时,仅需要根据网络样本流特征属性自顶向下进行 Table 3 Comparison of classification accuracy between full 比较,处理相对简单,同时不依赖于网络流量样本的 feature and optimal feature subset 名 先验概率,能有效地避免网络流样本变化所带来的 全部特征属性 最优特征子集 影响,具有较高的分类效率, 类别 2.4实验结果分析 反馈率 准确率 反馈率 准确率 WWW 93.58 96.65 97.67 98.19 为了验证结合粗糙集和禁忌搜索的特征选择方 MAIL 92.69 93.28 96.82 94.07 法(RS-TS)的正确性,在Moore_.Set上运用RS-TS方 BULK 85.23 85.83 88.96 86.85 法进行网络流量特征属性选择,得到相应的最优特 DATABASE 90.72 90.18 91.07 90.37 征子集如表2所示,从表中可以看出,网络流量样本 SERVER 90.85 89.29 93.73 91.32 具有大量特征属性,但同时也存在很多冗余特征属性 P2P 83.28 81.95 89.84 85.72 ATTACK 88.74 82.41 85.82 83.03 和弱相关特征属性,经过RS-TS方法特征选择后,从 MEDIA 93.87 86.73 94.62 87.46 246个特征属性中得到包含23个特征属性的最优特 INT 85.36 81.59 87.18 83.92 征子集,最优特征子集的特征个数仅为全部特征个数 GAME 82.03 79.65 88.22 83.07 的9.35%.RS-TS方法能够有效地获得对流量分类能 从表3可以得出,对于P2P类别来说,使用最 够发挥更大权重的特征属性,同时也避免了分类精度 优特征子集比使用全部特征属性分类的准确率提高 受一些弱相关特征或沉余特征的影响, 了4.60%,从所有业务的平均值来看,分类准确率
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有