正在加载图片...
.430 北京科技大学学报 第29卷 25. 重复步骤2,直到参数不能优化,得到按这个标 (2)以决策树深度为标准.决策树深度代表规 准集剪枝的最优树,如果不满意,可以修改系统参 则的复杂程度,通常决策树中规则的平均长度会在 数,再次剪枝,直到最终满意为止, 2到8之间,更短或更长都不好,所以定义分段 函数: 3实验结果与分析 Simndle=1,当2≤Lnle≤3; 3.1实验结果 Simndle=|9-Lnle|/5,当4≤Lmle≤8; 实验数据来自美国国防部高级计划署、美国空 Simnule=0,当Lrule>8 军研究实验室与麻省理工学院信息技术小组联合推 定义3分类能力:决策树是不是有用的一个 出的标准入侵检测测试数据,这些数据是检测入侵 重要的衡量指标是叶节点的分类识别能力,每个叶 检测系统检测能力与错误率的标准数据集 节点代表的分类越精确说明决策树越好,使用测试 采用DARPA2O00对于Windows NT的测试 集来测量叶节点的后验分类准确率,δ是给定的阈 集,分成外网与内网两个部分,共238MB,使用Nt- 值,叶节点t的分类能力用D(t)表示,如果 poke把TCPDU MP的网络封包进行重放,模拟当时 1-,(t)>ò,D(t)=1;反之D(t)=0. 的网络环境,然后用捕捉器捕获,再送给决策树进行 树的分类能力为: 分类,最后把数据发送给相应的处理模块,封包注重 1 的是处理速度,所以树的简洁性权重比较大,用于 Drs=衣(i)D() 对入侵定性的决策树处理的数据量相对较少,但每 Drm∈[0,1],数值越大说明分类越明确,出错率 一个判断的意义又比较重大,对精度的要求比较高, 越低 通过权重的调整,可以使一套程序适用于不同的 2.2剪枝过程 场合· 决策树在多个方面会有不同的表现,按用户的 在整个数据集中选取了70000条记录,其中, 需要剪枝成特定目标树的过程实际上是一个多变量 前50000条用于训练,其余的20000条用于测试. 决策过程,本文选用了比较直观又方便的权重 机器配置为:赛扬IV1.7 G Willamette,512MB内 模型. 存,编程工具VC6.0,选择5组参数得到5棵决策 每个树有一个性能描述向量,Teei=(vl,v2, 树,结果见表1. …,”m),向量分量可以是精度、稳定性、复杂度表达 表1调整剪枝参数后所得的决策树的性能对比表 能力等,也可以是本文未定义的其他性能描述参数, Table 1 Performance comparison of decision trees after parameters 把这些分量用一个公式进行合成,得到K: adjustment =之WP权重W要满足以下条件: 误报 序号S(T)D(T)Simnle Simi4 错报时间/ =1 率/%率/% w=1 10.7890.945 0.93 0.4179.23 6.9717.32 1 20.8120.9701.00 0.7507.366.02 14.17 W≥0 30.8700.952 1.00 0.0008.01 6.2319.30 步骤1: 40.8040.9721.00 0.8337.225.9713.48 (1)选择剪枝要使用的评价标准集,如果使用 50.7740.9791.001.0006.895.2212.21 分类能力,请给出阈值6. (②)给出关于准确率,稳定性的阈值 通过表1可以看出,参数调整可以使决策树性 (3)按需要调整复杂性公式的参数,给自己认 能产生较大的变化,用户可根据需要灵活地构建所 为更重要的属性更大的权值 需的决策树, 步骤2: 3.2与相关工作的比较 令Tm为T,计算T的性能参数,T:为T去 目前,已有一些学者将决策树方法应用于入侵 掉第i个叶节点,计算T:的性能参数.如果 检测.文献[6]利用决策树,提出一种基于Agent的 K(T)≥H(K(T),则停止,T为最优:否则,找到 分布式入侵检测系统.文献[7]提出一种基于决策 max(K(T),令T=T 树的、面向不同粒度空间的入侵检测方法,文献[8] 步骤3: 提出了一种模式匹配与决策树相结合的协议分析方25. (2) 以决策树深度为标准.决策树深度代表规 则的复杂程度‚通常决策树中规则的平均长度会在 2到8之间‚更短或更长都不好‚所以定义分段 函数: Simrule=1‚当2≤ L rule≤3; Simrule=|9— L rule|/5‚当4≤ L rule≤8; Simrule=0‚当 L rule>8. 定义3 分类能力:决策树是不是有用的一个 重要的衡量指标是叶节点的分类识别能力‚每个叶 节点代表的分类越精确说明决策树越好.使用测试 集来测量叶节点的后验分类准确率‚δ是给定的阈 值‚叶 节 点 t 的 分 类 能 力 用 D ( t ) 表 示.如 果 1— rv( t)>δ‚D( t)=1;反之 D( t)=0. 树的分类能力为: DTmax= 1 Nv ∑ n t=1 v ( i‚t) D( t). DTmax∈[0‚1]‚数值越大说明分类越明确‚出错率 越低. 2∙2 剪枝过程 决策树在多个方面会有不同的表现‚按用户的 需要剪枝成特定目标树的过程实际上是一个多变量 决策过程.本文选用了比较直观又方便的权重 模型. 每个树有一个性能描述向量‚Ttree i=( vi1‚vi2‚ …‚vin)‚向量分量可以是精度、稳定性、复杂度表达 能力等‚也可以是本文未定义的其他性能描述参数‚ 把这 些 分 量 用 一 个 公 式 进 行 合 成‚得 到 Ki = ∑ n j=1 Wijvij‚权重 Wij要满足以下条件: ∑ n j=1 Wij =1 Wij ≥0 步骤1: (1) 选择剪枝要使用的评价标准集‚如果使用 分类能力‚请给出阈值 δ. (2) 给出关于准确率‚稳定性的阈值. (3) 按需要调整复杂性公式的参数‚给自己认 为更重要的属性更大的权值. 步骤2: 令 T max为 T‚计算 T 的性能参数‚Ti 为 T 去 掉第 i 个 叶 节 点‚计 算 Ti 的 性 能 参 数.如 果 K( T)≥∀( K( Ti))‚则停止‚T 为最优;否则‚找到 max( K( Ti))‚令 T= Ti. 步骤3: 重复步骤2‚直到参数不能优化‚得到按这个标 准集剪枝的最优树.如果不满意‚可以修改系统参 数‚再次剪枝‚直到最终满意为止. 3 实验结果与分析 3∙1 实验结果 实验数据来自美国国防部高级计划署、美国空 军研究实验室与麻省理工学院信息技术小组联合推 出的标准入侵检测测试数据‚这些数据是检测入侵 检测系统检测能力与错误率的标准数据集. 采用 DARPA 2000对于 Windows NT 的测试 集‚分成外网与内网两个部分‚共238MB‚使用 Net￾poke 把 TCPDU MP 的网络封包进行重放‚模拟当时 的网络环境‚然后用捕捉器捕获‚再送给决策树进行 分类‚最后把数据发送给相应的处理模块‚封包注重 的是处理速度‚所以树的简洁性权重比较大.用于 对入侵定性的决策树处理的数据量相对较少‚但每 一个判断的意义又比较重大‚对精度的要求比较高. 通过权重的调整‚可以使一套程序适用于不同的 场合. 在整个数据集中选取了70000条记录‚其中‚ 前50000条用于训练‚其余的20000条用于测试. 机器配置为:赛扬 IV 1∙7G Willamette‚512MB 内 存‚编程工具 VC 6∙0‚选择5组参数得到5棵决策 树‚结果见表1. 表1 调整剪枝参数后所得的决策树的性能对比表 Table1 Performance comparison of decision trees after parameters adjustment 序号 S( T) D( T) Simrule Simleaf 误报 率/% 错报 率/% 时间/ s 1 0∙789 0∙945 0∙93 0∙417 9∙23 6∙97 17∙32 2 0∙812 0∙970 1∙00 0∙750 7∙36 6∙02 14∙17 3 0∙870 0∙952 1∙00 0∙000 8∙01 6∙23 19∙30 4 0∙804 0∙972 1∙00 0∙833 7∙22 5∙97 13∙48 5 0∙774 0∙979 1∙00 1∙000 6∙89 5∙22 12∙21 通过表1可以看出‚参数调整可以使决策树性 能产生较大的变化‚用户可根据需要灵活地构建所 需的决策树. 3∙2 与相关工作的比较 目前‚已有一些学者将决策树方法应用于入侵 检测.文献[6]利用决策树‚提出一种基于 Agent 的 分布式入侵检测系统.文献[7]提出一种基于决策 树的、面向不同粒度空间的入侵检测方法.文献[8] 提出了一种模式匹配与决策树相结合的协议分析方 ·430· 北 京 科 技 大 学 学 报 第29卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有