一种多标准决策树剪枝方法及其在入侵检测中的应用李卫东1）宋威2）李

正在加载图片...

D0I:10.13374/1.issnl00103.2007.04.013 第29卷第4期北京科技大学学报 Vol.29 No.4 2007年4月 Journal of University of Science and Technology Beijing Apr.2007 一种多标准决策树剪枝方法及其在入侵检测中的应用李卫东)宋威)李欣)杨炳儒) 1)河北经贸大学信息技术学院，石家庄0500612)北京科技大学信息工程学院，北京100083 摘要为提高决策树的适用性，以决策树在入侵检测中的应用为背景提出一种多标准的剪枝方法，使决策树程序能在参数调整后适应不同的应用·给出了用于描述决策树不同性能的一些参量，如稳定性、复杂度、分类能力等，用户可以根据具体情况对向量各分量的权重进行调整，逐步得到满足要求的决策树，实验结果表明，该算法能够根据入侵检测系统的具体需要，快速地构建相应的决策树，从而程序可被用于不同情况·该方法把由程序员决定决策树变成了由用户决定决策树，程序更通用，结果更合理关键词入侵检测：决策树：剪枝：稳定性：复杂度；分类能力分类号TP18 入侵检测是现代计算机网络安全的一个重要方应用更重视它预测与分类的精确性与稳定性，在规面，由于网络带宽的不断增加、网络内容的迅速扩则推理中更多考虑规则的简洁性与适用性，在入侵充、入侵方式的快速发展等原因，系统处理速度成为检测中更注重处理速度，本文在开发入侵检测系统最大的瓶颈，最好的办法就是把网络封包快速分成时使用了两层决策树：第一层用于对网络封包进行若干小类，然后用相应的子系统进行处理或丢弃，决快速分类，第二层对某些入侵进行定性分析，所以策树就是一种非常合适的分类工具，笔者研究开发了一种可以根据多个标准进行剪枝的决策树算法ID3(inductive dichotomiser3)凹最算法，只要调整部分参数，决策树就能在多种要求组早是由Quinlan提出的一种归纳分类模型的算法，合下找到最佳平衡点，从而适用于多种情况是数据挖掘中的一种重要分类算法，有十分广泛的商业应用，决策树学习策略也广泛应用于模式识别 1主要的后剪枝方法和机器学习等领域，用来解决与分类相关的问题目前主要的后剪枝方法有四种：悲观错误剪枝生成算法与剪枝算法是决策树研究中的核心 (pessimistic error pruning,PEP);最小错误剪枝问题 (minimum error pruning,MEP);代价复杂度剪枝生成过程即建立决策树的过程，是不断地把训 (cost -complexity pruning,CCP);基于错误的剪枝练数据集进行划分的过程，每层划分对应一个属性， (error-based pruning,EBP). 此属性应使划分后的分组“差异”最大，决策树生成在讨论各种后剪枝算法之前，先给出一些术语算法的不同主要体现在对“差异”的衡量方式上，例和符号. 如ID3采用信息熵增益衡量差异，C4.5[则采用增 “大多数原则"(majority class criterion):剪枝过益比衡量差异。程中，将一些子树删除而用叶节点代替，这个叶节点剪枝过程是让决策树更一般化，以适应新样本所标识的类别用这棵子树中大多数训练样本所属的的过程，常见的剪枝策略有预剪枝(pre pruning)技类别来标识，所标识的类称为majority class,可以叫术和后剪枝(post pruning)技术.预剪枝技术主要是做节点主类通过建立某些规则限制决策树的充分生长，后剪枝 Tmax:由决策树生成算法生成的未剪枝的完技术则是待决策树充分生长完毕后再进行剪枝，后全决策树剪枝应用比较多 Tt:以内部节点t为根的一棵子树不同应用对决策树的要求有不同的侧重，商业 (l)悲观错误剪枝PEP.Quinlan提出的PEP 收稿日期：2005-12-12修回日期：2006-04-19 剪枝算法从上至下遍历每一个内部节点，通过比较基金项目：国家科技成果重点推广计划项目(N。.2003EC000001) 剪枝前、后的错分样本数来判断是否剪枝，它在ID3 作者简介：李卫东(1973一)，男，讲师，博士；杨炳儒(1943-)，男，教授，博士生导师系统中获得实现，PEP既采用训练集来生成决策树一种多标准决策树剪枝方法及其在入侵检测中的应用李卫东1）宋威2）李欣2）杨炳儒2） 1）河北经贸大学信息技术学院石家庄050061 2）北京科技大学信息工程学院北京100083 摘要为提高决策树的适用性以决策树在入侵检测中的应用为背景提出一种多标准的剪枝方法使决策树程序能在参数调整后适应不同的应用．给出了用于描述决策树不同性能的一些参量如稳定性、复杂度、分类能力等用户可以根据具体情况对向量各分量的权重进行调整逐步得到满足要求的决策树．实验结果表明该算法能够根据入侵检测系统的具体需要快速地构建相应的决策树从而程序可被用于不同情况．该方法把由程序员决定决策树变成了由用户决定决策树程序更通用结果更合理．关键词入侵检测；决策树；剪枝；稳定性；复杂度；分类能力分类号 TP18 收稿日期：20051212 修回日期：20060419 基金项目：国家科技成果重点推广计划项目（No．2003EC000001）作者简介：李卫东（1973—）男讲师博士；杨炳儒（1943—）男教授博士生导师入侵检测是现代计算机网络安全的一个重要方面．由于网络带宽的不断增加、网络内容的迅速扩充、入侵方式的快速发展等原因系统处理速度成为最大的瓶颈．最好的办法就是把网络封包快速分成若干小类然后用相应的子系统进行处理或丢弃决策树就是一种非常合适的分类工具．决策树算法 ID3（inductive dichotomiser3）［1］最早是由 Quinlan 提出的一种归纳分类模型的算法是数据挖掘中的一种重要分类算法有十分广泛的商业应用决策树学习策略也广泛应用于模式识别和机器学习等领域用来解决与分类相关的问题．生成算法与剪枝算法是决策树研究中的核心问题．生成过程即建立决策树的过程是不断地把训练数据集进行划分的过程每层划分对应一个属性此属性应使划分后的分组“差异”最大．决策树生成算法的不同主要体现在对“差异”的衡量方式上例如 ID3采用信息熵增益衡量差异C4∙5［2］则采用增益比衡量差异．剪枝过程是让决策树更一般化以适应新样本的过程．常见的剪枝策略有预剪枝（pre-pruning）技术和后剪枝（post-pruning）技术．预剪枝技术主要是通过建立某些规则限制决策树的充分生长后剪枝技术则是待决策树充分生长完毕后再进行剪枝后剪枝应用比较多．不同应用对决策树的要求有不同的侧重商业应用更重视它预测与分类的精确性与稳定性在规则推理中更多考虑规则的简洁性与适用性在入侵检测中更注重处理速度．本文在开发入侵检测系统时使用了两层决策树：第一层用于对网络封包进行快速分类第二层对某些入侵进行定性分析．所以笔者研究开发了一种可以根据多个标准进行剪枝的算法只要调整部分参数决策树就能在多种要求组合下找到最佳平衡点从而适用于多种情况． 1 主要的后剪枝方法目前主要的后剪枝方法有四种：悲观错误剪枝（pessimistic error pruningPEP ）；最小错误剪枝（minimum error pruningMEP）；代价复杂度剪枝（cost-complexity pruningCCP）；基于错误的剪枝（error-based pruningEBP）．在讨论各种后剪枝算法之前先给出一些术语和符号． “大多数原则”（majority class criterion）：剪枝过程中将一些子树删除而用叶节点代替这个叶节点所标识的类别用这棵子树中大多数训练样本所属的类别来标识所标识的类称为 majority class可以叫做节点主类． Tmax：由决策树生成算法生成的未剪枝的完全决策树． Tt：以内部节点 t 为根的一棵子树．（1）悲观错误剪枝 PEP．Quinlan 提出的 PEP 剪枝算法从上至下遍历每一个内部节点通过比较剪枝前、后的错分样本数来判断是否剪枝它在 ID3 系统中获得实现．PEP 既采用训练集来生成决策树第29卷第4期 2007年 4月北京科技大学学报 Journal of University of Science and Technology Beijing Vol．29No．4 Apr．2007 DOI:10．13374／j．issn1001－053x．2007．04．013

向下翻页>>

点击下载：一种多标准决策树剪枝方法及其在入侵检测中的应用