第9卷第1期 智能系统学报 Vol.9 No.1 2014年2月 CAAI Transactions on Intelligent Systems Feb.2014 D0:10.3969/j.issn.1673-4785.201108007 网络出版地址:http:/www.cmki.net/kcms/doi/10.3969/j.issn.1673-4785.201108007.html 基于文本聚类的网络攻击检测方法 杨晓峰,李伟2,孙明明,胡雪蕾 (1.南京理工大学计算机科学与技术学院,江苏南京210094:2.哈佛医学院Dana-Farber癌症研究所,波士顿马萨诸 塞州02115,美国) 摘要:针对Wb服务应用的攻击是近年来网络上广泛传播的攻击方式,现有的攻击检测算法多采用监督学习的方 法确定正常行为和攻击行为的分类边界:但由于监督检测模型在检测之前需要复杂的学习过程,往往会降低系统的 实用效果。因此,根据现实中正常访问样本和攻击样本在数量和分布上的差异,提出了一种基于文本聚类的非监督 检测算法。算法首先采用迭代聚类过程聚类样本,直至聚为一类:同时根据异常与正常样本的分布规律,在聚类过 程中选择最优的最大类别作为正常样本类,将其余的作为异常样本类。最优方案的选择采用了使得分类误差最小 的原则确定。实验表明,与多种经典检测方法相比,该方法省去了复杂的学习过程,增强了方法的适应性,具有较好 的检测率和误报率。 关键词:网络攻击:网络攻击检测:文本聚类:非监督检测算法 中图分类号:TP393文献标志码:A文章编号:1673-4785(2014)01-0040-07 中文引用格式:杨晓峰,李伟,孙明明,等基于文本聚类的网络攻击检测方法[J].智能系统学报,2014,9(1):40-46 英文引用格式:YANG Xiaofeng,LI Wei,SUN Mingming,etal.Web attack detection method on the basis of text clustering[J]. CAAI Transactions on Intelligent Systems,2014,9(1):40-46. Web attack detection method on the basis of text clustering YANG Xiaofeng',LI Wei2,SUN Mingming',HU Xuelei' (1.School of Computer Science and Technology,Nanjing University of Science and Technology,Nanjing 210094,China;2.Dana- Farber Cancer Institute,Harvard Medical School,Boston,Massachusetts 02115,USA) Abstract:The attacks aiming at Web service applications within the past several years have become more widely- propagated,and the present attack detection algorithms mostly use the supervision study to determine the border be- tween normal the behavior and attack behavior;however,for the supervision and detection model,before the detec- tion,a complex studying process is necessary,this will lower the practical effects of the system.Therefore,on the basis of the realistic difference between the normal visit specimen and the attack specimen on the aspects of quantity and distribution,an unsupervised detection algorithm based on text clustering is proposed.In the algorithm,firstly, the iteratively clustered process is applied to cluster specimens,until reaching a category;in addition,according to the distribution law of the abnormal and normal specimens,in the clustering process,the optimal maximum catego- ry is considered as the normal specimen category and the others are considered as an abnormal specimen category. The optimal scheme is determined on the basis of the principle of the minimum classification error.The experiment shows that,in comparison with many traditional detection methods,the method used in this paper omits complex study processes and improves adaptability;the detection rate and the false positive rate are excellent. Keywords:Web attack;Web attack detection;text clustering;unsupervised detection algorithm 随着Wb应用的不断普及,网络服务为越来越 漏洞,这使得Wh服务器成为黑客攻击的主要目标 多的用户使用。由于许多网络应用服务开发者安全 之一。最新的CVE漏洞趋势报告[山显示,跨站脚本 意识的缺失,致使网络服务程序中存在大量的安全 攻击(XSS)、SQL注入(SQL-inject)和远程文件包含 (RFI)等基于HTTP协议[的网络攻击已经成为近 收稿日期:2011-08-29.网络出版日期:2014-02-24 基金项目:国家自然科学基金资助项目(60705020):江苏省自然科学 年来互联网上最主要的攻击方式。 基金资助项目(BK207594). 为了防御Wb攻击,网络安全工作者研究和开 通信作者:李伟.E-mail:liweinust(@hotmail.com
第 9 卷第 1 期 智 能 系 统 学 报 Vol.9 №.1 2014 年 2 月 CAAI Transactions on Intelligent Systems Feb. 2014 DOI: 10.3969 / j.issn.1673⁃4785.201108007 网络出版地址:http: / / www.cnki.net / kcms/ doi / 10.3969 / j.issn.1673⁃4785.201108007.html 基于文本聚类的网络攻击检测方法 杨晓峰1 ,李伟1,2 ,孙明明1 ,胡雪蕾1 (1.南京理工大学 计算机科学与技术学院,江苏 南京 210094; 2.哈佛医学院 Dana⁃Farber 癌症研究所,波士顿 马萨诸 塞州 02115,美国) 摘 要:针对 Web 服务应用的攻击是近年来网络上广泛传播的攻击方式,现有的攻击检测算法多采用监督学习的方 法确定正常行为和攻击行为的分类边界;但由于监督检测模型在检测之前需要复杂的学习过程,往往会降低系统的 实用效果。 因此,根据现实中正常访问样本和攻击样本在数量和分布上的差异,提出了一种基于文本聚类的非监督 检测算法。 算法首先采用迭代聚类过程聚类样本,直至聚为一类;同时根据异常与正常样本的分布规律,在聚类过 程中选择最优的最大类别作为正常样本类,将其余的作为异常样本类。 最优方案的选择采用了使得分类误差最小 的原则确定。 实验表明,与多种经典检测方法相比,该方法省去了复杂的学习过程,增强了方法的适应性,具有较好 的检测率和误报率。 关键词:网络攻击;网络攻击检测;文本聚类;非监督检测算法 中图分类号:TP393 文献标志码:A 文章编号:1673⁃4785(2014)01⁃0040⁃07 中文引用格式:杨晓峰,李伟,孙明明,等.基于文本聚类的网络攻击检测方法[J]. 智能系统学报, 2014, 9(1): 40⁃46. 英文引用格式:YANG Xiaofeng, LI Wei, SUN Mingming, et al. Web attack detection method on the basis of text clustering [ J]. CAAI Transactions on Intelligent Systems, 2014, 9(1): 40⁃46. Web attack detection method on the basis of text clustering YANG Xiaofeng 1 , LI Wei 1,2 , SUN Mingming 1 , HU Xuelei 1 (1. School of Computer Science and Technology, Nanjing University of Science and Technology, Nanjing 210094, China; 2. Dana- Farber Cancer Institute, Harvard Medical School, Boston, Massachusetts 02115, USA) Abstract:The attacks aiming at Web service applications within the past several years have become more widely- propagated, and the present attack detection algorithms mostly use the supervision study to determine the border be⁃ tween normal the behavior and attack behavior; however, for the supervision and detection model, before the detec⁃ tion, a complex studying process is necessary, this will lower the practical effects of the system. Therefore, on the basis of the realistic difference between the normal visit specimen and the attack specimen on the aspects of quantity and distribution, an unsupervised detection algorithm based on text clustering is proposed. In the algorithm, firstly, the iteratively clustered process is applied to cluster specimens, until reaching a category; in addition, according to the distribution law of the abnormal and normal specimens, in the clustering process, the optimal maximum catego⁃ ry is considered as the normal specimen category and the others are considered as an abnormal specimen category. The optimal scheme is determined on the basis of the principle of the minimum classification error. The experiment shows that, in comparison with many traditional detection methods, the method used in this paper omits complex study processes and improves adaptability; the detection rate and the false positive rate are excellent. Keywords:Web attack; Web attack detection; text clustering; unsupervised detection algorithm 收稿日期:2011⁃08⁃29. 网络出版日期:2014⁃02⁃24. 基金项目:国家自然科学基金资助项目(60705020);江苏省自然科学 基金资助项目(BK207594). 通信作者:李伟. E⁃mail: liweinust@ hotmail.com. 随着 Web 应用的不断普及,网络服务为越来越 多的用户使用。 由于许多网络应用服务开发者安全 意识的缺失,致使网络服务程序中存在大量的安全 漏洞,这使得 Web 服务器成为黑客攻击的主要目标 之一。 最新的 CVE 漏洞趋势报告[1]显示,跨站脚本 攻击(XSS)、SQL 注入( SQL⁃inject)和远程文件包含 (RFI)等基于 HTTP 协议[2] 的网络攻击已经成为近 年来互联网上最主要的攻击方式。 为了防御 Web 攻击,网络安全工作者研究和开
第1期 杨晓峰,等:基于文本聚类的网络攻击检测方法 ·41. 发了多种方法[3s)。入侵检测系统(intrusion detec- NFA和枚举类型。这些模型分别解析了HTTP协议 tion system,DS)是防御网络攻击的重要手段[6 请求,针对HTTP请求或请求中的属性进行检测,给 入侵检测方法主要分为两大类:误用检测(misuse 出异常程度评价。它们都使用了有监督的方式来训 detection)和异常检测(anomaly detection)。误用检 练正常请求的模型参数和最佳的分类阈值。与此类 测通过规则的方式来定义攻击行为的特征,例如 似,本文研究的是基于HTTP协议的Wb攻击 Snot检测系统[)。随着攻击方式的日益增加,误用 检测。 检测方法的弊端越来越明显:攻击的增加导致检测 本文利用现实情况中正常样本占总访问量的绝 规则的增加,这使得及时准确的更新、维护规则库越 大多数、行为特征类似,而攻击样本数量少、个体行 来越困难:而且,误用检测只能检测已知的攻击方 为差别大的规律,提出了基于聚类的非监督检测方 式,对新的未知攻击方式则无能为力)。异常检测 法,省去了训练样本的标记和训练过程,提高了系统 可以有效地克服误用检测的上述缺点。异常检测定 的适应能力。需要特别指出的是,类似的分布规律 义正常行为的特征,通过统计分析、数据挖掘的方 也同样出现在DS告警处理的研究中[),这也是方 法,学习得到正常行为的特征模型,当网络行为显著 法有效性成立的基础和方法设计的准则。 偏离正常的行为模式时则识别为异常行为。近年来 提出了很多针对Web攻击的异常检测模型9o],这 2基于文本聚类的检测方法 些模型多采用监督学习来学习正常访问行为的特征 2.1算法假设 模式,利用学习样本的分布来确定正常和攻击行为 HTTP请求一般由多个参数组成,参数中间用 的边界。然而,许多异常检测方法问题在于:1)模 字符“&”隔开,每个参数以“属性名=属性值”的形 型在开始检测之前需要多次学习,通常需要大量的 式组织。参数值中放入恶意的代码是常见的针对特 计算资源:2)由学习得到的正常行为模型需要进一 定程序和特定属性的攻击方式,未经充分检查的参 步做精细的泛化处理,使得模型能够尽可能代表未 数值可以引起Wb服务端的信息泄露、服务崩溃, 学习过的正常样本,而泛化的困难性很多时候会大 甚至导致Wb服务器劫持。在包含多个参数的请 大地限制该模型的应用效果。 求中,任意一个参数的属性值被检测到含有攻击代 基于Wb访问的统计研究表明,正常样本占总 码则判定请求为攻击。虽然属性值可以取包括数 体样本的大多数,且行为模式相似:而攻击样本只占 字、字符和特殊符号等多种形式,但本文都看作是一 一小部分,且行为模式各异。本文依据正常样本 个文本字符串。 与攻击样本的统计差异,提出了一种基于文本聚类 在对现实Web访问数据的分析中,发现90%以 的非监督检测算法:采用层次聚类的过程逐步聚合 上的访问请求都是正常的,恶意的攻击行为占总请 样本,并用贝叶斯原则指导聚类过程,最终将正常和 求量的很小一部分)。正常访问和恶意攻击的概 攻击样本聚合到不同的类别之中。本文方法在系统 率密度函数符合如下的特点(如图1所示):1)正常 设计方面具有非监督学习方法的特点,省去了复杂 访问占绝大多数,攻击占很小一部分:2)正常访问 的模型学习过程,简化了检测流程,以提高算法的适 的参数形式之间变化很小,具有很好的聚类特性: 应性。在与多种经典检测方法的比较实验中,本文 3)恶意的攻击与正常的样本模式之间有较大的差 方法取得了较高的检测率,可以较好地抑制误报率。 异,聚类特性较差。 1相关研究工作 异常检测方法最早被应用于传统入侵检测系统 攻击样本 的设计。Mahoney和Chan从正常的网络数据包 序列建立马尔可夫模型来检测新的未知攻击方式。 X Portnoy等提出了基于TCP协议的聚类方法。 Warrender等[1)]分析了特殊应用程序的正常系统调 8 D 用序列以识别恶意程序。Sengar等]专门为VolP ® ●● X (voice over Internet protocol)协议的通信设计了DS 0●●● 系统,系统为协议生成相应的状态机以检测通信行 ® 为是否为攻击。周东清等的提出基于隐马尔可夫 正常样本 模型的DDoS(分布式拒绝服务)检测攻击方法。 针对Web攻击,Kruegel和Vignal9o,6提出了 图1样本分布示例 多种异常检测模型,它们是长度模型、字符分布、 Fig.1 Illustration of sample distribution
发了多种方法[3⁃5] 。 入侵检测系统( intrusion detec⁃ tion system, IDS) 是防御网络攻击的重要手段[6] 。 入侵检测方法主要分为两大类:误用检测( misuse detection)和异常检测( anomaly detection)。 误用检 测通过规则的方式来定义攻击行为的特征,例如 Snort 检测系统[7] 。 随着攻击方式的日益增加,误用 检测方法的弊端越来越明显:攻击的增加导致检测 规则的增加,这使得及时准确的更新、维护规则库越 来越困难;而且,误用检测只能检测已知的攻击方 式,对新的未知攻击方式则无能为力[8] 。 异常检测 可以有效地克服误用检测的上述缺点。 异常检测定 义正常行为的特征,通过统计分析、数据挖掘的方 法,学习得到正常行为的特征模型,当网络行为显著 偏离正常的行为模式时则识别为异常行为。 近年来 提出了很多针对 Web 攻击的异常检测模型[9⁃10] ,这 些模型多采用监督学习来学习正常访问行为的特征 模式,利用学习样本的分布来确定正常和攻击行为 的边界。 然而,许多异常检测方法问题在于:1) 模 型在开始检测之前需要多次学习,通常需要大量的 计算资源;2)由学习得到的正常行为模型需要进一 步做精细的泛化处理,使得模型能够尽可能代表未 学习过的正常样本,而泛化的困难性很多时候会大 大地限制该模型的应用效果。 基于 Web 访问的统计研究表明,正常样本占总 体样本的大多数,且行为模式相似;而攻击样本只占 一小部分,且行为模式各异[11] 。 本文依据正常样本 与攻击样本的统计差异,提出了一种基于文本聚类 的非监督检测算法:采用层次聚类的过程逐步聚合 样本,并用贝叶斯原则指导聚类过程,最终将正常和 攻击样本聚合到不同的类别之中。 本文方法在系统 设计方面具有非监督学习方法的特点,省去了复杂 的模型学习过程,简化了检测流程,以提高算法的适 应性。 在与多种经典检测方法的比较实验中,本文 方法取得了较高的检测率,可以较好地抑制误报率。 1 相关研究工作 异常检测方法最早被应用于传统入侵检测系统 的设计。 Mahoney 和 Chan [12] 从正常的网络数据包 序列建立马尔可夫模型来检测新的未知攻击方式。 Portnoy 等[11] 提出了基于 TCP 协议的聚类方法。 Warrender 等[13]分析了特殊应用程序的正常系统调 用序列以识别恶意程序。 Sengar 等[14] 专门为 VoIP (voice over Internet protocol)协议的通信设计了 IDS 系统,系统为协议生成相应的状态机以检测通信行 为是否为攻击。 周东清等[15] 提出基于隐马尔可夫 模型的 DDoS(分布式拒绝服务)检测攻击方法。 针对 Web 攻击,Kruegel 和 Vigna [9⁃10,16] 提出了 多种异常检测模型,它们是长度模型、字符分布、 NFA 和枚举类型。 这些模型分别解析了 HTTP 协议 请求,针对 HTTP 请求或请求中的属性进行检测,给 出异常程度评价。 它们都使用了有监督的方式来训 练正常请求的模型参数和最佳的分类阈值。 与此类 似,本文研究的是基于 HTTP 协 议 的 Web 攻 击 检测。 本文利用现实情况中正常样本占总访问量的绝 大多数、行为特征类似,而攻击样本数量少、个体行 为差别大的规律,提出了基于聚类的非监督检测方 法,省去了训练样本的标记和训练过程,提高了系统 的适应能力。 需要特别指出的是,类似的分布规律 也同样出现在 IDS 告警处理的研究中[17] ,这也是方 法有效性成立的基础和方法设计的准则。 2 基于文本聚类的检测方法 2.1 算法假设 HTTP 请求一般由多个参数组成,参数中间用 字符“&”隔开,每个参数以“属性名 = 属性值”的形 式组织。 参数值中放入恶意的代码是常见的针对特 定程序和特定属性的攻击方式,未经充分检查的参 数值可以引起 Web 服务端的信息泄露、服务崩溃, 甚至导致 Web 服务器劫持。 在包含多个参数的请 求中,任意一个参数的属性值被检测到含有攻击代 码则判定请求为攻击。 虽然属性值可以取包括数 字、字符和特殊符号等多种形式,但本文都看作是一 个文本字符串。 在对现实 Web 访问数据的分析中,发现 90%以 上的访问请求都是正常的,恶意的攻击行为占总请 求量的很小一部分[11] 。 正常访问和恶意攻击的概 率密度函数符合如下的特点(如图 1 所示):1)正常 访问占绝大多数,攻击占很小一部分;2) 正常访问 的参数形式之间变化很小,具有很好的聚类特性; 3)恶意的攻击与正常的样本模式之间有较大的差 异,聚类特性较差。 图 1 样本分布示例 Fig.1 Illustration of sample distribution 第 1 期 杨晓峰,等:基于文本聚类的网络攻击检测方法 ·41·
·42… 智能系统学报 第9卷 Wb服务的同一个页面或程序通常会被许多 字符集A和字符b间的距离用(A,b)表示, 不同的用户以同样的形式访问:而且一个参数可以 其中a(A,b)=d(b,A),定义为 接受的数据类型一般都比较规范,例如属性名为 “生日”的参数形式会是一个日期型字符串,不同的 d(A,b)=min d(A(i),b) i=1 合法输入值之间比较相似。这就使得正常样本具备 式中:n为字符集A中字符的数量,A(i)表示A中第 了上述特点1)和2)的分布特性。恶意攻击则来自 i个字符。 于少数的恶意客户端,同样的攻击方式没有必要多 字符集距离定义为字符和字符集间的距离之 次重复,同时攻击的形式也没有规律性,决定了上述 和,即字符串样本x,和x,间的字符集距离为 攻击样本的分布特性。 d2(x1,x2)= 2.2距离定义 本文处理的数据是字符串样本,而传统的欧式 a(A(x),xi)+ aA()()= i=1 距离只适用于向量型的数据类型,本节将定义字符 串数据间的距离度量。 ∑mina(A(x)G),,(i)+ 2.2.1样本间距离 样本间距离是定义所有距离度量的基础。给定 in(4,0)(0) 字符串样本x1=k,k2…kn,x2=l山2…ln,其中k= x,(i)是x,中第i个字符,=x2()是x2中第j个字 3)字符组合顺序差异。 符,m=L(x,)、n=L(x2)分别代表x,和x,的字符串 字符组合顺序是用2个或多个连续字符为单 长度。样本x和x2的距离d(x1,x2)由下面3个部 位,描述字符串间相似度的度量,例如字符串“abcd- 分组成。 abcd”和“debadeba”在长度和字符集方面都相同,但 1)字符串长度差异。 字符的组合顺序大不相同。G(x)表示字符串样本x 字符串长度差异是字符串间最基本的差异度 中连续出现2个字符的集合,#(G(x))表示集合 量,定义为 G(x)中元素的数目,则x,和x,的字符组合顺序差异 d(x1,x2)=|L(x1)-L(x2)| 定义为 2)字符集差异。 d3(x1,x2)=#(G(x1)UG(x2))- 样本x的字符集是组成样本字符串的所有字符 #(G(x:)∩G(x2)) 的集合,用A(x)表示样本x的字符集。例如,x= d3(x1,x2)是x,和x2中不同的2-grams的数量。 “12332”时,A(x)={1,2,3}。字符集差异用于描述 字符串在字符选择上的差异,当2个字符串的字符 因此,x,和x,的距离为 集在数量和类型方面存在较大不同,特别是出现不 d(x1,x2)= 同类型的字符时,需给出惩罚。 d1(x1,x2)+d2(x1,x2)+d3(x1,x2)= 定义字符集距离之前需要定义字符间的距离, |L(x1)-L(x2)+ 字符kl的距离d(k,)定义如下: [0,k=l 宫d40s0)+ d(k,)=1,k≠l,k和l属于同一字符类型 10,k≠l,k和1属于不同字符类型 三-400)+ 表1为算法中使用的3种字符类型,分别为数 #(G(x1)UG(x2))-#(G(x1)∩G(x2)) 字类型、小写字符和大写字符、其他的字符。例如字 2.2.2样本与类间距离 符“/”和“-”不属于同类字符,字符间距离为10。 样本x与聚类C={x1,x2,…,x}间的距离定 表1字符类型定义 义为 Table 1 Definition of character types 字符类型 字符范围 dx,c)=12d(x,) (1) 数字 n i=l 0-9 小写字符和大写字符 a-z、A-Z 2.2.3类间距离 其他 /-=… 类C1={x1,x2,…,名1m}与类C2={x21,x2,…
Web 服务的同一个页面或程序通常会被许多 不同的用户以同样的形式访问;而且一个参数可以 接受的数据类型一般都比较规范,例如属性名为 “生日”的参数形式会是一个日期型字符串,不同的 合法输入值之间比较相似。 这就使得正常样本具备 了上述特点 1)和 2)的分布特性。 恶意攻击则来自 于少数的恶意客户端,同样的攻击方式没有必要多 次重复,同时攻击的形式也没有规律性,决定了上述 攻击样本的分布特性。 2.2 距离定义 本文处理的数据是字符串样本,而传统的欧式 距离只适用于向量型的数据类型,本节将定义字符 串数据间的距离度量。 2.2.1 样本间距离 样本间距离是定义所有距离度量的基础。 给定 字符串样本 x1 = k1 k2…km , x2 = l 1 l 2…l n ,其中 ki = x1 (i)是 x1中第 i 个字符,l j = x2(j)是 x2中第 j 个字 符,m = L(x1 )、n = L(x2 )分别代表 x1和 x2的字符串 长度。 样本 x1和 x2的距离 d( x1 ,x2 )由下面 3 个部 分组成。 1)字符串长度差异。 字符串长度差异是字符串间最基本的差异度 量,定义为 d1(x1 ,x2 ) = L(x1 ) - L(x2 ) 2)字符集差异。 样本 x 的字符集是组成样本字符串的所有字符 的集合,用 A( x) 表示样本 x 的字符集。 例如,x = “12332”时,A(x)= {1,2,3}。 字符集差异用于描述 字符串在字符选择上的差异,当 2 个字符串的字符 集在数量和类型方面存在较大不同,特别是出现不 同类型的字符时,需给出惩罚。 定义字符集距离之前需要定义字符间的距离, 字符 k、l 的距离 d ^ (k,l) 定义如下: d ^ (k,l) = 0, k = l 1, k ≠ l,k 和 l 属于同一字符类型 10, k ≠ l,k 和 l 属于不同字符类型 ì î í ïï ïï 表 1 为算法中使用的 3 种字符类型,分别为数 字类型、小写字符和大写字符、其他的字符。 例如字 符“ / ”和“-”不属于同类字符,字符间距离为 10。 表 1 字符类型定义 Table 1 Definition of character types 字符类型 字符范围 数字 0~ 9 小写字符和大写字符 a~ z、A~ Z 其他 / .- = ’…… 字符集 A 和字符 b 间的距离用 d - (A,b) 表示, 其中 d - (A,b) = d - (b,A) ,定义为 d - (A,b) = min n i = 1 d ^ (A(i),b) 式中:n 为字符集 A 中字符的数量,A(i)表示 A 中第 i 个字符。 字符集距离定义为字符和字符集间的距离之 和,即字符串样本 x1和 x2间的字符集距离为 d2(x1 ,x2 ) = ∑ n i = 1 d - (A(x1 ),x2(i)) + ∑ m i = 1 d - (A(x2 ),x1(i)) = ∑ n i = 1 min m j d ^ (A(x1 )(j),x2(i)) + ∑ m i = 1 min n j d ^ (A(x2 )(j),x1(i)) 3)字符组合顺序差异。 字符组合顺序是用 2 个或多个连续字符为单 位,描述字符串间相似度的度量,例如字符串“abcd⁃ abcd”和“dcbadcba”在长度和字符集方面都相同,但 字符的组合顺序大不相同。 G(x)表示字符串样本 x 中连续出现 2 个字符的集合,#( G( x)) 表示集合 G(x)中元素的数目,则 x1和 x2的字符组合顺序差异 定义为 d3(x1 ,x2 ) = #(G(x1 ) ∪ G(x2 )) - #(G(x1 ) ∩ G(x2 )) d3(x1 ,x2 )是 x1和 x2中不同的 2⁃grams 的数量。 因此,x1和 x2的距离为 d(x1 ,x2 ) = d1(x1 ,x2 ) + d2(x1 ,x2 ) + d3(x1 ,x2 ) = L(x1 ) - L(x2 ) + ∑ n i = 1 min m j d ^ (A(x1 )(j),x2(i)) + ∑ m i = 1 min n j d ^ (A(x2 )(j),x1(i)) + #(G(x1 ) ∪ G(x2 )) - #(G(x1 ) ∩ G(x2 )) 2.2.2 样本与类间距离 样本 x 与聚类 C = { x1 ,x2 ,…,xn } 间的距离定 义为 d(x,C) = 1 n ∑ n i = 1 d(x,xi) (1) 2.2.3 类间距离 类 C1 = {x11 ,x12 ,…,x1 m }与类 C2 = {x21 ,x22 ,…, ·42· 智 能 系 统 学 报 第 9 卷
第1期 杨晓峰,等:基于文本聚类的网络攻击检测方法 .43. x2n}间的距离为 2)选择C:、C,满足d(C:,C)=mind(Ck,C1); d(CC)=1d(.C)= 3)合并C、C,更新聚类集合C=C-C,-C+ n i=1 CUC 4)选择Cy,满足#(Cw)=max#(C:); m×n台 2.2.4类内距离 5)如果#(Cw)≤50%×∑#(C:),则转到步 聚类C={x1,x2,…,xn}的类内距离为 骤2): D(C)=d(C,C)= 6)将除C¥以外的所有聚类合成一类C、= 2宫 (2) UC,C∈C-Cw; 7)记聚类Cw和Cw为C,、C2; 2.3基于聚类的检测算法 8)结束。 如图2所示,本文基于层次聚类的Wb攻击检 层次聚类算法得到了聚类C,和C2,其中C,包 测算法包括4个部分组成:层次聚类算法、迭代聚类 含整个样本集50%以上的样本,根据对正常样本和 算法、最优方案选择算法和检测算法。 异常样本分布的假设,将C,和C,作为初步的正常样 本和异常样本聚类,继续迭代聚类。 样本集 2.3.2迭代聚类算法 迭代聚类是以层次聚类中的初步分类方案为基 层次聚类 础继续聚类过程,每一个聚类步骤将产生一个分类 算法 方案,这些分类方案序列是2.3.3节中算法的基础。 初步分类 C,和C,是迭代聚类的数据源。根据样本数据 迭代聚类 的分布特性,C,仅仅包含了正常样本中聚类特性最 算法 好的一部分样本,C,还含有大量的正常样本。通过 迭代聚类,将C,中的正常样本逐步聚合到C,中来。 分类方案序列 C,和C2是对样本集的一种分类方案,将集合 最优方案选择 S={C,C2}称为一种分类方案,迭代聚类的结果是 算法 一个分类方案的序列。 最优分类方案 迭代聚类算法如下: 1)初始化,N=0: 检测算法 2)记录分类方案Sw={C1,C2},V=N+1; 正常样本 3)从C2中选择样本x,满足d(C,x)= 异常样本 mind(C1,x:),x;eC2; 4)将x从C2移到C,更新C1、C2,C1=C1U 图2基于层次聚类的检测算法 {x},C2=C2-{x}; Fig.2 Agglomerative clustering based detection method 5)如果C,≠0,则转到步骤2): 2.3.1层次聚类算法 6)结束。 层次聚类算法旨在形成初步的2类聚类,分别 2.3.3选择最优方案算法 代表正常的聚类和异常的聚类,并且使得聚类符合 本小节算法旨在选择满足2.1节中特点2)和 2.1节中特点1)的条件。 3)的分类方案。选择最优聚类方案时,考虑使得分 样本集X={x1,x2,…,x}的层次聚类的算法 类误差最小,最小分类误差计算如下: 如下: e=P(CI C2)+P(C2I C) 1)初始化,将每一个样本作为一个聚类,得到 根据切比雪夫不等式,得到样本x分布在均值 聚类集合C={C,C2,…,Cn},其中C={x}: u距离t以外的概率上界:
x2 n }间的距离为 d(C1 ,C2 ) = 1 n ∑ n i = 1 d(x2i,C1 ) = 1 m × n∑ n i = 1 ∑ m j = 1 d(x2i,x1j) 2.2.4 类内距离 聚类 C = {x1 ,x2 ,…,xn }的类内距离为 D(C) = d(C,C) = 1 n 2∑ n i = 1 ∑ n j = 1 d(xi,xj) (2) 2.3 基于聚类的检测算法 如图 2 所示,本文基于层次聚类的 Web 攻击检 测算法包括 4 个部分组成:层次聚类算法、迭代聚类 算法、最优方案选择算法和检测算法。 图 2 基于层次聚类的检测算法 Fig.2 Agglomerative clustering based detection method 2.3.1 层次聚类算法 层次聚类算法旨在形成初步的 2 类聚类,分别 代表正常的聚类和异常的聚类,并且使得聚类符合 2.1 节中特点 1)的条件。 样本集 X = { x1 ,x2 ,…,xn } 的层次聚类的算法 如下: 1)初始化,将每一个样本作为一个聚类,得到 聚类集合 C = {C1 ,C2 ,…,Cn },其中 Ci = { xi}; 2)选择 Ci、Cj,满足 d(Ci,Cj) = min k≠l d(Ck,Cl); 3)合并 Ci、Cj,更新聚类集合 C = C -Ci - Cj + Ci ∪ Cj ; 4)选择 CM ,满足 #(CM ) = max i #(Ci) ; 5)如果 #(CM ) ≤ 50% × ∑i #(Ci) ,则转到步 骤 2); 6) 将除 CM 以外的所有聚类合成一类 CN = ∪i Ci,Ci ∈ C - CM ; 7)记聚类 CM和 CN为 C1 、C2 ; 8)结束。 层次聚类算法得到了聚类 C1和 C2 ,其中 C1包 含整个样本集 50%以上的样本,根据对正常样本和 异常样本分布的假设,将 C1和 C2作为初步的正常样 本和异常样本聚类,继续迭代聚类。 2.3.2 迭代聚类算法 迭代聚类是以层次聚类中的初步分类方案为基 础继续聚类过程,每一个聚类步骤将产生一个分类 方案,这些分类方案序列是 2.3.3 节中算法的基础。 C1和 C2是迭代聚类的数据源。 根据样本数据 的分布特性,C1仅仅包含了正常样本中聚类特性最 好的一部分样本,C2还含有大量的正常样本。 通过 迭代聚类,将 C2中的正常样本逐步聚合到 C1中来。 C1和 C2是对样本集的一种分类方案,将集合 S = {C1 ,C2 }称为一种分类方案,迭代聚类的结果是 一个分类方案的序列。 迭代聚类算法如下: 1)初始化,N= 0; 2)记录分类方案 SN = {C1 ,C2 },N=N+1; 3 ) 从 C2 中 选 择 样 本 x, 满 足 d(C1 ,x) = min i d(C1 ,xi),xi ∈ C2 ; 4)将 x 从 C2移到 C1 ,更新 C1 、C2 , C1 = C1 ∪ {x} , C2 = C2 - {x} ; 5)如果 C2 ≠ ⌀ ,则转到步骤 2); 6)结束。 2.3.3 选择最优方案算法 本小节算法旨在选择满足 2.1 节中特点 2) 和 3)的分类方案。 选择最优聚类方案时,考虑使得分 类误差最小,最小分类误差计算如下: e =P(C1 | C2 )+P(C2 | C1 ) 根据切比雪夫不等式,得到样本 x 分布在均值 μ 距离 t 以外的概率上界: 第 1 期 杨晓峰,等:基于文本聚类的网络攻击检测方法 ·43·
·44 智能系统学报 第9卷 p(l-ul>)k-4)x-4D<, 脚本攻击(XSS)、文件包含、漏洞溢出等。 2×x- 表2列出了NJUST数据集中3个子数据集的 大致情况,数据集A样本数最小,正常的样本格式 规整、形式单一;数据集B中含有大量的攻击样本, 数量几乎与正常的样本数量相当:数据集C的样本 总量最大,但攻击样本的比率最低。 表2实验数据集信息 Table 2 Information of NJUST datasets 12 数据集 样本数 正常样本 攻击样本 P(CIC2) P(CC) A 6119 4512 1607 图3两类问题中的最小分类误差原则 Fig.3 Minimum error principle in 2-class situation B 11148 6050 5098 最小误差的上界e为 C 85700 83391 2309 1 e <e= 2(x-4,下1x- (3) 用文献[10-12]中的长度模型、字符分布模型和 枚举类型模型与本文的文本聚类方法作比较。长 用e近似最小分类误差e来衡量分类方案的优劣。 度、字符分布和枚举类型的分类原则均采用原文中 给定S,={C1,C2},x为S-到S,迭代聚类时从 阈值高于最高正常样本异常度10%的经验策略。 C,移到C,中的样本,式(3)中C,和C,的方差σ和 实验目的是比较本文方法和经典方法的ROC σ分别用式(2)的类内距离D(C,)和D(C,)来计 曲线,即模型的分类能力。与其他模型直接输出测 算,而x到类均值的距离x-1|和x-u2|分别 试样本的异常测度不同,文本聚类Wb攻击检测算 用式(1)中的样本与类间距离d(x,C,)和d(x,C2) 法只能给出样本的分类结果。在本文方法的层次聚 计算,e的计算公式为 类和迭代聚类过程中,取每一个最大聚类中的样本 i-Dc) .D(C2) 为正常样本,其他样本为异常样本。这样每一个聚 2d(x,C,)2d(x,C2) 类的中间步骤都作为一次分类,把这些分类结果的 在分类方案序列S,S2,…,Sx中,选择使得e最 检测率和误报率绘制成文本聚类方法的ROC曲线。 小的分类方案S·,作为最优的分类方案。 聚类方法的ROC曲线也反应了聚类的分类性能,可 2.3.4检测算法 以用来验证2.3.3节中最优分类方案选择算法是 最优的分类方案S·={C,C2},则检测算法直 可以找到聚类方法的最优分类点。 接根据样本所属聚类的类别进行分类: NJUST数据集的3个子数据集分别被随机均分 (0,xEC 成训练集和测试集,用训练集训练模型,测试集测试 f(x)= 1,x∈C2 模型的检测性能。因为文本聚类方法不需要事先训 式中:0表示正常样本,1表示异常样本。 练,因此直接在测试集上测试聚类方法。 4种检测方法在A、B、C3个数据集上的ROC 3实验和讨论 曲线对比结果依次见图4,本文方法在图中称为“文 标准的网络攻击样本库数量较少,其中比较著 本聚类
P( x - μ > t) < σ 2 t 2 所以图 3 中, P(C1 | C2 ) = 1 2 P( x′ - μ2 > x - μ2 ) < σ 2 2 2 × x - μ2 2 P(C2 | C1 ) = 1 2 P( x′ - μ1 > x - μ1 ) < σ 2 1 2 × x - μ 2 1 图 3 两类问题中的最小分类误差原则 Fig.3 Minimum error principle in 2⁃class situation 最小误差的上界 e - 为 e < e - = 1 2 σ 2 1 x - μ1 2 + σ 2 2 x - μ2 2 æ è ç ö ø ÷ (3) 用 e - 近似最小分类误差 e 来衡量分类方案的优劣。 给定 Si = {C1 ,C2 },x 为 Si -1到 Si迭代聚类时从 C2移到 C1中的样本,式(3)中 C1和 C2的方差 σ 2 1 和 σ 2 2 分别用式(2) 的类内距离D(C1 ) 和 D(C2 ) 来计 算,而 x 到类均值的距离 x - μ1 和 x - μ2 分别 用式(1)中的样本与类间距离d(x, C1 )和 d(x,C2 ) 计算, e - 的计算公式为 e - = 1 2 D(C1 ) d (x,C1 ) 2 + D(C2 ) d (x,C2 ) 2 æ è ç ö ø ÷ 在分类方案序列 S1 ,S2 ,…,SN中,选择使得 e - 最 小的分类方案 S ∗ ,作为最优的分类方案。 2.3.4 检测算法 最优的分类方案 S ∗ = {C1 ,C2 },则检测算法直 接根据样本所属聚类的类别进行分类: f(x) = 0, x ∈ C1 1, x ∈ C2 { 式中:0 表示正常样本,1 表示异常样本。 3 实验和讨论 标准的网络攻击样本库数量较少,其中比较著 名的包括 MIT 林肯实验室的 DARPA 数据集[18⁃19]和 KDDCup’99 数据集[20] 。 因为这些数据集只含有少 量的 Web 攻击,同时数据收集时间较早,无法有效 地验证 本 文 方 法, 所 以 采 用 笔 者 收 集 的 域 名 为 “njust.edu.cn”2010 年上半年的网站 log 数据。 经过 人工和程序辅助的检查,用于本文实验的数据集含 有大量的恶意攻击访问,其中包括 SQL 注入、跨站 脚本攻击(XSS)、文件包含、漏洞溢出等。 表 2 列出了 NJUST 数据集中 3 个子数据集的 大致情况,数据集 A 样本数最小,正常的样本格式 规整、形式单一;数据集 B 中含有大量的攻击样本, 数量几乎与正常的样本数量相当;数据集 C 的样本 总量最大,但攻击样本的比率最低。 表 2 实验数据集信息 Table 2 Information of NJUST datasets 数据集 样本数 正常样本 攻击样本 A 6 119 4 512 1 607 B 11 148 6 050 5 098 C 85 700 83 391 2 309 用文献[10⁃12]中的长度模型、字符分布模型和 枚举类型模型与本文的文本聚类方法作比较。 长 度、字符分布和枚举类型的分类原则均采用原文中 阈值高于最高正常样本异常度 10%的经验策略。 实验目的是比较本文方法和经典方法的 ROC 曲线,即模型的分类能力。 与其他模型直接输出测 试样本的异常测度不同,文本聚类 Web 攻击检测算 法只能给出样本的分类结果。 在本文方法的层次聚 类和迭代聚类过程中,取每一个最大聚类中的样本 为正常样本,其他样本为异常样本。 这样每一个聚 类的中间步骤都作为一次分类,把这些分类结果的 检测率和误报率绘制成文本聚类方法的 ROC 曲线。 聚类方法的 ROC 曲线也反应了聚类的分类性能,可 以用来验证 2.3.3 节中最优分类方案选择算法是否 可以找到聚类方法的最优分类点。 NJUST 数据集的 3 个子数据集分别被随机均分 成训练集和测试集,用训练集训练模型,测试集测试 模型的检测性能。 因为文本聚类方法不需要事先训 练,因此直接在测试集上测试聚类方法。 4 种检测方法在 A、B、C 3 个数据集上的 ROC 曲线对比结果依次见图 4,本文方法在图中称为“文 本聚类”。 ·44· 智 能 系 统 学 报 第 9 卷
第1期 杨晓峰,等:基于文本聚类的网络攻击检测方法 .45. 1.00 型不具有样本的泛化能力,只是机械地记录学习过 的样本,遇到新的样本一律判定为异常行为。枚举 0.96 类型模型在数据集C上的ROC曲线是连接点(0, 0.92 0)和点(1,1)点的直线,表明模型对数据集C的数 --长度 据没有任何分类能力。这是因为模型在检验数据类 ·字符分布 型是否为枚举类型时假设检验失败,从而判定模型 0.84中 …6…枚举类型 一★文本聚类 无法检测数据集C的数据。 0.800 0.2 0.4 0.6 0.8 1.0 文本聚类方法在3个数据集上均表现出了最高 误报率 的检测率和儿乎为0的误报率,证实了聚类方法的 (a)数据集A 有效性。在数据集B上有大量攻击样本的存在,攻 1.0f 击样本和正常样本的比率很高,这不满足2.1小节 0.8 中二者比率很小的算法成立假立,说明虽然算法成 立的假设是很严格的条件,但在适当放宽其中的一 0.6 部分条件时,聚类算法仍然能够有效地检测攻击 0.4 一…长度 样本。 字符分布 0.2 枚举类型 本文方法在实验中比经典模型显示出检测率 文本聚类 高、误报率低和稳定性高的特点,并且无需事先训 0.2 0.4 0.6 0.8 1.0 练。这是因为算法设计运用了现实数据统计规律, 误报率 相当于使用了样本分布的先验知识,从而使得本文 b)数据集B 方法在3个实验中可以进行有效的检测。 4结束语 0.8 针对Web攻击检测研究表明,正常的Web访 0.6 问行为占访问样本的大多数且行为模式类似、具有 0.4 一。长度 字符分布 很好的聚类性:而攻击行为占访问样本少数且行为 0.2 6…枚举类型 模式各异、聚类性差。基于这一规律,提出了一种基 ·文本聚类 于文本聚类的非监督检测算法。另外,本文算法在 0.2 0.4 0.6 0.8 1.0 NJUST现实数据集上取得了较高的检测率,从而证 误报率 实了该方法的有效性。 c数据集C 本文算法基于非监督学习思想,省去了多数异 图4数据集A、B、C上的ROC曲线对比 常检测方法中复杂的学习训练过程,增强了方法的 Fig.4 ROC comparisons on dataset A,B and C 应用性。该方法尚存的缺点是聚类速度较慢,对于 从结果中可以看出: 边界样本难于判断其类别,这将在未来的工作中研 文本聚类方法和长度模型都具有很高的检测率 究改进。 和较低的误报率,同时这2种方法在不同数据集上 的性能表现都很稳定,最好的检测率和误报率几乎 参考文献: 没有变化。 [1]CHRISTEY S,MARTIN R A.Vulnerability type distribu- 字符分布模型的性能根据数据集的不同起伏很 tions in CVE [EB/OL].[2011-08-20].http://cwe.mitre. 大,特别是在具有大量攻击样本的数据集B上。说 org/documents/vuln-trends.html. 明字符分布模型对正常样本的形式要求很高,在正 [2]FIELDING R,GETTYS J,MOGUL J,et al.RFC-2616: 常样本形式简单和规则的条件下性能尚可,否则检 hypertext transfer protocol-HTTP/1.1[S].Montreal:Inter- 测性能将大幅下降。 net Engineering Task Force (IETF),1999 枚举类型在数据集A和B上性能差不多,这个 [3]INGHAM K L,SOMAYAJIB A,BURGEA J,et al.Learn- 模型容易产生很高的误报率。这是因为枚举类型模 ing DFA representations of HTTP for protecting web applica-
图 4 数据集 A、B、C 上的 ROC 曲线对比 Fig.4 ROC comparisons on dataset A, B and C 从结果中可以看出: 文本聚类方法和长度模型都具有很高的检测率 和较低的误报率,同时这 2 种方法在不同数据集上 的性能表现都很稳定,最好的检测率和误报率几乎 没有变化。 字符分布模型的性能根据数据集的不同起伏很 大,特别是在具有大量攻击样本的数据集 B 上。 说 明字符分布模型对正常样本的形式要求很高,在正 常样本形式简单和规则的条件下性能尚可,否则检 测性能将大幅下降。 枚举类型在数据集 A 和 B 上性能差不多,这个 模型容易产生很高的误报率。 这是因为枚举类型模 型不具有样本的泛化能力,只是机械地记录学习过 的样本,遇到新的样本一律判定为异常行为。 枚举 类型模型在数据集 C 上的 ROC 曲线是连接点(0, 0)和点(1,1)点的直线,表明模型对数据集 C 的数 据没有任何分类能力。 这是因为模型在检验数据类 型是否为枚举类型时假设检验失败,从而判定模型 无法检测数据集 C 的数据。 文本聚类方法在 3 个数据集上均表现出了最高 的检测率和几乎为 0 的误报率,证实了聚类方法的 有效性。 在数据集 B 上有大量攻击样本的存在,攻 击样本和正常样本的比率很高,这不满足 2.1 小节 中二者比率很小的算法成立假立,说明虽然算法成 立的假设是很严格的条件,但在适当放宽其中的一 部分条件时,聚类算法仍然能够有效地检测攻击 样本。 本文方法在实验中比经典模型显示出检测率 高、误报率低和稳定性高的特点,并且无需事先训 练。 这是因为算法设计运用了现实数据统计规律, 相当于使用了样本分布的先验知识,从而使得本文 方法在 3 个实验中可以进行有效的检测。 4 结束语 针对 Web 攻击检测研究表明,正常的 Web 访 问行为占访问样本的大多数且行为模式类似、具有 很好的聚类性;而攻击行为占访问样本少数且行为 模式各异、聚类性差。 基于这一规律,提出了一种基 于文本聚类的非监督检测算法。 另外,本文算法在 NJUST 现实数据集上取得了较高的检测率,从而证 实了该方法的有效性。 本文算法基于非监督学习思想,省去了多数异 常检测方法中复杂的学习训练过程,增强了方法的 应用性。 该方法尚存的缺点是聚类速度较慢,对于 边界样本难于判断其类别,这将在未来的工作中研 究改进。 参考文献: [1] CHRISTEY S, MARTIN R A. Vulnerability type distribu⁃ tions in CVE [EB/ OL]. [2011⁃08⁃20]. http: / / cwe.mitre. org / documents/ vuln⁃trends.html. [2] FIELDING R, GETTYS J, MOGUL J, et al. RFC⁃2616: hypertext transfer protocol⁃HTTP / 1.1[ S]. Montreal: Inter⁃ net Engineering Task Force (IETF), 1999. [3]INGHAM K L, SOMAYAJIB A, BURGEA J, et al. Learn⁃ ing DFA representations of HTTP for protecting web applica⁃ 第 1 期 杨晓峰,等:基于文本聚类的网络攻击检测方法 ·45·
.46. 智能系统学报 第9卷 tions[J].Computer Networks,2007,51(5):1239-1255. 服务攻击检测方法[J].计算机研究与发展,2005,42 [4]CORONA I,ARIU D,GIACINTO G.HMM-Web:a frame- (9):1594-1599. work for the detection of attacks against web applications ZHOU Qingdong,ZHANG Haifeng,ZHANG Shaowu,et [C]//IEEE International Conference on Communications. al.A DDos attack detection method based on hidden Mark- Dresden,Germany,2009:1-6. ov model[J].Journal of Computer Research and Develop- [5]DURY A,HALLAL HH,PETRENKO A.Inferring behav- ment,2005,42(9):1594-1599. ioural models from traces of business applications [C]/ [16]INGHAM K L,INOUE H.Comparing anomaly detection IEEE International Conference on Web Services.Los Angel- techniques for HTTP[C]//Proceedings of the 10th Inter- es,USA,2009:791-798. national Conference on Recent Advances in Intrusion De- [6]BACE R.Intrusion detection[M].[S.I.]:Macmillan Pub- tection.Gold Goast,Australia,2007:42-62 lishing Co.Ine.,2000:1-4. [17]JULISCH K.Clustering intrusion detection alarms to sup- [7]ROESCH M.Snort-lightweight intrusion detection for net- port root cause analysis[J].ACM Transactions on Informa- works[C]//Proceedings of the 13th USENIX Conference on tion and System Security,2003,6(4):443-471. System Administration.Seattle,USA,1999:229-238. [18]HAINES J W,LIPPMANN R P,FRIED D J,et al.1999 [8]CHANDOLA V,BANERJEE A,KUMAR V.Anomaly de- DARPA intrusion detection system evaluation:design and tection:a survey[J].ACM Computing Surveys,2009,41 procedures,TR-1062[R].Lexington,USA:Lincoln La- (3):artical no.15. boratory,Massachusetts Institute of Technology,2001. [9]KRUEGEL C,VIGNA G.Anomaly detection of web-based attacks[C]//Proceedings of the 10th ACM Conference on [19]LIPPMANN R P,HAINES J W,FRIED D J,et al.The Computer and Communications Security.Washington,DC, 1999 DARPA off-line intrusion detection evaluation J]. USA:ACM,2003:251-261. Computer Networks,2000,34(4):579-595. [10]KRUEGEL C,VIGNA G,ROBERTSON W.A multi-mod- [20]The UCI KDD Archive.KDD Cup 1999 data EB/OL]. el approach to the detection of web-based attacks[J]. (1999-10-28)[2011-08-20].htp://kdd.ics.uci.ed/da- Computer Networks,2005,48(5):717-738. tabases/kddcup99/kddcup99.html. [11]PORTNOY L,ESKIN E,STOLFO S.Intrusion detection 作者简介: with unlabeled data using clustering[C]//Proceedings of 杨晓峰,男,1982年生,博士研究生 ACM CSS Workshop on Data Mining Applied to Security. 主要研究方向为网络安全、机器学习。 Philadelphia,USA,2001:5-8. [12]MAHONEY M V,CHAN P K.Learning nonstationary models of normal network traffic for detecting novel attacks [C]//Proceedings of the 8th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New 李伟,男,1978年生,博士,主要研 York,USA:ACM,2002:376-385. [13]WARRENDER C,FORREST S,PEARLMUTTER B.De- 究方向为复杂网络、模式识别、机器 tecting intrusions using system calls:alternative data mod- 学习。 els[C]//Proceedings of IEEE Symposium on Security and Privacy.Oakland,USA,1999:133-145. [14]SENGAR H,WIJESEKERA D,WANG H,et al.VolP in- trusion detection through interacting protocol state ma- 孙明明,男,1981年生,讲师,主要 chines[C]//Proceedings of International Conference on 研究方向为模式识别机器学习。 Dependable Systems and Networks.Philadelphia,USA: EEE/1FP,2006:393-402. [15]周东清,张海锋,张绍武,等.基于HMM的分布式拒绝
tions[J]. Computer Networks, 2007, 51(5): 1239⁃1255. [4]CORONA I, ARIU D, GIACINTO G. HMM⁃Web: a frame⁃ work for the detection of attacks against web applications [C] / / IEEE International Conference on Communications. Dresden, Germany, 2009: 1⁃6. [5]DURY A, HALLAL H H, PETRENKO A. Inferring behav⁃ ioural models from traces of business applications [ C] / / IEEE International Conference on Web Services. Los Angel⁃ es, USA, 2009: 791⁃798. [6]BACE R. Intrusion detection[M]. [S.l.]: Macmillan Pub⁃ lishing Co. Inc., 2000: 1⁃4. [7] ROESCH M. Snort⁃lightweight intrusion detection for net⁃ works[C] / / Proceedings of the 13th USENIX Conference on System Administration. Seattle, USA, 1999: 229⁃238. [8]CHANDOLA V, BANERJEE A, KUMAR V. Anomaly de⁃ tection: a survey[ J]. ACM Computing Surveys, 2009, 41 (3): artical no. 15. [9]KRUEGEL C, VIGNA G. Anomaly detection of web⁃based attacks[C] / / Proceedings of the 10th ACM Conference on Computer and Communications Security. Washington, DC, USA: ACM, 2003: 251⁃261. [10]KRUEGEL C, VIGNA G, ROBERTSON W. A multi⁃mod⁃ el approach to the detection of web⁃based attacks [ J ]. Computer Networks, 2005, 48(5): 717⁃738. [11]PORTNOY L, ESKIN E, STOLFO S. Intrusion detection with unlabeled data using clustering[C] / / Proceedings of ACM CSS Workshop on Data Mining Applied to Security. Philadelphia, USA, 2001: 5⁃8. [12] MAHONEY M V, CHAN P K. Learning nonstationary models of normal network traffic for detecting novel attacks [C] / / Proceedings of the 8th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York, USA: ACM, 2002: 376⁃385. [13]WARRENDER C, FORREST S, PEARLMUTTER B. De⁃ tecting intrusions using system calls: alternative data mod⁃ els[C] / / Proceedings of IEEE Symposium on Security and Privacy. Oakland, USA, 1999: 133⁃145. [14]SENGAR H, WIJESEKERA D, WANG H, et al. VoIP in⁃ trusion detection through interacting protocol state ma⁃ chines [ C] / / Proceedings of International Conference on Dependable Systems and Networks. Philadelphia, USA: IEEE/ IFIP, 2006: 393⁃402. [15]周东清,张海锋,张绍武,等.基于HMM的分布式拒绝 服务攻击检测方法[ J].计算机研究与发展, 2005, 42 (9): 1594⁃1599. ZHOU Qingdong, ZHANG Haifeng, ZHANG Shaowu, et al. A DDos attack detection method based on hidden Mark⁃ ov model[J]. Journal of Computer Research and Develop⁃ ment, 2005, 42(9): 1594⁃1599. [16] INGHAM K L, INOUE H. Comparing anomaly detection techniques for HTTP[C] / / Proceedings of the 10th Inter⁃ national Conference on Recent Advances in Intrusion De⁃ tection. Gold Goast, Australia, 2007: 42⁃62. [17] JULISCH K. Clustering intrusion detection alarms to sup⁃ port root cause analysis[J]. ACM Transactions on Informa⁃ tion and System Security, 2003, 6(4): 443⁃471. [18]HAINES J W, LIPPMANN R P, FRIED D J, et al. 1999 DARPA intrusion detection system evaluation: design and procedures, TR⁃1062[R]. Lexington, USA: Lincoln La⁃ boratory, Massachusetts Institute of Technology, 2001. [19]LIPPMANN R P, HAINES J W, FRIED D J, et al. The 1999 DARPA off⁃line intrusion detection evaluation [ J]. Computer Networks, 2000, 34(4): 579⁃595. [20] The UCI KDD Archive. KDD Cup 1999 data [ EB/ OL]. (1999⁃10⁃28)[2011⁃08⁃20]. http: / / kdd.ics.uci. edu / da⁃ tabases/ kddcup99 / kddcup99.html. 作者简介: 杨晓峰,男,1982 年生,博士研究生, 主要研究方向为网络安全、机器学习。 李伟,男,1978 年生,博士,主要研 究方向为复杂 网 络、 模 式 识 别、 机 器 学习。 孙明明,男,1981 年生,讲师,主要 研究方向为模式识别、机器学习。 ·46· 智 能 系 统 学 报 第 9 卷