·140 智能系统学报 第5卷 2种不同模式传输VoP应用数据:一种是端到端方 式中:(Pa,Pota)为属于同一源地址/源端口的网络 式(end to end,E2E),2个端节点之间传输VoP数 流量的目的P地址和目的端口列表,‖P,‖为目 据;另一种是端到电话方式(end to phone,E2P),端 的地址数量,‖Pota‖为目的端口数量,Pr是目的 节点到传统PSTN电话之间传输VoP数据.该文献 P地址数‖Pa‖和目的端口数Il差的阈值, 采用Chi-Square分类器识别网络流量中加密流量, 1.1.2 Skype流特征 再采用贝叶斯分类器结合实时流的特征识别Sype Skype承载的业务多是VoP业务流,为了达到 流,算法没有考虑Skype的P2P特征,实验网络环境 VoP业务的持续和无延迟实时效果,Skype采用 流量较小,实验结果难以充分说明模型.文献[7]指 UDP协议传输VoP业务流,这使得Skype产生的业 出P2P通信存在以下2个连接特点:{TCP/UDP}P 务流数据较传统C/S非实时数据流小,且数据包发 对.{IP,Pot}对特征.并且通过对UDP数据包目的 送间隔较小.本文采用数据包大小、平均发送间隔和 地址和目的端口统计特征识别P2P应用流.朴素贝 突发带宽消耗作为实时流特征来度量实时流 叶斯分类(naive Bayesian classification,NBC)在数据 1)数据包大小:Skype语音数据大小分布具有 挖掘领域取得了很好的效果[] 自相似性,主要集中在120Byte,其中50~150Byte 之间数量占大多数.这个范围外的数据包发生呼叫 1基于流特征的朴素贝叶斯分类 建立时候,属于信令消息.Skype数据包大小如式 Skype将语音、视频、聊天和数据复用在一个帧 (2)所示: 中,再附加各自的称为开始消息(start of message, x=[s1,52,…,50] (2) SoM)的非加密头部后,最后经压缩和加密后封装成 式中:s:为连续w数据包中第i个数据包的大小. UDP或TCP数据包.作为分类特征,这里选择Skype 2)平均发送间隔:平均发送间隔定义为连续0 与其他互联网流有明显差异的特征作为分类特征. 帧的发送时间1/0,如式(3)所示.这个发送间隔在 一方面,作为一个采用P2P架构的应用软件,Skype 0.02~0.04s之间,大于0.04s数据包推测属于信令 产生的流具有P2P数据流的特征,另一方面,Skype 消息 承载的业务是VoP应用,使得Sype流具有实时流 y=[T]=[(t-t,)/w]. (3) 的特征 实验发现,当w>10基本可消除偶然因素影 1.1 Skype分类特征选择 响.本文w选择45,大约1.58. 3)突发带宽消耗:突发带宽消耗有字节率和数 Skype是采用基于P2P架构的VoP系统,其通讯过 程具有P2P通信特点,同时其流具有实时流特征. 据包率2种,而无论字节速率还是数据包速率 1.1.1 Skype连接特征 Skype流在经过开始几秒钟的上升阶段后都保持相 当的稳定,这里突发带宽消耗为规定时间间隔T内 通过分析可知,Skyp端节点对间通信仅使用 一种协议(或者采用UDP协议或者采用TCP协 字节突发带宽消耗,如式(4)所示 议),而不同时采用2种传输层协议.Skype通信过 z=[BW]=∑bw:lr (4) 程不符合P2P通信的{TCP/UDPP对的特征,但是 式中:T取值为1s,大约Skyp的30个数据包带宽消耗. Skype通讯过程中的目的地址和目的端口连接特征 1.2朴素贝叶斯分类 符合{IP,Pot}对特征.通过式(1)统计数据流的 朴素贝叶斯方法以概率密度函数为基础,描述 UDP目的地址和目的端口特征,判断数据流是否符 分类系统中条件属性和分类属性之间的映射关系, 合P2P通信特征. 相比于其他算法,具有出错率最小的特点.算法假定 (TPa,Porta)∈{(IP,Port,P,Porta),…, 可以通过观察的特征量集来描述目标,这些不同特 (IP,,Port,,IP,Port ) 征可形成各自聚类.X=[X:]表示不同样本向量, ‖IIPa‖-Il Portal‖<P (1) 给定特征序列X,P{C1x表示样本x属于C类的概