第5卷第2期 智能系统学报 Vol.56.2 2010年4月 CAAI Transactions on Intelligent Systems Apr.2010 doi:10.3969/j.issn.16734785.2010.02.007 流特征的Skype流量识别 万月亮,朱贺军2,刘宏志 (1.北京工商大学计算机与信息工程学院,北京100048:2.公安部第三研究所北京锐安科技有限公司,北京100044) 摘要:Skyp阳流识别的研究大多局限于在静态载荷特征和通信机制,没有考虑网络流特征在Skype流量识别中的作 用.提出了一种基于朴素贝叶斯分类的Skpe流量识别模型.选择流的连接特征和实时特征作为分类特征集,根据流 的连接特征组织网络流,再进一步根据流的包长度、平均发送间隔和突发带宽消耗等实时流特征识别Skyp流量.在 北京联通骨干网络上的实验表明该模型能有效地识别Skype流,是一种有效的Skype流识别算法. 关键词:流量识别;朴素贝叶斯分类;深度包检测;实时流特征 中图分类号:TP393文献标识码:A文章编号:16734785(2010)02-013905 Skype traffic identification based on flow characteristics WAN Yue-liang,ZHU He-jun2,LIU Hong-zhi (1.College of Computer and Information Engineering,Beijing Technology and Business University,Beijing 100048,China; 2.The Third Research Institute of Ministry of Public Security Run Technologies Co.,Ltd.,Beijing 100044,China) Abstract:Most of the Skype traffic identification models are limited to Skype communication mechanisms and static payload characteristics.No net flow characteristics are considered in identification algorithms.To overcome this limitation,a hierarchical Skype traffic identification model based on naive Bayesian classification was developed. Flows were analyzed according to network connection modes.Results were then obtained according to real-time flow characteristics,such as packet size,average inter-packet gap and burstiness of bandwidth consumption.The validi- ty of the algorithm was proven by testing conducted on the Beijing China Unicom backbone network. Keywords:traffic identification;naive Bayesian classification;deep packet inspection;real-time flow characteristic Skype流识别是网络策略计费和差异化服务的 所有通信内容都是加密传输.文献[3]分析了Skype 重要前提之一.由于Skype采用私有通信协议通信, 使用的通讯协议,指出在呼叫建立阶段采用TCP协 加密了用户之间以及用户与Skype服务器之间的通 议;语音传输阶段则多采用UDP协议,最后给出了 信内容,使得基于端口和特征的检测方法难以有效 部分Skype协议的静态载荷特征码.在此基础上,文 识别Skype流量.Skype流识别研究大多集中于静态 献[4]提出了基于UDP端口的Skype流量识别方法,这 载荷特征和通信机制的研究.文献[1]研究了Skype 种方法适用于Skype使用UDP作为传输层协议,需要 网络拓扑结构和关键节点信息,得到了Skype节点 得到Skype注册信息.文献[5]通过网络端节点入站 注册和登录通信过程及流量特征.文献[2]采用逆 和出站流的特征,结合P2P特征识别Skype流量,其 向工程技术分析了Skype协议实现细节,指出Skype 前提是端点所处网络拓扑已知,能够获取单端节点 流量.然而现实网络环境难以满足这些条件,从而限 收稿日期:2009-1227. 通信作者:万月亮.E-mail:yueliang-wan@126.com. 制了该方法的实用性.文献[6]指出Skype流承载有
·140 智能系统学报 第5卷 2种不同模式传输VoP应用数据:一种是端到端方 式中:(Pa,Pota)为属于同一源地址/源端口的网络 式(end to end,E2E),2个端节点之间传输VoP数 流量的目的P地址和目的端口列表,‖P,‖为目 据;另一种是端到电话方式(end to phone,E2P),端 的地址数量,‖Pota‖为目的端口数量,Pr是目的 节点到传统PSTN电话之间传输VoP数据.该文献 P地址数‖Pa‖和目的端口数Il差的阈值, 采用Chi-Square分类器识别网络流量中加密流量, 1.1.2 Skype流特征 再采用贝叶斯分类器结合实时流的特征识别Sype Skype承载的业务多是VoP业务流,为了达到 流,算法没有考虑Skype的P2P特征,实验网络环境 VoP业务的持续和无延迟实时效果,Skype采用 流量较小,实验结果难以充分说明模型.文献[7]指 UDP协议传输VoP业务流,这使得Skype产生的业 出P2P通信存在以下2个连接特点:{TCP/UDP}P 务流数据较传统C/S非实时数据流小,且数据包发 对.{IP,Pot}对特征.并且通过对UDP数据包目的 送间隔较小.本文采用数据包大小、平均发送间隔和 地址和目的端口统计特征识别P2P应用流.朴素贝 突发带宽消耗作为实时流特征来度量实时流 叶斯分类(naive Bayesian classification,NBC)在数据 1)数据包大小:Skype语音数据大小分布具有 挖掘领域取得了很好的效果[] 自相似性,主要集中在120Byte,其中50~150Byte 之间数量占大多数.这个范围外的数据包发生呼叫 1基于流特征的朴素贝叶斯分类 建立时候,属于信令消息.Skype数据包大小如式 Skype将语音、视频、聊天和数据复用在一个帧 (2)所示: 中,再附加各自的称为开始消息(start of message, x=[s1,52,…,50] (2) SoM)的非加密头部后,最后经压缩和加密后封装成 式中:s:为连续w数据包中第i个数据包的大小. UDP或TCP数据包.作为分类特征,这里选择Skype 2)平均发送间隔:平均发送间隔定义为连续0 与其他互联网流有明显差异的特征作为分类特征. 帧的发送时间1/0,如式(3)所示.这个发送间隔在 一方面,作为一个采用P2P架构的应用软件,Skype 0.02~0.04s之间,大于0.04s数据包推测属于信令 产生的流具有P2P数据流的特征,另一方面,Skype 消息 承载的业务是VoP应用,使得Sype流具有实时流 y=[T]=[(t-t,)/w]. (3) 的特征 实验发现,当w>10基本可消除偶然因素影 1.1 Skype分类特征选择 响.本文w选择45,大约1.58. 3)突发带宽消耗:突发带宽消耗有字节率和数 Skype是采用基于P2P架构的VoP系统,其通讯过 程具有P2P通信特点,同时其流具有实时流特征. 据包率2种,而无论字节速率还是数据包速率 1.1.1 Skype连接特征 Skype流在经过开始几秒钟的上升阶段后都保持相 当的稳定,这里突发带宽消耗为规定时间间隔T内 通过分析可知,Skyp端节点对间通信仅使用 一种协议(或者采用UDP协议或者采用TCP协 字节突发带宽消耗,如式(4)所示 议),而不同时采用2种传输层协议.Skype通信过 z=[BW]=∑bw:lr (4) 程不符合P2P通信的{TCP/UDPP对的特征,但是 式中:T取值为1s,大约Skyp的30个数据包带宽消耗. Skype通讯过程中的目的地址和目的端口连接特征 1.2朴素贝叶斯分类 符合{IP,Pot}对特征.通过式(1)统计数据流的 朴素贝叶斯方法以概率密度函数为基础,描述 UDP目的地址和目的端口特征,判断数据流是否符 分类系统中条件属性和分类属性之间的映射关系, 合P2P通信特征. 相比于其他算法,具有出错率最小的特点.算法假定 (TPa,Porta)∈{(IP,Port,P,Porta),…, 可以通过观察的特征量集来描述目标,这些不同特 (IP,,Port,,IP,Port ) 征可形成各自聚类.X=[X:]表示不同样本向量, ‖IIPa‖-Il Portal‖<P (1) 给定特征序列X,P{C1x表示样本x属于C类的概
第2期 万月亮,等:流特征的Skype流量识别 141 率,由先验概率P{x|C}得出后验概率P{C1x}如 式中:B》为编码器j时间序列k的置信度,数据包 式(5)所示: 大小特征的置信度如式(10)所示: PICI=PIC.L=PIC,aL.PiC max B.max(E[B()] (10) Plx Pla'Picp= 平均发送间隔和带宽消耗不需要考虑数据包大 Plzl CLPICI. 小中的不同编码器因素,窗口飞置信度分别为B、 Px (5) 各分量:相互独立,满足式(6): 和B,如式(11)、(12)所示: E[B,]Ex[BC ] (11) P{xlC;=ΠP{xIC. (6) E[B]=E[B]. (12) 通常情况下,采用最大可能性判定准则评估样 Skype实时流量特征置信度由数据包大小、平 本属于C类的可能性,P{x|C}称为置信度,置信度 均发送间隔和带宽消耗特征的置信度中最小值决 越大,属于该类的可能性也就越大.这里采用前面小 定,如式(13)所示 节定义的实时流量特征作为分类特征集.其中数据 B min(maxB:,E[B,],E[B.]), 包大小、平均发送间隔和平均带宽消耗置信度分别 B>B. (13) 定义为B、B,和B,如式(7): 式中:B,为Skype实时流特征置信度阈值. B.(C)=1∑lgP{xlC, Skyp流的判定由流的连接特征和实时流置信度 0 决定,满足式(1)和式(13)的网络流量识别为Syp B,(C)IgPlyl c, (7) 流.也就是说,如果网络数据流满足P2P的连接模式, B.(C)=Ig PlzI C. 且具有实时流特征,则该数据流认为是SyT流, 其中,数据包大小由观测值采用高斯分布进行 拟合.其与发送速率RT,头部长度H,冗余参数RF 2试验结果及分析 和编帧时间N(u,o)相关对于每个{RT,H,RF, 实验数据来自北京联通2路0C19210G数据, △T},数据包大小分布用高斯分布N(u,a)表示,其 实验时间为2009年4月10号-2009年4月11号, 中u如式(8)表示: 总共20h.实验的数据中不仅包含Skype流,还有 u=(Rate A len(H))RF len(SoM).(8) TCP协议数据、TRP/UDP协议传输的视频数据、P2P 式中:RT由表1所示,RF∈{1,2,3,4},len(SoM)= 数据、VPN数据、VoP数据. 4 Bytes,len(H)=8 Bytes,△T∈{10,20,…,60;,单位 测试数据集中的Skype数据流采用简单载荷识 为m8. 别和组合特征识别方法采捕获,包括E2P语音流和 表1 Skype解码器的特性 E2E语音、视频、数据和聊天数据流. Table 1 Skype decoder characteristics 实验的硬件环境为:机架式服务器,4GB内存, 编码器 帧尺寸/ms 比特率/Kbps Xeon E55304核2.4GHz处理器,操作系统为 ISAC 30,60 10/32 Linux.按照错检率(false-Positive,F,)和漏检率 ILBC 20,30 13.3,15.2 G.729 10 8 (false-negative,FN)来衡量识别模型性能,如式 iPCM-wb 10,20,30,40 80 (14). EG.711A/U 10,20,30,40 48,56,64 PCM A/U NsN 10,20,30,40 64 Fp三Ns' σ的取值,对于恒定速率编码,如G729,σ取 NS 值为1;对于可变编码如ISAC,σ取值为0.75.每个 FN=Ns (14) 实验窗口k选择所有置信度中最大的B》(c)作为 式中:Wss为测试集中属于Skype的流识别为Skype 编码器j新的置信度,如式(9): 的数量,Nsw为测试集中不属于Skype的流识别为 E[B(]E[B ] (9) Sype的数量,W,为测试数据集中的Skype流数量
·142. 智能系统学报 第5卷 Ws属于测试数据集中Skpe流,但未被识别的 的VoP实时流特征存在相似性.对于漏检样本,分 Skype流数量, 析发现基淮测试库中包含Skype的视频/数据/聊天 由于Skype有效载荷的SoM消息的数据包识别 消息,这部分消息不符合实时流特征,NBC无法从 需要持续跟踪Skype有效载荷SoM消息及源节点产 E2E流中分离聊天/数据流.视频/数据/聊天数据不 生的所有流量.在真实网络环境下很难满足这些条 经过PSTN网关,E2P测试库没有该类数据,因此 件.但是基于有效载荷特征识别结果可靠,本文采用 NBC模型的E2P漏检索率较E2E漏检率要小 其作为离线交叉验证方法,选用文献[6]基于有效 3结束语 载荷特征识别的流作为基准测试集,来验证NBC分 类模型 Skype流特征和其他网络应用数据流的不同特 图1比较了NBC模型和文献[5]提出的NPA算 征,传统C/S应用流通常使用众所周知的端口作为 法的性能,表2是NBC和NPA分类性能详细数据 服务端口,传输中数据包比较大.其他P2P应用多 0.10 NBC 使用明文传输,可采用载荷检测技术进行识别.互联 0.08 NPA 网流中实时音频与Skyp流在实时流特征存在一定 0.06 程度上类似,都是同时使用TCP和UDP传输数据, 但其不具有P2P的连接特征.其他VoP流,如MSN 0.04 或QQ也存在实时特征,大多建立在标准协议上,动 0.02 态协商端口,存在可识别静态载荷特征.网络游戏通 0 常采用UDP协议传输数据,具有网络带宽消耗波动 E2E E2P E2E E2P F 和突发性特征[9.本文结合了Skype的连接特征和 图1NBC与NPA识别比较 实时流特征,采用朴素贝叶斯分类器识别Skype流 Fig.1 Results of NBC and NPA 量.首先根据网络流的连接模式,识别出具有P2P 测试数据集通过有效载荷特征识别方法获得, 连接模式网络数据流,进一步根据流的实时性特征 作为Skype数据流基准测试数据,包括63157条 识别Skype流,最后采用有效载荷交叉方法验证了 Skype语音流,其中54411条E2E流和8746条E2P 算法的性能.由于Skype属于目前私有协议,没有建 流.NBC分类结果为E2E错检率为9.0%,漏检率 立一个标准的测试集,对于Skype流的检测算法大 为5.9%;E2P的错检率为2.8%,漏检率为0.8%. 多基于互联网流检测基础上,难以客观评价体系。 NPA分类结果为E2E错检率为10.7%,漏检率为 24.2%;E2P的错检率为16.1%,漏检率为19.3%. 参考文献: NBC的模型分类性能较NPA分类模型效果要好. [1]BASET S A,SCHULZRINNE H.An analysis of the Skype 表2NBC与NPA分类算法的分类性能 peer-to-peer internet telephony protocol[C]/IEEE Info- Table 2 Comparison between NBC and NPA com'06.Barcelona,Spain,2006:1-11. 分类 承载 [2]BIONDI P,DESCLAUX F.Silver needle in the Skype Nss 算法类型 [C]//Black Hat Europe'06.Amsterdam,The Nether- 测试2E 54411 1ands,2006,1:2547. 数据库 E2P 8746 [3]YU YF,LIU DD,LI J,et al.Traffie identification and o- NBC E2E56291 50829.032025.9 E2P8921 2482.873 0.8 verlay measurement of Skype[C]//Proc of IEEE Interna- NPAE2E75712812010.71318124.2 tional Conference on Computational Intelligence and Securi- 2P12541210116.1169419.3 ty.Guangzhou,China,2006:1043-1048. 对于NBC错检样本,通过手工识别发现大部分 [4]CHEN K T,HUANG C Y,HUANG P,et al.Quantifying 情况为RTP承载的VoP流,这些数据与Skype承载 fying Skype user sattsfaction[C]//ACM SIGCOMM'06.Pi-
第2期 万月亮,等:流特征的Skpe流量识别 ·143· aa,Itay,2006:399-410 作者简介: [5]LU L,JEFFREY H,SAFAVI-NAINII R,et al.Transport 万月亮,男,1973年生,讲师,博士, layer identification of Skype traffic[C]//ICOIN 2007.Esto- 主要研究方向为网络信息安全、海量数 ril,Portugal,2007:465-481. 据挖掘、网络行为分析、网络视频挖掘。 [6]DARIO B,MARCO M,MICHELA M.Revealing Skype 发表学术论文近10篇,出版编著1部. traffic when randomness plays with you [C]//ACM Sig- comm'07.Kyoto,Japan,2006:37-48. [7]FALOUTSOS M,KARAGIANNIS C K,BROIDO A T. 朱贺军,男,1973年生,硕士,主要 Transport layer identification of P2P traffic[C]//Proceed- 研究方向为网络信息安全、互联网挖掘 ings of the 4th ACM SIGCOMM Conference on Internet 与数据挖掘, Measurement.Taormina,Sicily,Italy,2004:121-134. [8]MOORE A,ZUEV D.Internet raffic classification using Bayesian analysis C]//ACM Sigmetrics BANFF,CA, 2005:5060. 刘宏志,男,1964年生,教授,博士, [9]FENG W,CHANG F,FENG W,et al.A traffic character- 主要研究方向为信息工程监理与电子 ization of popular on-line games[J].IEEE/ACM Transac- 政务、软件工程、计算机网络,发表学术 tions on Networking,2005,13(3):488-500. 论文60余篇,主编、参编论著及教材10 余部. 2010年全国模式识别学术会议 Chinese Conference on Pattern Recognition 2010 随着人工智能、机器学习和计算机网络等相关技术的快速发展,模式识别研究在近几年来取得了令人瞩目的成就, 一批研究成果得到了广泛应用和推广.继20世纪80年代以来中国自动化学会模式识别与机器智能专业委员会成功主 办了多次国内学术会议后,全国模式识别学术会议2007年和2008年在北京、2009年在南京举行,得到了国内同行的积 极响应,会议取得圆满成功. 为了进一步促进模式识别研究的快速发展,加强国内外同行间的学术交流与合作,2010年全国模式识别学术会议 (Chinese Conference on Pattern Recognition2010)将于2010年10月21-23日金秋时节在美丽的山城重庆召开.会议将邀 请国内外著名学者做特邀学术报告,并向国内外同行征集有关模式识别理论方法研究和应用技术的学术论文·会议论文 集将由EEE出版,电子版将在EEE Xplor发布并被I数据库检索,并从会议论文中选出20篇左右与主题相关的优秀 论文以英文形式在国际期刊《小波,多分辨分析与信息处理》(SCI源刊)、《Frontiers of computer science in China》(EI源 刊)上公开发表.同前几届一样,会议将选择最佳论文和最佳学生论文予以奖励. 重要日期: 投稿截止日期:2010年6月10日; 论文录用通知:2010年7月20日; 最终论文提交:2010年8月20日; 会议时间:2010年10月21-23日. 联系方式: 联系人:文静,陈恒鑫; 联系电话:02365106125; 联系传真:02365102502; 电子邮件:CCPR2010@cqu.edu.cm