第2期 万月亮,等:流特征的Skype流量识别 141 率,由先验概率P{x|C}得出后验概率P{C1x}如 式中:B》为编码器j时间序列k的置信度,数据包 式(5)所示: 大小特征的置信度如式(10)所示: PICI=PIC.L=PIC,aL.PiC max B.max(E[B()] (10) Plx Pla'Picp= 平均发送间隔和带宽消耗不需要考虑数据包大 Plzl CLPICI. 小中的不同编码器因素,窗口飞置信度分别为B、 Px (5) 各分量:相互独立,满足式(6): 和B,如式(11)、(12)所示: E[B,]Ex[BC ] (11) P{xlC;=ΠP{xIC. (6) E[B]=E[B]. (12) 通常情况下,采用最大可能性判定准则评估样 Skype实时流量特征置信度由数据包大小、平 本属于C类的可能性,P{x|C}称为置信度,置信度 均发送间隔和带宽消耗特征的置信度中最小值决 越大,属于该类的可能性也就越大.这里采用前面小 定,如式(13)所示 节定义的实时流量特征作为分类特征集.其中数据 B min(maxB:,E[B,],E[B.]), 包大小、平均发送间隔和平均带宽消耗置信度分别 B>B. (13) 定义为B、B,和B,如式(7): 式中:B,为Skype实时流特征置信度阈值. B.(C)=1∑lgP{xlC, Skyp流的判定由流的连接特征和实时流置信度 0 决定,满足式(1)和式(13)的网络流量识别为Syp B,(C)IgPlyl c, (7) 流.也就是说,如果网络数据流满足P2P的连接模式, B.(C)=Ig PlzI C. 且具有实时流特征,则该数据流认为是SyT流, 其中,数据包大小由观测值采用高斯分布进行 拟合.其与发送速率RT,头部长度H,冗余参数RF 2试验结果及分析 和编帧时间N(u,o)相关对于每个{RT,H,RF, 实验数据来自北京联通2路0C19210G数据, △T},数据包大小分布用高斯分布N(u,a)表示,其 实验时间为2009年4月10号-2009年4月11号, 中u如式(8)表示: 总共20h.实验的数据中不仅包含Skype流,还有 u=(Rate A len(H))RF len(SoM).(8) TCP协议数据、TRP/UDP协议传输的视频数据、P2P 式中:RT由表1所示,RF∈{1,2,3,4},len(SoM)= 数据、VPN数据、VoP数据. 4 Bytes,len(H)=8 Bytes,△T∈{10,20,…,60;,单位 测试数据集中的Skype数据流采用简单载荷识 为m8. 别和组合特征识别方法采捕获,包括E2P语音流和 表1 Skype解码器的特性 E2E语音、视频、数据和聊天数据流. Table 1 Skype decoder characteristics 实验的硬件环境为:机架式服务器,4GB内存, 编码器 帧尺寸/ms 比特率/Kbps Xeon E55304核2.4GHz处理器,操作系统为 ISAC 30,60 10/32 Linux.按照错检率(false-Positive,F,)和漏检率 ILBC 20,30 13.3,15.2 G.729 10 8 (false-negative,FN)来衡量识别模型性能,如式 iPCM-wb 10,20,30,40 80 (14). EG.711A/U 10,20,30,40 48,56,64 PCM A/U NsN 10,20,30,40 64 Fp三Ns' σ的取值,对于恒定速率编码,如G729,σ取 NS 值为1;对于可变编码如ISAC,σ取值为0.75.每个 FN=Ns (14) 实验窗口k选择所有置信度中最大的B》(c)作为 式中:Wss为测试集中属于Skype的流识别为Skype 编码器j新的置信度,如式(9): 的数量,Nsw为测试集中不属于Skype的流识别为 E[B(]E[B ] (9) Sype的数量,W,为测试数据集中的Skype流数量