析处理。ｆｉｌｅ中每一行表示一个数据包。不同被测网络的代理服务器将

正在加载图片...

·28 智能系统学报第9卷析处理。le中每一行表示一个数据包。不同被测 P(n)和条件概率P(e:In)、P(w:In)、P(w:lb)、网络的代理服务器将le上传到云环境的同一个指 P(地，Ib)(1≤i≤6)，其中b表示僵尸网络，n表示定文件夹，以便在云环境中对各个被测网络的流量集中分析处理，检测出所有被测网络中的僵尸主正常网络。其中心，为TCP数据流，心，为时间间隔机。平均值，心3为时间间隔变化，心4为数据包字节数， ,为数据包个数平均值，心。为持续时间平均值。计为适合MapReduce计算模型处理，须将le中算正常网络和僵尸网络的先验概率对应一个Ma- 的数据包进行预处理。将抓取的网络流量信息数据包处理成以行形式存储的文件，每行信息形式为： pReduce计算过程，即MapReducel;对6个属性列既要判断是否为僵尸网络又要判断是否在阈值内，即序号1数据包到达时间1源P地址1目的P地址每个属性有4个判断条件，因此需要求24个条件概 TCP数据流I时间间隔平均值I时间间隔变化I数据率，计算这24个条件概率对应另一个MapReduce 包字节数1数据包个数平均值1持续时间平均值1类标签。其中，类标签值为0或者1来标明该条网络计算过程，即MapReduce2。贝叶斯检测阶段基于由 26个概率构成的知识库，根据贝叶斯算法公式：数据是否属于僵尸网络，本文设类标签值为0的网络访问为正常网络，否则为僵尸网络。 P(b)ΠP(w,1b) 随机选择类标签值为0的正常网络信息行的 P(bI d)= 2/3,再随机选择类标签值为1的僵尸网络信息行的 P(d) 2/3,这些行信息合成文件作为训练数据文件，剩余 P(n)ΠP(w:ln) 行作为检测数据文件。然后，将训练数据文件和检 P(nI d)= 测数据文件分别按行分块，分块过程由Hadoop自动 P(d) 按64MB大小作为一个数据块处理。计算每条网络数据的后验概率[0]，进行分类并判断是否为僵尸网络。检测阶段对应一个MapReduce 2 基于MapReduce的贝叶斯算法计算过程，即MapReduce3。图2描述了贝叶斯算法贝叶斯算法进行MapReduce设计的基本思路检测僵尸网络的MapReduce并行化实现方法。是：贝叶斯训练阶段形成知识库，先验概率P(b)、预处理后训练流Key:偏移量预处理后训练流Key:偏移量 Vahe:源IP,目的P,w,w2 Vale源IP,目的P,w,, W3,1W4,Ws,6类标签 13,W4,W5,1P6,类标签 MapReducel MapReduce2 Split1 Split2 Splitn Splitl Split2 Splitn MapDMapD MapD Map2Map2 Map2 Key:类标签 Key:ff…fa Value:1 Value:ppp ReduceD ReduceD Reduce2 Reduce2 Key:类标签 Value:类先验概率 Key Value:p.Pa MapReduce3 w:TCP数据流 :时间间隔平均值预 Splitl Map3 :时间间隔变化 w:字节数平均值理 Reduce3 ws:数据包个数平均值 Split2 Map3 w%:持续时间平均值 Key:time f人：w-w。条件字符电 Value:P(Cld)P(Cld) 判断是否为僵尸网络P一P”的条件概率流 C:正常网络 Reduce3 C:福尸网络 Key:偏移量 d:网络数据特征向量 Vaue:源IP 目的IP,w1,w2 Splitn Map3 time:检测数据行数 Split:被Hadoop分割的数据块 W3,W4,W5,W6, 类标签图2基于MapReduce检测僵尸网络的贝叶斯算法 Fig.2 The process of Bayesian algorithm to detect botnets based on MapReduce析处理。ｆｉｌｅ中每一行表示一个数据包。不同被测网络的代理服务器将ｆｉｌｅ上传到云环境的同一个指定文件夹，以便在云环境中对各个被测网络的流量集中分析处理，检测出所有被测网络中的僵尸主机［８］。为适合ＭａｐＲｅｄｕｃｅ计算模型处理，须将ｆｉｌｅ中的数据包进行预处理。将抓取的网络流量信息数据包处理成以行形式存储的文件［９］，每行信息形式为：序号｜数据包到达时间｜源ＩＰ地址｜目的ＩＰ地址｜ＴＣＰ数据流｜时间间隔平均值｜时间间隔变化｜数据包字节数｜数据包个数平均值｜持续时间平均值｜类标签。其中，类标签值为０或者１来标明该条网络数据是否属于僵尸网络，本文设类标签值为０的网络访问为正常网络，否则为僵尸网络。随机选择类标签值为０的正常网络信息行的２／３，再随机选择类标签值为１的僵尸网络信息行的２／３，这些行信息合成文件作为训练数据文件，剩余行作为检测数据文件。然后，将训练数据文件和检测数据文件分别按行分块，分块过程由Ｈａｄｏｏｐ自动按６４ＭＢ大小作为一个数据块处理。２基于ＭａｐＲｅｄｕｃｅ的贝叶斯算法贝叶斯算法进行ＭａｐＲｅｄｕｃｅ设计的基本思路是：贝叶斯训练阶段形成知识库，先验概率Ｐ（ｂ）、Ｐ（ｎ）和条件概率Ｐ（ｗｉ｜ｎ）、Ｐ（ｗｉ｜ｎ）、Ｐ（ｗｉ｜ｂ）、Ｐ（ｗｉ｜ｂ）（１ ≤ ｉ ≤ ６），其中ｂ表示僵尸网络，ｎ表示正常网络。其中ｗ１为ＴＣＰ数据流，ｗ２为时间间隔平均值，ｗ３为时间间隔变化，ｗ４为数据包字节数，ｗ５为数据包个数平均值，ｗ６为持续时间平均值。计算正常网络和僵尸网络的先验概率对应一个Ｍａ⁃ ｐＲｅｄｕｃｅ计算过程，即ＭａｐＲｅｄｕｃｅ１；对６个属性列既要判断是否为僵尸网络又要判断是否在阈值内，即每个属性有４个判断条件，因此需要求２４个条件概率，计算这２４个条件概率对应另一个ＭａｐＲｅｄｕｃｅ计算过程，即ＭａｐＲｅｄｕｃｅ２。贝叶斯检测阶段基于由２６个概率构成的知识库，根据贝叶斯算法公式：Ｐ（ｂ｜ｄ）＝Ｐ（ｂ）∏ ｎｉ＝１Ｐ（ｗｉ｜ｂ）Ｐ（ｄ）Ｐ（ｎ｜ｄ）＝Ｐ（ｎ）∏ ｎｉ＝１Ｐ（ｗｉ｜ｎ）Ｐ（ｄ）计算每条网络数据的后验概率［１０］，进行分类并判断是否为僵尸网络。检测阶段对应一个ＭａｐＲｅｄｕｃｅ计算过程，即ＭａｐＲｅｄｕｃｅ３。图２描述了贝叶斯算法检测僵尸网络的ＭａｐＲｅｄｕｃｅ并行化实现方法。图２基于ＭａｐＲｅｄｕｃｅ检测僵尸网络的贝叶斯算法Ｆｉｇ．２ＴｈｅｐｒｏｃｅｓｓｏｆＢａｙｅｓｉａｎａｌｇｏｒｉｔｈｍｔｏｄｅｔｅｃｔｂｏｔｎｅｔｓｂａｓｅｄｏｎＭａｐＲｅｄｕｃｅ ·２８· 智能系统学报第９卷

<<向上翻页向下翻页>>

点击下载：智能系统：检测僵尸网络的贝叶斯算法的MapReduce并行化实现