智能系统：检测僵尸网络的贝叶斯算法的MapReduce并行化实现

团购合买资源类别：文库，文档格式：PDF，文档页数：8，文件大小：1.23MB

第9卷第1期智能系统学报 Vol.9 No.1 2014年2月 CAAI Transactions on Intelligent Systems Feb.2014 D0:10.3969/j.issn.1673-4785.201305011 网络出版地址：http://www.cnki.net/kcms/detail/23.1538.TP.20140221.1804.001.html 检测僵尸网络的贝叶斯算法的 MapReduce并行化实现邵秀丽，刘一伟2，耿梅洁，韩健斌 (1.南开大学计算机与控制工程学院，天津300071：2.北京大学数学科学学院，北京100871：3.武警指挥学院军事教育训练系，天津300250) 摘要：僵尸网络严重威胁互联网的安全，目前主流的僵尸网络检测方法准确性较低，针对此问题，考虑贝叶斯算法具有较高的准确性，提出了基于Hadoop平台的MapReduce机制的贝叶斯算法。该方法以主机对作为分析对象，提取2个主机对通信的流量特征，将这些特征作为贝叶斯分类算法的输入，通过并行化计算贝叶斯算法训练阶段的先验概率和条件概率形成贝叶斯分类器，使其学会辨认僵尸网络的流量。在检测阶段利用训练阶段形成的贝叶斯分类器和并行化计算后验概率，实现检测僵尸网络。通过实验表明，该方法检测僵尸网络是有效的，检测正确率在 90%以上，并且该方法较单机检测僵尸网络的贝叶斯算法效率有了较大的提高。关键词：僵尸网络：检测僵尸网络；贝叶斯算法；Hadoop;MapReduce;流量中图分类号：TP311文献标志码：A文章编号：1673-4785(2014)01-0026-08 中文引用格式：邵秀丽，刘一伟，耿梅洁，等.检测僵尸网络的贝叶斯算法的MapReduce并行化实现[J].智能系统学报，2014,9 (1):2633. 英文引用格式：SHAO Xiuli,LIU Yiwei,,GENG Meijie,etal.The parallel implementation of MapReduce for the Bayesian algo- rithm to detect botnets[J].CAAI Transactions on Intelligent Systems,2014,9(1):26-33. The parallel implementation of MapReduce for the Bayesian algorithm to detect botnets SHAO Xiuli',LIU Yiwei2,GENG Meijie',HAN Jianbin3 (1.College of Computer and Control Engineering,Nankai University,Tianjin 300071,China;2.School of Mathematical Sciences, Peking University,Beijing 100871,China;3.Department of Education and Training,Armed Police Command College,Tianjin 300250,China) Abstract:The botnet network poses a serious threat to the Internet security,and the accuracy of the botnet detec- tion method is low,while the Bayesian algorithm has high accuracy.This paper puts forward a Bayesian algorithm with the mechanism of MapReduce based on the Hadoop platform to achieve botnet detection.Taking the host-pairs as analysis objects,this method extracts the traffic features of communications between two hosts,takes these fea- tures as input and trains the Bayesian classifier through parallel calculations of the prior probability and condition probability on the stage of the Bayesian algorithm training to learn to recognize botnet traffic.By using the Bayesian classifier trained on the stage of the Bayesian algorithm training and parallel calculations of the posterior probability on the stage of detecting,the detection of botnets can be achieved.Experiments show that the method for detecting botnets is effective and the correct detection rate is more than 90%.The efficiency of this method is greatly im- proved as compared with detecting the single Bayesian algorithm of the botnets. Keywords:botnets;botnet detection;Bayesian algorithm;Hadoop;MapReduce;flow 由于僵尸网络威胁着互联网的安全，其检测方法也随者僵尸网络的发展而发展。流行的僵尸网络检测技术一般是通过网络流量分析实现的，如通过收稿日期：2013-05-06.网络出版日期：2014-02-21 PageRank算法实现检测：通过网络通信图识别：利基金项目：天津市科技支撑计划资助项目(13ZCZ①ZGX02500, 12ZCZDZGX49600.12ZCZDZGX46700). 用神经网络算法识别僵尸网络。这些僵尸网络检测通信作者：邵秀丽.E-mail:shaoxl@nankai..edu.cn. 方法或者需要依赖外部系统提供信息，不能独立完

第９卷第１期智能系统学报Ｖｏｌ．９ №．１２０１４年２月ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓＦｅｂ．２０１４ＤＯＩ：１０．３９６９／ｊ．ｉｓｓｎ．１６７３⁃４７８５．２０１３０５０１１网络出版地址：ｈｔｔｐ：／／ｗｗｗ．ｃｎｋｉ．ｎｅｔ／ｋｃｍｓ／ｄｅｔａｉｌ／２３．１５３８．ＴＰ．２０１４０２２１．１８０４．００１．ｈｔｍｌ检测僵尸网络的贝叶斯算法的ＭａｐＲｅｄｕｃｅ并行化实现邵秀丽１，刘一伟２，耿梅洁１，韩健斌３（１．南开大学计算机与控制工程学院，天津３０００７１；２．北京大学数学科学学院，北京１００８７１；３．武警指挥学院军事教育训练系，天津３００２５０）摘要：僵尸网络严重威胁互联网的安全，目前主流的僵尸网络检测方法准确性较低，针对此问题，考虑贝叶斯算法具有较高的准确性，提出了基于Ｈａｄｏｏｐ平台的ＭａｐＲｅｄｕｃｅ机制的贝叶斯算法。该方法以主机对作为分析对象，提取２个主机对通信的流量特征，将这些特征作为贝叶斯分类算法的输入，通过并行化计算贝叶斯算法训练阶段的先验概率和条件概率形成贝叶斯分类器，使其学会辨认僵尸网络的流量。在检测阶段利用训练阶段形成的贝叶斯分类器和并行化计算后验概率，实现检测僵尸网络。通过实验表明，该方法检测僵尸网络是有效的，检测正确率在９０％以上，并且该方法较单机检测僵尸网络的贝叶斯算法效率有了较大的提高。关键词：僵尸网络；检测僵尸网络；贝叶斯算法；Ｈａｄｏｏｐ；ＭａｐＲｅｄｕｃｅ；流量中图分类号：ＴＰ３１１文献标志码：Ａ文章编号：１６７３⁃４７８５（２０１４）０１⁃００２６⁃０８中文引用格式：邵秀丽，刘一伟，耿梅洁，等．检测僵尸网络的贝叶斯算法的ＭａｐＲｅｄｕｃｅ并行化实现［Ｊ］．智能系统学报，２０１４，９（１）：２６⁃３３．英文引用格式：ＳＨＡＯＸｉｕｌｉ，ＬＩＵＹｉｗｅｉ，ＧＥＮＧＭｅｉｊｉｅ，ｅｔａｌ．ＴｈｅｐａｒａｌｌｅｌｉｍｐｌｅｍｅｎｔａｔｉｏｎｏｆＭａｐＲｅｄｕｃｅｆｏｒｔｈｅＢａｙｅｓｉａｎａｌｇｏ⁃ ｒｉｔｈｍｔｏｄｅｔｅｃｔｂｏｔｎｅｔｓ［Ｊ］．ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓ，２０１４，９（１）：２６⁃３３．ＴｈｅｐａｒａｌｌｅｌｉｍｐｌｅｍｅｎｔａｔｉｏｎｏｆＭａｐＲｅｄｕｃｅｆｏｒｔｈｅＢａｙｅｓｉａｎａｌｇｏｒｉｔｈｍｔｏｄｅｔｅｃｔｂｏｔｎｅｔｓＳＨＡＯＸｉｕｌｉ１，ＬＩＵＹｉｗｅｉ２，ＧＥＮＧＭｅｉｊｉｅ１，ＨＡＮＪｉａｎｂｉｎ３（１．ＣｏｌｌｅｇｅｏｆＣｏｍｐｕｔｅｒａｎｄＣｏｎｔｒｏｌＥｎｇｉｎｅｅｒｉｎｇ，ＮａｎｋａｉＵｎｉｖｅｒｓｉｔｙ，Ｔｉａｎｊｉｎ３０００７１，Ｃｈｉｎａ；２．ＳｃｈｏｏｌｏｆＭａｔｈｅｍａｔｉｃａｌＳｃｉｅｎｃｅｓ，ＰｅｋｉｎｇＵｎｉｖｅｒｓｉｔｙ，Ｂｅｉｊｉｎｇ１００８７１，Ｃｈｉｎａ；３．ＤｅｐａｒｔｍｅｎｔｏｆＥｄｕｃａｔｉｏｎａｎｄＴｒａｉｎｉｎｇ，ＡｒｍｅｄＰｏｌｉｃｅＣｏｍｍａｎｄＣｏｌｌｅｇｅ，Ｔｉａｎｊｉｎ３００２５０，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：ＴｈｅｂｏｔｎｅｔｎｅｔｗｏｒｋｐｏｓｅｓａｓｅｒｉｏｕｓｔｈｒｅａｔｔｏｔｈｅＩｎｔｅｒｎｅｔｓｅｃｕｒｉｔｙ，ａｎｄｔｈｅａｃｃｕｒａｃｙｏｆｔｈｅｂｏｔｎｅｔｄｅｔｅｃ⁃ ｔｉｏｎｍｅｔｈｏｄｉｓｌｏｗ，ｗｈｉｌｅｔｈｅＢａｙｅｓｉａｎａｌｇｏｒｉｔｈｍｈａｓｈｉｇｈａｃｃｕｒａｃｙ．ＴｈｉｓｐａｐｅｒｐｕｔｓｆｏｒｗａｒｄａＢａｙｅｓｉａｎａｌｇｏｒｉｔｈｍｗｉｔｈｔｈｅｍｅｃｈａｎｉｓｍｏｆＭａｐＲｅｄｕｃｅｂａｓｅｄｏｎｔｈｅＨａｄｏｏｐｐｌａｔｆｏｒｍｔｏａｃｈｉｅｖｅｂｏｔｎｅｔｄｅｔｅｃｔｉｏｎ．Ｔａｋｉｎｇｔｈｅｈｏｓｔ⁃ｐａｉｒｓａｓａｎａｌｙｓｉｓｏｂｊｅｃｔｓ，ｔｈｉｓｍｅｔｈｏｄｅｘｔｒａｃｔｓｔｈｅｔｒａｆｆｉｃｆｅａｔｕｒｅｓｏｆｃｏｍｍｕｎｉｃａｔｉｏｎｓｂｅｔｗｅｅｎｔｗｏｈｏｓｔｓ，ｔａｋｅｓｔｈｅｓｅｆｅａ⁃ ｔｕｒｅｓａｓｉｎｐｕｔａｎｄｔｒａｉｎｓｔｈｅＢａｙｅｓｉａｎｃｌａｓｓｉｆｉｅｒｔｈｒｏｕｇｈｐａｒａｌｌｅｌｃａｌｃｕｌａｔｉｏｎｓｏｆｔｈｅｐｒｉｏｒｐｒｏｂａｂｉｌｉｔｙａｎｄｃｏｎｄｉｔｉｏｎｐｒｏｂａｂｉｌｉｔｙｏｎｔｈｅｓｔａｇｅｏｆｔｈｅＢａｙｅｓｉａｎａｌｇｏｒｉｔｈｍｔｒａｉｎｉｎｇｔｏｌｅａｒｎｔｏｒｅｃｏｇｎｉｚｅｂｏｔｎｅｔｔｒａｆｆｉｃ．ＢｙｕｓｉｎｇｔｈｅＢａｙｅｓｉａｎｃｌａｓｓｉｆｉｅｒｔｒａｉｎｅｄｏｎｔｈｅｓｔａｇｅｏｆｔｈｅＢａｙｅｓｉａｎａｌｇｏｒｉｔｈｍｔｒａｉｎｉｎｇａｎｄｐａｒａｌｌｅｌｃａｌｃｕｌａｔｉｏｎｓｏｆｔｈｅｐｏｓｔｅｒｉｏｒｐｒｏｂａｂｉｌｉｔｙｏｎｔｈｅｓｔａｇｅｏｆｄｅｔｅｃｔｉｎｇ，ｔｈｅｄｅｔｅｃｔｉｏｎｏｆｂｏｔｎｅｔｓｃａｎｂｅａｃｈｉｅｖｅｄ．Ｅｘｐｅｒｉｍｅｎｔｓｓｈｏｗｔｈａｔｔｈｅｍｅｔｈｏｄｆｏｒｄｅｔｅｃｔｉｎｇｂｏｔｎｅｔｓｉｓｅｆｆｅｃｔｉｖｅａｎｄｔｈｅｃｏｒｒｅｃｔｄｅｔｅｃｔｉｏｎｒａｔｅｉｓｍｏｒｅｔｈａｎ９０％．Ｔｈｅｅｆｆｉｃｉｅｎｃｙｏｆｔｈｉｓｍｅｔｈｏｄｉｓｇｒｅａｔｌｙｉｍ⁃ ｐｒｏｖｅｄａｓｃｏｍｐａｒｅｄｗｉｔｈｄｅｔｅｃｔｉｎｇｔｈｅｓｉｎｇｌｅＢａｙｅｓｉａｎａｌｇｏｒｉｔｈｍｏｆｔｈｅｂｏｔｎｅｔｓ．Ｋｅｙｗｏｒｄｓ：ｂｏｔｎｅｔｓ；ｂｏｔｎｅｔｄｅｔｅｃｔｉｏｎ；Ｂａｙｅｓｉａｎａｌｇｏｒｉｔｈｍ；Ｈａｄｏｏｐ；ＭａｐＲｅｄｕｃｅ；ｆｌｏｗ收稿日期：２０１３⁃０５⁃０６．网络出版日期：２０１４⁃０２⁃２１．基金项目：天津市科技支撑计划资助项目（１３ＺＣＺＤＺＧＸ０２５００，１２ＺＣＺＤＺＧＸ４９６００，１２ＺＣＺＤＺＧＸ４６７００）．通信作者：邵秀丽．Ｅ⁃ｍａｉｌ：ｓｈａｏｘｌ＠ｎａｎｋａｉ．ｅｄｕ．ｃｎ．由于僵尸网络威胁着互联网的安全，其检测方法也随着僵尸网络的发展而发展。流行的僵尸网络检测技术一般是通过网络流量分析实现的，如通过ＰａｇｅＲａｎｋ算法实现检测；通过网络通信图识别；利用神经网络算法识别僵尸网络。这些僵尸网络检测方法或者需要依赖外部系统提供信息，不能独立完

第1期邵秀丽，等：检测僵尸网络的贝叶斯算法的MapReduce并行化实现 .27. 成检测：或者由于网络流量信息量巨大，在单个服务案把捕获的网络流量利用云环境的贝叶斯并行算法器上完成检测的工作效率比较低口。此外，僵尸网进行分析处理，最终检测出僵尸网络)。络具有流量大的特征[]，因此贝叶斯分类训练阶段需要对大量的网络数据集进行训练，用单一结点来 1检测僵尸网络的计算架构进行检测僵尸网络将会遇到计算时间和计算资源瓶图1给出了云环境下检测僵尸网络的架构，由被颈)。为利用贝叶斯算法较高的准确性，基于云的测网络环境、云环境和代理服务器层三部分构成，这三 Hadoop机制和MapReduce实现贝叶斯算法，该算法部分协同完成僵尸网络的检测向。每个被测网络中有根据流量分析判断网络访问流量信息中是否存在僵若干台机器和一个核心交换机，连接一个代理服务器，尸行为4。基于MapReduce检测僵尸网络的贝叶代理服务器与核心交换机连接，主要负责网络流量的斯算法，把贝叶斯算法训练阶段的先验概率、条件概采集、解析、过滤并上传到云环境中。云的Hadoop收率和检测阶段的后验概率的计算并行化处理。该方集并处理各个代理服务器上传的网络流量)。 Hadoop集群 huffle&Sort Mapper Reducer Splito 俭测是否 SplitD 基于MapReducel的并为倍尸行僵尸网络检测 Splitn 云环境预处理后的网络流量数据贝厨代理服务器代理服务器 ② 正常计算机篇尸计算机被测网络1 被测网络n 计算机间的通信采集、上传流量被测网络2 被测网络环境图1基于MapReduce的检测僵尸网络 Fig.1 Botnet detection based on MapReduce 代理服务器运行tepdump抓包工具来抓取网络式为：序号1数据包到达时间I源P地址|源端口号1 数据包，且将抓取的数据包以十六进制格式的文件目的P地址I目的端口号I协议1数据包字节数1 存储，经过解析将文件变为可读的格式，以便程序分 FINISYNIACKIRST 析处理。解析后将数据包存储在le中，不同协议代理服务器将解析后的fle上传到云的Hadoop 的数据包格式不同，例如TCP协议的流量数据包格中，以便用MapReduce并行化的贝叶斯算法进行分

成检测；或者由于网络流量信息量巨大，在单个服务器上完成检测的工作效率比较低［１］。此外，僵尸网络具有流量大的特征［２］，因此贝叶斯分类训练阶段需要对大量的网络数据集进行训练，用单一结点来进行检测僵尸网络将会遇到计算时间和计算资源瓶颈［３］。为利用贝叶斯算法较高的准确性，基于云的Ｈａｄｏｏｐ机制和ＭａｐＲｅｄｕｃｅ实现贝叶斯算法，该算法根据流量分析判断网络访问流量信息中是否存在僵尸行为［４］。基于ＭａｐＲｅｄｕｃｅ检测僵尸网络的贝叶斯算法，把贝叶斯算法训练阶段的先验概率、条件概率和检测阶段的后验概率的计算并行化处理。该方案把捕获的网络流量利用云环境的贝叶斯并行算法进行分析处理，最终检测出僵尸网络［５］。１检测僵尸网络的计算架构图１给出了云环境下检测僵尸网络的架构，由被测网络环境、云环境和代理服务器层三部分构成，这三部分协同完成僵尸网络的检测［６］。每个被测网络中有若干台机器和一个核心交换机，连接一个代理服务器，代理服务器与核心交换机连接，主要负责网络流量的采集、解析、过滤并上传到云环境中。云的Ｈａｄｏｏｐ收集并处理各个代理服务器上传的网络流量［７］。图１基于ＭａｐＲｅｄｕｃｅ的检测僵尸网络Ｆｉｇ．１ＢｏｔｎｅｔｄｅｔｅｃｔｉｏｎｂａｓｅｄｏｎＭａｐＲｅｄｕｃｅ代理服务器运行ｔｃｐｄｕｍｐ抓包工具来抓取网络数据包，且将抓取的数据包以十六进制格式的文件存储，经过解析将文件变为可读的格式，以便程序分析处理。解析后将数据包存储在ｆｉｌｅ中，不同协议的数据包格式不同，例如ＴＣＰ协议的流量数据包格式为：序号｜数据包到达时间｜源ＩＰ地址｜源端口号｜目的ＩＰ地址｜目的端口号｜协议｜数据包字节数｜ＦＩＮ｜ＳＹＮ｜ＡＣＫ｜ＲＳＴ。代理服务器将解析后的ｆｉｌｅ上传到云的Ｈａｄｏｏｐ中，以便用ＭａｐＲｅｄｕｃｅ并行化的贝叶斯算法进行分第１期邵秀丽，等：检测僵尸网络的贝叶斯算法的ＭａｐＲｅｄｕｃｅ并行化实现 ·２７·

·28 智能系统学报第9卷析处理。le中每一行表示一个数据包。不同被测 P(n)和条件概率P(e:In)、P(w:In)、P(w:lb)、网络的代理服务器将le上传到云环境的同一个指 P(地，Ib)(1≤i≤6)，其中b表示僵尸网络，n表示定文件夹，以便在云环境中对各个被测网络的流量集中分析处理，检测出所有被测网络中的僵尸主正常网络。其中心，为TCP数据流，心，为时间间隔机。平均值，心3为时间间隔变化，心4为数据包字节数， ,为数据包个数平均值，心。为持续时间平均值。计为适合MapReduce计算模型处理，须将le中算正常网络和僵尸网络的先验概率对应一个Ma- 的数据包进行预处理。将抓取的网络流量信息数据包处理成以行形式存储的文件，每行信息形式为： pReduce计算过程，即MapReducel;对6个属性列既要判断是否为僵尸网络又要判断是否在阈值内，即序号1数据包到达时间1源P地址1目的P地址每个属性有4个判断条件，因此需要求24个条件概 TCP数据流I时间间隔平均值I时间间隔变化I数据率，计算这24个条件概率对应另一个MapReduce 包字节数1数据包个数平均值1持续时间平均值1类标签。其中，类标签值为0或者1来标明该条网络计算过程，即MapReduce2。贝叶斯检测阶段基于由 26个概率构成的知识库，根据贝叶斯算法公式：数据是否属于僵尸网络，本文设类标签值为0的网络访问为正常网络，否则为僵尸网络。 P(b)ΠP(w,1b) 随机选择类标签值为0的正常网络信息行的 P(bI d)= 2/3,再随机选择类标签值为1的僵尸网络信息行的 P(d) 2/3,这些行信息合成文件作为训练数据文件，剩余 P(n)ΠP(w:ln) 行作为检测数据文件。然后，将训练数据文件和检 P(nI d)= 测数据文件分别按行分块，分块过程由Hadoop自动 P(d) 按64MB大小作为一个数据块处理。计算每条网络数据的后验概率[0]，进行分类并判断是否为僵尸网络。检测阶段对应一个MapReduce 2 基于MapReduce的贝叶斯算法计算过程，即MapReduce3。图2描述了贝叶斯算法贝叶斯算法进行MapReduce设计的基本思路检测僵尸网络的MapReduce并行化实现方法。是：贝叶斯训练阶段形成知识库，先验概率P(b)、预处理后训练流Key:偏移量预处理后训练流Key:偏移量 Vahe:源IP,目的P,w,w2 Vale源IP,目的P,w,, W3,1W4,Ws,6类标签 13,W4,W5,1P6,类标签 MapReducel MapReduce2 Split1 Split2 Splitn Splitl Split2 Splitn MapDMapD MapD Map2Map2 Map2 Key:类标签 Key:ff…fa Value:1 Value:ppp ReduceD ReduceD Reduce2 Reduce2 Key:类标签 Value:类先验概率 Key Value:p.Pa MapReduce3 w:TCP数据流 :时间间隔平均值预 Splitl Map3 :时间间隔变化 w:字节数平均值理 Reduce3 ws:数据包个数平均值 Split2 Map3 w%:持续时间平均值 Key:time f人：w-w。条件字符电 Value:P(Cld)P(Cld) 判断是否为僵尸网络P一P”的条件概率流 C:正常网络 Reduce3 C:福尸网络 Key:偏移量 d:网络数据特征向量 Vaue:源IP 目的IP,w1,w2 Splitn Map3 time:检测数据行数 Split:被Hadoop分割的数据块 W3,W4,W5,W6, 类标签图2基于MapReduce检测僵尸网络的贝叶斯算法 Fig.2 The process of Bayesian algorithm to detect botnets based on MapReduce

析处理。ｆｉｌｅ中每一行表示一个数据包。不同被测网络的代理服务器将ｆｉｌｅ上传到云环境的同一个指定文件夹，以便在云环境中对各个被测网络的流量集中分析处理，检测出所有被测网络中的僵尸主机［８］。为适合ＭａｐＲｅｄｕｃｅ计算模型处理，须将ｆｉｌｅ中的数据包进行预处理。将抓取的网络流量信息数据包处理成以行形式存储的文件［９］，每行信息形式为：序号｜数据包到达时间｜源ＩＰ地址｜目的ＩＰ地址｜ＴＣＰ数据流｜时间间隔平均值｜时间间隔变化｜数据包字节数｜数据包个数平均值｜持续时间平均值｜类标签。其中，类标签值为０或者１来标明该条网络数据是否属于僵尸网络，本文设类标签值为０的网络访问为正常网络，否则为僵尸网络。随机选择类标签值为０的正常网络信息行的２／３，再随机选择类标签值为１的僵尸网络信息行的２／３，这些行信息合成文件作为训练数据文件，剩余行作为检测数据文件。然后，将训练数据文件和检测数据文件分别按行分块，分块过程由Ｈａｄｏｏｐ自动按６４ＭＢ大小作为一个数据块处理。２基于ＭａｐＲｅｄｕｃｅ的贝叶斯算法贝叶斯算法进行ＭａｐＲｅｄｕｃｅ设计的基本思路是：贝叶斯训练阶段形成知识库，先验概率Ｐ（ｂ）、Ｐ（ｎ）和条件概率Ｐ（ｗｉ｜ｎ）、Ｐ（ｗｉ｜ｎ）、Ｐ（ｗｉ｜ｂ）、Ｐ（ｗｉ｜ｂ）（１ ≤ ｉ ≤ ６），其中ｂ表示僵尸网络，ｎ表示正常网络。其中ｗ１为ＴＣＰ数据流，ｗ２为时间间隔平均值，ｗ３为时间间隔变化，ｗ４为数据包字节数，ｗ５为数据包个数平均值，ｗ６为持续时间平均值。计算正常网络和僵尸网络的先验概率对应一个Ｍａ⁃ ｐＲｅｄｕｃｅ计算过程，即ＭａｐＲｅｄｕｃｅ１；对６个属性列既要判断是否为僵尸网络又要判断是否在阈值内，即每个属性有４个判断条件，因此需要求２４个条件概率，计算这２４个条件概率对应另一个ＭａｐＲｅｄｕｃｅ计算过程，即ＭａｐＲｅｄｕｃｅ２。贝叶斯检测阶段基于由２６个概率构成的知识库，根据贝叶斯算法公式：Ｐ（ｂ｜ｄ）＝Ｐ（ｂ）∏ ｎｉ＝１Ｐ（ｗｉ｜ｂ）Ｐ（ｄ）Ｐ（ｎ｜ｄ）＝Ｐ（ｎ）∏ ｎｉ＝１Ｐ（ｗｉ｜ｎ）Ｐ（ｄ）计算每条网络数据的后验概率［１０］，进行分类并判断是否为僵尸网络。检测阶段对应一个ＭａｐＲｅｄｕｃｅ计算过程，即ＭａｐＲｅｄｕｃｅ３。图２描述了贝叶斯算法检测僵尸网络的ＭａｐＲｅｄｕｃｅ并行化实现方法。图２基于ＭａｐＲｅｄｕｃｅ检测僵尸网络的贝叶斯算法Ｆｉｇ．２ＴｈｅｐｒｏｃｅｓｓｏｆＢａｙｅｓｉａｎａｌｇｏｒｉｔｈｍｔｏｄｅｔｅｃｔｂｏｔｎｅｔｓｂａｓｅｄｏｎＭａｐＲｅｄｕｃｅ ·２８· 智能系统学报第９卷

第1期邵秀丽，等：检测僵尸网络的贝叶斯算法的MapReduce并行化实现 .29. 2.1 MapReducel的设计 yes/sum、sum_no/sum计算得到先验概率P(n)和 Mapl接收到的训练数据是被Hadoop处理形成 P(b),并以成员变量sum_-yes_-P和sum_no_p存储。的(Key,Value〉对，形式为（该行起始位置相对于文 Reducel过程伪代码如下。件起始位置的偏移量，文本文件中的一行信息〉的输入：Text、Int Writable 信息。由于MapReducel是计算贝叶斯的先验概输出：Text、Float Writable 率，只需用到Value的类标签属性，所以Mapl将每 reduce(Key,Value) 行Vaue数据按空格分隔成字符串数组，取出数组 for(Int Writable val:Value) 最后一项，即类标签值。判断类标签值，若为0，输 Suml+=val.get();/若Key为“正常网络”，出中间结果〈Keyl,Valuel〉对的形式为(“正常网统计的是正常网络数据行数；否则为僵尸网络数据络”，1)：若为1，输出中间结果(Keyl,Value1〉对的行数形式为(“僵尸网络”，I〉。并且，MapReduce框架每 If(Key.equals(“正常网络”)) 执行一次map()说明处理一行数据，通过累加统计 {sum_yes=suml;/存储正常网络数据行数训练数据总行数，以成员变量sum存储。Mapl只是 sum_-yes-p=sum_yes/sum;//正常网络先验一个数据准备阶段，使Reducel能在该准备数据上概率继续处理。Mapl过程伪代码如下。 } 输入：Object、Texto Else 输出：Text、Int Writable。. {sum_no=suml:/存储僵尸网络数据行数 map(Key、Value) sum no_p=sum_no/sum;/僵尸网络先验概率 StringTokenizer itr new StringTokenizer(value. } toString()); Context.write(key,(float)sum1/sum));// String[]temp=new String[9] 出先验概率 While(itr.hasMoreTokens()) } {temp[i]=itr.next Token():/属性字符串数组经过MapReducel的处理，形成2个以成员变 i++; 量sum_-yesp、sum_no_p存储的概率，即正常网络先验概率和僵尸网络先验概率，构成知识库的一部分， Sum++;//网络数据总行数供检测阶段使用。 If(temp[8].equals(0))/类标签0为正常网络 2.2 MapReduce2的设计 Context..wite(“正常网络”，l); Map2接收到的信息与Mapl相同，是训练数据 Else//表示为僵尸网络被Hadoop处理形成的(Key,Vaue〉对，形式为（该 Context..write(“僵尸网络”，1)；行起始位置相对于文件起始位置的偏移量，文本文件中的一行信息)的信息。MapReduce2计算贝叶斯经过Mapl把分块的每行信息都处理成〈Keyl, 的条件概率，需用到Value的6个属性列及类标签 Valuel)形式的等待整体处理的中间文件输出，Ma- 值。因此Map2将每行Value数据按空格分割成字 pReduce框架将每个Mapl输出的中间文件的结果符串数组，取出数组的第3~9项01，心2，…，心6，以及 (“正常网络”，1〉或(“僵尸网络”，1〉按照Ky值类标签值。首先判断类标签值是否为“0”，然后判 (正常网络、僵尸网络)进行分组形成新的(Key2, 断各属性是否在各自阈值内。若标签值为“0”且属 Value2)对，形式为（类标签值，{1,1，…，1}）。性值在阈值内，输出中间结果〈Key3,Value3)对的形 Reducel接收到的信息为(Key2,Value2.〉。Re ducel的任务是对Key2相同的中间结果计数，若式为(“w:In”,1〉；若标签值为“0”且属性值在阈值 Key2值为“正常网络”，统计的Value22的行数为正外，输出中间结果〈Key3,Value3〉对的形式为常网络个数，并以成员变量sum-yes存储；若Key2 〈“0,1n”,1〉：若标签值为“1”且属性值在阈值内，输值为“僵尸网络”，统计的Value2的行数为僵尸网络出中间结果〈Key3,Value.3〉对的形式为个数，并以成员变量sum_no存储。并分别用sum_ 〈“0：1b”,1〉；若标签值为“1”且属性值在阈值外，输

２．１ＭａｐＲｅｄｕｃｅ１的设计Ｍａｐ１接收到的训练数据是被Ｈａｄｏｏｐ处理形成的〈Ｋｅｙ，Ｖａｌｕｅ〉对，形式为〈该行起始位置相对于文件起始位置的偏移量，文本文件中的一行信息〉的信息。由于ＭａｐＲｅｄｕｃｅ１是计算贝叶斯的先验概率，只需用到Ｖａｌｕｅ的类标签属性，所以Ｍａｐ１将每行Ｖａｌｕｅ数据按空格分隔成字符串数组，取出数组最后一项，即类标签值。判断类标签值，若为０，输出中间结果〈Ｋｅｙ１，Ｖａｌｕｅ１〉对的形式为〈“正常网络”，１〉；若为１，输出中间结果〈Ｋｅｙ１，Ｖａｌｕｅ１〉对的形式为〈“僵尸网络”，１〉。并且，ＭａｐＲｅｄｕｃｅ框架每执行一次ｍａｐ（）说明处理一行数据，通过累加统计训练数据总行数，以成员变量ｓｕｍ存储。Ｍａｐ１只是一个数据准备阶段，使Ｒｅｄｕｃｅ１能在该准备数据上继续处理。Ｍａｐ１过程伪代码如下。输入：Ｏｂｊｅｃｔ、Ｔｅｘｔ。输出：Ｔｅｘｔ、ＩｎｔＷｒｉｔａｂｌｅ。ｍａｐ（Ｋｅｙ、Ｖａｌｕｅ）｛ＳｔｒｉｎｇＴｏｋｅｎｉｚｅｒｉｔｒ＝ｎｅｗＳｔｒｉｎｇＴｏｋｅｎｉｚｅｒ（ｖａｌｕｅ．ｔｏＳｔｒｉｎｇ（））；Ｓｔｒｉｎｇ［］ｔｅｍｐ＝ｎｅｗＳｔｒｉｎｇ［９］；Ｗｈｉｌｅ（ｉｔｒ．ｈａｓＭｏｒｅＴｏｋｅｎｓ（））｛ｔｅｍｐ［ｉ］＝ｉｔｒ．ｎｅｘｔＴｏｋｅｎ（）；／／属性字符串数组ｉ＋＋；｝Ｓｕｍ＋＋；／／网络数据总行数Ｉｆ（ｔｅｍｐ［８］．ｅｑｕａｌｓ（０））／／类标签０为正常网络Ｃｏｎｔｅｘｔ．ｗｒｉｔｅ（“正常网络”，１）；Ｅｌｓｅ／／表示为僵尸网络Ｃｏｎｔｅｘｔ．ｗｒｉｔｅ（“僵尸网络”，１）；｝经过Ｍａｐ１把分块的每行信息都处理成〈Ｋｅｙ１，Ｖａｌｕｅ１〉形式的等待整体处理的中间文件输出，Ｍａ⁃ ｐＲｅｄｕｃｅ框架将每个Ｍａｐ１输出的中间文件的结果〈“正常网络”，１〉或〈“僵尸网络”，１〉按照Ｋｅｙ值（正常网络、僵尸网络）进行分组形成新的〈Ｋｅｙ２，Ｖａｌｕｅ２〉对，形式为〈类标签值，｛１，１，…，１｝〉。Ｒｅｄｕｃｅ１接收到的信息为〈Ｋｅｙ２，Ｖａｌｕｅ２〉。Ｒｅ⁃ ｄｕｃｅ１的任务是对Ｋｅｙ２相同的中间结果计数，若Ｋｅｙ２值为“正常网络”，统计的Ｖａｌｕｅ２的行数为正常网络个数，并以成员变量ｓｕｍ＿ｙｅｓ存储；若Ｋｅｙ２值为“僵尸网络”，统计的Ｖａｌｕｅ２的行数为僵尸网络个数，并以成员变量ｓｕｍ＿ｎｏ存储。并分别用ｓｕｍ＿ｙｅｓ／ｓｕｍ、ｓｕｍ＿ｎｏ／ｓｕｍ计算得到先验概率Ｐ（ｎ）和Ｐ（ｂ），并以成员变量ｓｕｍ＿ｙｅｓ＿ｐ和ｓｕｍ＿ｎｏ＿ｐ存储。Ｒｅｄｕｃｅ１过程伪代码如下。输入：Ｔｅｘｔ、ＩｎｔＷｒｉｔａｂｌｅ。输出：Ｔｅｘｔ、ＦｌｏａｔＷｒｉｔａｂｌｅ。ｒｅｄｕｃｅ（Ｋｅｙ，Ｖａｌｕｅ）｛ｆｏｒ（ＩｎｔＷｒｉｔａｂｌｅｖａｌ：Ｖａｌｕｅ）Ｓｕｍ１＋＝ｖａｌ．ｇｅｔ（）；／／若Ｋｅｙ为“正常网络”，统计的是正常网络数据行数；否则为僵尸网络数据行数Ｉｆ（Ｋｅｙ．ｅｑｕａｌｓ（“正常网络”））｛ｓｕｍ＿ｙｅｓ＝ｓｕｍ１；／／存储正常网络数据行数ｓｕｍ＿ｙｅｓ＿ｐ＝ｓｕｍ＿ｙｅｓ／ｓｕｍ；／／正常网络先验概率｝Ｅｌｓｅ｛ｓｕｍ＿ｎｏ＝ｓｕｍ１；／／存储僵尸网络数据行数ｓｕｍ＿ｎｏ＿ｐ＝ｓｕｍ＿ｎｏ／ｓｕｍ；／／僵尸网络先验概率｝Ｃｏｎｔｅｘｔ．ｗｒｉｔｅ（ｋｅｙ，（ｆｌｏａｔ）（ｓｕｍ１／ｓｕｍ））；／／输出先验概率｝经过ＭａｐＲｅｄｕｃｅ１的处理，形成２个以成员变量ｓｕｍ＿ｙｅｓ＿ｐ、ｓｕｍ＿ｎｏ＿ｐ存储的概率，即正常网络先验概率和僵尸网络先验概率，构成知识库的一部分，供检测阶段使用。２．２ＭａｐＲｅｄｕｃｅ２的设计Ｍａｐ２接收到的信息与Ｍａｐ１相同，是训练数据被Ｈａｄｏｏｐ处理形成的〈Ｋｅｙ，Ｖａｌｕｅ〉对，形式为〈该行起始位置相对于文件起始位置的偏移量，文本文件中的一行信息〉的信息。ＭａｐＲｅｄｕｃｅ２计算贝叶斯的条件概率，需用到Ｖａｌｕｅ的６个属性列及类标签值。因此Ｍａｐ２将每行Ｖａｌｕｅ数据按空格分割成字符串数组，取出数组的第３～９项ｗ１，ｗ２，…，ｗ６，以及类标签值。首先判断类标签值是否为“０”，然后判断各属性是否在各自阈值内。若标签值为“０”且属性值在阈值内，输出中间结果〈Ｋｅｙ３，Ｖａｌｕｅ３〉对的形式为〈“ｗｉ｜ｎ”，１〉；若标签值为“０”且属性值在阈值外，输出中间结果〈Ｋｅｙ３，Ｖａｌｕｅ３〉对的形式为〈“ｗｉ｜ｎ”，１〉；若标签值为“１”且属性值在阈值内，输出中间结果〈Ｋｅｙ３，Ｖａｌｕｅ３〉对的形式为〈“ｗｉ｜ｂ”，１〉；若标签值为“１”且属性值在阈值外，输第１期邵秀丽，等：检测僵尸网络的贝叶斯算法的ＭａｐＲｅｄｕｃｅ并行化实现 ·２９·

.30. 智能系统学报第9卷出中间结果(Key3,Vaue3)对的形式为(“e,Ib”,1)。个数，利用suml/sum_no求得条件概率P(e,Ib),并 Map2过程伪代码如下。以成员变量wiin_unnomal存储；若Key4值为“e;I 输入：Object、Text。僵尸”，统计的Value4的行数suml为w:在阈值外且输出：Text、Int Writable 属于僵尸网络个数，利用suml/sum_no求得条件概 map(Key,Value) 率P(w:Ib),并以成员变量wi_out_unnomal存储。 StringTokenizer itr=new StringTokenizer(value. Reduce2过程伪代码如下。 toString()）; 输入：Text、Int Writable String[temp=new String[9]; 输出：Text、Float Writable. While(itr.hasMoreTokens()) Reduce(Key、Value) {temp[i]=ir.nextToken();//属性字符串数组 for(Int Writable val:value) i++; Suml+=val.get():/key为不同的条件字 If Float.parsefloat temp [2])>140 &Float. 符串，则统计的是满足不同条件的网络数据行数 parsefloat(temp[2])<150) f(temp[8].equals(“0”)) /计算Key字符串长度length Context.write("w In",1); /截取条件字符串Key最后2个字符msg_ Else temp Context..write(“o1lb”,1); If(msg_temp.equals(“n”))/若属于正常网络 Else {Float result=suml/sum_yes;//计算条件概率 If(temp[8].equals(“0”)) If(Key.equals(“w,ln”)) Context.write(“w,ln”,l); wl_in_nomal=result;/成员变量存储属性 Else 列1在阈值内且属于正常网络条件概率 Context.write(“w,lb”,l); Else if(Key.equals(“w;In”)) /其他5个属性列训练过程同上。 wl_out_normal=result;/成员变量存储属 } 性列1在阈值外且属于正常网络条件概率经过Map2把分块的每行信息都处理成以 /其他5个属性列计算在阈值内、外属于正常〈Key3,Value23)形式的等待整体处理的中间文件输网络的条件概率同上出，MapReduce框架将每个Map2输出的中间文件 Else 的结果按照Key值(，ln、:In、:lb、:Ib)进行分组形成新的(Key4,Value44〉对，形式为（条件字符 {Float result=suml/sum_no;/计算条件概率 If(Key.equals(“e,lb”)) 串，{1,1，…，1}）。 wl_in_unnormal=result:/成员变量存储 Reduce.2接收到的信息为(Key4,Value4)。Re 属性列1在阈值内且属于僵尸网络条件概率 duce2的任务是对Key4相同的中间结果计数，若 Key4值为“w:ln”,统计的Value4的行数suml为e: Else if(Key.equals(“w:Ib”)) 在阈值内且属于正常网络个数，利用suml/sum_yes wl_out_unnormal=result:/成员变量存储求得条件概率P(w:ln),并以成员变量wi_in_nomal 属性列1在阈值内且属于僵尸网络条件概率 /其他5个属性列计算在阈值内、外属于僵尸存储；若Key4值为“w:In”,统计的Value4的行数网络的条件概率同上 suml为心：在阈值外且属于正常网络个数，利用 suml/sum_yes求得条件概率P(w:ln),并以成员变 Context..wite(Key,result);//输出条件概率量wi_out_nomal存储；若Key4值为“w:Ib”,统计的 } Value4的行数suml为w:在阈值内且属于僵尸网络由于MapReduce.2要对训练数据的6个属性列

出中间结果〈Ｋｅｙ３，Ｖａｌｕｅ３〉对的形式为〈“ｗｉ｜ｂ”，１〉。Ｍａｐ２过程伪代码如下。输入：Ｏｂｊｅｃｔ、Ｔｅｘｔ。输出：Ｔｅｘｔ、ＩｎｔＷｒｉｔａｂｌｅ。ｍａｐ（Ｋｅｙ，Ｖａｌｕｅ）｛ＳｔｒｉｎｇＴｏｋｅｎｉｚｅｒｉｔｒ＝ｎｅｗＳｔｒｉｎｇＴｏｋｅｎｉｚｅｒ（ｖａｌｕｅ．ｔｏＳｔｒｉｎｇ（））；Ｓｔｒｉｎｇ［］ｔｅｍｐ＝ｎｅｗＳｔｒｉｎｇ［９］；Ｗｈｉｌｅ（ｉｔｒ．ｈａｓＭｏｒｅＴｏｋｅｎｓ（））｛ｔｅｍｐ［ｉ］＝ｉｔｒ．ｎｅｘｔＴｏｋｅｎ（）；／／属性字符串数组ｉ＋＋；｝Ｉｆ（Ｆｌｏａｔ．ｐａｒｓｅｆｌｏａｔ（ｔｅｍｐ［２］）＞１４０＆＆Ｆｌｏａｔ．ｐａｒｓｅｆｌｏａｔ（ｔｅｍｐ［２］）＜１５０）Ｉｆ（ｔｅｍｐ［８］．ｅｑｕａｌｓ（“０”））Ｃｏｎｔｅｘｔ．ｗｒｉｔｅ（“ｗ１｜ｎ”，１）；ＥｌｓｅＣｏｎｔｅｘｔ．ｗｒｉｔｅ（“ｗ１｜ｂ”，１）；ＥｌｓｅＩｆ（ｔｅｍｐ［８］．ｅｑｕａｌｓ（“０”））Ｃｏｎｔｅｘｔ．ｗｒｉｔｅ（“ ｗ１｜ｎ”，１）；ＥｌｓｅＣｏｎｔｅｘｔ．ｗｒｉｔｅ（“ ｗ１｜ｂ”，１）；／／其他５个属性列训练过程同上。｝经过Ｍａｐ２把分块的每行信息都处理成以〈Ｋｅｙ３，Ｖａｌｕｅ３〉形式的等待整体处理的中间文件输出，ＭａｐＲｅｄｕｃｅ框架将每个Ｍａｐ２输出的中间文件的结果按照Ｋｅｙ值（ｗｉ｜ｎ、ｗｉ｜ｎ、ｗｉ｜ｂ、ｗｉ｜ｂ）进行分组形成新的〈Ｋｅｙ４，Ｖａｌｕｅ４〉对，形式为〈条件字符串，｛１，１，…，１｝〉。Ｒｅｄｕｃｅ２接收到的信息为〈Ｋｅｙ４，Ｖａｌｕｅ４〉。Ｒｅ⁃ ｄｕｃｅ２的任务是对Ｋｅｙ４相同的中间结果计数，若Ｋｅｙ４值为“ｗｉ｜ｎ”，统计的Ｖａｌｕｅ４的行数ｓｕｍ１为ｗｉ在阈值内且属于正常网络个数，利用ｓｕｍ１／ｓｕｍ＿ｙｅｓ求得条件概率Ｐ（ｗｉ｜ｎ），并以成员变量ｗｉ＿ｉｎ＿ｎｏｍａｌ存储；若Ｋｅｙ４值为“ ｗｉ｜ｎ”，统计的Ｖａｌｕｅ４的行数ｓｕｍ１为ｗｉ在阈值外且属于正常网络个数，利用ｓｕｍ１／ｓｕｍ＿ｙｅｓ求得条件概率Ｐ（ｗｉ｜ｎ），并以成员变量ｗｉ＿ｏｕｔ＿ｎｏｍａｌ存储；若Ｋｅｙ４值为“ｗｉ｜ｂ”，统计的Ｖａｌｕｅ４的行数ｓｕｍ１为ｗｉ在阈值内且属于僵尸网络个数，利用ｓｕｍ１／ｓｕｍ＿ｎｏ求得条件概率Ｐ（ｗｉ｜ｂ），并以成员变量ｗｉ＿ｉｎ＿ｕｎｎｏｍａｌ存储；若Ｋｅｙ４值为“ ｗｉ｜僵尸”，统计的Ｖａｌｕｅ４的行数ｓｕｍ１为ｗｉ在阈值外且属于僵尸网络个数，利用ｓｕｍ１／ｓｕｍ＿ｎｏ求得条件概率Ｐ（ｗｉ｜ｂ），并以成员变量ｗｉ＿ｏｕｔ＿ｕｎｎｏｍａｌ存储。Ｒｅｄｕｃｅ２过程伪代码如下。输入：Ｔｅｘｔ、ＩｎｔＷｒｉｔａｂｌｅ。输出：Ｔｅｘｔ、ＦｌｏａｔＷｒｉｔａｂｌｅ。Ｒｅｄｕｃｅ（Ｋｅｙ、Ｖａｌｕｅ）｛ｆｏｒ（ＩｎｔＷｒｉｔａｂｌｅｖａｌ：ｖａｌｕｅ）｛Ｓｕｍ１＋＝ｖａｌ．ｇｅｔ（）；／／ｋｅｙ为不同的条件字符串，则统计的是满足不同条件的网络数据行数｝／／计算Ｋｅｙ字符串长度ｌｅｎｇｔｈ／／截取条件字符串Ｋｅｙ最后２个字符ｍｓｇ＿ｔｅｍｐＩｆ（ｍｓｇ＿ｔｅｍｐ．ｅｑｕａｌｓ（“ｎ”））／／若属于正常网络｛Ｆｌｏａｔｒｅｓｕｌｔ＝ｓｕｍ１／ｓｕｍ＿ｙｅｓ；／／计算条件概率Ｉｆ（Ｋｅｙ．ｅｑｕａｌｓ（“ｗ１｜ｎ”））ｗ１＿ｉｎ＿ｎｏｍａｌ＝ｒｅｓｕｌｔ；／／成员变量存储属性列１在阈值内且属于正常网络条件概率Ｅｌｓｅｉｆ（Ｋｅｙ．ｅｑｕａｌｓ（“ ｗｉ｜ｎ”））ｗ１＿ｏｕｔ＿ｎｏｒｍａｌ＝ｒｅｓｕｌｔ；／／成员变量存储属性列１在阈值外且属于正常网络条件概率／／其他５个属性列计算在阈值内、外属于正常网络的条件概率同上｝Ｅｌｓｅ｛Ｆｌｏａｔｒｅｓｕｌｔ＝ｓｕｍ１／ｓｕｍ＿ｎｏ；／／计算条件概率Ｉｆ（Ｋｅｙ．ｅｑｕａｌｓ（“ｗ１｜ｂ”））ｗ１＿ｉｎ＿ｕｎｎｏｒｍａｌ＝ｒｅｓｕｌｔ；／／成员变量存储属性列１在阈值内且属于僵尸网络条件概率Ｅｌｓｅｉｆ（Ｋｅｙ．ｅｑｕａｌｓ（“ ｗｉ｜ｂ”））ｗ１＿ｏｕｔ＿ｕｎｎｏｒｍａｌ＝ｒｅｓｕｌｔ；／／成员变量存储属性列１在阈值内且属于僵尸网络条件概率／／其他５个属性列计算在阈值内、外属于僵尸网络的条件概率同上｝Ｃｏｎｔｅｘｔ．ｗｒｉｔｅ（Ｋｅｙ，ｒｅｓｕｌｔ）；／／输出条件概率｝由于ＭａｐＲｅｄｕｃｅ２要对训练数据的６个属性列 ·３０· 智能系统学报第９卷

第1期邵秀丽，等：检测僵尸网络的贝叶斯算法的MapReduce并行化实现 ·31 进行训练，每个属性既要判断是否为僵尸网络又要判断是否在阈值内，因此每个属性有4个判断条件。 P=P w1_out_normal; 因此，经过MapReduce22的处理，形成24个条件概 P2=P2 w1_out_unnormal; 率分别存储在24个成员变量里，这与MapReduce1 形成的2个成员变量存储的先验概率共同构成完整 /其他5个属性列检测过程同上。的知识库，可用于检测僵尸网络。 Line++;/统计所在行数 2.3 MapReduce3设计 Context.write(Line,P:P2); Map3接收到的检测数据是被Hadoop处理形成的(Key,Value〉对，形式为（该行起始位置相对于文经过Map3把分块的每行信息都处理成以件起始位置的偏移量，文本文件中的一行信息〉的〈Key5,Value5)形式的等待整体处理的中间文件输信息。MapReduce.3要对6列属性全部检测，需用到出，MapReduce框架将每个Map3输出的中间文件 Value的6个属性列。所以Map3将每行Value数据结果按照Ky值（数据所在行数）进行分组后发送按空格分割成字符串数组，取出数组的第3~8项，给Reduce3。分别为T℃P数据流、时间间隔平均值、时间间隔变 Reduce3.接收到的信息为。Re- 化、数据包字节数、数据包个数平均值、持续时间平 duce5的任务是逐行比较网络数据的P(bId)和均值。判断6个属性列的值是否在各自阈值内，若 P(nld)的大小。若P(nld)>P(bld),判断该行在阈值内，分别利用存储条件概率的成员变量wi_in 网络数据为正常网络数据：否则为僵尸网络数据。 nomal、wi_in_unnormal计算后验概率；若在阈值外， Reduce.3伪代码如下所示。分别利用存储条件概率的成员变量wi_out_nomal、输入：Text、Text。 wi_out_unnormal计算后验概率。并将每行网络数输出：Text、Text。据的正常网络后验概率P(nId)和僵尸网络后验 reduce(Key,Value) 概率P(bId)一起输出。输出结果(Key5,Values5) StringTokenizer itr new StringTokenizer(value. 对的形式为（数据所在行数，P(nId)P(bId)〉。 toString()); Map3过程伪代码如下。 String[temp=new String[2] 输入：Object、Text。 While(itr.hasMoreTokens()) 输出：Text、Texto {temp[]=itr.nextToken();/正常网络后 map(Key,Value) 验概率与僵尸网络后验概率 StringTokenizer itr new StringTokenizer(value. i++: toString()); String[temp=new String[9]; If(Float.parseFloat(temp[0])>Float.parseFloat While(itr.hasMoreTokens()) (temp[1]))/比较 {temp[i]=itr.nextToken()://属性字符串数组 Context..write(Key,“正常网络”)：/判断 i++; Else Context.write(Key,“僵尸网络”)：//判断 P =sum_yes_p;P2=sum_no_p; If Float.parsefloat temp [2])>140&&Float. 3实验结果与分析 parsefloat(temp[2])150) 1.6GB,TCP数据包个数23631638。D2解析后的

进行训练，每个属性既要判断是否为僵尸网络又要判断是否在阈值内，因此每个属性有４个判断条件。因此，经过ＭａｐＲｅｄｕｃｅ２的处理，形成２４个条件概率分别存储在２４个成员变量里，这与ＭａｐＲｅｄｕｃｅ１形成的２个成员变量存储的先验概率共同构成完整的知识库，可用于检测僵尸网络。２．３ＭａｐＲｅｄｕｃｅ３设计Ｍａｐ３接收到的检测数据是被Ｈａｄｏｏｐ处理形成的〈Ｋｅｙ，Ｖａｌｕｅ〉对，形式为〈该行起始位置相对于文件起始位置的偏移量，文本文件中的一行信息〉的信息。ＭａｐＲｅｄｕｃｅ３要对６列属性全部检测，需用到Ｖａｌｕｅ的６个属性列。所以Ｍａｐ３将每行Ｖａｌｕｅ数据按空格分割成字符串数组，取出数组的第３～８项，分别为ＴＣＰ数据流、时间间隔平均值、时间间隔变化、数据包字节数、数据包个数平均值、持续时间平均值。判断６个属性列的值是否在各自阈值内，若在阈值内，分别利用存储条件概率的成员变量ｗｉ＿ｉｎ＿ｎｏｍａｌ、ｗｉ＿ｉｎ＿ｕｎｎｏｒｍａｌ计算后验概率；若在阈值外，分别利用存储条件概率的成员变量ｗｉ＿ｏｕｔ＿ｎｏｍａｌ、ｗｉ＿ｏｕｔ＿ｕｎｎｏｒｍａｌ计算后验概率。并将每行网络数据的正常网络后验概率Ｐ（ｎ｜ｄ）和僵尸网络后验概率Ｐ（ｂ｜ｄ）一起输出。输出结果〈Ｋｅｙ５，Ｖａｌｕｅ５〉对的形式为〈数据所在行数，Ｐ（ｎ｜ｄ）Ｐ（ｂ｜ｄ）〉。Ｍａｐ３过程伪代码如下。输入：Ｏｂｊｅｃｔ、Ｔｅｘｔ。输出：Ｔｅｘｔ、Ｔｅｘｔ。ｍａｐ（Ｋｅｙ，Ｖａｌｕｅ）｛ＳｔｒｉｎｇＴｏｋｅｎｉｚｅｒｉｔｒ＝ｎｅｗＳｔｒｉｎｇＴｏｋｅｎｉｚｅｒ（ｖａｌｕｅ．ｔｏＳｔｒｉｎｇ（））；Ｓｔｒｉｎｇ［］ｔｅｍｐ＝ｎｅｗＳｔｒｉｎｇ［９］；Ｗｈｉｌｅ（ｉｔｒ．ｈａｓＭｏｒｅＴｏｋｅｎｓ（））｛ｔｅｍｐ［ｉ］＝ｉｔｒ．ｎｅｘｔＴｏｋｅｎ（）；／／属性字符串数组ｉ＋＋；｝Ｐ１＝ｓｕｍ＿ｙｅｓ＿ｐ；Ｐ２＝ｓｕｍ＿ｎｏ＿ｐ；Ｉｆ（Ｆｌｏａｔ．ｐａｒｓｅｆｌｏａｔ（ｔｅｍｐ［２］）＞１４０＆＆Ｆｌｏａｔ．ｐａｒｓｅｆｌｏａｔ（ｔｅｍｐ［２］）＜１５０）｛Ｐ１＝Ｐ１∗ｗ１＿ｉｎ＿ｎｏｍａｌ；Ｐ２＝Ｐ２∗ｗ１＿ｉｎ＿ｕｎｎｏｒｍａｌ；｝Ｅｌｓｅｉｆ（Ｆｌｏａｔ．ｐａｒｓｅｆｌｏａｔ（ｔｅｍｐ［２］）＜１４０‖Ｆｌｏａｔ．ｐａｒｓｅｆｌｏａｔ（ｔｅｍｐ［２］）＞１５０）｛Ｐ１＝Ｐ１∗ｗ１＿ｏｕｔ＿ｎｏｒｍａｌ；Ｐ２＝Ｐ２∗ｗ１＿ｏｕｔ＿ｕｎｎｏｒｍａｌ；｝／／其他５个属性列检测过程同上。Ｌｉｎｅ＋＋；／／统计所在行数Ｃｏｎｔｅｘｔ．ｗｒｉｔｅ（Ｌｉｎｅ，Ｐ１Ｐ２）；｝经过Ｍａｐ３把分块的每行信息都处理成以〈Ｋｅｙ５，Ｖａｌｕｅ５〉形式的等待整体处理的中间文件输出，ＭａｐＲｅｄｕｃｅ框架将每个Ｍａｐ３输出的中间文件结果按照Ｋｅｙ值（数据所在行数）进行分组后发送给Ｒｅｄｕｃｅ３。Ｒｅｄｕｃｅ３接收到的信息为＜Ｋｅｙ５，Ｖａｌｕｅ５＞。Ｒｅ⁃ ｄｕｃｅ５的任务是逐行比较网络数据的Ｐ（ｂ｜ｄ）和Ｐ（ｎ｜ｄ）的大小。若Ｐ（ｎ｜ｄ）＞Ｐ（ｂ｜ｄ），判断该行网络数据为正常网络数据；否则为僵尸网络数据。Ｒｅｄｕｃｅ３伪代码如下所示。输入：Ｔｅｘｔ、Ｔｅｘｔ。输出：Ｔｅｘｔ、Ｔｅｘｔ。ｒｅｄｕｃｅ（Ｋｅｙ，Ｖａｌｕｅ）｛ＳｔｒｉｎｇＴｏｋｅｎｉｚｅｒｉｔｒ＝ｎｅｗＳｔｒｉｎｇＴｏｋｅｎｉｚｅｒ（ｖａｌｕｅ．ｔｏＳｔｒｉｎｇ（））；Ｓｔｒｉｎｇ［］ｔｅｍｐ＝ｎｅｗＳｔｒｉｎｇ［２］；Ｗｈｉｌｅ（ｉｔｒ．ｈａｓＭｏｒｅＴｏｋｅｎｓ（））｛ｔｅｍｐ［ｉ］＝ｉｔｒ．ｎｅｘｔＴｏｋｅｎ（）；／／正常网络后验概率与僵尸网络后验概率ｉ＋＋；｝Ｉｆ（Ｆｌｏａｔ．ｐａｒｓｅＦｌｏａｔ（ｔｅｍｐ［０］）＞Ｆｌｏａｔ．ｐａｒｓｅＦｌｏａｔ（ｔｅｍｐ［１］））／／比较Ｃｏｎｔｅｘｔ．ｗｒｉｔｅ（Ｋｅｙ，“正常网络”）；／／判断ＥｌｓｅＣｏｎｔｅｘｔ．ｗｒｉｔｅ（Ｋｅｙ，“僵尸网络”）；／／判断｝３实验结果与分析本文实验中的被测网络环境为某校园网中一个子网的流量，该子网内主机约２００台，白天的网络流量为１５０～２００Ｍｂｐｓ。实验采集了某天数据，为测试本文提出并行化的算法性能，分别使用了２个不同时间段的数据集Ｄ１和Ｄ２。Ｄ１解析后的文本文件１．６ＧＢ，ＴＣＰ数据包个数２３６３１６３８。Ｄ２解析后的第１期邵秀丽，等：检测僵尸网络的贝叶斯算法的ＭａｐＲｅｄｕｃｅ并行化实现 ·３１·

.32. 智能系统学报第9卷文本文件0.8GB,TCP数据包个数11570835。实验三通过改变训练、测试数据集大小，比较数实验一通过选取检测不同的特征向量个数，分据集大小分别对普通串行贝叶斯分类检测僵尸网络析贝叶斯分类器的正确率。分类器由训练D,数据和MapReduce并行化的贝叶斯分类检测僵尸网络集获得，检测率通过分类器对D,测试获取。具体效率的影响。具体实验结果如图5所示。实验A为实验结果如图3所示。普通串行贝叶斯检测僵尸网络、实验B为MapRe 100 duce并行化贝叶斯检测僵尸网络。从图5中看出，与普通串行贝叶斯检测僵尸网络相比，MapReduce 99 并行化贝叶斯检测僵尸网络效率较高，并且随着数年据量增大，效率优势明显增强。 97 ×10 60r % 40H 实验A 0 23456 属性列个数 20 实验B 图3检测不同属性列个数的正确率比较 0 Fig.3 Comparison of correct rates among detecting dif- 0.33 0.991.65 2.31 ferent numbers of attribute columns 数据集大小MB 根据图3所示的实验结果，可以得到基于Ma 图5串行与MapReduce化贝叶斯算法检测僵尸网络效率比较 pReduce的贝叶斯分类对于检测僵尸网络的正确率 Fig.5 Efficiency Comparison of Serial and MapReduce Bavesian algorithms to detect botnets 很高的结论，因此该方法是有效的。另外选取不同的属性列个数直接影响基于Ma即Reduce的贝叶斯 4 结束语分类器的正确率，在一定程度上，检测属性列个数越本文提出了一种利用云环境下的Hadoop机制多正确率越高。的MapReduce框架设计与实现贝叶斯分类的僵尸实验二改变TCP数据流个数属性列的阈值，经网络检测方法。与已有的僵尸网络检测方法不同的过多次反复测试得到“正确率”分布如图4所示。是：它以主机对作为分析对象，提取主机对通信的流 100.0 量特征，然后将这些特征作为贝叶斯分类算法的输 99.5 入，基于MapReduce训练生成贝叶斯分类器，用训 99.0 练好的贝叶斯分类器进行僵尸网络的检测。这种检 98.5 测方法有较高的检测率并且提高了检测效率。另 98.0 外，本文在训练形成贝叶斯分类器阶段存在如何选 97.5 择各特征值的阈值范围的问题，阈值范围的选取影 97.0 响僵尸网络的检测率，下一步工作将对此另行研究。 96.5 100-150110-150120-150130-150140-150140-145 参考文献：阈值范围 [1]JIANG Hongli,SHAO Xiuli.Detecting P2P botnets by dis- 图4改变阈值对正确率影响 covering flow dependency in C&C traffic[J].Peer-to-Peer Fig.4 Influence of threshold changes on accuracy Networking and Applications,2012,5(2):1-12. 从图4中可以看到，如果把TCP数据流个数选 [2]王威，方滨兴，崔翔.基于终端行为特征的RC僵尸网络为需要检测的特征向量，那么它的阈值可以选择为检测[J].计算机学报，2009,32(10)：1980-1988. 140~145。另外，如果选时间间隔值作为特征向量， WANG Wei,FANG Binxing,CUI Xiang.IRC botnet detec- 同样可以测出它的阈值为595~605：那么，可以 tion based on host behavior[J].Chinese Journal of Comput- 通过这样的方法获得每个属性的阈值以及它取到阈 es,2009,32(10):1980-1988 值时的最高准确率。 [3]蒋鸿玲，邵秀丽.基于神经网络的僵尸网络检测方法[J刀

文本文件０．８ＧＢ，ＴＣＰ数据包个数１１５７０８３５。实验一通过选取检测不同的特征向量个数，分析贝叶斯分类器的正确率。分类器由训练Ｄ１数据集获得，检测率通过分类器对Ｄ２测试获取。具体实验结果如图３所示。图３检测不同属性列个数的正确率比较Ｆｉｇ．３Ｃｏｍｐａｒｉｓｏｎｏｆｃｏｒｒｅｃｔｒａｔｅｓａｍｏｎｇｄｅｔｅｃｔｉｎｇｄｉｆ⁃ ｆｅｒｅｎｔｎｕｍｂｅｒｓｏｆａｔｔｒｉｂｕｔｅｃｏｌｕｍｎｓ根据图３所示的实验结果，可以得到基于Ｍａ⁃ ｐＲｅｄｕｃｅ的贝叶斯分类对于检测僵尸网络的正确率很高的结论，因此该方法是有效的。另外选取不同的属性列个数直接影响基于ＭａｐＲｅｄｕｃｅ的贝叶斯分类器的正确率，在一定程度上，检测属性列个数越多正确率越高。实验二改变ＴＣＰ数据流个数属性列的阈值，经过多次反复测试得到“正确率”分布如图４所示。阈值范围图４改变阈值对正确率影响Ｆｉｇ．４Ｉｎｆｌｕｅｎｃｅｏｆｔｈｒｅｓｈｏｌｄｃｈａｎｇｅｓｏｎａｃｃｕｒａｃｙ从图４中可以看到，如果把ＴＣＰ数据流个数选为需要检测的特征向量，那么它的阈值可以选择为１４０～１４５。另外，如果选时间间隔值作为特征向量，同样可以测出它的阈值为５９５～６０５；那么，可以一一通过这样的方法获得每个属性的阈值以及它取到阈值时的最高准确率。实验三通过改变训练、测试数据集大小，比较数据集大小分别对普通串行贝叶斯分类检测僵尸网络和ＭａｐＲｅｄｕｃｅ并行化的贝叶斯分类检测僵尸网络效率的影响。具体实验结果如图５所示。实验Ａ为普通串行贝叶斯检测僵尸网络、实验Ｂ为ＭａｐＲｅ⁃ ｄｕｃｅ并行化贝叶斯检测僵尸网络。从图５中看出，与普通串行贝叶斯检测僵尸网络相比，ＭａｐＲｅｄｕｃｅ并行化贝叶斯检测僵尸网络效率较高，并且随着数据量增大，效率优势明显增强。图５串行与ＭａｐＲｅｄｕｃｅ化贝叶斯算法检测僵尸网络效率比较Ｆｉｇ．５ＥｆｆｉｃｉｅｎｃｙＣｏｍｐａｒｉｓｏｎｏｆＳｅｒｉａｌａｎｄＭａｐＲｅｄｕｃｅＢａｙｅｓｉａｎａｌｇｏｒｉｔｈｍｓｔｏｄｅｔｅｃｔｂｏｔｎｅｔｓ４结束语本文提出了一种利用云环境下的Ｈａｄｏｏｐ机制的ＭａｐＲｅｄｕｃｅ框架设计与实现贝叶斯分类的僵尸网络检测方法。与已有的僵尸网络检测方法不同的是：它以主机对作为分析对象，提取主机对通信的流量特征，然后将这些特征作为贝叶斯分类算法的输入，基于ＭａｐＲｅｄｕｃｅ训练生成贝叶斯分类器，用训练好的贝叶斯分类器进行僵尸网络的检测。这种检测方法有较高的检测率并且提高了检测效率。另外，本文在训练形成贝叶斯分类器阶段存在如何选择各特征值的阈值范围的问题，阈值范围的选取影响僵尸网络的检测率，下一步工作将对此另行研究。参考文献：［１］ＪＩＡＮＧＨｏｎｇｌｉ，ＳＨＡＯＸｉｕｌｉ．ＤｅｔｅｃｔｉｎｇＰ２Ｐｂｏｔｎｅｔｓｂｙｄｉｓ⁃ ｃｏｖｅｒｉｎｇｆｌｏｗｄｅｐｅｎｄｅｎｃｙｉｎＣ＆Ｃｔｒａｆｆｉｃ［Ｊ］．Ｐｅｅｒ⁃ｔｏ⁃ＰｅｅｒＮｅｔｗｏｒｋｉｎｇａｎｄＡｐｐｌｉｃａｔｉｏｎｓ，２０１２，５（２）：１⁃１２．［２］王威，方滨兴，崔翔．基于终端行为特征的ＩＲＣ僵尸网络检测［Ｊ］．计算机学报，２００９，３２（１０）：１９８０⁃１９８８．ＷＡＮＧＷｅｉ，ＦＡＮＧＢｉｎｘｉｎｇ，ＣＵＩＸｉａｎｇ．ＩＲＣｂｏｔｎｅｔｄｅｔｅｃ⁃ ｔｉｏｎｂａｓｅｄｏｎｈｏｓｔｂｅｈａｖｉｏｒ［Ｊ］．ＣｈｉｎｅｓｅＪｏｕｒｎａｌｏｆＣｏｍｐｕｔ⁃ ｅｒｓ，２００９，３２（１０）：１９８０⁃１９８８．［３］蒋鸿玲，邵秀丽．基于神经网络的僵尸网络检测方法［Ｊ］． ·３２· 智能系统学报第９卷

第1期邵秀丽，等：检测僵尸网络的贝叶斯算法的MapReduce并行化实现 .33. 智能系统学报，2013,8(2)：113-118 [10]张鹏，唐世渭.朴素贝叶斯分类中的隐私保护方法研究 JIANG Honglin,SHAO Xiuli.Botnet detection algorithm [J].计算机学报，2007,30(8)：1267-1276. based on neural network[J].CAAI Transactions on Intelli- ZHANG Peng,TANG Shiwei.Privacy preserving naive gent Systems,2013,8(2):113-118. Bayesian classification[J].Chinese Journal of Computers, [4]DEAN J,GHEMAWAT S.MapReduce:simplified data pro- 2007,30(8):1267-1276 cessing on large cluster[J].Communications of the ACM, 作者简介：邵秀丽，女，1963年生，教授，博士 2005,51(1):107-113. 生导师，主要研究方向为云计算与软件 [5]陶永才，薛正元，石磊.基于MapReduce的贝叶斯垃圾邮工程等。参与或主持国家自然科学基件过滤机制[J].计算机应用，2011,31(9)：2412-2416. 金项目，国家“863”计划项目，天津市青 TAO Yongcai,XUE Zhengyuan,SHI Lei.MapReduce- 年基金、自然科学基金、重点研究项目、 based Bayesian anti-spam filtering mechanism[].Journal CMS重点工程项目等多项科研项目。 of Computer Applications,2011,31(9):2412-2416. 获得省部级科技进步奖、国家档案局二等奖等8项，发表学 [6]杜跃进，崔翔.僵尸网络及其启发[J].中国数据通信，术论文80余篇。 2005,7(5):9-13. DU Yuejin,CUI Xiang.Botnets and its enlightment J]. 刘一伟，女，1992年生，本科生，主 China Data Communication,2005,7(5):9-13. 要研究方向为应用数学，发表学术论文 [7]VALIANT L G.A bridging model for parallel computation 4篇。 [J].Communications of the ACM,1990,33(8):103-111. [8]李晓桢，程佳，胡军基于聚类分析的僵尸网络识别系统 [J]计算机系统应用，2009(8)：130-135. LI Xiaozhen,CHENG Jia,HU Jun.Botnet recognition sys- tem based on the clustering technology[J].Computer Sys- 耿梅洁，女，1988年生，硕士研究生，主要研究方向为云计算。 tem and Application,2009(8):130-135. [9]STONEBRAKER M,ABADI D J,DEWITT D J,et al.Ma- pReduce and parallel DBMSs:friends or foes?[J].Com- munication of the ACM,2010,53(1):64-71. 第31届机器学习国际会议 31st International Conference on Machine Learning The 31st International Conference on Machine Learning (ICML 2014)will be held in Beijing,China,from June 21 to 26,2014.The conference will,tentatively,consist of one day of tutorials,followed by three days of main confer- ence sessions,followed by two days of workshops.We invite submissions of papers on all topics related to machine learning for the conference proceedings,and proposals for tutorials and workshops. After reviewing author and reviewer feedback from the previous conference,ICML 2014 will adopt a two-cycle sub- mission/review format,of which the first submission/review cycle will facilitate both regular one-time review/rebut- tal of submissions,as well as invitation-only resubmission into the second cycle,whereas the second cycle will only allow regular first-time submission plus resubmission of papers invited from the first cycle.We are also exploring the possibility of a JMLR track at ICML that allows direct submission of papers intended for JMLR to be reviewed under the same time frame of ICML,more detail will be available soon once agreement with JMLR has been reached.Ac- cepted papers will be announced and posted online shortly after acceptance and will be considered published and a- vailable for citation at that time. Webstie:http://icml.cc/2014/

智能系统学报，２０１３，８（２）：１１３⁃１１８．ＪＩＡＮＧＨｏｎｇｌｉｎ，ＳＨＡＯＸｉｕｌｉ．Ｂｏｔｎｅｔｄｅｔｅｃｔｉｏｎａｌｇｏｒｉｔｈｍｂａｓｅｄｏｎｎｅｕｒａｌｎｅｔｗｏｒｋ［Ｊ］．ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉ⁃ ｇｅｎｔＳｙｓｔｅｍｓ，２０１３，８（２）：１１３⁃１１８．［４］ＤＥＡＮＪ，ＧＨＥＭＡＷＡＴＳ．ＭａｐＲｅｄｕｃｅ：ｓｉｍｐｌｉｆｉｅｄｄａｔａｐｒｏ⁃ ｃｅｓｓｉｎｇｏｎｌａｒｇｅｃｌｕｓｔｅｒ［Ｊ］．ＣｏｍｍｕｎｉｃａｔｉｏｎｓｏｆｔｈｅＡＣＭ，２００５，５１（１）：１０７⁃１１３．［５］陶永才，薛正元，石磊．基于ＭａｐＲｅｄｕｃｅ的贝叶斯垃圾邮件过滤机制［Ｊ］．计算机应用，２０１１，３１（９）：２４１２⁃２４１６．ＴＡＯＹｏｎｇｃａｉ，ＸＵＥＺｈｅｎｇｙｕａｎ，ＳＨＩＬｅｉ．ＭａｐＲｅｄｕｃｅ⁃ ｂａｓｅｄＢａｙｅｓｉａｎａｎｔｉ⁃ｓｐａｍｆｉｌｔｅｒｉｎｇｍｅｃｈａｎｉｓｍ［Ｊ］．ＪｏｕｒｎａｌｏｆＣｏｍｐｕｔｅｒＡｐｐｌｉｃａｔｉｏｎｓ，２０１１，３１（９）：２４１２⁃２４１６．［６］杜跃进，崔翔．僵尸网络及其启发［Ｊ］．中国数据通信，２００５，７（５）：９⁃１３．ＤＵＹｕｅｊｉｎ，ＣＵＩＸｉａｎｇ．Ｂｏｔｎｅｔｓａｎｄｉｔｓｅｎｌｉｇｈｔｍｅｎｔ［Ｊ］．ＣｈｉｎａＤａｔａＣｏｍｍｕｎｉｃａｔｉｏｎ，２００５，７（５）：９⁃１３．［７］ＶＡＬＩＡＮＴＬＧ．Ａｂｒｉｄｇｉｎｇｍｏｄｅｌｆｏｒｐａｒａｌｌｅｌｃｏｍｐｕｔａｔｉｏｎ［Ｊ］．ＣｏｍｍｕｎｉｃａｔｉｏｎｓｏｆｔｈｅＡＣＭ，１９９０，３３（８）：１０３⁃１１１．［８］李晓桢，程佳，胡军．基于聚类分析的僵尸网络识别系统［Ｊ］．计算机系统应用，２００９（８）：１３０⁃１３５．ＬＩＸｉａｏｚｈｅｎ，ＣＨＥＮＧＪｉａ，ＨＵＪｕｎ．Ｂｏｔｎｅｔｒｅｃｏｇｎｉｔｉｏｎｓｙｓ⁃ ｔｅｍｂａｓｅｄｏｎｔｈｅｃｌｕｓｔｅｒｉｎｇｔｅｃｈｎｏｌｏｇｙ［Ｊ］．ＣｏｍｐｕｔｅｒＳｙｓ⁃ ｔｅｍａｎｄＡｐｐｌｉｃａｔｉｏｎ，２００９（８）：１３０⁃１３５．［９］ＳＴＯＮＥＢＲＡＫＥＲＭ，ＡＢＡＤＩＤＪ，ＤＥＷＩＴＴＤＪ，ｅｔａｌ．Ｍａ⁃ ｐＲｅｄｕｃｅａｎｄｐａｒａｌｌｅｌＤＢＭＳｓ：ｆｒｉｅｎｄｓｏｒｆｏｅｓ？［Ｊ］．Ｃｏｍ⁃ ｍｕｎｉｃａｔｉｏｎｏｆｔｈｅＡＣＭ，２０１０，５３（１）：６４⁃７１．［１０］张鹏，唐世渭．朴素贝叶斯分类中的隐私保护方法研究［Ｊ］．计算机学报，２００７，３０（８）：１２６７⁃１２７６．ＺＨＡＮＧＰｅｎｇ，ＴＡＮＧＳｈｉｗｅｉ．ＰｒｉｖａｃｙｐｒｅｓｅｒｖｉｎｇｎａｉｖｅＢａｙｅｓｉａｎｃｌａｓｓｉｆｉｃａｔｉｏｎ［Ｊ］．ＣｈｉｎｅｓｅＪｏｕｒｎａｌｏｆＣｏｍｐｕｔｅｒｓ，２００７，３０（８）：１２６７⁃１２７６．作者简介：邵秀丽，女，１９６３年生，教授，博士生导师，主要研究方向为云计算与软件工程等。参与或主持国家自然科学基金项目，国家“８６３”计划项目，天津市青年基金、自然科学基金、重点研究项目、ＣＩＭＳ重点工程项目等多项科研项目。获得省部级科技进步奖、国家档案局二等奖等８项，发表学术论文８０余篇。刘一伟，女，１９９２年生，本科生，主要研究方向为应用数学，发表学术论文４篇。耿梅洁，女，１９８８年生，硕士研究生，主要研究方向为云计算。第３１届机器学习国际会议３１ｓｔＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭａｃｈｉｎｅＬｅａｒｎｉｎｇＴｈｅ３１ｓｔＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭａｃｈｉｎｅＬｅａｒｎｉｎｇ（ＩＣＭＬ２０１４）ｗｉｌｌｂｅｈｅｌｄｉｎＢｅｉｊｉｎｇ，Ｃｈｉｎａ，ｆｒｏｍＪｕｎｅ２１ｔｏ２６，２０１４．Ｔｈｅｃｏｎｆｅｒｅｎｃｅｗｉｌｌ，ｔｅｎｔａｔｉｖｅｌｙ，ｃｏｎｓｉｓｔｏｆｏｎｅｄａｙｏｆｔｕｔｏｒｉａｌｓ，ｆｏｌｌｏｗｅｄｂｙｔｈｒｅｅｄａｙｓｏｆｍａｉｎｃｏｎｆｅｒ⁃ ｅｎｃｅｓｅｓｓｉｏｎｓ，ｆｏｌｌｏｗｅｄｂｙｔｗｏｄａｙｓｏｆｗｏｒｋｓｈｏｐｓ．Ｗｅｉｎｖｉｔｅｓｕｂｍｉｓｓｉｏｎｓｏｆｐａｐｅｒｓｏｎａｌｌｔｏｐｉｃｓｒｅｌａｔｅｄｔｏｍａｃｈｉｎｅｌｅａｒｎｉｎｇｆｏｒｔｈｅｃｏｎｆｅｒｅｎｃｅｐｒｏｃｅｅｄｉｎｇｓ，ａｎｄｐｒｏｐｏｓａｌｓｆｏｒｔｕｔｏｒｉａｌｓａｎｄｗｏｒｋｓｈｏｐｓ．Ａｆｔｅｒｒｅｖｉｅｗｉｎｇａｕｔｈｏｒａｎｄｒｅｖｉｅｗｅｒｆｅｅｄｂａｃｋｆｒｏｍｔｈｅｐｒｅｖｉｏｕｓｃｏｎｆｅｒｅｎｃｅ，ＩＣＭＬ２０１４ｗｉｌｌａｄｏｐｔａｔｗｏ⁃ｃｙｃｌｅｓｕｂ⁃ ｍｉｓｓｉｏｎ／ｒｅｖｉｅｗｆｏｒｍａｔ，ｏｆｗｈｉｃｈｔｈｅｆｉｒｓｔｓｕｂｍｉｓｓｉｏｎ／ｒｅｖｉｅｗｃｙｃｌｅｗｉｌｌｆａｃｉｌｉｔａｔｅｂｏｔｈｒｅｇｕｌａｒｏｎｅ⁃ｔｉｍｅｒｅｖｉｅｗ／ｒｅｂｕｔ⁃ ｔａｌｏｆｓｕｂｍｉｓｓｉｏｎｓ，ａｓｗｅｌｌａｓｉｎｖｉｔａｔｉｏｎ⁃ｏｎｌｙｒｅｓｕｂｍｉｓｓｉｏｎｉｎｔｏｔｈｅｓｅｃｏｎｄｃｙｃｌｅ，ｗｈｅｒｅａｓｔｈｅｓｅｃｏｎｄｃｙｃｌｅｗｉｌｌｏｎｌｙａｌｌｏｗｒｅｇｕｌａｒｆｉｒｓｔ⁃ｔｉｍｅｓｕｂｍｉｓｓｉｏｎｐｌｕｓｒｅｓｕｂｍｉｓｓｉｏｎｏｆｐａｐｅｒｓｉｎｖｉｔｅｄｆｒｏｍｔｈｅｆｉｒｓｔｃｙｃｌｅ．ＷｅａｒｅａｌｓｏｅｘｐｌｏｒｉｎｇｔｈｅｐｏｓｓｉｂｉｌｉｔｙｏｆａＪＭＬＲｔｒａｃｋａｔＩＣＭＬｔｈａｔａｌｌｏｗｓｄｉｒｅｃｔｓｕｂｍｉｓｓｉｏｎｏｆｐａｐｅｒｓｉｎｔｅｎｄｅｄｆｏｒＪＭＬＲｔｏｂｅｒｅｖｉｅｗｅｄｕｎｄｅｒｔｈｅｓａｍｅｔｉｍｅｆｒａｍｅｏｆＩＣＭＬ，ｍｏｒｅｄｅｔａｉｌｗｉｌｌｂｅａｖａｉｌａｂｌｅｓｏｏｎｏｎｃｅａｇｒｅｅｍｅｎｔｗｉｔｈＪＭＬＲｈａｓｂｅｅｎｒｅａｃｈｅｄ．Ａｃ⁃ ｃｅｐｔｅｄｐａｐｅｒｓｗｉｌｌｂｅａｎｎｏｕｎｃｅｄａｎｄｐｏｓｔｅｄｏｎｌｉｎｅｓｈｏｒｔｌｙａｆｔｅｒａｃｃｅｐｔａｎｃｅａｎｄｗｉｌｌｂｅｃｏｎｓｉｄｅｒｅｄｐｕｂｌｉｓｈｅｄａｎｄａ⁃ ｖａｉｌａｂｌｅｆｏｒｃｉｔａｔｉｏｎａｔｔｈａｔｔｉｍｅ．Ｗｅｂｓｔｉｅ：ｈｔｔｐ：／／ｉｃｍｌ．ｃｃ／２０１４／第１期邵秀丽，等：检测僵尸网络的贝叶斯算法的ＭａｐＲｅｄｕｃｅ并行化实现 ·３３·

点击下载完整版文档（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录