正在加载图片...
第1期 邵秀丽,等:检测僵尸网络的贝叶斯算法的MapReduce并行化实现 .27. 成检测:或者由于网络流量信息量巨大,在单个服务 案把捕获的网络流量利用云环境的贝叶斯并行算法 器上完成检测的工作效率比较低口。此外,僵尸网 进行分析处理,最终检测出僵尸网络)。 络具有流量大的特征[],因此贝叶斯分类训练阶段 需要对大量的网络数据集进行训练,用单一结点来 1检测僵尸网络的计算架构 进行检测僵尸网络将会遇到计算时间和计算资源瓶 图1给出了云环境下检测僵尸网络的架构,由被 颈)。为利用贝叶斯算法较高的准确性,基于云的 测网络环境、云环境和代理服务器层三部分构成,这三 Hadoop机制和MapReduce实现贝叶斯算法,该算法 部分协同完成僵尸网络的检测向。每个被测网络中有 根据流量分析判断网络访问流量信息中是否存在僵 若干台机器和一个核心交换机,连接一个代理服务器, 尸行为4。基于MapReduce检测僵尸网络的贝叶 代理服务器与核心交换机连接,主要负责网络流量的 斯算法,把贝叶斯算法训练阶段的先验概率、条件概 采集、解析、过滤并上传到云环境中。云的Hadoop收 率和检测阶段的后验概率的计算并行化处理。该方 集并处理各个代理服务器上传的网络流量)。 Hadoop集群 huffle&Sort Mapper Reducer Splito 俭测是否 SplitD 基于MapReducel的并 为倍尸 行僵尸网络检测 Splitn 云环境 预处理后的网络流量数据 贝厨 代理服务器 代理服务器 ② 正常计算机 篇尸计算机 被测网络1 被测网络n 计算机间的通信 采集、上传流量 被测网络2 被测网络环境 图1基于MapReduce的检测僵尸网络 Fig.1 Botnet detection based on MapReduce 代理服务器运行tepdump抓包工具来抓取网络式为:序号1数据包到达时间I源P地址|源端口号1 数据包,且将抓取的数据包以十六进制格式的文件 目的P地址I目的端口号I协议1数据包字节数1 存储,经过解析将文件变为可读的格式,以便程序分 FINISYNIACKIRST 析处理。解析后将数据包存储在le中,不同协议 代理服务器将解析后的fle上传到云的Hadoop 的数据包格式不同,例如TCP协议的流量数据包格 中,以便用MapReduce并行化的贝叶斯算法进行分成检测;或者由于网络流量信息量巨大,在单个服务 器上完成检测的工作效率比较低[1] 。 此外,僵尸网 络具有流量大的特征[2] ,因此贝叶斯分类训练阶段 需要对大量的网络数据集进行训练,用单一结点来 进行检测僵尸网络将会遇到计算时间和计算资源瓶 颈[3] 。 为利用贝叶斯算法较高的准确性,基于云的 Hadoop 机制和 MapReduce 实现贝叶斯算法,该算法 根据流量分析判断网络访问流量信息中是否存在僵 尸行为[4] 。 基于 MapReduce 检测僵尸网络的贝叶 斯算法,把贝叶斯算法训练阶段的先验概率、条件概 率和检测阶段的后验概率的计算并行化处理。 该方 案把捕获的网络流量利用云环境的贝叶斯并行算法 进行分析处理,最终检测出僵尸网络[5] 。 1 检测僵尸网络的计算架构 图 1 给出了云环境下检测僵尸网络的架构,由被 测网络环境、云环境和代理服务器层三部分构成,这三 部分协同完成僵尸网络的检测[6] 。 每个被测网络中有 若干台机器和一个核心交换机,连接一个代理服务器, 代理服务器与核心交换机连接,主要负责网络流量的 采集、解析、过滤并上传到云环境中。 云的 Hadoop 收 集并处理各个代理服务器上传的网络流量[7] 。 图 1 基于 MapReduce 的检测僵尸网络 Fig.1 Botnet detection based on MapReduce 代理服务器运行 tcpdump 抓包工具来抓取网络 数据包,且将抓取的数据包以十六进制格式的文件 存储,经过解析将文件变为可读的格式,以便程序分 析处理。 解析后将数据包存储在 file 中,不同协议 的数据包格式不同,例如 TCP 协议的流量数据包格 式为:序号|数据包到达时间|源 IP 地址|源端口号| 目的 IP 地址 | 目的端口号 | 协议 |数据包字节数| FIN| SYN|ACK|RST。 代理服务器将解析后的 file 上传到云的 Hadoop 中,以便用 MapReduce 并行化的贝叶斯算法进行分 第 1 期 邵秀丽,等:检测僵尸网络的贝叶斯算法的 MapReduce 并行化实现 ·27·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有