２．１ＭａｐＲｅｄｕｃｅ１的设计Ｍａｐ１接收到的训练数据是被Ｈａ

正在加载图片...

第1期邵秀丽，等：检测僵尸网络的贝叶斯算法的MapReduce并行化实现 .29. 2.1 MapReducel的设计 yes/sum、sum_no/sum计算得到先验概率P(n)和 Mapl接收到的训练数据是被Hadoop处理形成 P(b),并以成员变量sum_-yes_-P和sum_no_p存储。的(Key,Value〉对，形式为（该行起始位置相对于文 Reducel过程伪代码如下。件起始位置的偏移量，文本文件中的一行信息〉的输入：Text、Int Writable 信息。由于MapReducel是计算贝叶斯的先验概输出：Text、Float Writable 率，只需用到Value的类标签属性，所以Mapl将每 reduce(Key,Value) 行Vaue数据按空格分隔成字符串数组，取出数组 for(Int Writable val:Value) 最后一项，即类标签值。判断类标签值，若为0，输 Suml+=val.get();/若Key为“正常网络”，出中间结果〈Keyl,Valuel〉对的形式为(“正常网统计的是正常网络数据行数；否则为僵尸网络数据络”，1)：若为1，输出中间结果(Keyl,Value1〉对的行数形式为(“僵尸网络”，I〉。并且，MapReduce框架每 If(Key.equals(“正常网络”)) 执行一次map()说明处理一行数据，通过累加统计 {sum_yes=suml;/存储正常网络数据行数训练数据总行数，以成员变量sum存储。Mapl只是 sum_-yes-p=sum_yes/sum;//正常网络先验一个数据准备阶段，使Reducel能在该准备数据上概率继续处理。Mapl过程伪代码如下。 } 输入：Object、Texto Else 输出：Text、Int Writable。. {sum_no=suml:/存储僵尸网络数据行数 map(Key、Value) sum no_p=sum_no/sum;/僵尸网络先验概率 StringTokenizer itr new StringTokenizer(value. } toString()); Context.write(key,(float)sum1/sum));// String[]temp=new String[9] 出先验概率 While(itr.hasMoreTokens()) } {temp[i]=itr.next Token():/属性字符串数组经过MapReducel的处理，形成2个以成员变 i++; 量sum_-yesp、sum_no_p存储的概率，即正常网络先验概率和僵尸网络先验概率，构成知识库的一部分， Sum++;//网络数据总行数供检测阶段使用。 If(temp[8].equals(0))/类标签0为正常网络 2.2 MapReduce2的设计 Context..wite(“正常网络”，l); Map2接收到的信息与Mapl相同，是训练数据 Else//表示为僵尸网络被Hadoop处理形成的(Key,Vaue〉对，形式为（该 Context..write(“僵尸网络”，1)；行起始位置相对于文件起始位置的偏移量，文本文件中的一行信息)的信息。MapReduce2计算贝叶斯经过Mapl把分块的每行信息都处理成〈Keyl, 的条件概率，需用到Value的6个属性列及类标签 Valuel)形式的等待整体处理的中间文件输出，Ma- 值。因此Map2将每行Value数据按空格分割成字 pReduce框架将每个Mapl输出的中间文件的结果符串数组，取出数组的第3~9项01，心2，…，心6，以及 (“正常网络”，1〉或(“僵尸网络”，1〉按照Ky值类标签值。首先判断类标签值是否为“0”，然后判 (正常网络、僵尸网络)进行分组形成新的(Key2, 断各属性是否在各自阈值内。若标签值为“0”且属 Value2)对，形式为（类标签值，{1,1，…，1}）。性值在阈值内，输出中间结果〈Key3,Value3)对的形 Reducel接收到的信息为(Key2,Value2.〉。Re ducel的任务是对Key2相同的中间结果计数，若式为(“w:In”,1〉；若标签值为“0”且属性值在阈值 Key2值为“正常网络”，统计的Value22的行数为正外，输出中间结果〈Key3,Value3〉对的形式为常网络个数，并以成员变量sum-yes存储；若Key2 〈“0,1n”,1〉：若标签值为“1”且属性值在阈值内，输值为“僵尸网络”，统计的Value2的行数为僵尸网络出中间结果〈Key3,Value.3〉对的形式为个数，并以成员变量sum_no存储。并分别用sum_ 〈“0：1b”,1〉；若标签值为“1”且属性值在阈值外，输２．１ＭａｐＲｅｄｕｃｅ１的设计Ｍａｐ１接收到的训练数据是被Ｈａｄｏｏｐ处理形成的〈Ｋｅｙ，Ｖａｌｕｅ〉对，形式为〈该行起始位置相对于文件起始位置的偏移量，文本文件中的一行信息〉的信息。由于ＭａｐＲｅｄｕｃｅ１是计算贝叶斯的先验概率，只需用到Ｖａｌｕｅ的类标签属性，所以Ｍａｐ１将每行Ｖａｌｕｅ数据按空格分隔成字符串数组，取出数组最后一项，即类标签值。判断类标签值，若为０，输出中间结果〈Ｋｅｙ１，Ｖａｌｕｅ１〉对的形式为〈“正常网络”，１〉；若为１，输出中间结果〈Ｋｅｙ１，Ｖａｌｕｅ１〉对的形式为〈“僵尸网络”，１〉。并且，ＭａｐＲｅｄｕｃｅ框架每执行一次ｍａｐ（）说明处理一行数据，通过累加统计训练数据总行数，以成员变量ｓｕｍ存储。Ｍａｐ１只是一个数据准备阶段，使Ｒｅｄｕｃｅ１能在该准备数据上继续处理。Ｍａｐ１过程伪代码如下。输入：Ｏｂｊｅｃｔ、Ｔｅｘｔ。输出：Ｔｅｘｔ、ＩｎｔＷｒｉｔａｂｌｅ。ｍａｐ（Ｋｅｙ、Ｖａｌｕｅ）｛ＳｔｒｉｎｇＴｏｋｅｎｉｚｅｒｉｔｒ＝ｎｅｗＳｔｒｉｎｇＴｏｋｅｎｉｚｅｒ（ｖａｌｕｅ．ｔｏＳｔｒｉｎｇ（））；Ｓｔｒｉｎｇ［］ｔｅｍｐ＝ｎｅｗＳｔｒｉｎｇ［９］；Ｗｈｉｌｅ（ｉｔｒ．ｈａｓＭｏｒｅＴｏｋｅｎｓ（））｛ｔｅｍｐ［ｉ］＝ｉｔｒ．ｎｅｘｔＴｏｋｅｎ（）；／／属性字符串数组ｉ＋＋；｝Ｓｕｍ＋＋；／／网络数据总行数Ｉｆ（ｔｅｍｐ［８］．ｅｑｕａｌｓ（０））／／类标签０为正常网络Ｃｏｎｔｅｘｔ．ｗｒｉｔｅ（“正常网络”，１）；Ｅｌｓｅ／／表示为僵尸网络Ｃｏｎｔｅｘｔ．ｗｒｉｔｅ（“僵尸网络”，１）；｝经过Ｍａｐ１把分块的每行信息都处理成〈Ｋｅｙ１，Ｖａｌｕｅ１〉形式的等待整体处理的中间文件输出，Ｍａ⁃ ｐＲｅｄｕｃｅ框架将每个Ｍａｐ１输出的中间文件的结果〈“正常网络”，１〉或〈“僵尸网络”，１〉按照Ｋｅｙ值（正常网络、僵尸网络）进行分组形成新的〈Ｋｅｙ２，Ｖａｌｕｅ２〉对，形式为〈类标签值，｛１，１，…，１｝〉。Ｒｅｄｕｃｅ１接收到的信息为〈Ｋｅｙ２，Ｖａｌｕｅ２〉。Ｒｅ⁃ ｄｕｃｅ１的任务是对Ｋｅｙ２相同的中间结果计数，若Ｋｅｙ２值为“正常网络”，统计的Ｖａｌｕｅ２的行数为正常网络个数，并以成员变量ｓｕｍ＿ｙｅｓ存储；若Ｋｅｙ２值为“僵尸网络”，统计的Ｖａｌｕｅ２的行数为僵尸网络个数，并以成员变量ｓｕｍ＿ｎｏ存储。并分别用ｓｕｍ＿ｙｅｓ／ｓｕｍ、ｓｕｍ＿ｎｏ／ｓｕｍ计算得到先验概率Ｐ（ｎ）和Ｐ（ｂ），并以成员变量ｓｕｍ＿ｙｅｓ＿ｐ和ｓｕｍ＿ｎｏ＿ｐ存储。Ｒｅｄｕｃｅ１过程伪代码如下。输入：Ｔｅｘｔ、ＩｎｔＷｒｉｔａｂｌｅ。输出：Ｔｅｘｔ、ＦｌｏａｔＷｒｉｔａｂｌｅ。ｒｅｄｕｃｅ（Ｋｅｙ，Ｖａｌｕｅ）｛ｆｏｒ（ＩｎｔＷｒｉｔａｂｌｅｖａｌ：Ｖａｌｕｅ）Ｓｕｍ１＋＝ｖａｌ．ｇｅｔ（）；／／若Ｋｅｙ为“正常网络”，统计的是正常网络数据行数；否则为僵尸网络数据行数Ｉｆ（Ｋｅｙ．ｅｑｕａｌｓ（“正常网络”））｛ｓｕｍ＿ｙｅｓ＝ｓｕｍ１；／／存储正常网络数据行数ｓｕｍ＿ｙｅｓ＿ｐ＝ｓｕｍ＿ｙｅｓ／ｓｕｍ；／／正常网络先验概率｝Ｅｌｓｅ｛ｓｕｍ＿ｎｏ＝ｓｕｍ１；／／存储僵尸网络数据行数ｓｕｍ＿ｎｏ＿ｐ＝ｓｕｍ＿ｎｏ／ｓｕｍ；／／僵尸网络先验概率｝Ｃｏｎｔｅｘｔ．ｗｒｉｔｅ（ｋｅｙ，（ｆｌｏａｔ）（ｓｕｍ１／ｓｕｍ））；／／输出先验概率｝经过ＭａｐＲｅｄｕｃｅ１的处理，形成２个以成员变量ｓｕｍ＿ｙｅｓ＿ｐ、ｓｕｍ＿ｎｏ＿ｐ存储的概率，即正常网络先验概率和僵尸网络先验概率，构成知识库的一部分，供检测阶段使用。２．２ＭａｐＲｅｄｕｃｅ２的设计Ｍａｐ２接收到的信息与Ｍａｐ１相同，是训练数据被Ｈａｄｏｏｐ处理形成的〈Ｋｅｙ，Ｖａｌｕｅ〉对，形式为〈该行起始位置相对于文件起始位置的偏移量，文本文件中的一行信息〉的信息。ＭａｐＲｅｄｕｃｅ２计算贝叶斯的条件概率，需用到Ｖａｌｕｅ的６个属性列及类标签值。因此Ｍａｐ２将每行Ｖａｌｕｅ数据按空格分割成字符串数组，取出数组的第３～９项ｗ１，ｗ２，…，ｗ６，以及类标签值。首先判断类标签值是否为“０”，然后判断各属性是否在各自阈值内。若标签值为“０”且属性值在阈值内，输出中间结果〈Ｋｅｙ３，Ｖａｌｕｅ３〉对的形式为〈“ｗｉ｜ｎ”，１〉；若标签值为“０”且属性值在阈值外，输出中间结果〈Ｋｅｙ３，Ｖａｌｕｅ３〉对的形式为〈“ｗｉ｜ｎ”，１〉；若标签值为“１”且属性值在阈值内，输出中间结果〈Ｋｅｙ３，Ｖａｌｕｅ３〉对的形式为〈“ｗｉ｜ｂ”，１〉；若标签值为“１”且属性值在阈值外，输第１期邵秀丽，等：检测僵尸网络的贝叶斯算法的ＭａｐＲｅｄｕｃｅ并行化实现 ·２９·

<<向上翻页向下翻页>>

点击下载：智能系统：检测僵尸网络的贝叶斯算法的MapReduce并行化实现