验，所以需要针对不同实验平台中不同类型的ＣＰＵ进行测试。ＨＰＰＲＯ

正在加载图片...

第4期申彦，等：CMP上基于数据集划分的K-means多核优化算法 ·611- 验，所以需要针对不同实验平台中不同类型的CPU 个数据点的所属类别、计算簇中心以及计算准则函进行测试。HPPR03380MT平台采用的CPU是数E这4个阶段均进行了并行化改进。且在这4个 Intel i3-3240@3.40GHz,核心类型为Ivy Bridge,64 阶段中，每个数据点的任务量是相当的，因此MC-K- 位CPU,双核，四线程，支持超线程技术，3MB三级 means算法所采取的等分数据集的方法可以取得较缓存，双通道。HP ProLiant DL388pGen8平台采用好的负载均衡性，算法取得了对比算法中最高的加的CPU是Intel Xeon E5-2609@2.40GHz,核心类型速率。为Sandy Bridge,64位CPU,四核，四线程，10MB三 PKMeans_.MT算法取得了较低的加速率。分析级缓存，四通道。算法可知，该算法仅在读取数据集以及迭代计算每对比算法为文献[l5]描述的基于MapReduce 个数据点的归属时利用parfor函数进行了并行化。的并行K-means算法(PKMeans_MR)以及文献[l6] 对新分类中心点的计算及准则函数的计算均没有并描述的PKMeans_.MT算法。在实验中根据上述文行化，且算法需要依托MATLAB平台，故取得了较献描述的算法思想分别实现了各算法进行对比实低的加速率。验。因为相同初始化条件下各算法最终聚类的结果 PKMeans_.MR算法在对比算法中取得了最低的是一样的，所以实验主要对比分析相关算法的执行加速率。分析算法可知，PKMeans_.MR算法改进原时间以及加速率情况。 K-means算法，使其以MapReduce方式运行，节点之 4.1人工生成数据集测试间在迭代时需要多次通信、多次同步，且算法需适应人工生成数据集由数据生成程序根据K个高 MapReduce固有模式，降低了算法的运行效率，因此斯分布随机产生，每个高斯分布设置一个随机权重取得了最低的加速率。但对比原K-means算法仍提来确定是否产生数据。每一个高斯分布的中心是随高了一倍多的运行效率。机产生的，区间为[-5,5]。数据点每个维度值的产可以看出，对K-means进行并行化改进，适应了生区间为[0.7,1.5]。产生的人工数据集包含100 多核CPU的发展趋势，可以极大程度提高算法的运维，180000个数据点，数据集使用二进制bin文件行效率，满足处理大规模数据集的需要。保存。本次实验因为数据集以及聚类测试算法是在同一台计算机上的，所以读取数据集时的阻塞系数 30 28.24 25.28 blockCoefficient设置为0。聚类簇数量设置为k=5。整个实验随机产生5个不同的人工生成数据 20 =5 集，针对每个数据集，分别执行MC-K-means、PK- 15 11.47 :水 PKMeans MR 10 1001 9.029.35 Means_.MR、PKMeans_MT以及K-means算法各I0 7.028 oK-means 次，各自共运行50次，最后以聚类时间的平均值作 5 为算法聚类效率的评价。实验结果如图2、3所示。 Intel Xeon E5-2609Intel i3-3240 该数据集较为规整，算法运行收敛较快。从实操作平台验结果可以看出：针对服务器领域的Xeon E5-2609, 图2运行时间对比虽然主频较低，但依靠较大的L3缓存以及四通道 Fig.2 Comparison of run time 的内存控制器，使得各算法取得了较高的执行效率。 4.00r 3.60 K-means算法在该平台环境下执行消耗了25.28s, 3.50 3.10 PKMeans_.MR消耗了10.01s,PKMeans_MT消耗了 3.00 3.133.02 2.53 2.16 =5 2.50 8.15s,MC-K-means则需要7.02s。而在i3-3240所 2.00 MC-K-means 在平台环境下，K-means算法消耗了28.24s,PK- 翼 PKMeans MT 1.50 PKMeans MR 1.00 Means_MR消耗了11.47s,PKMeans_MT消耗了 0.50 9.35s,MC-K-means在该平台则需要9.02s。从并 0 Intel Xeon E5-2609 Intel i3-3240 行化改造后各算法的执行结果来看，在Xeon E5- 操作平台 2609所在平台，算法获得了更高的加速比。这主要图3加速率对比是由于Xeon E5-2609是四核四线程的，拥有真实的 Fig.3 Comparison of speedup rate 四核心，可以更好地并行完成各并行化算法划分的逐步增大生成数据集的规模，生成的人工数据多任务聚类工作。而3-3240是双核心的，依靠超集为100维，分别包含180000个数据点，360000 线程技术实现的四线程并行，但是CPU的双物理核个数据点，540000个数据点，720000个数据点，心需要频繁的进行线程上下文的切换，消耗了一部 900000个数据点。在Intel Xeon E5-2609平台测试分的运行时间，获得了较低的加速比。每个算法的加速率。实验每次随机产生2个相同大其中，MC-Kmeans算法在读取数据集、判断每验，所以需要针对不同实验平台中不同类型的ＣＰＵ进行测试。ＨＰＰＲＯ３３８０ＭＴ平台采用的ＣＰＵ是Ｉｎｔｅｌｉ３⁃３２４０＠３．４０ＧＨｚ，核心类型为ＩｖｙＢｒｉｄｇｅ，６４位ＣＰＵ，双核，四线程，支持超线程技术，３ＭＢ三级缓存，双通道。ＨＰＰｒｏＬｉａｎｔＤＬ３８８ｐＧｅｎ８平台采用的ＣＰＵ是ＩｎｔｅｌＸｅｏｎＥ５⁃２６０９＠２．４０ＧＨｚ，核心类型为ＳａｎｄｙＢｒｉｄｇｅ，６４位ＣＰＵ，四核，四线程，１０ＭＢ三级缓存，四通道。对比算法为文献［１５］描述的基于ＭａｐＲｅｄｕｃｅ的并行Ｋ⁃ｍｅａｎｓ算法（ＰＫＭｅａｎｓ＿ＭＲ）以及文献［１６］描述的ＰＫＭｅａｎｓ＿ＭＴ算法。在实验中根据上述文献描述的算法思想分别实现了各算法进行对比实验。因为相同初始化条件下各算法最终聚类的结果是一样的，所以实验主要对比分析相关算法的执行时间以及加速率情况。４．１人工生成数据集测试人工生成数据集由数据生成程序根据Ｋ个高斯分布随机产生，每个高斯分布设置一个随机权重来确定是否产生数据。每一个高斯分布的中心是随机产生的，区间为［－５，５］。数据点每个维度值的产生区间为［０．７，１．５］。产生的人工数据集包含１００维，１８００００个数据点，数据集使用二进制ｂｉｎ文件保存。本次实验因为数据集以及聚类测试算法是在同一台计算机上的，所以读取数据集时的阻塞系数ｂｌｏｃｋＣｏｅｆｆｉｃｉｅｎｔ设置为０。聚类簇数量设置为ｋ＝５。整个实验随机产生５个不同的人工生成数据集，针对每个数据集，分别执行ＭＣ⁃Ｋ⁃ｍｅａｎｓ、ＰＫ⁃ Ｍｅａｎｓ＿ＭＲ、ＰＫＭｅａｎｓ＿ＭＴ以及Ｋ⁃ｍｅａｎｓ算法各１０次，各自共运行５０次，最后以聚类时间的平均值作为算法聚类效率的评价。实验结果如图２、３所示。该数据集较为规整，算法运行收敛较快。从实验结果可以看出：针对服务器领域的ＸｅｏｎＥ５⁃２６０９，虽然主频较低，但依靠较大的Ｌ３缓存以及四通道的内存控制器，使得各算法取得了较高的执行效率。Ｋ⁃ｍｅａｎｓ算法在该平台环境下执行消耗了２５．２８ｓ，ＰＫＭｅａｎｓ＿ＭＲ消耗了１０．０１ｓ，ＰＫＭｅａｎｓ＿ＭＴ消耗了８．１５ｓ，ＭＣ⁃Ｋ⁃ｍｅａｎｓ则需要７．０２ｓ。而在ｉ３⁃３２４０所在平台环境下，Ｋ⁃ｍｅａｎｓ算法消耗了２８．２４ｓ，ＰＫ⁃ Ｍｅａｎｓ＿ＭＲ消耗了１１．４７ｓ，ＰＫＭｅａｎｓ＿ＭＴ消耗了９．３５ｓ，ＭＣ⁃Ｋ⁃ｍｅａｎｓ在该平台则需要９．０２ｓ。从并行化改造后各算法的执行结果来看，在ＸｅｏｎＥ５⁃ ２６０９所在平台，算法获得了更高的加速比。这主要是由于ＸｅｏｎＥ５⁃２６０９是四核四线程的，拥有真实的四核心，可以更好地并行完成各并行化算法划分的多任务聚类工作。而ｉ３⁃３２４０是双核心的，依靠超线程技术实现的四线程并行，但是ＣＰＵ的双物理核心需要频繁的进行线程上下文的切换，消耗了一部分的运行时间，获得了较低的加速比。其中，ＭＣ⁃Ｋｍｅａｎｓ算法在读取数据集、判断每个数据点的所属类别、计算簇中心以及计算准则函数Ｅ这４个阶段均进行了并行化改进。且在这４个阶段中，每个数据点的任务量是相当的，因此ＭＣ⁃Ｋ⁃ ｍｅａｎｓ算法所采取的等分数据集的方法可以取得较好的负载均衡性，算法取得了对比算法中最高的加速率。ＰＫＭｅａｎｓ＿ＭＴ算法取得了较低的加速率。分析算法可知，该算法仅在读取数据集以及迭代计算每个数据点的归属时利用ｐａｒｆｏｒ函数进行了并行化。对新分类中心点的计算及准则函数的计算均没有并行化，且算法需要依托ＭＡＴＬＡＢ平台，故取得了较低的加速率。ＰＫＭｅａｎｓ＿ＭＲ算法在对比算法中取得了最低的加速率。分析算法可知，ＰＫＭｅａｎｓ＿ＭＲ算法改进原Ｋ⁃ｍｅａｎｓ算法，使其以ＭａｐＲｅｄｕｃｅ方式运行，节点之间在迭代时需要多次通信、多次同步，且算法需适应ＭａｐＲｅｄｕｃｅ固有模式，降低了算法的运行效率，因此取得了最低的加速率。但对比原Ｋ⁃ｍｅａｎｓ算法仍提高了一倍多的运行效率。可以看出，对Ｋ⁃ｍｅａｎｓ进行并行化改进，适应了多核ＣＰＵ的发展趋势，可以极大程度提高算法的运行效率，满足处理大规模数据集的需要。图２运行时间对比Ｆｉｇ．２Ｃｏｍｐａｒｉｓｏｎｏｆｒｕｎｔｉｍｅ图３加速率对比Ｆｉｇ．３Ｃｏｍｐａｒｉｓｏｎｏｆｓｐｅｅｄｕｐｒａｔｅ逐步增大生成数据集的规模，生成的人工数据集为１００维，分别包含１８００００个数据点，３６００００个数据点，５４００００个数据点，７２００００个数据点，９０００００个数据点。在ＩｎｔｅｌＸｅｏｎＥ５⁃２６０９平台测试每个算法的加速率。实验每次随机产生２个相同大第４期申彦，等：ＣＭＰ上基于数据集划分的Ｋ⁃ｍｅａｎｓ多核优化算法 ·６１１·

<<向上翻页向下翻页>>

点击下载：【机器学习】CMP上基于数据集划分的K-means多核优化算法编辑部