从图８中的实验记录全过程来看，ＭＣ⁃Ｋ⁃ｍｅａｎｓ在读取数据集以及聚

正在加载图片...

第4期申彦，等：CMP上基于数据集划分的K-means多核优化算法 .613. 从图8中的实验记录全过程来看，MC-K-means 实验结果再次验证了MC-K-means算法可以在在读取数据集以及聚类阶段，线程池中各线程的负 CPU的各核心之间均衡的负载各挖掘任务，充分利载是较为均衡的，没有出现长时间的空闲状态，算法用现代CPU的多核计算能力，提高对大规模数据集充分利用了CPU各核心的计算能力。的聚类效率。 k=7 ,合色星数：有 MC-K-means ■PKMeans_MT PKMeans MR 4.0 3.71 3.69 3.5 3.24 3.12 3.0 2.5 2.52 2.5 2.0 1.5 1.0 0.5 图8 jvisual监控截图 0 Fig.8 Screenshot of jvisual Intel Xeon E5-2609 Intel i3-3240 操作平台 4.2真实数据集测试使用UCI上的真实数据集Forest CoverType 图10加速率对比 dataset对相关算法进行测试。该数据集共有581 Fig.10 Comparision of speedup rate 012条记录，每条记录有54个维度，聚类时簇的个 5 结束语数设置为k=7。该数据集较为庞大且聚类需多次迭代，挖掘耗本文考虑到现阶段多核CPU的普及，针对经典时较多。在Xeon E5-2609所在平台，K-means算法的K-means算法进行了多核并行优化，提出了一种完成聚类需要98.65s,MC-K-means需要26.59s, MC-K-means算法。该算法把K-means聚类任务按 PKMeans_.MT需要30.45s,PKMeans_.MR需耗时数据集等分为多个相互独立的挖掘子任务，并动态 39.15s;而在i3-3240所在平台，K-means算法完成分配给多个线程并行执行，充分利用现代CPU的多聚类需要103.42s,MC-K-means需要28.02s,PK 核计算能力。实验结果证明了该算法可以充分利用 Means_MT需要33.l5s,PKMeans_MR需耗时现在的多核CPU,取得了较高的加速比，提高了聚 41.22s。从图9、10中可以看出，与人工生成数据集类算法处理大规模数据集的能力。的测试结果类似，并行优化后的各算法在Xeon E5- 虽然MC-K-means算法有着上述优势，但是当 2609平台获得了更高的加速比，且MC-K-menas算前版本的算法仍然存在一些问题，有待进一步改进。法依靠其更多执行步骤的并行化、更为直接的底层例如算法可以进一步扩展到集群聚类的领域。这些算法实现以及均衡的任务负载取得了最高的加研究内容将在以后的研究过程中进一步补充完善。速率。参考文献： k=7 ☐MC-K-means [1]SUBRAMANIAM V.Programming concurrency on the JVM ■PKMeans MT mastering synchronization,STM,and actors[M].Beijing: PKMeans_MR China Machine Press,2013:1-27. ☐K-means [2]AARON B,TAMIR D E,RISHE N D,et al.Dynamic in- 120 103.42 cremental K-means clustering[C]//Proc of the 2014 Inter- 100 98.65 national Conference on Computational Science and Computa- 80 tional Intelligence,CSCI 2014.Los Alamitos,CA:IEEE 60 Computer Society,2014:308-313. 40 39.15 [3]SARMA T H,VISWANATH P.REDDY B E.Single pass ker- 2684 nel k-means clustering method[J].Sadhana-Academy Pro- 20 ceedings in Engineering Sciences,2013,38(3):407-419. [4]BRADLEY P,FAYYAD U,REINA C.Scaling clustering Intel Xeon E5-2609 Intel i3-3240 algorithms to large databases[R].Redmond:Microsoft Re- 操作平台 search Report,1998:9-15. 图9运行时间对比 [5]陈光平，王文鹏，黄俊.一种改进初始聚类中心选择的K-从图８中的实验记录全过程来看，ＭＣ⁃Ｋ⁃ｍｅａｎｓ在读取数据集以及聚类阶段，线程池中各线程的负载是较为均衡的，没有出现长时间的空闲状态，算法充分利用了ＣＰＵ各核心的计算能力。图８ｊｖｉｓｕａｌ监控截图Ｆｉｇ．８Ｓｃｒｅｅｎｓｈｏｔｏｆｊｖｉｓｕａｌ４．２真实数据集测试使用ＵＣＩ上的真实数据集ＦｏｒｅｓｔＣｏｖｅｒＴｙｐｅｄａｔａｓｅｔ对相关算法进行测试。该数据集共有５８１０１２条记录，每条记录有５４个维度，聚类时簇的个数设置为ｋ＝７。该数据集较为庞大且聚类需多次迭代，挖掘耗时较多。在ＸｅｏｎＥ５⁃２６０９所在平台，Ｋ⁃ｍｅａｎｓ算法完成聚类需要９８．６５ｓ，ＭＣ⁃Ｋ⁃ｍｅａｎｓ需要２６．５９ｓ，ＰＫＭｅａｎｓ＿ＭＴ需要３０．４５ｓ，ＰＫＭｅａｎｓ＿ＭＲ需耗时３９．１５ｓ；而在ｉ３⁃３２４０所在平台，Ｋ⁃ｍｅａｎｓ算法完成聚类需要１０３．４２ｓ，ＭＣ⁃Ｋ⁃ｍｅａｎｓ需要２８．０２ｓ，ＰＫ⁃ Ｍｅａｎｓ＿ＭＴ需要３３．１５ｓ，ＰＫＭｅａｎｓ＿ＭＲ需耗时４１．２２ｓ。从图９、１０中可以看出，与人工生成数据集的测试结果类似，并行优化后的各算法在ＸｅｏｎＥ５⁃ ２６０９平台获得了更高的加速比，且ＭＣ⁃Ｋ⁃ｍｅｎａｓ算法依靠其更多执行步骤的并行化、更为直接的底层算法实现以及均衡的任务负载取得了最高的加速率。图９运行时间对比Ｆｉｇ．９Ｃｏｍｐａｒｉｓｏｎｏｆｒｕｎｔｉｍｅ实验结果再次验证了ＭＣ⁃Ｋ⁃ｍｅａｎｓ算法可以在ＣＰＵ的各核心之间均衡的负载各挖掘任务，充分利用现代ＣＰＵ的多核计算能力，提高对大规模数据集的聚类效率。图１０加速率对比Ｆｉｇ．１０Ｃｏｍｐａｒｉｓｉｏｎｏｆｓｐｅｅｄｕｐｒａｔｅ５结束语本文考虑到现阶段多核ＣＰＵ的普及，针对经典的Ｋ⁃ｍｅａｎｓ算法进行了多核并行优化，提出了一种ＭＣ⁃Ｋ⁃ｍｅａｎｓ算法。该算法把Ｋ⁃ｍｅａｎｓ聚类任务按数据集等分为多个相互独立的挖掘子任务，并动态分配给多个线程并行执行，充分利用现代ＣＰＵ的多核计算能力。实验结果证明了该算法可以充分利用现在的多核ＣＰＵ，取得了较高的加速比，提高了聚类算法处理大规模数据集的能力。虽然ＭＣ⁃Ｋ⁃ｍｅａｎｓ算法有着上述优势，但是当前版本的算法仍然存在一些问题，有待进一步改进。例如算法可以进一步扩展到集群聚类的领域。这些研究内容将在以后的研究过程中进一步补充完善。参考文献：［１］ＳＵＢＲＡＭＡＮＩＡＭＶ．ＰｒｏｇｒａｍｍｉｎｇｃｏｎｃｕｒｒｅｎｃｙｏｎｔｈｅＪＶＭｍａｓｔｅｒｉｎｇｓｙｎｃｈｒｏｎｉｚａｔｉｏｎ，ＳＴＭ，ａｎｄａｃｔｏｒｓ［Ｍ］．Ｂｅｉｊｉｎｇ：ＣｈｉｎａＭａｃｈｉｎｅＰｒｅｓｓ，２０１３：１⁃２７．［２］ＡＡＲＯＮＢ，ＴＡＭＩＲＤＥ，ＲＩＳＨＥＮＤ，ｅｔａｌ．Ｄｙｎａｍｉｃｉｎ⁃ ｃｒｅｍｅｎｔａｌＫ⁃ｍｅａｎｓｃｌｕｓｔｅｒｉｎｇ［Ｃ］／／Ｐｒｏｃｏｆｔｈｅ２０１４Ｉｎｔｅｒ⁃ ｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔａｔｉｏｎａｌＳｃｉｅｎｃｅａｎｄＣｏｍｐｕｔａ⁃ ｔｉｏｎａｌＩｎｔｅｌｌｉｇｅｎｃｅ，ＣＳＣＩ２０１４．ＬｏｓＡｌａｍｉｔｏｓ，ＣＡ：ＩＥＥＥＣｏｍｐｕｔｅｒＳｏｃｉｅｔｙ，２０１４：３０８⁃３１３．［３］ＳＡＲＭＡＴＨ，ＶＩＳＷＡＮＡＴＨＰ，ＲＥＤＤＹＢＥ．Ｓｉｎｇｌｅｐａｓｓｋｅｒ⁃ ｎｅｌｋ⁃ｍｅａｎｓｃｌｕｓｔｅｒｉｎｇｍｅｔｈｏｄ［Ｊ］．Ｓａｄｈａｎａ ⁃ ＡｃａｄｅｍｙＰｒｏ⁃ ｃｅｅｄｉｎｇｓｉｎＥｎｇｉｎｅｅｒｉｎｇＳｃｉｅｎｃｅｓ，２０１３，３８（３）：４０７⁃４１９．［４］ＢＲＡＤＬＥＹＰ，ＦＡＹＹＡＤＵ，ＲＥＩＮＡＣ．Ｓｃａｌｉｎｇｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍｓｔｏｌａｒｇｅｄａｔａｂａｓｅｓ［Ｒ］．Ｒｅｄｍｏｎｄ：ＭｉｃｒｏｓｏｆｔＲｅ⁃ ｓｅａｒｃｈＲｅｐｏｒｔ，１９９８：９⁃１５．［５］陈光平，王文鹏，黄俊．一种改进初始聚类中心选择的Ｋ⁃ 第４期申彦，等：ＣＭＰ上基于数据集划分的Ｋ⁃ｍｅａｎｓ多核优化算法 ·６１３·

<<向上翻页向下翻页>>

点击下载：【机器学习】CMP上基于数据集划分的K-means多核优化算法编辑部