北京科技大学学报第 36 卷 10 个计算节点上分别应用提

正在加载图片...

·1418 北京科技大学学报第36卷 10个计算节点上分别应用提出的并行文本聚类模表2不同大小数据集的并行聚类时间对比型(K=10000),得到并行算法的加速比，如图1所 Table 2 Time comparison of parallel clustering on different sizes of da- tabases 示（其中加速比定义为算法在1个计算节点上运算时间与使用多个计算节点的并行计算时间之比，图计算运行时间/ms 时间比值中的理想加速比为忽略通信时间的理想线性加节点数 1GB数据 32GB数据速比) 1 217048 2824201 13.0119 2 125530 1569016 12.4991 11 10 3 91404 1046031 11.4440 9 4 76824 855821 11.1400 8 5 61512 688833 11.1984 6 49332 543115 11.0094 6 以 7 43185 470722 10.9001 8 39465 421529 10.6811 3 -2GB -8GB 9 35579 376568 10.5840 2 -e-32 GB 10 34452 344415 9.9970 ◆理想加速化 3 4567891011 计算节点数 5 结论图1并行算法在不同数据规模和计算节点数上的加速比 Fig.I Speed-up ratio of the parallel algorithm on different data 针对面向云计算应用的大规模文本数据聚类挖 scales and node numbers 掘问题，本文在提出高效的文本聚类算法基础上，设计了基于MapReduce框架的并行文本聚类模型.以由图1可以看出：随着数据集规模的增加，由于二分K-means算法为基础，在保证二分K-means本并行聚类的通信时间在总时间开销中所占的比重大身较好的文本聚类效果的前提下，试图提高文本聚大降低，并行算法获得的加速比更加接近线性理想类效率：提出了基于初始簇中心选择的文本聚类算加速比；随着节点数的增加，每个计算节点的Ma即法.算法基于提出并证明收敛的“互为最小相似度或Reduce计算任务越来越少，通信时间在总时间开文本对”搜索算法选择初始二分聚类簇中心，克服销中所占比重增加，使算法执行时间下降减缓并且了原始二分K-means随机选择初始簇中心导致的需加速比增长速度逐步放缓.图1通过计算本文提出要多次迭代寻找最优簇质心带来的计算效率较低问的基于MapReduce的并行文本聚类算法在不同数题；并且基于MapReduce框架设计了面向云计算应据规模和节点数上的加速比反映出了算法的良好扩用的分布式并行聚类模型.Hadoop平台上运用真展性，其可运用于大规模数据聚类，通过增加计算节实应用中的20 newsgroup文本数据集的实验表明，点数目可以有效地提高文本聚类效率提出的算法在保证聚类效果的前提下，相比原始二实验2选择1GB和32GB大小的两个数据分K-means算法具有效率优势，应用不同规模的维集，在1到10个计算节点上分别应用提出的并行文基百科数据集及在不同计算节点数目上的实验验证本聚类模型(K=10000),得到并行算法的运行时了基于MapReduce并行聚类算法的良好扩展性.未间，如表2所示来的研究可能包括降低聚类中的K-means步骤可能表2的实验结果表明：随着计算节点数的增带来的噪声数据对文本聚类结果的影响以及其他大加，本文提出的基于MapReduce的并行文本算法规模文本挖掘的并行化问题在32GB数据集上的运行时间与1GB数据集上的运行时间比从约13倍不断下降到约10倍，即算法考文献处理大数据集的效率随着计算节点的增加越来越高，因此该并行算法更适合于大规模文本数据的 ] Guan R C,Pei ZL,Shi X H,et al.Weight affinity propagation 并行聚类 and its application to text clustering.J Comput Res Der,2010,47 (10):1733 实验1和实验2共同验证了本文的并行文本聚 (管仁初，裴志利，时小虎，等。权吸引子传播算法及其在文类算法在大规模数据集和更多计算节点上的扩本聚类中的应用.计算机研究与发展，2010,47(10)：1733) 展性 Jeffrey D,Sanjay G.MapReduce:simplified data processing on北京科技大学学报第 36 卷 10 个计算节点上分别应用提出的并行文本聚类模型( K = 10000) ，得到并行算法的加速比，如图 1 所示( 其中加速比定义为算法在 1 个计算节点上运算时间与使用多个计算节点的并行计算时间之比，图中的理想加速比为忽略通信时间的理想线性加速比) ．图 1 并行算法在不同数据规模和计算节点数上的加速比 Fig． 1 Speed-up ratio of the parallel algorithm on different data scales and node numbers 由图 1 可以看出: 随着数据集规模的增加，由于并行聚类的通信时间在总时间开销中所占的比重大大降低，并行算法获得的加速比更加接近线性理想加速比; 随着节点数的增加，每个计算节点的 Map 或Ｒeduce 计算任务越来越少，通信时间在总时间开销中所占比重增加，使算法执行时间下降减缓并且加速比增长速度逐步放缓．图 1 通过计算本文提出的基于 MapＲeduce 的并行文本聚类算法在不同数据规模和节点数上的加速比反映出了算法的良好扩展性，其可运用于大规模数据聚类，通过增加计算节点数目可以有效地提高文本聚类效率．实验 2 选择 1 GB 和 32 GB 大小的两个数据集，在 1 到 10 个计算节点上分别应用提出的并行文本聚类模型( K = 10000) ，得到并行算法的运行时间，如表 2 所示．表 2 的实验结果表明: 随着计算节点数的增加，本文提出的基于 MapＲeduce 的并行文本算法在 32 GB 数据集上的运行时间与 1 GB 数据集上的运行时间比从约 13 倍不断下降到约 10 倍，即算法处理大数据集的效率随着计算节点的增加越来越高，因此该并行算法更适合于大规模文本数据的并行聚类．实验 1 和实验 2 共同验证了本文的并行文本聚类算法在大规模数据集和更多计算节点上的扩展性．表 2 不同大小数据集的并行聚类时间对比 Table 2 Time comparison of parallel clustering on different sizes of databases 计算节点数运行时间/ms 1 GB 数据 32 GB 数据时间比值 1 217048 2824201 13. 0119 2 125530 1569016 12. 4991 3 91404 1046031 11. 4440 4 76824 855821 11. 1400 5 61512 688833 11. 1984 6 49332 543115 11. 0094 7 43185 470722 10. 9001 8 39465 421529 10. 6811 9 35579 376568 10. 5840 10 34452 344415 9. 9970 5 结论针对面向云计算应用的大规模文本数据聚类挖掘问题，本文在提出高效的文本聚类算法基础上，设计了基于 MapＲeduce 框架的并行文本聚类模型．以二分 K-means 算法为基础，在保证二分 K-means 本身较好的文本聚类效果的前提下，试图提高文本聚类效率; 提出了基于初始簇中心选择的文本聚类算法．算法基于提出并证明收敛的“互为最小相似度文本对”搜索算法选择初始二分聚类簇中心，克服了原始二分 K-means 随机选择初始簇中心导致的需要多次迭代寻找最优簇质心带来的计算效率较低问题; 并且基于 MapＲeduce 框架设计了面向云计算应用的分布式并行聚类模型． Hadoop 平台上运用真实应用中的 20newsgroup 文本数据集的实验表明，提出的算法在保证聚类效果的前提下，相比原始二分 K-means 算法具有效率优势，应用不同规模的维基百科数据集及在不同计算节点数目上的实验验证了基于 MapＲeduce 并行聚类算法的良好扩展性．未来的研究可能包括降低聚类中的 K-means 步骤可能带来的噪声数据对文本聚类结果的影响以及其他大规模文本挖掘的并行化问题．参考文献［1］ Guan Ｒ C，Pei Z L，Shi X H，et al． Weight affinity propagation and its application to text clustering． J Comput Ｒes Dev，2010，47 ( 10) : 1733 ( 管仁初，裴志利，时小虎，等．权吸引子传播算法及其在文本聚类中的应用．计算机研究与发展，2010，47( 10) : 1733) ［2］ Jeffrey D，Sanjay G． MapＲeduce: simplified data processing on · 8141 ·

<<向上翻页向下翻页>>

点击下载：基于MapReduce的大规模文本聚类并行化