第 10 期武森等: 基于 MapＲeduce 的大规模文本聚类并行化

正在加载图片...

第10期武森等：基于MapReduce的大规模文本聚类并行化 ·1417· 的数目为指定的K 20),采用F-measure(F-measure值越高表示聚类 (3)根据K个簇的质心进行K-means聚类. 效果越好)作为文本聚类算法的效果评价指标，并 Map读入所有文本集合D和K个簇的质心向量dt 比较其运行时间，结果如表1所示.本节实验（及后进行K-means聚类，形成文本簇划分，即〈Sk,List 面的实验)均在Hadoop平台上进行，本实验的聚类〈da》,该过程需要类似上一个MapReduce任务的算法均在1个计算节点上运行，其中“二分寻优次文本分配过程：数”指BKM算法在每次二分聚类过程中迭代划分 Repeat: 寻优质心的次数，运行时间和F-measure均为10次 Map:D,Litd〉→KS4,Litd》随机试验的平均值，BKM算法中的文本相似度采用 Reduce:〈S,Litd:》→KS,d,MS(Se)) 经典的余弦相似度方法 Until簇划分不再变化. 表1原始二分K-means和本文提出的算法实验结果对比 4 算法分析 Table 1 Comparison between experiment results of BKM and the pro- posed algorithm 针对提出的文本聚类算法及其并行计算模型，算法名称二分寻优次数运行时间/ms F-measure 应用真实的20 newsgroup新闻文本数据集和维基百 5 17801 0.67 科词条数据集在Hadoop平台下进行实验，以验证算 BKM 10 33235 0.74 法的文本聚类性能及并行聚类的扩展性. 15 46393 0.74 4.1实验数据及文本预处理本文算法 1 1187 0.73 在实验中选取以下两个数据集作为聚类对象： (1)20 newsgroup文本数据集①，该数据集由6个大从表1可以看出：(1)BKM算法在迭代5次寻类、20个小类共约20000个新闻文本组成，被广泛找簇中心时，在计算时间是本文改进算法约15倍的用于文本挖掘研究中.(2)维基百科词条数据集，采情况下，F-measure值明显低于本文提出的算法；集2012年4月10日的包括约400万个英文词条的 (2)迭代次数从5次增长到10次时，BKM算法的聚数据备份，数据大小约为32GB. 类效果随着迭代次数的增加会获得提高，但从10次首先，对于上述两个数据集，通过预处理过程将增长到15次时，并无显著提高，存在聚类效果的瓶非结构化的文本信息转换成为结构化的文本表示模颈；(3)本文的改进算法在获得和BKM算法相当型，实验分析中进行的数据预处理有：(1)提取特征 (略低0.01)的F-measure值的情况下，运行时间远词，将空格作为特征分割符提取特征词，并删除空格小于BKM算法.可见，本文提出的文本聚类算法通紧随的标点，即如果标点后有空格，则删除，标点后过搜索“互为最小相似度文本对”确定分裂中心后，无空格，则保留，例如保留www.ustb.edu.cn和只进行1次划分的过程，减少了重复计算的次数，在 UserlName(@gmail.com中的标点；(2)规范化，将所运行时间上比原BKM算法具有相对较大优势，并在有的字母进行小写格式化：(3)长度处理，删除长度保持与原BKM算法基本相当的聚类效果情况下，大大于50的生僻词或小于2的无意义特征词：(4)消大提高了计算效率. 除停用词，按照Google提供的英文停词表，继续删 4.3并行聚类扩展性分析除对文本挖掘没有意义的特征词：(5)消除数字，删将提出的基于MapReduce的并行文本聚类模除文本中的只包含单独数字的词汇特征，而保留部型应用到维基百科数据集中，分析并行文本聚类算分含有数字的特征词：(6)提取词干，利用法的扩展性能.将维基百科数据集切分为1、2、8和 PorterStemmeri词根提取算法m提取特征词的主干； 32GB四个不同大小的数据集进行文本预处理，为 (7)同义词替换，利用WordNet②提供的同义词列表了分析并行文本聚类算法在不同数据规模和计算节对同义词进行替换. 点上的扩展性，设计了以下两个实验 4.2文本聚类算法性能分析实验1选择2、8和32GB三个数据集，在1到选择20 newsgroup新闻文本数据集验证提出的文本聚类算法性能，即如何在保证聚类效果的前提 ①数据集可从以下网站下载：htp://people.csail.mit.cdu 下大幅度提高计算效率。对预处理后的 jrennie/20Newsgroups/ 20 newsgroup数据集分别应用二分K-means算法P] ②相关内容数据从以下网站下载：http://wordnet.prince- (记为BKM)和本文提出的改进文本聚类算法(K= ton.edu/wordnet/第 10 期武森等: 基于 MapＲeduce 的大规模文本聚类并行化的数目为指定的 K． ( 3) 根据 K 个簇的质心进行 K-means 聚类． Map 读入所有文本集合 D 和 K 个簇的质心向量 dek 进行 K-means 聚类，形成文本簇划分，即? Sk，List ?dki?? ，该过程需要类似上一个 MapＲeduce 任务的文本分配过程: Ｒepeat: Map: D，List ? dek?→?Sk，List ? dki?? Ｒeduce: ?Sk，List ? di?? →?Sk，dek，MS( Sk ) ? Until 簇划分不再变化． 4 算法分析针对提出的文本聚类算法及其并行计算模型，应用真实的 20newsgroup 新闻文本数据集和维基百科词条数据集在 Hadoop 平台下进行实验，以验证算法的文本聚类性能及并行聚类的扩展性． 4. 1 实验数据及文本预处理在实验中选取以下两个数据集作为聚类对象: ( 1) 20newsgroup 文本数据集①，该数据集由 6 个大类、20 个小类共约 20000 个新闻文本组成，被广泛用于文本挖掘研究中． ( 2) 维基百科词条数据集，采集 2012 年 4 月 10 日的包括约 400 万个英文词条的数据备份，数据大小约为 32 GB．首先，对于上述两个数据集，通过预处理过程将非结构化的文本信息转换成为结构化的文本表示模型，实验分析中进行的数据预处理有: ( 1) 提取特征词，将空格作为特征分割符提取特征词，并删除空格紧随的标点，即如果标点后有空格，则删除，标点后无空格，则保留，例如保留 www． ustb． edu． cn 和 UserlName@ gmail． com中的标点; ( 2) 规范化，将所有的字母进行小写格式化; ( 3) 长度处理，删除长度大于 50 的生僻词或小于 2 的无意义特征词; ( 4) 消除停用词，按照 Google 提供的英文停词表，继续删除对文本挖掘没有意义的特征词; ( 5) 消除数字，删除文本中的只包含单独数字的词汇特征，而保留部分含有数字的特征词; ( 6 ) 提取词干，利用 PorterStemmer词根提取算法［27］提取特征词的主干; ( 7) 同义词替换，利用 WordNet② 提供的同义词列表对同义词进行替换． 4. 2 文本聚类算法性能分析选择 20newsgroup 新闻文本数据集验证提出的文本聚类算法性能，即如何在保证聚类效果的前提下大幅度提高计算效率．对预处理后的 20newsgroup 数据集分别应用二分 K-means 算法［21］ ( 记为 BKM) 和本文提出的改进文本聚类算法( K = 20) ，采用 F-measure［28］( F-measure 值越高表示聚类效果越好) 作为文本聚类算法的效果评价指标，并比较其运行时间，结果如表 1 所示．本节实验( 及后面的实验) 均在 Hadoop 平台上进行，本实验的聚类算法均在 1 个计算节点上运行，其中“二分寻优次数”指 BKM 算法在每次二分聚类过程中迭代划分寻优质心的次数，运行时间和 F-measure 均为 10 次随机试验的平均值，BKM 算法中的文本相似度采用经典的余弦相似度方法．表 1 原始二分 K-means 和本文提出的算法实验结果对比 Table 1 Comparison between experiment results of BKM and the proposed algorithm 算法名称二分寻优次数运行时间/ms F-measure 5 17801 0. 67 BKM 10 33235 0. 74 15 46393 0. 74 本文算法 1 1187 0. 73 从表 1 可以看出: ( 1) BKM 算法在迭代 5 次寻找簇中心时，在计算时间是本文改进算法约 15 倍的情况下，F-measure 值明显低于本文提出的算法; ( 2) 迭代次数从 5 次增长到 10 次时，BKM 算法的聚类效果随着迭代次数的增加会获得提高，但从 10 次增长到 15 次时，并无显著提高，存在聚类效果的瓶颈; ( 3) 本文的改进算法在获得和 BKM 算法相当 ( 略低 0. 01) 的 F-measure 值的情况下，运行时间远小于 BKM 算法．可见，本文提出的文本聚类算法通过搜索“互为最小相似度文本对”确定分裂中心后，只进行 1 次划分的过程，减少了重复计算的次数，在运行时间上比原 BKM 算法具有相对较大优势，并在保持与原 BKM 算法基本相当的聚类效果情况下，大大提高了计算效率． 4. 3 并行聚类扩展性分析将提出的基于 MapＲeduce 的并行文本聚类模型应用到维基百科数据集中，分析并行文本聚类算法的扩展性能．将维基百科数据集切分为 1、2、8 和 32 GB 四个不同大小的数据集进行文本预处理，为了分析并行文本聚类算法在不同数据规模和计算节点上的扩展性，设计了以下两个实验．实验 1 选择 2、8 和 32 GB 三个数据集，在 1 到 · 7141 · ① ② 数据集可从以下网站下载: http: / / people． csail． mit． edu / jrennie /20Newsgroups/ 相关内容数据从以下网站下载: http: / /wordnet． princeton． edu /wordnet /

<<向上翻页向下翻页>>

点击下载：基于MapReduce的大规模文本聚类并行化