第 10 期武森等: 基于 MapＲeduce 的大规模文本聚类并行化

正在加载图片...

第10期武森等：基于MapReduce的大规模文本聚类并行化 ·1413· 效率. 在并行聚类研究方面，MapReduce框架的出现 ",=〔×i通=lg(++1 (1) ni 使得大规模文本数据的并行聚类研究逐渐发展，研式中，f,指特征词t在文本d,中出现的频率，ng为文究者基于MapReduce框架进行的并行聚类研究包本d:中特征词t出现的次数，n:为文本d,含有的所有括：基于MapReduce的并行K-means聚类；基于特征词出现的总数：id出指特征词t在整个文本集中 MapReduce的快速K-center和K-median聚类：基的逆向文档频率，用来衡量特征词的出现范围，N为于MapReduce的大规模多维数据聚类：基于文本集合中总文本数量，V表示含有特征词t,的不 MapReduce的分布式文本聚类Pa.这些研究针对不同文本数量.显然，某个特征词在特定的文档中出同的聚类算法，通过定义不同的Ma即和Reduce任现的频率越高，该特征词在区分该文本内容属性方务实现大规模数据的并行聚类，获得了大规模数据面的能力越强(T℉)；在文本集中出现的范围越广，聚类挖掘效率的提高及良好的扩展性其区分文本内容的属性越低(DF). 本文针对目前具有较好文本聚类效果的二分定义2文本相似度.给定文本d,d,TA(d:, K-means算法的不足，在保证文本聚类效果的前提 d）={t1,t2,…,tu,…,th}表示d,d所含特征下，从如何提高二分K-means聚类效率及大规模文词的并集，h为并集中特征词的数目；TS(d:,d,)= 本挖掘问题入手，对文本聚类算法及其并行化进行 {t1,ta,…,t…,tu}表示d,d所含特征词的交了研究.首先，利用向量空间模型提出一种文本相集，l为交集中特征词的数目.文本d,d,在TS中的似度计算方法.其次，提出了基于“互为最小相似度每个特征词t4上的相似度sim(d:,d,t)定义为文本对”搜索算法的初始二分聚类簇中心选择方 sim(dd)=min() (2) 法，并对算法搜索的收敛性进行了证明.然后，结合 max (w,) 二分K-means算法的步骤和思想，给出一次划分实文本d,d的相似度SM(d,d)定义为现簇中心寻优的高效二分聚类过程及完整的文本聚 ∑sim(d:,d,tt) 类算法.此外，在针对提高大规模文本聚类的效率 SIM(d.,d)= 一，(3) I TA(d,d)I 方面，本文借鉴基于MapReduce的并行聚类研即两文本在所有共同特征词上的相似度之和与两文究-，利用MapReduce框架设计了面向云计算应本包含的所有特征词的个数之比.式(3)与经典的用的分布式并行二分K-means文本聚类模型.最余弦相似度(W:·W/(IW:1*1W1)计算方法相后，在Hadoop平台的真实数据实验验证了算法在保比，都首先利用了两个文本所包含的共同特征词计证聚类效果的前提下相比原始二分K-means算法的算公式的分子项，其次分母项均利用了除了共同特效率优势及并行聚类在不同数据规模和计算节点上征之外其余各自本文的特征词.不同的是，本文提的扩展性出的式(3)分别精确地计算了每个共同特征词的相似程度，而不是在夹角余弦中直接通过向量内积计 2基于初始簇中心的文本聚类算法算总体相似度. 本文首先采用文本特征表示模型提出了文本相定义3文本簇相似度均方.包括c个文本的似度计算模型，并提出了基于“互为最小相似度文文本簇C={d,d2,…,d,…,d}的簇相似度均方本对”搜索的初始二分簇中心选择方法，在此基础 MS(C)定义为所有文本与簇质心相似度平方的上给出结合二分K-means的文本聚类算法均值： 2.1文本特征表示及相似度模型 ∑sIM(d,d.)2 定义1文本特征表示模型.给定文本集合 MS(C)= (4) nc D={d,d2,,d,…,dw},d代表每个文本向量，其中，d为簇质心文本特征向量，即d。=(〈t1,w）, 采用向量空间模型可表示为d:=（l1,wa),〈2，〈t2,02）,…,〈t,0g）,…,〈tm,0em>）, 02〉，…，〈，0g〉，…，〈tm,0m）.其中：T={t1, 2,…,,…,tm}表示文本集中所有文本包含的所有特征词的集合，W:=(wa,02,…,0…,0m）表 We (5) nc 示文本d,在所有特征词上对应的权重向量.采用 2.2初始二分簇中心选择方法 TFDF计算方法网：原始的二分K-means方法在选择一个簇进行分第 10 期武森等: 基于 MapＲeduce 的大规模文本聚类并行化效率．在并行聚类研究方面，MapＲeduce 框架的出现使得大规模文本数据的并行聚类研究逐渐发展，研究者基于 MapＲeduce 框架进行的并行聚类研究包括: 基于 MapＲeduce 的并行 K-means 聚类［23］; 基于 MapＲeduce 的快速 K-center 和 K-median 聚类［24］; 基于 MapＲeduce 的大规模多维数据聚类［25］; 基于 MapＲeduce的分布式文本聚类［26］．这些研究针对不同的聚类算法，通过定义不同的 Map 和Ｒeduce 任务实现大规模数据的并行聚类，获得了大规模数据聚类挖掘效率的提高及良好的扩展性．本文针对目前具有较好文本聚类效果的二分 K-means 算法的不足，在保证文本聚类效果的前提下，从如何提高二分 K-means 聚类效率及大规模文本挖掘问题入手，对文本聚类算法及其并行化进行了研究．首先，利用向量空间模型提出一种文本相似度计算方法．其次，提出了基于“互为最小相似度文本对”搜索算法的初始二分聚类簇中心选择方法，并对算法搜索的收敛性进行了证明．然后，结合二分 K-means 算法的步骤和思想，给出一次划分实现簇中心寻优的高效二分聚类过程及完整的文本聚类算法．此外，在针对提高大规模文本聚类的效率方面，本文借鉴基于 MapＲeduce 的并行聚类研究［23--25］，利用 MapＲeduce 框架设计了面向云计算应用的分布式并行二分 K-means 文本聚类模型．最后，在 Hadoop 平台的真实数据实验验证了算法在保证聚类效果的前提下相比原始二分 K-means 算法的效率优势及并行聚类在不同数据规模和计算节点上的扩展性． 2 基于初始簇中心的文本聚类算法本文首先采用文本特征表示模型提出了文本相似度计算模型，并提出了基于“互为最小相似度文本对”搜索的初始二分簇中心选择方法，在此基础上给出结合二分 K-means 的文本聚类算法． 2. 1 文本特征表示及相似度模型定义 1 文本特征表示模型．给定文本集合 D = { d1，d2，…，di，…，dN} ，di代表每个文本向量，采用向量空间模型可表示为 di = ( ? t1，wi1 ?，? t2， wi2 ?，…，?tj ，wij ?，…，? tm，wim ?) ．其中: T = { t1， t2，…，tj ，…，tm } 表示文本集中所有文本包含的所有特征词的集合，Wi = ( wi1，wi2，…，wij，…，wim ) 表示文本 di 在所有特征词上对应的权重向量．采用 TF-IDF 计算方法［8］: wij = tfi × idfj = nij ni ·log2 ( N Nj + 1 + 1 ) ． ( 1) 式中，tfij指特征词 tj在文本 di中出现的频率，nij为文本 di中特征词 tj出现的次数，ni为文本 di含有的所有特征词出现的总数; idfj指特征词 tj在整个文本集中的逆向文档频率，用来衡量特征词的出现范围，N 为文本集合中总文本数量，Nj表示含有特征词 tj的不同文本数量．显然，某个特征词在特定的文档中出现的频率越高，该特征词在区分该文本内容属性方面的能力越强( TF) ; 在文本集中出现的范围越广，其区分文本内容的属性越低( IDF) ．定义 2 文本相似度．给定文本 di，dj ，TA( di， dj ) = { ta1，ta2，…，tat，…，tah } 表示 di，dj所含特征词的并集，h 为并集中特征词的数目; TS( di，dj) = { ts1，ts2，…，tsk，…，tsl} 表示 di，dj所含特征词的交集，l 为交集中特征词的数目．文本 di，dj在 TS 中的每个特征词 tsk上的相似度 sim( di，dj ，tsk ) 定义为 sim( di，dj ，tsk ) = min( wisk，wjsk ) max( wisk，wjsk ) ， ( 2) 文本 di，dj的相似度 SIM( di，dj ) 定义为 SIM( di，dj ) = t ∑sk∈TS( di ，dj ) sim( di，dj ，tsk ) | TA( di，dj ) | ， ( 3) 即两文本在所有共同特征词上的相似度之和与两文本包含的所有特征词的个数之比．式( 3) 与经典的余弦相似度( Wi ·Wj / ( | Wi | * | Wj | ) ) 计算方法相比，都首先利用了两个文本所包含的共同特征词计算公式的分子项，其次分母项均利用了除了共同特征之外其余各自本文的特征词．不同的是，本文提出的式( 3) 分别精确地计算了每个共同特征词的相似程度，而不是在夹角余弦中直接通过向量内积计算总体相似度．定义 3 文本簇相似度均方．包括 nC个文本的文本簇 C = { d1，d2，…，di，…，dnC } 的簇相似度均方 MS( C) 定义为所有文本与簇质心相似度平方的均值: MS( C) = ∑di∈C SIM( di，de ) 2 nC ． ( 4) 其中，de为簇质心文本特征向量，即 de = ( ?t1，we1 ?， ?t2，we2 ?，…，?tj ，wej ?，…，?tm，wem ?) ， wej = ∑ n i = 1 wij nC ． ( 5) 2. 2 初始二分簇中心选择方法原始的二分 K-means 方法在选择一个簇进行分 · 3141 ·

<<向上翻页向下翻页>>

点击下载：基于MapReduce的大规模文本聚类并行化