第 10 期武森等: 基于 MapＲeduce 的大规模文本聚类并行化

正在加载图片...

第10期武森等：基于MapReduce的大规模文本聚类并行化 ·1415· 综上，算法必在有限的n步(n≤nc,nc为文本循环需要计算新分裂的两个簇包含的所有文本与相簇C中文本的数量)之内收敛. 应簇中心的相似度平方，假设每一步划分均匀，则复证毕杂度为O(N2):第三步对第一步产生的另一簇分 2.3基于“互为最小相似度文本对”搜索的文本聚割，复杂度为O(N2),直到第K-1步为(N/2-1) 类算法或(N2-2).因此，总体复杂度T,≤0(K-1)N), 根据提出的初始簇中心选择方法，结合二分 K为类个数 K-means.算法思想，给出文本聚类算法步骤如下. (2)步骤3中，最差的情况下需要计算任意两算法2基于“互为最小相似度文本对”搜索的个文本的相似度，即时间复杂度T2=O(Nm)≤ 文本聚类算法 O(NW),m为搜索次数. 输入：文本集合D={d,d2,…,d,…,d}. (3)步骤4的时间复杂和步骤2类似，需要计参数：聚类的簇数K 算每次分割簇中所有文本与两个簇中心的相似度，输出：文本集合D的簇划分S={S1,S2,…, 时间复杂度T3≤0(2(K-1)N),并且步骤4和步骤 S4,…,Sx}; 2都需计算分割簇中所有文本与簇中心的相似度，算法步骤：因此只需计算一次存储即可，步骤2和步骤4的总步骤1初始化.将所有文本组成的集合D作体时间复杂度T,+T3=T3≤0(2(K-1)N). 为初始簇：S={S,},S。←-D (4)步骤6为标准的K-Means算法，复杂度步骤2根据式(4)从S中选择文本相似度均 T,=O(tKN),t为迭代次数方MS最小的簇S作为待分裂簇. 因此整个算法的时间复杂度T≤O(NW)+ 步骤3运用提出的算法1寻找待分裂簇S的 O(2(K-1)N)+O(tKN)≈O(NW),聚类个数K和初始二分簇中心文本对d,d 迭代次数t均远小于文本总数N.与原始的二分步骤4将待分类簇的所有文本S.={d1, K-means:算法相比，本文的算法主要通过步骤4提高 dn2,…,d,…,dnm}按照相似度最大原则分配到簇了效率，原始的算法需要多次迭代进行文本划分，时 S和S中：间复杂度为T:≤O(2t(K-1)N) rdnm∈Sx,SlM(dm,d）≥sim(dm,d,）; 值得一提的是，文献5]提出的基于最小相似 dS,,SIM (dd)<sim(d'd,) 度的文本聚类中心选取方法和本文提出的根据“互将S,和S,添加到簇划分S中，并将S.从S中为最小相似度文本对”选择初始二分聚类簇中心的删除过程并不相同.首先，从概念定义上，文献5]定义步骤5如果S中文本簇个数小于K,返回步骤的“最小相似度文本”指整个数据中相似度最小的 2:如果S中文本簇个数等于K,转向步骤6 两个文本，本文提出的“互为最小相似度文本对”指步骤6以S中K个簇的质心为初始簇中心对某个己经形成的文本簇中互为对方最小相似度的文所有文本利用球面K-means聚类得到文本簇划分本对，即文献5]中寻找“最小相似度文本”对应的 S,其中聚类过程中采用定义2的文本相似度计算文本相似度为整个数据集中任意两个文本相似度的方法. 最小值：本文中，簇的“互为最小相似度文本”对应步骤7结束的相似度不一定是为任意两个文本相似度的最小由算法2过程可知，本文提出的文本聚类算法值，即前者为全局最小值，后者为局部极小值.因此在搜索到初始二分簇中心后一次分配所有对象（步从搜索的时间复杂度上看，文献5]搜索“最小相骤4)，得到簇的划分，并无原始二分K-means算法似度文本”时间复杂度为O(NW)(全局最小，N为文中重复的迭代寻优过程，因此将有可能提高文本聚本数)：本文的时间复杂度O(Nm)≤O(NW),m为类的效率搜索次数，最差为O(NW).其次，从确定类中心过 2.4算法分析比较程上，文献15]针对K-means划分聚类寻找初始簇首先，分析算法2的时间复杂度.具体地，各步中心的问题，选择相似度最小的两个文本作为其中的时间复杂度如下两个初始中心，然后将这两个文本从文本集合中删 (1)步骤2中首先计算每个簇的相似度均方. 除，根据与己确定类中心之间相似度和最小的原则第一次循环中需计算每个文本与相应簇中心的相似从其余文本中选择其他类的中心，直到选出指定类度平方，因此复杂度为O(N),N为文本数：第二次别数目的中心点个数为止：本文提出的方法是针对第 10 期武森等: 基于 MapＲeduce 的大规模文本聚类并行化综上，算法必在有限的 n 步( n≤nC，nC为文本簇 C 中文本的数量) 之内收敛．证毕． 2. 3 基于“互为最小相似度文本对”搜索的文本聚类算法根据提出的初始簇中心选择方法，结合二分 K-means算法思想，给出文本聚类算法步骤如下．算法 2 基于“互为最小相似度文本对”搜索的文本聚类算法．输入: 文本集合 D = { d1，d2，…，di，…，dN} ．参数: 聚类的簇数 K．输出: 文本集合 D 的簇划分 S = { S1，S2，…， Sk，…，SK } ; 算法步骤: 步骤 1 初始化．将所有文本组成的集合 D 作为初始簇: S = { S0 } ，S0←D．步骤 2 根据式( 4) 从 S 中选择文本相似度均方 MS 最小的簇 Sm作为待分裂簇．步骤 3 运用提出的算法 1 寻找待分裂簇 Sm的初始二分簇中心文本对 dx，dy ．步骤 4 将待分类簇的所有文本 Sm = { dm1， dm2，…，dmi，…，dmn } 按照相似度最大原则分配到簇 Sx和 Sy中: dmi∈Sx，SIM( dmi，dx ) ≥sim( dmi，dy ) ; dmi∈Sy，SIM( dmi，dx ) ＜ sim( dmi，dy { ) ．将 Sx和 Sy 添加到簇划分 S 中，并将 Sm从 S 中删除．步骤 5 如果 S 中文本簇个数小于 K，返回步骤 2; 如果 S 中文本簇个数等于 K，转向步骤 6．步骤 6 以 S 中 K 个簇的质心为初始簇中心对所有文本利用球面 K-means 聚类得到文本簇划分 S，其中聚类过程中采用定义 2 的文本相似度计算方法．步骤 7 结束．由算法 2 过程可知，本文提出的文本聚类算法在搜索到初始二分簇中心后一次分配所有对象( 步骤 4) ，得到簇的划分，并无原始二分 K-means 算法中重复的迭代寻优过程，因此将有可能提高文本聚类的效率． 2. 4 算法分析比较首先，分析算法 2 的时间复杂度．具体地，各步的时间复杂度如下． ( 1) 步骤 2 中首先计算每个簇的相似度均方．第一次循环中需计算每个文本与相应簇中心的相似度平方，因此复杂度为 O( N) ，N 为文本数; 第二次循环需要计算新分裂的两个簇包含的所有文本与相应簇中心的相似度平方，假设每一步划分均匀，则复杂度为 O( N /2) ; 第三步对第一步产生的另一簇分割，复杂度为 O( N /2) ，直到第 K － 1 步为( N /2K － 1 ) 或( N /2K － 2 ) ．因此，总体复杂度 T1≤O( ( K － 1) N) ， K 为类个数． ( 2) 步骤 3 中，最差的情况下需要计算任意两个文本的相似度，即时间复杂度 T2 = O ( Nm) ≤ O( NN) ，m 为搜索次数． ( 3) 步骤 4 的时间复杂和步骤 2 类似，需要计算每次分割簇中所有文本与两个簇中心的相似度，时间复杂度 T3≤O( 2( K － 1) N) ，并且步骤 4 和步骤 2 都需计算分割簇中所有文本与簇中心的相似度，因此只需计算一次存储即可，步骤 2 和步骤 4 的总体时间复杂度 T1 + T3 = T3≤O( 2( K － 1) N) ． ( 4) 步骤 6 为标准的 K-Means 算法，复杂度 T4 = O( tKN) ，t 为迭代次数．因此整个算法的时间复杂度 T≤O( NN) + O( 2( K － 1) N) + O( tKN) ≈O( NN) ，聚类个数 K 和迭代次数 t 均远小于文本总数 N．与原始的二分 K-means算法相比，本文的算法主要通过步骤 4 提高了效率，原始的算法需要多次迭代进行文本划分，时间复杂度为 T'3≤O( 2t( K － 1) N) ．值得一提的是，文献［15］提出的基于最小相似度的文本聚类中心选取方法和本文提出的根据“互为最小相似度文本对”选择初始二分聚类簇中心的过程并不相同．首先，从概念定义上，文献［15］定义的“最小相似度文本”指整个数据中相似度最小的两个文本，本文提出的“互为最小相似度文本对”指某个已经形成的文本簇中互为对方最小相似度的文本对，即文献［15］中寻找“最小相似度文本”对应的文本相似度为整个数据集中任意两个文本相似度的最小值; 本文中，簇的“互为最小相似度文本”对应的相似度不一定是为任意两个文本相似度的最小值，即前者为全局最小值，后者为局部极小值．因此从搜索的时间复杂度上看，文献［15］搜索“最小相似度文本”时间复杂度为 O( NN) ( 全局最小，N 为文本数) ; 本文的时间复杂度 O( Nm) ≤O( NN) ，m 为搜索次数，最差为 O( NN) ．其次，从确定类中心过程上，文献［15］针对 K-means 划分聚类寻找初始簇中心的问题，选择相似度最小的两个文本作为其中两个初始中心，然后将这两个文本从文本集合中删除，根据与已确定类中心之间相似度和最小的原则从其余文本中选择其他类的中心，直到选出指定类别数目的中心点个数为止; 本文提出的方法是针对 · 5141 ·

<<向上翻页向下翻页>>

点击下载：基于MapReduce的大规模文本聚类并行化