PDi． Step1 for j＝1to m do ｛将 S 的所有特征词

正在加载图片...

第2期胡健等：基于非结构化数据挖掘结构模型的Wb文本聚类算法 .219. Pp 2Web文本聚类分析算法WTCDFSSM的 Step 1 for j=l to m do 实现 {将S的所有特征词项t存入候选集C中； Step2对于候选集C中的所有特征词项，应 2.1文本聚类的测试语料库用Zipf法则，删除出现次数低于3及高于1000的结合本文的课题背景一教育部重点科技攻关特征词条，并经此变换后生成矩阵S；项目·“现代远程教育中的关键技术一信息挖掘和 Step 3 for i=1 to 3 do 智能搜索工具的研究”，对于上述提出的文本聚类算 {使用小波变换算法（采用凸3小波函数）对于法WTCDFSS M在实际运行环境中进行了运行测矩阵S所构成的二维文本数据进行分解，得到S的试，该Wh文本挖掘软件系统通过了教育部组织第i个分解层次的小波系数矩阵S,Sh,S, 的鉴定委员会的正式鉴定，并通过了中国软件评测中心的软件鉴定测评. Spa: 采用如下两个语料库：其一，采用的测试数据集 Step4保存Sa,即将小波变换后得到的第3 是一个具有近1000篇中文文本的语料库（称为语层低频部分的小波系数矩阵作为原始文本/特征词料库1)，语料库中的文本均采自现代远程教育站点条矩阵S的近似矩阵，rank(Sa)=r; 的教育类热点新闻.其二，为了进一步研究WTCDF- Step5计算S的奇异值分解(SVD),将该矩 SSM聚类算法的实际性能，扩展了所研究的语料范阵分解成为三个矩阵U、A和V,U和V是正交矩围.在一个含有约2300篇语料的新闻语料库（称为阵(UU=I,VV=),A是奇异值的对角矩阵，语料库2)上进行了实际运行测试，该新闻语料库中并通过下式选取降维的因子数K(即潜在的语义结的文本都是新闻电讯稿件，其中，两个语料库的测试构数)，求最小的K满足数据类别构成分别为表2及表3所示表2测试语料库1的类别构成 (8) Table 2 Document categories in Corpus I 主题类别文本篇数主题类别文本篇数家庭教育 370 素质教育 203 Step6按照公式计算得到S的近似矩阵考试聚焦 391 其他 32 Ak,然后用该矩阵的非零奇异值构造形成原始文本表3测试语料库2的类别构成集的模式矢量Pk=(u1,u2,…,k); Table 3 Document categories in Corpus 2 Step 7 for j=1 to size(C)do 主题类别文本篇数主题类别文本篇数 {在候选集C中，删除SVD分解中消除的特征政治与社会 607 教育 147 词项；军事 407 航空航天 130 Step8用候选集C中的特征项子集替换原始计算机 354 法律 81 文本空间的特征项，然后基于上述的近似矩阵A 体育 242 医疗卫生 70 构造生成每一个文档在“概念空间”范畴内的特征模经济 198 旅游服务 56 式矢量PD,并用合适的数据结构存储模式矢量P 2.2 文本聚类分析算法WTCDFSSM性能分析及PD, 为了考察WTCDFSSM算法的实际性能，采用通过以上提出的DFSSM中的文本特征提取算经典的K一平均聚类算法、K一中心点聚类算法和层法(TFE)可以将特征词项空间转化到概念空间，在次聚类分析算法5-]与本文提出的WTCDFSSM算该转化过程中忽略重要程度特别低的概念（即特征法在测试语料库1和语料库2的基础上作了实例对词项)：由于这些概念蕴涵的信息量比较少，忽略掉比分析，算法聚类结果如图1和2所示，并不会影响全局，可以选择Ak的前K个特征值所从以上的实验运行结果中可以看出：WTCDF- 对应的特征矢量，K的选取可以按照式(8)进行，其 S$M聚类分析算法的平均准确率比其他三种聚类中，t是一个预先设定的阈值，表示信息损失的多分析算法要高；该算法具有很强的自适应学习能力、少，一般取t=0.80~0.90.也就是说，忽略掉一些鲁棒性和容错能力，同时在实验观察结果中发现，重要程度特别低的概念会造成信息的损失，但损失 WTCDFSS M聚类算法得到的集簇具有相当鲜明的程度不超过0.100.20这个限度. 类别特征，即与一个主题类别相关的文本较集中地PDi． Step1 for j＝1to m do ｛将 S 的所有特征词项 tj 存入候选集 C 中｝； Step2 对于候选集 C 中的所有特征词项应用 Zipf 法则删除出现次数低于3及高于1000的特征词条并经此变换后生成矩阵 S′； Step3 for i＝1to3do ｛使用小波变换算法（采用 db3小波函数）对于矩阵 S′所构成的二维文本数据进行分解得到 S′的第 i 个分解层次的小波系数矩阵 S i AS i HdS i Vd S i Dd｝； Step4 保存 S 3 a即将小波变换后得到的第3 层低频部分的小波系数矩阵作为原始文本／特征词条矩阵 S 的近似矩阵rank（ S 3 a）＝ r； Step5 计算 S 3 a 的奇异值分解（SVD）将该矩阵分解成为三个矩阵 U、A 和 VU 和 V 是正交矩阵（ U T U＝ IV T V＝ I）A 是奇异值的对角矩阵并通过下式选取降维的因子数 K（即潜在的语义结构数）求最小的 K 满足 ∑ K i＝1 λi ∑ r i＝1 λi ≥t （8） Step6 按照公式计算得到 S 3 a 的近似矩阵 Ak然后用该矩阵的非零奇异值构造形成原始文本集的模式矢量 Pk＝（ u1u2…uk）； Step7 for j＝1to size（C） do ｛在候选集 C 中删除 SVD 分解中消除的特征词项｝； Step8 用候选集 C 中的特征项子集替换原始文本空间的特征项然后基于上述的近似矩阵 Ak 构造生成每一个文档在“概念空间”范畴内的特征模式矢量 PDi并用合适的数据结构存储模式矢量 Pk 及 PDi．通过以上提出的 DFSSM 中的文本特征提取算法（TFE）可以将特征词项空间转化到概念空间．在该转化过程中忽略重要程度特别低的概念（即特征词项）；由于这些概念蕴涵的信息量比较少忽略掉并不会影响全局．可以选择 Ak 的前 K 个特征值所对应的特征矢量K 的选取可以按照式（8）进行．其中t 是一个预先设定的阈值表示信息损失的多少一般取 t＝0∙80～0∙90．也就是说忽略掉一些重要程度特别低的概念会造成信息的损失但损失程度不超过0∙10～0∙20这个限度． 2 Web 文本聚类分析算法 WTCDFSSM 的实现 2∙1 文本聚类的测试语料库结合本文的课题背景———教育部重点科技攻关项目“现代远程教育中的关键技术———信息挖掘和智能搜索工具的研究”对于上述提出的文本聚类算法 WTCDFSSM 在实际运行环境中进行了运行测试．该 Web 文本挖掘软件系统通过了教育部组织的鉴定委员会的正式鉴定并通过了中国软件评测中心的软件鉴定测评．采用如下两个语料库：其一采用的测试数据集是一个具有近1000篇中文文本的语料库（称为语料库1）语料库中的文本均采自现代远程教育站点的教育类热点新闻．其二为了进一步研究 WTCDFSSM 聚类算法的实际性能扩展了所研究的语料范围．在一个含有约2300篇语料的新闻语料库（称为语料库2）上进行了实际运行测试该新闻语料库中的文本都是新闻电讯稿件．其中两个语料库的测试数据类别构成分别为表2及表3所示．表2 测试语料库1的类别构成 Table2 Document categories in Corpus1 主题类别文本篇数家庭教育 370 考试聚焦 391 主题类别文本篇数素质教育 203 其他 32 表3 测试语料库2的类别构成 Table3 Document categories in Corpus2 主题类别文本篇数政治与社会 607 军事 407 计算机 354 体育 242 经济 198 主题类别文本篇数教育 147 航空航天 130 法律 81 医疗卫生 70 旅游服务 56 2∙2 文本聚类分析算法 WTCDFSSM性能分析为了考察 WTCDFSSM 算法的实际性能采用经典的 K—平均聚类算法、K—中心点聚类算法和层次聚类分析算法［5—8］与本文提出的 WTCDFSSM 算法在测试语料库1和语料库2的基础上作了实例对比分析算法聚类结果如图1和2所示．从以上的实验运行结果中可以看出：WTCDFSSM 聚类分析算法的平均准确率比其他三种聚类分析算法要高；该算法具有很强的自适应学习能力、鲁棒性和容错能力．同时在实验观察结果中发现 WTCDFSSM 聚类算法得到的集簇具有相当鲜明的类别特征即与一个主题类别相关的文本较集中地第2期胡健等：基于非结构化数据挖掘结构模型的 Web 文本聚类算法 ·219·

<<向上翻页向下翻页>>

点击下载：基于非结构化数据挖掘结构模型的Web文本聚类算法