图1 在语料库1中 WTCDFSSM 聚类算法与其他算法聚类结果比较 F

正在加载图片...

,220 北京科技大学学报第30卷 0.96 算法WTCDFSS M的平均准确率比其他三种聚类分 ◆WTCDFSSM 析算法高；WTCDFSSM得到的集簇具有鲜明的类 °092 聚类算法 ·K.平均聚类别特征，能够有效地提取聚类集中的主题特征项， 0.88 算法 K-中心点聚类算法参考文献 0.84 “层次聚类分析算法 [1]Yang B R,Tang J.The research of discovery feature sub-space 0.80 model (DFSSM)based on complex type data.Eng Sci,2003.5 家庭教育考试聚焦素质教育 (1):56 主题类别 (杨炳儒，唐菁.基于复杂类型数据的发现特征子空间模型 DFSSM的研究，中国工程科学，2003,5(1)：56) 图1在语料库1中WTCDFSSM聚类算法与其他算法聚类结果 [2]Wang JC.Pan JG,Zhang F Y.Research on Web text mining. 比较 J Comput Res Dev.2000.37(5):513 Fig.1 Comparison of experimental results between WTCDFSSM (王继成，潘金贵，张福炎.W山文本挖掘技术研究，计算机研 and related algorithms in Corpus 1 究与发展，2000,37(5)：513) [3]Han K S,Wang Y C.Text mining,data mining vs.knowledge 1.0 management:the intelligent information processing in the 21st century.JChina Soc Sci Tech Inf,2001.20(1):100 (韩客松，王永成.文本挖掘、数据挖掘和知识管理一二十一 0.8 世纪的智能信息处理.情报学报，2001,20(1)：100) 0.7 ◆WTCDFSSM聚类算法 [4]Feldman R.Dagan I.Knowledge discovery in textual database 。K。平均聚类算法 0.6 。K中心点聚类算法 (KDT)/Proceedings of Ist International Conference on Knowl- 州层次聚类分析算法 edge Discovery and Data Mining.Canada,1995:112 0.5 [5]Hodge V J.Austin J.Hierarchical word clustering:automatic thesaurus generation.Neurocomputing.2002,48(1):819 [6]Roussinov D.Zhao J L.Automatic discovery of similarity rela- 主题类别 tionships through Web mining.Decis Support Syst,2003.35 (1):149 图2在语料库2中WTCDFSSM聚类算法与其他算法聚类结果 [7]Runkler T A.Bezdek JC.Web mining with relational clustering 比较 Int JApproximate Reason.2003.32(2):217 Fig.2 Comparison of experimental results between WTCDFSSM [8]Pullwitt D.Integrating contextual information to enhance SOM- based text document clustering.Neural Networks.2002.15 and related algorithms in Corpus 2 (8):1099 聚为一类。因此，平均准确率只是从一个方面说明 [9]Wu B.Fu W P,Zheng Y,et al.A clustering algorithm based on swarm intelligence for Web document.JComput Res Dev.2002. 了WTCDFSSM算法具有良好的聚类特征； 39(11):1429 WTCDFSSM算法相比于其他各种聚类算法更重要 (吴斌，傅伟鹏，郑毅，等.一种基于群体智能的W山文档聚类的优势为通过自组织特征映射发现文本集内在的主算法.计算机研究与发展，2002,39(11)：1429) [10]Li G.Shao F J.Zhu B H.Research of the clustering algorithm 题特征项， based on neural network.JQingdao Unie Eng Technol Ed. 3结论 2001,16(4):21 (李戈，邵峰晶，朱本浩.基于神经网络聚类的研究.青岛大本文提出并实现了Wb文本聚类算法学学报：工程技术版，2001,16(4)：21) [11]Chen F J,Yang S L.A clustering method for Chinese Web doe- WTCDFSSM.该算法的基本特征是：(1)在Web文 ument based on SOM.JChina Soc Sci Tech Inf,2002,21(2): 本挖掘系统结构模型DFSSM所提供的运行机制下 173 具体实现的；(2)在概念空间中给出WTCDFSSM (陈福集，杨善林.一种基于S0M的中文Wb文档层次聚类文本聚类算法的类别和距离测度的定义；(3)针对方法.情报学报，2002,21(2)：173) [12]Jiang Ning ShiZZ.Bayesian posteriori model selection for text 挖掘形成的聚类模式提供有效的评价指标和评价 clustering.JComput Res Dev.2002.39(5):580 算法 (姜宁，史忠植，文本聚类中的贝叶斯后验模型选择方法·计结合现代远程教育应用背景，在本文所提供的算机研究与发展，2002,39(5)：580) 测试语料库1及测试语料库2的基础上，对比分析 [13]Jiang N.Gong X J.ShiZ Z.Text clustering in high dimension feature space.Comput Eng Appl.2002.10,63 了WTCDFSSM聚类分析算法及常用的K一平均聚 (姜宁，宫秀军，史忠植。高维特征空间中文本聚类研究。计类算法、K中心点聚类算法和层次聚类分析算法，算机工程与应用，2002,10,63) 实验结果表明：构建在概念空间中的文本聚类分析图1 在语料库1中 WTCDFSSM 聚类算法与其他算法聚类结果比较 Fig．1 Comparison of experimental results between WTCDFSSM and related algorithms in Corpus1 图2 在语料库2中 WTCDFSSM 聚类算法与其他算法聚类结果比较 Fig．2 Comparison of experimental results between WTCDFSSM and related algorithms in Corpus2 聚为一类．因此平均准确率只是从一个方面说明了 WTCDFSSM 算法具有良好的聚类特征； WTCDFSSM 算法相比于其他各种聚类算法更重要的优势为通过自组织特征映射发现文本集内在的主题特征项． 3 结论本文提出并实现了 Web 文本聚类算法 WTCDFSSM．该算法的基本特征是：（1）在 Web 文本挖掘系统结构模型 DFSSM 所提供的运行机制下具体实现的；（2）在概念空间中给出 WTCDFSSM 文本聚类算法的类别和距离测度的定义；（3）针对挖掘形成的聚类模式提供有效的评价指标和评价算法．结合现代远程教育应用背景在本文所提供的测试语料库1及测试语料库2的基础上对比分析了 WTCDFSSM 聚类分析算法及常用的 K—平均聚类算法、K—中心点聚类算法和层次聚类分析算法．实验结果表明：构建在概念空间中的文本聚类分析算法 WTCDFSSM 的平均准确率比其他三种聚类分析算法高；WTCDFSSM 得到的集簇具有鲜明的类别特征能够有效地提取聚类集中的主题特征项．参考文献［1］ Yang B RTang J．The research of discovery feature sub-space model （DFSSM） based on complex type data．Eng Sci20035 （1）：56 （杨炳儒唐菁．基于复杂类型数据的发现特征子空间模型 DFSSM 的研究．中国工程科学20035（1）：56）［2］ Wang J CPan J GZhang F Y．Research on Web text mining． J Comput Res Dev200037（5）：513 （王继成潘金贵张福炎．Web 文本挖掘技术研究．计算机研究与发展200037（5）：513）［3］ Han K SWang Y C．Text miningdata mining vs．knowledge management：the intelligent information processing in the 21st century．J China Soc Sci Tech Inf200120（1）：100 （韩客松王永成．文本挖掘、数据挖掘和知识管理———二十一世纪的智能信息处理．情报学报200120（1）：100）［4］ Feldman RDagan I．Knowledge discovery in textual database （KDT）∥ Proceedings of 1st International Conference on Knowledge Discovery and Data MiningCanada1995：112 ［5］ Hodge V JAustin J．Hierarchical word clustering：automatic thesaurus generation．Neurocomputing200248（1）：819 ［6］ Roussinov DZhao J L．Automatic discovery of similarity relationships through Web mining． Decis Support Syst200335 （1）：149 ［7］ Runkler T ABezdek J C．Web mining with relational clustering． Int J App roximate Reason200332（2）：217 ［8］ Pullwitt D．Integrating contextual information to enhance SOMbased text document clustering． Neural Networks200215 （8）：1099 ［9］ Wu BFu W PZheng Yet al．A clustering algorithm based on swarm intelligence for Web document．J Comput Res Dev2002 39（11）：1429 （吴斌傅伟鹏郑毅等．一种基于群体智能的 Web 文档聚类算法．计算机研究与发展200239（11）：1429）［10］ Li GShao F JZhu B H．Research of the clustering algorithm based on neural network．J Qingdao Univ Eng Technol Ed 200116（4）：21 （李戈邵峰晶朱本浩．基于神经网络聚类的研究．青岛大学学报：工程技术版200116（4）：21）［11］ Chen F JYang S L．A clustering method for Chinese Web document based on SOM．J China Soc Sci Tech Inf200221（2）： 173 （陈福集杨善林．一种基于 SOM 的中文 Web 文档层次聚类方法．情报学报200221（2）：173）［12］ Jiang NingShi Z Z．Bayesian posteriori model selection for text clustering．J Comput Res Dev200239（5）：580 （姜宁史忠植．文本聚类中的贝叶斯后验模型选择方法．计算机研究与发展200239（5）：580）［13］ Jiang NGong X JShi Z Z．Text clustering in high-dimension feature space．Comput Eng Appl200210：63 （姜宁宫秀军史忠植．高维特征空间中文本聚类研究．计算机工程与应用200210：63） ·220· 北京科技大学学报第30卷

<<向上翻页

点击下载：基于非结构化数据挖掘结构模型的Web文本聚类算法