正在加载图片...
,220 北京科技大学学报 第30卷 0.96 算法WTCDFSS M的平均准确率比其他三种聚类分 ◆WTCDFSSM 析算法高;WTCDFSSM得到的集簇具有鲜明的类 °092 聚类算法 ·K.平均聚类 别特征,能够有效地提取聚类集中的主题特征项, 0.88 算法 K-中心点 聚类算法 参考文献 0.84 “层次聚类 分析算法 [1]Yang B R,Tang J.The research of discovery feature sub-space 0.80 model (DFSSM)based on complex type data.Eng Sci,2003.5 家庭教育考试聚焦素质教育 (1):56 主题类别 (杨炳儒,唐菁.基于复杂类型数据的发现特征子空间模型 DFSSM的研究,中国工程科学,2003,5(1):56) 图1在语料库1中WTCDFSSM聚类算法与其他算法聚类结果 [2]Wang JC.Pan JG,Zhang F Y.Research on Web text mining. 比较 J Comput Res Dev.2000.37(5):513 Fig.1 Comparison of experimental results between WTCDFSSM (王继成,潘金贵,张福炎.W山文本挖掘技术研究,计算机研 and related algorithms in Corpus 1 究与发展,2000,37(5):513) [3]Han K S,Wang Y C.Text mining,data mining vs.knowledge 1.0 management:the intelligent information processing in the 21st century.JChina Soc Sci Tech Inf,2001.20(1):100 (韩客松,王永成.文本挖掘、数据挖掘和知识管理一二十一 0.8 世纪的智能信息处理.情报学报,2001,20(1):100) 0.7 ◆WTCDFSSM聚类算法 [4]Feldman R.Dagan I.Knowledge discovery in textual database 。K。平均聚类算法 0.6 。K中心点聚类算法 (KDT)/Proceedings of Ist International Conference on Knowl- 州层次聚类分析算法 edge Discovery and Data Mining.Canada,1995:112 0.5 [5]Hodge V J.Austin J.Hierarchical word clustering:automatic thesaurus generation.Neurocomputing.2002,48(1):819 [6]Roussinov D.Zhao J L.Automatic discovery of similarity rela- 主题类别 tionships through Web mining.Decis Support Syst,2003.35 (1):149 图2在语料库2中WTCDFSSM聚类算法与其他算法聚类结果 [7]Runkler T A.Bezdek JC.Web mining with relational clustering 比较 Int JApproximate Reason.2003.32(2):217 Fig.2 Comparison of experimental results between WTCDFSSM [8]Pullwitt D.Integrating contextual information to enhance SOM- based text document clustering.Neural Networks.2002.15 and related algorithms in Corpus 2 (8):1099 聚为一类。因此,平均准确率只是从一个方面说明 [9]Wu B.Fu W P,Zheng Y,et al.A clustering algorithm based on swarm intelligence for Web document.JComput Res Dev.2002. 了WTCDFSSM算法具有良好的聚类特征; 39(11):1429 WTCDFSSM算法相比于其他各种聚类算法更重要 (吴斌,傅伟鹏,郑毅,等.一种基于群体智能的W山文档聚类 的优势为通过自组织特征映射发现文本集内在的主 算法.计算机研究与发展,2002,39(11):1429) [10]Li G.Shao F J.Zhu B H.Research of the clustering algorithm 题特征项, based on neural network.JQingdao Unie Eng Technol Ed. 3结论 2001,16(4):21 (李戈,邵峰晶,朱本浩.基于神经网络聚类的研究.青岛大 本文提出并实现了Wb文本聚类算法 学学报:工程技术版,2001,16(4):21) [11]Chen F J,Yang S L.A clustering method for Chinese Web doe- WTCDFSSM.该算法的基本特征是:(1)在Web文 ument based on SOM.JChina Soc Sci Tech Inf,2002,21(2): 本挖掘系统结构模型DFSSM所提供的运行机制下 173 具体实现的;(2)在概念空间中给出WTCDFSSM (陈福集,杨善林.一种基于S0M的中文Wb文档层次聚类 文本聚类算法的类别和距离测度的定义;(3)针对 方法.情报学报,2002,21(2):173) [12]Jiang Ning ShiZZ.Bayesian posteriori model selection for text 挖掘形成的聚类模式提供有效的评价指标和评价 clustering.JComput Res Dev.2002.39(5):580 算法 (姜宁,史忠植,文本聚类中的贝叶斯后验模型选择方法·计 结合现代远程教育应用背景,在本文所提供的 算机研究与发展,2002,39(5):580) 测试语料库1及测试语料库2的基础上,对比分析 [13]Jiang N.Gong X J.ShiZ Z.Text clustering in high dimension feature space.Comput Eng Appl.2002.10,63 了WTCDFSSM聚类分析算法及常用的K一平均聚 (姜宁,宫秀军,史忠植。高维特征空间中文本聚类研究。计 类算法、K中心点聚类算法和层次聚类分析算法, 算机工程与应用,2002,10,63) 实验结果表明:构建在概念空间中的文本聚类分析图1 在语料库1中 WTCDFSSM 聚类算法与其他算法聚类结果 比较 Fig.1 Comparison of experimental results between WTCDFSSM and related algorithms in Corpus1 图2 在语料库2中 WTCDFSSM 聚类算法与其他算法聚类结果 比较 Fig.2 Comparison of experimental results between WTCDFSSM and related algorithms in Corpus2 聚为一类.因此‚平均准确率只是从一个方面说明 了 WTCDFSSM 算 法 具 有 良 好 的 聚 类 特 征; WTCDFSSM 算法相比于其他各种聚类算法更重要 的优势为通过自组织特征映射发现文本集内在的主 题特征项. 3 结论 本 文 提 出 并 实 现 了 Web 文 本 聚 类 算 法 WTCDFSSM.该算法的基本特征是:(1) 在 Web 文 本挖掘系统结构模型 DFSSM 所提供的运行机制下 具体实现的;(2) 在概念空间中给出 WTCDFSSM 文本聚类算法的类别和距离测度的定义;(3) 针对 挖掘形成的聚类模式提供有效的评价指标和评价 算法. 结合现代远程教育应用背景‚在本文所提供的 测试语料库1及测试语料库2的基础上‚对比分析 了 WTCDFSSM 聚类分析算法及常用的 K—平均聚 类算法、K—中心点聚类算法和层次聚类分析算法. 实验结果表明:构建在概念空间中的文本聚类分析 算法 WTCDFSSM 的平均准确率比其他三种聚类分 析算法高;WTCDFSSM 得到的集簇具有鲜明的类 别特征‚能够有效地提取聚类集中的主题特征项. 参 考 文 献 [1] Yang B R‚Tang J.The research of discovery feature sub-space model (DFSSM) based on complex type data.Eng Sci‚2003‚5 (1):56 (杨炳儒‚唐菁.基于复杂类型数据的发现特征子空间模型 DFSSM 的研究.中国工程科学‚2003‚5(1):56) [2] Wang J C‚Pan J G‚Zhang F Y.Research on Web text mining. J Comput Res Dev‚2000‚37(5):513 (王继成‚潘金贵‚张福炎.Web 文本挖掘技术研究.计算机研 究与发展‚2000‚37(5):513) [3] Han K S‚Wang Y C.Text mining‚data mining vs.knowledge management:the intelligent information processing in the 21st century.J China Soc Sci Tech Inf‚2001‚20(1):100 (韩客松‚王永成.文本挖掘、数据挖掘和知识管理———二十一 世纪的智能信息处理.情报学报‚2001‚20(1):100) [4] Feldman R‚Dagan I.Knowledge discovery in textual database (KDT)∥ Proceedings of 1st International Conference on Knowl￾edge Discovery and Data Mining‚Canada‚1995:112 [5] Hodge V J‚Austin J.Hierarchical word clustering:automatic thesaurus generation.Neurocomputing‚2002‚48(1):819 [6] Roussinov D‚Zhao J L.Automatic discovery of similarity rela￾tionships through Web mining. Decis Support Syst‚2003‚35 (1):149 [7] Runkler T A‚Bezdek J C.Web mining with relational clustering. Int J App roximate Reason‚2003‚32(2):217 [8] Pullwitt D.Integrating contextual information to enhance SOM￾based text document clustering. Neural Networks‚2002‚15 (8):1099 [9] Wu B‚Fu W P‚Zheng Y‚et al.A clustering algorithm based on swarm intelligence for Web document.J Comput Res Dev‚2002‚ 39(11):1429 (吴斌‚傅伟鹏‚郑毅‚等.一种基于群体智能的 Web 文档聚类 算法.计算机研究与发展‚2002‚39(11):1429) [10] Li G‚Shao F J‚Zhu B H.Research of the clustering algorithm based on neural network.J Qingdao Univ Eng Technol Ed‚ 2001‚16(4):21 (李戈‚邵峰晶‚朱本浩.基于神经网络聚类的研究.青岛大 学学报:工程技术版‚2001‚16(4):21) [11] Chen F J‚Yang S L.A clustering method for Chinese Web doc￾ument based on SOM.J China Soc Sci Tech Inf‚2002‚21(2): 173 (陈福集‚杨善林.一种基于 SOM 的中文 Web 文档层次聚类 方法.情报学报‚2002‚21(2):173) [12] Jiang Ning‚Shi Z Z.Bayesian posteriori model selection for text clustering.J Comput Res Dev‚2002‚39(5):580 (姜宁‚史忠植.文本聚类中的贝叶斯后验模型选择方法.计 算机研究与发展‚2002‚39(5):580) [13] Jiang N‚Gong X J‚Shi Z Z.Text clustering in high-dimension feature space.Comput Eng Appl‚2002‚10:63 (姜宁‚宫秀军‚史忠植.高维特征空间中文本聚类研究.计 算机工程与应用‚2002‚10:63) ·220· 北 京 科 技 大 学 学 报 第30卷
<<向上翻页
©2008-现在 cucdc.com 高等教育资讯网 版权所有