基于非结构化数据挖掘结构模型的 Web 文本聚类算法胡健1）杨炳儒2

正在加载图片...

D0I:10.13374/i.issnl00113.2008.02.022 第30卷第2期北京科技大学学报 Vol.30 No.2 2008年2月 Journal of University of Science and Technology Beijing Feh.2008 基于非结构化数据挖掘结构模型的Web文本聚类算法胡健) 杨炳儒)宋泽锋2)钱榕2) 1)江西理工大学信息工程学院，赣州3410002)北京科技大学信息工程学院，北京100083 摘要在非结构化数据挖掘结构模型一发现特征子空间模型(DSSM)一的运行机制下，提出了一种新的Wb文本聚类算法一基于DFSS M的Wb文本聚类(WTCDFSSM)算法，·该算法具有自稳定性，无须外界给出评价函数：能够识别概念空间中最有意义的特征，抗噪声能力强。结合现代远程教育网应用背景实现了WTCDFSSM聚类算法·结果表明：该算法可以对各类远程教育站点上收集的文本资料信息自动进行聚类挖掘：采用网格结构模型，帮助人们进行文本信息导航：从海量文本信息源中快速有效地获取重要的知识，关键词W山文本挖掘：文本聚类：聚类评价；非结构化数据挖掘结构模型分类号TP393.09 Web text clustering algorithm based on the nonstructural data mining model HU Jian),YANG Bingru2).SONG Zefeng2),QIA N Rong2) 1)School of Information Engineering Jiangxi University of Science and Technology Ganzhou 341000.China 2)School of Information Engineering.University of Science and Technology Beijing.Beijing 100083.China ABSTRACI Under the background of the nonstructural data mining model.a Web text clustering mining algorithm based on the discovery feature sub-space mode(DFSSM).WTCDFSS M algorithm,was proposed,which can distinguish the most meaningful fea- tures from the concept space without any evaluation function.The WTCDFSS M algorithm was applied in the modern long"distance e- ducation net.The result shows that it can automatically congregate the text information of education field,which is collected from ed- ucation sites on Internet,help people to browse the important information quickly by information navigation mechanism and acquire useful knowledge. KEY WORDS Web text mining:text clustering:clustering evaluation:non"structured data mining structure model 随着网络技术的飞速发展，Internet正以令人文本聚类分析在文本挖掘研究中占有重要的位难以相信的速度在飞速发展，越来越多的机构、团体置，它和文本分类是相辅相成的，聚类分析依据的和个人在Internet上发布信息、查找信息，虽然In 原则是使同一类中的对象具有尽可能大的相似性， ternet上有海量数据，但Web文档是无结构的、动态而不同类中的对象具有尽可能大的差异性] 的，并且Wb页面的复杂程度远远超过了文本文目前，常用的文本聚类分析方法主要有层次聚档，人们想要找到自己需要的数据犹如大海捞针一类分析方法、平面划分聚类分析方法（如K一平均聚般。目前网上虽然有很多的搜索工具可以利用，但类算法和K中心点聚类算法)、基于模型的聚类分是其查全率和查准率都差强人意，而且它们不能针析方法（如神经网络算法和统计学算法）等)，被对特定的用户给出特定的服务，解决这个问题的途广泛地使用在商业智能、知识管理及CRM等实用径之一就是采用高效、灵活的Wb文本聚类分析系统中，同时，它们也能用来解决智能检索系统目算法前存在的“信息过载”问题，过滤检索获得的大量文本信息中的“噪声”，提高信息的含金量和准确度，收稿日期.2006-10-29修回日期.2006-12-16 本文通过分析以上各类算法的优缺点，提出了基金项目：国家自然科学基金重点资助项目(N。·69835001):教育一种基于发现特征子空间模型(DFSSM)山的具有部科技重点资助项目（教技司[2000]175）：北京市自然科学基金资助项目(Na.4022008) 自稳定性的Wb文本聚类(WTCDFSSM)算法，它作者简介：胡健(1967一)，男，副教授.博士主要在Hilbert子空间一概念空间一的范畴，定基于非结构化数据挖掘结构模型的 Web 文本聚类算法胡健1）杨炳儒2）宋泽锋2）钱榕2） 1）江西理工大学信息工程学院赣州341000 2）北京科技大学信息工程学院北京100083 摘要在非结构化数据挖掘结构模型———发现特征子空间模型（DFSSM）———的运行机制下提出了一种新的 Web 文本聚类算法———基于 DFSSM 的 Web 文本聚类（WTCDFSSM）算法．该算法具有自稳定性无须外界给出评价函数；能够识别概念空间中最有意义的特征抗噪声能力强．结合现代远程教育网应用背景实现了 WTCDFSSM 聚类算法．结果表明：该算法可以对各类远程教育站点上收集的文本资料信息自动进行聚类挖掘；采用网格结构模型帮助人们进行文本信息导航；从海量文本信息源中快速有效地获取重要的知识．关键词 Web 文本挖掘；文本聚类；聚类评价；非结构化数据挖掘结构模型分类号 TP393∙09 Web text clustering algorithm based on the nonstructural data mining model HU Jian 1）Y A NG Bingru 2）SONG Zefeng 2）QIA N Rong 2） 1） School of Information EngineeringJiangxi University of Science and TechnologyGanzhou341000China 2） School of Information EngineeringUniversity of Science and Technology BeijingBeijing100083China ABSTRACT Under the background of the nonstructural data mining modela Web text clustering mining algorithm based on the discovery feature sub-space model （DFSSM）WTCDFSSM algorithmwas proposedwhich can distinguish the most meaningful features from the concept space without any evaluation function．T he WTCDFSSM algorithm was applied in the modern long-distance education net．T he result shows that it can automatically congregate the text information of education fieldwhich is collected from education sites on Internethelp people to browse the important information quickly by information navigation mechanism and acquire useful knowledge． KEY WORDS Web text mining；text clustering；clustering evaluation；non-structured data mining structure model 收稿日期：2006-10-29 修回日期：2006-12-16 基金项目：国家自然科学基金重点资助项目（No．69835001）；教育部科技重点资助项目（教技司［2000］175）；北京市自然科学基金资助项目（No．4022008）作者简介：胡健（1967—）男副教授博士随着网络技术的飞速发展Internet 正以令人难以相信的速度在飞速发展越来越多的机构、团体和个人在 Internet 上发布信息、查找信息．虽然 Internet 上有海量数据但 Web 文档是无结构的、动态的并且 Web 页面的复杂程度远远超过了文本文档人们想要找到自己需要的数据犹如大海捞针一般．目前网上虽然有很多的搜索工具可以利用但是其查全率和查准率都差强人意而且它们不能针对特定的用户给出特定的服务．解决这个问题的途径之一就是采用高效、灵活的 Web 文本聚类分析算法．文本聚类分析在文本挖掘研究中占有重要的位置它和文本分类是相辅相成的．聚类分析依据的原则是使同一类中的对象具有尽可能大的相似性而不同类中的对象具有尽可能大的差异性［1—3］．目前常用的文本聚类分析方法主要有层次聚类分析方法、平面划分聚类分析方法（如 K—平均聚类算法和 K—中心点聚类算法）、基于模型的聚类分析方法（如神经网络算法和统计学算法）等［4—9］被广泛地使用在商业智能、知识管理及 CRM 等实用系统中．同时它们也能用来解决智能检索系统目前存在的“信息过载”问题过滤检索获得的大量文本信息中的“噪声”提高信息的含金量和准确度．本文通过分析以上各类算法的优缺点提出了一种基于发现特征子空间模型（DFSSM）［1］的具有自稳定性的 Web 文本聚类（WTCDFSSM）算法．它主要在 Hilbert 子空间———概念空间———的范畴定第30卷第2期 2008年 2月北京科技大学学报 Journal of University of Science and Technology Beijing Vol．30No．2 Feb．2008 DOI:10．13374／j．issn1001－053x．2008．02．022

向下翻页>>

点击下载：基于非结构化数据挖掘结构模型的Web文本聚类算法