正在加载图片...
D0I:10.13374/i.issnl00113.2008.02.022 第30卷第2期 北京科技大学学报 Vol.30 No.2 2008年2月 Journal of University of Science and Technology Beijing Feh.2008 基于非结构化数据挖掘结构模型的Web文本聚类算法 胡健) 杨炳儒)宋泽锋2)钱榕2) 1)江西理工大学信息工程学院,赣州3410002)北京科技大学信息工程学院,北京100083 摘要在非结构化数据挖掘结构模型一发现特征子空间模型(DSSM)一的运行机制下,提出了一种新的Wb文本聚 类算法一基于DFSS M的Wb文本聚类(WTCDFSSM)算法,·该算法具有自稳定性,无须外界给出评价函数:能够识别概念 空间中最有意义的特征,抗噪声能力强。结合现代远程教育网应用背景实现了WTCDFSSM聚类算法·结果表明:该算法可以 对各类远程教育站点上收集的文本资料信息自动进行聚类挖掘:采用网格结构模型,帮助人们进行文本信息导航:从海量文 本信息源中快速有效地获取重要的知识, 关键词W山文本挖掘:文本聚类:聚类评价;非结构化数据挖掘结构模型 分类号TP393.09 Web text clustering algorithm based on the nonstructural data mining model HU Jian),YANG Bingru2).SONG Zefeng2),QIA N Rong2) 1)School of Information Engineering Jiangxi University of Science and Technology Ganzhou 341000.China 2)School of Information Engineering.University of Science and Technology Beijing.Beijing 100083.China ABSTRACI Under the background of the nonstructural data mining model.a Web text clustering mining algorithm based on the discovery feature sub-space mode(DFSSM).WTCDFSS M algorithm,was proposed,which can distinguish the most meaningful fea- tures from the concept space without any evaluation function.The WTCDFSS M algorithm was applied in the modern long"distance e- ducation net.The result shows that it can automatically congregate the text information of education field,which is collected from ed- ucation sites on Internet,help people to browse the important information quickly by information navigation mechanism and acquire useful knowledge. KEY WORDS Web text mining:text clustering:clustering evaluation:non"structured data mining structure model 随着网络技术的飞速发展,Internet正以令人 文本聚类分析在文本挖掘研究中占有重要的位 难以相信的速度在飞速发展,越来越多的机构、团体 置,它和文本分类是相辅相成的,聚类分析依据的 和个人在Internet上发布信息、查找信息,虽然In 原则是使同一类中的对象具有尽可能大的相似性, ternet上有海量数据,但Web文档是无结构的、动态 而不同类中的对象具有尽可能大的差异性] 的,并且Wb页面的复杂程度远远超过了文本文 目前,常用的文本聚类分析方法主要有层次聚 档,人们想要找到自己需要的数据犹如大海捞针一 类分析方法、平面划分聚类分析方法(如K一平均聚 般。目前网上虽然有很多的搜索工具可以利用,但 类算法和K中心点聚类算法)、基于模型的聚类分 是其查全率和查准率都差强人意,而且它们不能针 析方法(如神经网络算法和统计学算法)等),被 对特定的用户给出特定的服务,解决这个问题的途 广泛地使用在商业智能、知识管理及CRM等实用 径之一就是采用高效、灵活的Wb文本聚类分析 系统中,同时,它们也能用来解决智能检索系统目 算法 前存在的“信息过载”问题,过滤检索获得的大量文 本信息中的“噪声”,提高信息的含金量和准确度, 收稿日期.2006-10-29修回日期.2006-12-16 本文通过分析以上各类算法的优缺点,提出了 基金项目:国家自然科学基金重点资助项目(N。·69835001):教育 一种基于发现特征子空间模型(DFSSM)山的具有 部科技重点资助项目(教技司[2000]175):北京市自然科学基金资助 项目(Na.4022008) 自稳定性的Wb文本聚类(WTCDFSSM)算法,它 作者简介:胡健(1967一),男,副教授.博士 主要在Hilbert子空间一概念空间一的范畴,定基于非结构化数据挖掘结构模型的 Web 文本聚类算法 胡 健1) 杨炳儒2) 宋泽锋2) 钱 榕2) 1) 江西理工大学信息工程学院‚赣州341000 2) 北京科技大学信息工程学院‚北京100083 摘 要 在非结构化数据挖掘结构模型———发现特征子空间模型(DFSSM)———的运行机制下‚提出了一种新的 Web 文本聚 类算法———基于 DFSSM 的 Web 文本聚类(WTCDFSSM)算法.该算法具有自稳定性‚无须外界给出评价函数;能够识别概念 空间中最有意义的特征‚抗噪声能力强.结合现代远程教育网应用背景实现了 WTCDFSSM 聚类算法.结果表明:该算法可以 对各类远程教育站点上收集的文本资料信息自动进行聚类挖掘;采用网格结构模型‚帮助人们进行文本信息导航;从海量文 本信息源中快速有效地获取重要的知识. 关键词 Web 文本挖掘;文本聚类;聚类评价;非结构化数据挖掘结构模型 分类号 TP393∙09 Web text clustering algorithm based on the nonstructural data mining model HU Jian 1)‚Y A NG Bingru 2)‚SONG Zefeng 2)‚QIA N Rong 2) 1) School of Information Engineering‚Jiangxi University of Science and Technology‚Ganzhou341000‚China 2) School of Information Engineering‚University of Science and Technology Beijing‚Beijing100083‚China ABSTRACT Under the background of the nonstructural data mining model‚a Web text clustering mining algorithm based on the discovery feature sub-space model (DFSSM)‚WTCDFSSM algorithm‚was proposed‚which can distinguish the most meaningful fea￾tures from the concept space without any evaluation function.T he WTCDFSSM algorithm was applied in the modern long-distance e￾ducation net.T he result shows that it can automatically congregate the text information of education field‚which is collected from ed￾ucation sites on Internet‚help people to browse the important information quickly by information navigation mechanism and acquire useful knowledge. KEY WORDS Web text mining;text clustering;clustering evaluation;non-structured data mining structure model 收稿日期:2006-10-29 修回日期:2006-12-16 基金项目:国家自然科学基金重点资助项目(No.69835001);教育 部科技重点资助项目(教技司[2000]175);北京市自然科学基金资助 项目(No.4022008) 作者简介:胡 健(1967—)‚男‚副教授‚博士 随着网络技术的飞速发展‚Internet 正以令人 难以相信的速度在飞速发展‚越来越多的机构、团体 和个人在 Internet 上发布信息、查找信息.虽然 In￾ternet 上有海量数据‚但 Web 文档是无结构的、动态 的‚并且 Web 页面的复杂程度远远超过了文本文 档‚人们想要找到自己需要的数据犹如大海捞针一 般.目前网上虽然有很多的搜索工具可以利用‚但 是其查全率和查准率都差强人意‚而且它们不能针 对特定的用户给出特定的服务.解决这个问题的途 径之一就是采用高效、灵活的 Web 文本聚类分析 算法. 文本聚类分析在文本挖掘研究中占有重要的位 置‚它和文本分类是相辅相成的.聚类分析依据的 原则是使同一类中的对象具有尽可能大的相似性‚ 而不同类中的对象具有尽可能大的差异性[1—3]. 目前‚常用的文本聚类分析方法主要有层次聚 类分析方法、平面划分聚类分析方法(如 K—平均聚 类算法和 K—中心点聚类算法)、基于模型的聚类分 析方法(如神经网络算法和统计学算法)等[4—9]‚被 广泛地使用在商业智能、知识管理及 CRM 等实用 系统中.同时‚它们也能用来解决智能检索系统目 前存在的“信息过载”问题‚过滤检索获得的大量文 本信息中的“噪声”‚提高信息的含金量和准确度. 本文通过分析以上各类算法的优缺点‚提出了 一种基于发现特征子空间模型(DFSSM) [1] 的具有 自稳定性的 Web 文本聚类(WTCDFSSM)算法.它 主要在 Hilbert 子空间———概念空间———的范畴‚定 第30卷 第2期 2008年 2月 北 京 科 技 大 学 学 报 Journal of University of Science and Technology Beijing Vol.30No.2 Feb.2008 DOI:10.13374/j.issn1001-053x.2008.02.022
向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有