正在加载图片...
第4卷第2期 智能系统学报 Vol 4 Ng 2 2009年4月 CAA I Transactions on Intelligent System s Apr 2009 容错粗糙模型的事件检测研究 毋非,封化民2,申晓晔 (1西安电子科技大学通信工程学院,陕西西安710071,2北京电子科技学院多媒体智能处理实验室,北京 100070) 摘要:对网站发布的Wb新闻内容进行必要的、合理的监督管理,是保障网络信息内容安全的重要研究内容.将现 有的文本表示模型应用于Wb新闻会导致文本表示的稀疏性问题和话题跟踪过程中的主题词漂移问题,一种基于 容错粗糙集的文本表示模型解决了这些问题.在理论分析和实验验证的基础上,结合向量空间模型(VSM),利用特 征项在文档集中协同出现,构造了特征项的容错粗糙集.然后用特征项容错粗糙集生成文档的容错粗糙模型,来扩 充原先的文档表示模型.最后用特征项容错类描述文档之间的相似性关系,实现事件检测过程.实验结果证明,容错 粗糙模型能够改进事件检测系统的性能, 关键词:事件检测,粗糙集;容错粗糙模型 中图分类号:TP391文献标识码:A文章编号:1673-4785(2009)02-011206 Research on event detection based on the tolerance rough set model WU Fei,FENG Huam in'2,SHEN Xiao-ye' (1.School of Telecommunicaton Engineering,Xidian University,Xi'an 710071,China;2 Multmedia Intelligent Infomation Pro- cessing Laberatory,Beijing Electronic Science and Technology Institution,Beijing 100070,China) Abstract:Proper monitoring of the content of web news is crucial to the maintenance of network content security. Current text representational models are not suitable for web news because of the sparseness of text representation and the drifting of key words in event tracking processes To solve these problems,a modeling method for text rep- resentation based on tolerance rough sets was used to extend text rep resentation Follwing theoretical analysis and expermental verification,we constructed a olerance rough set for feature tems by considering the vector space model (VS)and the co-occurrences of feature tems in test sets Then the tolerance rough setmodel of tests was generated using the tolerance rough set for feature tems,which extended the original text representation model Fi- nally,the sm ilarities of texts were described by the feature tem's tolerance classes Expermental results showed that the tolerance rough setmodel mproved the perfomance of event detection systems Keywords:event detection;rough set tolerance rough setmodel 随着网络技术的迅速发展,越来越多的人选择线和广播新闻等为来源的数据流中自动发现话题」 通过网络渠道来表达自己的想法.互联网逐渐成为 并把话题相关的内容联系在一起口.事件检测和事 舆情产生和传播的重要场所,网络舆情在当前的社 件跟踪是DT的2个重要子任务.从本质上看,两 会生活中扮演着重要角色.对网络舆情的监控、分析 者都是将新闻报道流进行聚类。 和管理成为各级政府部门亟待解决的问题.话题检 现有的系统在事件检测方面大都采用了以下步 测与跟踪(topic detection and tracking,TDT)技术作 骤:1)建立报道和事件的文本表示模型;2)采用某 为舆情分析的重要技术手段,已成为近几年信息检 种算法计算报道与事件,或者是报道与报道之间的 索领域的热点研究课题.其主要任务是在以新闻专 相似度,确定与当前报道最相似的事件,3)若报道 被归入某事件,则调整该事件的表示模型,若报道没 收稿日期:2008-12-16 有归到现有的任何事件,则认为它是新检测到的事 通信作者:毋非.Emaik wufo@besti cn 件,4)输出检测到的事件中权重最高的几个特征 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved http://www.cnki.net© 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net 第 4卷第 2期 智 能 系 统 学 报 Vol. 4 №. 2 2009年 4月 CAA I Transactions on Intelligent System s Ap r. 2009 容错粗糙模型的事件检测研究 毋 非 1 ,封化民 1, 2 ,申晓晔 1 (1. 西安电子科技大学 通信工程学院 ,陕西 西安 710071; 2. 北京电子科技学院 多媒体智能处理实验室 ,北京 100070) 摘 要 :对网站发布的 W eb新闻内容进行必要的、合理的监督管理 ,是保障网络信息内容安全的重要研究内容. 将现 有的文本表示模型应用于 W eb新闻会导致文本表示的稀疏性问题和话题跟踪过程中的主题词漂移问题 ,一种基于 容错粗糙集的文本表示模型解决了这些问题. 在理论分析和实验验证的基础上 ,结合向量空间模型 (VSM ) ,利用特 征项在文档集中协同出现 ,构造了特征项的容错粗糙集. 然后用特征项容错粗糙集生成文档的容错粗糙模型 ,来扩 充原先的文档表示模型. 最后用特征项容错类描述文档之间的相似性关系 ,实现事件检测过程. 实验结果证明 ,容错 粗糙模型能够改进事件检测系统的性能. 关键词 :事件检测 ;粗糙集 ;容错粗糙模型 中图分类号 : TP391 文献标识码 : A 文章编号 : 167324785 (2009) 0220112206 Research on event detection based on the tolerance rough set model WU Fei 1 , FENG Hua2m in 1, 2 , SHEN Xiao2ye 1 (1. School of Telecommunication Engineering, Xidian University, Xi’an 710071, China; 2. Multimedia Intelligent Information Pro2 cessing Laberatory,Beijing Electronic Science and Technology Institution, Beijing 100070, China) Abstract:Proper monitoring of the content of web news is crucial to the maintenance of network content security. Current text rep resentational models are not suitable for web news because of the sparseness of text rep resentation and the drifting of key words in event tracking p rocesses. To solve these p roblem s, a modeling method for text rep2 resentation based on tolerance rough sets was used to extend text rep resentation. Following theoretical analysis and experimental verification, we constructed a tolerance rough set for feature term s by considering the vector space model (VSM) and the co2occurrences of feature term s in test sets. Then the tolerance rough setmodel of testswas generated using the tolerance rough set for feature term s, which extended the original text rep resentation model. Fi2 nally, the sim ilarities of texts were described by the feature term’s tolerance classes. Experimental results showed that the tolerance rough set model imp roved the performance of event detection system s. Keywords: event detection; rough set; tolerance rough set model 收稿日期 : 2008212216. 通信作者 :毋 非. E2mail: wuf@besti. cn. 随着网络技术的迅速发展 ,越来越多的人选择 通过网络渠道来表达自己的想法. 互联网逐渐成为 舆情产生和传播的重要场所 ,网络舆情在当前的社 会生活中扮演着重要角色. 对网络舆情的监控、分析 和管理成为各级政府部门亟待解决的问题. 话题检 测与跟踪 ( top ic detection and tracking, TDT)技术作 为舆情分析的重要技术手段 ,已成为近几年信息检 索领域的热点研究课题. 其主要任务是在以新闻专 线和广播新闻等为来源的数据流中自动发现话题 , 并把话题相关的内容联系在一起 [ 1 ] . 事件检测和事 件跟踪是 TDT的 2个重要子任务. 从本质上看 ,两 者都是将新闻报道流进行聚类. 现有的系统在事件检测方面大都采用了以下步 骤 : 1)建立报道和事件的文本表示模型 ; 2)采用某 种算法计算报道与事件 ,或者是报道与报道之间的 相似度 ,确定与当前报道最相似的事件 ; 3)若报道 被归入某事件 ,则调整该事件的表示模型 ,若报道没 有归到现有的任何事件 ,则认为它是新检测到的事 件 ; 4)输出检测到的事件中权重最高的几个特征
向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有