正在加载图片...
·126 智能系统学报 第5卷 基于命名实体的话题检测方法检测准确率提高了6 [4]KUMARAN G,ALLAN J.Text classification and named 个百分点,召回率提高了6个百分点,主要原因在于 entities for new event detection C]//Proceedings of the 文献[3]在话题向量表示中仅采用命名实体,忽略 27th Annual International ACM SIGIR Conference on Re- 了命名实体之外的关键词对文本表达的作用,而新 search and Development in Information Retrieval.Sheffield 2004:297-304。 方法将命名实体和关键词结合起来构造话题向量, [5]YIU M C.K-means:a new generalized K-means clustering 并且根据实际情况,针对命名实体与关键词对文本 algorithm[J].Patter Recognition Letters,2003(24): 的贡献程度不同分别赋予不同的权重,使得在文档 2883-2893. 向量表示上对话题描述更充分、全面而准确,因此可 [6]SUNDHEIM B M.Named entity task definition[C]//Proc 以很好地区分相似话题.新方法与基于增量聚类及 of the Sixth Message Understanding Conf.Columbia,Mary- K-means聚类话题检测方法相比较,无论是从检测 land,1995:319-332. 准确率、召回率都有一定提高,并且本文在K值选 [7]DING C,HE Xiaofeng.Cluster merging and splitting in hi- 取上实现了动态自收敛.与传统方法相比较,本文方 erarchical clustering algorithms[C]//Proceedings of the 法无论是从检测性能,还是检测开销上都优于传统 2002 IEEE International Conference on Data Mining.Mae- 方法,是一种高性能且实用的网络话题检测方法. bashi City,Japan,2002:139-146. [8]DING C,HE X,ZHA H,et al.A min-max cut algorithm 5结束语 for graph partitioning and data clustering[C]//Proceedings of the IEEE Interationl Conference.San Jose,Califoria, 本文在传统网络话题检测的基础上做了改进: USA,2001:107-114. 一是在话题特征表示上,将命名实体及关键词进行 [9]骆卫华,于满泉。基于多策略优化的分治多层聚类算法 分别处理,赋予不同的权重来构造话题向量,丰富了 的话题发现研究[J].中文信息学报,2006,20(1):29- 词对文档的表达,使得机器处理更能贴近人的理解; 36. 二是利用自相似度对K-means聚类中的K值进行自 LUO Weihua,YU Manquan.The study of topic detection 收敛,解决了K-means聚类中的问题,从而实现了利 based on algorithm of division and multi-level clustering with 用K-means聚类对网络话题的动态检测. multi-strategy[J].Journal Chinese Information Processing, 2006,20(1):29-36. 参考文献: 作者简介: 刘素芹,女,1968年生,副教授,博 [1]ALLAN J,CARBONELL J,DODDINGTON G.Topic de- 士,主要研究方向为计算机网络、高性 tection and tracking pilot study:final report[C]//Proceed- 能计算,近3年发表学术论文20余篇, ing of the DARPA Broadcast News Transcription and Under- 编写教材2部. standing Workshop.San Francisco,1998:194-218. [2]洪宇,张宇,刘挺.话题检测与跟踪的评测及研 究综述[J].中文信息学报,2007,21(6):71-87. HONG Yu,ZHANG Yu,LIU Ting.Topic detection and 柴松,男,1981年生,主要研究方 tracking review[J].Joumal Chinese Information Processing, 向为计算机网络、高性能计算及应用。 2007,21(6):71-87. [3]YAMRON J P,KNECHT S,Van MULBREGT P.Dragon's tracking and detection systems for the TDT2000 evaluation [C]//Proceedings of Topic Detection and Tracking Work- shop.Washington,USA,2000:75-80
<<向上翻页
©2008-现在 cucdc.com 高等教育资讯网 版权所有