正在加载图片...
第7卷第5期 智能系统学报 Vol.7 No.5 2012年10月 CAAI Transactions on Intelligent Systems 0ct.2012 D0I:10.3969/i.issn.16734785.201205045 网络出版t地址:htp://www.cnki.net/kcma/detail/23.1538.TP.20120917.1632.001.html 基于词共现图的中文微博新闻话题识别 赵文清,侯小可 (华北电力大学控制与计算机工程学院,河北保定071003) 摘要:针对传统的话题检测算法主要适用于新闻网页和博客等长文本信息,而不能有效处理具有稀疏性的微博数 据,给出一种基于词共现图的方法来识别微博中的新闻话题.该方法首先在微博数据预处理之后,综合相对词频和 词频增加率2个因素抽取微博数据中的主题词.然后根据主题词间的共现度构建词共现图,把词共现图中每个不连 通的簇集看成一个新闻话题,并使用每个簇集中包含信息量较大的几个主题词来表示微博新闻话题.最后在微博数 据集上进行实验,实现了对微博中新闻话题的识别,验证了该方法的有效性, 关键词:微博:新闻话题:新闻话题识别:主题词:词共现图 中图分类号:TP391.1文献标志码:A文章编号:16734785(2012)05044406 News topic recognition of Chinese microblog based on word co-occurrence graph ZHAO Wenqing,HOU Xiaoke (School of Control and Computer Engineering,North China Electric Power University,Baoding 071003,China) Abstract:The traditional topic detection algorithm is applied to longer texts such as:news website pages or blogs, causing it to be hard to deal with sparse microblog data effectively.In this paper,a method based on the word co- occurrence graph was provided to detect news topics of microblogs.Firstly,the relative word frequency and the word frequency increase rate were considered to extract new keywords from microblog text after pretreatment.Sec- ondly,a word co-occurrence graph was built by co-occurrence degrees of keywords;each unconnected cluster in a word co-occurrence graph was taken as a news topic by calculating several keywords.These keywords contain much more information in each cluster,was used to represent a news topic of microblog.Finally,data analysis provided evidence on how the approach is most effective and also revealed the microblog data set recognized news topic rec- ognition. Keywords:microblog;news topics;topic recognition;keywords;word co-occurrence graph 随着微博的飞速发展,微博作为一种通过关注对事件监测、民意调查、行业调研等都有重要作用 机制分享简短实时信息的广播式的社交网络平台, 传统的针对普通网络信息(如新闻网页和博客 吸引了越来越多的网民参与.微博改变了人们获取 等长文本信息)新闻话题识别的研究较早且相对成 信息的方式,是一种能够观察和了解中国正在发生 熟121.一般将长文本中的词视为特征,首先利用特 什么的实时民意调查系统.中国微博由一种单纯的 征向量来表示文本,并采用T℉DF方法度量向量每 社交工具,变成奥论监督的利器,参与并且影响着整 一维(即每个特征)的权重;然后采用一定的聚类方 个世界.因此从海量微博数据中检测出当前热点新 法,将叙述相同或相似新闻话题的长文本聚类到同 闻话题,并对新闻话题进行情感分析,及时把握人们 一类中).但对于微博来说,其文本长度短、信息量 普遍关心的问题以及人们对热点新闻话题的看法, 少,特征关键词不足以表示文本.而现有的文本聚类 收稿日期:20120526.网络出版日期:201209-17. 算法都是基于向量空间模型,利用词向量表示文本 基金项目:国家自然科学基金资助项目(70671039):中央高校基本科 研业务费专项资金资助项目(12MS121). 特征,文本相似度量依赖于2个文本中词语重叠的 通信作者:侯小可.E-mail:houiake2008@163.com 数量.当2个文本较长时,其重叠的词语可能足够描
向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有