正在加载图片...
448 智能系统学报 第7卷 主题词的参数a取1.0,B取1.2,从而得到满足合 表22012年2月1日当天热点话题表示 适阈值的主题词表;然后采用1.4节的基于词共现 Table 2 Keywords represent news topics on February 1,2012 图识别新闻话题的步骤来完成新闻话题识别,这其 编号 热点话题表示 中需要用到式(2)~(3)来计算主题词之间的共现 1 吴英、死刑、集资、判决、民间 度.本文列出了部分主题词间的共现度,如表1 2 香港、内地、孕妇、旅客、广告 所示 3 城管、小贩、执法、南京、围观 表1部分词共现度 Table 1 Some keywords co-occurrence degrees 4 改革、腐败、政府、官员、体制 共现词 共现度 共现词 共现度 3 结束语 香港内地 0.34322 民间融资 0.56713 内地孕妇 0.21513 微博热点新闻话题的识别研究有着重要的应用 金融垄断 0.49409 背景,本文在分析了一些短文本热点话题发现研究 吴英集资 0.45510 经济犯罪 0.24476 的基础上,结合微博数据本身的特点提出了一种基 吴英死刑 0.42298 方舟子韩寒 0.68302 于词共现图的微博新闻话题识别的方法.该方法通 集资非法 0.56146 行为违法 0.47788 过预处理、抽取主题词、构建词共现图等步骤来识别 死刑判决 0.34972 城管执法 0.33639 微博中的新闻话题,实验结果证明了提出的方法是 有效的,而且该方法简单,易于实现。同时,在接下来 对共现度足够大的主题词结点之间连边,并把 的工作中将进一步对词共现图的微博话题识别的方 孤立点(也就是没有连边的点)去除之后得到词共 法进行优化和提高,在此基础上开始对微博中的热 现图,如图5所示. 点新闻话题进行情感分析的研究, 参考文献: 眼神 [1]MORI M,MIURA T,SHIOYA I.Topic detection and tracking for news web pages[C]//Proceedings of the 2006 ACM International Conference on Web Intelligence.Wash- 及隔人民法 ington,DC,USA,2006:338-342. [2]ALLAN J,CARBONELL J,DODDINGTON G,et al.Topic detection and tracking pilot study:final report[C]//Pro- ceedings of the DARPA Broadcast News Transcription and Understanding Workshop.San Francisco,USA:Morgan Kaufmann Publisher Inc,1998:194-218. [3]路荣,项亮,刘明荣,等。基于隐主题分析和文本聚类的 微博客新闻话题发现[J].模式识别与人工智能,2012, 25(3):382-387. 图5主题词共现图 LU Rong,XIANG Liang,LIU Mingrong,et al.Discovering Fig.5 Keywords co-occurrence graph news topics from microblogs based on hidden topics analysis and text clustering[J].Pattern Recognition and Artificial 通过图5可以发现词共现图中包括多个簇,也 Intelligence,2012,25(3):382-387. 就意味着当前时间窗口中包括多个热点话题,当然 [4]LIU Zitao,YU Wenchao,CHEN Wei,et al.Short text fea- 最大的热点新闻话题也就是包含节点最多的簇,通 ture selection for microblog mining[C]//The 4th Interna- tional Conference on Computational Intelligence and Software 过式(4)可以得到每个簇中信息量最大的K个主题 Engineering.Wuhan,China,2010:14. 词用来表示新闻话题,本文K取5.表2显示了实验 [5]金春霞,周海岩.动态向量的中文短文本聚类[J].计算 中201202-01当天的热点话题.通过实验可以发 机工程与应用,2011,47(33):156-158. 现,其中“吴英案”是当天最大的热点话题,实验结 JIN Chunxia,ZHOU Haiyan.Chinese short text clustering 果表明本文提出的基于词共现图的划分识别微博新 based on dynamic[J].Computer Engineering and Applica- 闻话题的方法是有效的, ions,2011,47(33):156-158
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有