第7卷第5期 智能系统学报 Vol.7 No.5 2012年10月 CAAI Transactions on Intelligent Systems 0ct.2012 D0I:10.3969/i.issn.16734785.201205045 网络出版t地址:htp://www.cnki.net/kcma/detail/23.1538.TP.20120917.1632.001.html 基于词共现图的中文微博新闻话题识别 赵文清,侯小可 (华北电力大学控制与计算机工程学院,河北保定071003) 摘要:针对传统的话题检测算法主要适用于新闻网页和博客等长文本信息,而不能有效处理具有稀疏性的微博数 据,给出一种基于词共现图的方法来识别微博中的新闻话题.该方法首先在微博数据预处理之后,综合相对词频和 词频增加率2个因素抽取微博数据中的主题词.然后根据主题词间的共现度构建词共现图,把词共现图中每个不连 通的簇集看成一个新闻话题,并使用每个簇集中包含信息量较大的几个主题词来表示微博新闻话题.最后在微博数 据集上进行实验,实现了对微博中新闻话题的识别,验证了该方法的有效性, 关键词:微博:新闻话题:新闻话题识别:主题词:词共现图 中图分类号:TP391.1文献标志码:A文章编号:16734785(2012)05044406 News topic recognition of Chinese microblog based on word co-occurrence graph ZHAO Wenqing,HOU Xiaoke (School of Control and Computer Engineering,North China Electric Power University,Baoding 071003,China) Abstract:The traditional topic detection algorithm is applied to longer texts such as:news website pages or blogs, causing it to be hard to deal with sparse microblog data effectively.In this paper,a method based on the word co- occurrence graph was provided to detect news topics of microblogs.Firstly,the relative word frequency and the word frequency increase rate were considered to extract new keywords from microblog text after pretreatment.Sec- ondly,a word co-occurrence graph was built by co-occurrence degrees of keywords;each unconnected cluster in a word co-occurrence graph was taken as a news topic by calculating several keywords.These keywords contain much more information in each cluster,was used to represent a news topic of microblog.Finally,data analysis provided evidence on how the approach is most effective and also revealed the microblog data set recognized news topic rec- ognition. Keywords:microblog;news topics;topic recognition;keywords;word co-occurrence graph 随着微博的飞速发展,微博作为一种通过关注对事件监测、民意调查、行业调研等都有重要作用 机制分享简短实时信息的广播式的社交网络平台, 传统的针对普通网络信息(如新闻网页和博客 吸引了越来越多的网民参与.微博改变了人们获取 等长文本信息)新闻话题识别的研究较早且相对成 信息的方式,是一种能够观察和了解中国正在发生 熟121.一般将长文本中的词视为特征,首先利用特 什么的实时民意调查系统.中国微博由一种单纯的 征向量来表示文本,并采用T℉DF方法度量向量每 社交工具,变成奥论监督的利器,参与并且影响着整 一维(即每个特征)的权重;然后采用一定的聚类方 个世界.因此从海量微博数据中检测出当前热点新 法,将叙述相同或相似新闻话题的长文本聚类到同 闻话题,并对新闻话题进行情感分析,及时把握人们 一类中).但对于微博来说,其文本长度短、信息量 普遍关心的问题以及人们对热点新闻话题的看法, 少,特征关键词不足以表示文本.而现有的文本聚类 收稿日期:20120526.网络出版日期:201209-17. 算法都是基于向量空间模型,利用词向量表示文本 基金项目:国家自然科学基金资助项目(70671039):中央高校基本科 研业务费专项资金资助项目(12MS121). 特征,文本相似度量依赖于2个文本中词语重叠的 通信作者:侯小可.E-mail:houiake2008@163.com 数量.当2个文本较长时,其重叠的词语可能足够描
第5期 赵文清,等:基于词共现图的中文微博新闻话题识别 .445 述文本的内容;但是当文本比较短时,文本间匹配的 理与信息检索共享平台公开共享的NLPIR微博内 词数减少即相关词集规模较小,不足以准确描述文 容语料库[8](23万条数据)作为本文的实验数据,该 本内容,使得相似度发生漂移,大大地影响短文本聚 语料库是由张华平博士从新浪和腾讯两大主流微博 类效果。 中公开采集并抽取而获得. 针对微博数据的稀疏性问题研究者们做了很多 1.2文本的预处理及词频统计 方法的尝试.路荣等利用LDA模型对微博数据集进 在进行主题词抽取之前,需要对微博数据进行 行隐主题建模,进而通过隐主题模型计算文本之间 预处理,预处理主要包括文本分词、词性过滤、停用 的相似度,处理微博数据稀疏的特点3).LDA模型 词过滤等,本文把停用词过滤放在词频统计之后,过 的缺点是它的计算量很大,这是因为需要模拟 滤掉词频很高但作用很小的词语.预处理完之后便 Dirichlet process对主题反复抽样,导致速度较慢. 可对得到的文本数据抽取主题词.预处理的过程如 Liu等提出基于part of-speech和HowNet来扩展单 图1所示. 词的语义特征,进而改进分类和聚类效果.金春 分词 词性过滤 词频统计 霞等针对短文本相似度漂移问题,提出了一种基于 HowNet扩充相关词集来构建动态文本向量的方法, 利用动态向量计算中文短文本的内容相似度,进而 主题词抽取 停用词过滤 发现短文本之间的内在关联,从而缓解特征词词频 图1预处理过程 过低、存在变形词以及新词对聚类的影响,实验表明 Fig.1 Preprocessing process 该算法的聚类效果较好5].郑斐然为了提取出新闻 本文的实验数据已经剔除了大量的冗余数据, 主题词综合考虑短文本中的词频和增长速度而构造 可以直接进行分词.本文采用中科院张华平等开发 复合权值,用以量化词语是新闻词汇的程度,在话题 ICTCLASI](Institute of Computing Technology, 构造中使用了上下文的相关度模型来支撑增量式聚 Chinese lexical analysis system)分词工具,它的主要 类算法,相比于语义相似度模型,其更能适应该问题 功能包括中文分词、词性标注、命名实体识别、新词 的特点[6.杨震等将每个短文本文档看成一个由文 识别,是目前文本处理中经常使用且分词效果最好 字、数字和标点构成的字符串,并基于字符串自身的 的中文分词软件之一. 特性直接计算其相似性,在此基础上进行短文本层 每条微博经过分词之后,并不是所有词都可以 次化聚类,进而发现网络舆情热点[,由于这种方 作为主题特征词,有许多的词包含的信息量很少,将 法不使用特征提取和文本表示过程,在一定程度上 它们包含进来不仅不能提高反而会降低正确率,所 避免了传统方法在短文本表示时特征向量稀疏的不 以只考虑对新闻话题识别作用较大的词.词性的不 足,较好地解决来了短文本的聚类问题: 同对主题的表达是有区别的,名词描述性较强,故能 针对微博数据稀疏性、实时性、不规范性的特 更好地表达主题,动词也可以作为衡量标准;因此, 点,本文给出一套完整的微博数据处理和新闻话题 根据分词的词性标注,在词性过滤时对名词和动词 识别方法.在向量空间模型的基础上,从微博主题词 保留,其他词性的词全部过滤,这样可以降低计算的 的时域分布中筛选出信息量最大的新闻主题词;根 复杂度,为下文的主题词汇抽取做准备 据微博的主题词共现度构建词共现图,以词共现图 统计词频时,先将微博消息按正文发布时间划 为基础,把不连通的簇集看成一个新闻话题,进而完 入不同的时间窗口.如按照天进行划分,然后对同一 成微博新闻话题识别. 窗口中的词频进行统计,得到一个该时间窗口内的 1 微博新闻话题识别 总的词语列表.根据文献[10-11],在一段时间窗口 的微博词语具有长尾现象,即绝大多数的词只出现 1.1数据准备 了很少的次数,只有少数词语有较高的出现频率.将 虽然主流微博都提供了API接口供第三方访 列表按词频排序,按比例保留频率最高的词语用于 问,但所有微博服务商都不会无条件将完整API开 主题词抽取,而把长尾部分去掉.当然,并非所有的 放给普通用户,通常API服务商对用户的API接口 高频词都是有用的词,例如“图片”一词,很多微博 调用频率与查询范围也会根据用户权限的不同有所 中都包含图片;所以在微博中该词出现的频率很高, 限制,因此使用API的方式并不能完全解决微博数 但对新闻话题识别贡献很小,并不适合作为主题词, 据获取问题.为了本文的研究工作,采用自然语言处 因此,在经过分词后的文本中适当减少停用词,可显
·446 智能系统学报 第7卷 著提高主题词的密度,让微博中的主题词更加突出, 1.4基于主题词共现图的微博新闻话题识别 1.3主题词抽取 词的共现分析是自然语言处理技术在信息检索 通常新闻话题的形成有一定的特点,它的时域 中的成功应用之一,它的核心思想是词与词之间的 性较强,且影响力较大,也就是说新闻话题讨论的内 共现频率在某种程度上反映了词之间的语义关联 容在某个时间窗口之前出现的概率很小,而在一个 最早有学者利用词共现来计算文档的相似性21,也 时间窗口中突然大量出现,从而能够引起社会的高 有利用词共现模型来计算词之间的相关度[].耿焕 度关注.根据新闻话题的这个特点,判断一个词语是 同等提出了一种基于词共现图的文档自动摘要算 否为新闻话题中的主题词.本文把相对词频和词频 法,他们先运用词共现图的主题提取技术得到各个 增加率作为抽取主题词的2个影响因素 主题,然后根据各个主题的重要性来提取主题词、主 1)相对词频 题句、生成摘要[4].常鹏等提出一种基于词共现的 当一个词汇在某时间段内频繁出现,且出现的 文档聚类算法,利用文档集上的频繁共现词建立文 频率比该时间段内其他的词汇明显更大,一定程度 档主题向量表示模型,从而准确地反映文档之间的 上意味着它和当前一些关注度较大的热点话题相关 主题相关关系[5例 联.因此采用相对词频的方法,对主题词的词频贡献 所有词共现的研究都基于这样一个假设:如果 度进行量化: 在一个大规模文本语料中,2个词频繁出现在同一 窗口单元中(例如一句话、一个自然段、一篇文档 等),就可以认为这个词汇组合是比较稳定的,在意 式中:T,是词汇i在j时间窗口的相对词频,f是词 义上相互关联,并且共现的频率越高,其相互关联越 汇i在j时间窗口的频率,f表示当前时间窗口的 紧密.它们表示了一定的语义概念,表达了某个潜在 最高词频 的主题信息. 2)词频增加率. 为了从理论上进一步阐述基于词共现图的微博 当一个词汇在某时间段内频繁出现,且出现的 新闻话题识别的原理,参考文献[16]给出了下面的 频率要比上一个时间段内明显增加,则在一定程度 定义 上意味着它和当前一些比较新的新闻话题关联, 定义1词汇0:相对于词汇w,的相对共现度 G,=--型 R(0.lo,)定义为 1+f0-0 式中:C,表示词汇i在j时间窗口的增加率,J-)是 R(o,10,)=fo:,) fo,) (2) 词汇i在j-1时间窗口(即上一个时间窗口)的 式中:f(00,)为单位时间段窗口中词0.与词0,在 频率 同一条微博中共同出现的次数,f(0,)为词0,在单 对微博数据进行分词、词性过滤、词频过滤等预 位时间窗口中出现的次数.可知,R(wI心,)通常不 处理之后,有选择性地留下那些有意义的动词和名 等于R(0,l0.) 词,在此基础上考察相对词频和词频增加率2个方 定义2词汇w:与词汇0,之间共现度则定义 面的复合权值来评价一个特征词的主题表现力W: 如式(3): Wa=alnTy BlnG. (1) R(0I0y)+R(0yI0) 式中:W:值越大说明该特征词是主题词的概率越 C(w,0,)= 2 (3) 大;α和B参数用来调节相对词频和词频增加率的 故有C(0.,0,)=C(0y,0x) 比重关系,α一定时,B越大则词频增加率起主要作 按照词共现原理,当2个主题词经常出现在同 用,相反B一定时,α越大则相对词频优先考虑. 一条微博中,则认为这2个主题词在意义上相互关 对每个时间窗口内的词计算其W值,按照阈值 联,表达了某个潜在的主题信息,与当前微博中的新 T选出其中权值较大的特征词得到一个主题词表, 闻话题有一定关联.本文根据主题词之间的共现度 这个主题词表的特点是其中的词语在当前时间窗口 构建词共现图,在词共现图的基础上,将每个连通的 出现次数较多,并且在之前的时间窗口出现次数较 子图看成一个簇集,簇集内部是连通的,而不同的簇 少.选出主题词之后,就可以对这些主题词进行词共 集之间是不连通的,此时每个不连通的簇集对应微 现分析来构建词共现图,通过对图的划分来实现新 博中一个新闻话题,通过对词共现图中簇集的划分 闻话题识别. 来完成微博新闻话题的识别.根据上述思想,下面给
第5期 赵文清,等:基于词共现图的中文微博新闻话题识别 447. 出识别微博新闻话题的基本步骤, 潜在的主题信息.利用式(4)来计算每个簇中主题 1)主题词共现图中点集N,的生成.根据上文 词的信息量大小,其表示对簇集的贡献程度大小. 的分词、停用词过滤、复合权值计算后最终得到主题 G(o,)=,∑C(0,0). (4) 词表,将主题词表中的主题词作为词共现图G的点 (E(G) 集,如图2~3中那些黑色的实心圆点。 式中:E(G)是图G中的边集;通过对主题词w:的信 息量G(w:)进行排序,选出K个对话题簇贡献度较 词2 大的主题词,作为该新闻热点话题的表示. 2实验结果及其分析 词1 词3 实验采用自然语言处理与信息检索共享平台公 开的NLPIR微博内容语料库8](23万条数据)作为 本文的实验数据,实验中将时间窗口的长度设定为 词4 1d,并对201202-0102-09的微博数据进行人工 标注,该时间段内微博热议的主要新闻话题有“吴 词6 词5 英案”、“香港双非问题”等事件。 图2单连通图G 2.1主题词抽取的参数确定 Fig.2 Single-connected graph 为了评估式(1)中的参数对主题词抽取结果的 影响,把2012-02010209共9天的微博数据分成 8组(其中有4天的微博数据较少不予考虑),对每 ,词2 个时间窗口中的数据进行主题词抽取,然后找出每 词 簇1 组阈值T较大的前100个词中与当前标注的主要新 词3 闻话题相关的主题词数,最后求平均值.其中设定α 为1.0,比较B取不同值时对相关主题词数的影响, 如图4所示, 词4 80 簇2 词5词6 60 0 图3多连通图G 20 Fig.3 Multiple connectee graph 2)对词共现图中的点集连边.根据点集N。中2 0.5 1.01.52.02.53.0 个词之间的共现度值的大小决定是否进行连边,如 P 果与结点相对应的2个词之间的共现度达到一定阈 图4B对相关主题词数的影响 值,那么就对它们进行连边: Fig.4 Effect of B on the quantity of related keywords 3)基于词共现图的各个微博新闻话题的确定, 当B取0时,此时只考虑词频对主题词的作用, 若词共现图G是一个单连通图,表示该时间窗口的 阈值T排在前100的主题词中平均有38个是相关 微博消息中只包含一个热点话题(例如图2).如果 主题词;当B取到1.2左右时,阈值T较大的前100 词共现图G是非单连通图,那就相当于把图G分割 个主题词中平均有52个相关主题词.从图4中可以 为多个连通区域,即构成簇(例如图3中的2个 看出,如果词频增加率的比重足够大时(即B较大) 簇),每个簇与一个热点话题对应. 相关主题词数反而下降,甚至少于只考虑词频时的 4)基于词共现图的各个微博新闻话题表示.如情况 果一个词汇与越多的词汇形成共现词组合,则这个 2.2实验过程与结果 词汇具有较为积极的主题意义,它很可能是某个主 对NLPIR微博内容语料库中201202-01的 题的领域词汇.同样,在词共现图中,一个主题词连 1432条微博数据进行话题识别,首先经过预处理及 的边越多,那么它包含的信息量越大,能更好地表示 词频统计后,对微博数据进行主题词抽取,其中抽取
448 智能系统学报 第7卷 主题词的参数a取1.0,B取1.2,从而得到满足合 表22012年2月1日当天热点话题表示 适阈值的主题词表;然后采用1.4节的基于词共现 Table 2 Keywords represent news topics on February 1,2012 图识别新闻话题的步骤来完成新闻话题识别,这其 编号 热点话题表示 中需要用到式(2)~(3)来计算主题词之间的共现 1 吴英、死刑、集资、判决、民间 度.本文列出了部分主题词间的共现度,如表1 2 香港、内地、孕妇、旅客、广告 所示 3 城管、小贩、执法、南京、围观 表1部分词共现度 Table 1 Some keywords co-occurrence degrees 4 改革、腐败、政府、官员、体制 共现词 共现度 共现词 共现度 3 结束语 香港内地 0.34322 民间融资 0.56713 内地孕妇 0.21513 微博热点新闻话题的识别研究有着重要的应用 金融垄断 0.49409 背景,本文在分析了一些短文本热点话题发现研究 吴英集资 0.45510 经济犯罪 0.24476 的基础上,结合微博数据本身的特点提出了一种基 吴英死刑 0.42298 方舟子韩寒 0.68302 于词共现图的微博新闻话题识别的方法.该方法通 集资非法 0.56146 行为违法 0.47788 过预处理、抽取主题词、构建词共现图等步骤来识别 死刑判决 0.34972 城管执法 0.33639 微博中的新闻话题,实验结果证明了提出的方法是 有效的,而且该方法简单,易于实现。同时,在接下来 对共现度足够大的主题词结点之间连边,并把 的工作中将进一步对词共现图的微博话题识别的方 孤立点(也就是没有连边的点)去除之后得到词共 法进行优化和提高,在此基础上开始对微博中的热 现图,如图5所示. 点新闻话题进行情感分析的研究, 参考文献: 眼神 [1]MORI M,MIURA T,SHIOYA I.Topic detection and tracking for news web pages[C]//Proceedings of the 2006 ACM International Conference on Web Intelligence.Wash- 及隔人民法 ington,DC,USA,2006:338-342. [2]ALLAN J,CARBONELL J,DODDINGTON G,et al.Topic detection and tracking pilot study:final report[C]//Pro- ceedings of the DARPA Broadcast News Transcription and Understanding Workshop.San Francisco,USA:Morgan Kaufmann Publisher Inc,1998:194-218. [3]路荣,项亮,刘明荣,等。基于隐主题分析和文本聚类的 微博客新闻话题发现[J].模式识别与人工智能,2012, 25(3):382-387. 图5主题词共现图 LU Rong,XIANG Liang,LIU Mingrong,et al.Discovering Fig.5 Keywords co-occurrence graph news topics from microblogs based on hidden topics analysis and text clustering[J].Pattern Recognition and Artificial 通过图5可以发现词共现图中包括多个簇,也 Intelligence,2012,25(3):382-387. 就意味着当前时间窗口中包括多个热点话题,当然 [4]LIU Zitao,YU Wenchao,CHEN Wei,et al.Short text fea- 最大的热点新闻话题也就是包含节点最多的簇,通 ture selection for microblog mining[C]//The 4th Interna- tional Conference on Computational Intelligence and Software 过式(4)可以得到每个簇中信息量最大的K个主题 Engineering.Wuhan,China,2010:14. 词用来表示新闻话题,本文K取5.表2显示了实验 [5]金春霞,周海岩.动态向量的中文短文本聚类[J].计算 中201202-01当天的热点话题.通过实验可以发 机工程与应用,2011,47(33):156-158. 现,其中“吴英案”是当天最大的热点话题,实验结 JIN Chunxia,ZHOU Haiyan.Chinese short text clustering 果表明本文提出的基于词共现图的划分识别微博新 based on dynamic[J].Computer Engineering and Applica- 闻话题的方法是有效的, ions,2011,47(33):156-158
第5期 赵文清,等:基于词共现图的中文微博新闻话题识别 ·449 [6]郑斐然,苗夺谦,张志飞,等.一种中文微博新闻话题检 occurrence model[J].Journal of Xi'an Jiaotong Universi- 测的方法[J].计算机科学,2012,39(1):138-141. ty,2009,43(6):24-27. ZHENG Feiran,MIAO Duoqian,ZHANG Zhifei,et al. [14]耿焕同,蔡庆生,赵鹏,等。一种基于词共现图的文档自 News topic detection approach on Chinese microblog[J]. 动摘要研究[J].情报学报,2005,24(6):651656. Computer Science,2012,39(1):138-141. GENG Huantong,CAI Qingsheng,ZHAO Peng,et al. [7]杨震,段立娟,赖英旭.基于字符串相似性聚类的网络短 Research on document automatic summarization based on 文本舆情热点发现技术[J].北京工业大学学报,2010, word co-occurrence[J].Journal of The China Society for 36(5):669673. Scientific and Technical Information,2005,24(6):651- YANG Zhen,DUAN Lijuan,LAI Yingxu.Online public o- 656. pinion hotspot detection and analysis based on short text [15]常鹏,冯楠,马辉。一种基于词共现的文档聚类算法 clustering using string distance[J].Joumal of Beijing Uni- [J].计算机工程,2012,38(2):213-214,220. versity of Technology,2010,36(5):669-673. CHANG Peng,FENG Nan,MA Hui.Document clustering [8]张华平.NLPIR微博内容语料库一23万条[EB/OL]. algorithm based on word co-occurrence[J].Computer En- (201202-14)[2012-05-20].htp:/www.nlpir..og/? gineering,2012,38(2):213-214,220. action-viewnew3-itemid-231.2012,02,14/2012,02,18. [16]耿焕同,蔡庆生,于琨,等.一种基于词共现图的文档主 [9]张华平.ICTCLAS2012版本SDK发布(u0106版本修正 题词自动抽取算法[J].南京大学学报:自然科学, 了UTF8下的bug)[EB/0L].(2011-12-31)[201205- 2006,42(2):156-162. 20 ]http://www.nlpir.org/?action-viewnews-itemid- GENG Huantong,CAI Qingsheng,YU Kun,et al.A kind 229.2011,12,31/2012,02,18. of automatic text keyphrase extraction method based on [10]彭泽映,俞晓明,许洪波,等.大规模短文本的不完全聚 word co-occurrence[J].Journal of Nanjing University: 类[J刀.中文信息学报,2011,25(1):54-59. Natural Sciences.2006.42(2):156-162. PENG Zeying,YU Xiaoming,XU Hongbo,et al.Incom- 作者简介: plete clustering for large scale short texts[J].Joumal of 赵文清,女,1973年生,副教授,中国 Chinese Information Processing,2011,25(1):54-59. 人工智能学会粗糙集与软计算专业委员 [11]常鹏,马辉.高效的短文本主题词抽取方法[J].计算机 会委员.主要研究方向为机器学习、数据 工程与应用,2011,47(20):126-128,154 挖掘、贝叶斯网络学习等.获河北省科技 CHANG Peng,MA Hui.Efficient short texts keyword ex- 进步三等奖1项,国家发明专利1项.发 traction method analysis[J].Computer Engineering and 表学术论文30余篇,出版教材3部. Applications,2011,47(20):126-128,154. [12]TRIVISON D.Term co-occurrence in cited/citing journal 侯小可,男,1985年生,硕士研究生, articles as a measure of document similarity J.Informa- 主要研究方向为人工智能、数据挖掘。 tion Processing Management,1987,23(3):183-194. [13]乔业男,齐勇,侯迪.一种高稳定性词汇共现模型[J] 西安交通大学学报,2009,43(6):24-27. QIAO Yenan,QI Yong,HOU Di.A highly stable term co-