正在加载图片...
第5期 赵文清,等:基于词共现图的中文微博新闻话题识别 447. 出识别微博新闻话题的基本步骤, 潜在的主题信息.利用式(4)来计算每个簇中主题 1)主题词共现图中点集N,的生成.根据上文 词的信息量大小,其表示对簇集的贡献程度大小. 的分词、停用词过滤、复合权值计算后最终得到主题 G(o,)=,∑C(0,0). (4) 词表,将主题词表中的主题词作为词共现图G的点 (E(G) 集,如图2~3中那些黑色的实心圆点。 式中:E(G)是图G中的边集;通过对主题词w:的信 息量G(w:)进行排序,选出K个对话题簇贡献度较 词2 大的主题词,作为该新闻热点话题的表示. 2实验结果及其分析 词1 词3 实验采用自然语言处理与信息检索共享平台公 开的NLPIR微博内容语料库8](23万条数据)作为 本文的实验数据,实验中将时间窗口的长度设定为 词4 1d,并对201202-0102-09的微博数据进行人工 标注,该时间段内微博热议的主要新闻话题有“吴 词6 词5 英案”、“香港双非问题”等事件。 图2单连通图G 2.1主题词抽取的参数确定 Fig.2 Single-connected graph 为了评估式(1)中的参数对主题词抽取结果的 影响,把2012-02010209共9天的微博数据分成 8组(其中有4天的微博数据较少不予考虑),对每 ,词2 个时间窗口中的数据进行主题词抽取,然后找出每 词 簇1 组阈值T较大的前100个词中与当前标注的主要新 词3 闻话题相关的主题词数,最后求平均值.其中设定α 为1.0,比较B取不同值时对相关主题词数的影响, 如图4所示, 词4 80 簇2 词5词6 60 0 图3多连通图G 20 Fig.3 Multiple connectee graph 2)对词共现图中的点集连边.根据点集N。中2 0.5 1.01.52.02.53.0 个词之间的共现度值的大小决定是否进行连边,如 P 果与结点相对应的2个词之间的共现度达到一定阈 图4B对相关主题词数的影响 值,那么就对它们进行连边: Fig.4 Effect of B on the quantity of related keywords 3)基于词共现图的各个微博新闻话题的确定, 当B取0时,此时只考虑词频对主题词的作用, 若词共现图G是一个单连通图,表示该时间窗口的 阈值T排在前100的主题词中平均有38个是相关 微博消息中只包含一个热点话题(例如图2).如果 主题词;当B取到1.2左右时,阈值T较大的前100 词共现图G是非单连通图,那就相当于把图G分割 个主题词中平均有52个相关主题词.从图4中可以 为多个连通区域,即构成簇(例如图3中的2个 看出,如果词频增加率的比重足够大时(即B较大) 簇),每个簇与一个热点话题对应. 相关主题词数反而下降,甚至少于只考虑词频时的 4)基于词共现图的各个微博新闻话题表示.如情况 果一个词汇与越多的词汇形成共现词组合,则这个 2.2实验过程与结果 词汇具有较为积极的主题意义,它很可能是某个主 对NLPIR微博内容语料库中201202-01的 题的领域词汇.同样,在词共现图中,一个主题词连 1432条微博数据进行话题识别,首先经过预处理及 的边越多,那么它包含的信息量越大,能更好地表示 词频统计后,对微博数据进行主题词抽取,其中抽取
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有