第5期赵文清，等：基于词共现图的中文微博新闻话题识别 447. 出识别微

正在加载图片...

第5期赵文清，等：基于词共现图的中文微博新闻话题识别 447. 出识别微博新闻话题的基本步骤，潜在的主题信息.利用式(4)来计算每个簇中主题 1)主题词共现图中点集N,的生成.根据上文词的信息量大小，其表示对簇集的贡献程度大小. 的分词、停用词过滤、复合权值计算后最终得到主题 G(o,)=，∑C(0,0). (4) 词表，将主题词表中的主题词作为词共现图G的点 (E(G) 集，如图2~3中那些黑色的实心圆点。式中：E(G)是图G中的边集；通过对主题词w:的信息量G(w:)进行排序，选出K个对话题簇贡献度较词2 大的主题词，作为该新闻热点话题的表示. 2实验结果及其分析词1 词3 实验采用自然语言处理与信息检索共享平台公开的NLPIR微博内容语料库8](23万条数据)作为本文的实验数据，实验中将时间窗口的长度设定为词4 1d,并对201202-0102-09的微博数据进行人工标注，该时间段内微博热议的主要新闻话题有“吴词6 词5 英案”、“香港双非问题”等事件。图2单连通图G 2.1主题词抽取的参数确定 Fig.2 Single-connected graph 为了评估式(1)中的参数对主题词抽取结果的影响，把2012-02010209共9天的微博数据分成 8组（其中有4天的微博数据较少不予考虑），对每 ,词2 个时间窗口中的数据进行主题词抽取，然后找出每词簇1 组阈值T较大的前100个词中与当前标注的主要新词3 闻话题相关的主题词数，最后求平均值.其中设定α 为1.0，比较B取不同值时对相关主题词数的影响，如图4所示，词4 80 簇2 词5词6 60 0 图3多连通图G 20 Fig.3 Multiple connectee graph 2)对词共现图中的点集连边.根据点集N。中2 0.5 1.01.52.02.53.0 个词之间的共现度值的大小决定是否进行连边，如 P 果与结点相对应的2个词之间的共现度达到一定阈图4B对相关主题词数的影响值，那么就对它们进行连边： Fig.4 Effect of B on the quantity of related keywords 3)基于词共现图的各个微博新闻话题的确定，当B取0时，此时只考虑词频对主题词的作用，若词共现图G是一个单连通图，表示该时间窗口的阈值T排在前100的主题词中平均有38个是相关微博消息中只包含一个热点话题（例如图2）.如果主题词；当B取到1.2左右时，阈值T较大的前100 词共现图G是非单连通图，那就相当于把图G分割个主题词中平均有52个相关主题词.从图4中可以为多个连通区域，即构成簇（例如图3中的2个看出，如果词频增加率的比重足够大时（即B较大）簇)，每个簇与一个热点话题对应. 相关主题词数反而下降，甚至少于只考虑词频时的 4)基于词共现图的各个微博新闻话题表示.如情况果一个词汇与越多的词汇形成共现词组合，则这个 2.2实验过程与结果词汇具有较为积极的主题意义，它很可能是某个主对NLPIR微博内容语料库中201202-01的题的领域词汇.同样，在词共现图中，一个主题词连 1432条微博数据进行话题识别，首先经过预处理及的边越多，那么它包含的信息量越大，能更好地表示词频统计后，对微博数据进行主题词抽取，其中抽取

<<向上翻页向下翻页>>

点击下载：【自然语言处理与理解】基于词共现图的中文微博新闻话题识别