正在加载图片...
·446 智能系统学报 第7卷 著提高主题词的密度,让微博中的主题词更加突出, 1.4基于主题词共现图的微博新闻话题识别 1.3主题词抽取 词的共现分析是自然语言处理技术在信息检索 通常新闻话题的形成有一定的特点,它的时域 中的成功应用之一,它的核心思想是词与词之间的 性较强,且影响力较大,也就是说新闻话题讨论的内 共现频率在某种程度上反映了词之间的语义关联 容在某个时间窗口之前出现的概率很小,而在一个 最早有学者利用词共现来计算文档的相似性21,也 时间窗口中突然大量出现,从而能够引起社会的高 有利用词共现模型来计算词之间的相关度[].耿焕 度关注.根据新闻话题的这个特点,判断一个词语是 同等提出了一种基于词共现图的文档自动摘要算 否为新闻话题中的主题词.本文把相对词频和词频 法,他们先运用词共现图的主题提取技术得到各个 增加率作为抽取主题词的2个影响因素 主题,然后根据各个主题的重要性来提取主题词、主 1)相对词频 题句、生成摘要[4].常鹏等提出一种基于词共现的 当一个词汇在某时间段内频繁出现,且出现的 文档聚类算法,利用文档集上的频繁共现词建立文 频率比该时间段内其他的词汇明显更大,一定程度 档主题向量表示模型,从而准确地反映文档之间的 上意味着它和当前一些关注度较大的热点话题相关 主题相关关系[5例 联.因此采用相对词频的方法,对主题词的词频贡献 所有词共现的研究都基于这样一个假设:如果 度进行量化: 在一个大规模文本语料中,2个词频繁出现在同一 窗口单元中(例如一句话、一个自然段、一篇文档 等),就可以认为这个词汇组合是比较稳定的,在意 式中:T,是词汇i在j时间窗口的相对词频,f是词 义上相互关联,并且共现的频率越高,其相互关联越 汇i在j时间窗口的频率,f表示当前时间窗口的 紧密.它们表示了一定的语义概念,表达了某个潜在 最高词频 的主题信息. 2)词频增加率. 为了从理论上进一步阐述基于词共现图的微博 当一个词汇在某时间段内频繁出现,且出现的 新闻话题识别的原理,参考文献[16]给出了下面的 频率要比上一个时间段内明显增加,则在一定程度 定义 上意味着它和当前一些比较新的新闻话题关联, 定义1词汇0:相对于词汇w,的相对共现度 G,=--型 R(0.lo,)定义为 1+f0-0 式中:C,表示词汇i在j时间窗口的增加率,J-)是 R(o,10,)=fo:,) fo,) (2) 词汇i在j-1时间窗口(即上一个时间窗口)的 式中:f(00,)为单位时间段窗口中词0.与词0,在 频率 同一条微博中共同出现的次数,f(0,)为词0,在单 对微博数据进行分词、词性过滤、词频过滤等预 位时间窗口中出现的次数.可知,R(wI心,)通常不 处理之后,有选择性地留下那些有意义的动词和名 等于R(0,l0.) 词,在此基础上考察相对词频和词频增加率2个方 定义2词汇w:与词汇0,之间共现度则定义 面的复合权值来评价一个特征词的主题表现力W: 如式(3): Wa=alnTy BlnG. (1) R(0I0y)+R(0yI0) 式中:W:值越大说明该特征词是主题词的概率越 C(w,0,)= 2 (3) 大;α和B参数用来调节相对词频和词频增加率的 故有C(0.,0,)=C(0y,0x) 比重关系,α一定时,B越大则词频增加率起主要作 按照词共现原理,当2个主题词经常出现在同 用,相反B一定时,α越大则相对词频优先考虑. 一条微博中,则认为这2个主题词在意义上相互关 对每个时间窗口内的词计算其W值,按照阈值 联,表达了某个潜在的主题信息,与当前微博中的新 T选出其中权值较大的特征词得到一个主题词表, 闻话题有一定关联.本文根据主题词之间的共现度 这个主题词表的特点是其中的词语在当前时间窗口 构建词共现图,在词共现图的基础上,将每个连通的 出现次数较多,并且在之前的时间窗口出现次数较 子图看成一个簇集,簇集内部是连通的,而不同的簇 少.选出主题词之后,就可以对这些主题词进行词共 集之间是不连通的,此时每个不连通的簇集对应微 现分析来构建词共现图,通过对图的划分来实现新 博中一个新闻话题,通过对词共现图中簇集的划分 闻话题识别. 来完成微博新闻话题的识别.根据上述思想,下面给
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有