图２话题检测流程图Ｆｉｇ．２ｆｌｏｗｏｆｔｏｐｉｃｄｅｔｅｃ

正在加载图片...

第3期刘志雄，等：面向用户兴趣与社区关系的微博话题检测方法 ·297. 重要度分数并逆序排序。提取重要词剪枝网络建模 3)剔除重要度低于阈值0的词语。经过如上步骤，得到了微博文档D对应的重要聚类话题排行检测话题词库，记为精英词集elite。 1.4.2剪枝将微博特征向量中不属于重要词汇库elite的图2话题检测流程图词语别除。若剔除后微博向量长度过短，则将该微 Fig.2 flow of topic detection 博从该社区剔除，本文设置长度阈值为3。去除了 1.4.1提取重要词微博内与话题相关度很低的词语，保留了与话题相由话题的定义可知，与话题相关的词语通常会关度较高的词语。具有更高的重要性。显然，重要性过低的词语，尽管 1.4.3微博文本￡近邻图构建能够表达一定的含义，但并不能构成话题，会对我们传统的微博相似度计算方法主要是对微博集合话题检测造成一定影响。因此需计算词的重要性。中每一条微博的词进行TF-DF的计算，并将微博中 TextRankt2)算法是在Google的PageRank[io]算各个词表示成VSM)空间向量，然后采用余弦相似法启发下，针对文本里的句子设计的权重算法。最度计算两条微博之间的相似度。但考虑到微博具有初的目标是对文章提取摘要，目前多用于给词语打分，即计算词语的重要度。本文采用TextRank!]算短文本高维、稀疏的特点，采用传统的TFDF向量表示法计算得到的相似性（趋于0）不能反映两个微法计算词语重要度并过滤掉重要度过低的词语，步博文本的真实相似性。故本文以词语的重要度代替骤如下： 1)将同一社区内所有微博（已切词）做拼接，构 TF-IDF值作为词的特征权重。由于经过社区划分以及微博剪枝之后，社区内微博特征已相对稠密，故成微博文档D。 2)采用TextRank2]算法对微博文档D求词语可采用基于VSM)空间向量模型的余弦相似度计算方法来计算两条微博之间的相似度，公式为 score(w,)x score(w,) icAnB sim(A,B)= (4) ∑score(w,)×score(w,)×,∑score(u,)×score(w,) ARjEA 个V!eB 式中：sim(A,B)表示微博A与微博B之间的相似式中：fre(0:,j)表示词wi在话题簇j内的词频，度，score(w:)表示词0，的重要度分数。 score(0:)表示词e,的重要度，num(j)表示话题簇j 我们给每一条微博分配一个D,D从1到n', 包含的微博数目，则主题选取过程如下：然后以微博为节点，微博之间的相似度为边，构建一 1)对于所有话题簇，在话题簇内计算所有词的张ε近邻图)。若微博i与微博j的相似度大于阈主题度；值e,则微博i与微博j之间存在一条边，且该边权 2)在话题簇内按主题度对词进行逆序排序，并重为sim(i,j)。保留主题度最大的15个词： 1.4.4微博聚类 3)将所有话题簇内所保留的词加入集合s: 本文采用社区划分的方法对微博文本进行聚类。由于社区具有社区内部节点连接稠密、社区之间节点 4)遍历集合s,对于词w:,遍历所有社区，若心，连接稀疏的特点，故社区（话题簇）内微博相似度更大，在社区t内的主题度最高，则w,∈tw(t)。tw(t)表社区（话题簇）间微博相似度更小。故对微博ε近邻图示话题簇t对应的主题词集合。进行社区划分，并选取社区节点数最多的T个社区作 1.4.6话题热度排行为社区内关心的话题。本文采用经典社区划分算法话题的热度表现在多个方面，本文以主题度来 BGLL1)对微博ε近邻图进行社区划分。表征话题的热度。计算公式为 1.4.5话题检测 ∑topic(w,j) 本文以主题词来描述话题，提出了一种以主题 heat(j)= (6)》度来选取主题词的方法。本方法以topic(w:,j)表 m(j) 示词心，在话题簇j内的主题度，计算公式如下：式中：heat(j)表示话题簇j对应话题热度，m(j)表示 topic(w:,j)=fre(w:j)x score(w:)/num(j) 话题簇对应主题词集合包含词语个数。 (5) 最后按话题热度对话题进行逆序排序。图２话题检测流程图Ｆｉｇ．２ｆｌｏｗｏｆｔｏｐｉｃｄｅｔｅｃｔｉｏｎ１．４．１提取重要词由话题的定义可知，与话题相关的词语通常会具有更高的重要性。显然，重要性过低的词语，尽管能够表达一定的含义，但并不能构成话题，会对我们话题检测造成一定影响。因此需计算词的重要性。ＴｅｘｔＲａｎｋ［１２］算法是在Ｇｏｏｇｌｅ的ＰａｇｅＲａｎｋ［１０］算法启发下，针对文本里的句子设计的权重算法。最初的目标是对文章提取摘要，目前多用于给词语打分，即计算词语的重要度。本文采用ＴｅｘｔＲａｎｋ［１２］算法计算词语重要度并过滤掉重要度过低的词语，步骤如下：１）将同一社区内所有微博（已切词）做拼接，构成微博文档Ｄ。２）采用ＴｅｘｔＲａｎｋ［１２］算法对微博文档Ｄ求词语重要度分数并逆序排序。３）剔除重要度低于阈值 θ 的词语。经过如上步骤，得到了微博文档Ｄ对应的重要词库，记为精英词集ｅｌｉｔｅ。１．４．２剪枝将微博特征向量中不属于重要词汇库ｅｌｉｔｅ的词语剔除。若剔除后微博向量长度过短，则将该微博从该社区剔除，本文设置长度阈值为３。去除了微博内与话题相关度很低的词语，保留了与话题相关度较高的词语。１．４．３微博文本 ε 近邻图构建传统的微博相似度计算方法主要是对微博集合中每一条微博的词进行ＴＦ⁃ＩＤＦ的计算，并将微博中各个词表示成ＶＳＭ［３］空间向量，然后采用余弦相似度计算两条微博之间的相似度。但考虑到微博具有短文本高维、稀疏的特点，采用传统的ＴＦ⁃ＩＤＦ向量表示法计算得到的相似性（趋于０）不能反映两个微博文本的真实相似性。故本文以词语的重要度代替ＴＦ⁃ＩＤＦ值作为词的特征权重。由于经过社区划分以及微博剪枝之后，社区内微博特征已相对稠密，故可采用基于ＶＳＭ［３］空间向量模型的余弦相似度计算方法来计算两条微博之间的相似度，公式为ｓｉｍ（Ａ，Ｂ）＝ｗ∑ｉ∈Ａ∩Ｂｓｃｏｒｅ（ｗｉ） × ｓｃｏｒｅ（ｗｉ） ∑ｗｉ∈Ａｓｃｏｒｅ（ｗｉ） × ｓｃｏｒｅ（ｗｉ） × ∑ｗｉ∈Ｂｓｃｏｒｅ（ｗｉ） × ｓｃｏｒｅ（ｗｉ）（４）式中：ｓｉｍ（Ａ，Ｂ）表示微博Ａ与微博Ｂ之间的相似度，ｓｃｏｒｅ（ｗｉ）表示词ｗｉ的重要度分数。我们给每一条微博分配一个ＩＤ，ＩＤ从１到ｎ′，然后以微博为节点，微博之间的相似度为边，构建一张 ε 近邻图［２］。若微博ｉ与微博ｊ的相似度大于阈值 ε，则微博ｉ与微博ｊ之间存在一条边，且该边权重为ｓｉｍ（ｉ，ｊ）。１．４．４微博聚类本文采用社区划分的方法对微博文本进行聚类。由于社区具有社区内部节点连接稠密、社区之间节点连接稀疏的特点，故社区（话题簇）内微博相似度更大，社区（话题簇）间微博相似度更小。故对微博 ε 近邻图进行社区划分，并选取社区节点数最多的Ｔ个社区作为社区内关心的话题。本文采用经典社区划分算法ＢＧＬＬ［１３］对微博 ε 近邻图进行社区划分。１．４．５话题检测本文以主题词来描述话题，提出了一种以主题度来选取主题词的方法。本方法以ｔｏｐｉｃ（ｗｉ，ｊ）表示词ｗｉ在话题簇ｊ内的主题度，计算公式如下：ｔｏｐｉｃ（ｗｉ，ｊ）＝ｆｒｅ（ｗｉ，ｊ） × ｓｃｏｒｅ（ｗｉ）／ｎｕｍ（ｊ）（５）式中：ｆｒｅ（ｗｉ，ｊ）表示词ｗｉ在话题簇ｊ内的词频，ｓｃｏｒｅ（ｗｉ）表示词ｗｉ的重要度，ｎｕｍ（ｊ）表示话题簇ｊ包含的微博数目，则主题选取过程如下：１）对于所有话题簇，在话题簇内计算所有词的主题度；２）在话题簇内按主题度对词进行逆序排序，并保留主题度最大的１５个词；３）将所有话题簇内所保留的词加入集合ｓ；４）遍历集合ｓ，对于词ｗｉ，遍历所有社区，若ｗｉ在社区ｔ内的主题度最高，则ｗｉ∈ｔｗ（ｔ）。ｔｗ（ｔ）表示话题簇ｔ对应的主题词集合。１．４．６话题热度排行话题的热度表现在多个方面，本文以主题度来表征话题的热度。计算公式为ｈｅａｔ（ｊ）＝ｗ∑ｉ∈ｔｗ（ｊ）ｔｏｐｉｃ（ｗｉ，ｊ）ｍ（ｊ）（６）式中：ｈｅａｔ（ｊ）表示话题簇ｊ对应话题热度，ｍ（ｊ）表示话题簇ｊ对应主题词集合包含词语个数。最后按话题热度对话题进行逆序排序。第３期刘志雄，等：面向用户兴趣与社区关系的微博话题检测方法 ·２９７·

<<向上翻页向下翻页>>

点击下载：【自然语言处理与理解】面向用户兴趣与社区关系的微博话题检测方法编辑部