正在加载图片...
第3期 刘志雄,等:面向用户兴趣与社区关系的微博话题检测方法 ·299. 2.3局部算法对照试验 所关注,提高用户活跃度。并且,本文采用主题度计 由于本文提出的面向用户兴趣与社区关系的微 算话题热度并排序,使话题展示顺序更加合理。 博话题检测与已有研究不同,一是方法不同,二是研 3结束语 究数据不同,因此我们没有和已发表方法进行对比。 但我们对已选取的社区划分方法的差异而造成的结 本文提出了一种基于用户兴趣与社区关系的微 果差异,进行了一些分析。 博话题检测方法,该方法能够快速准确地在社区内 除了使用BGLL算法[1]对微博ε近邻图)进 部检测话题,并对话题按热度进行排行。并且,该方 行话题分割,我们采用被广泛使用的图聚类方法 法巧妙融合了新浪微博的社区特性与文本特性,检 metis]、经典社区划分算法infomap2o)、基于模块 测的话题更加迎合用户的兴趣。 度的快速社区划分算法fastnewman对微博e近 本文以主题词的形式来表现微博话题,但是本 邻图进行话题分割。为了更全面地分析我们的实验 文对主题词采用硬划分,导致同一主题词只能属于 结果,选取了CV[]值作为评价指标(表3中CV值 唯一主题。但在真实情况下,可能多个话题含有同 为该社区内所有话题CV值的平均值),该评价指标 一主题词,如何实现将主题词划入多个话题,有待进 由Mimno!1]基于评估话题质量而提出。 一步研究。另外,以主题词表现话题并不是特别直 给定一个话题t和它的描述主题词V(t)= 观,如何实现以词组或句子表达主题,也有待进一步 ((t),2(t),…,w(t)),则CV值定义为 研究。 C(t,)= D(n0,y0)+1 ∑log (7) 参考文献: D(v() [1]BLEI D M,NG A Y,JORDAN M I.Latent dirichlet alloca- 式中:D()为包含词v的文档频次,D(,v')为同时 tion[J].The journal of machine learning research,2003,3 包含词v和'的文档频次。CV值基于描述同一话 (4-5):993-1002. 题的词往往同时出现于同一文档中。CV值越小, [2]VON LUXBURG U.A tutorial on spectral clustering J]. 所得话题簇的一致性越好。 Statistics and computing,2007,17(4):395-416. 实验结果如表3所示。由表3可以知道,选择 [3]郭庆琳,李艳梅,唐琦.基于VSM的文本相似度计算的 不同的方法对微博ε近邻图进行话题聚类,会得到 研究[J].计算机应用研究,2008,25(11):3256-3258. 不同的结果。在本实验中,metis方法的效果总体上 GUO Qinglin,Li Yanmei,TANG Qi.Similarity computing 好于BGLL方法,但本文的方法只是面向用户兴趣 of documents based on VSM[J].Application research of 和社区关系的话题检测框架的一个尝试,这类方法 computers,2008,25(11):3256-3258. 都可以找到用户群兴趣个性化的话题。 [4]周刚,邹鸿程,熊小兵,等.MB-SinglePass:基于组合相 似度的微博话题检测[J].计算机科学,2012,39(10): 表3BGLL算法与metis、infomap、fastnewman算法 198-202 对照试验结果 ZHOU Gang,ZOU Hongcheng,XIONG Xiaobing,et al. Table 3 The controlled Trials result of BGLL with metis, MB-SinglePass:microblog topic detection based on com- infomap、fastnewman bined similarity[J].Computer science,2012,39(10): 划分算法体育公益娱乐时政生活科技财经 198-202. bgll -15.8-6.3-16.3-22.3-14.3-15.3-14.0 [5]郑斐然,苗夺谦,张志飞,等.一种中文微博新闻话题 metis -17.3-0.5-17.3-8.8-17.0-8.0-7.0 检测的方法[J].计算机科学,2012,39(1):138-141. infomap-4.0-4.2-8.0-3.2-8.4-6.0 -3.2 ZHENG Feiran,MIAO Duoqian,ZHANG Zhifei,et al. fastnewman-7.2-5.2-6.2-5.2-5.8-5.4-4.4 News topic detection approach on Chinese microblog[J]. Computer science,2012,39(1):138-141. 综上所述,本文提出的算法面向用户兴趣检测 [6]方然,苗夺谦,张志飞.一种基于情感的中文微博话题 话题,基于词重要度的词过滤方法使得社区内的特 检测方法[J].智能系统学报,2013,8(3):208-213. 征向量维度更低、更稠密,有效地解决了微博话题检 FANG Ran,MIAO Duoqian,ZHANG Zhifei,et al.An e- 测过程中出现的特征稀疏问题。与普通话题检测方 motion-based method of topic detection from Chinese mi- 法相比,该算法所检测话题更有可能被社区内用户 croblogs [J ]CAAI transactions on intelligent systems,2.3 局部算法对照试验 由于本文提出的面向用户兴趣与社区关系的微 博话题检测与已有研究不同,一是方法不同,二是研 究数据不同,因此我们没有和已发表方法进行对比。 但我们对已选取的社区划分方法的差异而造成的结 果差异,进行了一些分析。 除了使用 BGLL 算法[13] 对微博 ε 近邻图[2] 进 行话题分割,我们采用被广泛使用的图聚类方法 metis [17] 、经典社区划分算法 infomap [20] 、基于模块 度的快速社区划分算法 fastnewman [16] 对微博 ε 近 邻图进行话题分割。 为了更全面地分析我们的实验 结果,选取了 CV [18]值作为评价指标(表 3 中 CV 值 为该社区内所有话题 CV 值的平均值),该评价指标 由 Mimno [18]基于评估话题质量而提出。 给定一个话题 t 和它的描述主题词 V ( t) = (v1(t), v2(t),…, vM(t)),则 CV 值定义为 C(t,v (t) ) = ∑ M m = 2∑ m-1 l = 1 log D(vm (t) ,vl (t) ) + 1 D(vl (t) ) (7) 式中:D(v)为包含词 v 的文档频次,D(v, v′)为同时 包含词 v 和 v′的文档频次。 CV 值基于描述同一话 题的词往往同时出现于同一文档中。 CV 值越小, 所得话题簇的一致性越好。 实验结果如表 3 所示。 由表 3 可以知道,选择 不同的方法对微博 ε 近邻图进行话题聚类,会得到 不同的结果。 在本实验中,metis 方法的效果总体上 好于 BGLL 方法,但本文的方法只是面向用户兴趣 和社区关系的话题检测框架的一个尝试,这类方法 都可以找到用户群兴趣个性化的话题。 表 3 BGLL 算法与 metis、infomap、fastnewman 算法 对照试验结果 Table 3 The controlled Trials result of BGLL with metis、 infomap、fastnewman 划分算法 体育 公益 娱乐 时政 生活 科技 财经 bgll -15.8 -6.3 -16.3 -22.3 -14.3 -15.3 -14.0 metis -17.3 -0.5 -17.3 -8.8 -17.0 -8.0 -7.0 infomap -4.0 -4.2 -8.0 -3.2 -8.4 -6.0 -3.2 fastnewman -7.2 -5.2 -6.2 -5.2 -5.8 -5.4 -4.4 综上所述,本文提出的算法面向用户兴趣检测 话题,基于词重要度的词过滤方法使得社区内的特 征向量维度更低、更稠密,有效地解决了微博话题检 测过程中出现的特征稀疏问题。 与普通话题检测方 法相比,该算法所检测话题更有可能被社区内用户 所关注,提高用户活跃度。 并且,本文采用主题度计 算话题热度并排序,使话题展示顺序更加合理。 3 结束语 本文提出了一种基于用户兴趣与社区关系的微 博话题检测方法,该方法能够快速准确地在社区内 部检测话题,并对话题按热度进行排行。 并且,该方 法巧妙融合了新浪微博的社区特性与文本特性,检 测的话题更加迎合用户的兴趣。 本文以主题词的形式来表现微博话题,但是本 文对主题词采用硬划分,导致同一主题词只能属于 唯一主题。 但在真实情况下,可能多个话题含有同 一主题词,如何实现将主题词划入多个话题,有待进 一步研究。 另外,以主题词表现话题并不是特别直 观,如何实现以词组或句子表达主题,也有待进一步 研究。 参考文献: [1]BLEI D M, NG A Y, JORDAN M I. Latent dirichlet alloca⁃ tion[J]. The journal of machine learning research, 2003, 3 (4⁃5): 993⁃1002. [2] VON LUXBURG U. A tutorial on spectral clustering [ J]. Statistics and computing, 2007, 17(4): 395⁃416. [3]郭庆琳, 李艳梅, 唐琦. 基于 VSM 的文本相似度计算的 研究[J]. 计算机应用研究, 2008, 25(11): 3256⁃3258. GUO Qinglin, Li Yanmei, TANG Qi. Similarity computing of documents based on VSM [ J]. Application research of computers, 2008, 25(11): 3256⁃3258. [4]周刚, 邹鸿程, 熊小兵, 等. MB⁃SinglePass: 基于组合相 似度的微博话题检测[ J]. 计算机科学, 2012, 39(10): 198⁃202. ZHOU Gang, ZOU Hongcheng, XIONG Xiaobing, et al. MB⁃SinglePass: microblog topic detection based on com⁃ bined similarity [ J]. Computer science, 2012, 39 ( 10): 198⁃202. [5]郑斐然, 苗夺谦, 张志飞, 等. 一种中文微博新闻话题 检测的方法[J]. 计算机科学, 2012, 39(1): 138⁃141. ZHENG Feiran, MIAO Duoqian, ZHANG Zhifei, et al. News topic detection approach on Chinese microblog [ J]. Computer science, 2012, 39(1): 138⁃141. [6]方然, 苗夺谦, 张志飞. 一种基于情感的中文微博话题 检测方法[J]. 智能系统学报, 2013, 8(3): 208⁃213. FANG Ran, MIAO Duoqian, ZHANG Zhifei, et al. An e⁃ motion⁃based method of topic detection from Chinese mi⁃ croblogs [ J ]. CAAI transactions on intelligent systems, 第 3 期 刘志雄,等:面向用户兴趣与社区关系的微博话题检测方法 ·299·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有