２．３局部算法对照试验由于本文提出的面向用户兴趣与社区关系的微博话题

正在加载图片...

第3期刘志雄，等：面向用户兴趣与社区关系的微博话题检测方法 ·299. 2.3局部算法对照试验所关注，提高用户活跃度。并且，本文采用主题度计由于本文提出的面向用户兴趣与社区关系的微算话题热度并排序，使话题展示顺序更加合理。博话题检测与已有研究不同，一是方法不同，二是研 3结束语究数据不同，因此我们没有和已发表方法进行对比。但我们对已选取的社区划分方法的差异而造成的结本文提出了一种基于用户兴趣与社区关系的微果差异，进行了一些分析。博话题检测方法，该方法能够快速准确地在社区内除了使用BGLL算法[1]对微博ε近邻图)进部检测话题，并对话题按热度进行排行。并且，该方行话题分割，我们采用被广泛使用的图聚类方法法巧妙融合了新浪微博的社区特性与文本特性，检 metis]、经典社区划分算法infomap2o)、基于模块测的话题更加迎合用户的兴趣。度的快速社区划分算法fastnewman对微博e近本文以主题词的形式来表现微博话题，但是本邻图进行话题分割。为了更全面地分析我们的实验文对主题词采用硬划分，导致同一主题词只能属于结果，选取了CV[]值作为评价指标（表3中CV值唯一主题。但在真实情况下，可能多个话题含有同为该社区内所有话题CV值的平均值)，该评价指标一主题词，如何实现将主题词划入多个话题，有待进由Mimno!1]基于评估话题质量而提出。一步研究。另外，以主题词表现话题并不是特别直给定一个话题t和它的描述主题词V(t)= 观，如何实现以词组或句子表达主题，也有待进一步 ((t),2(t),…,w(t)),则CV值定义为研究。 C(t,)= D(n0,y0)+1 ∑log (7) 参考文献： D(v() [1]BLEI D M,NG A Y,JORDAN M I.Latent dirichlet alloca- 式中：D()为包含词v的文档频次，D(,v')为同时 tion[J].The journal of machine learning research,2003,3 包含词v和'的文档频次。CV值基于描述同一话 (4-5):993-1002. 题的词往往同时出现于同一文档中。CV值越小， [2]VON LUXBURG U.A tutorial on spectral clustering J]. 所得话题簇的一致性越好。 Statistics and computing,2007,17(4):395-416. 实验结果如表3所示。由表3可以知道，选择 [3]郭庆琳，李艳梅，唐琦.基于VSM的文本相似度计算的不同的方法对微博ε近邻图进行话题聚类，会得到研究[J].计算机应用研究，2008,25(11)：3256-3258. 不同的结果。在本实验中，metis方法的效果总体上 GUO Qinglin,Li Yanmei,TANG Qi.Similarity computing 好于BGLL方法，但本文的方法只是面向用户兴趣 of documents based on VSM[J].Application research of 和社区关系的话题检测框架的一个尝试，这类方法 computers,2008,25(11):3256-3258. 都可以找到用户群兴趣个性化的话题。 [4]周刚，邹鸿程，熊小兵，等.MB-SinglePass:基于组合相似度的微博话题检测[J].计算机科学，2012,39(10)：表3BGLL算法与metis、infomap、fastnewman算法 198-202 对照试验结果 ZHOU Gang,ZOU Hongcheng,XIONG Xiaobing,et al. Table 3 The controlled Trials result of BGLL with metis, MB-SinglePass:microblog topic detection based on com- infomap、fastnewman bined similarity[J].Computer science,2012,39(10): 划分算法体育公益娱乐时政生活科技财经 198-202. bgll -15.8-6.3-16.3-22.3-14.3-15.3-14.0 [5]郑斐然，苗夺谦，张志飞，等.一种中文微博新闻话题 metis -17.3-0.5-17.3-8.8-17.0-8.0-7.0 检测的方法[J].计算机科学，2012,39(1)：138-141. infomap-4.0-4.2-8.0-3.2-8.4-6.0 -3.2 ZHENG Feiran,MIAO Duoqian,ZHANG Zhifei,et al. fastnewman-7.2-5.2-6.2-5.2-5.8-5.4-4.4 News topic detection approach on Chinese microblog[J]. Computer science,2012,39(1):138-141. 综上所述，本文提出的算法面向用户兴趣检测 [6]方然，苗夺谦，张志飞.一种基于情感的中文微博话题话题，基于词重要度的词过滤方法使得社区内的特检测方法[J].智能系统学报，2013,8(3)：208-213. 征向量维度更低、更稠密，有效地解决了微博话题检 FANG Ran,MIAO Duoqian,ZHANG Zhifei,et al.An e- 测过程中出现的特征稀疏问题。与普通话题检测方 motion-based method of topic detection from Chinese mi- 法相比，该算法所检测话题更有可能被社区内用户 croblogs [J ]CAAI transactions on intelligent systems,２．３局部算法对照试验由于本文提出的面向用户兴趣与社区关系的微博话题检测与已有研究不同，一是方法不同，二是研究数据不同，因此我们没有和已发表方法进行对比。但我们对已选取的社区划分方法的差异而造成的结果差异，进行了一些分析。除了使用ＢＧＬＬ算法［１３］对微博 ε 近邻图［２］进行话题分割，我们采用被广泛使用的图聚类方法ｍｅｔｉｓ［１７］、经典社区划分算法ｉｎｆｏｍａｐ［２０］、基于模块度的快速社区划分算法ｆａｓｔｎｅｗｍａｎ［１６］对微博 ε 近邻图进行话题分割。为了更全面地分析我们的实验结果，选取了ＣＶ［１８］值作为评价指标（表３中ＣＶ值为该社区内所有话题ＣＶ值的平均值），该评价指标由Ｍｉｍｎｏ［１８］基于评估话题质量而提出。给定一个话题ｔ和它的描述主题词Ｖ（ｔ）＝（ｖ１（ｔ），ｖ２（ｔ），…，ｖＭ（ｔ）），则ＣＶ值定义为Ｃ（ｔ，ｖ（ｔ））＝ ∑ Ｍｍ＝２∑ ｍ－１ｌ＝１ｌｏｇＤ（ｖｍ（ｔ），ｖｌ（ｔ））＋１Ｄ（ｖｌ（ｔ））（７）式中：Ｄ（ｖ）为包含词ｖ的文档频次，Ｄ（ｖ，ｖ′）为同时包含词ｖ和ｖ′的文档频次。ＣＶ值基于描述同一话题的词往往同时出现于同一文档中。ＣＶ值越小，所得话题簇的一致性越好。实验结果如表３所示。由表３可以知道，选择不同的方法对微博 ε 近邻图进行话题聚类，会得到不同的结果。在本实验中，ｍｅｔｉｓ方法的效果总体上好于ＢＧＬＬ方法，但本文的方法只是面向用户兴趣和社区关系的话题检测框架的一个尝试，这类方法都可以找到用户群兴趣个性化的话题。表３ＢＧＬＬ算法与ｍｅｔｉｓ、ｉｎｆｏｍａｐ、ｆａｓｔｎｅｗｍａｎ算法对照试验结果Ｔａｂｌｅ３ＴｈｅｃｏｎｔｒｏｌｌｅｄＴｒｉａｌｓｒｅｓｕｌｔｏｆＢＧＬＬｗｉｔｈｍｅｔｉｓ、ｉｎｆｏｍａｐ、ｆａｓｔｎｅｗｍａｎ划分算法体育公益娱乐时政生活科技财经ｂｇｌｌ－１５．８－６．３－１６．３－２２．３－１４．３－１５．３－１４．０ｍｅｔｉｓ－１７．３－０．５－１７．３－８．８－１７．０－８．０－７．０ｉｎｆｏｍａｐ－４．０－４．２－８．０－３．２－８．４－６．０－３．２ｆａｓｔｎｅｗｍａｎ－７．２－５．２－６．２－５．２－５．８－５．４－４．４综上所述，本文提出的算法面向用户兴趣检测话题，基于词重要度的词过滤方法使得社区内的特征向量维度更低、更稠密，有效地解决了微博话题检测过程中出现的特征稀疏问题。与普通话题检测方法相比，该算法所检测话题更有可能被社区内用户所关注，提高用户活跃度。并且，本文采用主题度计算话题热度并排序，使话题展示顺序更加合理。３结束语本文提出了一种基于用户兴趣与社区关系的微博话题检测方法，该方法能够快速准确地在社区内部检测话题，并对话题按热度进行排行。并且，该方法巧妙融合了新浪微博的社区特性与文本特性，检测的话题更加迎合用户的兴趣。本文以主题词的形式来表现微博话题，但是本文对主题词采用硬划分，导致同一主题词只能属于唯一主题。但在真实情况下，可能多个话题含有同一主题词，如何实现将主题词划入多个话题，有待进一步研究。另外，以主题词表现话题并不是特别直观，如何实现以词组或句子表达主题，也有待进一步研究。参考文献：［１］ＢＬＥＩＤＭ，ＮＧＡＹ，ＪＯＲＤＡＮＭＩ．Ｌａｔｅｎｔｄｉｒｉｃｈｌｅｔａｌｌｏｃａ⁃ ｔｉｏｎ［Ｊ］．Ｔｈｅｊｏｕｒｎａｌｏｆｍａｃｈｉｎｅｌｅａｒｎｉｎｇｒｅｓｅａｒｃｈ，２００３，３（４⁃５）：９９３⁃１００２．［２］ＶＯＮＬＵＸＢＵＲＧＵ．Ａｔｕｔｏｒｉａｌｏｎｓｐｅｃｔｒａｌｃｌｕｓｔｅｒｉｎｇ［Ｊ］．Ｓｔａｔｉｓｔｉｃｓａｎｄｃｏｍｐｕｔｉｎｇ，２００７，１７（４）：３９５⁃４１６．［３］郭庆琳，李艳梅，唐琦．基于ＶＳＭ的文本相似度计算的研究［Ｊ］．计算机应用研究，２００８，２５（１１）：３２５６⁃３２５８．ＧＵＯＱｉｎｇｌｉｎ，ＬｉＹａｎｍｅｉ，ＴＡＮＧＱｉ．ＳｉｍｉｌａｒｉｔｙｃｏｍｐｕｔｉｎｇｏｆｄｏｃｕｍｅｎｔｓｂａｓｅｄｏｎＶＳＭ［Ｊ］．Ａｐｐｌｉｃａｔｉｏｎｒｅｓｅａｒｃｈｏｆｃｏｍｐｕｔｅｒｓ，２００８，２５（１１）：３２５６⁃３２５８．［４］周刚，邹鸿程，熊小兵，等．ＭＢ⁃ＳｉｎｇｌｅＰａｓｓ：基于组合相似度的微博话题检测［Ｊ］．计算机科学，２０１２，３９（１０）：１９８⁃２０２．ＺＨＯＵＧａｎｇ，ＺＯＵＨｏｎｇｃｈｅｎｇ，ＸＩＯＮＧＸｉａｏｂｉｎｇ，ｅｔａｌ．ＭＢ⁃ＳｉｎｇｌｅＰａｓｓ：ｍｉｃｒｏｂｌｏｇｔｏｐｉｃｄｅｔｅｃｔｉｏｎｂａｓｅｄｏｎｃｏｍ⁃ ｂｉｎｅｄｓｉｍｉｌａｒｉｔｙ［Ｊ］．Ｃｏｍｐｕｔｅｒｓｃｉｅｎｃｅ，２０１２，３９（１０）：１９８⁃２０２．［５］郑斐然，苗夺谦，张志飞，等．一种中文微博新闻话题检测的方法［Ｊ］．计算机科学，２０１２，３９（１）：１３８⁃１４１．ＺＨＥＮＧＦｅｉｒａｎ，ＭＩＡＯＤｕｏｑｉａｎ，ＺＨＡＮＧＺｈｉｆｅｉ，ｅｔａｌ．ＮｅｗｓｔｏｐｉｃｄｅｔｅｃｔｉｏｎａｐｐｒｏａｃｈｏｎＣｈｉｎｅｓｅｍｉｃｒｏｂｌｏｇ［Ｊ］．Ｃｏｍｐｕｔｅｒｓｃｉｅｎｃｅ，２０１２，３９（１）：１３８⁃１４１．［６］方然，苗夺谦，张志飞．一种基于情感的中文微博话题检测方法［Ｊ］．智能系统学报，２０１３，８（３）：２０８⁃２１３．ＦＡＮＧＲａｎ，ＭＩＡＯＤｕｏｑｉａｎ，ＺＨＡＮＧＺｈｉｆｅｉ，ｅｔａｌ．Ａｎｅ⁃ ｍｏｔｉｏｎ⁃ｂａｓｅｄｍｅｔｈｏｄｏｆｔｏｐｉｃｄｅｔｅｃｔｉｏｎｆｒｏｍＣｈｉｎｅｓｅｍｉ⁃ ｃｒｏｂｌｏｇｓ［Ｊ］．ＣＡＡＩｔｒａｎｓａｃｔｉｏｎｓｏｎｉｎｔｅｌｌｉｇｅｎｔｓｙｓｔｅｍｓ，第３期刘志雄，等：面向用户兴趣与社区关系的微博话题检测方法 ·２９９·

<<向上翻页向下翻页>>

点击下载：【自然语言处理与理解】面向用户兴趣与社区关系的微博话题检测方法编辑部