正在加载图片...
第11卷第3期 智能系统学报 Vol.11 No.3 2016年6月 CAAI Transactions on Intelligent Systems Jun.2016 D0I:10.11992/is.201603341 网络出版地址:http://www.cnki.net/kcms/detail/23.1538.TP.20160513.0919.014.html 面向用户兴趣与社区关系的微博话题检测方法 刘志雄12,贾彩燕12 (1.北京交通大学计算机与信息技术学院,北京100044:2.北京交通大学交道数据分析与挖掘北京市重点实验室, 北京100044) 摘要:微博话题检测是一种特殊形式的话题检测,传统的话题检测方法并不能取得很好的效果。提出了一种面向 微博用户社区的话题检测方法。该方法首先在用户发表的微博文本上,利用LDA主题模型分析用户的兴趣分布。 接着,结合微博用户关系网络与用户兴趣对用户进行社区划分,使得同一社区的用户不仅具有较稠密的链接关系, 还具有相似的兴趣。然后,面向用户社区,在每个社区内部检测用户关心的话题,给出了一种面向用户社区的、融合 词重要度与ε近邻图的微博话题发现方法。该算法能够有效地去除微博噪声、快速准确检测出每个用户社区内关 心的话题并对话题进行热度排行。 关键词:微博:社区:网络:文本:话题:兴趣:噪声:主题 中图分类号:TP393文献标志码:A文章编号:1673-4785(2016)03-0294-06 中文引用格式:刘志雄,贾彩燕.面向用户兴趣与社区关系的微博话题检测方法[J].智能系统学报,2016,11(3】:294-300. 英文引用格式:LIU Zhixiong,JIA Caiyan..Micro--blog topic detection based on users'interests and communities[J].CAAI transac- tions on intelligent systems,2016,11(3):294-300. Micro-blog topic detection based on users'interests and communities LIU Zhixiong'2,JIA Caiyan (1.School of Computer and Information Technology,University of Beijing Jiaotong,Beijing 100044,China;2.University of Beijing Jiaotong Beijing Key Lab of Traffic Data Analysis and Mining,Beijing 100044,China) Abstract:Microblog topic detection is a special type of topic detection.The traditional topic detection algorithms do not work well in special situations for Chinese microblogs.In this paper,a topic detection method cater to the user community of microblogs is proposed.Firstly,the users'interests were analyzed by using the LDA(Latent Dirichlet Allocation)topic model on the text of microblogs generated by users/bloggers.Then the user/follower network asso- ciated with users'interests was created and partitioned into different communities so that the users in the same group were not only densely connected but also shared similar interests.Then,the topics of interest in each community were detected.Together,this provides a microblog topic finding method that faces a user's community and combines the importance of words as well as an s neighboring graph.The experimental tests show that the method can effec- tively eliminate microblog noise,compute the importance of words,and rapidly and accurately obtain the topics of interest of each community. Keywords:microblog;community;network;text;topic;interest;noise;theme 在信息爆炸时代,从海量数据中挖掘出有用的 享、传播以及获取的平台也随之兴起。微博用户可 信息显得格外重要。随着Wb2.0的兴起,微博客 以通过PC端、手机端以及其他客户端组建个人社 即微博,这种基于用户关系与短文本特性的信息分 区,以140字左右的文字更新信息,并实现即时分 享。微博成为典型的Wb2.0应用之一。 收稿日期:2016-03-19.网络出版日期:2016-05-13. 在现实世界中,有很多系统都可以抽象为网络, 基金项目:国家自然科学基金面上项目(61473030)、中央高校基本科研 业务专项基金项目(2014JBM031). 这些网络中包含着一些潜在的社区结构,具有社区 通信作者:刘志雄.E-mail:523129791@qq.com第 11 卷第 3 期 智 能 系 统 学 报 Vol.11 №.3 2016 年 6 月 CAAI Transactions on Intelligent Systems Jun. 2016 DOI:10.11992 / tis.201603341 网络出版地址:http: / / www.cnki.net / kcms/ detail / 23.1538.TP.20160513.0919.014.html 面向用户兴趣与社区关系的微博话题检测方法 刘志雄1,2 ,贾彩燕1,2 (1.北京交通大学 计算机与信息技术学院,北京 100044; 2.北京交通大学 交通数据分析与挖掘北京市重点实验室, 北京 100044) 摘 要:微博话题检测是一种特殊形式的话题检测,传统的话题检测方法并不能取得很好的效果。 提出了一种面向 微博用户社区的话题检测方法。 该方法首先在用户发表的微博文本上,利用 LDA 主题模型分析用户的兴趣分布。 接着,结合微博用户关系网络与用户兴趣对用户进行社区划分,使得同一社区的用户不仅具有较稠密的链接关系, 还具有相似的兴趣。 然后,面向用户社区,在每个社区内部检测用户关心的话题,给出了一种面向用户社区的、融合 词重要度与 ε 近邻图的微博话题发现方法。 该算法能够有效地去除微博噪声、快速准确检测出每个用户社区内关 心的话题并对话题进行热度排行。 关键词:微博;社区;网络;文本;话题;兴趣;噪声;主题 中图分类号:TP393 文献标志码:A 文章编号:1673⁃4785(2016)03⁃0294⁃06 中文引用格式:刘志雄,贾彩燕.面向用户兴趣与社区关系的微博话题检测方法[J]. 智能系统学报, 2016, 11(3): 294⁃300. 英文引用格式:LIU Zhixiong,JIA Caiyan.Micro⁃blog topic detection based on users’ interests and communities[J]. CAAI transac⁃ tions on intelligent systems, 2016,11(3): 294⁃300. Micro⁃blog topic detection based on users’ interests and communities LIU Zhixiong 1,2 , JIA Caiyan 1,2 (1. School of Computer and Information Technology, University of Beijing Jiaotong, Beijing 100044, China; 2.University of Beijing Jiaotong Beijing Key Lab of Traffic Data Analysis and Mining, Beijing 100044, China) Abstract:Microblog topic detection is a special type of topic detection. The traditional topic detection algorithms do not work well in special situations for Chinese microblogs. In this paper, a topic detection method cater to the user community of microblogs is proposed. Firstly, the users' interests were analyzed by using the LDA(Latent Dirichlet Allocation) topic model on the text of microblogs generated by users/ bloggers. Then the user/ follower network asso⁃ ciated with users' interests was created and partitioned into different communities so that the users in the same group were not only densely connected but also shared similar interests. Then, the topics of interest in each community were detected. Together, this provides a microblog topic finding method that faces a user's community and combines the importance of words as well as an ε neighboring graph. The experimental tests show that the method can effec⁃ tively eliminate microblog noise, compute the importance of words, and rapidly and accurately obtain the topics of interest of each community. Keywords:microblog; community; network; text; topic; interest; noise; theme 收稿日期:2016⁃03⁃19. 网络出版日期:2016⁃05⁃13. 基金项目:国家自然科学基金面上项目(61473030)、中央高校基本科研 业务专项基金项目(2014JBM031). 通信作者:刘志雄. E⁃mail:523129791@ qq.com. 在信息爆炸时代,从海量数据中挖掘出有用的 信息显得格外重要。 随着 Web2.0 的兴起,微博客 即微博,这种基于用户关系与短文本特性的信息分 享、传播以及获取的平台也随之兴起。 微博用户可 以通过 PC 端、手机端以及其他客户端组建个人社 区,以 140 字左右的文字更新信息,并实现即时分 享。 微博成为典型的 Web2.0 应用之一。 在现实世界中,有很多系统都可以抽象为网络, 这些网络中包含着一些潜在的社区结构,具有社区
向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有