第8卷第3期 智能系统学报 Vol.8 No.3 2013年6月 CAAI Transactions on Intelligent Systems Jum.2013 D0I:10.3969/i.issn.1673-4785.201301012 网络出版地址:http://www.cnki.net/kcms/detail/23.1538.TP.20130515.0839.002.html 一种基于情感的中文微博话题检测方法 方然12,苗夺谦12,张志飞12 (1.同济大学计算机科学与技术系,上海201804:2.同济大学嵌入式系统与服务计算教育部重点实验室,上海 200092)】 摘要:针对微博这种特殊的文本形式的话题检测,传统的算法并不能取得很好的效果.为了提高其查全率,根据微 博这种带有结构化特点的信息,提出了一种带有情感内容加权的话题检测方法.该方法基于含有负面情感的词语往 往携带了更多的信息量这一论点,在现有短文本话题检测的算法中,通过加大含有负面情感的短文本在话题检测中 的权重,之后再根据一种基于自查询的聚类方法进行话题聚类,将情感倾向融合到短文本话题检测中在真实数据集 上的实验表明,此方法能有效地进行话题聚类并检测话题,并提高了查全率. 关键词:中文微博:话题检测:聚类:情感 中图分类号:TP391文献标志码:A文章编号:1673.4785(2013)03-0208-06 中文引用格式:方然,苗夺谦,张志飞.一种基于情感的中文微博话题检测方法[J].智能系统学报,2013,8(3):208-213. 英文引用格式:FANG Ran,MIAO Duoqian,ZHANG Zhifei.An emotion-based method of topic detection from Chinese microblogs [J].CAAI Transactions on Intelligent Systems,2013,8(3):208-213. An emotion-based method of topic detection from Chinese microblogs FANG Ran'2,MIAO Duogian'.2,ZHANG Zhifei'.2 (1.Department of Computer Science and Technology,Tongji University,Shanghai 201804,China;2 The Key Laboratory of Embedded System and Service Computing,Ministry of Education,Tongji University,Shanghai 200092,China) Abstract:Previous research studies have laid the foundation in the area of traditional topic detection and shown there are some effective ways to detect topics.However,the traditional algorithms do not work well in special situa- tions for Chinese microblogs.In order to raise the recall ratio,the focus of this paper proposes to examine methods for detecting topics.The key to topic detection method,examines how to handle the structure of microblog with e- motional content weighting,which is based on the argument that the negative words tend to carry more information. The existing topic detection methods for short messages merge emotional incination into the topic detection by first raising the weight of short messages containing negative emotion in the topic detection,then clustering the topics by a clustering method based on self-inquiry.The experiment on a real microblog dataset show that the approach pro- vided in this paper can cluster topics and detect topics effectively,and also increase the recall ratio. Keywords:Chinese microblogs;topic detection;clustering;emotion 在信息爆炸时代,从海量数据中挖掘出有用的的平台也随之兴起.微博用户可以通过网络、手机、 信息显得格外重要.随着Wb2.0的兴起,微博客即 其他客户端进行实时的短文本信息分享与传播.美 微博,一种基于用户关系的信息分享、传播以及获取 国著名的微博网站Twitter用户数达到5.17亿),最 高峰时达到6939条每秒.用户通过这些微博平台发 收稿日期:2013-01-09.网络出版日期:2013-05-15. 布生活中的所见所闻,以及对于一些事件的态度和 基金项目:国家自然科学基金资助项目(60970061,61075056.61103067): 中央高校基本科研业务费专项资金资助项目(基于云计算的 评论等. 高效数据挖掘算法研究). 通信作者:方然.E-mail:ufo2243@gmail.com. 目前对于微博的研究大多是用户关系结构的分第 8 卷第 3 期 智 能 系 统 学 报 Vol.8 №.3 2013 年 6 月 CAAI Transactions on Intelligent Systems Jun. 2013 DOI:10.3969 / j.issn.1673⁃4785.201301012 网络出版地址:http: / / www.cnki.net / kcms/ detail / 23.1538.TP.20130515.0839.002.html 一种基于情感的中文微博话题检测方法 方然1,2 ,苗夺谦1,2 ,张志飞1,2 (1.同济大学 计算机科学与技术系,上海 201804;2.同济大学 嵌入式系统与服务计算教育部重点实验室,上海 200092) 摘 要:针对微博这种特殊的文本形式的话题检测,传统的算法并不能取得很好的效果.为了提高其查全率,根据微 博这种带有结构化特点的信息,提出了一种带有情感内容加权的话题检测方法.该方法基于含有负面情感的词语往 往携带了更多的信息量这一论点,在现有短文本话题检测的算法中,通过加大含有负面情感的短文本在话题检测中 的权重,之后再根据一种基于自查询的聚类方法进行话题聚类,将情感倾向融合到短文本话题检测中.在真实数据集 上的实验表明,此方法能有效地进行话题聚类并检测话题,并提高了查全率. 关键词:中文微博;话题检测;聚类;情感 中图分类号: TP391 文献标志码:A 文章编号:1673⁃4785(2013)03⁃0208⁃06 中文引用格式:方然,苗夺谦,张志飞. 一种基于情感的中文微博话题检测方法[J].智能系统学报, 2013, 8(3): 208⁃213. 英文引用格式:FANG Ran, MIAO Duoqian, ZHANG Zhifei. An emotion⁃based method of topic detection from Chinese microblogs [J]. CAAI Transactions on Intelligent Systems, 2013, 8(3): 208⁃213. An emotion⁃based method of topic detection from Chinese microblogs FANG Ran 1,2 , MIAO Duoqian 1,2 , ZHANG Zhifei 1,2 (1. Department of Computer Science and Technology, Tongji University, Shanghai 201804, China; 2 The Key Laboratory of Embedded System and Service Computing, Ministry of Education, Tongji University, Shanghai 200092, China) Abstract:Previous research studies have laid the foundation in the area of traditional topic detection and shown there are some effective ways to detect topics. However, the traditional algorithms do not work well in special situa⁃ tions for Chinese microblogs. In order to raise the recall ratio, the focus of this paper proposes to examine methods for detecting topics. The key to topic detection method, examines how to handle the structure of microblog with e⁃ motional content weighting, which is based on the argument that the negative words tend to carry more information. The existing topic detection methods for short messages merge emotional incination into the topic detection by first raising the weight of short messages containing negative emotion in the topic detection, then clustering the topics by a clustering method based on self⁃inquiry. The experiment on a real microblog dataset show that the approach pro⁃ vided in this paper can cluster topics and detect topics effectively, and also increase the recall ratio. Keywords: Chinese microblogs; topic detection; clustering; emotion 收稿日期:2013⁃01⁃09. 网络出版日期:2013⁃05⁃15. 基金项目:国家自然科学基金资助项目(60970061,61075056,61103067); 中央高校基本科研业务费专项资金资助项目(基于云计算的 高效数据挖掘算法研究). 通信作者:方然. E⁃mail: ufo2243@ gmail.com. 在信息爆炸时代,从海量数据中挖掘出有用的 信息显得格外重要.随着 Web2.0 的兴起,微博客即 微博,一种基于用户关系的信息分享、传播以及获取 的平台也随之兴起.微博用户可以通过网络、手机、 其他客户端进行实时的短文本信息分享与传播.美 国著名的微博网站 Twitter 用户数达到 5.17 亿[1] ,最 高峰时达到 6 939 条每秒.用户通过这些微博平台发 布生活中的所见所闻,以及对于一些事件的态度和 评论等. 目前对于微博的研究大多是用户关系结构的分
©2008-现在 cucdc.com 高等教育资讯网 版权所有