正在加载图片...
第11卷第4期 智能系统学报 Vol.11 No.4 2016年8月 CAAI Transactions on Intelligent Systems Aug.2016 D0I:10.11992/is.201606007 网络出版地址:http://www.cnki.net/kcms/detail,/23.1538.TP.20160808.0830.020.html 基于词加权LDA算法的无监督情感分类 郝洁,谢珺,苏婧琼,续欣莹,韩晓霞 (太原理工大学信息工程学院,山西晋中030600) 摘要:主题情感混合模型可以有效地提取语料的主题信息和情感倾向。本文针对现有主题/情感分析方法主题间 区分度较低的问题提出了一种词加权LDA算法(weighted latent dirichlet allocation algorithm,WLDA),该算法可以实 现无监督的主题提取和情感分析。通过计算语料中词汇与情感种子词的距离,在吉布斯采样中对不同词汇赋予不 同权重,利用每个主题下的关键词判断主题的情感倾向,进而得到每篇文档的情感分布。这种方法增强了具有情感 倾向的词汇在采样过程中的影响,从而改善了主题间的区分性。实验表明,与JST(Joint Sentiment/Topic model)模型 相比,WLDA不仅在采样中迭代速度快,也能够更好地实现主题提取和情感分类。 关键词:情感分类:主题情感混合模型:主题模型:LDA:加权算法 中图分类号:TP391文献标志码:A文章编号:1673-4785(2016)04-0539-07 中文引用格式:郝洁,谢裙,苏婧琼,等.基于词加权LDA算法的无监督情感分类[J].智能系统学报,2016,11(4):539-545. 英文引用格式:HAO Jie,XIEJun,SU Jingqiong,etal.An unsupervised approach for sentiment classification based on weighted latent dirichlet allocation[J].CAAI Transactions on Intelligent Systems,2016,11(4):539-545. An unsupervised approach for sentiment classification based on weighted latent dirichlet allocation HAO Jie,XIE Jun,SU Jingqiong,XU Xinying,HAN Xiaoxia Information Engineering College,Taiyuan University of Technology,Jinzhong 030600,China) Abstract:The topic and sentiment unification model can efficiently detect topics and emotions for a given corpus. Faced with the low discriminability of topics in sentiment/topic analysis methods,this paper proposes a novel meth- od,the weighted latent dirichlet allocation algorithm (WLDA),which can acquire sentiments and topics without supervision.The model assigns weights to terms during Gibbs sampling by calculating the distance between seed words and terms,then counts the weights of key words to estimate the sentiment orientation of each topic and obtain the emotional distribution throughout documents.This method enhances the impact of words that convey emotional attitudes and obtains more discriminative topics as a consequence.The experiments show that WLDA,compared with the joint sentiment/topic model (JST),not only has a higher iteration sampling speed,but also gives better results for topic extraction and sentiment classification. Keywords:sentiment classification;topic and sentiment unification model;topic model;LDA;weighting algo- rithm 互联网不仅是获取信息的重要途径,也是广大 等自媒体的流行,网络购物的盛行和网购评价体系 网民表达观点和看法的平台。随着博客、微博、微信 的不断完善,对事件的观,点、对物品的评价等具有情 感倾向的文本飞速增长。这些信息对于政府部门的 收稿日期:2016-06-02.网络出版日期:2016-08-08. 基金项目:山西省回国留学人员科研项目(2015-045,2013-033):山西省 舆情监控、企业的经营决策和个人的购买决定都起 留学回国人员科技活动择优资助项目(2013):山西省自然科着至关重要的作用。然而,这些评价信息数量巨大、 学基金项目(2014011018-2). 通信作者:谢埔.E-mail:xiejun(@tyut.edu.cm 变化迅速,仅依赖人工收集整理不仅成本高,也难以第 11 卷第 4 期 智 能 系 统 学 报 Vol.11 №.4 2016 年 8 月 CAAI Transactions on Intelligent Systems Aug. 2016 DOI:10.11992 / tis.201606007 网络出版地址:http: / / www.cnki.net / kcms/ detail / 23.1538.TP.20160808.0830.020.html 基于词加权 LDA 算法的无监督情感分类 郝洁,谢珺,苏婧琼,续欣莹,韩晓霞 (太原理工大学 信息工程学院,山西 晋中 030600) 摘 要:主题情感混合模型可以有效地提取语料的主题信息和情感倾向。 本文针对现有主题/ 情感分析方法主题间 区分度较低的问题提出了一种词加权 LDA 算法(weighted latent dirichlet allocation algorithm,WLDA),该算法可以实 现无监督的主题提取和情感分析。 通过计算语料中词汇与情感种子词的距离,在吉布斯采样中对不同词汇赋予不 同权重,利用每个主题下的关键词判断主题的情感倾向,进而得到每篇文档的情感分布。 这种方法增强了具有情感 倾向的词汇在采样过程中的影响,从而改善了主题间的区分性。 实验表明,与 JST( Joint Sentiment / Topic model)模型 相比,WLDA 不仅在采样中迭代速度快,也能够更好地实现主题提取和情感分类。 关键词:情感分类;主题情感混合模型;主题模型;LDA;加权算法 中图分类号: TP391 文献标志码:A 文章编号:1673-4785(2016)04-0539-07 中文引用格式:郝洁,谢珺,苏婧琼,等. 基于词加权 LDA 算法的无监督情感分类[J]. 智能系统学报, 2016, 11(4): 539-545. 英文引用格式:HAO Jie, XIE Jun, SU Jingqiong, et al. An unsupervised approach for sentiment classification based on weighted latent dirichlet allocation[J]. CAAI Transactions on Intelligent Systems, 2016, 11(4): 539-545. An unsupervised approach for sentiment classification based on weighted latent dirichlet allocation HAO Jie, XIE Jun, SU Jingqiong, XU Xinying, HAN Xiaoxia (Information Engineering College, Taiyuan University of Technology, Jinzhong 030600, China) Abstract:The topic and sentiment unification model can efficiently detect topics and emotions for a given corpus. Faced with the low discriminability of topics in sentiment / topic analysis methods, this paper proposes a novel meth⁃ od, the weighted latent dirichlet allocation algorithm (WLDA), which can acquire sentiments and topics without supervision. The model assigns weights to terms during Gibbs sampling by calculating the distance between seed words and terms, then counts the weights of key words to estimate the sentiment orientation of each topic and obtain the emotional distribution throughout documents. This method enhances the impact of words that convey emotional attitudes and obtains more discriminative topics as a consequence. The experiments show that WLDA, compared with the joint sentiment / topic model (JST), not only has a higher iteration sampling speed, but also gives better results for topic extraction and sentiment classification. Keywords: sentiment classification; topic and sentiment unification model; topic model; LDA; weighting algo⁃ rithm 收稿日期:2016-06-02. 网络出版日期:2016-08-08. 基金项目:山西省回国留学人员科研项目(2015⁃045,2013⁃033);山西省 留学回国人员科技活动择优资助项目(2013);山西省自然科 学基金项目(2014011018⁃2). 通信作者:谢珺. E⁃mail:xiejun@ tyut.edu.cn. 互联网不仅是获取信息的重要途径,也是广大 网民表达观点和看法的平台。 随着博客、微博、微信 等自媒体的流行,网络购物的盛行和网购评价体系 的不断完善,对事件的观点、对物品的评价等具有情 感倾向的文本飞速增长。 这些信息对于政府部门的 舆情监控、企业的经营决策和个人的购买决定都起 着至关重要的作用。 然而,这些评价信息数量巨大、 变化迅速,仅依赖人工收集整理不仅成本高,也难以
向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有