【自然语言处理与理解】基于词加权LDA算法的无监督情感分类

团购合买资源类别：文库，文档格式：PDF，文档页数：7，文件大小：996.78KB

第11卷第4期智能系统学报 Vol.11 No.4 2016年8月 CAAI Transactions on Intelligent Systems Aug.2016 D0I:10.11992/is.201606007 网络出版地址：http://www.cnki.net/kcms/detail,/23.1538.TP.20160808.0830.020.html 基于词加权LDA算法的无监督情感分类郝洁，谢珺，苏婧琼，续欣莹，韩晓霞 (太原理工大学信息工程学院，山西晋中030600) 摘要：主题情感混合模型可以有效地提取语料的主题信息和情感倾向。本文针对现有主题/情感分析方法主题间区分度较低的问题提出了一种词加权LDA算法(weighted latent dirichlet allocation algorithm,WLDA),该算法可以实现无监督的主题提取和情感分析。通过计算语料中词汇与情感种子词的距离，在吉布斯采样中对不同词汇赋予不同权重，利用每个主题下的关键词判断主题的情感倾向，进而得到每篇文档的情感分布。这种方法增强了具有情感倾向的词汇在采样过程中的影响，从而改善了主题间的区分性。实验表明，与JST(Joint Sentiment/Topic model)模型相比，WLDA不仅在采样中迭代速度快，也能够更好地实现主题提取和情感分类。关键词：情感分类：主题情感混合模型：主题模型：LDA:加权算法中图分类号：TP391文献标志码：A文章编号：1673-4785(2016)04-0539-07 中文引用格式：郝洁，谢裙，苏婧琼，等.基于词加权LDA算法的无监督情感分类[J].智能系统学报，2016,11(4)：539-545. 英文引用格式：HAO Jie,XIEJun,SU Jingqiong,etal.An unsupervised approach for sentiment classification based on weighted latent dirichlet allocation[J].CAAI Transactions on Intelligent Systems,2016,11(4):539-545. An unsupervised approach for sentiment classification based on weighted latent dirichlet allocation HAO Jie,XIE Jun,SU Jingqiong,XU Xinying,HAN Xiaoxia Information Engineering College,Taiyuan University of Technology,Jinzhong 030600,China) Abstract:The topic and sentiment unification model can efficiently detect topics and emotions for a given corpus. Faced with the low discriminability of topics in sentiment/topic analysis methods,this paper proposes a novel meth- od,the weighted latent dirichlet allocation algorithm (WLDA),which can acquire sentiments and topics without supervision.The model assigns weights to terms during Gibbs sampling by calculating the distance between seed words and terms,then counts the weights of key words to estimate the sentiment orientation of each topic and obtain the emotional distribution throughout documents.This method enhances the impact of words that convey emotional attitudes and obtains more discriminative topics as a consequence.The experiments show that WLDA,compared with the joint sentiment/topic model (JST),not only has a higher iteration sampling speed,but also gives better results for topic extraction and sentiment classification. Keywords:sentiment classification;topic and sentiment unification model;topic model;LDA;weighting algo- rithm 互联网不仅是获取信息的重要途径，也是广大等自媒体的流行，网络购物的盛行和网购评价体系网民表达观点和看法的平台。随着博客、微博、微信的不断完善，对事件的观，点、对物品的评价等具有情感倾向的文本飞速增长。这些信息对于政府部门的收稿日期：2016-06-02.网络出版日期：2016-08-08. 基金项目：山西省回国留学人员科研项目(2015-045,2013-033)：山西省舆情监控、企业的经营决策和个人的购买决定都起留学回国人员科技活动择优资助项目(2013)：山西省自然科着至关重要的作用。然而，这些评价信息数量巨大、学基金项目(2014011018-2). 通信作者：谢埔.E-mail:xiejun(@tyut.edu.cm 变化迅速，仅依赖人工收集整理不仅成本高，也难以

第１１卷第４期智能系统学报Ｖｏｌ．１１ №．４２０１６年８月ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓＡｕｇ．２０１６ＤＯＩ：１０．１１９９２／ｔｉｓ．２０１６０６００７网络出版地址：ｈｔｔｐ：／／ｗｗｗ．ｃｎｋｉ．ｎｅｔ／ｋｃｍｓ／ｄｅｔａｉｌ／２３．１５３８．ＴＰ．２０１６０８０８．０８３０．０２０．ｈｔｍｌ基于词加权ＬＤＡ算法的无监督情感分类郝洁，谢珺，苏婧琼，续欣莹，韩晓霞（太原理工大学信息工程学院，山西晋中０３０６００）摘要：主题情感混合模型可以有效地提取语料的主题信息和情感倾向。本文针对现有主题／情感分析方法主题间区分度较低的问题提出了一种词加权ＬＤＡ算法（ｗｅｉｇｈｔｅｄｌａｔｅｎｔｄｉｒｉｃｈｌｅｔａｌｌｏｃａｔｉｏｎａｌｇｏｒｉｔｈｍ，ＷＬＤＡ），该算法可以实现无监督的主题提取和情感分析。通过计算语料中词汇与情感种子词的距离，在吉布斯采样中对不同词汇赋予不同权重，利用每个主题下的关键词判断主题的情感倾向，进而得到每篇文档的情感分布。这种方法增强了具有情感倾向的词汇在采样过程中的影响，从而改善了主题间的区分性。实验表明，与ＪＳＴ（ＪｏｉｎｔＳｅｎｔｉｍｅｎｔ／Ｔｏｐｉｃｍｏｄｅｌ）模型相比，ＷＬＤＡ不仅在采样中迭代速度快，也能够更好地实现主题提取和情感分类。关键词：情感分类；主题情感混合模型；主题模型；ＬＤＡ；加权算法中图分类号：ＴＰ３９１文献标志码：Ａ文章编号：１６７３－４７８５（２０１６）０４－０５３９－０７中文引用格式：郝洁，谢珺，苏婧琼，等．基于词加权ＬＤＡ算法的无监督情感分类［Ｊ］．智能系统学报，２０１６，１１（４）：５３９－５４５．英文引用格式：ＨＡＯＪｉｅ，ＸＩＥＪｕｎ，ＳＵＪｉｎｇｑｉｏｎｇ，ｅｔａｌ．Ａｎｕｎｓｕｐｅｒｖｉｓｅｄａｐｐｒｏａｃｈｆｏｒｓｅｎｔｉｍｅｎｔｃｌａｓｓｉｆｉｃａｔｉｏｎｂａｓｅｄｏｎｗｅｉｇｈｔｅｄｌａｔｅｎｔｄｉｒｉｃｈｌｅｔａｌｌｏｃａｔｉｏｎ［Ｊ］．ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓ，２０１６，１１（４）：５３９－５４５．ＡｎｕｎｓｕｐｅｒｖｉｓｅｄａｐｐｒｏａｃｈｆｏｒｓｅｎｔｉｍｅｎｔｃｌａｓｓｉｆｉｃａｔｉｏｎｂａｓｅｄｏｎｗｅｉｇｈｔｅｄｌａｔｅｎｔｄｉｒｉｃｈｌｅｔａｌｌｏｃａｔｉｏｎＨＡＯＪｉｅ，ＸＩＥＪｕｎ，ＳＵＪｉｎｇｑｉｏｎｇ，ＸＵＸｉｎｙｉｎｇ，ＨＡＮＸｉａｏｘｉａ（ＩｎｆｏｒｍａｔｉｏｎＥｎｇｉｎｅｅｒｉｎｇＣｏｌｌｅｇｅ，ＴａｉｙｕａｎＵｎｉｖｅｒｓｉｔｙｏｆＴｅｃｈｎｏｌｏｇｙ，Ｊｉｎｚｈｏｎｇ０３０６００，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：Ｔｈｅｔｏｐｉｃａｎｄｓｅｎｔｉｍｅｎｔｕｎｉｆｉｃａｔｉｏｎｍｏｄｅｌｃａｎｅｆｆｉｃｉｅｎｔｌｙｄｅｔｅｃｔｔｏｐｉｃｓａｎｄｅｍｏｔｉｏｎｓｆｏｒａｇｉｖｅｎｃｏｒｐｕｓ．Ｆａｃｅｄｗｉｔｈｔｈｅｌｏｗｄｉｓｃｒｉｍｉｎａｂｉｌｉｔｙｏｆｔｏｐｉｃｓｉｎｓｅｎｔｉｍｅｎｔ／ｔｏｐｉｃａｎａｌｙｓｉｓｍｅｔｈｏｄｓ，ｔｈｉｓｐａｐｅｒｐｒｏｐｏｓｅｓａｎｏｖｅｌｍｅｔｈ⁃ ｏｄ，ｔｈｅｗｅｉｇｈｔｅｄｌａｔｅｎｔｄｉｒｉｃｈｌｅｔａｌｌｏｃａｔｉｏｎａｌｇｏｒｉｔｈｍ（ＷＬＤＡ），ｗｈｉｃｈｃａｎａｃｑｕｉｒｅｓｅｎｔｉｍｅｎｔｓａｎｄｔｏｐｉｃｓｗｉｔｈｏｕｔｓｕｐｅｒｖｉｓｉｏｎ．ＴｈｅｍｏｄｅｌａｓｓｉｇｎｓｗｅｉｇｈｔｓｔｏｔｅｒｍｓｄｕｒｉｎｇＧｉｂｂｓｓａｍｐｌｉｎｇｂｙｃａｌｃｕｌａｔｉｎｇｔｈｅｄｉｓｔａｎｃｅｂｅｔｗｅｅｎｓｅｅｄｗｏｒｄｓａｎｄｔｅｒｍｓ，ｔｈｅｎｃｏｕｎｔｓｔｈｅｗｅｉｇｈｔｓｏｆｋｅｙｗｏｒｄｓｔｏｅｓｔｉｍａｔｅｔｈｅｓｅｎｔｉｍｅｎｔｏｒｉｅｎｔａｔｉｏｎｏｆｅａｃｈｔｏｐｉｃａｎｄｏｂｔａｉｎｔｈｅｅｍｏｔｉｏｎａｌｄｉｓｔｒｉｂｕｔｉｏｎｔｈｒｏｕｇｈｏｕｔｄｏｃｕｍｅｎｔｓ．Ｔｈｉｓｍｅｔｈｏｄｅｎｈａｎｃｅｓｔｈｅｉｍｐａｃｔｏｆｗｏｒｄｓｔｈａｔｃｏｎｖｅｙｅｍｏｔｉｏｎａｌａｔｔｉｔｕｄｅｓａｎｄｏｂｔａｉｎｓｍｏｒｅｄｉｓｃｒｉｍｉｎａｔｉｖｅｔｏｐｉｃｓａｓａｃｏｎｓｅｑｕｅｎｃｅ．ＴｈｅｅｘｐｅｒｉｍｅｎｔｓｓｈｏｗｔｈａｔＷＬＤＡ，ｃｏｍｐａｒｅｄｗｉｔｈｔｈｅｊｏｉｎｔｓｅｎｔｉｍｅｎｔ／ｔｏｐｉｃｍｏｄｅｌ（ＪＳＴ），ｎｏｔｏｎｌｙｈａｓａｈｉｇｈｅｒｉｔｅｒａｔｉｏｎｓａｍｐｌｉｎｇｓｐｅｅｄ，ｂｕｔａｌｓｏｇｉｖｅｓｂｅｔｔｅｒｒｅｓｕｌｔｓｆｏｒｔｏｐｉｃｅｘｔｒａｃｔｉｏｎａｎｄｓｅｎｔｉｍｅｎｔｃｌａｓｓｉｆｉｃａｔｉｏｎ．Ｋｅｙｗｏｒｄｓ：ｓｅｎｔｉｍｅｎｔｃｌａｓｓｉｆｉｃａｔｉｏｎ；ｔｏｐｉｃａｎｄｓｅｎｔｉｍｅｎｔｕｎｉｆｉｃａｔｉｏｎｍｏｄｅｌ；ｔｏｐｉｃｍｏｄｅｌ；ＬＤＡ；ｗｅｉｇｈｔｉｎｇａｌｇｏ⁃ ｒｉｔｈｍ收稿日期：２０１６－０６－０２．网络出版日期：２０１６－０８－０８．基金项目：山西省回国留学人员科研项目（２０１５⁃０４５，２０１３⁃０３３）；山西省留学回国人员科技活动择优资助项目（２０１３）；山西省自然科学基金项目（２０１４０１１０１８⁃２）．通信作者：谢珺．Ｅ⁃ｍａｉｌ：ｘｉｅｊｕｎ＠ｔｙｕｔ．ｅｄｕ．ｃｎ．互联网不仅是获取信息的重要途径，也是广大网民表达观点和看法的平台。随着博客、微博、微信等自媒体的流行，网络购物的盛行和网购评价体系的不断完善，对事件的观点、对物品的评价等具有情感倾向的文本飞速增长。这些信息对于政府部门的舆情监控、企业的经营决策和个人的购买决定都起着至关重要的作用。然而，这些评价信息数量巨大、变化迅速，仅依赖人工收集整理不仅成本高，也难以

.540 智能系统学报第11卷满足时效性要求。因此文本情感分析受到了学术界域得到了广泛应用。其图模型见图1。与工业界越来越多的关注1-2】。情感分类是文本情感分析的重要组成部分。它是指根据文本所表达的含义和情感信息将文本划分为褒扬或贬义两种或几种类型，是对文本作倾向性、观点和态度的划分。目前，大多数情感分类方法都是监督模型或半监督模型，但标记好的语料常常难以获取，给情感分类造成困难。基于主题模型的情感分类，不仅具有无监督的优势，也具有较强的可移植性)。 Lin等)提出了LSM模型(latent sentiment 图1LDA图模型o model),该模型将情感作为主题的特例，认为文档中 Fig.1 Graphical model of LDA] 词汇的分布与情感有关，从而实现了文档的无监督图1中，各个符号的含义见表1。情感分类，但无法识别出更细粒度的情感信息。表1LDA符号含义对照表 Titov等[s)提出的MG-LDA模型(multi-.grain model) Table 1 Symbols and its meanings in LDA 能够以较细的粒度提取主题，该算法是一个有监督符号含义学习模型，需要对样本类别进行人工标注。TAM 狄利克雷分布，0的超参数 topic-aspect model)TSM(topic sentiment mix- ⊙ 狄利克雷分布，的超参数 ture)[)能够无监督地抽取文档的主题和情感信息。 0 “文档-主题”的多项式分布但这两种算法假定主题和情感的分布相互独立，忽 6 “主题-词汇”的多项式分布略了二者的联系，也给解释主题和情感的关系造成词的主题分配困难。ASUM模型(aspect and sentiment unification 词 model)考虑了主题和情感的相关性，建立了“句 K 主题数目子一主题一词”的3层模型，有效提取了情感和主 M 文档数目题信息，但这种方法将每个句子视为一个文档，丢失了上下文信息[)。JST模型(joint sentiment/opic N 一篇文档的词数 model)是一种可以无监督地提取文档主题和情感信根据LDA模型，文档的产生过程见算法1。息的4层贝叶斯网络，但该算法的复杂度较高，结果算法1【o]LDA文档产生过程。不够稳定)。欧阳继红等在ST模型的基础上，提输入&B、K; 出了多粒度的主题情感混合模型MG-R-JST和MG 输出文档。 JST,该方法同时考虑到文档和局部两个粒度的情感对每个主题k∈[1，K],采样词分布Pk~ 主题分布，稳定性好，但面临复杂度较高的问题9)。 Dir(B) 本文在LDA模型的基础上，提出了应用于主对每篇文档me[1,M] 题/情感分析的词加权LDA算法(weighted latent 采样一个主题分布0。~Dir(a) dirichlet allocation,WLDA),通过计算语料中词汇与对文档m中的每个词w 情感种子词的距离，在吉布斯采样中对各词区分对根据Bm采样一个主题z~Mult(0m) 待，利用每个主题下的关键词判断主题的情感倾向，根据主题z采样一个词w~Mut(9) 进而得到每篇文档的情感分布。实验表明，WLDA 其中，隐含变量0和可按式(1)和式(2)估计：可提取细粒度情感，并且具有迭代速度快、分类精度 n()+a (1) 高的优点。三(a+a) 1LDA模型 n0+B, (2) LDA(latent dirichlet allocation)[oj是一种3层 (n9+B) 贝叶斯模型，它描述了文档、主题、词汇间的关系。 1=1 式中：n表示文本m中主题为k的词汇数目，n LDA模型自2003年提出以来，已经有了诸多的改表示词t中主题为k的词汇数目。V表示不计重复的进和变形算法，并在文本分类、信息检索2]等领词汇总数

满足时效性要求。因此文本情感分析受到了学术界与工业界越来越多的关注［１－２］。情感分类是文本情感分析的重要组成部分。它是指根据文本所表达的含义和情感信息将文本划分为褒扬或贬义两种或几种类型，是对文本作倾向性、观点和态度的划分。目前，大多数情感分类方法都是监督模型或半监督模型，但标记好的语料常常难以获取，给情感分类造成困难。基于主题模型的情感分类，不仅具有无监督的优势，也具有较强的可移植性［３］。Ｌｉｎ等［４］提出了ＬＳＭ模型（ｌａｔｅｎｔｓｅｎｔｉｍｅｎｔｍｏｄｅｌ），该模型将情感作为主题的特例，认为文档中词汇的分布与情感有关，从而实现了文档的无监督情感分类，但无法识别出更细粒度的情感信息。Ｔｉｔｏｖ等［５］提出的ＭＧ⁃ＬＤＡ模型（ｍｕｌｔｉ⁃ｇｒａｉｎｍｏｄｅｌ）能够以较细的粒度提取主题，该算法是一个有监督学习模型，需要对样本类别进行人工标注。ＴＡＭ（ｔｏｐｉｃ⁃ａｓｐｅｃｔｍｏｄｅｌ）［６］和ＴＳＭ（ｔｏｐｉｃｓｅｎｔｉｍｅｎｔｍｉｘ⁃ ｔｕｒｅ）［７］能够无监督地抽取文档的主题和情感信息。但这两种算法假定主题和情感的分布相互独立，忽略了二者的联系，也给解释主题和情感的关系造成困难。ＡＳＵＭ模型（ａｓｐｅｃｔａｎｄｓｅｎｔｉｍｅｎｔｕｎｉｆｉｃａｔｉｏｎｍｏｄｅｌ）考虑了主题和情感的相关性，建立了 “ 句子—主题—词” 的３层模型，有效提取了情感和主题信息，但这种方法将每个句子视为一个文档，丢失了上下文信息［８］。ＪＳＴ模型（ｊｏｉｎｔｓｅｎｔｉｍｅｎｔ／ｔｏｐｉｃｍｏｄｅｌ）是一种可以无监督地提取文档主题和情感信息的４层贝叶斯网络，但该算法的复杂度较高，结果不够稳定［３］。欧阳继红等在ＪＳＴ模型的基础上，提出了多粒度的主题情感混合模型ＭＧ⁃Ｒ⁃ＪＳＴ和ＭＧ⁃ ＪＳＴ，该方法同时考虑到文档和局部两个粒度的情感主题分布，稳定性好，但面临复杂度较高的问题［９］。本文在ＬＤＡ模型的基础上，提出了应用于主题／情感分析的词加权ＬＤＡ算法（ｗｅｉｇｈｔｅｄｌａｔｅｎｔｄｉｒｉｃｈｌｅｔａｌｌｏｃａｔｉｏｎ，ＷＬＤＡ），通过计算语料中词汇与情感种子词的距离，在吉布斯采样中对各词区分对待，利用每个主题下的关键词判断主题的情感倾向，进而得到每篇文档的情感分布。实验表明，ＷＬＤＡ可提取细粒度情感，并且具有迭代速度快、分类精度高的优点。１ＬＤＡ模型ＬＤＡ（ｌａｔｅｎｔｄｉｒｉｃｈｌｅｔａｌｌｏｃａｔｉｏｎ）［１０］是一种３层贝叶斯模型，它描述了文档、主题、词汇间的关系。ＬＤＡ模型自２００３年提出以来，已经有了诸多的改进和变形算法，并在文本分类［１１］、信息检索［１２］等领域得到了广泛应用。其图模型见图１。图１ＬＤＡ图模型［１０］Ｆｉｇ．１ＧｒａｐｈｉｃａｌｍｏｄｅｌｏｆＬＤＡ［１０］图１中，各个符号的含义见表１。表１ＬＤＡ符号含义对照表Ｔａｂｌｅ１ＳｙｍｂｏｌｓａｎｄｉｔｓｍｅａｎｉｎｇｓｉｎＬＤＡ符号含义 α 狄利克雷分布，θ 的超参数 β 狄利克雷分布，φ 的超参数 θ “文档－主题”的多项式分布 φ “主题－词汇”的多项式分布ｚ词的主题分配ｗ词Ｋ主题数目Ｍ文档数目Ｎ一篇文档的词数根据ＬＤＡ模型，文档的产生过程见算法１。算法１［１０］ＬＤＡ文档产生过程。输入 α、β、Ｋ；输出文档。对每个主题ｋ ∈ ［１，Ｋ］，采样词分布 φｋ～Ｄｉｒ（β）对每篇文档ｍ ∈ ［１，Ｍ］采样一个主题分布 θｍ～Ｄｉｒ（α）对文档ｍ中的每个词ｗ根据 θ ｍ采样一个主题ｚ～Ｍｕｌｔ（θｍ）根据主题ｚ采样一个词ｗ～Ｍｕｌｔ（φｚ）其中，隐含变量 θ 和 φ 可按式（１）和式（２）估计： θｍ，ｋ＝ｎ（ｋ）ｍ＋ αｋ ∑ Ｋｋ＝１（ｎ（ｋ）ｍ＋ αｋ）（１） φｋ，ｔ＝ｎ（ｔ）ｋ＋ βｔ ∑ Ｖｔ＝１（ｎ（ｔ）ｋ＋ βｔ）（２）式中：ｎ（ｋ）ｍ表示文本ｍ中主题为ｋ的词汇数目，ｎ（ｔ）ｋ表示词ｔ中主题为ｋ的词汇数目。Ｖ表示不计重复的词汇总数。 ·５４０· 智能系统学报第１１卷

第4期郝洁，等：基于词加权DA算法的无监督情感分类 ·541 2 本文算法为正面情感种子词个数，neg为语料中包含的负面情感种子词集合，b为负面情感种子词个数。 LDA模型假设每个词都是同等重要的。然而，受文献[16]启发，在得到词汇权重后，本文按无论是从信息论或是语言学来看，该假设都并不完照式(5)对每个词的主题进行吉布斯采样，式中，W 美。文献[13]指出高频停用词对LDA模型的主题为词汇总数，n表示文本m中，词i被分配给主题推理有很大影响。然而，对于文本情感分类任务，在 k的数目，一i表示采样过程中不计当前词影响：去除通常的停用词后，仍有大量与领域相关但对情 p(z=kIzi,wi,weight)= 感分类作用较小的词，具有褒贬倾向的词汇淹没其 ( 中，而使得LDA模型主题间区分度较小，分类精度 ∑Iweight()l·n+a)· 不高。以酒店评价语料为例，大量文档中都出现有 (I weight(t)I·n:+B,)· “酒店”、“房间”、“前台”等词，这些词是情感分类 (含201像)-1 时的广义“停用词”，若不加以处理，将随机散布在各个主题的关键词当中。 (∑(1 weight((t)1·ng:+B,)-1(5) 由于这些词与领域相关，无法通过构建统一的整个模型的“文档一主题”分布0和“主题一词词表去除该类词汇，给主题的提取和情感倾向的划汇”分布可分别按照式(6)和式(7)计算：分造成困难。本文针对情感语料的词汇分布特点，根据每个词与情感种子词的点互信息(point mutual ∑Iweight(j)I·ng+a information,PMI)【14),赋予词汇不同权重，并将权值 0m,k= (6) 信息融入吉布斯采样过程，利用每个主题下的关键 ,I weight(j)I·n+ae) 词判断主题的情感倾向，从而实现文档的情感分类。 I weight(t)l·ne+B, 整个算法的步骤如图2所示。 PL.= (7) ∑(I weight(t)l·ne+B,) = 文档集分词去停用词预处理与LDA模型类似，此处选取每个主题下p值最大的S个词作为该主题的关键词。定义主题k的情感倾向E(k): 文档情感主题情感吉布斯词汇权 WLDA 倾向计算倾向计算采样重计算 E(k)=∑weight(i)ee (8) i=1 “文档-情感”矩阵π表征了文档的情感分布，图2WLDA算法步骤 Fig.2 Road map of WLDA algorithm 其规模为M×2,由正面情感分布π和负面情感分点互信息可根据两个离散随机变量的共现概率布π组成。其定义见式(9)和式(10)：度量其相关性。对于两个变量x和y,其点互信息： 9,E(i)>0 (9) i=1 PMI(x,y)=log- p(x,y) (3) (x)·p(y) ∑9，E(i)<0 (10) i=1 显然，两个变量共现的概率越大，其PMI值越式中：日：为每一篇文档分配给主题i的概率，T和大。以此为理论基础，文献[15]根据某一词汇与正 r分别是文档为正面或负面的概率值，刻画了每面情感种子词和负面情感种子词的PM值度量该篇文档的情感分布情况。在后面的实验中，认为文词的情感倾向。考虑到种子词在语料中的出现可能档d的情感倾向：不均衡，本文对原公式稍加改动，根据语料中出现的 E(d)=argmax(Ta） (11) 正向和负向种子词个数添加归一化因子。对于词完整的WLDA算法如下： w,其权重定义为算法2基于LDA的情感分类算法。 weight(w)=- p(w,pos(i)) 输入待分类文档，情感种子词： a i=1 p(o)·p(pos(i)) 输出情感分类结果。 1了1og p(w,neg(j)) ForW∈W (4) b台p(o）·p(negU)) 按式(4)计算weight(w) 式中：pos为语料中包含的正面情感种子词集合，a Repeat

２本文算法ＬＤＡ模型假设每个词都是同等重要的。然而，无论是从信息论或是语言学来看，该假设都并不完美。文献［１３］指出高频停用词对ＬＤＡ模型的主题推理有很大影响。然而，对于文本情感分类任务，在去除通常的停用词后，仍有大量与领域相关但对情感分类作用较小的词，具有褒贬倾向的词汇淹没其中，而使得ＬＤＡ模型主题间区分度较小，分类精度不高。以酒店评价语料为例，大量文档中都出现有 “酒店”、“房间”、“前台” 等词，这些词是情感分类时的广义“停用词”，若不加以处理，将随机散布在各个主题的关键词当中。由于这些词与领域相关，无法通过构建统一的词表去除该类词汇，给主题的提取和情感倾向的划分造成困难。本文针对情感语料的词汇分布特点，根据每个词与情感种子词的点互信息（ｐｏｉｎｔｍｕｔｕａｌｉｎｆｏｒｍａｔｉｏｎ，ＰＭＩ）［１４］，赋予词汇不同权重，并将权值信息融入吉布斯采样过程，利用每个主题下的关键词判断主题的情感倾向，从而实现文档的情感分类。整个算法的步骤如图２所示。图２ＷＬＤＡ算法步骤Ｆｉｇ．２ＲｏａｄｍａｐｏｆＷＬＤＡａｌｇｏｒｉｔｈｍ点互信息可根据两个离散随机变量的共现概率度量其相关性。对于两个变量ｘ和ｙ，其点互信息：ＰＭＩ（ｘ，ｙ）＝ｌｏｇｐ（ｘ，ｙ）ｐ（ｘ）·ｐ（ｙ）（３）显然，两个变量共现的概率越大，其ＰＭＩ值越大。以此为理论基础，文献［１５］根据某一词汇与正面情感种子词和负面情感种子词的ＰＭＩ值度量该词的情感倾向。考虑到种子词在语料中的出现可能不均衡，本文对原公式稍加改动，根据语料中出现的正向和负向种子词个数添加归一化因子。对于词ｗ，其权重定义为ｗｅｉｇｈｔ（ｗ）＝１ａ ∑ ａｉ＝１ｌｏｇｐ（ｗ，ｐｏｓ（ｉ））ｐ（ｗ）·ｐ（ｐｏｓ（ｉ））－１ｂ ∑ ｂｊ＝１ｌｏｇｐ（ｗ，ｎｅｇ（ｊ））ｐ（ｗ）·ｐ（ｎｅｇ（ｊ））（４）式中：ｐｏｓ为语料中包含的正面情感种子词集合，ａ为正面情感种子词个数，ｎｅｇ为语料中包含的负面情感种子词集合，ｂ为负面情感种子词个数。受文献［１６］启发，在得到词汇权重后，本文按照式（５）对每个词的主题进行吉布斯采样，式中，Ｗ为词汇总数，ｎ（ｋ）ｍｊ表示文本ｍ中，词ｉ被分配给主题ｋ的数目， ¬ ｉ表示采样过程中不计当前词影响：ｐ（ｚｉ＝ｋ｜ｚ¬ ｉ，ｗ¬ ｉ，ｗｅｉｇｈｔ）＝（∑ Ｗｊ＝１｜ｗｅｉｇｈｔ（ｊ）｜·ｎ（ｋ）ｍｊ，¬ ｉ＋ αｋ）· （｜ｗｅｉｇｈｔ（ｔ）｜·ｎ（ｔ）ｋ，¬ ｉ＋ βｔ）· （ ∑ Ｋｋ＝１（∑ Ｗｊ＝１｜ｗｅｉｇｈｔ（ｊ）｜·ｎ（ｋ）ｍｊ，¬ ｉ＋αｋ））－１· （∑ Ｖｔ＝１（｜ｗｅｉｇｈｔ（ｔ）｜·ｎ（ｔ）ｋ，¬ ｉ＋ βｔ））－１（５）整个模型的“文档—主题”分布 θ 和“主题—词汇”分布 φ 可分别按照式（６）和式（７）计算： θｍ，ｋ＝ ∑ Ｗｊ＝１｜ｗｅｉｇｈｔ（ｊ）｜·ｎ（ｋ）ｍｊ＋ αｋ ∑ Ｋｋ＝１（∑ Ｗｊ＝１｜ｗｅｉｇｈｔ（ｊ）｜·ｎ（ｋ）ｍｊ＋ αｋ）（６） φｋ，ｔ＝｜ｗｅｉｇｈｔ（ｔ）｜·ｎ（ｔ）ｋ＋ βｔ ∑ Ｖｔ＝１（｜ｗｅｉｇｈｔ（ｔ）｜·ｎ（ｔ）ｋ＋ βｔ）（７）与ＬＤＡ模型类似，此处选取每个主题下 φ 值最大的Ｓ个词作为该主题的关键词。定义主题ｋ的情感倾向Ｅ（ｋ）：Ｅ（ｋ）＝ ∑ Ｓｉ＝１ｗｅｉｇｈｔ（ｉ）φｋｉ（８） “文档－情感”矩阵 π 表征了文档的情感分布，其规模为Ｍ × ２，由正面情感分布 πｐｏｓ和负面情感分布 πｎｅｇ组成。其定义见式（９）和式（１０）： πｐｏｓ＝ ∑ Ｋｉ＝１ θｉ，Ｅ（ｉ）＞０（９） πｎｅｇ＝ ∑ Ｋｉ＝１ θｉ，Ｅ（ｉ）＜０（１０）式中： θｉ为每一篇文档分配给主题ｉ的概率， πｐｏｓ和 πｎｅｇ分别是文档为正面或负面的概率值，刻画了每篇文档的情感分布情况。在后面的实验中，认为文档ｄ的情感倾向：Ｅ（ｄ）＝ａｒｇｍａｘ（πｄ）（１１）完整的ＷＬＤＡ算法如下：算法２基于ＷＬＤＡ的情感分类算法。输入待分类文档，情感种子词；输出情感分类结果。Ｆｏｒｗ ∈ Ｗ按式（４）计算ｗｅｉｇｈｔ（ｗ）Ｒｅｐｅａｔ第４期郝洁，等：基于词加权ＬＤＡ算法的无监督情感分类 ·５４１·

542 智能系统学报第11卷 Form∈M (210, 在已知情感种子词中 weight(w)= Forn∈N 0.5 其他按式(5)采样每个词的主题 (12) Until收敛or达到最大迭代次数当一个词的权重大于1时，表明其作用在采样分别按照式(6)和式(7)计算0、P 中将会被增强：小于1时，其重要性降低。若将全部 Fork∈K 权重置为1，则为一般的吉布斯采样。 Fors∈S 方法1和方法3均能将“舒适”、“实惠”等词赋按式(8)计算主题k的情感倾向E(k) 以较大权重，将部分没有情感色彩的词如“服务 If E(k)>0 员”、“酒店”等赋以较小权重，但对于未收录的情感 T1=T1+0 词汇如“很脏”、“破”等，方法3表现不佳。方法2 If E(k)Tm.2 均是PM加权方式。文档情感为正面 3.3WLDA和LSM模型对比 Else 在主题模型中，通常以各个主题下的关键词来文档情感为负面表征该主题的含义。表3为采用语料1时WLDA 3实验结果与分析与LSM模型的关键词对比。表3WLDA和LSM关键词 3.1实验设置 Table 3 Keywords of WLDA and LSM 语料1为中科院谭松波等收集整理的酒店评论模型正面负面语料，从中随机选取带有正向和负向情感倾向标注的评论各500篇：语料2为从互联网爬取的酒店评不错方便热情差携程不知道论11197篇，包含正向文本5891篇和负向文本免费酒店满意不能房间根本 5306篇。WLDA和JST模型的正面和负面情感种总体房间舒服打电话酒店电话 WLDA 干净挺下次太前台只能子词来自知网的《中文情感分析用词语集》。实验舒适特色周到告诉不好不要前，首先对语料进行了分词、去停用词等预处理。安静推荐很快洗澡退房失望 WLDA参数取经验值a=50/K,B=0.01,S= 感动交通服务员投诉 100。实验以LSM和JST两种经典算法作为对比， LSM模型中，选取ax=50/K,B=0.01:JST模型参数酒店房间不错酒店房间前台设置与文献[6]保持一致。3种算法的迭代次数均感觉服务入住入住携程服务员为1000次。早餐方便免费服务晚上客人 3.2加权方式对比 LSM 小吃设施发现差电话表2列举了部分词汇在3种加权方式下的权重值。价格干净环境退房打电话不能表2各加权方式下部分词汇权重对比大餐厅下次房不知道点这家 Table 2 Term weights in different weighting algorithms 服务员晚上宾馆词汇 PMI IDF 二值化在WLDA中，超过一半的关键词都具有明显的舒适 3.31 0.63 2 情感倾向，如“不错”、“方便”、“失望”等，使读者更实惠 2.92 0.55 2 容易区分主题的情感倾向：而在LSM模型中，正如很脏 2.16 0.71 0.5 上文所提到的，体现情感的词汇出现较少，而“酒破 3.16 0.70 0.5 店”、“房间”、“人住”等不能表达明确情感色彩的词服务员 0.10 0.43 0.5 散布在正面和负面两类情感的关键词中。酒店 0.36 0.19 0.5 表4展示了WLDA和LSM模型对文档的情感方法1PMI已在上文详述，方法2IDF权重计算分类精度。在关键词部分，虽然LSM中涉及的具有方法来自文献[16]，方法3的二值化见式(12)：情感倾向的词汇较少，仍可辨别两类关键词的正负

Ｆｏｒｍ ∈ ＭＦｏｒｎ ∈ Ｎ按式（５）采样每个词的主题Ｕｎｔｉｌ收敛ｏｒ达到最大迭代次数分别按照式（６）和式（７）计算 θ、φ Ｆｏｒｋ ∈ ＫＦｏｒｓ ∈ Ｓ按式（８）计算主题ｋ的情感倾向Ｅ（ｋ）ＩｆＥ（ｋ）＞０ π１＝ π１＋ θｋＩｆＥ（ｋ）＜０ π２＝ π２＋ θｋＦｏｒｍ ∈ ＭＩｆ πｍ，１＞ πｍ，２文档情感为正面Ｅｌｓｅ文档情感为负面３实验结果与分析３．１实验设置语料１为中科院谭松波等收集整理的酒店评论语料，从中随机选取带有正向和负向情感倾向标注的评论各５００篇；语料２为从互联网爬取的酒店评论１１１９７篇，包含正向文本５８９１篇和负向文本５３０６篇。ＷＬＤＡ和ＪＳＴ模型的正面和负面情感种子词来自知网的《中文情感分析用词语集》。实验前，首先对语料进行了分词、去停用词等预处理。ＷＬＤＡ参数取经验值 α ＝５０／Ｋ， β ＝０．０１，Ｓ＝１００。实验以ＬＳＭ和ＪＳＴ两种经典算法作为对比，ＬＳＭ模型中，选取 α ＝５０／Ｋ， β ＝０．０１；ＪＳＴ模型参数设置与文献［６］保持一致。３种算法的迭代次数均为１０００次。３．２加权方式对比表２列举了部分词汇在３种加权方式下的权重值。表２各加权方式下部分词汇权重对比Ｔａｂｌｅ２Ｔｅｒｍｗｅｉｇｈｔｓｉｎｄｉｆｆｅｒｅｎｔｗｅｉｇｈｔｉｎｇａｌｇｏｒｉｔｈｍｓ词汇ＰＭＩＩＤＦ二值化舒适３．３１０．６３２实惠２．９２０．５５２很脏２．１６０．７１０．５破３．１６０．７００．５服务员０．１００．４３０．５酒店０．３６０．１９０．５方法１ＰＭＩ已在上文详述，方法２ＩＤＦ权重计算方法来自文献［１６］，方法３的二值化见式（１２）：ｗｅｉｇｈｔ（ｗ）＝２ｗ，在已知情感种子词中 {０．５，其他（１２）当一个词的权重大于１时，表明其作用在采样中将会被增强；小于１时，其重要性降低。若将全部权重置为１，则为一般的吉布斯采样。方法１和方法３均能将“舒适”、“实惠”等词赋以较大权重，将部分没有情感色彩的词如“ 服务员”、“酒店”等赋以较小权重，但对于未收录的情感词汇如“很脏”、“破” 等，方法３表现不佳。方法２将提高出现次数较少的罕见词的权重，而同时降低高频情感词和高频非情感词的权重。综上，３种方法中ＰＭＩ加权最适用于本文，故以下实验中采用的均是ＰＭＩ加权方式。３．３ＷＬＤＡ和ＬＳＭ模型对比在主题模型中，通常以各个主题下的关键词来表征该主题的含义。表３为采用语料１时ＷＬＤＡ与ＬＳＭ模型的关键词对比。表３ＷＬＤＡ和ＬＳＭ关键词Ｔａｂｌｅ３ＫｅｙｗｏｒｄｓｏｆＷＬＤＡａｎｄＬＳＭ模型正面负面ＷＬＤＡ不错方便热情免费酒店满意总体房间舒服干净挺下次舒适特色周到安静推荐很快感动交通差携程不知道不能房间根本打电话酒店电话太前台只能告诉不好不要洗澡退房失望服务员投诉ＬＳＭ酒店房间不错感觉服务入住早餐方便免费小吃设施价格干净环境大餐厅下次服务员晚上酒店房间前台入住携程服务员服务晚上客人发现差电话退房打电话不能房不知道点这家宾馆在ＷＬＤＡ中，超过一半的关键词都具有明显的情感倾向，如“不错”、“方便”、“失望”等，使读者更容易区分主题的情感倾向；而在ＬＳＭ模型中，正如上文所提到的，体现情感的词汇出现较少，而“酒店”、“房间”、“入住”等不能表达明确情感色彩的词散布在正面和负面两类情感的关键词中。表４展示了ＷＬＤＡ和ＬＳＭ模型对文档的情感分类精度。在关键词部分，虽然ＬＳＭ中涉及的具有情感倾向的词汇较少，仍可辨别两类关键词的正负 ·５４２· 智能系统学报第１１卷

第4期郝洁，等：基于词加权DA算法的无监督情感分类 .543. 情感倾向。但具体到刻画各个文档的情感，其精度 1.0 远低于WLDA,可见这类广义停用词对模型性能的影响。 0.8 表4WIDA和LSM模型情感分类精度 Table 4 Sentiment classification accuracy of WLDA 0.6 一语料1WLDA and LSM % 语料2WLDA 8一语料1JST 日一语料2JST 模型正面负面总 .4 0 20 4060 80 100 WLDA 86.8 92.6 89.7 主题数目 LSM 80.4 70.0 75.2 图3WLDA和JST模型分类精度对比此处以LSM为对比，说明了词汇加权对吉布斯 Fig.3 Sentiment classification accuracy of WLDA and JST 采样结果的影响，但由于LSM模型只能将文档划分对于语料1和语料2，WLDA不仅在情感分类为正面、负面两类或正面、负面、中性三类，无法提取上均有良好表现，受主题数目选取的影响也比JST 更细粒度的主题和情感信息，后文的实验均采用模型更小。 WLDA与JST两个模型的对比。 3.5WLDA和JST模型的关键词对比 3.4WLDA和JST模型的情感分类精度对比在语料1中，当K=6时，两种算法的分类精度图3为WLDA和JST模型选取不同主题数目达到最高。表5列举了K=6时，WLDA和JST模型时，在语料1和语料2下的情感分类精度。得到的关键词，并归纳了关键词的主要内容。表5WLDA和JST关键词 Table 5 Keywords of WLDA and JST 编号情感倾向主题归纳 WLDA 主题归纳 JST 不错免费满意舒适周到酒店房间房不错人住舒服特色享受总体携程大床服务感觉褒义房间舒适房间舒适温馨房间酒店宽敞免费豪华价格行政推荐安静大堂设施热情感动酒店不错房间酒店服务入住服务员帮小姐打电话服务员褒义服务热情服务行李房间客人大堂帮吃安排工作人员员工花园餐饮免费热情朋友安排早餐下次很快感谢不错方便总体酒店酒店不错房间感觉房间褒义交通方便干净香港房间交通满意方便入住小干净环境吃餐饮步行太安静位置齐全免费早餐价格设施晚上服务房间酒店早餐服务员洗澡差水根本太毛巾晚上空调感觉不好差贬义卫生设施差地毯只能床单门最差房间设施差卫生间宾馆装修不能如家不如酒店卫生间太不知道携程电话告诉不能酒店前台房间入住携程贬义投诉交涉前台打电话不知道酒店投诉交涉服务员电话客人服务退房投诉退房收经理根本结帐打电话告诉发现经理差空调房间不好太失望房间酒店房间携程服务贬义房间设施差不知道吵实在不能根本服务价格感觉前台朋友小这家很差声音只好打电话交通入住机场四星补充出租车可以看到，WLDA得到的关键词多为单一方面中，部分主题由多个方面的评价组成，如主题2，在评价，一致性较强，易于人的理解。而在ST模型 15个关键词中，同时涉及到房间、服务、餐饮三方面

情感倾向。但具体到刻画各个文档的情感，其精度远低于ＷＬＤＡ，可见这类广义停用词对模型性能的影响。表４ＷＬＤＡ和ＬＳＭ模型情感分类精度Ｔａｂｌｅ４ＳｅｎｔｉｍｅｎｔｃｌａｓｓｉｆｉｃａｔｉｏｎａｃｃｕｒａｃｙｏｆＷＬＤＡａｎｄＬＳＭ％模型正面负面总ＷＬＤＡ８６．８９２．６８９．７ＬＳＭ８０．４７０．０７５．２此处以ＬＳＭ为对比，说明了词汇加权对吉布斯采样结果的影响，但由于ＬＳＭ模型只能将文档划分为正面、负面两类或正面、负面、中性三类，无法提取更细粒度的主题和情感信息，后文的实验均采用ＷＬＤＡ与ＪＳＴ两个模型的对比。３．４ＷＬＤＡ和ＪＳＴ模型的情感分类精度对比图３为ＷＬＤＡ和ＪＳＴ模型选取不同主题数目时，在语料１和语料２下的情感分类精度。图３ＷＬＤＡ和ＪＳＴ模型分类精度对比Ｆｉｇ．３ＳｅｎｔｉｍｅｎｔｃｌａｓｓｉｆｉｃａｔｉｏｎａｃｃｕｒａｃｙｏｆＷＬＤＡａｎｄＪＳＴ对于语料１和语料２，ＷＬＤＡ不仅在情感分类上均有良好表现，受主题数目选取的影响也比ＪＳＴ模型更小。３．５ＷＬＤＡ和ＪＳＴ模型的关键词对比在语料１中，当Ｋ＝６时，两种算法的分类精度达到最高。表５列举了Ｋ＝６时，ＷＬＤＡ和ＪＳＴ模型得到的关键词，并归纳了关键词的主要内容。表５ＷＬＤＡ和ＪＳＴ关键词Ｔａｂｌｅ５ＫｅｙｗｏｒｄｓｏｆＷＬＤＡａｎｄＪＳＴ编号情感倾向主题归纳ＷＬＤＡ主题归纳ＪＳＴ１褒义房间舒适不错免费满意舒适周到舒服特色享受总体温馨房间酒店宽敞推荐安静房间舒适酒店房间房不错入住携程大床服务感觉免费豪华价格行政大堂设施２褒义服务热情热情感动酒店不错帮小姐打电话服务员安排工作人员员工花园下次很快感谢房间服务餐饮酒店服务入住服务员行李房间客人大堂帮吃免费热情朋友安排早餐３褒义交通方便不错方便总体酒店干净香港房间交通满意步行太安静位置齐全免费房间餐饮酒店不错房间感觉方便入住小干净环境吃早餐价格设施晚上服务４贬义卫生设施差洗澡差水根本太毛巾地毯只能床单门最差如家不如酒店卫生间房间设施差房间酒店早餐服务员晚上空调感觉不好差卫生间宾馆装修不能太不知道５贬义投诉交涉携程电话告诉不能前台打电话不知道酒店投诉退房收经理根本结帐投诉交涉酒店前台房间入住携程服务员电话客人服务退房打电话告诉发现经理６贬义房间设施差差空调房间不好太失望不知道吵实在不能根本很差声音只好打电话房间服务交通酒店房间携程服务价格感觉前台朋友小这家入住机场四星补充出租车可以看到，ＷＬＤＡ得到的关键词多为单一方面评价，一致性较强，易于人的理解。而在ＪＳＴ模型中，部分主题由多个方面的评价组成，如主题２，在１５个关键词中，同时涉及到房间、服务、餐饮三方面第４期郝洁，等：基于词加权ＬＤＡ算法的无监督情感分类 ·５４３·

.544. 智能系统学报第11卷内容：主题6同时涉及房间、服务、交通三方面内容。 ×10 除此之外，WLDA的关键词中涵盖的情感词汇更丰富，主题的情感倾向也更加突出。与ST模型相比， 6 WLDA得到的各个主题的关键词语义和情感都更加明晰。 3.6WLDA和JST模型的主题KL距离对比 3 上文通过关键词的列举直观展示了WLDA的性能，本部分将借助主题与背景主题的平均KL距 JST 离定量描述主题的区分性。其核心思想是一个合理 -WLDA D 的主题总倾向于在部分文档集中出现，主题在所有 ×10 0.20.40.6 0.81.0 文档中出现的概率越平均，说明该主题越可能为垃迭代次数圾/非重要主题。极端情况，当某个主题在所有图4WLDA和JST模型运行时间对比文档中出现的概率都相同，该主题对文档的区分能 Fig.4 Time consumption comparison of WLDA and JST 力为零。主题与背景主题的平均KL距离KLb定由于本文算法需要首先计算词汇权重，故吉布义如下：斯采样前的处理时间比JST模型长，但单次迭代速 ∑aPu(9.leb) 度比JST更快。当吉布斯采样的次数较小时，JST模 KL b= (11) K 型消耗时间更短，然而，随着采样次数的增加，WL 式中：0b:为0的背景主题，其规模与0相同，为 DA的时间优势愈发明显。另外，对于同一语料库，取不同K值或其他参数发生改变时无需重复计算词 M×1,Hi∈M,0_bs= ∑9./M。 i=1 汇权重，故在多次试验中，其平均运行时间将比图3 表6WLDA和ST模型中主题与背景主题的平均KL距离所展示的更短。 Table 6 Kullback-Leibler divergence of WLDA and JST 4结束语主题数目 WLDA JST 4 201.7 75.2 本文提出了一种用于情感分类的词加权LDA 6 170.7 85.9 算法，通过度量词汇与情感种子词的点互信息，在吉 9 149.8 76.5 布斯采样中为不同词汇赋予不同权重，并利用每个 o 131.4 72.0 主题下的关键词判断主题的情感倾向，从而实现文 12 119.2 62.7 档的情感分类。实验表明，WLDA不仅具有无监督、 14 105.9 58.5 可提取细粒度情感的优点，而且分类精度较高，在采 16 93.9 52.3 样中迭代速度较快。由于WLDA采用的是“词袋” 模型，忽略了词与词之间的联系，可能会出现局部情 18 89.8 49.8 感判断错误，因此，如何将词序信息融入WLDA是 20 80.5 46.7 下一步的工作重点。 40 46.5 26.6 60 31.1 17.8 参考文献： 80 22.5 12.3 [1]AGARWAL B,PORIA S,MITTAL N,et al.Concept-level 100 16.9 10.1 sentiment analysis with dependency-based semantic parsing: 表6展示了WLDA和JST模型主题与背景主题 a novel approach[J].Cognitive computation,2015,7(4): 487-499. 的平均KL距离，其值越大，说明主题与背景主题的距离越远，主题的可区分性越强。可以看到，在各个主 [2]CAMBRIA E.Affective computing and sentiment analysis 题数目下，WLDA的主题区分能力均优于JST模型。 [J].IEEE intelligent systems,2016,31(2):102-107. 3.7WLDA和JST模型的时间消耗对比 [3]LIN Chenghua,HE Yulan.Joint sentiment/topic model for sentiment analysis[C]//Proceedings of the 18th ACM Con- 以语料1为例，图4对比了K=6时WLDA和 ference on Information and Knowledge Management.Hong JST模型不同迭代次数所需的时间。 Kong,China:ACM,2009:375-384

内容；主题６同时涉及房间、服务、交通三方面内容。除此之外，ＷＬＤＡ的关键词中涵盖的情感词汇更丰富，主题的情感倾向也更加突出。与ＪＳＴ模型相比，ＷＬＤＡ得到的各个主题的关键词语义和情感都更加明晰。３．６ＷＬＤＡ和ＪＳＴ模型的主题ＫＬ距离对比上文通过关键词的列举直观展示了ＷＬＤＡ的性能，本部分将借助主题与背景主题的平均ＫＬ距离定量描述主题的区分性。其核心思想是一个合理的主题总倾向于在部分文档集中出现，主题在所有文档中出现的概率越平均，说明该主题越可能为垃圾／非重要主题［１７］。极端情况，当某个主题在所有文档中出现的概率都相同，该主题对文档的区分能力为零。主题与背景主题的平均ＫＬ距离ＫＬ＿ｂ定义如下：ＫＬ＿ｂ＝ ∑ Ｋｋ＝１ＤＫＬ（θｋ｜｜ θ＿ｂｋ）Ｋ（１１）式中： θ＿ｂｋ为 θｋ的背景主题，其规模与 θｋ相同，为Ｍ ×１， ∀ｉ ∈ Ｍ， θ＿ｂｋｉ＝ ∑ Ｍｉ＝１ θｉｋ／Ｍ。表６ＷＬＤＡ和ＪＳＴ模型中主题与背景主题的平均ＫＬ距离Ｔａｂｌｅ６Ｋｕｌｌｂａｃｋ⁃ＬｅｉｂｌｅｒｄｉｖｅｒｇｅｎｃｅｏｆＷＬＤＡａｎｄＪＳＴ主题数目ＷＬＤＡＪＳＴ４２０１．７７５．２６１７０．７８５．９８１４９．８７６．５１０１３１．４７２．０１２１１９．２６２．７１４１０５．９５８．５１６９３．９５２．３１８８９．８４９．８２０８０．５４６．７４０４６．５２６．６６０３１．１１７．８８０２２．５１２．３１００１６．９１０．１表６展示了ＷＬＤＡ和ＪＳＴ模型主题与背景主题的平均ＫＬ距离，其值越大，说明主题与背景主题的距离越远，主题的可区分性越强。可以看到，在各个主题数目下，ＷＬＤＡ的主题区分能力均优于ＪＳＴ模型。３．７ＷＬＤＡ和ＪＳＴ模型的时间消耗对比以语料１为例，图４对比了Ｋ＝６时ＷＬＤＡ和ＪＳＴ模型不同迭代次数所需的时间。图４ＷＬＤＡ和ＪＳＴ模型运行时间对比Ｆｉｇ．４ＴｉｍｅｃｏｎｓｕｍｐｔｉｏｎｃｏｍｐａｒｉｓｏｎｏｆＷＬＤＡａｎｄＪＳＴ由于本文算法需要首先计算词汇权重，故吉布斯采样前的处理时间比ＪＳＴ模型长，但单次迭代速度比ＪＳＴ更快。当吉布斯采样的次数较小时，ＪＳＴ模型消耗时间更短，然而，随着采样次数的增加，ＷＬ⁃ ＤＡ的时间优势愈发明显。另外，对于同一语料库，取不同Ｋ值或其他参数发生改变时无需重复计算词汇权重，故在多次试验中，其平均运行时间将比图３所展示的更短。４结束语本文提出了一种用于情感分类的词加权ＬＤＡ算法，通过度量词汇与情感种子词的点互信息，在吉布斯采样中为不同词汇赋予不同权重，并利用每个主题下的关键词判断主题的情感倾向，从而实现文档的情感分类。实验表明，ＷＬＤＡ不仅具有无监督、可提取细粒度情感的优点，而且分类精度较高，在采样中迭代速度较快。由于ＷＬＤＡ采用的是“词袋” 模型，忽略了词与词之间的联系，可能会出现局部情感判断错误，因此，如何将词序信息融入ＷＬＤＡ是下一步的工作重点。参考文献：［１］ＡＧＡＲＷＡＬＢ，ＰＯＲＩＡＳ，ＭＩＴＴＡＬＮ，ｅｔａｌ．Ｃｏｎｃｅｐｔ⁃ｌｅｖｅｌｓｅｎｔｉｍｅｎｔａｎａｌｙｓｉｓｗｉｔｈｄｅｐｅｎｄｅｎｃｙ⁃ｂａｓｅｄｓｅｍａｎｔｉｃｐａｒｓｉｎｇ：ａｎｏｖｅｌａｐｐｒｏａｃｈ［Ｊ］．Ｃｏｇｎｉｔｉｖｅｃｏｍｐｕｔａｔｉｏｎ，２０１５，７（４）：４８７－４９９．［２］ＣＡＭＢＲＩＡＥ．Ａｆｆｅｃｔｉｖｅｃｏｍｐｕｔｉｎｇａｎｄｓｅｎｔｉｍｅｎｔａｎａｌｙｓｉｓ［Ｊ］．ＩＥＥＥｉｎｔｅｌｌｉｇｅｎｔｓｙｓｔｅｍｓ，２０１６，３１（２）：１０２－１０７．［３］ＬＩＮＣｈｅｎｇｈｕａ，ＨＥＹｕｌａｎ．Ｊｏｉｎｔｓｅｎｔｉｍｅｎｔ／ｔｏｐｉｃｍｏｄｅｌｆｏｒｓｅｎｔｉｍｅｎｔａｎａｌｙｓｉｓ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１８ｔｈＡＣＭＣｏｎ⁃ ｆｅｒｅｎｃｅｏｎＩｎｆｏｒｍａｔｉｏｎａｎｄＫｎｏｗｌｅｄｇｅＭａｎａｇｅｍｅｎｔ．ＨｏｎｇＫｏｎｇ，Ｃｈｉｎａ：ＡＣＭ，２００９：３７５－３８４． ·５４４· 智能系统学报第１１卷

第4期郝洁，等：基于词加权DA算法的无监督情感分类 ·545. [4]LIN Chenghua,HE Yulan,EVERSON R.A comparative [13]WALLACH H M.Topic modeling:beyond bag-of-words study of Bayesian models for unsupervised sentiment detec- [C]//Proceedings of the 23rd International Conference on tion [C]//Proceedings of the Fourteenth Conference on Machine Learning.New York,USA:ACM,2006:977- Computational Natural Language Learning.Stroudsburg, 984. PA,USA:ACM,2011:144-152. [14]CHURCH K W,HANKS P.Word association norms,mu- [5]TITOV I,MCDONALD R.A joint model of text and aspect tual information,and lexicography[].Computational lin- ratings for sentiment summarization[C]//Proceedings of An- guistics,1990,16(1):22-29. nual Meeting of the Computational Linguistics.Columbus, [15]TURNEY P D,LITTMAN M L.Measuring praise and criti- USA:Association for Computational Linguistics,2008:308 cism:inference of semantic orientation from association -316. [J].ACM transactions on information systems,2003,21 [6]PAUL M,GIRJU R.A two-dimensional topic-aspect model (4):315-346. for discovering multi-faceted topics[C]//Proceedings of the [16]张小平.主题模型及其在中医临床诊疗中的应用研究 Twenty-Fourth AAAl Conference on Artificial Intelligence. [D].北京：北京交通大学，2011：57-58. Atlanta,USA:AAAI,2010:545-550. ZHANG Xiaoping.Study on topic model and its application [7]MEI Qiaozhu,LING Xu,WONDRA M,et al.Topic senti- to TCM clinical diagnosis and treatment[D].Beijing:Bei- ment mixture:modeling facets and opinions in weblogs jing Jiaotong University,2011:57-58. [C]//Proceedings of the 16th International Conference on [17]ALSUMAIT L,BARBARa D,GENTLE J,et al.Topic sig- World Wide Web.North Carolina,USA:ACM,2010:171- nificance ranking of LDA generative models[C]//Proceed- 180. ings of the European Conference on Machine Learning and [8]JO Y,OH A H.Aspect and sentiment unification model for Knowledge Discovery in Databases.Bled,Slovenia:ACM, online review analysis[C]//Proceedings of the Fourth ACM 2009:67-82. International Conference on Web Search and Data Mining. 作者简介： Hong Kong,China:ACM,2011:815-824. 郝洁，女，1992年生，硕士研究生， [9]欧阳继红，刘燕辉，李熙铭，等.基于LDA的多粒度主主要研究方向为自然语言处理、粗糙题情感混合模型[J].电子学报，2015,43(9)：1875- 集。 1880. OUYANG Jihong,LIU Yanhui,LI Ximing,et al.Multi- grain sentiment/topic model based on LDA[J].Acta elec- tronica sinica,2015,43(9):1875-1880. 谢珺.女，1979年生，副教授，主要 [10]BLEI D M,NG A Y,JORDAN M I.Latent dirichlet allo- 研究方向为粒计算、粗糙集、数据挖掘、 cation[J].The journal of machine learning research, 智能信息处理。 2003,3:993-1022. [11]RUBIN T N,CHAMBERS A,SMYTH P,et al.Statistical topic models for multi-label document classification[]. Machine learning,2012,88(1/2):157-208. 苏婧琼，女，1991年生，硕士研究 [12]ANDRZEJEWSKI D,BUTTLER D.Latent topic feedback 生，主要研究方向为自然语言处理、粒 for information retrieval[C]//Proceedings of the 17th ACM 计算。 SIGKDD International Conference on Knowledge Discovery and Data Mining.San Diego,USA:ACM,2011:600- 608

［４］ＬＩＮＣｈｅｎｇｈｕａ，ＨＥＹｕｌａｎ，ＥＶＥＲＳＯＮＲ．ＡｃｏｍｐａｒａｔｉｖｅｓｔｕｄｙｏｆＢａｙｅｓｉａｎｍｏｄｅｌｓｆｏｒｕｎｓｕｐｅｒｖｉｓｅｄｓｅｎｔｉｍｅｎｔｄｅｔｅｃ⁃ ｔｉｏｎ［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＦｏｕｒｔｅｅｎｔｈＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔａｔｉｏｎａｌＮａｔｕｒａｌＬａｎｇｕａｇｅＬｅａｒｎｉｎｇ．Ｓｔｒｏｕｄｓｂｕｒｇ，ＰＡ，ＵＳＡ：ＡＣＭ，２０１１：１４４－１５２．［５］ＴＩＴＯＶＩ，ＭＣＤＯＮＡＬＤＲ．Ａｊｏｉｎｔｍｏｄｅｌｏｆｔｅｘｔａｎｄａｓｐｅｃｔｒａｔｉｎｇｓｆｏｒｓｅｎｔｉｍｅｎｔｓｕｍｍａｒｉｚａｔｉｏｎ［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆＡｎ⁃ ｎｕａｌＭｅｅｔｉｎｇｏｆｔｈｅＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ．Ｃｏｌｕｍｂｕｓ，ＵＳＡ：ＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ，２００８：３０８－３１６．［６］ＰＡＵＬＭ，ＧＩＲＪＵＲ．Ａｔｗｏ⁃ｄｉｍｅｎｓｉｏｎａｌｔｏｐｉｃ⁃ａｓｐｅｃｔｍｏｄｅｌｆｏｒｄｉｓｃｏｖｅｒｉｎｇｍｕｌｔｉ⁃ｆａｃｅｔｅｄｔｏｐｉｃｓ［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＴｗｅｎｔｙ⁃ＦｏｕｒｔｈＡＡＡＩＣｏｎｆｅｒｅｎｃｅｏｎＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ．Ａｔｌａｎｔａ，ＵＳＡ：ＡＡＡＩ，２０１０：５４５－５５０．［７］ＭＥＩＱｉａｏｚｈｕ，ＬＩＮＧＸｕ，ＷＯＮＤＲＡＭ，ｅｔａｌ．Ｔｏｐｉｃｓｅｎｔｉ⁃ ｍｅｎｔｍｉｘｔｕｒｅ：ｍｏｄｅｌｉｎｇｆａｃｅｔｓａｎｄｏｐｉｎｉｏｎｓｉｎｗｅｂｌｏｇｓ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１６ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＷｏｒｌｄＷｉｄｅＷｅｂ．ＮｏｒｔｈＣａｒｏｌｉｎａ，ＵＳＡ：ＡＣＭ，２０１０：１７１－１８０．［８］ＪＯＹ，ＯＨＡＨ．Ａｓｐｅｃｔａｎｄｓｅｎｔｉｍｅｎｔｕｎｉｆｉｃａｔｉｏｎｍｏｄｅｌｆｏｒｏｎｌｉｎｅｒｅｖｉｅｗａｎａｌｙｓｉｓ［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＦｏｕｒｔｈＡＣＭＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＷｅｂＳｅａｒｃｈａｎｄＤａｔａＭｉｎｉｎｇ．ＨｏｎｇＫｏｎｇ，Ｃｈｉｎａ：ＡＣＭ，２０１１：８１５－８２４．［９］欧阳继红，刘燕辉，李熙铭，等．基于ＬＤＡ的多粒度主题情感混合模型［Ｊ］．电子学报，２０１５，４３（９）：１８７５－１８８０．ＯＵＹＡＮＧＪｉｈｏｎｇ，ＬＩＵＹａｎｈｕｉ，ＬＩＸｉｍｉｎｇ，ｅｔａｌ．Ｍｕｌｔｉ⁃ ｇｒａｉｎｓｅｎｔｉｍｅｎｔ／ｔｏｐｉｃｍｏｄｅｌｂａｓｅｄｏｎＬＤＡ［Ｊ］．Ａｃｔａｅｌｅｃ⁃ ｔｒｏｎｉｃａｓｉｎｉｃａ，２０１５，４３（９）：１８７５－１８８０．［１０］ＢＬＥＩＤＭ，ＮＧＡＹ，ＪＯＲＤＡＮＭＩ．Ｌａｔｅｎｔｄｉｒｉｃｈｌｅｔａｌｌｏ⁃ ｃａｔｉｏｎ［Ｊ］．Ｔｈｅｊｏｕｒｎａｌｏｆｍａｃｈｉｎｅｌｅａｒｎｉｎｇｒｅｓｅａｒｃｈ，２００３，３：９９３－１０２２．［１１］ＲＵＢＩＮＴＮ，ＣＨＡＭＢＥＲＳＡ，ＳＭＹＴＨＰ，ｅｔａｌ．Ｓｔａｔｉｓｔｉｃａｌｔｏｐｉｃｍｏｄｅｌｓｆｏｒｍｕｌｔｉ⁃ｌａｂｅｌｄｏｃｕｍｅｎｔｃｌａｓｓｉｆｉｃａｔｉｏｎ［Ｊ］．Ｍａｃｈｉｎｅｌｅａｒｎｉｎｇ，２０１２，８８（１／２）：１５７－２０８．［１２］ＡＮＤＲＺＥＪＥＷＳＫＩＤ，ＢＵＴＴＬＥＲＤ．Ｌａｔｅｎｔｔｏｐｉｃｆｅｅｄｂａｃｋｆｏｒｉｎｆｏｒｍａｔｉｏｎｒｅｔｒｉｅｖａｌ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１７ｔｈＡＣＭＳＩＧＫＤＤＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＫｎｏｗｌｅｄｇｅＤｉｓｃｏｖｅｒｙａｎｄＤａｔａＭｉｎｉｎｇ．ＳａｎＤｉｅｇｏ，ＵＳＡ：ＡＣＭ，２０１１：６００－６０８．［１３］ＷＡＬＬＡＣＨＨＭ．Ｔｏｐｉｃｍｏｄｅｌｉｎｇ：ｂｅｙｏｎｄｂａｇ⁃ｏｆ⁃ｗｏｒｄｓ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２３ｒｄＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭａｃｈｉｎｅＬｅａｒｎｉｎｇ．ＮｅｗＹｏｒｋ，ＵＳＡ：ＡＣＭ，２００６：９７７－９８４．［１４］ＣＨＵＲＣＨＫＷ，ＨＡＮＫＳＰ．Ｗｏｒｄａｓｓｏｃｉａｔｉｏｎｎｏｒｍｓ，ｍｕ⁃ ｔｕａｌｉｎｆｏｒｍａｔｉｏｎ，ａｎｄｌｅｘｉｃｏｇｒａｐｈｙ［Ｊ］．Ｃｏｍｐｕｔａｔｉｏｎａｌｌｉｎ⁃ ｇｕｉｓｔｉｃｓ，１９９０，１６（１）：２２－２９．［１５］ＴＵＲＮＥＹＰＤ，ＬＩＴＴＭＡＮＭＬ．Ｍｅａｓｕｒｉｎｇｐｒａｉｓｅａｎｄｃｒｉｔｉ⁃ ｃｉｓｍ：ｉｎｆｅｒｅｎｃｅｏｆｓｅｍａｎｔｉｃｏｒｉｅｎｔａｔｉｏｎｆｒｏｍａｓｓｏｃｉａｔｉｏｎ［Ｊ］．ＡＣＭｔｒａｎｓａｃｔｉｏｎｓｏｎｉｎｆｏｒｍａｔｉｏｎｓｙｓｔｅｍｓ，２００３，２１（４）：３１５－３４６．［１６］张小平．主题模型及其在中医临床诊疗中的应用研究［Ｄ］．北京：北京交通大学，２０１１：５７－５８．ＺＨＡＮＧＸｉａｏｐｉｎｇ．ＳｔｕｄｙｏｎｔｏｐｉｃｍｏｄｅｌａｎｄｉｔｓａｐｐｌｉｃａｔｉｏｎｔｏＴＣＭｃｌｉｎｉｃａｌｄｉａｇｎｏｓｉｓａｎｄｔｒｅａｔｍｅｎｔ［Ｄ］．Ｂｅｉｊｉｎｇ：Ｂｅｉ⁃ ｊｉｎｇＪｉａｏｔｏｎｇＵｎｉｖｅｒｓｉｔｙ，２０１１：５７－５８．［１７］ＡＬＳＵＭＡＩＴＬ，ＢＡＲＢＡＲá Ｄ，ＧＥＮＴＬＥＪ，ｅｔａｌ．Ｔｏｐｉｃｓｉｇ⁃ ｎｉｆｉｃａｎｃｅｒａｎｋｉｎｇｏｆＬＤＡｇｅｎｅｒａｔｉｖｅｍｏｄｅｌｓ［Ｃ］／／Ｐｒｏｃｅｅｄ⁃ ｉｎｇｓｏｆｔｈｅＥｕｒｏｐｅａｎＣｏｎｆｅｒｅｎｃｅｏｎＭａｃｈｉｎｅＬｅａｒｎｉｎｇａｎｄＫｎｏｗｌｅｄｇｅＤｉｓｃｏｖｅｒｙｉｎＤａｔａｂａｓｅｓ．Ｂｌｅｄ，Ｓｌｏｖｅｎｉａ：ＡＣＭ，２００９：６７－８２．作者简介：郝洁，女，１９９２年生，硕士研究生，主要研究方向为自然语言处理、粗糙集。谢珺，女，１９７９年生，副教授，主要研究方向为粒计算、粗糙集、数据挖掘、智能信息处理。苏婧琼，女，１９９１年生，硕士研究生，主要研究方向为自然语言处理、粒计算。第４期郝洁，等：基于词加权ＬＤＡ算法的无监督情感分类 ·５４５·

点击进入文档下载页（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录