【自然语言处理与理解】基于多情绪源关联模型的中文微博情感分析

团购合买资源类别：文库，文档格式：PDF，文档页数：8，文件大小：979.14KB

第11卷第4期智能系统学报 Vol.11 No.4 2016年8月 CAAI Transactions on Intelligent Systems Aug.2016 D0I:10.11992/6is.201605019 网络出版地址：http:/www.cnki.net/kcms/detail/23.1538.TP.20160808.0830.002.html 基于多情绪源关联模型的中文微博情感分析李凌霄1.2，李绍滋12，曹冬林1,2 (1.厦门大学智能科学与技术系，福建厦门361005：2.厦门大学福建省仿脑智能系统重点实验室，福建厦门361005) 摘要：社交媒体信息的爆炸式增长，使得依据其对公众舆论情感的分析受到越来越多的关注。与传统文本不同，新浪微博中存在包括情感词、表情、图片和视频等特征在内的多情绪源，本文针对中文社交短文本情感分析中情感词典时效性问题和多情绪源间的关联性问题，提出了一种多情绪源关联模型。该模型考虑微博中的情感词和表情特征及其之间的关联关系，在经典的词典规则投票方法基础上，引入多情绪源以及关联概率，通过概率建模的方式对情感词和表情两类情绪源建立关联模型，实现对微博情感的判别。实验表明，在6171条微博数据集中，多情绪源关联模型分类准确率达到了85.3%，强于包含情感词和表情的传统投票模型(83.4%)以及包含同类多特征的SVM 方法(82.9%)。关键词：多模态情感分析；多情绪源；社交媒体；关联性中图分类号：TP391文献标志码：A文章编号：1673-4785(2016)04-0546-08 中文引用格式：李凌霄，李绍滋，曹冬林.基于多情绪源关联模型的中文微博情感分析[J].智能系统学报，2016,11(4)：546-553. 英文引用格式：LI Lingxiao,Shaozi,CAO Donglin..Emotional multi-source correlation model for chinese micro-blog sentiment a- nalysis[J].CAAI Transactions on Intelligent Systems,2016,11(4):546-553. Emotional multi-source correlation model for chinese micro-blog sentiment analysis LI Lingxiao,LI Shaozi,CAO Donglin'. (1.Cognitive Science Department,Xiamen University,Xiamen 361005,China;2.Fujian Key Laboratory of the Brain-like Intelligent Systems,Xiamen 361005,China) Abstract:With the explosion of social media information,sentiment analysis of public opinion is attracting more and more attention.Compared with traditional text,the Sina micro-blog contains a variety of emotional sources,in- cluding sentiment words,emoticons,pictures,etc.To solve the problem of the poor timeliness of lexicons in Chi- nese social short messages and to utilize the correlation between different emotional sources,an emotional multi- source correlation model (EMCM)is proposed to carry out sentiment analysis on a micro-blog.In particular,it takes advantage of the correlation between sentiment words and emoticons.It imports the multi-sources and correla- tion probabilities,and then builds a correlation model between the two emotional sources,emotional words and emoticons,based on a voting model using sentimental words.Experimental results show that this model achieved an accuracy of 85.3%in 6 171 micro-blogs,higher than either the traditional method based on voting (83.4%)or the SVM method based on similar multi-features (82.9%). Keywords:multi-modal sentiment analysis;emotional multi-sources;social media;correlation 时下，社交媒体正成为人们生活中不可或缺的收稿日期：2016-05-19.网络出版日期：2016-08-08. 一部分，通过微博、微信等工具，人们可以随意发表基金项目：国家自然科学基金项目(61202143,61305061,61402386，对电影、商品的喜恶，对社会事件的个人观点，甚至 61572409):福建省自然科学基金项目(2013J05100). 通信作者：曹冬林.E-mail:another(@xmu.cdu.cn. 对国家政策的看法。如何从包含这些信息的大规模

第１１卷第４期智能系统学报Ｖｏｌ．１１ №．４２０１６年８月ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓＡｕｇ．２０１６ＤＯＩ：１０．１１９９２／ｔｉｓ．２０１６０５０１９网络出版地址：ｈｔｔｐ：／／ｗｗｗ．ｃｎｋｉ．ｎｅｔ／ｋｃｍｓ／ｄｅｔａｉｌ／２３．１５３８．ＴＰ．２０１６０８０８．０８３０．００２．ｈｔｍｌ基于多情绪源关联模型的中文微博情感分析李凌霄１，２，李绍滋１，２，曹冬林１，２（１．厦门大学智能科学与技术系，福建厦门３６１００５；２．厦门大学福建省仿脑智能系统重点实验室，福建厦门３６１００５）摘要：社交媒体信息的爆炸式增长，使得依据其对公众舆论情感的分析受到越来越多的关注。与传统文本不同，新浪微博中存在包括情感词、表情、图片和视频等特征在内的多情绪源，本文针对中文社交短文本情感分析中情感词典时效性问题和多情绪源间的关联性问题，提出了一种多情绪源关联模型。该模型考虑微博中的情感词和表情特征及其之间的关联关系，在经典的词典规则投票方法基础上，引入多情绪源以及关联概率，通过概率建模的方式对情感词和表情两类情绪源建立关联模型，实现对微博情感的判别。实验表明，在６１７１条微博数据集中，多情绪源关联模型分类准确率达到了８５．３％，强于包含情感词和表情的传统投票模型（８３．４％）以及包含同类多特征的ＳＶＭ方法（８２．９％）。关键词：多模态情感分析；多情绪源；社交媒体；关联性中图分类号：ＴＰ３９１文献标志码：Ａ文章编号：１６７３－４７８５（２０１６）０４－０５４６－０８中文引用格式：李凌霄，李绍滋，曹冬林．基于多情绪源关联模型的中文微博情感分析［Ｊ］．智能系统学报，２０１６，１１（４）：５４６－５５３．英文引用格式：ＬＩＬｉｎｇｘｉａｏ，ＬＩＳｈａｏｚｉ，ＣＡＯＤｏｎｇｌｉｎ．Ｅｍｏｔｉｏｎａｌｍｕｌｔｉ⁃ｓｏｕｒｃｅｃｏｒｒｅｌａｔｉｏｎｍｏｄｅｌｆｏｒｃｈｉｎｅｓｅｍｉｃｒｏ⁃ｂｌｏｇｓｅｎｔｉｍｅｎｔａ⁃ ｎａｌｙｓｉｓ［Ｊ］．ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓ，２０１６，１１（４）：５４６－５５３．Ｅｍｏｔｉｏｎａｌｍｕｌｔｉ⁃ｓｏｕｒｃｅｃｏｒｒｅｌａｔｉｏｎｍｏｄｅｌｆｏｒｃｈｉｎｅｓｅｍｉｃｒｏ⁃ｂｌｏｇｓｅｎｔｉｍｅｎｔａｎａｌｙｓｉｓＬＩＬｉｎｇｘｉａｏ１，２，ＬＩＳｈａｏｚｉ１，２，ＣＡＯＤｏｎｇｌｉｎ１，２（１．ＣｏｇｎｉｔｉｖｅＳｃｉｅｎｃｅＤｅｐａｒｔｍｅｎｔ，ＸｉａｍｅｎＵｎｉｖｅｒｓｉｔｙ，Ｘｉａｍｅｎ３６１００５，Ｃｈｉｎａ；２．ＦｕｊｉａｎＫｅｙＬａｂｏｒａｔｏｒｙｏｆｔｈｅＢｒａｉｎ⁃ｌｉｋｅＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓ，Ｘｉａｍｅｎ３６１００５，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：Ｗｉｔｈｔｈｅｅｘｐｌｏｓｉｏｎｏｆｓｏｃｉａｌｍｅｄｉａｉｎｆｏｒｍａｔｉｏｎ，ｓｅｎｔｉｍｅｎｔａｎａｌｙｓｉｓｏｆｐｕｂｌｉｃｏｐｉｎｉｏｎｉｓａｔｔｒａｃｔｉｎｇｍｏｒｅａｎｄｍｏｒｅａｔｔｅｎｔｉｏｎ．Ｃｏｍｐａｒｅｄｗｉｔｈｔｒａｄｉｔｉｏｎａｌｔｅｘｔ，ｔｈｅＳｉｎａｍｉｃｒｏ⁃ｂｌｏｇｃｏｎｔａｉｎｓａｖａｒｉｅｔｙｏｆｅｍｏｔｉｏｎａｌｓｏｕｒｃｅｓ，ｉｎ⁃ ｃｌｕｄｉｎｇｓｅｎｔｉｍｅｎｔｗｏｒｄｓ，ｅｍｏｔｉｃｏｎｓ，ｐｉｃｔｕｒｅｓ，ｅｔｃ．ＴｏｓｏｌｖｅｔｈｅｐｒｏｂｌｅｍｏｆｔｈｅｐｏｏｒｔｉｍｅｌｉｎｅｓｓｏｆｌｅｘｉｃｏｎｓｉｎＣｈｉ⁃ ｎｅｓｅｓｏｃｉａｌｓｈｏｒｔｍｅｓｓａｇｅｓａｎｄｔｏｕｔｉｌｉｚｅｔｈｅｃｏｒｒｅｌａｔｉｏｎｂｅｔｗｅｅｎｄｉｆｆｅｒｅｎｔｅｍｏｔｉｏｎａｌｓｏｕｒｃｅｓ，ａｎｅｍｏｔｉｏｎａｌｍｕｌｔｉ⁃ ｓｏｕｒｃｅｃｏｒｒｅｌａｔｉｏｎｍｏｄｅｌ（ＥＭＣＭ）ｉｓｐｒｏｐｏｓｅｄｔｏｃａｒｒｙｏｕｔｓｅｎｔｉｍｅｎｔａｎａｌｙｓｉｓｏｎａｍｉｃｒｏ⁃ｂｌｏｇ．Ｉｎｐａｒｔｉｃｕｌａｒ，ｉｔｔａｋｅｓａｄｖａｎｔａｇｅｏｆｔｈｅｃｏｒｒｅｌａｔｉｏｎｂｅｔｗｅｅｎｓｅｎｔｉｍｅｎｔｗｏｒｄｓａｎｄｅｍｏｔｉｃｏｎｓ．Ｉｔｉｍｐｏｒｔｓｔｈｅｍｕｌｔｉ⁃ｓｏｕｒｃｅｓａｎｄｃｏｒｒｅｌａ⁃ ｔｉｏｎｐｒｏｂａｂｉｌｉｔｉｅｓ，ａｎｄｔｈｅｎｂｕｉｌｄｓａｃｏｒｒｅｌａｔｉｏｎｍｏｄｅｌｂｅｔｗｅｅｎｔｈｅｔｗｏｅｍｏｔｉｏｎａｌｓｏｕｒｃｅｓ，ｅｍｏｔｉｏｎａｌｗｏｒｄｓａｎｄｅｍｏｔｉｃｏｎｓ，ｂａｓｅｄｏｎａｖｏｔｉｎｇｍｏｄｅｌｕｓｉｎｇｓｅｎｔｉｍｅｎｔａｌｗｏｒｄｓ．Ｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｓｈｏｗｔｈａｔｔｈｉｓｍｏｄｅｌａｃｈｉｅｖｅｄａｎａｃｃｕｒａｃｙｏｆ８５．３％ｉｎ６１７１ｍｉｃｒｏ⁃ｂｌｏｇｓ，ｈｉｇｈｅｒｔｈａｎｅｉｔｈｅｒｔｈｅｔｒａｄｉｔｉｏｎａｌｍｅｔｈｏｄｂａｓｅｄｏｎｖｏｔｉｎｇ（８３．４％）ｏｒｔｈｅＳＶＭｍｅｔｈｏｄｂａｓｅｄｏｎｓｉｍｉｌａｒｍｕｌｔｉ⁃ｆｅａｔｕｒｅｓ（８２．９％）．Ｋｅｙｗｏｒｄｓ：ｍｕｌｔｉ⁃ｍｏｄａｌｓｅｎｔｉｍｅｎｔａｎａｌｙｓｉｓ；ｅｍｏｔｉｏｎａｌｍｕｌｔｉ⁃ｓｏｕｒｃｅｓ；ｓｏｃｉａｌｍｅｄｉａ；ｃｏｒｒｅｌａｔｉｏｎ收稿日期：２０１６－０５－１９．网络出版日期：２０１６－０８－０８．基金项目：国家自然科学基金项目（６１２０２１４３，６１３０５０６１，６１４０２３８６，６１５７２４０９）；福建省自然科学基金项目（２０１３Ｊ０５１００）．通信作者：曹冬林．Ｅ⁃ｍａｉｌ：ａｎｏｔｈｅｒ＠ｘｍｕ．ｅｄｕ．ｃｎ．时下，社交媒体正成为人们生活中不可或缺的一部分，通过微博、微信等工具，人们可以随意发表对电影、商品的喜恶，对社会事件的个人观点，甚至对国家政策的看法。如何从包含这些信息的大规模

第4期李凌霄，等：基于多情绪源关联模型的中文微博情感分析 .547, 数据中获取诸如情感倾向在内的潜在信息，对于产特征选择上，D.Kushal等)对语法规则、n-gram 品导向、广告精确投放、国家舆情控制等领域都具有特征进行了分析；Hatzivassiloglou等[)使用了情感重要意义，社交信息的数据挖掘与分析正成为研究词作为特征，对句子级别的情感倾向进行了分析：J 者们关注的热门课题。 C.Na等]对指定词语和否定短语特征进行了分析。对英文社交媒体（如Tweet)的情感分析已经有这类机器学习方法，例如多特征SVM情感分类很多进展，分析的方法主要分为有监督方法[15]和方法，并未考虑到不同特征之间的关联关系。基于词典或逐点互信息(PMI)[]的无监督方法。 1.2无监督方法而类似针对中文社交媒体的情感分析工作则仍处于无监督方法利用文本中带有情感的词汇的情感倾起步阶段，所使用的方法大都源于英文情感分析方向，综合考虑文本的语法规则、句法构成等要素对文本法，但由于社交媒体表现形式的多样化和中文网络进行情感极性的判别，通常采用投票的方法。在该类语境多变性等原因，传统分类方法仍存在很大改进方法中，主要依靠文本分析，并未关注社交媒体信息中空间，本文针对目前存在的两个问题进行建模：情绪源多并且不同情绪源之间存在关联性的特点。 1)情感词典时效性差，中文新词的出现更为频基于情感词方法的基础是判断词的情感，对词繁，基于统计的方法在短周期内难以判断其情感；汇的情感判断方法包括：基于情感词典、基于监督学 2)传统方法未考虑多情绪源之间的关联。习[)和基于种子词-]的方法等。这里的多情绪源是指微博中可能出现的能够体常用的中文情感词典有知网情感分析用词语现其情感的多种异构特征，如情感词、表情符号、图集、台湾大学中文情感极性词典(NTUSD)和大连理片和视频等。并且这些情绪源之间存在以下在情感工大学中文情感词汇本体库等。基于情感词典的方分析上可以进行互补利用的关联关系：法主要缺陷在于覆盖面窄、无法包含网络新词。 1)不同情绪源表达的情感强度可能不同，强情 Wilson等)提出了一种二步分类的有监督方绪源可以对弱情绪源进行极性加强：法判断短语的极性：1)判断将短语分类为有极性和 2)同一情绪下不同情绪源之间存在较强的关联中性：2)将第1步中得出的有极性短语进一步划分性，例如在“哈哈”表情下出现正情感词的概率较大。为4类极性，每一步使用不同的特征进行分类，分类根据以上分析，我们提出了一种多情绪源关联器相同(BoosTexter AdaBoost.HM6])。最终在其数模型，该模型对微博中的情感词和表情符号两种情据集上准确率达到75.9%。绪源及其之间的关联进行建模。我们的实验结果显 Turney!]提出了一种判断单词情感的方法，通示，该模型在微博数据上优于经典分类算法，并且该过在大规模语料集中分别计算目标单词与正负极性模型具有拓展性，可以继续加入诸如图片和视频在种子词（正种子词：excellent;负种子词：pool)的逐点内的其他情绪源。互信息，将两个结果进行对比得出目标单词的情感，最终在其数据集中达到82.8%的准确率，缺点是需 1情感分析相关工作要大规模语料集，运算量大。文本情感分析近几年逐渐成为热门研究课题，此外，XiaH.等9)研究了英文社交媒体中出现其内容主要包括情感极性分析和主客观分析等，本的情感标记信号在无监督情感分析中的应用，取得文主要关注情感极性分析。目前情感极性分析的方了良好的效果。法主要分为两类：有监督的分类器学习方法和无监 1.3中文微博情感极性分析研究现状督的基于情感词典或者PMI的方法。中文微博情感极性分析主要方法来源于上文提 1.1有监督方法及的英文文本情感分析相关方法[0】有监督方法大多通过机器学习技术从文本中选目前，由中国中文信息学会(CPS)主办的中文倾取合适的特征构建分类器，包括朴素贝叶斯、最大嫡向性分析评测(The Fifth Chinese Opinion Analysis Eval- 和支持向量机等，进而对不同情感进行分类。 uation,COAE)聚集了该领域大量研究成果。COAE评分类器选择上，Pang等)用以上3种分类器将测由2008年开始每年举办一次，发布中文倾向性分析影评分为正、负两类极性，引入了一元语法特征、二的相关任务，包括情感识别、新词发现、观点句提取和元语法特征、词性特征和词位置特征等8种组合特评价对象识别等。表1给出了COAE2013http:// 征，最终使用基于出现与否的一元语法特征SVM分 ccir2013.sxu.edu.cn/C0AE.aspx任务1（基于否定句的类器效果最好，在其语料集中达到83%的准确率。句子级倾向性分析)的最佳评测结果

数据中获取诸如情感倾向在内的潜在信息，对于产品导向、广告精确投放、国家舆情控制等领域都具有重要意义，社交信息的数据挖掘与分析正成为研究者们关注的热门课题。对英文社交媒体（如Ｔｗｅｅｔ）的情感分析已经有很多进展，分析的方法主要分为有监督方法［１－５］和基于词典或逐点互信息（ＰＭＩ）［７］的无监督方法。而类似针对中文社交媒体的情感分析工作则仍处于起步阶段，所使用的方法大都源于英文情感分析方法，但由于社交媒体表现形式的多样化和中文网络语境多变性等原因，传统分类方法仍存在很大改进空间，本文针对目前存在的两个问题进行建模：１）情感词典时效性差，中文新词的出现更为频繁，基于统计的方法在短周期内难以判断其情感；２）传统方法未考虑多情绪源之间的关联。这里的多情绪源是指微博中可能出现的能够体现其情感的多种异构特征，如情感词、表情符号、图片和视频等。并且这些情绪源之间存在以下在情感分析上可以进行互补利用的关联关系：１）不同情绪源表达的情感强度可能不同，强情绪源可以对弱情绪源进行极性加强；２）同一情绪下不同情绪源之间存在较强的关联性，例如在“哈哈”表情下出现正情感词的概率较大。根据以上分析，我们提出了一种多情绪源关联模型，该模型对微博中的情感词和表情符号两种情绪源及其之间的关联进行建模。我们的实验结果显示，该模型在微博数据上优于经典分类算法，并且该模型具有拓展性，可以继续加入诸如图片和视频在内的其他情绪源。１情感分析相关工作文本情感分析近几年逐渐成为热门研究课题，其内容主要包括情感极性分析和主客观分析等，本文主要关注情感极性分析。目前情感极性分析的方法主要分为两类：有监督的分类器学习方法和无监督的基于情感词典或者ＰＭＩ的方法。１．１有监督方法有监督方法大多通过机器学习技术从文本中选取合适的特征构建分类器，包括朴素贝叶斯、最大熵和支持向量机等，进而对不同情感进行分类。分类器选择上，Ｐａｎｇ等［１］用以上３种分类器将影评分为正、负两类极性，引入了一元语法特征、二元语法特征、词性特征和词位置特征等８种组合特征，最终使用基于出现与否的一元语法特征ＳＶＭ分类器效果最好，在其语料集中达到８３％的准确率。特征选择上，Ｄ．Ｋｕｓｈａｌ等［２］对语法规则、ｎ⁃ｇｒａｍ特征进行了分析；Ｈａｔｚｉｖａｓｓｉｌｏｇｌｏｕ等［３］使用了情感词作为特征，对句子级别的情感倾向进行了分析；Ｊ．Ｃ．Ｎａ等［４］对指定词语和否定短语特征进行了分析。这类机器学习方法，例如多特征ＳＶＭ情感分类方法，并未考虑到不同特征之间的关联关系。１．２无监督方法无监督方法利用文本中带有情感的词汇的情感倾向，综合考虑文本的语法规则、句法构成等要素对文本进行情感极性的判别，通常采用投票的方法。在该类方法中，主要依靠文本分析，并未关注社交媒体信息中情绪源多并且不同情绪源之间存在关联性的特点。基于情感词方法的基础是判断词的情感，对词汇的情感判断方法包括：基于情感词典、基于监督学习［５］和基于种子词［７－９］的方法等。常用的中文情感词典有知网情感分析用词语集、台湾大学中文情感极性词典（ＮＴＵＳＤ）和大连理工大学中文情感词汇本体库等。基于情感词典的方法主要缺陷在于覆盖面窄、无法包含网络新词。Ｗｉｌｓｏｎ等［５］提出了一种二步分类的有监督方法判断短语的极性：１）判断将短语分类为有极性和中性；２）将第１步中得出的有极性短语进一步划分为４类极性，每一步使用不同的特征进行分类，分类器相同（ＢｏｏｓＴｅｘｔｅｒＡｄａＢｏｏｓｔ．ＨＭ［６］）。最终在其数据集上准确率达到７５．９％。Ｔｕｒｎｅｙ［７］提出了一种判断单词情感的方法，通过在大规模语料集中分别计算目标单词与正负极性种子词（正种子词：ｅｘｃｅｌｌｅｎｔ；负种子词：ｐｏｏｌ）的逐点互信息，将两个结果进行对比得出目标单词的情感，最终在其数据集中达到８２．８％的准确率，缺点是需要大规模语料集，运算量大。此外，ＸｉａＨ．等［９］研究了英文社交媒体中出现的情感标记信号在无监督情感分析中的应用，取得了良好的效果。１．３中文微博情感极性分析研究现状中文微博情感极性分析主要方法来源于上文提及的英文文本情感分析相关方法［１０］。目前，由中国中文信息学会（ＣＩＰＳ）主办的中文倾向性分析评测（ＴｈｅＦｉｆｔｈＣｈｉｎｅｓｅＯｐｉｎｉｏｎＡｎａｌｙｓｉｓＥｖａｌ⁃ ｕａｔｉｏｎ，ＣＯＡＥ）聚集了该领域大量研究成果。ＣＯＡＥ评测由２００８年开始每年举办一次，发布中文倾向性分析的相关任务，包括情感识别、新词发现、观点句提取和评价对象识别等。表１给出了ＣＯＡＥ２０１３ｈｔｔｐ：／／ｃｃｉｒ２０１３．ｓｘｕ．ｅｄｕ．ｃｎ／ＣＯＡＥ．ａｓｐｘ任务１（基于否定句的句子级倾向性分析）的最佳评测结果。第４期李凌霄，等：基于多情绪源关联模型的中文微博情感分析 ·５４７·

.548. 智能系统学报第11卷表1C0AE2013任务1最佳评测宏平均结果情感 Table 1 COAE2013 Taskl best evaluation results 参数褒义中性贬义情感极性准确率 0.741 0.445 0.836 召回率 0.619 0.725 0.464 图1情感词投票模型 F 0.674 0.551 0.597 Fig.1 Word voting model 精度 0.615 最佳结果[1小使用了集成学习的方法，通过多情感次欠采样训练NB、ME、SVM基分类器，通过product ule融合多个基分类器。该方法针对标注数据集较情感极性少的情况，提高了分类器的鲁棒性和泛化能力。图2无关联模型在中文微博情感分析的多种方法中，SVM方法 Fig.2 Uncorrelated model 虽然引入了不同特征，但是认为特征之间相互独立：基于规则投票的方法主要依赖情感词典和语法规则，也有引入表情符号等情绪源的方法，但未考虑不情感表关联关同情绪源之间的关联。此外，谢丽星等12]提出了基于层次结构的情感极性 SVM分类方法，选取主题相关特征构建分类器对微博情感进行三分类。通过分句考虑了3类极性的句图3多情绪源关联模型子数目以及首尾句情感极性，并且依据主题选取了 Fig.3 Emotional multi-source correlation model 多种特征训练分类器，在其数据集上达到67.283% 2.2 基于词典投票的情感分类模型的准确率。但通过对我们的6171条微博进行分析本节介绍了传统方法中基于情感词典投票的情发现，句子数目大于2的微博仅占12%，因此分句对感分类模型，并对其进行了概率转换，再依据否定词情感分析效果不大。此外由于本文针对没有主题标和感叹句对情感词极性进行了修正。签的微博，因此最终在实验中选择文献[12】中与主 2.2.1情感词典概率模型题无关的不分句最佳特征SVM以及无关联多情绪基于情感词典的分析方法将情感词典中标注为源模型作为对比方法。正负极性的情感词作为特征，先对文本进行分词（本 2算法实现文中涉及的分词工具使用了中科院计算所开发的IC- TCLAS50分词系统htp:/www.ictclas.org/),将正负多情绪源关联模型受基于词典投票的情感分析情感词在文本中出现次数的差值作为文本正负情感方法启发，对包括情感词在内的多情绪源及其间的判断的依据。根据式(1)进行极性投票判断。关联进行建模（本文只考虑情感词和表情两种情绪正，正情感词数-负情感词数>0 源)。因此本章从基于词典投票的分类模型，到加文本极性= 中，正情感词数-负情感词数=0 入表情特征进行改进，近而引入后验概率联合建模负，正情感词数-负情感词数0 图1~3分别展示了3种情感分类模型的组成原理，可以看出相比其他两类模型只考虑单一或者微博极性=中，P(p)-P(n)=0 (2) 相互独立的情绪源特征，本文提出的多情绪源关联负，P.(p)-P.(n)<0 模型综合考虑了不同情绪源及其之间的关联进行建正情感词数式中：Pp)=总情感词数负情感词数 ,P.(n)= 模，并且在第2.4节的实验中证明了这种关联对于总情感词数· 情感分析的作用。 2.2.2 否定词和感叹句分析针对中文微博里存在否定词、感叹句等语法结

表１ＣＯＡＥ２０１３任务１最佳评测宏平均结果Ｔａｂｌｅ１ＣＯＡＥ２０１３Ｔａｓｋ１ｂｅｓｔｅｖａｌｕａｔｉｏｎｒｅｓｕｌｔｓ参数褒义中性贬义准确率０．７４１０．４４５０．８３６召回率０．６１９０．７２５０．４６４Ｆ１０．６７４０．５５１０．５９７精度０．６１５最佳结果［１１］使用了集成学习的方法，通过多次欠采样训练ＮＢ、ＭＥ、ＳＶＭ基分类器，通过ｐｒｏｄｕｃｔｒｕｌｅ融合多个基分类器。该方法针对标注数据集较少的情况，提高了分类器的鲁棒性和泛化能力。在中文微博情感分析的多种方法中，ＳＶＭ方法虽然引入了不同特征，但是认为特征之间相互独立；基于规则投票的方法主要依赖情感词典和语法规则，也有引入表情符号等情绪源的方法，但未考虑不同情绪源之间的关联。此外，谢丽星等［１２］提出了基于层次结构的ＳＶＭ分类方法，选取主题相关特征构建分类器对微博情感进行三分类。通过分句考虑了３类极性的句子数目以及首尾句情感极性，并且依据主题选取了多种特征训练分类器，在其数据集上达到６７．２８３％的准确率。但通过对我们的６１７１条微博进行分析发现，句子数目大于２的微博仅占１２％，因此分句对情感分析效果不大。此外由于本文针对没有主题标签的微博，因此最终在实验中选择文献［１２］中与主题无关的不分句最佳特征ＳＶＭ以及无关联多情绪源模型作为对比方法。２算法实现多情绪源关联模型受基于词典投票的情感分析方法启发，对包括情感词在内的多情绪源及其间的关联进行建模（本文只考虑情感词和表情两种情绪源）。因此本章从基于词典投票的分类模型，到加入表情特征进行改进，近而引入后验概率联合建模３个过程来介绍模型的产生原理，最后介绍多情绪源关联模型的构建方法（算法将微博分为负面、中性和正面３种情感）。２．１原理框图图１～３分别展示了３种情感分类模型的组成原理，可以看出相比其他两类模型只考虑单一或者相互独立的情绪源特征，本文提出的多情绪源关联模型综合考虑了不同情绪源及其之间的关联进行建模，并且在第２．４节的实验中证明了这种关联对于情感分析的作用。图１情感词投票模型Ｆｉｇ．１Ｗｏｒｄｖｏｔｉｎｇｍｏｄｅｌ图２无关联模型Ｆｉｇ．２Ｕｎｃｏｒｒｅｌａｔｅｄｍｏｄｅｌ图３多情绪源关联模型Ｆｉｇ．３Ｅｍｏｔｉｏｎａｌｍｕｌｔｉ⁃ｓｏｕｒｃｅｃｏｒｒｅｌａｔｉｏｎｍｏｄｅｌ２．２基于词典投票的情感分类模型本节介绍了传统方法中基于情感词典投票的情感分类模型，并对其进行了概率转换，再依据否定词和感叹句对情感词极性进行了修正。２．２．１情感词典概率模型基于情感词典的分析方法将情感词典中标注为正负极性的情感词作为特征，先对文本进行分词（本文中涉及的分词工具使用了中科院计算所开发的ＩＣ⁃ ＴＣＬＡＳ５０分词系统ｈｔｔｐ：／／ｗｗｗ．ｉｃｔｃｌａｓ．ｏｒｇ／），将正负情感词在文本中出现次数的差值作为文本正负情感判断的依据。根据式（１）进行极性投票判断。文本极性＝正，正情感词数－负情感词数＞０中，正情感词数－负情感词数＝０负，正情感词数－负情感词数＜０ ì î í ï ï ïï （１）如果将以上判断方法用概率模型进行表示，可以得到式（２）。微博极性＝正，Ｐｗ (ｐ) －Ｐｗ (ｎ) ＞０中，Ｐｗ (ｐ) －Ｐｗ (ｎ) ＝０负，Ｐｗ (ｐ) －Ｐｗ (ｎ) ＜０ ì î í ï ï ï ï （２）式中：Ｐｗ (ｐ) ＝正情感词数总情感词数，Ｐｗ (ｎ) ＝负情感词数总情感词数。２．２．２否定词和感叹句分析针对中文微博里存在否定词、感叹句等语法结 ·５４８· 智能系统学报第１１卷

构的特点，本文对情感词的极性权值进行了修正。与文献［１２］中类似，模型对否定词的出现进行了处理，自定义了２４个常用否定词，如表２所示，将以否定词为中心，大小为３窗口的中出现的情感词极性反转。表２自定义否定词表Ｔａｂｌｅ２Ｃｕｓｔｏｍｐｒｉｖａｔｉｖｅｗｏｒｄｓｌｉｓｔ自定义否定词不、不会、不可能、不是、不应该、并非、并不、不、不会、没、无、非、莫、勿、未、否、别、无、不曾、未必、没有、不要、难以、未曾、毫无、毫不感叹句通常起到的是加强语义的作用，而对于语句的情感影响也会起到类似的加强效果。我们认为出现感叹句的句子中，情感词表达效果翻倍，因此使用了最为直接的处理方法，将感叹句中的情感词个数在原基础上乘以２。２．３无关联的情感词和表情模型很多情况下，单独使用情感词难以判断微博所表达的极性，因此可以通过引入其他情绪源来综合判断极性，我们考虑了表情符号作为联合特征，因为表情和情感词在微博情感分析中具有如下优势互补的特性。１）微博中情感词分布广泛，一条微博中往往包含多个情感词。但仅利用情感词进行情感判别的缺点在于情感词典时效性差：情感新词出现较频繁，但刚出现时数量少，使用基于统计的新词极性判别方法在新词出现初始周期内难以对新词进行识别和判断。２）微博上表情符号的使用相对固定，但利用表情进行情感判别的缺点在于一条微博中表情个数不多，同时并非所有微博都包含表情。此外，经过试验表明，微博表情特征的以下特点也能够提升情感分类效果：１）微博表情对情感的表达比文本更为直接和显著；例如微博“终于通关了 ”，文本中并未出现情感词，仅通过词典将其判断为中性情感，加入表情特征后判断为正面情感。２）微博表情可能直接作为句子成分出现在句子当中。例如“今天下雨了，不过 ”，这条微博将表情符号“太开心”作为句子成分加入转折句当中，最终表示了正极性情感。因此我们对情感词和表情符号联合建模，以综合利用二者在微博情感判断中的互补优势，和表情特征的自身判别优点，具体模型如式（３）～（５）所示：Ｓ０ｐ＝ａｒｇｍａｘωｗ，ωｆ（ωｗＰｗ (ｐ) ＋ ωｆＰｆ (ｐ) ）（３）Ｓ０ｎ＝ａｒｇｍａｘωｗ，ωｆ（ωｗＰｗ (ｎ) ＋ ωｆＰｆ (ｎ) ）（４）微博极性＝正，Ｓ０ｐ－Ｓ０ｎ＞０中，Ｓ０ｐ－Ｓ０ｎ＝０负，Ｓ０ｐ－Ｓ０ｎ＜０ ì î í ï ï ï ï （５）式中：Ｐｆ (ｐ) ＝正表情数总表情数，Ｐｆ (ｎ) ＝负表情数总表情数， ωｗ和 ωｆ为情感词和表情的权重系数，本文通过遍历系数空间选取准确率最高的系数值。２．４多情绪源关联模型２．３节模型认为情感词与表情之间是相互独立的，没有考虑情感词和表情之间的关联关系，以及这种关系对情感极性判断的影响，因此这里引入了后验概率对其进行修正。表３给出了一个例子，在该例中，虽然出现的情感词都为正极性，但表情符号却只有负面表情，通过２．３模型进行判断，将这条微博错分成负极性。表３无转折词的转折句实例Ｔａｂｌｅ３Ｅｘａｍｐｌｅｓｏｆｔｒａｎｓｉｔｉｏｎａｌｓｅｎｔｅｎｃｅｓｗｉｔｈｏｕｔｔｒａｎｓｉ⁃ ｔｉｏｎａｌｗｏｒｄｓ类型实例正面情感微博天兔遇上给力的海航，终于跟坐快艇似的回到广州。杭州之行说起来还算圆满吧，多年未见的大学死党、越来越漂亮的老妹鱼头阿奋来平，还有闺蜜菁菁茜女人想念大家了。表情：“泪” 正情感词给力；圆满；漂亮负表情符号泪通过２．３中的方法，对这条微博的情感极性判断为负，但实际极性为正面情感。我们引入了概率模型Ｐ(ｗ，ｆ｜ｐ) ，Ｐ(ｗ，ｆ｜ｎ) 来增强类似的情感极性判断，构建了关联模型（６）～（８）：Ｓｐ＝ａｒｇｍａｘωｗ，ωｆ ωｗＰｗ (ｐ) ＋ ωｆＰｆ (ｐ) ＋Ｐ(ｐ｜ｗ，ｆ) ｎｏｒｍａｌ（６）Ｓｎ＝ａｒｇｍａｘωｗ，ωｆ ωｗＰｗ (ｎ) ＋ ωｆＰｆ (ｎ) ＋Ｐ(ｎ｜ｗ，ｆ) ｎｏｒｍａｌ（７）微博极性＝正，Ｓｐ－Ｓｎ＞０中，Ｓｐ－Ｓｎ＝０负，Ｓｐ－Ｓｎ＜０ ì î í ï ï ï ï （８）第４期李凌霄，等：基于多情绪源关联模型的中文微博情感分析 ·５４９·

550· 智能系统学报第11卷式中：normal为归一化因子。 s=P.0）+Pm）+P(of1m） normal [o P.(p)+oP(p)+P(pl w,f)] normal [o P.(n)+oP (n)+P(nI wf) 0+1.5+0 P(plw)和P(nlw,)计算如下（默认Pp)= (1+0+1)+(0+1.5+0)=0.43 P(n)=0.5): S。-S。=0.14>0,最终结果为正性（本数据集下，取 P(p=P()P(p)=P()P(p)= ω.=1，w,=1.5)。分类正确的原因是通过“泪”与 P(wf) 上述情感词之间的关联性，考虑了“泪”与上述情感 P(wf.p)P(p)=P(wIS.p)P(fI p)P(p)= 词出现情况下，分类为正极性的概率。 P(P) 多情绪源关联模型不限于情感词和表情符号两 .IIIIP IIPP) (9) 个情绪源，可以通过加入更多的情绪源，例如图片、视频等，来拓展关联模型。类似地 P(n=P(f n)P(n) 3实验结果与分析 P(wf) 3.1实验数据及验证方法 P(f)P(n)=P(n)P(n)= 上文中提及的COAE评测给出了公共数据集， P(n) P(wlf,n)P(fln)P(n)≡ 但由于其数据集中所包含的有表情微博数量十分稀少，不适合测试本方法，因此本文通过新浪微博API 0.5ΠΠP(w:1,n)ΠPG1) (10) 爬取微博信息，并对爬取的6171条微博进行了人式中：α和b分别表示一条微博中情感词和表情符号工标注，经过统计，微博数据来自社会、电影、电视的个数。而P(:If,P)P(Ip)P(0:Ij,n)、剧、美食、娱乐八卦、科技等多个领域。 P(GIn)是对数据集进行统计后得出的结果。该所选择数据集中正极性微博所占比例偏大，中模型认为词与词（表情与表情）之间相互独立：但是极性比例偏小，并且含有表情的微博较多（主要分词与表情、词与微博极性、表情与微博极性之间存在布于电影、电视剧、娱乐八卦和美食等领域)，但用关联，用情感词与表情之间的关联得出的结果来改于比较的各个分类方法所用数据集相同，不会对结善原始结果。果比较造成影响。此外，为了消除P(pI0f)与P(nI0)中多我们所使用的情感词典为大连理工大学中文情小数相乘使值过小的问题，实际计算时，取感词汇本体库htp:/ir.dlut.edu.cn/EmotionOntolo- P(pl w,f) gyDownload.aspx？以及自定义的少量新词（如坑爹、 Pplw月-P(pIw)+P(nI 给力等)，一共27488个（正极性词13556个，负极 P(nl wf) 性词13932个)。在分词时，使用ICTCLAS:50自定 P(nI)=P(pI+P(nI 义词典接口，调用了情感词典和否定词典。在表3所示的示例中，使用2.3节中的方法进模型中，使用表情符号和情感词进行了联合建行极性判断，结果如下：模，表情符号选择微博常用表情中默认的50个表情 $=.P.0)+@,P0)=10x+0=10 符号，如（正性）和©（负性）。如表4。表4实验数据极性分布 s8=a.P.(m)+aPn)=0+1.5× -=1.5 Table 4 Dataset sentiment polarity distribution 1 极性微博数目比例/% 因此，S-S。<0,33判断为负极性，而在关联正极性 4196 67.9 模型中：P(plw)=1,P(nlw,f)=0,S。-Sn=0 中性 621 10.0 S=o.P.p）+9Pp)+P(ufIp）负极性 1354 21.9 含表情微博 5182 84 normal 1+0+1 3.2对比实验说明 1+0+1)+(0+1.5+0)=0.57 对比实验1采用文献[12]中一步三分类最佳特

式中：ｎｏｒｍａｌ为归一化因子。ｎｏｒｍａｌ＝ [ωｗＰｗ (ｐ) ＋ ωｆＰｆ (ｐ) ＋Ｐ(ｐ｜ｗ，ｆ) ］＋ [ωｗＰｗ (ｎ) ＋ ωｆＰｆ (ｎ) ＋Ｐ(ｎ｜ｗ，ｆ) ] Ｐ(ｐ｜ｗ，ｆ) 和Ｐ(ｎ｜ｗ，ｆ) 计算如下（默认Ｐ(ｐ) ＝Ｐ(ｎ) ＝０．５）：Ｐ(ｐ｜ｗ，ｆ) ＝Ｐ(ｗ，ｆ｜ｐ) Ｐ（ｐ）Ｐ（ｗ，ｆ） ≅ Ｐ(ｗ，ｆ｜ｐ) Ｐ（ｐ）＝Ｐ(ｗ，ｆ，ｐ) Ｐ(ｐ) Ｐ(ｐ) ＝Ｐ(ｗ｜ｆ，ｐ) Ｐ(ｆ｜ｐ) Ｐ（ｐ） ≅ ０．５∏ ａｉ＝１ ∏ ｂｊ＝１Ｐｗｉ｜ｆ ( ｊ，ｐ) ∏ ｂｊ＝１Ｐｆｊ ( ｜ｐ) （９）类似地Ｐ(ｎ｜ｗ，ｆ) ＝Ｐ(ｗ，ｆ｜ｎ) Ｐ（ｎ）Ｐ（ｗ，ｆ） ≅ Ｐ(ｗ，ｆ｜ｎ) Ｐ（ｎ）＝Ｐ(ｗ，ｆ，ｎ) Ｐ(ｎ) Ｐ(ｎ) ＝Ｐ(ｗ｜ｆ，ｎ) Ｐ(ｆ｜ｎ) Ｐ（ｎ） ≅ ０．５∏ ａｉ＝１ ∏ ｂｊ＝１Ｐｗｉ｜ｆ ( ｊ，ｎ) ∏ ｂｊ＝１Ｐｆｊ ( ｜ｎ) （１０）式中：ａ和ｂ分别表示一条微博中情感词和表情符号的个数。而Ｐｗｉ｜ｆ ( ｊ，ｐ) 、Ｐｆｊ ( ｜ｐ) 、Ｐｗｉ｜ｆ ( ｊ，ｎ) 、Ｐｆｊ ( ｜ｎ) 是对数据集进行统计后得出的结果。该模型认为词与词（表情与表情）之间相互独立；但是词与表情、词与微博极性、表情与微博极性之间存在关联，用情感词与表情之间的关联得出的结果来改善原始结果。此外，为了消除Ｐ(ｐ｜ｗ，ｆ) 与Ｐ(ｎ｜ｗ，ｆ) 中多小数相乘使值过小的问题，实际计算时，取Ｐ(ｐ｜ｗ，ｆ) ＝Ｐ(ｐ｜ｗ，ｆ) Ｐ(ｐ｜ｗ，ｆ) ＋Ｐ(ｎ｜ｗ，ｆ) Ｐ(ｎ｜ｗ，ｆ) ＝Ｐ(ｎ｜ｗ，ｆ) Ｐ(ｐ｜ｗ，ｆ) ＋Ｐ(ｎ｜ｗ，ｆ) 在表３所示的示例中，使用２．３节中的方法进行极性判断，结果如下：Ｓ０ｐ＝ ωｗＰｗ (ｐ) ＋ ωｆＰｆ (ｐ) ＝１．０ × ３３＋０＝１．０Ｓ０ｎ＝ ωｗＰｗ (ｎ) ＋ ωｆＰｆ (ｎ) ＝０＋１．５ × １１＝１．５因此，Ｓ０ｐ－Ｓ０ｎ＜０，３．３判断为负极性，而在关联模型中：Ｐ(ｐ｜ｗ，ｆ) ＝１，Ｐ(ｎ｜ｗ，ｆ) ＝０，Ｓｐ－Ｓｎ＝０Ｓｐ＝ ωｗＰｗ (ｐ) ＋ ωｆＰｆ (ｐ) ＋Ｐ(ｗ，ｆ｜ｐ) ｎｏｒｍａｌ＝１＋０＋１ (１＋０＋１) ＋（０＋１．５＋０）＝０．５７Ｓｎ＝ ωｗＰｗ (ｎ) ＋ ωｆＰｆ (ｎ) ＋Ｐ(ｗ，ｆ｜ｎ) ｎｏｒｍａｌ＝０＋１．５＋０ (１＋０＋１) ＋（０＋１．５＋０）＝０．４３Ｓｐ－Ｓｎ＝０．１４＞０，最终结果为正性（本数据集下，取 ωｗ＝１， ωｆ＝１．５）。分类正确的原因是通过“泪”与上述情感词之间的关联性，考虑了“泪”与上述情感词出现情况下，分类为正极性的概率。多情绪源关联模型不限于情感词和表情符号两个情绪源，可以通过加入更多的情绪源，例如图片、视频等，来拓展关联模型。３实验结果与分析３．１实验数据及验证方法上文中提及的ＣＯＡＥ评测给出了公共数据集，但由于其数据集中所包含的有表情微博数量十分稀少，不适合测试本方法，因此本文通过新浪微博ＡＰＩ爬取微博信息，并对爬取的６１７１条微博进行了人工标注，经过统计，微博数据来自社会、电影、电视剧、美食、娱乐八卦、科技等多个领域。所选择数据集中正极性微博所占比例偏大，中极性比例偏小，并且含有表情的微博较多（主要分布于电影、电视剧、娱乐八卦和美食等领域），但用于比较的各个分类方法所用数据集相同，不会对结果比较造成影响。我们所使用的情感词典为大连理工大学中文情感词汇本体库ｈｔｔｐ：／／ｉｒ．ｄｌｕｔ．ｅｄｕ．ｃｎ／ＥｍｏｔｉｏｎＯｎｔｏｌｏ⁃ ｇｙＤｏｗｎｌｏａｄ．ａｓｐｘ？以及自定义的少量新词（如坑爹、给力等），一共２７４８８个（正极性词１３５５６个，负极性词１３９３２个）。在分词时，使用ＩＣＴＣＬＡＳ５０自定义词典接口，调用了情感词典和否定词典。模型中，使用表情符号和情感词进行了联合建模，表情符号选择微博常用表情中默认的５０个表情符号，如（正性）和（负性）。如表４。表４实验数据极性分布Ｔａｂｌｅ４Ｄａｔａｓｅｔｓｅｎｔｉｍｅｎｔｐｏｌａｒｉｔｙｄｉｓｔｒｉｂｕｔｉｏｎ极性微博数目比例／％正极性４１９６６７．９中性６２１１０．０负极性１３５４２１．９含表情微博５１８２８４３．２对比实验说明对比实验１采用文献［１２］中一步三分类最佳特 ·５５０· 智能系统学报第１１卷

第4期李凌霄，等：基于多情绪源关联模型的中文微博情感分析 .551. 征组合（去除了情感短语和中文是否出现这两个特要依赖于传统情感词典分类方法。征)，此外因为本文数据集中的微博包含的多句子表6总体结果情况少，因而不考虑分句的情况进行第2次分类；同 Table 6 Experimental results 时本文的情感极性分析针对无主题标签的微博，因正极性中极性负极性此不考虑主题特征。在文献[12]所做的实验中，u 方法 ·准确率 R P R 特征与主客观分类对最终效果有负面影响，因此也关联不将这两个因素考虑在内。此外，选用的情感词典 0.9060.9450.5060.395 0.8060.7790.853 模型和表情符号、标点符号也与之不同。最终使用的特 NB 0.9450.7530.2700.747 0.6570.5370.705 征表示如表5所示，用词袋模型(B0W)表示。其中传统否定词采用与3.2.2中相同处理方法。对比实验二 0.8330.6170.1620.617 0.6080.3120.550 词典采用3.3节中方法。实验采用五折交叉验证。词典+ 表5对比实验特征表示 0.8940.9250.5070.369 0.7500.7630.834 Table 5 Sentiment features of baseline 表情 SVM0.8700.9450.5380.330 序号类型特征描述维度 0.7690.7020.829 备注正、负向表情微博常用注：P,R分别表示准确率(Precision)和召回率(Recall)。表情符号个数 2 表情中的 3.4 错误分析 (50个表情) 默认表情本节中对混合概率模型的错误分类样本进行了正、负向情感使用大连分析，研究了造成分类错误的原因，如表7所示。情感词词个数理工大学表7错误类别及相关示例 (2461个情感词)》词典 Table 7 Misclassified examples 3形容词形容词个数序号错误类别描述示例 4 动词动词个数各种消失。信号标识消失情感词未包时间消失电池电量各种消含在词典中 5 感叹号是否出现！或！ 1 失苹果系统i0s7真心是坑爹啊。有时候突然不能输人 6 问号是否出现？或？无表情符号中文，关机重启后正常。特征 3.3 实验结果及分析已发生两次。分类器说明：负面表情或情感词略凶残的相机效果， 1)关联模型：多情绪源关联模型（情感词、表情表达正面或中性情感自恋狂可以点赞。关联建模)：反问句式加坑不坑！ 2)NB:朴素贝叶斯模型，所使用的特征与对比强了负面情感实验一的SVM方法相同，使用BOW表示特征； 3天内出现4次 3)传统词典：传统的基于情感词典以及规则进反讽句式这种情况，还能不能一行投票的方法(2.2中的方法)：起愉快地玩耍了？ 4)词典+表情：传统基于情感词典及规则进行其实我还是挺喜欢i0s7 转折句式投票的方法，辅以表情特征(2.3中的方法)。的如果他不卡的话 5)SVM:文献[12]中一步三分类方法。同志们不好意思，我刚才正面表情从表6的实验结果可以看出，本文提出的多情发错了，那个是草稿箱里表达中性绪源关联模型分类效果最佳，达到85.3%，比传统基的表情：“嘻嘻”“哈哈” 于情感词加表情投票的方法高出了1.9%，比同类多实验结果表明，在缺乏表情符号特征的微博中特征SVM高出了2.4%。说明了对情绪源进行关联分类效果较差，主要原因还是由于当没有表情特征性建模，能够有效提高情感分类效果，表明不同情绪时，分类器只依赖于情感词以及简单规则进行分类。源之间的关联关系与情感极性也是相关的。缺点在此外，对转折句、反讽句等句式的判断存在不足，原于对情绪源单一的微博（例如无表情的微博）则主因是微博中很多反讽句式的出现往往是伴随着网络

征组合（去除了情感短语和中文是否出现这两个特征），此外因为本文数据集中的微博包含的多句子情况少，因而不考虑分句的情况进行第２次分类；同时本文的情感极性分析针对无主题标签的微博，因此不考虑主题特征。在文献［１２］所做的实验中，ｕｒｌ特征与主客观分类对最终效果有负面影响，因此也不将这两个因素考虑在内。此外，选用的情感词典和表情符号、标点符号也与之不同。最终使用的特征表示如表５所示，用词袋模型（ＢＯＷ）表示。其中否定词采用与３．２．２中相同处理方法。对比实验二采用３．３节中方法。实验采用五折交叉验证。表５对比实验特征表示Ｔａｂｌｅ５Ｓｅｎｔｉｍｅｎｔｆｅａｔｕｒｅｓｏｆｂａｓｅｌｉｎｅ序号类型特征描述维度备注１表情正、负向表情符号个数（５０个表情）２微博常用表情中的默认表情２情感词正、负向情感词个数（２４６１个情感词）２使用大连理工大学词典３形容词形容词个数１４动词动词个数１５感叹号是否出现！或！１６问号是否出现？或？１３．３实验结果及分析分类器说明：１）关联模型：多情绪源关联模型（情感词、表情关联建模）；２）ＮＢ：朴素贝叶斯模型，所使用的特征与对比实验一的ＳＶＭ方法相同，使用ＢＯＷ表示特征；３）传统词典：传统的基于情感词典以及规则进行投票的方法（２．２中的方法）；４）词典＋表情：传统基于情感词典及规则进行投票的方法，辅以表情特征（２．３中的方法）。５）ＳＶＭ：文献［１２］中一步三分类方法。从表６的实验结果可以看出，本文提出的多情绪源关联模型分类效果最佳，达到８５．３％，比传统基于情感词加表情投票的方法高出了１．９％，比同类多特征ＳＶＭ高出了２．４％。说明了对情绪源进行关联性建模，能够有效提高情感分类效果，表明不同情绪源之间的关联关系与情感极性也是相关的。缺点在于对情绪源单一的微博（例如无表情的微博）则主要依赖于传统情感词典分类方法。表６总体结果Ｔａｂｌｅ６Ｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓ方法正极性ＰＲ中极性ＰＲ负极性ＰＲ准确率关联模型０．９０６０．９４５０．５０６０．３９５０．８０６０．７７９０．８５３ＮＢ０．９４５０．７５３０．２７００．７４７０．６５７０．５３７０．７０５传统词典０．８３３０．６１７０．１６２０．６１７０．６０８０．３１２０．５５０词典＋表情０．８９４０．９２５０．５０７０．３６９０．７５００．７６３０．８３４ＳＶＭ０．８７００．９４５０．５３８０．３３００．７６９０．７０２０．８２９注：Ｐ、Ｒ分别表示准确率（Ｐｒｅｃｉｓｉｏｎ）和召回率（Ｒｅｃａｌｌ）。３．４错误分析本节中对混合概率模型的错误分类样本进行了分析，研究了造成分类错误的原因，如表７所示。表７错误类别及相关示例Ｔａｂｌｅ７Ｍｉｓｃｌａｓｓｉｆｉｅｄｅｘａｍｐｌｅｓ序号错误类别描述示例１情感词未包含在词典中各种消失。信号标识消失时间消失电池电量各种消失苹果系统ｉｏｓ７真心是坑爹啊。２无表情符号特征有时候突然不能输入中文，关机重启后正常。已发生两次。３负面表情或情感词表达正面或中性情感略凶残的相机效果，自恋狂可以点赞。４反问句式加强了负面情感坑不坑！５反讽句式３天内出现４次这种情况，还能不能一起愉快地玩耍了？６转折句式其实我还是挺喜欢ｉｏｓ７的如果他不卡的话７正面表情表达中性同志们不好意思，我刚才发错了，那个是草稿箱里的表情：“嘻嘻”“哈哈” 实验结果表明，在缺乏表情符号特征的微博中分类效果较差，主要原因还是由于当没有表情特征时，分类器只依赖于情感词以及简单规则进行分类。此外，对转折句、反讽句等句式的判断存在不足，原因是微博中很多反讽句式的出现往往是伴随着网络第４期李凌霄，等：基于多情绪源关联模型的中文微博情感分析 ·５５１·

.552 智能系统学报第11卷新词出现的，并且没有明显的句式标识词（例如，析，例如祈使句式、多重否定、反讽句等； “这小偷真是太机智了”)，使得对反讽句和转折句 3)挖掘微博用户之间的社交网络关系对情感的判断比较困难。分析的影响，通过有关联用户来参与判断情感。 4.4对比分析参考文献：通过在同一数据集上对不同模型的实验表明」多情绪源关联模型能够很好地解决基于情感词判别 [1]PANG Bo,LEE L,VAITHYANATHAN S.Thumbs up?: 方法时效性差的问题，并且在分类时综合考虑了不 sentiment classification using machine learning techniques 同情绪源之间的关联性，提高了分类效果。相对于 [C]//Proceedings of the ACL-02 Conference on Empirical 对比实验2的普通情感词和表情建模的方法，多情 Methods in Natural Language Processing.Stroudsburg,PA, 绪源关联模型通过引入后验概率，利用情感词与表 USA:ACM.2002,10:79-86. [2]DAVE K,LAWRENCE S,PENNOCK D M.Mining the 情符号之间的关联性，加强情感判断性能。另外，使 Peanut gallery:opinion extraction and semantic classifica- 用对比实验1中的VM分类器时，虽然加入了包括 tion of product reviews[C]//Proceedings of the 12th Inter- 表情、否定词在内的多特征，但认为不同特征之间相 national Conference on World Wide Web.Budapest,HU: 互独立。多情绪源关联模型所能解决的一些错分类 ACM.2003:519-528. 问题如表8所示。 [3]YU HONG,HATZIVASSILOGLOU V.Towards answering 表8关联模型分类正确样本 opinion questions:separating facts from opinions and identi- Table 8 Experimental examples fying the polarity of opinion sentences[C]//Proceedings of 错误类别序号关联 SVM 3.3 the 2003 Conference on Empirical Methods in Natural Lan- 示例描述模型模型模型 guage Processing.Stroudsburg.PA,USA:ACM,2003: 129-136. 情感词与表情趴在墙上 [4]NA J C,SUI H,KHOO C,et al.Effectiveness of simple 1间的关联关系不能更萌正确错误错误 linguistic processing in automatic sentiment classification of 主导分类结果表情：“可怜” product reviews[C]//MCILWAINE I C.Knowledge Organi- 这啥，太不稳 zation and the Global Information Society:Proceedings of 微博包含定了，又抽风正确正确正确 the Eighth International ISKO Conference.Wurzburg,Ger- 否定词般地自己好了 many:Ergon Verlag,2004:49-54. 祈福。我叫不 [5]WILSON T,WIEBE J,HOFFMANN P.Recognizing con- SVM误判生气！表情：“蜡正确错误正确 textual polarity in phrase-level sentiment analysis[C]//Pro- 3 烛”“生病”“抓狂” ceedings of the Conference on Human Language Technology and Empirical Methods in Natural Language Processing. 4 结论及展望 Stroudsburg,PA,USA:ACM,2005:347-354. [6]SCHAPIRE R E,SINGER Y.BoosTexter:a boosting-based 新浪微博作为时下最为流行的社交网站之一， system for text categorization[J.Machine Learning,2000. 不仅是民众钟爱的社交工具，更是研究者挖掘数据 39(2/3):135-168. 的天堂，其商业价值和学术价值都不断升温。本文 [7]TURNEY P D.Thumbs up or thumbs down?:semantic ori- 对微博数据挖掘领域的情感分析进行了研究，提出 entation applied to unsupervised classification of reviews 多情绪源关联模型，针对传统基于词典的方法重新 [C]//Proceedings of the 40th Annual Meeting on Associa- 进行了关联性建模，使得分类准确率相比传统模型 tion for Computational Linguistics.Stroudsburg,PA,USA: (3.3节模型)提高了1.9%：相比多特征SVM提高了 ACM,2002:417-424. [8]朱嫣岚，闵锦，周雅倩，等.基于HowNet的词汇语义倾 2.4%。但该方法仍是较为简单的情感分析方法，就向计算[J].中文信息学报，2006,20(1)：14-20 方法本身而言，也存在很大的提升空间，可以对以下 ZHU Yanlan,MIN Jin,ZHOU Yaqian,et al.Semantic ori- 几个方面进行改进： entation computing based on HowNet[J].Journal of Chinese 1)拓展模型，引入更多情绪源，包括图片和视 information processing,2006,20(1):14-20. 频等，使模型更适合于微博语境。 [9]HU Xia,TANG Jiliang,GAO Huiji,et al.Unsupervised 2)在概率模型中引入更加复杂的语法规则分 sentiment analysis with emotional signals[C]//Proceedings

新词出现的，并且没有明显的句式标识词（例如， “这小偷真是太机智了”），使得对反讽句和转折句的判断比较困难。４．４对比分析通过在同一数据集上对不同模型的实验表明，多情绪源关联模型能够很好地解决基于情感词判别方法时效性差的问题，并且在分类时综合考虑了不同情绪源之间的关联性，提高了分类效果。相对于对比实验２的普通情感词和表情建模的方法，多情绪源关联模型通过引入后验概率，利用情感词与表情符号之间的关联性，加强情感判断性能。另外，使用对比实验１中的ＳＶＭ分类器时，虽然加入了包括表情、否定词在内的多特征，但认为不同特征之间相互独立。多情绪源关联模型所能解决的一些错分类问题如表８所示。表８关联模型分类正确样本Ｔａｂｌｅ８Ｅｘｐｅｒｉｍｅｎｔａｌｅｘａｍｐｌｅｓ序号错误类别描述示例关联模型ＳＶＭ模型３．３模型１情感词与表情间的关联关系主导分类结果趴在墙上不能更萌表情：“可怜” 正确错误错误２微博包含否定词这啥，太不稳定了，又抽风般地自己好了正确正确正确３ＳＶＭ误判祈福。我叫不生气！！表情：“蜡烛”“生病”“抓狂” 正确错误正确４结论及展望新浪微博作为时下最为流行的社交网站之一，不仅是民众钟爱的社交工具，更是研究者挖掘数据的天堂，其商业价值和学术价值都不断升温。本文对微博数据挖掘领域的情感分析进行了研究，提出多情绪源关联模型，针对传统基于词典的方法重新进行了关联性建模，使得分类准确率相比传统模型（３．３节模型）提高了１．９％；相比多特征ＳＶＭ提高了２．４％。但该方法仍是较为简单的情感分析方法，就方法本身而言，也存在很大的提升空间，可以对以下几个方面进行改进：１）拓展模型，引入更多情绪源，包括图片和视频等，使模型更适合于微博语境。２）在概率模型中引入更加复杂的语法规则分析，例如祈使句式、多重否定、反讽句等；３）挖掘微博用户之间的社交网络关系对情感分析的影响，通过有关联用户来参与判断情感。参考文献：［１］ＰＡＮＧＢｏ，ＬＥＥＬ，ＶＡＩＴＨＹＡＮＡＴＨＡＮＳ．Ｔｈｕｍｂｓｕｐ？：ｓｅｎｔｉｍｅｎｔｃｌａｓｓｉｆｉｃａｔｉｏｎｕｓｉｎｇｍａｃｈｉｎｅｌｅａｒｎｉｎｇｔｅｃｈｎｉｑｕｅｓ［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＡＣＬ⁃０２ＣｏｎｆｅｒｅｎｃｅｏｎＥｍｐｉｒｉｃａｌＭｅｔｈｏｄｓｉｎＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ．Ｓｔｒｏｕｄｓｂｕｒｇ，ＰＡ，ＵＳＡ：ＡＣＭ，２００２，１０：７９－８６．［２］ＤＡＶＥＫ，ＬＡＷＲＥＮＣＥＳ，ＰＥＮＮＯＣＫＤＭ．ＭｉｎｉｎｇｔｈｅＰｅａｎｕｔｇａｌｌｅｒｙ：ｏｐｉｎｉｏｎｅｘｔｒａｃｔｉｏｎａｎｄｓｅｍａｎｔｉｃｃｌａｓｓｉｆｉｃａ⁃ ｔｉｏｎｏｆｐｒｏｄｕｃｔｒｅｖｉｅｗｓ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１２ｔｈＩｎｔｅｒ⁃ ｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＷｏｒｌｄＷｉｄｅＷｅｂ．Ｂｕｄａｐｅｓｔ，ＨＵ：ＡＣＭ，２００３：５１９－５２８．［３］ＹＵＨＯＮＧ，ＨＡＴＺＩＶＡＳＳＩＬＯＧＬＯＵＶ．Ｔｏｗａｒｄｓａｎｓｗｅｒｉｎｇｏｐｉｎｉｏｎｑｕｅｓｔｉｏｎｓ：ｓｅｐａｒａｔｉｎｇｆａｃｔｓｆｒｏｍｏｐｉｎｉｏｎｓａｎｄｉｄｅｎｔｉ⁃ ｆｙｉｎｇｔｈｅｐｏｌａｒｉｔｙｏｆｏｐｉｎｉｏｎｓｅｎｔｅｎｃｅｓ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２００３ＣｏｎｆｅｒｅｎｃｅｏｎＥｍｐｉｒｉｃａｌＭｅｔｈｏｄｓｉｎＮａｔｕｒａｌＬａｎ⁃ ｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ．Ｓｔｒｏｕｄｓｂｕｒｇ，ＰＡ，ＵＳＡ：ＡＣＭ，２００３：１２９－１３６．［４］ＮＡＪＣ，ＳＵＩＨ，ＫＨＯＯＣ，ｅｔａｌ．Ｅｆｆｅｃｔｉｖｅｎｅｓｓｏｆｓｉｍｐｌｅｌｉｎｇｕｉｓｔｉｃｐｒｏｃｅｓｓｉｎｇｉｎａｕｔｏｍａｔｉｃｓｅｎｔｉｍｅｎｔｃｌａｓｓｉｆｉｃａｔｉｏｎｏｆｐｒｏｄｕｃｔｒｅｖｉｅｗｓ［Ｃ］／／ＭＣＩＬＷＡＩＮＥＩＣ．ＫｎｏｗｌｅｄｇｅＯｒｇａｎｉ⁃ ｚａｔｉｏｎａｎｄｔｈｅＧｌｏｂａｌＩｎｆｏｒｍａｔｉｏｎＳｏｃｉｅｔｙ：ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＥｉｇｈｔｈＩｎｔｅｒｎａｔｉｏｎａｌＩＳＫＯＣｏｎｆｅｒｅｎｃｅ．Ｗｕｒｚｂｕｒｇ，Ｇｅｒ⁃ ｍａｎｙ：ＥｒｇｏｎＶｅｒｌａｇ，２００４：４９－５４．［５］ＷＩＬＳＯＮＴ，ＷＩＥＢＥＪ，ＨＯＦＦＭＡＮＮＰ．Ｒｅｃｏｇｎｉｚｉｎｇｃｏｎ⁃ ｔｅｘｔｕａｌｐｏｌａｒｉｔｙｉｎｐｈｒａｓｅ⁃ｌｅｖｅｌｓｅｎｔｉｍｅｎｔａｎａｌｙｓｉｓ［Ｃ］／／Ｐｒｏ⁃ ｃｅｅｄｉｎｇｓｏｆｔｈｅＣｏｎｆｅｒｅｎｃｅｏｎＨｕｍａｎＬａｎｇｕａｇｅＴｅｃｈｎｏｌｏｇｙａｎｄＥｍｐｉｒｉｃａｌＭｅｔｈｏｄｓｉｎＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ．Ｓｔｒｏｕｄｓｂｕｒｇ，ＰＡ，ＵＳＡ：ＡＣＭ，２００５：３４７－３５４．［６］ＳＣＨＡＰＩＲＥＲＥ，ＳＩＮＧＥＲＹ．ＢｏｏｓＴｅｘｔｅｒ：ａｂｏｏｓｔｉｎｇ⁃ｂａｓｅｄｓｙｓｔｅｍｆｏｒｔｅｘｔｃａｔｅｇｏｒｉｚａｔｉｏｎ［Ｊ］．ＭａｃｈｉｎｅＬｅａｒｎｉｎｇ，２０００，３９（２／３）：１３５－１６８．［７］ＴＵＲＮＥＹＰＤ．Ｔｈｕｍｂｓｕｐｏｒｔｈｕｍｂｓｄｏｗｎ？：ｓｅｍａｎｔｉｃｏｒｉ⁃ ｅｎｔａｔｉｏｎａｐｐｌｉｅｄｔｏｕｎｓｕｐｅｒｖｉｓｅｄｃｌａｓｓｉｆｉｃａｔｉｏｎｏｆｒｅｖｉｅｗｓ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ４０ｔｈＡｎｎｕａｌＭｅｅｔｉｎｇｏｎＡｓｓｏｃｉａ⁃ ｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ．Ｓｔｒｏｕｄｓｂｕｒｇ，ＰＡ，ＵＳＡ：ＡＣＭ，２００２：４１７－４２４．［８］朱嫣岚，闵锦，周雅倩，等．基于ＨｏｗＮｅｔ的词汇语义倾向计算［Ｊ］．中文信息学报，２００６，２０（１）：１４－２０．ＺＨＵＹａｎｌａｎ，ＭＩＮＪｉｎ，ＺＨＯＵＹａｑｉａｎ，ｅｔａｌ．Ｓｅｍａｎｔｉｃｏｒｉ⁃ ｅｎｔａｔｉｏｎｃｏｍｐｕｔｉｎｇｂａｓｅｄｏｎＨｏｗＮｅｔ［Ｊ］．ＪｏｕｒｎａｌｏｆＣｈｉｎｅｓｅｉｎｆｏｒｍａｔｉｏｎｐｒｏｃｅｓｓｉｎｇ，２００６，２０（１）：１４－２０．［９］ＨＵＸｉａ，ＴＡＮＧＪｉｌｉａｎｇ，ＧＡＯＨｕｉｊｉ，ｅｔａｌ．Ｕｎｓｕｐｅｒｖｉｓｅｄｓｅｎｔｉｍｅｎｔａｎａｌｙｓｉｓｗｉｔｈｅｍｏｔｉｏｎａｌｓｉｇｎａｌｓ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓ ·５５２· 智能系统学报第１１卷

第4期李凌霄，等：基于多情绪源关联模型的中文微博情感分析 ·553. of the 22nd international conference on World Wide Web. 作者简介： Rio de Janeiro,Brazil:ACM,2013:607-618. 李凌霄，男，1990年生，硕士研究 [10]赵妍妍，秦兵，刘挺.文本情感分析[J].软件学报，生，主要研究方向为跨媒体舆情分析。 2010.21(8):1834-1848. ZHAO Yanyan,QIN Bing,LIU Ting.Sentiment analysis [J].Journal of software,2010,21(8):1834-1848. [11]魏现辉，任巨伟，何文译，等.DUTR:中文短文本倾向性分析及要素抽取方法研究[C]//第五届中文倾向曹冬林，男，1977年生，博士，厦门性分析评测研讨会论文集.太原，2013：116-129. 大学智能科学与技术系助理教授，主要 WEI Xianhui,REN Juwei,HE Wenyi,et al.DUTIR: 研究方向为自然语言处理、信息检索、 method research of sentiment analysis and elements ex- 跨媒体舆情分析、计算机视觉、模式识 traction of Chinese short text C]//Proceedings of the 别。 Fifth Chinese Opinion Analysis Evaluation.Taiyuan, 2013:116-129. 李绍滋，男，1963年生，博土，教授， [12]谢丽星，周明，孙茂松.基于层次结构的多策略中文微博士生导师，主要研究方向为人工智能博情感分析和特征抽取[J].中文信息学报，2012,26 及其应用、计算机视觉与机器学习、运动 (1):73-83 目标检测与识别、跨媒体舆情分析等。 XIE Lixing,ZHOU Ming,SUN Maosong.Hierarchical 主持过多项国家、省市级项目研究，获得 structure based hybrid approach to sentiment analysis of 省科学技术三等奖两项，发表学术论文 Chinese micro blog and its feature extraction[J].Journal of 200余篇，其中：27篇被SCI检索、171篇EI检索。 Chinese information processing,2012,26(1):73-83. 2016年国际云和可信计算研讨会 International Symposium on Cloud and Trusted Computing 2016 Current and future software needs to remain focused towards the development and deployment of large and complex in- telligent and networked information systems,required for internet-based and intranet-based systems in organizations.Today software covers a very wide range of application domains as well as technology and research issues.This has found realiza- tion through Cloud Computing,Big Data,and data intensive applications.Vital element in such networked information sys- tems are the notions of trust,security,privacy and risk management. Cloud and Trusted Computing(C&TC 2015)is the 6th International Symposium on Cloud Computing,Trusted Com- puting and Secure Virtual Infrastructures,organized as a component conference of the OnTheMove Federated Conferences Workshops.C&TC 2016 will be held in Rhodes,Greece. The conference solicits submissions from both academia and industry presenting novel research in the context of Cloud Computing,Big Data,and data intensive applications,presenting theoretical and practical approaches to cloud and big data trust,security,privacy and risk management.The conference will provide a special focus on the intersection between cloud,big data,and trust bringing together experts from the three communities to discuss on the vital issues of trust,secu- rity,privacy and risk management in Cloud Computing,shedding the light on novel issues and requirements in big data domains.Potential contributions could cover new approaches,methodologies,protocols,tools,or verification and valida- tion techniques.We also welcome review papers that analyze critically the current status of trust,security,privacy and risk management in the cloud.Papers from practitioners who encounter trust,security,privacy and risk management problems and seek understanding are also welcome. Website:http://www.otmconferences.org/index.php/conferences/ctc-2016

ｏｆｔｈｅ２２ｎｄｉｎｔｅｒｎａｔｉｏｎａｌｃｏｎｆｅｒｅｎｃｅｏｎＷｏｒｌｄＷｉｄｅＷｅｂ．ＲｉｏｄｅＪａｎｅｉｒｏ，Ｂｒａｚｉｌ：ＡＣＭ，２０１３：６０７－６１８．［１０］赵妍妍，秦兵，刘挺．文本情感分析［Ｊ］．软件学报，２０１０，２１（８）：１８３４－１８４８．ＺＨＡＯＹａｎｙａｎ，ＱＩＮＢｉｎｇ，ＬＩＵＴｉｎｇ．Ｓｅｎｔｉｍｅｎｔａｎａｌｙｓｉｓ［Ｊ］．Ｊｏｕｒｎａｌｏｆｓｏｆｔｗａｒｅ，２０１０，２１（８）：１８３４－１８４８．［１１］魏现辉，任巨伟，何文译，等．ＤＵＴＩＲ：中文短文本倾向性分析及要素抽取方法研究［Ｃ］／／第五届中文倾向性分析评测研讨会论文集．太原，２０１３：１１６－１２９．ＷＥＩＸｉａｎｈｕｉ，ＲＥＮＪｕｗｅｉ，ＨＥＷｅｎｙｉ，ｅｔａｌ．ＤＵＴＩＲ：ｍｅｔｈｏｄｒｅｓｅａｒｃｈｏｆｓｅｎｔｉｍｅｎｔａｎａｌｙｓｉｓａｎｄｅｌｅｍｅｎｔｓｅｘ⁃ ｔｒａｃｔｉｏｎｏｆＣｈｉｎｅｓｅｓｈｏｒｔｔｅｘｔ［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＦｉｆｔｈＣｈｉｎｅｓｅＯｐｉｎｉｏｎＡｎａｌｙｓｉｓＥｖａｌｕａｔｉｏｎ．Ｔａｉｙｕａｎ，２０１３：１１６－１２９．［１２］谢丽星，周明，孙茂松．基于层次结构的多策略中文微博情感分析和特征抽取［Ｊ］．中文信息学报，２０１２，２６（１）：７３－８３．ＸＩＥＬｉｘｉｎｇ，ＺＨＯＵＭｉｎｇ，ＳＵＮＭａｏｓｏｎｇ．ＨｉｅｒａｒｃｈｉｃａｌｓｔｒｕｃｔｕｒｅｂａｓｅｄｈｙｂｒｉｄａｐｐｒｏａｃｈｔｏｓｅｎｔｉｍｅｎｔａｎａｌｙｓｉｓｏｆＣｈｉｎｅｓｅｍｉｃｒｏｂｌｏｇａｎｄｉｔｓｆｅａｔｕｒｅｅｘｔｒａｃｔｉｏｎ［Ｊ］．ＪｏｕｒｎａｌｏｆＣｈｉｎｅｓｅｉｎｆｏｒｍａｔｉｏｎｐｒｏｃｅｓｓｉｎｇ，２０１２，２６（１）：７３－８３．作者简介：李凌霄，男，１９９０年生，硕士研究生，主要研究方向为跨媒体舆情分析。曹冬林，男，１９７７年生，博士，厦门大学智能科学与技术系助理教授，主要研究方向为自然语言处理、信息检索、跨媒体舆情分析、计算机视觉、模式识别。李绍滋，男，１９６３年生，博士，教授，博士生导师，主要研究方向为人工智能及其应用、计算机视觉与机器学习、运动目标检测与识别、跨媒体舆情分析等。主持过多项国家、省市级项目研究，获得省科学技术三等奖两项，发表学术论文２００余篇，其中：２７篇被ＳＣＩ检索、１７１篇ＥＩ检索。２０１６年国际云和可信计算研讨会ＩｎｔｅｒｎａｔｉｏｎａｌＳｙｍｐｏｓｉｕｍｏｎＣｌｏｕｄａｎｄＴｒｕｓｔｅｄＣｏｍｐｕｔｉｎｇ２０１６Ｃｕｒｒｅｎｔａｎｄｆｕｔｕｒｅｓｏｆｔｗａｒｅｎｅｅｄｓｔｏｒｅｍａｉｎｆｏｃｕｓｅｄｔｏｗａｒｄｓｔｈｅｄｅｖｅｌｏｐｍｅｎｔａｎｄｄｅｐｌｏｙｍｅｎｔｏｆｌａｒｇｅａｎｄｃｏｍｐｌｅｘｉｎ⁃ ｔｅｌｌｉｇｅｎｔａｎｄｎｅｔｗｏｒｋｅｄｉｎｆｏｒｍａｔｉｏｎｓｙｓｔｅｍｓ，ｒｅｑｕｉｒｅｄｆｏｒｉｎｔｅｒｎｅｔ⁃ｂａｓｅｄａｎｄｉｎｔｒａｎｅｔ⁃ｂａｓｅｄｓｙｓｔｅｍｓｉｎｏｒｇａｎｉｚａｔｉｏｎｓ．Ｔｏｄａｙｓｏｆｔｗａｒｅｃｏｖｅｒｓａｖｅｒｙｗｉｄｅｒａｎｇｅｏｆａｐｐｌｉｃａｔｉｏｎｄｏｍａｉｎｓａｓｗｅｌｌａｓｔｅｃｈｎｏｌｏｇｙａｎｄｒｅｓｅａｒｃｈｉｓｓｕｅｓ．Ｔｈｉｓｈａｓｆｏｕｎｄｒｅａｌｉｚａ⁃ ｔｉｏｎｔｈｒｏｕｇｈＣｌｏｕｄＣｏｍｐｕｔｉｎｇ，ＢｉｇＤａｔａ，ａｎｄｄａｔａｉｎｔｅｎｓｉｖｅａｐｐｌｉｃａｔｉｏｎｓ．Ｖｉｔａｌｅｌｅｍｅｎｔｉｎｓｕｃｈｎｅｔｗｏｒｋｅｄｉｎｆｏｒｍａｔｉｏｎｓｙｓ⁃ ｔｅｍｓａｒｅｔｈｅｎｏｔｉｏｎｓｏｆｔｒｕｓｔ，ｓｅｃｕｒｉｔｙ，ｐｒｉｖａｃｙａｎｄｒｉｓｋｍａｎａｇｅｍｅｎｔ．ＣｌｏｕｄａｎｄＴｒｕｓｔｅｄＣｏｍｐｕｔｉｎｇ（Ｃ＆ＴＣ２０１５）ｉｓｔｈｅ６ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＳｙｍｐｏｓｉｕｍｏｎＣｌｏｕｄＣｏｍｐｕｔｉｎｇ，ＴｒｕｓｔｅｄＣｏｍ⁃ ｐｕｔｉｎｇａｎｄＳｅｃｕｒｅＶｉｒｔｕａｌＩｎｆｒａｓｔｒｕｃｔｕｒｅｓ，ｏｒｇａｎｉｚｅｄａｓａｃｏｍｐｏｎｅｎｔｃｏｎｆｅｒｅｎｃｅｏｆｔｈｅＯｎＴｈｅＭｏｖｅＦｅｄｅｒａｔｅｄＣｏｎｆｅｒｅｎｃｅｓ＆Ｗｏｒｋｓｈｏｐｓ．Ｃ＆ＴＣ２０１６ｗｉｌｌｂｅｈｅｌｄｉｎＲｈｏｄｅｓ，Ｇｒｅｅｃｅ．ＴｈｅｃｏｎｆｅｒｅｎｃｅｓｏｌｉｃｉｔｓｓｕｂｍｉｓｓｉｏｎｓｆｒｏｍｂｏｔｈａｃａｄｅｍｉａａｎｄｉｎｄｕｓｔｒｙｐｒｅｓｅｎｔｉｎｇｎｏｖｅｌｒｅｓｅａｒｃｈｉｎｔｈｅｃｏｎｔｅｘｔｏｆＣｌｏｕｄＣｏｍｐｕｔｉｎｇ，ＢｉｇＤａｔａ，ａｎｄｄａｔａｉｎｔｅｎｓｉｖｅａｐｐｌｉｃａｔｉｏｎｓ，ｐｒｅｓｅｎｔｉｎｇｔｈｅｏｒｅｔｉｃａｌａｎｄｐｒａｃｔｉｃａｌａｐｐｒｏａｃｈｅｓｔｏｃｌｏｕｄａｎｄｂｉｇｄａｔａｔｒｕｓｔ，ｓｅｃｕｒｉｔｙ，ｐｒｉｖａｃｙａｎｄｒｉｓｋｍａｎａｇｅｍｅｎｔ．Ｔｈｅｃｏｎｆｅｒｅｎｃｅｗｉｌｌｐｒｏｖｉｄｅａｓｐｅｃｉａｌｆｏｃｕｓｏｎｔｈｅｉｎｔｅｒｓｅｃｔｉｏｎｂｅｔｗｅｅｎｃｌｏｕｄ，ｂｉｇｄａｔａ，ａｎｄｔｒｕｓｔｂｒｉｎｇｉｎｇｔｏｇｅｔｈｅｒｅｘｐｅｒｔｓｆｒｏｍｔｈｅｔｈｒｅｅｃｏｍｍｕｎｉｔｉｅｓｔｏｄｉｓｃｕｓｓｏｎｔｈｅｖｉｔａｌｉｓｓｕｅｓｏｆｔｒｕｓｔ，ｓｅｃｕ⁃ ｒｉｔｙ，ｐｒｉｖａｃｙａｎｄｒｉｓｋｍａｎａｇｅｍｅｎｔｉｎＣｌｏｕｄＣｏｍｐｕｔｉｎｇ，ｓｈｅｄｄｉｎｇｔｈｅｌｉｇｈｔｏｎｎｏｖｅｌｉｓｓｕｅｓａｎｄｒｅｑｕｉｒｅｍｅｎｔｓｉｎｂｉｇｄａｔａｄｏｍａｉｎｓ．Ｐｏｔｅｎｔｉａｌｃｏｎｔｒｉｂｕｔｉｏｎｓｃｏｕｌｄｃｏｖｅｒｎｅｗａｐｐｒｏａｃｈｅｓ，ｍｅｔｈｏｄｏｌｏｇｉｅｓ，ｐｒｏｔｏｃｏｌｓ，ｔｏｏｌｓ，ｏｒｖｅｒｉｆｉｃａｔｉｏｎａｎｄｖａｌｉｄａ⁃ ｔｉｏｎｔｅｃｈｎｉｑｕｅｓ．Ｗｅａｌｓｏｗｅｌｃｏｍｅｒｅｖｉｅｗｐａｐｅｒｓｔｈａｔａｎａｌｙｚｅｃｒｉｔｉｃａｌｌｙｔｈｅｃｕｒｒｅｎｔｓｔａｔｕｓｏｆｔｒｕｓｔ，ｓｅｃｕｒｉｔｙ，ｐｒｉｖａｃｙａｎｄｒｉｓｋｍａｎａｇｅｍｅｎｔｉｎｔｈｅｃｌｏｕｄ．Ｐａｐｅｒｓｆｒｏｍｐｒａｃｔｉｔｉｏｎｅｒｓｗｈｏｅｎｃｏｕｎｔｅｒｔｒｕｓｔ，ｓｅｃｕｒｉｔｙ，ｐｒｉｖａｃｙａｎｄｒｉｓｋｍａｎａｇｅｍｅｎｔｐｒｏｂｌｅｍｓａｎｄｓｅｅｋｕｎｄｅｒｓｔａｎｄｉｎｇａｒｅａｌｓｏｗｅｌｃｏｍｅ．Ｗｅｂｓｉｔｅ：ｈｔｔｐ：／／ｗｗｗ．ｏｔｍｃｏｎｆｅｒｅｎｃｅｓ．ｏｒｇ／ｉｎｄｅｘ．ｐｈｐ／ｃｏｎｆｅｒｅｎｃｅｓ／ｃｔｃ⁃２０１６第４期李凌霄，等：基于多情绪源关联模型的中文微博情感分析 ·５５３·

点击下载完整版文档（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录