数据中获取诸如情感倾向在内的潜在信息，对于产品导向、广告精确投放、国家舆

正在加载图片...

第4期李凌霄，等：基于多情绪源关联模型的中文微博情感分析 .547, 数据中获取诸如情感倾向在内的潜在信息，对于产特征选择上，D.Kushal等)对语法规则、n-gram 品导向、广告精确投放、国家舆情控制等领域都具有特征进行了分析；Hatzivassiloglou等[)使用了情感重要意义，社交信息的数据挖掘与分析正成为研究词作为特征，对句子级别的情感倾向进行了分析：J 者们关注的热门课题。 C.Na等]对指定词语和否定短语特征进行了分析。对英文社交媒体（如Tweet)的情感分析已经有这类机器学习方法，例如多特征SVM情感分类很多进展，分析的方法主要分为有监督方法[15]和方法，并未考虑到不同特征之间的关联关系。基于词典或逐点互信息(PMI)[]的无监督方法。 1.2无监督方法而类似针对中文社交媒体的情感分析工作则仍处于无监督方法利用文本中带有情感的词汇的情感倾起步阶段，所使用的方法大都源于英文情感分析方向，综合考虑文本的语法规则、句法构成等要素对文本法，但由于社交媒体表现形式的多样化和中文网络进行情感极性的判别，通常采用投票的方法。在该类语境多变性等原因，传统分类方法仍存在很大改进方法中，主要依靠文本分析，并未关注社交媒体信息中空间，本文针对目前存在的两个问题进行建模：情绪源多并且不同情绪源之间存在关联性的特点。 1)情感词典时效性差，中文新词的出现更为频基于情感词方法的基础是判断词的情感，对词繁，基于统计的方法在短周期内难以判断其情感；汇的情感判断方法包括：基于情感词典、基于监督学 2)传统方法未考虑多情绪源之间的关联。习[)和基于种子词-]的方法等。这里的多情绪源是指微博中可能出现的能够体常用的中文情感词典有知网情感分析用词语现其情感的多种异构特征，如情感词、表情符号、图集、台湾大学中文情感极性词典(NTUSD)和大连理片和视频等。并且这些情绪源之间存在以下在情感工大学中文情感词汇本体库等。基于情感词典的方分析上可以进行互补利用的关联关系：法主要缺陷在于覆盖面窄、无法包含网络新词。 1)不同情绪源表达的情感强度可能不同，强情 Wilson等)提出了一种二步分类的有监督方绪源可以对弱情绪源进行极性加强：法判断短语的极性：1)判断将短语分类为有极性和 2)同一情绪下不同情绪源之间存在较强的关联中性：2)将第1步中得出的有极性短语进一步划分性，例如在“哈哈”表情下出现正情感词的概率较大。为4类极性，每一步使用不同的特征进行分类，分类根据以上分析，我们提出了一种多情绪源关联器相同(BoosTexter AdaBoost.HM6])。最终在其数模型，该模型对微博中的情感词和表情符号两种情据集上准确率达到75.9%。绪源及其之间的关联进行建模。我们的实验结果显 Turney!]提出了一种判断单词情感的方法，通示，该模型在微博数据上优于经典分类算法，并且该过在大规模语料集中分别计算目标单词与正负极性模型具有拓展性，可以继续加入诸如图片和视频在种子词（正种子词：excellent;负种子词：pool)的逐点内的其他情绪源。互信息，将两个结果进行对比得出目标单词的情感，最终在其数据集中达到82.8%的准确率，缺点是需 1情感分析相关工作要大规模语料集，运算量大。文本情感分析近几年逐渐成为热门研究课题，此外，XiaH.等9)研究了英文社交媒体中出现其内容主要包括情感极性分析和主客观分析等，本的情感标记信号在无监督情感分析中的应用，取得文主要关注情感极性分析。目前情感极性分析的方了良好的效果。法主要分为两类：有监督的分类器学习方法和无监 1.3中文微博情感极性分析研究现状督的基于情感词典或者PMI的方法。中文微博情感极性分析主要方法来源于上文提 1.1有监督方法及的英文文本情感分析相关方法[0】有监督方法大多通过机器学习技术从文本中选目前，由中国中文信息学会(CPS)主办的中文倾取合适的特征构建分类器，包括朴素贝叶斯、最大嫡向性分析评测(The Fifth Chinese Opinion Analysis Eval- 和支持向量机等，进而对不同情感进行分类。 uation,COAE)聚集了该领域大量研究成果。COAE评分类器选择上，Pang等)用以上3种分类器将测由2008年开始每年举办一次，发布中文倾向性分析影评分为正、负两类极性，引入了一元语法特征、二的相关任务，包括情感识别、新词发现、观点句提取和元语法特征、词性特征和词位置特征等8种组合特评价对象识别等。表1给出了COAE2013http:// 征，最终使用基于出现与否的一元语法特征SVM分 ccir2013.sxu.edu.cn/C0AE.aspx任务1（基于否定句的类器效果最好，在其语料集中达到83%的准确率。句子级倾向性分析)的最佳评测结果。数据中获取诸如情感倾向在内的潜在信息，对于产品导向、广告精确投放、国家舆情控制等领域都具有重要意义，社交信息的数据挖掘与分析正成为研究者们关注的热门课题。对英文社交媒体（如Ｔｗｅｅｔ）的情感分析已经有很多进展，分析的方法主要分为有监督方法［１－５］和基于词典或逐点互信息（ＰＭＩ）［７］的无监督方法。而类似针对中文社交媒体的情感分析工作则仍处于起步阶段，所使用的方法大都源于英文情感分析方法，但由于社交媒体表现形式的多样化和中文网络语境多变性等原因，传统分类方法仍存在很大改进空间，本文针对目前存在的两个问题进行建模：１）情感词典时效性差，中文新词的出现更为频繁，基于统计的方法在短周期内难以判断其情感；２）传统方法未考虑多情绪源之间的关联。这里的多情绪源是指微博中可能出现的能够体现其情感的多种异构特征，如情感词、表情符号、图片和视频等。并且这些情绪源之间存在以下在情感分析上可以进行互补利用的关联关系：１）不同情绪源表达的情感强度可能不同，强情绪源可以对弱情绪源进行极性加强；２）同一情绪下不同情绪源之间存在较强的关联性，例如在“哈哈”表情下出现正情感词的概率较大。根据以上分析，我们提出了一种多情绪源关联模型，该模型对微博中的情感词和表情符号两种情绪源及其之间的关联进行建模。我们的实验结果显示，该模型在微博数据上优于经典分类算法，并且该模型具有拓展性，可以继续加入诸如图片和视频在内的其他情绪源。１情感分析相关工作文本情感分析近几年逐渐成为热门研究课题，其内容主要包括情感极性分析和主客观分析等，本文主要关注情感极性分析。目前情感极性分析的方法主要分为两类：有监督的分类器学习方法和无监督的基于情感词典或者ＰＭＩ的方法。１．１有监督方法有监督方法大多通过机器学习技术从文本中选取合适的特征构建分类器，包括朴素贝叶斯、最大熵和支持向量机等，进而对不同情感进行分类。分类器选择上，Ｐａｎｇ等［１］用以上３种分类器将影评分为正、负两类极性，引入了一元语法特征、二元语法特征、词性特征和词位置特征等８种组合特征，最终使用基于出现与否的一元语法特征ＳＶＭ分类器效果最好，在其语料集中达到８３％的准确率。特征选择上，Ｄ．Ｋｕｓｈａｌ等［２］对语法规则、ｎ⁃ｇｒａｍ特征进行了分析；Ｈａｔｚｉｖａｓｓｉｌｏｇｌｏｕ等［３］使用了情感词作为特征，对句子级别的情感倾向进行了分析；Ｊ．Ｃ．Ｎａ等［４］对指定词语和否定短语特征进行了分析。这类机器学习方法，例如多特征ＳＶＭ情感分类方法，并未考虑到不同特征之间的关联关系。１．２无监督方法无监督方法利用文本中带有情感的词汇的情感倾向，综合考虑文本的语法规则、句法构成等要素对文本进行情感极性的判别，通常采用投票的方法。在该类方法中，主要依靠文本分析，并未关注社交媒体信息中情绪源多并且不同情绪源之间存在关联性的特点。基于情感词方法的基础是判断词的情感，对词汇的情感判断方法包括：基于情感词典、基于监督学习［５］和基于种子词［７－９］的方法等。常用的中文情感词典有知网情感分析用词语集、台湾大学中文情感极性词典（ＮＴＵＳＤ）和大连理工大学中文情感词汇本体库等。基于情感词典的方法主要缺陷在于覆盖面窄、无法包含网络新词。Ｗｉｌｓｏｎ等［５］提出了一种二步分类的有监督方法判断短语的极性：１）判断将短语分类为有极性和中性；２）将第１步中得出的有极性短语进一步划分为４类极性，每一步使用不同的特征进行分类，分类器相同（ＢｏｏｓＴｅｘｔｅｒＡｄａＢｏｏｓｔ．ＨＭ［６］）。最终在其数据集上准确率达到７５．９％。Ｔｕｒｎｅｙ［７］提出了一种判断单词情感的方法，通过在大规模语料集中分别计算目标单词与正负极性种子词（正种子词：ｅｘｃｅｌｌｅｎｔ；负种子词：ｐｏｏｌ）的逐点互信息，将两个结果进行对比得出目标单词的情感，最终在其数据集中达到８２．８％的准确率，缺点是需要大规模语料集，运算量大。此外，ＸｉａＨ．等［９］研究了英文社交媒体中出现的情感标记信号在无监督情感分析中的应用，取得了良好的效果。１．３中文微博情感极性分析研究现状中文微博情感极性分析主要方法来源于上文提及的英文文本情感分析相关方法［１０］。目前，由中国中文信息学会（ＣＩＰＳ）主办的中文倾向性分析评测（ＴｈｅＦｉｆｔｈＣｈｉｎｅｓｅＯｐｉｎｉｏｎＡｎａｌｙｓｉｓＥｖａｌ⁃ ｕａｔｉｏｎ，ＣＯＡＥ）聚集了该领域大量研究成果。ＣＯＡＥ评测由２００８年开始每年举办一次，发布中文倾向性分析的相关任务，包括情感识别、新词发现、观点句提取和评价对象识别等。表１给出了ＣＯＡＥ２０１３ｈｔｔｐ：／／ｃｃｉｒ２０１３．ｓｘｕ．ｅｄｕ．ｃｎ／ＣＯＡＥ．ａｓｐｘ任务１（基于否定句的句子级倾向性分析）的最佳评测结果。第４期李凌霄，等：基于多情绪源关联模型的中文微博情感分析 ·５４７·

<<向上翻页向下翻页>>

点击下载：【自然语言处理与理解】基于多情绪源关联模型的中文微博情感分析