正在加载图片...
第4期 李凌霄,等:基于多情绪源关联模型的中文微博情感分析 .547, 数据中获取诸如情感倾向在内的潜在信息,对于产 特征选择上,D.Kushal等)对语法规则、n-gram 品导向、广告精确投放、国家舆情控制等领域都具有 特征进行了分析;Hatzivassiloglou等[)使用了情感 重要意义,社交信息的数据挖掘与分析正成为研究 词作为特征,对句子级别的情感倾向进行了分析:J 者们关注的热门课题。 C.Na等]对指定词语和否定短语特征进行了分析。 对英文社交媒体(如Tweet)的情感分析已经有 这类机器学习方法,例如多特征SVM情感分类 很多进展,分析的方法主要分为有监督方法[15]和 方法,并未考虑到不同特征之间的关联关系。 基于词典或逐点互信息(PMI)[]的无监督方法。 1.2无监督方法 而类似针对中文社交媒体的情感分析工作则仍处于 无监督方法利用文本中带有情感的词汇的情感倾 起步阶段,所使用的方法大都源于英文情感分析方 向,综合考虑文本的语法规则、句法构成等要素对文本 法,但由于社交媒体表现形式的多样化和中文网络 进行情感极性的判别,通常采用投票的方法。在该类 语境多变性等原因,传统分类方法仍存在很大改进 方法中,主要依靠文本分析,并未关注社交媒体信息中 空间,本文针对目前存在的两个问题进行建模: 情绪源多并且不同情绪源之间存在关联性的特点。 1)情感词典时效性差,中文新词的出现更为频 基于情感词方法的基础是判断词的情感,对词 繁,基于统计的方法在短周期内难以判断其情感; 汇的情感判断方法包括:基于情感词典、基于监督学 2)传统方法未考虑多情绪源之间的关联。 习[)和基于种子词-]的方法等。 这里的多情绪源是指微博中可能出现的能够体 常用的中文情感词典有知网情感分析用词语 现其情感的多种异构特征,如情感词、表情符号、图 集、台湾大学中文情感极性词典(NTUSD)和大连理 片和视频等。并且这些情绪源之间存在以下在情感 工大学中文情感词汇本体库等。基于情感词典的方 分析上可以进行互补利用的关联关系: 法主要缺陷在于覆盖面窄、无法包含网络新词。 1)不同情绪源表达的情感强度可能不同,强情 Wilson等)提出了一种二步分类的有监督方 绪源可以对弱情绪源进行极性加强: 法判断短语的极性:1)判断将短语分类为有极性和 2)同一情绪下不同情绪源之间存在较强的关联 中性:2)将第1步中得出的有极性短语进一步划分 性,例如在“哈哈”表情下出现正情感词的概率较大。 为4类极性,每一步使用不同的特征进行分类,分类 根据以上分析,我们提出了一种多情绪源关联 器相同(BoosTexter AdaBoost.HM6])。最终在其数 模型,该模型对微博中的情感词和表情符号两种情 据集上准确率达到75.9%。 绪源及其之间的关联进行建模。我们的实验结果显 Turney!]提出了一种判断单词情感的方法,通 示,该模型在微博数据上优于经典分类算法,并且该 过在大规模语料集中分别计算目标单词与正负极性 模型具有拓展性,可以继续加入诸如图片和视频在 种子词(正种子词:excellent;负种子词:pool)的逐点 内的其他情绪源。 互信息,将两个结果进行对比得出目标单词的情感, 最终在其数据集中达到82.8%的准确率,缺点是需 1情感分析相关工作 要大规模语料集,运算量大。 文本情感分析近几年逐渐成为热门研究课题, 此外,XiaH.等9)研究了英文社交媒体中出现 其内容主要包括情感极性分析和主客观分析等,本 的情感标记信号在无监督情感分析中的应用,取得 文主要关注情感极性分析。目前情感极性分析的方 了良好的效果。 法主要分为两类:有监督的分类器学习方法和无监 1.3中文微博情感极性分析研究现状 督的基于情感词典或者PMI的方法。 中文微博情感极性分析主要方法来源于上文提 1.1有监督方法 及的英文文本情感分析相关方法[0】 有监督方法大多通过机器学习技术从文本中选 目前,由中国中文信息学会(CPS)主办的中文倾 取合适的特征构建分类器,包括朴素贝叶斯、最大嫡 向性分析评测(The Fifth Chinese Opinion Analysis Eval- 和支持向量机等,进而对不同情感进行分类。 uation,COAE)聚集了该领域大量研究成果。COAE评 分类器选择上,Pang等)用以上3种分类器将 测由2008年开始每年举办一次,发布中文倾向性分析 影评分为正、负两类极性,引入了一元语法特征、二 的相关任务,包括情感识别、新词发现、观点句提取和 元语法特征、词性特征和词位置特征等8种组合特 评价对象识别等。表1给出了COAE2013http:// 征,最终使用基于出现与否的一元语法特征SVM分 ccir2013.sxu.edu.cn/C0AE.aspx任务1(基于否定句的 类器效果最好,在其语料集中达到83%的准确率。 句子级倾向性分析)的最佳评测结果。数据中获取诸如情感倾向在内的潜在信息,对于产 品导向、广告精确投放、国家舆情控制等领域都具有 重要意义,社交信息的数据挖掘与分析正成为研究 者们关注的热门课题。 对英文社交媒体(如 Tweet)的情感分析已经有 很多进展,分析的方法主要分为有监督方法[1- 5 ] 和 基于词典或逐点互信息( PMI) [ 7 ] 的无监督方法。 而类似针对中文社交媒体的情感分析工作则仍处于 起步阶段,所使用的方法大都源于英文情感分析方 法,但由于社交媒体表现形式的多样化和中文网络 语境多变性等原因,传统分类方法仍存在很大改进 空间,本文针对目前存在的两个问题进行建模: 1)情感词典时效性差,中文新词的出现更为频 繁,基于统计的方法在短周期内难以判断其情感; 2)传统方法未考虑多情绪源之间的关联。 这里的多情绪源是指微博中可能出现的能够体 现其情感的多种异构特征,如情感词、表情符号、图 片和视频等。 并且这些情绪源之间存在以下在情感 分析上可以进行互补利用的关联关系: 1)不同情绪源表达的情感强度可能不同,强情 绪源可以对弱情绪源进行极性加强; 2)同一情绪下不同情绪源之间存在较强的关联 性,例如在“哈哈”表情下出现正情感词的概率较大。 根据以上分析,我们提出了一种多情绪源关联 模型,该模型对微博中的情感词和表情符号两种情 绪源及其之间的关联进行建模。 我们的实验结果显 示,该模型在微博数据上优于经典分类算法,并且该 模型具有拓展性,可以继续加入诸如图片和视频在 内的其他情绪源。 1 情感分析相关工作 文本情感分析近几年逐渐成为热门研究课题, 其内容主要包括情感极性分析和主客观分析等,本 文主要关注情感极性分析。 目前情感极性分析的方 法主要分为两类:有监督的分类器学习方法和无监 督的基于情感词典或者 PMI 的方法。 1.1 有监督方法 有监督方法大多通过机器学习技术从文本中选 取合适的特征构建分类器,包括朴素贝叶斯、最大熵 和支持向量机等,进而对不同情感进行分类。 分类器选择上,Pang 等[1]用以上 3 种分类器将 影评分为正、负两类极性,引入了一元语法特征、二 元语法特征、词性特征和词位置特征等 8 种组合特 征,最终使用基于出现与否的一元语法特征 SVM 分 类器效果最好,在其语料集中达到 83%的准确率。 特征选择上,D.Kushal 等[2]对语法规则、n⁃gram 特征进行了分析;Hatzivassiloglou 等[3] 使用了情感 词作为特征,对句子级别的情感倾向进行了分析;J. C.Na 等[4]对指定词语和否定短语特征进行了分析。 这类机器学习方法,例如多特征 SVM 情感分类 方法,并未考虑到不同特征之间的关联关系。 1.2 无监督方法 无监督方法利用文本中带有情感的词汇的情感倾 向,综合考虑文本的语法规则、句法构成等要素对文本 进行情感极性的判别,通常采用投票的方法。 在该类 方法中,主要依靠文本分析,并未关注社交媒体信息中 情绪源多并且不同情绪源之间存在关联性的特点。 基于情感词方法的基础是判断词的情感,对词 汇的情感判断方法包括:基于情感词典、基于监督学 习[5]和基于种子词[ 7-9 ]的方法等。 常用的中文情感词典有知网情感分析用词语 集、台湾大学中文情感极性词典(NTUSD)和大连理 工大学中文情感词汇本体库等。 基于情感词典的方 法主要缺陷在于覆盖面窄、无法包含网络新词。 Wilson 等[5]提出了一种二步分类的有监督方 法判断短语的极性:1)判断将短语分类为有极性和 中性;2)将第 1 步中得出的有极性短语进一步划分 为 4 类极性,每一步使用不同的特征进行分类,分类 器相同(BoosTexter AdaBoost.HM [ 6 ] )。 最终在其数 据集上准确率达到 75.9%。 Turney [7 ]提出了一种判断单词情感的方法,通 过在大规模语料集中分别计算目标单词与正负极性 种子词(正种子词:excellent;负种子词:pool)的逐点 互信息,将两个结果进行对比得出目标单词的情感, 最终在其数据集中达到 82.8%的准确率,缺点是需 要大规模语料集,运算量大。 此外,Xia H.等[9] 研究了英文社交媒体中出现 的情感标记信号在无监督情感分析中的应用,取得 了良好的效果。 1.3 中文微博情感极性分析研究现状 中文微博情感极性分析主要方法来源于上文提 及的英文文本情感分析相关方法[ 10 ] 。 目前,由中国中文信息学会(CIPS)主办的中文倾 向性分析评测(The Fifth Chinese Opinion Analysis Eval⁃ uation, COAE)聚集了该领域大量研究成果。 COAE 评 测由 2008 年开始每年举办一次,发布中文倾向性分析 的相关任务,包括情感识别、新词发现、观点句提取和 评价对象识别等。 表 1 给出了 COAE2013 http:/ / ccir2013.sxu.edu.cn/ COAE.aspx 任务 1(基于否定句的 句子级倾向性分析)的最佳评测结果。 第 4 期 李凌霄,等: 基于多情绪源关联模型的中文微博情感分析 ·547·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有