正在加载图片...
·124. 智能系统学报 第9卷 其中一种较为明显的态度,否则归为中性。 于语义规则的方法是有效可行的。 首先对每条微博评论进行分词、词性标注等预 对造成情感判断错误的原因进行分析,由于网 处理,然后分别采用上节介绍的基于情感词典的方 络中出现的一些网络词语导致情感词、修饰词未能 法和基于语义规则的方法分析处理微博评论,最后 识别,对分类结果造成影响,另外由于微博中的反 分别得到正面、负面和中性的评论数目,并与人工识 讽、隐喻等表达方式也对分类结果造成一定影响。 别的结果相比较和计算2种方法的准确率(P)。实 3 结束语 验结果如表1所示。 表12种方法得到的评论数目和准确率 本文根据中文微博的特点,在情感词的基础上 Table 1 Reviewer number and correct ratio of two methods 综合考虑了微博消息文本中的修饰程度副词、否定 情感词典 语义规则 词和表情符号特征,提出一种基于语义规则的方法 对微博热点话题进行情感分析,并与基于情感词典 类别 自动识 准确率自动识 准确率 正确数 别数 P/% 别数 正确数 的方法做了实验对比,实验结果证明了所提方法的 P/% 有效性和可行性。 正面 385 254 65.9 406 281 69.2 另外,虽然该方法在微博消息文本情感倾向性 负面 487 306 62.8 470318 67.6 识别的准确率上有了一定提高,但整体水平不是很 中性 39717.9358 22.8 高,主要是由于微博文本情感分析中缺少情感所属 合计 911567 62.2 911 607 66.6 对象的识别,以及微博上反讽和网络新语的出现,这 通过表1,可以看到基于语义规则的方法比基 些都是情感分析中的难点,未来的工作将考虑上属 于情感词典的方法的准确率有了明显的提升,说明 情况对微博情感分析做进一步研究。 在微博消息处理中上下文语义关系和表情符号对一 条微博的情感倾向的判断有着重要的影响,同时也 参考文献: 说明了基于语义规则的方法是有效可行的。 [1]PANG B,LEE L,VAITHYANATHAN S.Thumbs up?Sen- 本文从召回率(R)和F值(F-measure)2个方面 timent classification using machine learning techniques 对所提方法和情感词典方法做了进一步比较,结果 [C]//Proceedings of the ACL-02 Conference on Empirical 如表2所示。 Methods in Natural Language Processing.Stroudsburg, USA,2002:79-86. 召回率(R)表示为 [2]郑斐然,苗夺谦,张志飞,等.一种中文微博新闻话题检测 A R= 的方法[J].计算机科学,2012,39(1):138-141. A+C ZHENG Feiran,MIAO Duoqian,ZHANG Zhifei,et al. 式中:A表示分类正确的文本数目,C表示分类错误 News topic detection approach on Chinese microblog[J]. 和没有被分类的文本数目。F值的表达式为 Computer Science,2012.39(1):138-141. 2XPXR [3]DAVIDIV D,TSUR O,RAPPOPORT A.Enhanced senti- F-measure P+R ment learning using Twitter hashtags and smileys[C]//Pro- ceedings of the 23rd International Conference on Computa- 表22种方法得到的召回率和F值 tional Linguistics.Beijing,China,2010:241-249. Table 2 Recall and F-measure of two methods % [4]JIANG Long,YU Mo,ZHOU Ming,et al.Target-dependent 情感词典 语义规则 Twitter sentiment classification C ]//The 49th Annual 类别 召回率 F值 召回率 F值 Meeting of the Association for Computational Linguistics: Human Language Technologies.Portland,USA:151-160. 正面 61.7 63.7 68.2 68.7 [5]谢丽星.基于SVM的中文微博情感分析研究[D]北京: 负面 69.1 65.8 71.8 69.6 清华大学,2011. 中性 12.5 14.7 14.3 17.6 XIE Lixing.Sentiment analysis of Chinese microblog using 由表2可以看出,基于语义规则的方法比基于 SVM[D].Beijing:Tsinghua University,2011. 情感词典的方法在召回率和F值方面都有了明显 [6]刘志明,刘鲁.基于机器学习的中文微博情感分类实证研 的提升,基于语义规则的方法能得到最好的分类效 究[J].计算机工程与应用,2012,48(1):1-4. LIU Zhiming,LIU Lu.Empirical study of sentiment classifi- 果,其F-measure分别为正面68.7%、负面69.6%和 cation for Chinese microblog based on machine learning[J] 中性17.6%。F-measure是对准确率与召回率的综 Computer Engineering and Applications,2012,48(1):1-4. 合评估。表2进一步说明了在微博情感分析中,基 [7]TURNEY P D.Thumbs up or thumbs down?Semantic orien-其中一种较为明显的态度,否则归为中性。 首先对每条微博评论进行分词、词性标注等预 处理,然后分别采用上节介绍的基于情感词典的方 法和基于语义规则的方法分析处理微博评论,最后 分别得到正面、负面和中性的评论数目,并与人工识 别的结果相比较和计算 2 种方法的准确率(P)。 实 验结果如表 1 所示。 表 1 2 种方法得到的评论数目和准确率 Table 1 Reviewer number and correct ratio of two methods 类别 情感词典 语义规则 自动识 别数 正确数 准确率 P/ % 自动识 别数 正确数 准确率 P/ % 正面 负面 中性 合计 385 487 39 911 254 306 7 567 65.9 62.8 17.9 62.2 406 470 35 911 281 318 8 607 69.2 67.6 22.8 66.6 通过表 1,可以看到基于语义规则的方法比基 于情感词典的方法的准确率有了明显的提升,说明 在微博消息处理中上下文语义关系和表情符号对一 条微博的情感倾向的判断有着重要的影响,同时也 说明了基于语义规则的方法是有效可行的。 本文从召回率(R)和 F 值(F⁃measure)2 个方面 对所提方法和情感词典方法做了进一步比较,结果 如表 2 所示。 召回率(R)表示为 R = A A + C 式中:A 表示分类正确的文本数目,C 表示分类错误 和没有被分类的文本数目。 F 值的表达式为 F⁃measure = 2 × P × R P + R 表 2 2 种方法得到的召回率和 F 值 Table 2 Recall and F⁃measure of two methods % 类别 情感词典 语义规则 召回率 F 值 召回率 F 值 正面 负面 中性 61.7 69.1 12.5 63.7 65.8 14.7 68.2 71.8 14.3 68.7 69.6 17.6 由表 2 可以看出,基于语义规则的方法比基于 情感词典的方法在召回率和 F 值方面都有了明显 的提升,基于语义规则的方法能得到最好的分类效 果,其 F⁃measure 分别为正面 68.7%、负面 69.6%和 中性 17.6%。 F⁃measure 是对准确率与召回率的综 合评估。 表 2 进一步说明了在微博情感分析中,基 于语义规则的方法是有效可行的。 对造成情感判断错误的原因进行分析,由于网 络中出现的一些网络词语导致情感词、修饰词未能 识别,对分类结果造成影响,另外由于微博中的反 讽、隐喻等表达方式也对分类结果造成一定影响。 3 结束语 本文根据中文微博的特点,在情感词的基础上 综合考虑了微博消息文本中的修饰程度副词、否定 词和表情符号特征,提出一种基于语义规则的方法 对微博热点话题进行情感分析,并与基于情感词典 的方法做了实验对比,实验结果证明了所提方法的 有效性和可行性。 另外,虽然该方法在微博消息文本情感倾向性 识别的准确率上有了一定提高,但整体水平不是很 高,主要是由于微博文本情感分析中缺少情感所属 对象的识别,以及微博上反讽和网络新语的出现,这 些都是情感分析中的难点,未来的工作将考虑上属 情况对微博情感分析做进一步研究。 参考文献: [1]PANG B, LEE L, VAITHYANATHAN S. Thumbs up? Sen⁃ timent classification using machine learning techniques [C] / / Proceedings of the ACL-02 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, USA, 2002: 79⁃86. [2]郑斐然,苗夺谦,张志飞,等.一种中文微博新闻话题检测 的方法[J].计算机科学, 2012, 39(1): 138⁃141. ZHENG Feiran, MIAO Duoqian, ZHANG Zhifei, et al. News topic detection approach on Chinese microblog [ J]. Computer Science, 2012, 39(1): 138⁃141. [3]DAVIDIV D, TSUR O, RAPPOPORT A. Enhanced senti⁃ ment learning using Twitter hashtags and smileys[C] / / Pro⁃ ceedings of the 23rd International Conference on Computa⁃ tional Linguistics. Beijing, China, 2010: 241⁃249. [4]JIANG Long, YU Mo, ZHOU Ming, et al. Target⁃dependent Twitter sentiment classification [ C ] / / The 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies. Portland, USA: 151⁃160. [5]谢丽星.基于 SVM 的中文微博情感分析研究[D].北京: 清华大学, 2011. XIE Lixing. Sentiment analysis of Chinese microblog using SVM[D]. Beijing: Tsinghua University, 2011. [6]刘志明,刘鲁.基于机器学习的中文微博情感分类实证研 究[J].计算机工程与应用, 2012, 48(1): 1⁃4. LIU Zhiming, LIU Lu. Empirical study of sentiment classifi⁃ cation for Chinese microblog based on machine learning[J]. Computer Engineering and Applications, 2012, 48(1): 1⁃4. [7]TURNEY P D. Thumbs up or thumbs down? Semantic orien⁃ ·124· 智 能 系 统 学 报 第 9 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有