其中一种较为明显的态度，否则归为中性。首先对每条微博评论进行分词、词性标

正在加载图片...

·124. 智能系统学报第9卷其中一种较为明显的态度，否则归为中性。于语义规则的方法是有效可行的。首先对每条微博评论进行分词、词性标注等预对造成情感判断错误的原因进行分析，由于网处理，然后分别采用上节介绍的基于情感词典的方络中出现的一些网络词语导致情感词、修饰词未能法和基于语义规则的方法分析处理微博评论，最后识别，对分类结果造成影响，另外由于微博中的反分别得到正面、负面和中性的评论数目，并与人工识讽、隐喻等表达方式也对分类结果造成一定影响。别的结果相比较和计算2种方法的准确率(P)。实 3 结束语验结果如表1所示。表12种方法得到的评论数目和准确率本文根据中文微博的特点，在情感词的基础上 Table 1 Reviewer number and correct ratio of two methods 综合考虑了微博消息文本中的修饰程度副词、否定情感词典语义规则词和表情符号特征，提出一种基于语义规则的方法对微博热点话题进行情感分析，并与基于情感词典类别自动识准确率自动识准确率正确数别数 P/% 别数正确数的方法做了实验对比，实验结果证明了所提方法的 P/% 有效性和可行性。正面 385 254 65.9 406 281 69.2 另外，虽然该方法在微博消息文本情感倾向性负面 487 306 62.8 470318 67.6 识别的准确率上有了一定提高，但整体水平不是很中性 39717.9358 22.8 高，主要是由于微博文本情感分析中缺少情感所属合计 911567 62.2 911 607 66.6 对象的识别，以及微博上反讽和网络新语的出现，这通过表1，可以看到基于语义规则的方法比基些都是情感分析中的难点，未来的工作将考虑上属于情感词典的方法的准确率有了明显的提升，说明情况对微博情感分析做进一步研究。在微博消息处理中上下文语义关系和表情符号对一条微博的情感倾向的判断有着重要的影响，同时也参考文献：说明了基于语义规则的方法是有效可行的。 [1]PANG B,LEE L,VAITHYANATHAN S.Thumbs up?Sen- 本文从召回率(R)和F值(F-measure)2个方面 timent classification using machine learning techniques 对所提方法和情感词典方法做了进一步比较，结果 [C]//Proceedings of the ACL-02 Conference on Empirical 如表2所示。 Methods in Natural Language Processing.Stroudsburg, USA,2002:79-86. 召回率(R)表示为 [2]郑斐然，苗夺谦，张志飞，等.一种中文微博新闻话题检测 A R= 的方法[J].计算机科学，2012,39(1)：138-141. A+C ZHENG Feiran,MIAO Duoqian,ZHANG Zhifei,et al. 式中：A表示分类正确的文本数目，C表示分类错误 News topic detection approach on Chinese microblog[J]. 和没有被分类的文本数目。F值的表达式为 Computer Science,2012.39(1):138-141. 2XPXR [3]DAVIDIV D,TSUR O,RAPPOPORT A.Enhanced senti- F-measure P+R ment learning using Twitter hashtags and smileys[C]//Pro- ceedings of the 23rd International Conference on Computa- 表22种方法得到的召回率和F值 tional Linguistics.Beijing,China,2010:241-249. Table 2 Recall and F-measure of two methods % [4]JIANG Long,YU Mo,ZHOU Ming,et al.Target-dependent 情感词典语义规则 Twitter sentiment classification C ]//The 49th Annual 类别召回率 F值召回率 F值 Meeting of the Association for Computational Linguistics: Human Language Technologies.Portland,USA:151-160. 正面 61.7 63.7 68.2 68.7 [5]谢丽星.基于SVM的中文微博情感分析研究[D]北京：负面 69.1 65.8 71.8 69.6 清华大学，2011. 中性 12.5 14.7 14.3 17.6 XIE Lixing.Sentiment analysis of Chinese microblog using 由表2可以看出，基于语义规则的方法比基于 SVM[D].Beijing:Tsinghua University,2011. 情感词典的方法在召回率和F值方面都有了明显 [6]刘志明，刘鲁.基于机器学习的中文微博情感分类实证研的提升，基于语义规则的方法能得到最好的分类效究[J].计算机工程与应用，2012,48(1)：1-4. LIU Zhiming,LIU Lu.Empirical study of sentiment classifi- 果，其F-measure分别为正面68.7%、负面69.6%和 cation for Chinese microblog based on machine learning[J] 中性17.6%。F-measure是对准确率与召回率的综 Computer Engineering and Applications,2012,48(1):1-4. 合评估。表2进一步说明了在微博情感分析中，基 [7]TURNEY P D.Thumbs up or thumbs down?Semantic orien-其中一种较为明显的态度，否则归为中性。首先对每条微博评论进行分词、词性标注等预处理，然后分别采用上节介绍的基于情感词典的方法和基于语义规则的方法分析处理微博评论，最后分别得到正面、负面和中性的评论数目，并与人工识别的结果相比较和计算２种方法的准确率（Ｐ）。实验结果如表１所示。表１２种方法得到的评论数目和准确率Ｔａｂｌｅ１Ｒｅｖｉｅｗｅｒｎｕｍｂｅｒａｎｄｃｏｒｒｅｃｔｒａｔｉｏｏｆｔｗｏｍｅｔｈｏｄｓ类别情感词典语义规则自动识别数正确数准确率Ｐ／％自动识别数正确数准确率Ｐ／％正面负面中性合计３８５４８７３９９１１２５４３０６７５６７６５．９６２．８１７．９６２．２４０６４７０３５９１１２８１３１８８６０７６９．２６７．６２２．８６６．６通过表１，可以看到基于语义规则的方法比基于情感词典的方法的准确率有了明显的提升，说明在微博消息处理中上下文语义关系和表情符号对一条微博的情感倾向的判断有着重要的影响，同时也说明了基于语义规则的方法是有效可行的。本文从召回率（Ｒ）和Ｆ值（Ｆ⁃ｍｅａｓｕｒｅ）２个方面对所提方法和情感词典方法做了进一步比较，结果如表２所示。召回率（Ｒ）表示为Ｒ＝ＡＡ＋Ｃ式中：Ａ表示分类正确的文本数目，Ｃ表示分类错误和没有被分类的文本数目。Ｆ值的表达式为Ｆ⁃ｍｅａｓｕｒｅ＝２ × Ｐ × ＲＰ＋Ｒ表２２种方法得到的召回率和Ｆ值Ｔａｂｌｅ２ＲｅｃａｌｌａｎｄＦ⁃ｍｅａｓｕｒｅｏｆｔｗｏｍｅｔｈｏｄｓ％类别情感词典语义规则召回率Ｆ值召回率Ｆ值正面负面中性６１．７６９．１１２．５６３．７６５．８１４．７６８．２７１．８１４．３６８．７６９．６１７．６由表２可以看出，基于语义规则的方法比基于情感词典的方法在召回率和Ｆ值方面都有了明显的提升，基于语义规则的方法能得到最好的分类效果，其Ｆ⁃ｍｅａｓｕｒｅ分别为正面６８．７％、负面６９．６％和中性１７．６％。Ｆ⁃ｍｅａｓｕｒｅ是对准确率与召回率的综合评估。表２进一步说明了在微博情感分析中，基于语义规则的方法是有效可行的。对造成情感判断错误的原因进行分析，由于网络中出现的一些网络词语导致情感词、修饰词未能识别，对分类结果造成影响，另外由于微博中的反讽、隐喻等表达方式也对分类结果造成一定影响。３结束语本文根据中文微博的特点，在情感词的基础上综合考虑了微博消息文本中的修饰程度副词、否定词和表情符号特征，提出一种基于语义规则的方法对微博热点话题进行情感分析，并与基于情感词典的方法做了实验对比，实验结果证明了所提方法的有效性和可行性。另外，虽然该方法在微博消息文本情感倾向性识别的准确率上有了一定提高，但整体水平不是很高，主要是由于微博文本情感分析中缺少情感所属对象的识别，以及微博上反讽和网络新语的出现，这些都是情感分析中的难点，未来的工作将考虑上属情况对微博情感分析做进一步研究。参考文献：［１］ＰＡＮＧＢ，ＬＥＥＬ，ＶＡＩＴＨＹＡＮＡＴＨＡＮＳ．Ｔｈｕｍｂｓｕｐ？Ｓｅｎ⁃ ｔｉｍｅｎｔｃｌａｓｓｉｆｉｃａｔｉｏｎｕｓｉｎｇｍａｃｈｉｎｅｌｅａｒｎｉｎｇｔｅｃｈｎｉｑｕｅｓ［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＡＣＬ－０２ＣｏｎｆｅｒｅｎｃｅｏｎＥｍｐｉｒｉｃａｌＭｅｔｈｏｄｓｉｎＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ．Ｓｔｒｏｕｄｓｂｕｒｇ，ＵＳＡ，２００２：７９⁃８６．［２］郑斐然，苗夺谦，张志飞，等．一种中文微博新闻话题检测的方法［Ｊ］．计算机科学，２０１２，３９（１）：１３８⁃１４１．ＺＨＥＮＧＦｅｉｒａｎ，ＭＩＡＯＤｕｏｑｉａｎ，ＺＨＡＮＧＺｈｉｆｅｉ，ｅｔａｌ．ＮｅｗｓｔｏｐｉｃｄｅｔｅｃｔｉｏｎａｐｐｒｏａｃｈｏｎＣｈｉｎｅｓｅｍｉｃｒｏｂｌｏｇ［Ｊ］．ＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅ，２０１２，３９（１）：１３８⁃１４１．［３］ＤＡＶＩＤＩＶＤ，ＴＳＵＲＯ，ＲＡＰＰＯＰＯＲＴＡ．Ｅｎｈａｎｃｅｄｓｅｎｔｉ⁃ ｍｅｎｔｌｅａｒｎｉｎｇｕｓｉｎｇＴｗｉｔｔｅｒｈａｓｈｔａｇｓａｎｄｓｍｉｌｅｙｓ［Ｃ］／／Ｐｒｏ⁃ ｃｅｅｄｉｎｇｓｏｆｔｈｅ２３ｒｄＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔａ⁃ ｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ．Ｂｅｉｊｉｎｇ，Ｃｈｉｎａ，２０１０：２４１⁃２４９．［４］ＪＩＡＮＧＬｏｎｇ，ＹＵＭｏ，ＺＨＯＵＭｉｎｇ，ｅｔａｌ．Ｔａｒｇｅｔ⁃ｄｅｐｅｎｄｅｎｔＴｗｉｔｔｅｒｓｅｎｔｉｍｅｎｔｃｌａｓｓｉｆｉｃａｔｉｏｎ［Ｃ］／／Ｔｈｅ４９ｔｈＡｎｎｕａｌＭｅｅｔｉｎｇｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ：ＨｕｍａｎＬａｎｇｕａｇｅＴｅｃｈｎｏｌｏｇｉｅｓ．Ｐｏｒｔｌａｎｄ，ＵＳＡ：１５１⁃１６０．［５］谢丽星．基于ＳＶＭ的中文微博情感分析研究［Ｄ］．北京：清华大学，２０１１．ＸＩＥＬｉｘｉｎｇ．ＳｅｎｔｉｍｅｎｔａｎａｌｙｓｉｓｏｆＣｈｉｎｅｓｅｍｉｃｒｏｂｌｏｇｕｓｉｎｇＳＶＭ［Ｄ］．Ｂｅｉｊｉｎｇ：ＴｓｉｎｇｈｕａＵｎｉｖｅｒｓｉｔｙ，２０１１．［６］刘志明，刘鲁．基于机器学习的中文微博情感分类实证研究［Ｊ］．计算机工程与应用，２０１２，４８（１）：１⁃４．ＬＩＵＺｈｉｍｉｎｇ，ＬＩＵＬｕ．Ｅｍｐｉｒｉｃａｌｓｔｕｄｙｏｆｓｅｎｔｉｍｅｎｔｃｌａｓｓｉｆｉ⁃ ｃａｔｉｏｎｆｏｒＣｈｉｎｅｓｅｍｉｃｒｏｂｌｏｇｂａｓｅｄｏｎｍａｃｈｉｎｅｌｅａｒｎｉｎｇ［Ｊ］．ＣｏｍｐｕｔｅｒＥｎｇｉｎｅｅｒｉｎｇａｎｄＡｐｐｌｉｃａｔｉｏｎｓ，２０１２，４８（１）：１⁃４．［７］ＴＵＲＮＥＹＰＤ．Ｔｈｕｍｂｓｕｐｏｒｔｈｕｍｂｓｄｏｗｎ？Ｓｅｍａｎｔｉｃｏｒｉｅｎ⁃ ·１２４· 智能系统学报第９卷

<<向上翻页向下翻页>>

点击下载：【学术论文】语义规则在微博热点话题情感分析中的应用