图５对测试语料２的准确率比较Ｆｉｇ．５Ａｃｃｕｒａｃｙｃｏｍ

正在加载图片...

·354. 智能系统学报第8卷 1.0 虽然得到了提高，但总体上来看变化趋势较为缓慢在实际应用中，随着基准词数量的增多，计算量也会 0.8 增大.从准确率和时间开销综合考虑，应该选择的基指0.6 准词数量在40~60. 1.0r 0.4 0.9 ◆ ◆人工选择的基准词 0少 ■一由词典构造的基准词 0.8 本文所选择的基准词 6.8 1.0 1.2 K 14工810 0.7 0.6 图5对测试语料2的准确率比较 0.50 102040608090100 Fig.5 Accuracy comparison for test corpus 2 基准词个数图8不同基准词个数对准确率的影响 1.0 Fig.8 Influence of the number of different standard words on accuracy rate 0.8 4 结论本文分析了已有工作中基准词选择的优点和缺 0.4 点，在此基础上，提出了一种情感倾向判断中基准词 ◆人工选择的基准词 0.2 ■一由词典构造的基准词选择的方法.分别考虑到了情感词的情感歧义性、情 ★一本文所选择的基准词感代表性、情感倾向性，并相应地给出了计算公式. 6.8 1.0 1.2 1.4 o 通过实验测试表明，本文所提出的基准词，在情感倾向的判断上准确性较高.文章的主要贡献有：图6对测试语料3的准确率比较 1)对词语相似度方法进行了改进，通过计算情 Fig.6 Accuracy comparison for test corpus 3 感词的情感语义相似度，排除掉一些有情感歧义的词作为基准词的可能。 1.0 2)通过计算情感度，选择出情感代表性强的词语作为候选基准词. 0.8 3)通过对情感词情感度的计算，选择出情感倾 0.6 向性强的情感词作为候选基准词。实验结果表明，采用本文选择的基准词，在情感 0.4 ◆人工选择的基准词倾向判断的准确率上，要优于传统的方法.由于词典 0.2 一由词典构造的基准词资源的不完备性，以及网络上的新词，比如“二” 士本文所选择的基准词 “浮云”、“伪娘”等，都没有在词典中出现，以后的研 0.8 1.0 1.2 1.4 610 究中，将进一步的考虑这些未登录词的语义对文本相似度的影响图7对测试语料4的准确率比较 Fig.7 Accuracy comparison for test corpus 4 参考文献：「1]孙春华，刘业政，彭学仕.一种含强度的基准词选择和为了验证不同的基准词个数对情感分类准确率词汇倾向性判别方法[J].情报学报，2011,30(12)：的影响，分别从本文所得到的基准词中选择出排名 1261-1267. 靠前的15、20、25、30、40、50、60、75、80、85、90、95 SUN Chunhua,LIU Yezheng,PENG Xueshi.A method for 100、120对基准词，对4组测试语料分别测试，取其 paradigm words selection with intensity information and word sentiment orientation discrimination[J].Journal of the Chi- 平均值.得到的准确率如图8所示从图8可以看出， na Society for Scientific and Technical Information,2011, 基准词的数量从15~40时，情感倾向的分类的准确 30(12):1261-1267. 率得到了很快的提高，其中，在选择40对基准词时， [2]PETER D T.Thumbs up or thumbs down?Semantic orienta- 准确率为85%：基准词的数量大于40之后，准确率 tion applied to unsupervised classification of reviews[C]/图５对测试语料２的准确率比较Ｆｉｇ．５Ａｃｃｕｒａｃｙｃｏｍｐａｒｉｓｏｎｆｏｒｔｅｓｔｃｏｒｐｕｓ２图６对测试语料３的准确率比较Ｆｉｇ．６Ａｃｃｕｒａｃｙｃｏｍｐａｒｉｓｏｎｆｏｒｔｅｓｔｃｏｒｐｕｓ３图７对测试语料４的准确率比较Ｆｉｇ．７Ａｃｃｕｒａｃｙｃｏｍｐａｒｉｓｏｎｆｏｒｔｅｓｔｃｏｒｐｕｓ４为了验证不同的基准词个数对情感分类准确率的影响，分别从本文所得到的基准词中选择出排名靠前的１５、２０、２５、３０、４０、５０、６０、７５、８０、８５、９０、９５、１００、１２０对基准词，对４组测试语料分别测试，取其平均值．得到的准确率如图８所示．从图８可以看出，基准词的数量从１５～４０时，情感倾向的分类的准确率得到了很快的提高，其中，在选择４０对基准词时，准确率为８５％；基准词的数量大于４０之后，准确率虽然得到了提高，但总体上来看变化趋势较为缓慢．在实际应用中，随着基准词数量的增多，计算量也会增大．从准确率和时间开销综合考虑，应该选择的基准词数量在４０～６０．图８不同基准词个数对准确率的影响Ｆｉｇ．８Ｉｎｆｌｕｅｎｃｅｏｆｔｈｅｎｕｍｂｅｒｏｆｄｉｆｆｅｒｅｎｔｓｔａｎｄａｒｄｗｏｒｄｓｏｎａｃｃｕｒａｃｙｒａｔｅ４结论本文分析了已有工作中基准词选择的优点和缺点，在此基础上，提出了一种情感倾向判断中基准词选择的方法．分别考虑到了情感词的情感歧义性、情感代表性、情感倾向性，并相应地给出了计算公式．通过实验测试表明，本文所提出的基准词，在情感倾向的判断上准确性较高．文章的主要贡献有：１）对词语相似度方法进行了改进，通过计算情感词的情感语义相似度，排除掉一些有情感歧义的词作为基准词的可能．２）通过计算情感度，选择出情感代表性强的词语作为候选基准词．３）通过对情感词情感度的计算，选择出情感倾向性强的情感词作为候选基准词．实验结果表明，采用本文选择的基准词，在情感倾向判断的准确率上，要优于传统的方法．由于词典资源的不完备性，以及网络上的新词，比如“二”、 “浮云”、“伪娘”等，都没有在词典中出现，以后的研究中，将进一步的考虑这些未登录词的语义对文本相似度的影响．参考文献：［１］孙春华，刘业政，彭学仕．一种含强度的基准词选择和词汇倾向性判别方法［Ｊ］．情报学报，２０１１，３０（１２）：１２６１⁃１２６７．ＳＵＮＣｈｕｎｈｕａ，ＬＩＵＹｅｚｈｅｎｇ，ＰＥＮＧＸｕｅｓｈｉ．Ａｍｅｔｈｏｄｆｏｒｐａｒａｄｉｇｍｗｏｒｄｓｓｅｌｅｃｔｉｏｎｗｉｔｈｉｎｔｅｎｓｉｔｙｉｎｆｏｒｍａｔｉｏｎａｎｄｗｏｒｄｓｅｎｔｉｍｅｎｔｏｒｉｅｎｔａｔｉｏｎｄｉｓｃｒｉｍｉｎａｔｉｏｎ［Ｊ］．ＪｏｕｒｎａｌｏｆｔｈｅＣｈｉ⁃ ｎａＳｏｃｉｅｔｙｆｏｒＳｃｉｅｎｔｉｆｉｃａｎｄＴｅｃｈｎｉｃａｌＩｎｆｏｒｍａｔｉｏｎ，２０１１，３０（１２）：１２６１⁃１２６７．［２］ＰＥＴＥＲＤＴ．Ｔｈｕｍｂｓｕｐｏｒｔｈｕｍｂｓｄｏｗｎ？Ｓｅｍａｎｔｉｃｏｒｉｅｎｔａ⁃ ｔｉｏｎａｐｐｌｉｅｄｔｏｕｎｓｕｐｅｒｖｉｓｅｄｃｌａｓｓｉｆｉｃａｔｉｏｎｏｆｒｅｖｉｅｗｓ［Ｃ］／／ ·３５４· 智能系统学报第８卷

<<向上翻页向下翻页>>

点击下载：【自然语言处理与理解】情感倾向判断中基准词的选择