正在加载图片...
·354. 智能系统学报 第8卷 1.0 虽然得到了提高,但总体上来看变化趋势较为缓慢 在实际应用中,随着基准词数量的增多,计算量也会 0.8 增大.从准确率和时间开销综合考虑,应该选择的基 指0.6 准词数量在40~60. 1.0r 0.4 0.9 ◆ ◆人工选择的基准词 0少 ■一由词典构造的基准词 0.8 本文所选择的基准词 6.8 1.0 1.2 K 14工810 0.7 0.6 图5对测试语料2的准确率比较 0.50 102040608090100 Fig.5 Accuracy comparison for test corpus 2 基准词个数 图8不同基准词个数对准确率的影响 1.0 Fig.8 Influence of the number of different standard words on accuracy rate 0.8 4 结论 本文分析了已有工作中基准词选择的优点和缺 0.4 点,在此基础上,提出了一种情感倾向判断中基准词 ◆人工选择的基准词 0.2 ■一由词典构造的基准词 选择的方法.分别考虑到了情感词的情感歧义性、情 ★一本文所选择的基准词 感代表性、情感倾向性,并相应地给出了计算公式. 6.8 1.0 1.2 1.4 o 通过实验测试表明,本文所提出的基准词,在情感倾 向的判断上准确性较高.文章的主要贡献有: 图6对测试语料3的准确率比较 1)对词语相似度方法进行了改进,通过计算情 Fig.6 Accuracy comparison for test corpus 3 感词的情感语义相似度,排除掉一些有情感歧义的 词作为基准词的可能。 1.0 2)通过计算情感度,选择出情感代表性强的词 语作为候选基准词. 0.8 3)通过对情感词情感度的计算,选择出情感倾 0.6 向性强的情感词作为候选基准词。 实验结果表明,采用本文选择的基准词,在情感 0.4 ◆人工选择的基准词 倾向判断的准确率上,要优于传统的方法.由于词典 0.2 一由词典构造的基准词 资源的不完备性,以及网络上的新词,比如“二” 士本文所选择的基准词 “浮云”、“伪娘”等,都没有在词典中出现,以后的研 0.8 1.0 1.2 1.4 610 究中,将进一步的考虑这些未登录词的语义对文本 相似度的影响 图7对测试语料4的准确率比较 Fig.7 Accuracy comparison for test corpus 4 参考文献: 「1]孙春华,刘业政,彭学仕.一种含强度的基准词选择和 为了验证不同的基准词个数对情感分类准确率 词汇倾向性判别方法[J].情报学报,2011,30(12): 的影响,分别从本文所得到的基准词中选择出排名 1261-1267. 靠前的15、20、25、30、40、50、60、75、80、85、90、95 SUN Chunhua,LIU Yezheng,PENG Xueshi.A method for 100、120对基准词,对4组测试语料分别测试,取其 paradigm words selection with intensity information and word sentiment orientation discrimination[J].Journal of the Chi- 平均值.得到的准确率如图8所示从图8可以看出, na Society for Scientific and Technical Information,2011, 基准词的数量从15~40时,情感倾向的分类的准确 30(12):1261-1267. 率得到了很快的提高,其中,在选择40对基准词时, [2]PETER D T.Thumbs up or thumbs down?Semantic orienta- 准确率为85%:基准词的数量大于40之后,准确率 tion applied to unsupervised classification of reviews[C]/图 5 对测试语料 2 的准确率比较 Fig.5 Accuracy comparison for test corpus 2 图 6 对测试语料 3 的准确率比较 Fig.6 Accuracy comparison for test corpus 3 图 7 对测试语料 4 的准确率比较 Fig.7 Accuracy comparison for test corpus 4 为了验证不同的基准词个数对情感分类准确率 的影响,分别从本文所得到的基准词中选择出排名 靠前的 15、20、25、30、40、50、60、75、80、85、90、95、 100、120 对基准词,对 4 组测试语料分别测试,取其 平均值.得到的准确率如图 8 所示.从图 8 可以看出, 基准词的数量从 15~40 时,情感倾向的分类的准确 率得到了很快的提高,其中,在选择 40 对基准词时, 准确率为 85%;基准词的数量大于 40 之后,准确率 虽然得到了提高,但总体上来看变化趋势较为缓慢. 在实际应用中,随着基准词数量的增多,计算量也会 增大.从准确率和时间开销综合考虑,应该选择的基 准词数量在 40~60. 图 8 不同基准词个数对准确率的影响 Fig.8 Influence of the number of different standard words on accuracy rate 4 结论 本文分析了已有工作中基准词选择的优点和缺 点,在此基础上,提出了一种情感倾向判断中基准词 选择的方法.分别考虑到了情感词的情感歧义性、情 感代表性、情感倾向性,并相应地给出了计算公式. 通过实验测试表明,本文所提出的基准词,在情感倾 向的判断上准确性较高.文章的主要贡献有: 1)对词语相似度方法进行了改进,通过计算情 感词的情感语义相似度,排除掉一些有情感歧义的 词作为基准词的可能. 2)通过计算情感度,选择出情感代表性强的词 语作为候选基准词. 3)通过对情感词情感度的计算,选择出情感倾 向性强的情感词作为候选基准词. 实验结果表明,采用本文选择的基准词,在情感 倾向判断的准确率上,要优于传统的方法.由于词典 资源的不完备性,以及网络上的新词,比如“二”、 “浮云”、“伪娘”等,都没有在词典中出现,以后的研 究中,将进一步的考虑这些未登录词的语义对文本 相似度的影响. 参考文献: [1]孙春华, 刘业政, 彭学仕. 一种含强度的基准词选择和 词汇倾向性判别方法[ J]. 情报学报, 2011, 30 ( 12): 1261⁃1267. SUN Chunhua, LIU Yezheng, PENG Xueshi. A method for paradigm words selection with intensity information and word sentiment orientation discrimination[J]. Journal of the Chi⁃ na Society for Scientific and Technical Information, 2011, 30(12): 1261⁃1267. [2]PETER D T. Thumbs up or thumbs down? Semantic orienta⁃ tion applied to unsupervised classification of reviews[C] / / ·354· 智 能 系 统 学 报 第 8 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有