正在加载图片...
第4期 李凌霄,等:基于多情绪源关联模型的中文微博情感分析 .551. 征组合(去除了情感短语和中文是否出现这两个特 要依赖于传统情感词典分类方法。 征),此外因为本文数据集中的微博包含的多句子 表6总体结果 情况少,因而不考虑分句的情况进行第2次分类;同 Table 6 Experimental results 时本文的情感极性分析针对无主题标签的微博,因 正极性 中极性 负极性 此不考虑主题特征。在文献[12]所做的实验中,u 方法 ·准确率 R P R 特征与主客观分类对最终效果有负面影响,因此也 关联 不将这两个因素考虑在内。此外,选用的情感词典 0.9060.9450.5060.395 0.8060.7790.853 模型 和表情符号、标点符号也与之不同。最终使用的特 NB 0.9450.7530.2700.747 0.6570.5370.705 征表示如表5所示,用词袋模型(B0W)表示。其中 传统 否定词采用与3.2.2中相同处理方法。对比实验二 0.8330.6170.1620.617 0.6080.3120.550 词典 采用3.3节中方法。实验采用五折交叉验证。 词典+ 表5对比实验特征表示 0.8940.9250.5070.369 0.7500.7630.834 Table 5 Sentiment features of baseline 表情 SVM0.8700.9450.5380.330 序号类型 特征描述 维度 0.7690.7020.829 备注 正、负向表情 微博常用 注:P,R分别表示准确率(Precision)和召回率(Recall)。 表情 符号个数 2 表情中的 3.4 错误分析 (50个表情) 默认表情 本节中对混合概率模型的错误分类样本进行了 正、负向情感 使用大连 分析,研究了造成分类错误的原因,如表7所示。 情感词 词个数 理工大学 表7错误类别及相关示例 (2461个情感词)》 词典 Table 7 Misclassified examples 3形容词 形容词个数 序号 错误类别描述 示例 4 动词 动词个数 各种消失。信号标识消失 情感词未包 时间消失电池电量各种消 含在词典中 5 感叹号 是否出现!或! 1 失苹果系统i0s7真心是坑爹啊。 有时候突然不能输人 6 问号 是否出现?或? 无表情符号 中文,关机重启后正常。 特征 3.3 实验结果及分析 已发生两次。 分类器说明: 负面表情或情感词 略凶残的相机效果, 1)关联模型:多情绪源关联模型(情感词、表情 表达正面或中性情感 自恋狂可以点赞。 关联建模): 反问句式加 坑不坑! 2)NB:朴素贝叶斯模型,所使用的特征与对比 强了负面情感 实验一的SVM方法相同,使用BOW表示特征; 3天内出现4次 3)传统词典:传统的基于情感词典以及规则进 反讽句式 这种情况,还能不能一 行投票的方法(2.2中的方法): 起愉快地玩耍了? 4)词典+表情:传统基于情感词典及规则进行 其实我还是挺喜欢i0s7 转折句式 投票的方法,辅以表情特征(2.3中的方法)。 的如果他不卡的话 5)SVM:文献[12]中一步三分类方法。 同志们不好意思,我刚才 正面表情 从表6的实验结果可以看出,本文提出的多情 发错了,那个是草稿箱里 表达中性 绪源关联模型分类效果最佳,达到85.3%,比传统基 的表情:“嘻嘻”“哈哈” 于情感词加表情投票的方法高出了1.9%,比同类多 实验结果表明,在缺乏表情符号特征的微博中 特征SVM高出了2.4%。说明了对情绪源进行关联 分类效果较差,主要原因还是由于当没有表情特征 性建模,能够有效提高情感分类效果,表明不同情绪 时,分类器只依赖于情感词以及简单规则进行分类。 源之间的关联关系与情感极性也是相关的。缺点在 此外,对转折句、反讽句等句式的判断存在不足,原 于对情绪源单一的微博(例如无表情的微博)则主 因是微博中很多反讽句式的出现往往是伴随着网络征组合(去除了情感短语和中文是否出现这两个特 征),此外因为本文数据集中的微博包含的多句子 情况少,因而不考虑分句的情况进行第 2 次分类;同 时本文的情感极性分析针对无主题标签的微博,因 此不考虑主题特征。 在文献[12]所做的实验中,url 特征与主客观分类对最终效果有负面影响,因此也 不将这两个因素考虑在内。 此外,选用的情感词典 和表情符号、标点符号也与之不同。 最终使用的特 征表示如表 5 所示,用词袋模型(BOW)表示。 其中 否定词采用与 3.2.2 中相同处理方法。 对比实验二 采用 3.3 节中方法。 实验采用五折交叉验证。 表 5 对比实验特征表示 Table 5 Sentiment features of baseline 序号 类型 特征描述 维度 备注 1 表情 正、负向表情 符号个数 (50 个表情) 2 微博常用 表情中的 默认表情 2 情感词 正、负向情感 词个数 (2 461 个情感词) 2 使用大连 理工大学 词典 3 形容词 形容词个数 1 4 动词 动词个数 1 5 感叹号 是否出现! 或! 1 6 问号 是否出现? 或? 1 3.3 实验结果及分析 分类器说明: 1)关联模型:多情绪源关联模型(情感词、表情 关联建模); 2)NB:朴素贝叶斯模型,所使用的特征与对比 实验一的 SVM 方法相同,使用 BOW 表示特征; 3)传统词典:传统的基于情感词典以及规则进 行投票的方法(2.2 中的方法); 4)词典+表情:传统基于情感词典及规则进行 投票的方法,辅以表情特征(2.3 中的方法)。 5)SVM:文献[1 2 ]中一步三分类方法。 从表 6 的实验结果可以看出,本文提出的多情 绪源关联模型分类效果最佳,达到 85.3%,比传统基 于情感词加表情投票的方法高出了 1.9%,比同类多 特征 SVM 高出了 2.4%。 说明了对情绪源进行关联 性建模,能够有效提高情感分类效果,表明不同情绪 源之间的关联关系与情感极性也是相关的。 缺点在 于对情绪源单一的微博(例如无表情的微博) 则主 要依赖于传统情感词典分类方法。 表 6 总体结果 Table 6 Experimental results 方法 正极性 P R 中极性 P R 负极性 P R 准确率 关联 模型 0.906 0.945 0.506 0.395 0.806 0.779 0.853 NB 0.945 0.753 0.270 0.747 0.657 0.537 0.705 传统 词典 0.833 0.617 0.162 0.617 0.608 0.312 0.550 词典+ 表情 0.894 0.925 0.507 0.369 0.750 0.763 0.834 SVM 0.870 0.945 0.538 0.330 0.769 0.702 0.829 注:P、R 分别表示准确率(Precision)和召回率(Recall)。 3.4 错误分析 本节中对混合概率模型的错误分类样本进行了 分析,研究了造成分类错误的原因,如表 7 所示。 表 7 错误类别及相关示例 Table 7 Misclassified examples 序号 错误类别描述 示例 1 情感词未包 含在词典中 各种消失。 信号标识消失 时间消失电池电量各种消 失苹果系统 ios7 真心是坑爹啊。 2 无表情符号 特征 有时候突然不能输入 中文,关机重启后正常。 已发生两次。 3 负面表情或情感词 表达正面或中性情感 略凶残的相机效果, 自恋狂可以点赞。 4 反问句式加 强了负面情感 坑不坑! 5 反讽句式 3 天内出现 4 次 这种情况,还能不能一 起愉快地玩耍了? 6 转折句式 其实我还是挺喜欢 ios7 的如果他不卡的话 7 正面表情 表达中性 同志们不好意思,我刚才 发错了,那个是草稿箱里 的表情:“嘻嘻”“哈哈” 实验结果表明,在缺乏表情符号特征的微博中 分类效果较差,主要原因还是由于当没有表情特征 时,分类器只依赖于情感词以及简单规则进行分类。 此外,对转折句、反讽句等句式的判断存在不足,原 因是微博中很多反讽句式的出现往往是伴随着网络 第 4 期 李凌霄,等: 基于多情绪源关联模型的中文微博情感分析 ·551·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有