正在加载图片...
第5期 皇甫璐雯,等:一种基于OCC模型的文本情感挖掘方法 651· Pr(a)-Pr(e) 模板,对情感维度词进行评分,将情感维度词属于 Kappa (4) 1-Pr(e) 某个情感维度值的概率用可靠性进行刻画。此外, 其中,Pr(a)表示实际标注时的一致程度,Pr(e)表 用相关性刻画某一模板与情感维度词共现的程度, 示随机情况下期望的一致程度。实验中两个标注 用倾向性刻画某一情感词的极性值。 者的Kappa值为0.613(Kappa值大于0.6表明一致 程度较好)。 3 结束语 基于标注数据,利用精度、召回率和F值这3 本文提出了一种基于认知心理学领域发展成 个指标对情感维度词典DUPB进行定量评价。F值 熟的情感认知结构模型OCC,设计并实现了一种基 的计算公式为 于OCC情感模型的观点挖掘方法,并采用网上新闻 E value=2·precision·recall (5) 评论数据,采用实验方法初步验证了文中方法的有 precision recall 效性。与相关工作比较,该方法所需要的人力少, 式中:F.value表示F值,precision表示精度,recall 且在使用灵活性和有效性上具有明显的优势。同 表示召回率。 时,本文基于经典的情感认知结构模型,不但给文 2.3.3实验结果 本情感分析这一研究问题赋予了更深层次的认知 平均精度、召回率和F值的实验结果如表4 结构关联,而且为情感类型的输出维度提供了一个 所示。 建立在认知心理学模型基础上的更加精细的解释。 表4实验结果 Table 4 Experimental results 参考文献: 情感维度 标注者1 标注者2 平均值 [1]CHEN,Hsinchun.AI and opinion mining,part 2[J].IEEE 精度 0.596 0.647 0.622 intelligentsystems,2010,25(4):72-79. 召回率 0.393 0.408 0.400 [2]CHEN,Hsinchun,DAVID Z.AI and opinion mining[J]. IEEE intelligentsystems,2010,25(3):74-80. F值 0.470 0.495 0.482 [3]PANG B,LEE L,VAITHYANATHAN S.Thumbs up?: 由表4可知,平均精度、召回率和F值分别为 sentiment classification using machine learning techniques 0.622、0.400和0.482。可以看到,情感维度词典 [C]//Proceedings of the ACL-02 Conference on Empirical DUPB的平均精度较好但召回率还比较低,导致召 Methods in Natural Language Processing-Volume 10. 回率较低的一个原因是情感维度词典中的情感维 Stroudsburg,USA,2002:79-86. 度词的数量有限,对于验证集中的情感维度词覆盖 [4]TURNEY P D.Thumbs up or thumbs down?:semantic 程度不足,因此召回率不高。 orientation applied to unsupervised classification of reviews [C]//Proceedings of the 40th Annual Meeting on Association 2.3.4结果分析及改进 for Computational Linguistics.Stroudsburg,USA,2002: 上面介绍的基于OCC模型的情感挖掘方法仍 417-424. 存在一些可改进之处,如:将情感维度词典的构建 [5 WIEBE J,WILSON T,BRUCE R,et al.Learning 和求精分开进行,使用预先定义的固定模板,以及 subjective language [J].Computational linguistics,2004, 不加区分地对待词之间的共现情形等。特别是,考 30(3):277-308. 虑到情感维度词和模板之间的相互关联,可以通过 [6]ATTARDI G,SIMI M.Blog Mining through opinionated 两者之间的互学习促进情感挖掘的性能。 words C]//Fifteenth Text Retrieval Conference,Trec 针对以上不足,文中考虑了融合Bootstrapping 2006.Gaithersburg,USA,2006. 的改进方法。该方法将情感维度词典的构建和求 [7]HATZIVASSILOGLOU V,WIEBE J M.Effects of adjective 精在同一个循环中完成。算法的主要思想是利用 orientation and gradability on sentence subjectivity C]// 情感维度词与模板进行互学习,并且对两者分别进 Proceedings of the 18th Conference on Computational Linguistics- 行评分。基于情感维度词在模板前后的维度值,对 Volume 1.Stroudsburg,USA,2000:299-305. [8 RILOFF E,WIEBE J,WILSON T.Learning subjective 模板进行评分,将一致性/不一致性用模板的可区 nouns using extraction pattern bootstrapping C]/ 分性指标进行刻画。这里的可区分情况有两种:一 Proceedings of the Seventh Conference on Natural Language 种是模板前后的词维度恰好一致,另一种是模板前 Learning at HLT-NAACL 2003-Volume 4.Stroudsburg, 后的词维度恰好相反。如果一个模板在这两种情 USA,2003:25-32. 况中的一种占大多数,则该模板的质量较好。基于 [9]HU M,LIU B.Mining and summarizing customer reviewsKappa = Pr(a) - Pr(e) 1 - Pr(e) (4) 其中,Pr( a)表示实际标注时的一致程度,Pr( e)表 示随机情况下期望的一致程度。 实验中两个标注 者的 Kappa 值为 0.613(Kappa 值大于 0.6 表明一致 程度较好)。 基于标注数据,利用精度、召回率和 F 值这 3 个指标对情感维度词典 DUPB 进行定量评价。 F 值 的计算公式为 F- value = 2·precision·recall precision + recall (5) 式中:F- value 表示 F 值,precision 表示精度,recall 表示召回率。 2.3.3 实验结果 平均精度、召回率和 F 值的实验结果如表 4 所示。 表 4 实验结果 Table 4 Experimental results 情感维度 标注者 1 标注者 2 平均值 精度 0.596 0.647 0.622 召回率 0.393 0.408 0.400 F 值 0.470 0.495 0.482 由表 4 可知,平均精度、召回率和 F 值分别为 0.622、0. 400 和 0. 482。 可以看到,情感维度词典 DUPB 的平均精度较好但召回率还比较低,导致召 回率较低的一个原因是情感维度词典中的情感维 度词的数量有限,对于验证集中的情感维度词覆盖 程度不足,因此召回率不高。 2.3.4 结果分析及改进 上面介绍的基于 OCC 模型的情感挖掘方法仍 存在一些可改进之处,如:将情感维度词典的构建 和求精分开进行,使用预先定义的固定模板,以及 不加区分地对待词之间的共现情形等。 特别是,考 虑到情感维度词和模板之间的相互关联,可以通过 两者之间的互学习促进情感挖掘的性能。 针对以上不足,文中考虑了融合 Bootstrapping 的改进方法。 该方法将情感维度词典的构建和求 精在同一个循环中完成。 算法的主要思想是利用 情感维度词与模板进行互学习,并且对两者分别进 行评分。 基于情感维度词在模板前后的维度值,对 模板进行评分,将一致性/ 不一致性用模板的可区 分性指标进行刻画。 这里的可区分情况有两种:一 种是模板前后的词维度恰好一致,另一种是模板前 后的词维度恰好相反。 如果一个模板在这两种情 况中的一种占大多数,则该模板的质量较好。 基于 模板,对情感维度词进行评分,将情感维度词属于 某个情感维度值的概率用可靠性进行刻画。 此外, 用相关性刻画某一模板与情感维度词共现的程度, 用倾向性刻画某一情感词的极性值。 3 结束语 本文提出了一种基于认知心理学领域发展成 熟的情感认知结构模型 OCC,设计并实现了一种基 于 OCC 情感模型的观点挖掘方法,并采用网上新闻 评论数据,采用实验方法初步验证了文中方法的有 效性。 与相关工作比较,该方法所需要的人力少, 且在使用灵活性和有效性上具有明显的优势。 同 时,本文基于经典的情感认知结构模型,不但给文 本情感分析这一研究问题赋予了更深层次的认知 结构关联,而且为情感类型的输出维度提供了一个 建立在认知心理学模型基础上的更加精细的解释。 参考文献: [1]CHEN, Hsinchun. AI and opinion mining, part 2[J]. IEEE intelligentsystems, 2010, 25(4): 72-79. [2]CHEN, Hsinchun, DAVID Z. AI and opinion mining[ J]. IEEE intelligentsystems, 2010, 25(3): 74-80. [3] PANG B, LEE L, VAITHYANATHAN S. Thumbs up?: sentiment classification using machine learning techniques [C] / / Proceedings of the ACL⁃02 Conference on Empirical Methods in Natural Language Processing⁃Volume 10. Stroudsburg,USA, 2002: 79-86. [4] TURNEY P D. Thumbs up or thumbs down?: semantic orientation applied to unsupervised classification of reviews [C] / / Proceedings of the 40th Annual Meeting on Association for Computational Linguistics. Stroudsburg, USA, 2002: 417-424. [ 5 ] WIEBE J, WILSON T, BRUCE R, et al. Learning subjective language [ J]. Computational linguistics, 2004, 30(3): 277-308. [ 6] ATTARDI G, SIMI M. Blog Mining through opinionated words [ C ] / / Fifteenth Text Retrieval Conference, Trec 2006.Gaithersburg, USA, 2006. [7] HATZIVASSILOGLOU V, WIEBE J M. Effects of adjective orientation and gradability on sentence subjectivity [ C] / / Proceedings of the 18th Conference on Computational Linguistics⁃ Volume 1. Stroudsburg, USA, 2000: 299-305. [8] RILOFF E, WIEBE J, WILSON T. Learning subjective nouns using extraction pattern bootstrapping [ C ] / / Proceedings of the Seventh Conference on Natural Language Learning at HLT⁃NAACL 2003⁃Volume 4. Stroudsburg, USA,2003: 25-32. [9]HU M, LIU B. Mining and summarizing customer reviews 第 5 期 皇甫璐雯,等:一种基于 OCC 模型的文本情感挖掘方法 ·651·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有