Ｋａｐｐａ＝Ｐｒ（ａ）－Ｐｒ（ｅ）１－Ｐｒ（ｅ）（４）其

正在加载图片...

第5期皇甫璐雯，等：一种基于OCC模型的文本情感挖掘方法 651· Pr(a)-Pr(e) 模板，对情感维度词进行评分，将情感维度词属于 Kappa (4) 1-Pr(e) 某个情感维度值的概率用可靠性进行刻画。此外，其中，Pr(a)表示实际标注时的一致程度，Pr(e)表用相关性刻画某一模板与情感维度词共现的程度，示随机情况下期望的一致程度。实验中两个标注用倾向性刻画某一情感词的极性值。者的Kappa值为0.613(Kappa值大于0.6表明一致程度较好)。 3 结束语基于标注数据，利用精度、召回率和F值这3 本文提出了一种基于认知心理学领域发展成个指标对情感维度词典DUPB进行定量评价。F值熟的情感认知结构模型OCC,设计并实现了一种基的计算公式为于OCC情感模型的观点挖掘方法，并采用网上新闻 E value=2·precision·recall (5) 评论数据，采用实验方法初步验证了文中方法的有 precision recall 效性。与相关工作比较，该方法所需要的人力少，式中：F.value表示F值，precision表示精度，recall 且在使用灵活性和有效性上具有明显的优势。同表示召回率。时，本文基于经典的情感认知结构模型，不但给文 2.3.3实验结果本情感分析这一研究问题赋予了更深层次的认知平均精度、召回率和F值的实验结果如表4 结构关联，而且为情感类型的输出维度提供了一个所示。建立在认知心理学模型基础上的更加精细的解释。表4实验结果 Table 4 Experimental results 参考文献：情感维度标注者1 标注者2 平均值 [1]CHEN,Hsinchun.AI and opinion mining,part 2[J].IEEE 精度 0.596 0.647 0.622 intelligentsystems,2010,25(4):72-79. 召回率 0.393 0.408 0.400 [2]CHEN,Hsinchun,DAVID Z.AI and opinion mining[J]. IEEE intelligentsystems,2010,25(3):74-80. F值 0.470 0.495 0.482 [3]PANG B,LEE L,VAITHYANATHAN S.Thumbs up?: 由表4可知，平均精度、召回率和F值分别为 sentiment classification using machine learning techniques 0.622、0.400和0.482。可以看到，情感维度词典 [C]//Proceedings of the ACL-02 Conference on Empirical DUPB的平均精度较好但召回率还比较低，导致召 Methods in Natural Language Processing-Volume 10. 回率较低的一个原因是情感维度词典中的情感维 Stroudsburg,USA,2002:79-86. 度词的数量有限，对于验证集中的情感维度词覆盖 [4]TURNEY P D.Thumbs up or thumbs down?:semantic 程度不足，因此召回率不高。 orientation applied to unsupervised classification of reviews [C]//Proceedings of the 40th Annual Meeting on Association 2.3.4结果分析及改进 for Computational Linguistics.Stroudsburg,USA,2002: 上面介绍的基于OCC模型的情感挖掘方法仍 417-424. 存在一些可改进之处，如：将情感维度词典的构建 [5 WIEBE J,WILSON T,BRUCE R,et al.Learning 和求精分开进行，使用预先定义的固定模板，以及 subjective language [J].Computational linguistics,2004, 不加区分地对待词之间的共现情形等。特别是，考 30(3):277-308. 虑到情感维度词和模板之间的相互关联，可以通过 [6]ATTARDI G,SIMI M.Blog Mining through opinionated 两者之间的互学习促进情感挖掘的性能。 words C]//Fifteenth Text Retrieval Conference,Trec 针对以上不足，文中考虑了融合Bootstrapping 2006.Gaithersburg,USA,2006. 的改进方法。该方法将情感维度词典的构建和求 [7]HATZIVASSILOGLOU V,WIEBE J M.Effects of adjective 精在同一个循环中完成。算法的主要思想是利用 orientation and gradability on sentence subjectivity C]// 情感维度词与模板进行互学习，并且对两者分别进 Proceedings of the 18th Conference on Computational Linguistics- 行评分。基于情感维度词在模板前后的维度值，对 Volume 1.Stroudsburg,USA,2000:299-305. [8 RILOFF E,WIEBE J,WILSON T.Learning subjective 模板进行评分，将一致性/不一致性用模板的可区 nouns using extraction pattern bootstrapping C]/ 分性指标进行刻画。这里的可区分情况有两种：一 Proceedings of the Seventh Conference on Natural Language 种是模板前后的词维度恰好一致，另一种是模板前 Learning at HLT-NAACL 2003-Volume 4.Stroudsburg, 后的词维度恰好相反。如果一个模板在这两种情 USA,2003:25-32. 况中的一种占大多数，则该模板的质量较好。基于 [9]HU M,LIU B.Mining and summarizing customer reviewsＫａｐｐａ＝Ｐｒ（ａ）－Ｐｒ（ｅ）１－Ｐｒ（ｅ）（４）其中，Ｐｒ（ａ）表示实际标注时的一致程度，Ｐｒ（ｅ）表示随机情况下期望的一致程度。实验中两个标注者的Ｋａｐｐａ值为０．６１３（Ｋａｐｐａ值大于０．６表明一致程度较好）。基于标注数据，利用精度、召回率和Ｆ值这３个指标对情感维度词典ＤＵＰＢ进行定量评价。Ｆ值的计算公式为Ｆ－ｖａｌｕｅ＝２·ｐｒｅｃｉｓｉｏｎ·ｒｅｃａｌｌｐｒｅｃｉｓｉｏｎ＋ｒｅｃａｌｌ（５）式中：Ｆ－ｖａｌｕｅ表示Ｆ值，ｐｒｅｃｉｓｉｏｎ表示精度，ｒｅｃａｌｌ表示召回率。２．３．３实验结果平均精度、召回率和Ｆ值的实验结果如表４所示。表４实验结果Ｔａｂｌｅ４Ｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓ情感维度标注者１标注者２平均值精度０．５９６０．６４７０．６２２召回率０．３９３０．４０８０．４００Ｆ值０．４７００．４９５０．４８２由表４可知，平均精度、召回率和Ｆ值分别为０．６２２、０．４００和０．４８２。可以看到，情感维度词典ＤＵＰＢ的平均精度较好但召回率还比较低，导致召回率较低的一个原因是情感维度词典中的情感维度词的数量有限，对于验证集中的情感维度词覆盖程度不足，因此召回率不高。２．３．４结果分析及改进上面介绍的基于ＯＣＣ模型的情感挖掘方法仍存在一些可改进之处，如：将情感维度词典的构建和求精分开进行，使用预先定义的固定模板，以及不加区分地对待词之间的共现情形等。特别是，考虑到情感维度词和模板之间的相互关联，可以通过两者之间的互学习促进情感挖掘的性能。针对以上不足，文中考虑了融合Ｂｏｏｔｓｔｒａｐｐｉｎｇ的改进方法。该方法将情感维度词典的构建和求精在同一个循环中完成。算法的主要思想是利用情感维度词与模板进行互学习，并且对两者分别进行评分。基于情感维度词在模板前后的维度值，对模板进行评分，将一致性／不一致性用模板的可区分性指标进行刻画。这里的可区分情况有两种：一种是模板前后的词维度恰好一致，另一种是模板前后的词维度恰好相反。如果一个模板在这两种情况中的一种占大多数，则该模板的质量较好。基于模板，对情感维度词进行评分，将情感维度词属于某个情感维度值的概率用可靠性进行刻画。此外，用相关性刻画某一模板与情感维度词共现的程度，用倾向性刻画某一情感词的极性值。３结束语本文提出了一种基于认知心理学领域发展成熟的情感认知结构模型ＯＣＣ，设计并实现了一种基于ＯＣＣ情感模型的观点挖掘方法，并采用网上新闻评论数据，采用实验方法初步验证了文中方法的有效性。与相关工作比较，该方法所需要的人力少，且在使用灵活性和有效性上具有明显的优势。同时，本文基于经典的情感认知结构模型，不但给文本情感分析这一研究问题赋予了更深层次的认知结构关联，而且为情感类型的输出维度提供了一个建立在认知心理学模型基础上的更加精细的解释。参考文献：［１］ＣＨＥＮ，Ｈｓｉｎｃｈｕｎ．ＡＩａｎｄｏｐｉｎｉｏｎｍｉｎｉｎｇ，ｐａｒｔ２［Ｊ］．ＩＥＥＥｉｎｔｅｌｌｉｇｅｎｔｓｙｓｔｅｍｓ，２０１０，２５（４）：７２－７９．［２］ＣＨＥＮ，Ｈｓｉｎｃｈｕｎ，ＤＡＶＩＤＺ．ＡＩａｎｄｏｐｉｎｉｏｎｍｉｎｉｎｇ［Ｊ］．ＩＥＥＥｉｎｔｅｌｌｉｇｅｎｔｓｙｓｔｅｍｓ，２０１０，２５（３）：７４－８０．［３］ＰＡＮＧＢ，ＬＥＥＬ，ＶＡＩＴＨＹＡＮＡＴＨＡＮＳ．Ｔｈｕｍｂｓｕｐ？：ｓｅｎｔｉｍｅｎｔｃｌａｓｓｉｆｉｃａｔｉｏｎｕｓｉｎｇｍａｃｈｉｎｅｌｅａｒｎｉｎｇｔｅｃｈｎｉｑｕｅｓ［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＡＣＬ⁃０２ＣｏｎｆｅｒｅｎｃｅｏｎＥｍｐｉｒｉｃａｌＭｅｔｈｏｄｓｉｎＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ⁃Ｖｏｌｕｍｅ１０．Ｓｔｒｏｕｄｓｂｕｒｇ，ＵＳＡ，２００２：７９－８６．［４］ＴＵＲＮＥＹＰＤ．Ｔｈｕｍｂｓｕｐｏｒｔｈｕｍｂｓｄｏｗｎ？：ｓｅｍａｎｔｉｃｏｒｉｅｎｔａｔｉｏｎａｐｐｌｉｅｄｔｏｕｎｓｕｐｅｒｖｉｓｅｄｃｌａｓｓｉｆｉｃａｔｉｏｎｏｆｒｅｖｉｅｗｓ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ４０ｔｈＡｎｎｕａｌＭｅｅｔｉｎｇｏｎＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ．Ｓｔｒｏｕｄｓｂｕｒｇ，ＵＳＡ，２００２：４１７－４２４．［５］ＷＩＥＢＥＪ，ＷＩＬＳＯＮＴ，ＢＲＵＣＥＲ，ｅｔａｌ．Ｌｅａｒｎｉｎｇｓｕｂｊｅｃｔｉｖｅｌａｎｇｕａｇｅ［Ｊ］．Ｃｏｍｐｕｔａｔｉｏｎａｌｌｉｎｇｕｉｓｔｉｃｓ，２００４，３０（３）：２７７－３０８．［６］ＡＴＴＡＲＤＩＧ，ＳＩＭＩＭ．ＢｌｏｇＭｉｎｉｎｇｔｈｒｏｕｇｈｏｐｉｎｉｏｎａｔｅｄｗｏｒｄｓ［Ｃ］／／ＦｉｆｔｅｅｎｔｈＴｅｘｔＲｅｔｒｉｅｖａｌＣｏｎｆｅｒｅｎｃｅ，Ｔｒｅｃ２００６．Ｇａｉｔｈｅｒｓｂｕｒｇ，ＵＳＡ，２００６．［７］ＨＡＴＺＩＶＡＳＳＩＬＯＧＬＯＵＶ，ＷＩＥＢＥＪＭ．Ｅｆｆｅｃｔｓｏｆａｄｊｅｃｔｉｖｅｏｒｉｅｎｔａｔｉｏｎａｎｄｇｒａｄａｂｉｌｉｔｙｏｎｓｅｎｔｅｎｃｅｓｕｂｊｅｃｔｉｖｉｔｙ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１８ｔｈＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ⁃ Ｖｏｌｕｍｅ１．Ｓｔｒｏｕｄｓｂｕｒｇ，ＵＳＡ，２０００：２９９－３０５．［８］ＲＩＬＯＦＦＥ，ＷＩＥＢＥＪ，ＷＩＬＳＯＮＴ．Ｌｅａｒｎｉｎｇｓｕｂｊｅｃｔｉｖｅｎｏｕｎｓｕｓｉｎｇｅｘｔｒａｃｔｉｏｎｐａｔｔｅｒｎｂｏｏｔｓｔｒａｐｐｉｎｇ［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＳｅｖｅｎｔｈＣｏｎｆｅｒｅｎｃｅｏｎＮａｔｕｒａｌＬａｎｇｕａｇｅＬｅａｒｎｉｎｇａｔＨＬＴ⁃ＮＡＡＣＬ２００３⁃Ｖｏｌｕｍｅ４．Ｓｔｒｏｕｄｓｂｕｒｇ，ＵＳＡ，２００３：２５－３２．［９］ＨＵＭ，ＬＩＵＢ．Ｍｉｎｉｎｇａｎｄｓｕｍｍａｒｉｚｉｎｇｃｕｓｔｏｍｅｒｒｅｖｉｅｗｓ第５期皇甫璐雯，等：一种基于ＯＣＣ模型的文本情感挖掘方法 ·６５１·

<<向上翻页向下翻页>>

点击下载：智能系统：一种基于OCC模型的文本情感挖掘方法