智能系统：一种基于OCC模型的文本情感挖掘方法

团购合买资源类别：文库，文档格式：PDF，文档页数：8，文件大小：1.02MB

第12卷第5期智能系统学报 Vol.12 No.5 2017年10月 CAAI Transactions on Intelligent Systems 0ct.2017 D0I:10.11992/tis.201312032 网络出版地址：http:/kns.cmki.net/kcms/detail/23.1538.TP.20171021.1342.002.html 一种基于OCC模型的文本情感挖掘方法皇甫璐雯，毛文吉 (中国科学院自动化研究所复杂系统管理与控制国家重点实验室，北京100190) 摘要：观点挖掘（或情感分析）作为面向网络社会媒体分析挖掘领域的一个核心研究课题，具有重要的研究意义和应用价值。针对传统观点挖掘方法存在的不足和局限性，本文设计并实现了一种基于OCC情感模型的观点挖掘方法。该方法首先采用统计方法，利用WordNet词典、句法依存关系及少量标注数据，自动构建情感维度词典：其次，对所构建的情感维度词典进行求精，通过语义、情感倾向的不一致性处理和非情感词的过滤，得到高质量的情感维度词典：最后，基于所得到的情感维度词典，结合0CC模型中情感维度值与情感类型的对应关系，生成6种主要的情感类型。实验方法表明，此方法在使用灵活性、可解释性和有效性上具有明显的优势。关键词：观点挖掘；0CC情感模型：情感维度：情感类型：情感词典；认知心理学；情感挖掘；共现中图分类号：TP391文献标志码：A文章编号：1673-4785(2017)05-0645-08 中文引用格式：皇甫璐雯，毛文吉.一种基于0CC模型的文本情感挖掘方法[J].智能系统学报，2017,12(5)：645-652 英文引用格式：HUANGFU Luwen,MAO Wenji.OCC-model-based text-emotion mining method[J].CAAI transactions on intelligent systems,2017,12(5):645-652. OCC-model-based text-emotion mining method HUANGFU Luwen,MAO Wenji (State Key Laboratory of Management and Control for Complex Systems,Institute of Automation,Chinese Academy of Science,Beijing 100190,China) Abstract:Opinion mining,also called sentiment analysis,as one of the core research areas in the network-oriented social media analysis and mining domain,has important practical and research significance.Due to the weaknesses and limitations of traditional opinion mining methods,in this study,we designe and implemente an OCC emotion model-based opinion mining method for extracting emotion types from text.First,we adopte a statistical method to construct an emotion dictionary,based on candidate sets collected by the WordNet dictionary,as well as several syntactic dependent relationships and a small amount of annotated data.Next,we refine the constructed emotion- dimension dictionary to improve its quality by filtering out non-emotional words as well as emotional words that have conflicting syntactic or orientation.Lastly,we generate six main emotion types based on the obtained emotion- dimension dictionary combined with the corresponding relations between emotional dimensions and the different emotion types identified by the OCC model.Experimental results show that the proposed method has obvious advantages with respect to flexibility of usage,interpretability,and effectiveness. Keywords:opinion mining;OCC emotion model;emotional dimension;emotion types;emotion dictionary; cognitive psychology;emotion mining;co-occurrence 近年来，社会媒体迅猛发展并快速渗透到了社值的信息，而且其数量随时间累积呈指数级增长。会、经济、政治、文化等各方面，互联网用户产生的这些信息主要是用户的主观性观点，与客观的事实内容中包含大量关于用户意见、态度、情绪等有价有很大的不同。这些包含用户观点的海量数据蕴含着巨大的实际应用价值，亟需自动化的计算分析收稿日期：2013-12-17.网络出版日期：2017-10-21. 与处理技术，这种现象促进了观点挖掘与情感分析基金项目：国家自然科学基金项目(61175040,71025001). 通信作者：毛文吉.E-mail:wenji.mao@ia.ac.cn 这一新兴研究领域的蓬勃发展。目前，观点挖掘

第１２卷第５期智能系统学报Ｖｏｌ．１２ №．５２０１７年１０月ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓＯｃｔ．２０１７ＤＯＩ：１０．１１９９２／ｔｉｓ．２０１３１２０３２网络出版地址：ｈｔｔｐ：／／ｋｎｓ．ｃｎｋｉ．ｎｅｔ／ｋｃｍｓ／ｄｅｔａｉｌ／２３．１５３８．ＴＰ．２０１７１０２１．１３４２．００２．ｈｔｍｌ一种基于ＯＣＣ模型的文本情感挖掘方法皇甫璐雯，毛文吉（中国科学院自动化研究所复杂系统管理与控制国家重点实验室，北京１００１９０）摘要：观点挖掘（或情感分析）作为面向网络社会媒体分析挖掘领域的一个核心研究课题，具有重要的研究意义和应用价值。针对传统观点挖掘方法存在的不足和局限性，本文设计并实现了一种基于ＯＣＣ情感模型的观点挖掘方法。该方法首先采用统计方法，利用ＷｏｒｄＮｅｔ词典、句法依存关系及少量标注数据，自动构建情感维度词典；其次，对所构建的情感维度词典进行求精，通过语义、情感倾向的不一致性处理和非情感词的过滤，得到高质量的情感维度词典；最后，基于所得到的情感维度词典，结合ＯＣＣ模型中情感维度值与情感类型的对应关系，生成６种主要的情感类型。实验方法表明，此方法在使用灵活性、可解释性和有效性上具有明显的优势。关键词：观点挖掘；ＯＣＣ情感模型；情感维度；情感类型；情感词典；认知心理学；情感挖掘；共现中图分类号：ＴＰ３９１文献标志码：Ａ文章编号：１６７３－４７８５（２０１７）０５－０６４５－０８中文引用格式：皇甫璐雯，毛文吉．一种基于ＯＣＣ模型的文本情感挖掘方法［Ｊ］．智能系统学报，２０１７，１２（５）：６４５－６５２．英文引用格式：ＨＵＡＮＧＦＵＬｕｗｅｎ，ＭＡＯＷｅｎｊｉ．ＯＣＣ⁃ｍｏｄｅｌ⁃ｂａｓｅｄｔｅｘｔ⁃ｅｍｏｔｉｏｎｍｉｎｉｎｇｍｅｔｈｏｄ［Ｊ］．ＣＡＡＩｔｒａｎｓａｃｔｉｏｎｓｏｎｉｎｔｅｌｌｉｇｅｎｔｓｙｓｔｅｍｓ，２０１７，１２（５）：６４５－６５２．ＯＣＣ⁃ｍｏｄｅｌ⁃ｂａｓｅｄｔｅｘｔ⁃ｅｍｏｔｉｏｎｍｉｎｉｎｇｍｅｔｈｏｄＨＵＡＮＧＦＵＬｕｗｅｎ，ＭＡＯＷｅｎｊｉ（ＳｔａｔｅＫｅｙＬａｂｏｒａｔｏｒｙｏｆＭａｎａｇｅｍｅｎｔａｎｄＣｏｎｔｒｏｌｆｏｒＣｏｍｐｌｅｘＳｙｓｔｅｍｓ，ＩｎｓｔｉｔｕｔｅｏｆＡｕｔｏｍａｔｉｏｎ，ＣｈｉｎｅｓｅＡｃａｄｅｍｙｏｆＳｃｉｅｎｃｅ，Ｂｅｉｊｉｎｇ１００１９０，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：Ｏｐｉｎｉｏｎｍｉｎｉｎｇ，ａｌｓｏｃａｌｌｅｄｓｅｎｔｉｍｅｎｔａｎａｌｙｓｉｓ，ａｓｏｎｅｏｆｔｈｅｃｏｒｅｒｅｓｅａｒｃｈａｒｅａｓｉｎｔｈｅｎｅｔｗｏｒｋ⁃ｏｒｉｅｎｔｅｄｓｏｃｉａｌｍｅｄｉａａｎａｌｙｓｉｓａｎｄｍｉｎｉｎｇｄｏｍａｉｎ，ｈａｓｉｍｐｏｒｔａｎｔｐｒａｃｔｉｃａｌａｎｄｒｅｓｅａｒｃｈｓｉｇｎｉｆｉｃａｎｃｅ．Ｄｕｅｔｏｔｈｅｗｅａｋｎｅｓｓｅｓａｎｄｌｉｍｉｔａｔｉｏｎｓｏｆｔｒａｄｉｔｉｏｎａｌｏｐｉｎｉｏｎｍｉｎｉｎｇｍｅｔｈｏｄｓ，ｉｎｔｈｉｓｓｔｕｄｙ，ｗｅｄｅｓｉｇｎｅａｎｄｉｍｐｌｅｍｅｎｔｅａｎＯＣＣｅｍｏｔｉｏｎｍｏｄｅｌ⁃ｂａｓｅｄｏｐｉｎｉｏｎｍｉｎｉｎｇｍｅｔｈｏｄｆｏｒｅｘｔｒａｃｔｉｎｇｅｍｏｔｉｏｎｔｙｐｅｓｆｒｏｍｔｅｘｔ．Ｆｉｒｓｔ，ｗｅａｄｏｐｔｅａｓｔａｔｉｓｔｉｃａｌｍｅｔｈｏｄｔｏｃｏｎｓｔｒｕｃｔａｎｅｍｏｔｉｏｎｄｉｃｔｉｏｎａｒｙ，ｂａｓｅｄｏｎｃａｎｄｉｄａｔｅｓｅｔｓｃｏｌｌｅｃｔｅｄｂｙｔｈｅＷｏｒｄＮｅｔｄｉｃｔｉｏｎａｒｙ，ａｓｗｅｌｌａｓｓｅｖｅｒａｌｓｙｎｔａｃｔｉｃｄｅｐｅｎｄｅｎｔｒｅｌａｔｉｏｎｓｈｉｐｓａｎｄａｓｍａｌｌａｍｏｕｎｔｏｆａｎｎｏｔａｔｅｄｄａｔａ．Ｎｅｘｔ，ｗｅｒｅｆｉｎｅｔｈｅｃｏｎｓｔｒｕｃｔｅｄｅｍｏｔｉｏｎ⁃ ｄｉｍｅｎｓｉｏｎｄｉｃｔｉｏｎａｒｙｔｏｉｍｐｒｏｖｅｉｔｓｑｕａｌｉｔｙｂｙｆｉｌｔｅｒｉｎｇｏｕｔｎｏｎ⁃ｅｍｏｔｉｏｎａｌｗｏｒｄｓａｓｗｅｌｌａｓｅｍｏｔｉｏｎａｌｗｏｒｄｓｔｈａｔｈａｖｅｃｏｎｆｌｉｃｔｉｎｇｓｙｎｔａｃｔｉｃｏｒｏｒｉｅｎｔａｔｉｏｎ．Ｌａｓｔｌｙ，ｗｅｇｅｎｅｒａｔｅｓｉｘｍａｉｎｅｍｏｔｉｏｎｔｙｐｅｓｂａｓｅｄｏｎｔｈｅｏｂｔａｉｎｅｄｅｍｏｔｉｏｎ－ｄｉｍｅｎｓｉｏｎｄｉｃｔｉｏｎａｒｙｃｏｍｂｉｎｅｄｗｉｔｈｔｈｅｃｏｒｒｅｓｐｏｎｄｉｎｇｒｅｌａｔｉｏｎｓｂｅｔｗｅｅｎｅｍｏｔｉｏｎａｌｄｉｍｅｎｓｉｏｎｓａｎｄｔｈｅｄｉｆｆｅｒｅｎｔｅｍｏｔｉｏｎｔｙｐｅｓｉｄｅｎｔｉｆｉｅｄｂｙｔｈｅＯＣＣｍｏｄｅｌ．Ｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｓｈｏｗｔｈａｔｔｈｅｐｒｏｐｏｓｅｄｍｅｔｈｏｄｈａｓｏｂｖｉｏｕｓａｄｖａｎｔａｇｅｓｗｉｔｈｒｅｓｐｅｃｔｔｏｆｌｅｘｉｂｉｌｉｔｙｏｆｕｓａｇｅ，ｉｎｔｅｒｐｒｅｔａｂｉｌｉｔｙ，ａｎｄｅｆｆｅｃｔｉｖｅｎｅｓｓ．Ｋｅｙｗｏｒｄｓ：ｏｐｉｎｉｏｎｍｉｎｉｎｇ；ＯＣＣｅｍｏｔｉｏｎｍｏｄｅｌ；ｅｍｏｔｉｏｎａｌｄｉｍｅｎｓｉｏｎ；ｅｍｏｔｉｏｎｔｙｐｅｓ；ｅｍｏｔｉｏｎｄｉｃｔｉｏｎａｒｙ；ｃｏｇｎｉｔｉｖｅｐｓｙｃｈｏｌｏｇｙ；ｅｍｏｔｉｏｎｍｉｎｉｎｇ；ｃｏ⁃ｏｃｃｕｒｒｅｎｃｅ收稿日期：２０１３－１２－１７．网络出版日期：２０１７－１０－２１．基金项目：国家自然科学基金项目（６１１７５０４０，７１０２５００１）．通信作者：毛文吉．Ｅ⁃ｍａｉｌ：ｗｅｎｊｉ．ｍａｏ＠ｉａ．ａｃ．ｃｎ．近年来，社会媒体迅猛发展并快速渗透到了社会、经济、政治、文化等各方面，互联网用户产生的内容中包含大量关于用户意见、态度、情绪等有价值的信息，而且其数量随时间累积呈指数级增长。这些信息主要是用户的主观性观点，与客观的事实有很大的不同。这些包含用户观点的海量数据蕴含着巨大的实际应用价值，亟需自动化的计算分析与处理技术，这种现象促进了观点挖掘与情感分析这一新兴研究领域的蓬勃发展。目前，观点挖掘

·646 智能系统学报第12卷 (或情感分析)【]已成为社会媒体分析挖掘领域的 OCC情感模型的观点挖掘方法。一个核心研究课题，其研究成果已应用于用户观点 1 情感的认知结构模型OCC 发现、产品评论分析及社会舆情监控等领域，并在推动社会和谐发展、改善人们生活方面发挥重要认知评估理论[02]是认知心理学研究中最为作用)。成熟和影响最广的情感理论。认知评估理论认为互联网中的文本数据大致可以分为两类：一类评估过程是个体评价其与所处环境间的关系，包括用来陈述客观性的事实，另一类用来表达主观性的目前的条件、导致当前状态的事件和对未来的预观，点。相对于客观性的事实数据，主观性的观点数期。评估理论认为评估本身尽管不是一个慎思的据由于其内在的复杂性，在研究方法和技术上与前过程，但其确实由认知的过程提供信息，尤其是那者区别较大。目前观点挖掘分为两类工作：识别观些参与理解和与环境交互的过程。评估将这些异点的正负极性和文本中的情感类型。文本中的情类过程的特征映射到一个共同的中介术语集（即维感类型比正负极性包含更为丰富的信息，因而挖掘度变量)。这些维度变量作为个体与环境之间关系文本中的情感类型更具有挑战性，但往往需要大量的中介描述，在刺激源和反应之间进行协调。维度的手工标注数据，并且所获得的情感类型常常缺乏变量刻画了对个体而言事件的重要特征。可解释性。认知评估理论中的不同情感模型采用了不同挖掘观点正负极性的方法主要有文档级观点的情感维度变量，但它们所使用的情感维度变量间挖掘)、语句级观点挖掘s-】、基于情感对象特征有很大的相似性，其中文献[23]工作中的分类最的观点挖掘o等。Turney!提出了一种利用非监全，包括相关性(relevance)、合意性(desirability)、行督学习方法计算词之间的互信息(PM)来判断整个动性(actionability)、责备/褒奖(praise/blame- 文档的正负极性。Pang等[)提出采用多种机器学 worthiness)、可能性(likelihood)、意外性习方法分类每篇电影评论的正负极性。Wiebe等[] (unexpectedness)、自我投入(ego-involvement)、可通过大量数据集学习线索和特征，区分主观观点和控性(controllability)、权力(power)、适应性客观事实，并在语句级判断观点的正负极性。Zhang (adaptability)。等)提出利用词之间的依赖关系分析中文语句的不同的情感维度变量及其取值产生不同的情正负倾向性。H山等[)利用频繁挖掘算法获得情感感类型。比如，在一个具体的经济环境下，“赔钱” 对象特征，再利用语义词典确定情感词的正负极是个不合人意的事件，并导致负性情感评估。在此性，从而输出针对每个情感对象特征的相关正负情形下，其他变量的不同取值可引发不同的情感评评论。估。诸如，如果可能性是不确定的，引发“恐惧” 挖掘文本中情感类型的方法主要包括基于统 (fear)情感，否则引发“悲伤”(distress)情感。自我计的方法[)、机器学习方法[13-6]、基于情感结构/ 的行动带来应受到责备的行为后果引发“羞耻” 模型的方法[16-]等。基于机器学习的情感类型挖 (shame),如果事件是不合己意的，则带来“悔恨” 掘工作主要采用分类学习算法[13-14,6,18- (remorse)。如果不合己意的事件带来的后果是他 Mostafa[7J提出了一种基于情感模型的方法，该方法人应受到责备的行为引发的，则导致“生气” 利用大量的手工标注数据，并基于主要的情感变量 (anger)情感。计算语句中几乎所有词的情感变量值，进而计算得 OCC情感模型[2]是认知心理学中经典的情感到整个语句的情感类型。但是，这种方法不但需要认知结构模型，也是在计算领域近年来采用最多的大量人力，费时费力，而且不加区分地计算句子中心理学情感模型，在情感的计算建模中有着非常广出现的词，导致该方法的效率和性能较低。泛的应用。综上，观点倾向性的传统挖掘方法主要关注观 OCC情感模型的整个层次结构主要包括3个点的正负极性而忽略了其丰富的情感类型：已有的部分：与事件结果相关的情感，与智能体行为相关情感类型挖掘尽管能够输出丰富的情感类型，但是的情感和与对象属性相关的情感。这3个部分也可需要大量的标注数据支持。此外，以往工作几乎都以结合起来组合成更为复杂的情感类型。该模型未考虑情感认知理论模型在观点挖掘和情感分析共描述了22种不同情感类型的认知结构。OCC模中的重要作用。因此，为了更好地实现从网上文本型中每个情感类型的出现都由一定的条件触发，这数据中挖掘出丰富的情感类型，文中提出一种基于些条件通过不同的情感维度值表达。其中，“合意

（或情感分析）［１－２］已成为社会媒体分析挖掘领域的一个核心研究课题，其研究成果已应用于用户观点发现、产品评论分析及社会舆情监控等领域，并在推动社会和谐发展、改善人们生活方面发挥重要作用［３］。互联网中的文本数据大致可以分为两类：一类用来陈述客观性的事实，另一类用来表达主观性的观点。相对于客观性的事实数据，主观性的观点数据由于其内在的复杂性，在研究方法和技术上与前者区别较大。目前观点挖掘分为两类工作：识别观点的正负极性和文本中的情感类型。文本中的情感类型比正负极性包含更为丰富的信息，因而挖掘文本中的情感类型更具有挑战性，但往往需要大量的手工标注数据，并且所获得的情感类型常常缺乏可解释性。挖掘观点正负极性的方法主要有文档级观点挖掘［３－４］、语句级观点挖掘［５－８］、基于情感对象特征的观点挖掘［９－１０］等。Ｔｕｒｎｅｙ［４］提出了一种利用非监督学习方法计算词之间的互信息（ＰＭＩ）来判断整个文档的正负极性。Ｐａｎｇ等［３］提出采用多种机器学习方法分类每篇电影评论的正负极性。Ｗｉｅｂｅ等［８］通过大量数据集学习线索和特征，区分主观观点和客观事实，并在语句级判断观点的正负极性。Ｚｈａｎｇ等［１１］提出利用词之间的依赖关系分析中文语句的正负倾向性。Ｈｕ等［９］利用频繁挖掘算法获得情感对象特征，再利用语义词典确定情感词的正负极性，从而输出针对每个情感对象特征的相关正负评论。挖掘文本中情感类型的方法主要包括基于统计的方法［１２］、机器学习方法［１３－１６］、基于情感结构／模型的方法［１６－１７］等。基于机器学习的情感类型挖掘工作主要采用分类学习算法［１３－１４，１６，１８－１９］。Ｍｏｓｔａｆａ［１７］提出了一种基于情感模型的方法，该方法利用大量的手工标注数据，并基于主要的情感变量计算语句中几乎所有词的情感变量值，进而计算得到整个语句的情感类型。但是，这种方法不但需要大量人力，费时费力，而且不加区分地计算句子中出现的词，导致该方法的效率和性能较低。综上，观点倾向性的传统挖掘方法主要关注观点的正负极性而忽略了其丰富的情感类型；已有的情感类型挖掘尽管能够输出丰富的情感类型，但是需要大量的标注数据支持。此外，以往工作几乎都未考虑情感认知理论模型在观点挖掘和情感分析中的重要作用。因此，为了更好地实现从网上文本数据中挖掘出丰富的情感类型，文中提出一种基于ＯＣＣ情感模型的观点挖掘方法。１情感的认知结构模型ＯＣＣ认知评估理论［２０－２３］是认知心理学研究中最为成熟和影响最广的情感理论。认知评估理论认为评估过程是个体评价其与所处环境间的关系，包括目前的条件、导致当前状态的事件和对未来的预期。评估理论认为评估本身尽管不是一个慎思的过程，但其确实由认知的过程提供信息，尤其是那些参与理解和与环境交互的过程。评估将这些异类过程的特征映射到一个共同的中介术语集（即维度变量）。这些维度变量作为个体与环境之间关系的中介描述，在刺激源和反应之间进行协调。维度变量刻画了对个体而言事件的重要特征。认知评估理论中的不同情感模型采用了不同的情感维度变量，但它们所使用的情感维度变量间有很大的相似性，其中文献［２３］工作中的分类最全，包括相关性（ｒｅｌｅｖａｎｃｅ）、合意性（ｄｅｓｉｒａｂｉｌｉｔｙ）、行动性（ａｃｔｉｏｎａｂｉｌｉｔｙ）、责备／褒奖（ｐｒａｉｓｅ／ｂｌａｍｅ⁃ ｗｏｒｔｈｉｎｅｓｓ）、可能性（ｌｉｋｅｌｉｈｏｏｄ）、意外性（ｕｎｅｘｐｅｃｔｅｄｎｅｓｓ）、自我投入（ｅｇｏ－ｉｎｖｏｌｖｅｍｅｎｔ）、可控性（ｃｏｎｔｒｏｌｌａｂｉｌｉｔｙ）、权力（ｐｏｗｅｒ）、适应性（ａｄａｐｔａｂｉｌｉｔｙ）。不同的情感维度变量及其取值产生不同的情感类型。比如，在一个具体的经济环境下，“赔钱” 是个不合人意的事件，并导致负性情感评估。在此情形下，其他变量的不同取值可引发不同的情感评估。诸如，如果可能性是不确定的，引发 “ 恐惧” （ｆｅａｒ）情感，否则引发“悲伤” （ｄｉｓｔｒｅｓｓ）情感。自我的行动带来应受到责备的行为后果引发“ 羞耻” （ｓｈａｍｅ），如果事件是不合己意的，则带来“悔恨” （ｒｅｍｏｒｓｅ）。如果不合己意的事件带来的后果是他人应受到责备的行为引发的，则导致 “ 生气” （ａｎｇｅｒ）情感。ＯＣＣ情感模型［２１］是认知心理学中经典的情感认知结构模型，也是在计算领域近年来采用最多的心理学情感模型，在情感的计算建模中有着非常广泛的应用。ＯＣＣ情感模型的整个层次结构主要包括３个部分：与事件结果相关的情感，与智能体行为相关的情感和与对象属性相关的情感。这３个部分也可以结合起来组合成更为复杂的情感类型。该模型共描述了２２种不同情感类型的认知结构。ＯＣＣ模型中每个情感类型的出现都由一定的条件触发，这些条件通过不同的情感维度值表达。其中，“合意 ·６４６· 智能系统学报第１２卷

第5期皇甫璐雯，等：一种基于OCC模型的文本情感挖掘方法 .647. 性(desirability)”“褒贬性（praise-/blame- 的情感类型挖掘问题可以分解成两个子问题：1)自 worthiness)”和“可能性(likelihood)”是该模型中3 动构建高质量的情感维度词典，即建立包括具体的个最为重要的情感维度变量。“合意性”与主体的词和抽象的情感维度值之间的映射关系：2)基于目标相关联，“褒贬性”与行为是否符合社会道德标 OCC模型，以规则的形式建立情感维度值与情感类准相关联，而“可能性”则表示对事件发生的期望。型间的对应关系。构建情感维度词典则是建立文在情感认知结构理论中，每个情感维度变量有本情感类型识别系统的关键。情感维度词典涵盖不同的取值。“合意性(desirability)”维度的取值包了比通常仅包含正负极性的情感词库更丰富的信括“合意的(desirable)”和“不合意的息，所以在构建情感维度词典时，综合考虑了依存 (undesirable)”。当某些事件的发生有利于最终目句法关系、语义关系和统计信息。由于构建后的情标的实现时，这种情况对于主体而言是合意的；反感维度词典存在语义、情感倾向的不一致性等问之则是不合意的。类似地，“褒贬性(praise-./blame- 题，因此还需要对情感维度词典进一步求精，过滤 worthiness)”维度的取值有“值得称赞的掉低质量的候选词。 (praiseworthy)”和“应受责备的(blameworthy)”。图1是基于OCC情感模型的观点挖掘方法的 “可能性(likelihood)”维度有“可能的(likely)”和数据流图，主要由情感维度词典的构建、求精和情 “确定的(certain)”这两个取值。情感维度变量的感类型的生成3个模块组成。该方法基于海量开源不同取值及其组合可以生成不同的情感类型。例文本输入，以句子为单位输出情感类型及其关联的如，如果“合意的”事件的可能性是“确定的”，引发情感对象。其中，情感维度词典的构建模块利用通 “高兴(joy)”情感；否则引发“希望(hope)”。如果用语义词典和句法依存关系建立关于各情感维度个体“值得表扬的(praiseworthy)”行为带来合乎自值的词典，情感维度词典的求精模块包括语义、正己心意的行为后果，则导致“骄傲(pide)”情感的产负情感倾向的不一致性处理和非情感词的过滤。生。表1给出了3个情感维度变量与情感类型之间针对前2个模块，文中还提出了融合Bootstrapping 的对应关系。的构建与求精同步的改进算法。情感类型的生成表13个情感维度变量及其对应的情感类型模块基于前2个模块得到情感维度词典，利用经典 Table 1 Three emotional dimension variables and their 的OCC情感模型，获得情感类型。最后，得到情感 corresponding emotion types 类型与情感对象相结合的输出结果，以满足用户合意性褒贬性可能性情感类型需求。合意的确定的高兴不合意的确定的悲伤 ·情感对象识别合意的可能的希望不合意的可能的恐惧句法 WordNet OCC情感情感合意的值得称赞的确定的骄傲词典模型规则不合意的应受责备的确定的羞耻表1左边3列是情感维度取值列表，右边一列输出物建维生成情感是在特定的情感维度取值下所产生的情感类型。情感技1可具现类型情感维对象本文的研究思路基于经典的OCC情感模型，选取其高兴·悲求精世可曲型最主要的3个情感维度，以挖掘文中包含的这3类子词度词典 DUPBL 骄傲·羞维度变量的情感。词为重点，通过建立相应的情感维度词典，自图1 基于OCC模型的本文情感挖掘方法动推演出6种主要的情感类型：高兴(jy)、悲伤 Fig.1 OCC model-based emotion mining method from texts (distress)、希望(hope)、恐惧(fear)、骄傲(pride)和 2.1情感维度词典的构建与求精羞耻(shame)。情感维度词典是基于WordNet词典和句法依存关系，采用统计的方法自动构建的。WordNet词典 2基于OCC模型的情感挖掘方法可以提供词的语义解释和词之间的关系，有同义结合前面介绍的OCC情感认知结构模型，建立词、反义词、还原词、派生词等。句法依存关系是自动识别文本中情感类型的方法。基于OCC模型指，通过句法分析树中得到的词之间存在的联系

性（ｄｅｓｉｒａｂｉｌｉｔｙ）” “ 褒贬性（ｐｒａｉｓｅ⁃／ｂｌａｍｅ⁃ ｗｏｒｔｈｉｎｅｓｓ）”和“可能性（ｌｉｋｅｌｉｈｏｏｄ）” 是该模型中３个最为重要的情感维度变量。 “合意性” 与主体的目标相关联，“褒贬性”与行为是否符合社会道德标准相关联，而“可能性”则表示对事件发生的期望。在情感认知结构理论中，每个情感维度变量有不同的取值。 “合意性（ｄｅｓｉｒａｂｉｌｉｔｙ）”维度的取值包括 “ 合意的（ｄｅｓｉｒａｂｌｅ）” 和 “ 不合意的（ｕｎｄｅｓｉｒａｂｌｅ）”。当某些事件的发生有利于最终目标的实现时，这种情况对于主体而言是合意的；反之则是不合意的。类似地，“褒贬性（ｐｒａｉｓｅ⁃／ｂｌａｍｅ⁃ ｗｏｒｔｈｉｎｅｓｓ）” 维度的取值有 “ 值得称赞的（ｐｒａｉｓｅｗｏｒｔｈｙ）” 和 “ 应受责备的（ｂｌａｍｅｗｏｒｔｈｙ）”。 “可能性（ｌｉｋｅｌｉｈｏｏｄ）” 维度有“可能的（ｌｉｋｅｌｙ）” 和 “确定的（ｃｅｒｔａｉｎ）” 这两个取值。情感维度变量的不同取值及其组合可以生成不同的情感类型。例如，如果“合意的”事件的可能性是“确定的”，引发 “高兴（ｊｏｙ）”情感；否则引发“希望（ｈｏｐｅ）”。如果个体“值得表扬的（ｐｒａｉｓｅｗｏｒｔｈｙ）” 行为带来合乎自己心意的行为后果，则导致“骄傲（ｐｒｉｄｅ）”情感的产生。表１给出了３个情感维度变量与情感类型之间的对应关系。表１３个情感维度变量及其对应的情感类型Ｔａｂｌｅ１Ｔｈｒｅｅｅｍｏｔｉｏｎａｌｄｉｍｅｎｓｉｏｎｖａｒｉａｂｌｅｓａｎｄｔｈｅｉｒｃｏｒｒｅｓｐｏｎｄｉｎｇｅｍｏｔｉｏｎｔｙｐｅｓ合意性褒贬性可能性情感类型合意的 — 确定的高兴不合意的 — 确定的悲伤合意的 — 可能的希望不合意的 — 可能的恐惧合意的值得称赞的确定的骄傲不合意的应受责备的确定的羞耻表１左边３列是情感维度取值列表，右边一列是在特定的情感维度取值下所产生的情感类型。本文的研究思路基于经典的ＯＣＣ情感模型，选取其最主要的３个情感维度，以挖掘文中包含的这３类维度变量的情感。词为重点，通过建立相应的情感维度词典，自动推演出６种主要的情感类型：高兴（ｊｏｙ）、悲伤（ｄｉｓｔｒｅｓｓ）、希望（ｈｏｐｅ）、恐惧（ｆｅａｒ）、骄傲（ｐｒｉｄｅ）和羞耻（ｓｈａｍｅ）。２基于ＯＣＣ模型的情感挖掘方法结合前面介绍的ＯＣＣ情感认知结构模型，建立自动识别文本中情感类型的方法。基于ＯＣＣ模型的情感类型挖掘问题可以分解成两个子问题：１）自动构建高质量的情感维度词典，即建立包括具体的词和抽象的情感维度值之间的映射关系；２）基于ＯＣＣ模型，以规则的形式建立情感维度值与情感类型间的对应关系。构建情感维度词典则是建立文本情感类型识别系统的关键。情感维度词典涵盖了比通常仅包含正负极性的情感词库更丰富的信息，所以在构建情感维度词典时，综合考虑了依存句法关系、语义关系和统计信息。由于构建后的情感维度词典存在语义、情感倾向的不一致性等问题，因此还需要对情感维度词典进一步求精，过滤掉低质量的候选词。图１是基于ＯＣＣ情感模型的观点挖掘方法的数据流图，主要由情感维度词典的构建、求精和情感类型的生成３个模块组成。该方法基于海量开源文本输入，以句子为单位输出情感类型及其关联的情感对象。其中，情感维度词典的构建模块利用通用语义词典和句法依存关系建立关于各情感维度值的词典，情感维度词典的求精模块包括语义、正负情感倾向的不一致性处理和非情感词的过滤。针对前２个模块，文中还提出了融合Ｂｏｏｔｓｔｒａｐｐｉｎｇ的构建与求精同步的改进算法。情感类型的生成模块基于前２个模块得到情感维度词典，利用经典的ＯＣＣ情感模型，获得情感类型。最后，得到情感类型与情感对象相结合的输出结果，以满足用户需求。图１基于ＯＣＣ模型的本文情感挖掘方法Ｆｉｇ．１ＯＣＣｍｏｄｅｌ⁃ｂａｓｅｄｅｍｏｔｉｏｎｍｉｎｉｎｇｍｅｔｈｏｄｆｒｏｍｔｅｘｔｓ２．１情感维度词典的构建与求精情感维度词典是基于ＷｏｒｄＮｅｔ词典和句法依存关系，采用统计的方法自动构建的。ＷｏｒｄＮｅｔ词典可以提供词的语义解释和词之间的关系，有同义词、反义词、还原词、派生词等。句法依存关系是指，通过句法分析树中得到的词之间存在的联系，第５期皇甫璐雯，等：一种基于ＯＣＣ模型的文本情感挖掘方法 ·６４７·

648 智能系统学报第12卷可以提示词之间潜在的关系。度词典候选集进行评价与过滤，选取其中评分大于为自动构建情感维度词典，首先手工挑选少量阈值的候选集中的情感词，放入相应的情感维度词高质量的情感维度值种子词（不超过10个）和4个典中：依存关系模板。其中，关于每个情感维度值的种子 ∑c(w,u) DIC∑ c(v,u 词包含词的原型和词性信息。加入词性信息是因 f八v∈DICs)= u壁DIC 为相同的词在词性不同的时候含义大不相同，例 ∑c(, IDICI∑c(u,w) 如：sentence做动词时，意思为“判刑”，维度是 (1) Blameworthy;但是做名词时，意思为“句子”，可以认 4)不断重复步骤2)~3)，直到不再有新的情感为不是情感词。4个依存关系包括conj_and、conj 维度词加入； or、prep_in和parataxis。其含义分别是词之间的并 5)利用WordNet中的派生以及还原关系扩充列and关系、词之间的并列or关系、词之间的介词情感维度词典。 i关系和2个词在分句中所处的并列关系。然而，构建情感维度词典过程中的输入是海量的文仅仅依靠依存关系可能会有一些问题。比如，简单本和关于某个情感维度值的种子词，输出是针对这的并列关系“wonderful and exciting'”中wonderful和个情感维度值建立起来的情感维度词典。这里涉 exciting是同义词关系；而在另一个短语“young and 及3个维度，6个维度值，情感维度值可以是“合意 old”中，young和old有着强烈的反义词关系而不是的”“不合意的”“值得称赞的”“应受责备的”“可同义词关系。由此可见，尽管模板comj_and可以提能的”和“确定的”，分别简写为“D”“U”“P”“B” 示词之间存在语义关系，但是这种语义关系到底是 “L”“C”。其中L、C情感维度词典的构建仅仅依赖致还是恰好相反需要借助词典来进一步判断。 WordNet中词之间的语义关系，并且Likelihood维度因此，基于词典的方法不但用来寻找候选的情感维的默认值为C。度词，而且用来判断候选情感维度词的情感维度值循环初始时挑选的高质量情感维度种子词为的合理性。 1)和2)提供一个良好的基础。1)和2)的目的是分在第一轮循环开始，对于每种情感维度值挑选别基于词典和基于依存关系获得候选的情感维度少量高质量的种子词，作为初始的情感维度词典输词。3)通过计算一个评分函数保证进入情感维度入。情感维度词典包括DIC。(合意的)、DIC,(不词典的词的质量。最后，在情感维度词典中的词基合意的)、DIC。(值得称赞的)、DIC:(应受责备于WordNet中的同义、反义、还原和派生关系进行扩的)。挑选情感维度种子词有多种策略，可以通过充。比如，如果“harm”是在情感维度词典中维度值手工查看数据集凭经验进行挑选或者通过计算词为“blameworthy”的词，扩充它的派生词“harmful”到出现的频率挑选出频率高并且包含情感维度值的情感维度词典中，同时它的情感维度值也为词作为种子词。 “blameworthy”。 2.1.1构建过程评分函数f(v∈DICk)主要是基于共现的思在每一轮循环中，用WordNet和手工挑选的模想，如果待评价的情感词与某一已知情感维度值的板不断地抽取不同维度值下的情感词。在每一轮情感词共同出现的次数越多，则该情感词的维度值循环后，利用一个基于共现思想的评分函数来评估就更有可能成为该情感维度值。在每一轮循环中，抽取的情感维度词。情感维度词典的构建过程评分函数利用WordNet词典和句法依存关系得到候如下。选集，通过设定共现次数的阈值日，过滤掉低质量 1)针对情感维度词典中每个新加入的情感维的候选情感维度词。这里v是当前待评价的候选情度词，基于WordNet词典，找出其同义词和反义词，感词，u是已知情感维度值为k的情感维度词典中并将其同义词和反义词分别放入相应的情感维度的词，k的取值可以是“D”“U”“P”“B”。DICg是词典候选集中。当前生成的维度值为k的情感维度词典，|DIC4|表 2)利用前面提到的4个句法依存关系从输入示情感维度词典元素个数。DIC是当前所有情感维的海量文本中找出与所述相应的情感维度词典中度词典的并集，其元素个数为|DIC。函数c(v,u) 已有的情感维度词具有依存关系的新情感维度词：表示词v和词u在同一语句中共现的次数。评分函放入相应的情感维度词典候选集中。数中词，是否属于某类情感维度词典的计算既考虑 3)利用(1)式所示的评分函数对相应的情感维了)与该类情感维度词共现的次数（作为后验），也

可以提示词之间潜在的关系。为自动构建情感维度词典，首先手工挑选少量高质量的情感维度值种子词（不超过１０个）和４个依存关系模板。其中，关于每个情感维度值的种子词包含词的原型和词性信息。加入词性信息是因为相同的词在词性不同的时候含义大不相同，例如：ｓｅｎｔｅｎｃｅ做动词时，意思为 “ 判刑”，维度是Ｂｌａｍｅｗｏｒｔｈｙ；但是做名词时，意思为“句子”，可以认为不是情感词。４个依存关系包括ｃｏｎｊ＿ａｎｄ、ｃｏｎｊ＿ｏｒ、ｐｒｅｐ＿ｉｎ和ｐａｒａｔａｘｉｓ。其含义分别是词之间的并列ａｎｄ关系、词之间的并列ｏｒ关系、词之间的介词ｉｎ关系和２个词在分句中所处的并列关系。然而，仅仅依靠依存关系可能会有一些问题。比如，简单的并列关系“ｗｏｎｄｅｒｆｕｌａｎｄｅｘｃｉｔｉｎｇ”中ｗｏｎｄｅｒｆｕｌ和ｅｘｃｉｔｉｎｇ是同义词关系；而在另一个短语“ ｙｏｕｎｇａｎｄｏｌｄ”中，ｙｏｕｎｇ和ｏｌｄ有着强烈的反义词关系而不是同义词关系。由此可见，尽管模板ｃｏｎｊ＿ａｎｄ可以提示词之间存在语义关系，但是这种语义关系到底是一致还是恰好相反需要借助词典来进一步判断。因此，基于词典的方法不但用来寻找候选的情感维度词，而且用来判断候选情感维度词的情感维度值的合理性。在第一轮循环开始，对于每种情感维度值挑选少量高质量的种子词，作为初始的情感维度词典输入。情感维度词典包括ＤＩＣＤ（合意的）、ＤＩＣＵ（不合意的）、ＤＩＣＰ（值得称赞的）、ＤＩＣＢ（应受责备的）。挑选情感维度种子词有多种策略，可以通过手工查看数据集凭经验进行挑选或者通过计算词出现的频率挑选出频率高并且包含情感维度值的词作为种子词。２．１．１构建过程在每一轮循环中，用ＷｏｒｄＮｅｔ和手工挑选的模板不断地抽取不同维度值下的情感词。在每一轮循环后，利用一个基于共现思想的评分函数来评估抽取的情感维度词。情感维度词典的构建过程如下。１）针对情感维度词典中每个新加入的情感维度词，基于ＷｏｒｄＮｅｔ词典，找出其同义词和反义词，并将其同义词和反义词分别放入相应的情感维度词典候选集中。２）利用前面提到的４个句法依存关系从输入的海量文本中找出与所述相应的情感维度词典中已有的情感维度词具有依存关系的新情感维度词，放入相应的情感维度词典候选集中。３）利用（１）式所示的评分函数对相应的情感维度词典候选集进行评价与过滤，选取其中评分大于阈值的候选集中的情感词，放入相应的情感维度词典中：ｆ（ｖ ∈ ＤＩＣｋ）＝ ∑ｕ∈ＤＩＣｋｃ（ｖ，ｕ） ∑ｕｃ（ｖ，ｕ）＋ＤＩＣｋ ∑ｕ∉ＤＩＣｃ（ｖ，ｕ）ＤＩＣ ∑ｕｃ（ｖ，ｕ）（１）４）不断重复步骤２）～３），直到不再有新的情感维度词加入；５）利用ＷｏｒｄＮｅｔ中的派生以及还原关系扩充情感维度词典。构建情感维度词典过程中的输入是海量的文本和关于某个情感维度值的种子词，输出是针对这个情感维度值建立起来的情感维度词典。这里涉及３个维度，６个维度值，情感维度值可以是“合意的” “不合意的” “值得称赞的” “应受责备的” “可能的”和“确定的”，分别简写为“Ｄ” “Ｕ” “Ｐ” “Ｂ” “Ｌ” “Ｃ”。其中Ｌ、Ｃ情感维度词典的构建仅仅依赖ＷｏｒｄＮｅｔ中词之间的语义关系，并且Ｌｉｋｅｌｉｈｏｏｄ维度的默认值为Ｃ。循环初始时挑选的高质量情感维度种子词为１）和２）提供一个良好的基础。１）和２）的目的是分别基于词典和基于依存关系获得候选的情感维度词。３）通过计算一个评分函数保证进入情感维度词典的词的质量。最后，在情感维度词典中的词基于ＷｏｒｄＮｅｔ中的同义、反义、还原和派生关系进行扩充。比如，如果“ｈａｒｍ”是在情感维度词典中维度值为“ｂｌａｍｅｗｏｒｔｈｙ”的词，扩充它的派生词“ｈａｒｍｆｕｌ”到情感维度词典中，同时它的情感维度值也为 “ｂｌａｍｅｗｏｒｔｈｙ”。评分函数ｆ（ｖ ∈ ＤＩＣｋ）主要是基于共现的思想，如果待评价的情感词与某一已知情感维度值的情感词共同出现的次数越多，则该情感词的维度值就更有可能成为该情感维度值。在每一轮循环中，评分函数利用ＷｏｒｄＮｅｔ词典和句法依存关系得到候选集，通过设定共现次数的阈值 θ１，过滤掉低质量的候选情感维度词。这里ｖ是当前待评价的候选情感词，ｕ是已知情感维度值为ｋ的情感维度词典中的词，ｋ的取值可以是“Ｄ” “Ｕ” “Ｐ” “Ｂ”。ＤＩＣｋ是当前生成的维度值为ｋ的情感维度词典，ＤＩＣｋ表示情感维度词典元素个数。ＤＩＣ是当前所有情感维度词典的并集，其元素个数为ＤＩＣ。函数ｃ（ｖ，ｕ）表示词ｖ和词ｕ在同一语句中共现的次数。评分函数中词ｖ是否属于某类情感维度词典的计算既考虑了ｖ与该类情感维度词共现的次数（作为后验），也 ·６４８· 智能系统学报第１２卷

第5期皇甫璐雯，等：一种基于OCC模型的文本情感挖掘方法 .649. 考虑到该类情感维度词典在当前所有情感维度词 score=a·scorepolariyl+(1-a)·scorep2(3）典中所占的词的比例（作为先验）。 (0≤a≤1) 2.1.2求精过程式中score1和Score2虽然基于相同的(2) 构建完成后的情感维度词典往往存在不一致式，但是分别利用了上面提到的不同的极性词典计性或者噪声，包括语义不一致性、情感倾向不一致算而得的。通过设定score的阈值，以避免加入质量性，以及非情感词等。因此利用情感维度词的同义过低的词。词集合和反义词集合检查情感维度词的正负倾向， 2.2情感类型的生成从而过滤掉质量低的情感维度词，完成情感维度词完成构建和求精情感维度词典后，便可以利用典的求精过程 OCC情感模型生成情感类型。情感类型的生成基语义不一致性是指同一个词在同一情感维度于情感认知结构模型，根据该模型中每种情感类型上具有相互矛盾的取值，比如在“褒贬性”维度上同与情感维度及其取值的对应关系，自动生成6种主时具有“P”和“B”这两个维度值或者在“合意性”维要的情感类型。具体地说，“合意性”维度值为“合度上同时具有“D”和“U”这两个维度值：情感倾向意的”并且“可能性”维度值为“确定的”时对应的情不一致性是指一个词同时具有正负情感倾向相互感类型为“高兴”；“合意性”维度值为“不合意的” 冲突的情感维度值。情感词的极性可以是正向或且“可能性”维度值为“确定的”对应的情感类型为负向。根据含义可知，“P”和“D”表示对情感对象 “悲伤”：“合意性”维度值为“合意的”且“可能性” 的正面态度或评价，故极性为正；“B”和“U”表示对维度值为“可能的”对应的情感类型为“希望”：“合情感对象的负面态度或评价，故极性为负。若检测意性”维度值为“不合意的”且“可能性”维度值为到语义或情感倾向不一致的词，对该情感词的求精 “可能的”对应的情感类型为“恐惧”：“合意性”维方法根据通用语义词典中的同义和反义关系共同度值为“合意的”，“褒贬性”维度值为“值得称赞确定其情感倾向。当前待求精的情感维度词的计的”且“可能性”维度值为“确定的”对应的情感类型算公式如式(2)：为“骄傲”：“合意性”维度值为“不合意的”，“褒贬 score =st-nso nAm-nAnt- 性”维度值为“应受责备的”且“可能性”维度值为 (2) 2·nsym 2·nAm “确定的”对应的情感类型为“羞耻”。工作实现的式中：ns、nu分别是当前待求精的情感词的同义 6种情感类型生成规则如下。词和反义词的总数，n+、nsm-分别是该词的极性规则1如果“合意性”维度值=“合意的”并且为正和为负的同义词个数，nsnn-分别是该词 “可能性”维度值=“确定的”对应的情感类型=“高的极性为正和为负的反义词个数。同时，为了保证兴”。同义词和反义词集合的均衡性，将其归一化后相规则2如果“合意性”维度值=“不合意的” 加。如果计算得到的score值小于某一阈值02，则并且“可能性”维度值=“确定的”对应的情感类型= 过滤掉该情感词。由于以往相关工作中已建立了 “悲伤”。多个关于情感词的正负极性词典，这里nsyn Ant的规则3如果“合意性”维度值=“不合意”并且正负极性可通过参照这些情感极性词典来确定。 “可能性”维度值=“可能的”对应的情感类型=“希非情感词包括无实际意义的词，如具体数字、望”。代词等，也包括中性的名词和动词。过滤的方法包规则4如果“合意性”维度值=“不合意的” 括直接列出这些明显的不应该加入的词加以过滤，并且“可能性”维度值=“可能的”对应的情感类型= 或者计算情感倾向，将某一阈值范围内的词别除。 “恐惧”。除了以本身建造的情感维度词典作为极性词规则5如果“合意性”维度值=“合意的”并且典，还采用一个公开的极性词表。选择这两个极 “褒贬性”维度值=“值得称赞的”对应的情感类性词典的原因是它们的优势可以互补。构建的情型=“骄傲”。感维度词典能够覆盖到较大集合的情感维度词，词规则6如果“合意性”维度值=“不合意的”并性词表尽管质量高，但是包含词的数量非常有限，且“褒贬性”维度值=“应受责备的”对应的情感类并且只有词的极性信息。所以，两者结合后彼此扬型=“羞耻”。长避短。同时可以通过(3)式进一步提高词的根据前述的情感类型的生成过程，下面给出一质量。个具体示例

考虑到该类情感维度词典在当前所有情感维度词典中所占的词的比例（作为先验）。２．１．２求精过程构建完成后的情感维度词典往往存在不一致性或者噪声，包括语义不一致性、情感倾向不一致性，以及非情感词等。因此利用情感维度词的同义词集合和反义词集合检查情感维度词的正负倾向，从而过滤掉质量低的情感维度词，完成情感维度词典的求精过程。语义不一致性是指同一个词在同一情感维度上具有相互矛盾的取值，比如在“褒贬性”维度上同时具有“Ｐ”和“Ｂ”这两个维度值或者在“合意性”维度上同时具有“Ｄ”和“Ｕ”这两个维度值；情感倾向不一致性是指一个词同时具有正负情感倾向相互冲突的情感维度值。情感词的极性可以是正向或负向。根据含义可知，“Ｐ”和“Ｄ”表示对情感对象的正面态度或评价，故极性为正；“Ｂ”和“Ｕ”表示对情感对象的负面态度或评价，故极性为负。若检测到语义或情感倾向不一致的词，对该情感词的求精方法根据通用语义词典中的同义和反义关系共同确定其情感倾向。当前待求精的情感维度词的计算公式如式（２）：ｓｃｏｒｅ＝ｎＳｙｎ＋－ｎＳｙｎ－２·ｎＳｙｎ－ｎＡｎｔ＋－ｎＡｎｔ－２·ｎＡｎｔ（２）式中：ｎＳｙｎ、ｎＡｎｔ分别是当前待求精的情感词的同义词和反义词的总数，ｎＳｙｎ＋、ｎＳｙｎ－分别是该词的极性为正和为负的同义词个数，ｎＳｙｎ－、ｎＡｎｔ－分别是该词的极性为正和为负的反义词个数。同时，为了保证同义词和反义词集合的均衡性，将其归一化后相加。如果计算得到的ｓｃｏｒｅ值小于某一阈值 θ２，则过滤掉该情感词。由于以往相关工作中已建立了多个关于情感词的正负极性词典，这里ｎＳｙｎ、ｎＡｎｔ的正负极性可通过参照这些情感极性词典来确定。非情感词包括无实际意义的词，如具体数字、代词等，也包括中性的名词和动词。过滤的方法包括直接列出这些明显的不应该加入的词加以过滤，或者计算情感倾向，将某一阈值范围内的词剔除。除了以本身建造的情感维度词典作为极性词典，还采用一个公开的极性词表［９］。选择这两个极性词典的原因是它们的优势可以互补。构建的情感维度词典能够覆盖到较大集合的情感维度词，词性词表尽管质量高，但是包含词的数量非常有限，并且只有词的极性信息。所以，两者结合后彼此扬长避短。同时可以通过（３）式进一步提高词的质量。ｓｃｏｒｅ＝ α·ｓｃｏｒｅｐｏｌａｒｉｔｙ１＋（１－ α）·ｓｃｏｒｅｐｏｌａｒｉｔｙ２（３）（０ ≤ α ≤ １）式中ｓｃｏｒｅｐｏｌａｒｉｔｙ１和ｓｃｏｒｅｐｏｌａｒｉｔｙ２虽然基于相同的（２）式，但是分别利用了上面提到的不同的极性词典计算而得的。通过设定ｓｃｏｒｅ的阈值，以避免加入质量过低的词。２．２情感类型的生成完成构建和求精情感维度词典后，便可以利用ＯＣＣ情感模型生成情感类型。情感类型的生成基于情感认知结构模型，根据该模型中每种情感类型与情感维度及其取值的对应关系，自动生成６种主要的情感类型。具体地说，“合意性” 维度值为“合意的”并且“可能性”维度值为“确定的”时对应的情感类型为“高兴”；“合意性” 维度值为“不合意的” 且“可能性”维度值为“确定的”对应的情感类型为 “悲伤”；“合意性”维度值为“合意的”且“可能性” 维度值为“可能的”对应的情感类型为“希望”；“合意性”维度值为“不合意的” 且“可能性” 维度值为 “可能的”对应的情感类型为“恐惧”；“合意性” 维度值为“合意的”，“褒贬性” 维度值为 “值得称赞的”且“可能性”维度值为“确定的”对应的情感类型为“骄傲”；“合意性”维度值为“不合意的”， “褒贬性”维度值为“应受责备的” 且“可能性”维度值为 “确定的”对应的情感类型为“羞耻”。工作实现的６种情感类型生成规则如下。规则１如果“合意性”维度值＝ “合意的”并且 “可能性”维度值＝ “确定的”对应的情感类型＝ “高兴”。规则２如果“合意性” 维度值＝ “不合意的” 并且“可能性”维度值＝ “确定的”对应的情感类型＝ “悲伤”。规则３如果“合意性”维度值＝ “不合意”并且 “可能性”维度值＝ “可能的” 对应的情感类型＝ “希望”。规则４如果 “合意性”维度值＝ “不合意的” 并且“可能性”维度值＝ “可能的”对应的情感类型＝ “恐惧”。规则５如果“合意性”维度值＝ “合意的”并且 “褒贬性” 维度值＝ “值得称赞的” 对应的情感类型＝ “骄傲”。规则６如果“合意性”维度值＝ “不合意的”并且“褒贬性”维度值＝ “应受责备的” 对应的情感类型＝ “羞耻”。根据前述的情感类型的生成过程，下面给出一个具体示例。第５期皇甫璐雯，等：一种基于ＯＣＣ模型的文本情感挖掘方法 ·６４９·

650 智能系统学报第12卷图2是对句子“US's providing aid is a step in 表2情感维度种子词 the right direction.”的情感类型挖掘过程。查看情感 Table 2 Emotional dimension seed words 维度词典，可得到这句话中包含2个情感维度词，分 0 P L 别是“is”和“right'”。其中，“is”的情感维度“可能 800d problem aid abuse likely 性”取值为“确定的”，“ght”的情感维度“合意性” (J) (NN) (NN) (NN) (J) 取值为“合意的”，情感维度“褒贬性”的取值为“值 great bad respect abuse possible 得称赞的”。再根据情感类型生成规则1和规则5 (J) (J) (NN) (VB) (JJ) 得到两种情感，分别为“Joy(高兴)”和“Pide(骄 love hard worth fault hopeful 傲)”。 (VB) (J) (J) (NN) (J lazy proud waste promising US's providing aid is a step in the right direction. true(JJ)】 (J) (J) (NN) (JJ) healthy sad honest unfair anticipate (J) (J) (J) (J) (VB) 可能性确定的褒贬性= “值得称赞的” liberal terrible merit hate predict (J) (JΠ) (NN) (VB) (VB) easy stupid legal lie surmise (J) (J) (J) (NN) (VB) 高兴骄做 success difficult reputation cheating tend (NN) (JJ) (NN) (NN) (VB) 图2情感类型生成示例图 Fig.2 Generation of emotion types example amazing negative significant crime aspire (JJ (J (J (NN) (VB) 由此可见，通过求精后的情感维度词典和OCC interesting trouble reasonable plagiaryze potential 模型，最后生成多种情感类型是切实可行的。与这 (J) (NN) (JJ) (VB) (JI) 些情感类型相关联的情感对象则通过由文献[9]提基于情感维度种子词，利用WordNet词典和句出的频繁情感对象识别算法进行挖掘。下面是一法依存关系得到情感维度词的候选集合，并基于共些输出结果的示例：现思想进行过滤，进而获得高质量的情感维度词， North Korea is in a bad situation. 建立相应的情感维度词典。对情感维度词典的求 =>(North Korea Distress); 精过程完成语义、情感倾向的不一致处理和非情感 It was very wise for us to compromise and to 词的过滤。由于维度L主要通过同义词和反义词获 promise food aid. 得，文中仅验证情感维度词典DUPB的性能。词典 =>food aid,Joy,Hope,Pride). DUPB在求精前和求精后所包含词的数目如表3 Consequently,this deal is brilliant. 所示。 =>deal,Joy,Pride). 表3求精前后情感维度词典 2.3实验结果与分析 Table 3 Emotion-dimension dictionaries before and after 为实际验证提出的基于OCC情感模型的挖掘 refinement 方法，文中基于网上新闻评论数据，设计实验方法，阶段 D U P B 对所建立的情感维度词典进行有效性验证。求精前（含重复） 203316219109034108 2.3.1数据获取从纽约时报抓取了2002年1月1日~2012年1 求精后(a=0.3,B=0.65)13071467794895 月1日这10年间的16398个新闻评论数据作为实 2.3.2实验设计验数据，然后利用斯坦福的句法分析器将句子的成为了保证标注数据的客观性，请两个标注者分分都提取出来，并且手工定义高质量的情感维度种别独立标注了237个测试数据。若标注者认为一句子词，覆盖情感维度值包括“D”“U”“P”“B” 话中某个单词包含某种情感维度值，就将其连同维 “L”。全部种子词如表2（括号外为情感维度词，括度值一起标注出来。为了检查两个标注者的一致号内为情感维度词的词性)所示。程度，采用式(4)计算其Kappa值：

图２是对句子“ＵＳ’ ｓｐｒｏｖｉｄｉｎｇａｉｄｉｓａｓｔｅｐｉｎｔｈｅｒｉｇｈｔｄｉｒｅｃｔｉｏｎ．”的情感类型挖掘过程。查看情感维度词典，可得到这句话中包含２个情感维度词，分别是“ ｉｓ” 和“ ｒｉｇｈｔ”。其中，“ ｉｓ” 的情感维度“可能性”取值为“确定的”，“ｒｉｇｈｔ”的情感维度 “合意性” 取值为“合意的”，情感维度“褒贬性”的取值为“值得称赞的”。再根据情感类型生成规则１和规则５得到两种情感，分别为“ Ｊｏｙ（高兴）” 和“ Ｐｒｉｄｅ（骄傲）”。图２情感类型生成示例图Ｆｉｇ．２Ｇｅｎｅｒａｔｉｏｎｏｆｅｍｏｔｉｏｎｔｙｐｅｓｅｘａｍｐｌｅ由此可见，通过求精后的情感维度词典和ＯＣＣ模型，最后生成多种情感类型是切实可行的。与这些情感类型相关联的情感对象则通过由文献［９］提出的频繁情感对象识别算法进行挖掘。下面是一些输出结果的示例：ＮｏｒｔｈＫｏｒｅａｉｓｉｎａｂａｄｓｉｔｕａｔｉｏｎ．＝＞（ＮｏｒｔｈＫｏｒｅａ，｛Ｄｉｓｔｒｅｓｓ｝）；Ｉｔｗａｓｖｅｒｙｗｉｓｅｆｏｒｕｓｔｏｃｏｍｐｒｏｍｉｓｅａｎｄｔｏｐｒｏｍｉｓｅｆｏｏｄａｉｄ．＝＞（ｆｏｏｄａｉｄ，｛Ｊｏｙ，Ｈｏｐｅ，Ｐｒｉｄｅ｝）．Ｃｏｎｓｅｑｕｅｎｔｌｙ，ｔｈｉｓｄｅａｌｉｓｂｒｉｌｌｉａｎｔ．＝＞（ｄｅａｌ，｛Ｊｏｙ，Ｐｒｉｄｅ｝）．２．３实验结果与分析为实际验证提出的基于ＯＣＣ情感模型的挖掘方法，文中基于网上新闻评论数据，设计实验方法，对所建立的情感维度词典进行有效性验证。２．３．１数据获取从纽约时报抓取了２００２年１月１日～２０１２年１月１日这１０年间的１６３９８个新闻评论数据作为实验数据，然后利用斯坦福的句法分析器将句子的成分都提取出来，并且手工定义高质量的情感维度种子词，覆盖情感维度值包括 “ Ｄ” “ Ｕ” “ Ｐ ” “ Ｂ” “Ｌ”。全部种子词如表２（括号外为情感维度词，括号内为情感维度词的词性）所示。表２情感维度种子词Ｔａｂｌｅ２ＥｍｏｔｉｏｎａｌｄｉｍｅｎｓｉｏｎｓｅｅｄｗｏｒｄｓＤＵＰＢＬｇｏｏｄ（ＪＪ）ｐｒｏｂｌｅｍ（ＮＮ）ａｉｄ（ＮＮ）ａｂｕｓｅ（ＮＮ）ｌｉｋｅｌｙ（ＪＪ）ｇｒｅａｔ（ＪＪ）ｂａｄ（ＪＪ）ｒｅｓｐｅｃｔ（ＮＮ）ａｂｕｓｅ（ＶＢ）ｐｏｓｓｉｂｌｅ（ＪＪ）ｌｏｖｅ（ＶＢ）ｈａｒｄ（ＪＪ）ｗｏｒｔｈ（ＪＪ）ｆａｕｌｔ（ＮＮ）ｈｏｐｅｆｕｌ（ＪＪ）ｔｒｕｅ（ＪＪ）ｌａｚｙ（ＪＪ）ｐｒｏｕｄ（ＪＪ）ｗａｓｔｅ（ＮＮ）ｐｒｏｍｉｓｉｎｇ（ＪＪ）ｈｅａｌｔｈｙ（ＪＪ）ｓａｄ（ＪＪ）ｈｏｎｅｓｔ（ＪＪ）ｕｎｆａｉｒ（ＪＪ）ａｎｔｉｃｉｐａｔｅ（ＶＢ）ｌｉｂｅｒａｌ（ＪＪ）ｔｅｒｒｉｂｌｅ（ＪＪ）ｍｅｒｉｔ（ＮＮ）ｈａｔｅ（ＶＢ）ｐｒｅｄｉｃｔ（ＶＢ）ｅａｓｙ（ＪＪ）ｓｔｕｐｉｄ（ＪＪ）ｌｅｇａｌ（ＪＪ）ｌｉｅ（ＮＮ）ｓｕｒｍｉｓｅ（ＶＢ）ｓｕｃｃｅｓｓ（ＮＮ）ｄｉｆｆｉｃｕｌｔ（ＪＪ）ｒｅｐｕｔａｔｉｏｎ（ＮＮ）ｃｈｅａｔｉｎｇ（ＮＮ）ｔｅｎｄ（ＶＢ）ａｍａｚｉｎｇ（ＪＪ）ｎｅｇａｔｉｖｅ（ＪＪ）ｓｉｇｎｉｆｉｃａｎｔ（ＪＪ）ｃｒｉｍｅ（ＮＮ）ａｓｐｉｒｅ（ＶＢ）ｉｎｔｅｒｅｓｔｉｎｇ（ＪＪ）ｔｒｏｕｂｌｅ（ＮＮ）ｒｅａｓｏｎａｂｌｅ（ＪＪ）ｐｌａｇｉａｒｙｚｅ（ＶＢ）ｐｏｔｅｎｔｉａｌ（ＪＪ）基于情感维度种子词，利用ＷｏｒｄＮｅｔ词典和句法依存关系得到情感维度词的候选集合，并基于共现思想进行过滤，进而获得高质量的情感维度词，建立相应的情感维度词典。对情感维度词典的求精过程完成语义、情感倾向的不一致处理和非情感词的过滤。由于维度Ｌ主要通过同义词和反义词获得，文中仅验证情感维度词典ＤＵＰＢ的性能。词典ＤＵＰＢ在求精前和求精后所包含词的数目如表３所示。表３求精前后情感维度词典Ｔａｂｌｅ３Ｅｍｏｔｉｏｎ⁃ｄｉｍｅｎｓｉｏｎｄｉｃｔｉｏｎａｒｉｅｓｂｅｆｏｒｅａｎｄａｆｔｅｒｒｅｆｉｎｅｍｅｎｔ阶段ＤＵＰＢ求精前（含重复）２０３３１６２１９１０９０３４１０８求精后（α＝０．３，β ＝０．６５）１３０７１４６７７９４８９５２．３．２实验设计为了保证标注数据的客观性，请两个标注者分别独立标注了２３７个测试数据。若标注者认为一句话中某个单词包含某种情感维度值，就将其连同维度值一起标注出来。为了检查两个标注者的一致程度，采用式（４）计算其Ｋａｐｐａ值： ·６５０· 智能系统学报第１２卷

第5期皇甫璐雯，等：一种基于OCC模型的文本情感挖掘方法 651· Pr(a)-Pr(e) 模板，对情感维度词进行评分，将情感维度词属于 Kappa (4) 1-Pr(e) 某个情感维度值的概率用可靠性进行刻画。此外，其中，Pr(a)表示实际标注时的一致程度，Pr(e)表用相关性刻画某一模板与情感维度词共现的程度，示随机情况下期望的一致程度。实验中两个标注用倾向性刻画某一情感词的极性值。者的Kappa值为0.613(Kappa值大于0.6表明一致程度较好)。 3 结束语基于标注数据，利用精度、召回率和F值这3 本文提出了一种基于认知心理学领域发展成个指标对情感维度词典DUPB进行定量评价。F值熟的情感认知结构模型OCC,设计并实现了一种基的计算公式为于OCC情感模型的观点挖掘方法，并采用网上新闻 E value=2·precision·recall (5) 评论数据，采用实验方法初步验证了文中方法的有 precision recall 效性。与相关工作比较，该方法所需要的人力少，式中：F.value表示F值，precision表示精度，recall 且在使用灵活性和有效性上具有明显的优势。同表示召回率。时，本文基于经典的情感认知结构模型，不但给文 2.3.3实验结果本情感分析这一研究问题赋予了更深层次的认知平均精度、召回率和F值的实验结果如表4 结构关联，而且为情感类型的输出维度提供了一个所示。建立在认知心理学模型基础上的更加精细的解释。表4实验结果 Table 4 Experimental results 参考文献：情感维度标注者1 标注者2 平均值 [1]CHEN,Hsinchun.AI and opinion mining,part 2[J].IEEE 精度 0.596 0.647 0.622 intelligentsystems,2010,25(4):72-79. 召回率 0.393 0.408 0.400 [2]CHEN,Hsinchun,DAVID Z.AI and opinion mining[J]. IEEE intelligentsystems,2010,25(3):74-80. F值 0.470 0.495 0.482 [3]PANG B,LEE L,VAITHYANATHAN S.Thumbs up?: 由表4可知，平均精度、召回率和F值分别为 sentiment classification using machine learning techniques 0.622、0.400和0.482。可以看到，情感维度词典 [C]//Proceedings of the ACL-02 Conference on Empirical DUPB的平均精度较好但召回率还比较低，导致召 Methods in Natural Language Processing-Volume 10. 回率较低的一个原因是情感维度词典中的情感维 Stroudsburg,USA,2002:79-86. 度词的数量有限，对于验证集中的情感维度词覆盖 [4]TURNEY P D.Thumbs up or thumbs down?:semantic 程度不足，因此召回率不高。 orientation applied to unsupervised classification of reviews [C]//Proceedings of the 40th Annual Meeting on Association 2.3.4结果分析及改进 for Computational Linguistics.Stroudsburg,USA,2002: 上面介绍的基于OCC模型的情感挖掘方法仍 417-424. 存在一些可改进之处，如：将情感维度词典的构建 [5 WIEBE J,WILSON T,BRUCE R,et al.Learning 和求精分开进行，使用预先定义的固定模板，以及 subjective language [J].Computational linguistics,2004, 不加区分地对待词之间的共现情形等。特别是，考 30(3):277-308. 虑到情感维度词和模板之间的相互关联，可以通过 [6]ATTARDI G,SIMI M.Blog Mining through opinionated 两者之间的互学习促进情感挖掘的性能。 words C]//Fifteenth Text Retrieval Conference,Trec 针对以上不足，文中考虑了融合Bootstrapping 2006.Gaithersburg,USA,2006. 的改进方法。该方法将情感维度词典的构建和求 [7]HATZIVASSILOGLOU V,WIEBE J M.Effects of adjective 精在同一个循环中完成。算法的主要思想是利用 orientation and gradability on sentence subjectivity C]// 情感维度词与模板进行互学习，并且对两者分别进 Proceedings of the 18th Conference on Computational Linguistics- 行评分。基于情感维度词在模板前后的维度值，对 Volume 1.Stroudsburg,USA,2000:299-305. [8 RILOFF E,WIEBE J,WILSON T.Learning subjective 模板进行评分，将一致性/不一致性用模板的可区 nouns using extraction pattern bootstrapping C]/ 分性指标进行刻画。这里的可区分情况有两种：一 Proceedings of the Seventh Conference on Natural Language 种是模板前后的词维度恰好一致，另一种是模板前 Learning at HLT-NAACL 2003-Volume 4.Stroudsburg, 后的词维度恰好相反。如果一个模板在这两种情 USA,2003:25-32. 况中的一种占大多数，则该模板的质量较好。基于 [9]HU M,LIU B.Mining and summarizing customer reviews

Ｋａｐｐａ＝Ｐｒ（ａ）－Ｐｒ（ｅ）１－Ｐｒ（ｅ）（４）其中，Ｐｒ（ａ）表示实际标注时的一致程度，Ｐｒ（ｅ）表示随机情况下期望的一致程度。实验中两个标注者的Ｋａｐｐａ值为０．６１３（Ｋａｐｐａ值大于０．６表明一致程度较好）。基于标注数据，利用精度、召回率和Ｆ值这３个指标对情感维度词典ＤＵＰＢ进行定量评价。Ｆ值的计算公式为Ｆ－ｖａｌｕｅ＝２·ｐｒｅｃｉｓｉｏｎ·ｒｅｃａｌｌｐｒｅｃｉｓｉｏｎ＋ｒｅｃａｌｌ（５）式中：Ｆ－ｖａｌｕｅ表示Ｆ值，ｐｒｅｃｉｓｉｏｎ表示精度，ｒｅｃａｌｌ表示召回率。２．３．３实验结果平均精度、召回率和Ｆ值的实验结果如表４所示。表４实验结果Ｔａｂｌｅ４Ｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓ情感维度标注者１标注者２平均值精度０．５９６０．６４７０．６２２召回率０．３９３０．４０８０．４００Ｆ值０．４７００．４９５０．４８２由表４可知，平均精度、召回率和Ｆ值分别为０．６２２、０．４００和０．４８２。可以看到，情感维度词典ＤＵＰＢ的平均精度较好但召回率还比较低，导致召回率较低的一个原因是情感维度词典中的情感维度词的数量有限，对于验证集中的情感维度词覆盖程度不足，因此召回率不高。２．３．４结果分析及改进上面介绍的基于ＯＣＣ模型的情感挖掘方法仍存在一些可改进之处，如：将情感维度词典的构建和求精分开进行，使用预先定义的固定模板，以及不加区分地对待词之间的共现情形等。特别是，考虑到情感维度词和模板之间的相互关联，可以通过两者之间的互学习促进情感挖掘的性能。针对以上不足，文中考虑了融合Ｂｏｏｔｓｔｒａｐｐｉｎｇ的改进方法。该方法将情感维度词典的构建和求精在同一个循环中完成。算法的主要思想是利用情感维度词与模板进行互学习，并且对两者分别进行评分。基于情感维度词在模板前后的维度值，对模板进行评分，将一致性／不一致性用模板的可区分性指标进行刻画。这里的可区分情况有两种：一种是模板前后的词维度恰好一致，另一种是模板前后的词维度恰好相反。如果一个模板在这两种情况中的一种占大多数，则该模板的质量较好。基于模板，对情感维度词进行评分，将情感维度词属于某个情感维度值的概率用可靠性进行刻画。此外，用相关性刻画某一模板与情感维度词共现的程度，用倾向性刻画某一情感词的极性值。３结束语本文提出了一种基于认知心理学领域发展成熟的情感认知结构模型ＯＣＣ，设计并实现了一种基于ＯＣＣ情感模型的观点挖掘方法，并采用网上新闻评论数据，采用实验方法初步验证了文中方法的有效性。与相关工作比较，该方法所需要的人力少，且在使用灵活性和有效性上具有明显的优势。同时，本文基于经典的情感认知结构模型，不但给文本情感分析这一研究问题赋予了更深层次的认知结构关联，而且为情感类型的输出维度提供了一个建立在认知心理学模型基础上的更加精细的解释。参考文献：［１］ＣＨＥＮ，Ｈｓｉｎｃｈｕｎ．ＡＩａｎｄｏｐｉｎｉｏｎｍｉｎｉｎｇ，ｐａｒｔ２［Ｊ］．ＩＥＥＥｉｎｔｅｌｌｉｇｅｎｔｓｙｓｔｅｍｓ，２０１０，２５（４）：７２－７９．［２］ＣＨＥＮ，Ｈｓｉｎｃｈｕｎ，ＤＡＶＩＤＺ．ＡＩａｎｄｏｐｉｎｉｏｎｍｉｎｉｎｇ［Ｊ］．ＩＥＥＥｉｎｔｅｌｌｉｇｅｎｔｓｙｓｔｅｍｓ，２０１０，２５（３）：７４－８０．［３］ＰＡＮＧＢ，ＬＥＥＬ，ＶＡＩＴＨＹＡＮＡＴＨＡＮＳ．Ｔｈｕｍｂｓｕｐ？：ｓｅｎｔｉｍｅｎｔｃｌａｓｓｉｆｉｃａｔｉｏｎｕｓｉｎｇｍａｃｈｉｎｅｌｅａｒｎｉｎｇｔｅｃｈｎｉｑｕｅｓ［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＡＣＬ⁃０２ＣｏｎｆｅｒｅｎｃｅｏｎＥｍｐｉｒｉｃａｌＭｅｔｈｏｄｓｉｎＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ⁃Ｖｏｌｕｍｅ１０．Ｓｔｒｏｕｄｓｂｕｒｇ，ＵＳＡ，２００２：７９－８６．［４］ＴＵＲＮＥＹＰＤ．Ｔｈｕｍｂｓｕｐｏｒｔｈｕｍｂｓｄｏｗｎ？：ｓｅｍａｎｔｉｃｏｒｉｅｎｔａｔｉｏｎａｐｐｌｉｅｄｔｏｕｎｓｕｐｅｒｖｉｓｅｄｃｌａｓｓｉｆｉｃａｔｉｏｎｏｆｒｅｖｉｅｗｓ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ４０ｔｈＡｎｎｕａｌＭｅｅｔｉｎｇｏｎＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ．Ｓｔｒｏｕｄｓｂｕｒｇ，ＵＳＡ，２００２：４１７－４２４．［５］ＷＩＥＢＥＪ，ＷＩＬＳＯＮＴ，ＢＲＵＣＥＲ，ｅｔａｌ．Ｌｅａｒｎｉｎｇｓｕｂｊｅｃｔｉｖｅｌａｎｇｕａｇｅ［Ｊ］．Ｃｏｍｐｕｔａｔｉｏｎａｌｌｉｎｇｕｉｓｔｉｃｓ，２００４，３０（３）：２７７－３０８．［６］ＡＴＴＡＲＤＩＧ，ＳＩＭＩＭ．ＢｌｏｇＭｉｎｉｎｇｔｈｒｏｕｇｈｏｐｉｎｉｏｎａｔｅｄｗｏｒｄｓ［Ｃ］／／ＦｉｆｔｅｅｎｔｈＴｅｘｔＲｅｔｒｉｅｖａｌＣｏｎｆｅｒｅｎｃｅ，Ｔｒｅｃ２００６．Ｇａｉｔｈｅｒｓｂｕｒｇ，ＵＳＡ，２００６．［７］ＨＡＴＺＩＶＡＳＳＩＬＯＧＬＯＵＶ，ＷＩＥＢＥＪＭ．Ｅｆｆｅｃｔｓｏｆａｄｊｅｃｔｉｖｅｏｒｉｅｎｔａｔｉｏｎａｎｄｇｒａｄａｂｉｌｉｔｙｏｎｓｅｎｔｅｎｃｅｓｕｂｊｅｃｔｉｖｉｔｙ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１８ｔｈＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ⁃ Ｖｏｌｕｍｅ１．Ｓｔｒｏｕｄｓｂｕｒｇ，ＵＳＡ，２０００：２９９－３０５．［８］ＲＩＬＯＦＦＥ，ＷＩＥＢＥＪ，ＷＩＬＳＯＮＴ．Ｌｅａｒｎｉｎｇｓｕｂｊｅｃｔｉｖｅｎｏｕｎｓｕｓｉｎｇｅｘｔｒａｃｔｉｏｎｐａｔｔｅｒｎｂｏｏｔｓｔｒａｐｐｉｎｇ［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＳｅｖｅｎｔｈＣｏｎｆｅｒｅｎｃｅｏｎＮａｔｕｒａｌＬａｎｇｕａｇｅＬｅａｒｎｉｎｇａｔＨＬＴ⁃ＮＡＡＣＬ２００３⁃Ｖｏｌｕｍｅ４．Ｓｔｒｏｕｄｓｂｕｒｇ，ＵＳＡ，２００３：２５－３２．［９］ＨＵＭ，ＬＩＵＢ．Ｍｉｎｉｎｇａｎｄｓｕｍｍａｒｉｚｉｎｇｃｕｓｔｏｍｅｒｒｅｖｉｅｗｓ第５期皇甫璐雯，等：一种基于ＯＣＣ模型的文本情感挖掘方法 ·６５１·

·652 智能系统学报第12卷 [C]//Proceedings of the Tenth ACM SIGKDD International [17]SHAIKH M A M.An analytical approach for affect sensing Conference on Knowledge Discovery and Data Mining. from text[D].Toyko:University of Tokyo,2008:1-111. ACM.2004:168-177. [18]YANG C,LIN K H Y,CHEN HH.Building emotion [10]HU M,LIU B.Mining opinion features in customer reviews lexicon from weblog corpora[C]//Proceedings of the 45th [C]/AAAL.2004,4(4):755-760. Annual Meeting of the ACL on Interactive Poster and [11]ZHANG C,ZENG D,LI J,et al.Sentiment analysis of Demonstration Sessions.Stroudsburg,USA,2007: Chinese documents:from sentence to document level[J]. 133-136. Journal of the American society for information science and [19]MAO Y,LEBANON G.Sequential models for sentiment technology,2009,60(12):2474-2487. prediction[C]//ICML Workshop on Learning in Structured [12]READ J.Recognising affect in text using pointwise-mutual Output Spaces.Pittsburgh,USA,2006. information D].Brighton:University of Sussex,2004: [20]FRIJDA N H.The emotions[M].New York:Cambridge 1-29. University Press,1986. [13]MISHNE G.Experiments with mood classification in blog [21]ORTONY A.The cognitive structure of emotions[M].New posts[C]//Proceedings of ACM SIGIR 2005 Workshop on York:Cambridge University Press,1990. Stylistic Analysis of Text for Information Access. [22]LAZARUS R S.Emotion and adaptation M].New York: Stroudsburg,USA,2005:19. Oxford University Press,1991. [14]ALM C O,ROTH D,SPROAT R.Emotions from text: [23]SCHERER K R,SCHORR A E,JOHNSTONE T E. machine learning for text-based emotion prediction[C] Appraisal processes in emotion:theory,methods,research Proceedings of the conference on Human Language [M].New York:Oxford University Press,2001. Technology and Empirical Methods in Natural Language 作者简介： Processing.Association for Computational Linguistics, 皇甫璐雯，女，1988年生，硕士研究 2005:579-586. 生，主要研究方向为社会媒体信息分析 [15]FENG S,WANG D,YU G,et al.Extracting common 与处理，情感分析与观点挖掘。 emotions from blogs based on fine-grained sentiment clustering[J].Knowledge and information systems,2011, 27(2):281-302. [16]KESHTKAR F,INKPEN D.Using sentiment orientation features for mood classification in blogs[C//Proceedings 毛文吉，女，1968年生，研究员，博 of the IEEE International Conference on Natural Language 士生导师，主要研究方向为智能信息处 Processing and Knowledge Engineering IEEE NLP-KE 理、人工智能、社会计算。 2009).Dalian,China,2009

［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＴｅｎｔｈＡＣＭＳＩＧＫＤＤＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＫｎｏｗｌｅｄｇｅＤｉｓｃｏｖｅｒｙａｎｄＤａｔａＭｉｎｉｎｇ．ＡＣＭ，２００４：１６８－１７７．［１０］ＨＵＭ，ＬＩＵＢ．Ｍｉｎｉｎｇｏｐｉｎｉｏｎｆｅａｔｕｒｅｓｉｎｃｕｓｔｏｍｅｒｒｅｖｉｅｗｓ［Ｃ］／／ＡＡＡＩ．２００４，４（４）：７５５－７６０．［１１］ＺＨＡＮＧＣ，ＺＥＮＧＤ，ＬＩＪ，ｅｔａｌ．ＳｅｎｔｉｍｅｎｔａｎａｌｙｓｉｓｏｆＣｈｉｎｅｓｅｄｏｃｕｍｅｎｔｓ：ｆｒｏｍｓｅｎｔｅｎｃｅｔｏｄｏｃｕｍｅｎｔｌｅｖｅｌ［Ｊ］．ＪｏｕｒｎａｌｏｆｔｈｅＡｍｅｒｉｃａｎｓｏｃｉｅｔｙｆｏｒｉｎｆｏｒｍａｔｉｏｎｓｃｉｅｎｃｅａｎｄｔｅｃｈｎｏｌｏｇｙ，２００９，６０（１２）：２４７４－２４８７．［１２］ＲＥＡＤＪ．Ｒｅｃｏｇｎｉｓｉｎｇａｆｆｅｃｔｉｎｔｅｘｔｕｓｉｎｇｐｏｉｎｔｗｉｓｅ⁃ｍｕｔｕａｌｉｎｆｏｒｍａｔｉｏｎ［Ｄ］．Ｂｒｉｇｈｔｏｎ：ＵｎｉｖｅｒｓｉｔｙｏｆＳｕｓｓｅｘ，２００４：１－２９．［１３］ＭＩＳＨＮＥＧ．Ｅｘｐｅｒｉｍｅｎｔｓｗｉｔｈｍｏｏｄｃｌａｓｓｉｆｉｃａｔｉｏｎｉｎｂｌｏｇｐｏｓｔｓ［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆＡＣＭＳＩＧＩＲ２００５ＷｏｒｋｓｈｏｐｏｎＳｔｙｌｉｓｔｉｃＡｎａｌｙｓｉｓｏｆＴｅｘｔｆｏｒＩｎｆｏｒｍａｔｉｏｎＡｃｃｅｓｓ．Ｓｔｒｏｕｄｓｂｕｒｇ，ＵＳＡ，２００５：１９．［１４］ＡＬＭＣＯ，ＲＯＴＨＤ，ＳＰＲＯＡＴＲ．Ｅｍｏｔｉｏｎｓｆｒｏｍｔｅｘｔ：ｍａｃｈｉｎｅｌｅａｒｎｉｎｇｆｏｒｔｅｘｔ⁃ｂａｓｅｄｅｍｏｔｉｏｎｐｒｅｄｉｃｔｉｏｎ［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅｃｏｎｆｅｒｅｎｃｅｏｎＨｕｍａｎＬａｎｇｕａｇｅＴｅｃｈｎｏｌｏｇｙａｎｄＥｍｐｉｒｉｃａｌＭｅｔｈｏｄｓｉｎＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ．ＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ，２００５：５７９－５８６．［１５］ＦＥＮＧＳ，ＷＡＮＧＤ，ＹＵＧ，ｅｔａｌ．Ｅｘｔｒａｃｔｉｎｇｃｏｍｍｏｎｅｍｏｔｉｏｎｓｆｒｏｍｂｌｏｇｓｂａｓｅｄｏｎｆｉｎｅ⁃ｇｒａｉｎｅｄｓｅｎｔｉｍｅｎｔｃｌｕｓｔｅｒｉｎｇ［Ｊ］．Ｋｎｏｗｌｅｄｇｅａｎｄｉｎｆｏｒｍａｔｉｏｎｓｙｓｔｅｍｓ，２０１１，２７（２）：２８１－３０２．［１６］ＫＥＳＨＴＫＡＲＦ，ＩＮＫＰＥＮＤ．Ｕｓｉｎｇｓｅｎｔｉｍｅｎｔｏｒｉｅｎｔａｔｉｏｎｆｅａｔｕｒｅｓｆｏｒｍｏｏｄｃｌａｓｓｉｆｉｃａｔｉｏｎｉｎｂｌｏｇｓ［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇａｎｄＫｎｏｗｌｅｄｇｅＥｎｇｉｎｅｅｒｉｎｇ（ＩＥＥＥＮＬＰ－ＫＥ２００９）．Ｄａｌｉａｎ，Ｃｈｉｎａ，２００９．［１７］ＳＨＡＩＫＨＭＡＭ．Ａｎａｎａｌｙｔｉｃａｌａｐｐｒｏａｃｈｆｏｒａｆｆｅｃｔｓｅｎｓｉｎｇｆｒｏｍｔｅｘｔ［Ｄ］．Ｔｏｙｋｏ：ＵｎｉｖｅｒｓｉｔｙｏｆＴｏｋｙｏ，２００８：１－１１１．［１８］ＹＡＮＧＣ，ＬＩＮＫＨＹ，ＣＨＥＮＨＨ．Ｂｕｉｌｄｉｎｇｅｍｏｔｉｏｎｌｅｘｉｃｏｎｆｒｏｍｗｅｂｌｏｇｃｏｒｐｏｒａ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ４５ｔｈＡｎｎｕａｌＭｅｅｔｉｎｇｏｆｔｈｅＡＣＬｏｎＩｎｔｅｒａｃｔｉｖｅＰｏｓｔｅｒａｎｄＤｅｍｏｎｓｔｒａｔｉｏｎＳｅｓｓｉｏｎｓ．Ｓｔｒｏｕｄｓｂｕｒｇ，ＵＳＡ，２００７：１３３－１３６．［１９］ＭＡＯＹ，ＬＥＢＡＮＯＮＧ．Ｓｅｑｕｅｎｔｉａｌｍｏｄｅｌｓｆｏｒｓｅｎｔｉｍｅｎｔｐｒｅｄｉｃｔｉｏｎ［Ｃ］／／ＩＣＭＬＷｏｒｋｓｈｏｐｏｎＬｅａｒｎｉｎｇｉｎＳｔｒｕｃｔｕｒｅｄＯｕｔｐｕｔＳｐａｃｅｓ．Ｐｉｔｔｓｂｕｒｇｈ，ＵＳＡ，２００６．［２０］ＦＲＩＪＤＡＮＨ．Ｔｈｅｅｍｏｔｉｏｎｓ［Ｍ］．ＮｅｗＹｏｒｋ：ＣａｍｂｒｉｄｇｅＵｎｉｖｅｒｓｉｔｙＰｒｅｓｓ，１９８６．［２１］ＯＲＴＯＮＹＡ．Ｔｈｅｃｏｇｎｉｔｉｖｅｓｔｒｕｃｔｕｒｅｏｆｅｍｏｔｉｏｎｓ［Ｍ］．ＮｅｗＹｏｒｋ：ＣａｍｂｒｉｄｇｅＵｎｉｖｅｒｓｉｔｙＰｒｅｓｓ，１９９０．［２２］ＬＡＺＡＲＵＳＲＳ．Ｅｍｏｔｉｏｎａｎｄａｄａｐｔａｔｉｏｎ［Ｍ］．ＮｅｗＹｏｒｋ：ＯｘｆｏｒｄＵｎｉｖｅｒｓｉｔｙＰｒｅｓｓ，１９９１．［２３］ＳＣＨＥＲＥＲＫＲ，ＳＣＨＯＲＲＡＥ，ＪＯＨＮＳＴＯＮＥＴＥ．Ａｐｐｒａｉｓａｌｐｒｏｃｅｓｓｅｓｉｎｅｍｏｔｉｏｎ：ｔｈｅｏｒｙ，ｍｅｔｈｏｄｓ，ｒｅｓｅａｒｃｈ［Ｍ］．ＮｅｗＹｏｒｋ：ＯｘｆｏｒｄＵｎｉｖｅｒｓｉｔｙＰｒｅｓｓ，２００１．作者简介：皇甫璐雯，女，１９８８年生，硕士研究生，主要研究方向为社会媒体信息分析与处理、情感分析与观点挖掘。毛文吉，女，１９６８年生，研究员，博士生导师，主要研究方向为智能信息处理、人工智能、社会计算。 ·６５２· 智能系统学报第１２卷

点击下载完整版文档（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录