正在加载图片...
第5期 皇甫璐雯,等:一种基于OCC模型的文本情感挖掘方法 .647. 性(desirability)”“褒贬性(praise-/blame- 的情感类型挖掘问题可以分解成两个子问题:1)自 worthiness)”和“可能性(likelihood)”是该模型中3 动构建高质量的情感维度词典,即建立包括具体的 个最为重要的情感维度变量。“合意性”与主体的 词和抽象的情感维度值之间的映射关系:2)基于 目标相关联,“褒贬性”与行为是否符合社会道德标 OCC模型,以规则的形式建立情感维度值与情感类 准相关联,而“可能性”则表示对事件发生的期望。 型间的对应关系。构建情感维度词典则是建立文 在情感认知结构理论中,每个情感维度变量有 本情感类型识别系统的关键。情感维度词典涵盖 不同的取值。“合意性(desirability)”维度的取值包 了比通常仅包含正负极性的情感词库更丰富的信 括“合意的(desirable)”和“不合意的 息,所以在构建情感维度词典时,综合考虑了依存 (undesirable)”。当某些事件的发生有利于最终目 句法关系、语义关系和统计信息。由于构建后的情 标的实现时,这种情况对于主体而言是合意的;反 感维度词典存在语义、情感倾向的不一致性等问 之则是不合意的。类似地,“褒贬性(praise-./blame- 题,因此还需要对情感维度词典进一步求精,过滤 worthiness)”维度的取值有“值得称赞的 掉低质量的候选词。 (praiseworthy)”和“应受责备的(blameworthy)”。 图1是基于OCC情感模型的观点挖掘方法的 “可能性(likelihood)”维度有“可能的(likely)”和 数据流图,主要由情感维度词典的构建、求精和情 “确定的(certain)”这两个取值。情感维度变量的 感类型的生成3个模块组成。该方法基于海量开源 不同取值及其组合可以生成不同的情感类型。例 文本输入,以句子为单位输出情感类型及其关联的 如,如果“合意的”事件的可能性是“确定的”,引发 情感对象。其中,情感维度词典的构建模块利用通 “高兴(joy)”情感;否则引发“希望(hope)”。如果 用语义词典和句法依存关系建立关于各情感维度 个体“值得表扬的(praiseworthy)”行为带来合乎自 值的词典,情感维度词典的求精模块包括语义、正 己心意的行为后果,则导致“骄傲(pide)”情感的产 负情感倾向的不一致性处理和非情感词的过滤。 生。表1给出了3个情感维度变量与情感类型之间 针对前2个模块,文中还提出了融合Bootstrapping 的对应关系。 的构建与求精同步的改进算法。情感类型的生成 表13个情感维度变量及其对应的情感类型 模块基于前2个模块得到情感维度词典,利用经典 Table 1 Three emotional dimension variables and their 的OCC情感模型,获得情感类型。最后,得到情感 corresponding emotion types 类型与情感对象相结合的输出结果,以满足用户 合意性 褒贬性 可能性 情感类型 需求。 合意的 确定的 高兴 不合意的 确定的 悲伤 ·情感对象识别 合意的 可能的 希望 不合意的 可能的 恐惧 句法 WordNet OCC情感 情感 合意的 值得称赞的 确定的 骄傲 词典 模型 规则 不合意的 应受责备的 确定的 羞耻 表1左边3列是情感维度取值列表,右边一列 输出 物建维 生成情感 是在特定的情感维度取值下所产生的情感类型。 情感 技1可具现 类型 情感维 对象 本文的研究思路基于经典的OCC情感模型,选取其 高兴·悲 求精 世可曲 型 最主要的3个情感维度,以挖掘文中包含的这3类 子词 度词典 DUPBL 骄傲·羞 维度变量的情感。 词为重点,通过建立相应的情感维度词典,自 图1 基于OCC模型的本文情感挖掘方法 动推演出6种主要的情感类型:高兴(jy)、悲伤 Fig.1 OCC model-based emotion mining method from texts (distress)、希望(hope)、恐惧(fear)、骄傲(pride)和 2.1情感维度词典的构建与求精 羞耻(shame)。 情感维度词典是基于WordNet词典和句法依存 关系,采用统计的方法自动构建的。WordNet词典 2基于OCC模型的情感挖掘方法 可以提供词的语义解释和词之间的关系,有同义 结合前面介绍的OCC情感认知结构模型,建立 词、反义词、还原词、派生词等。句法依存关系是 自动识别文本中情感类型的方法。基于OCC模型 指,通过句法分析树中得到的词之间存在的联系,性 ( desirability )” “ 褒 贬 性 ( praise⁃/ blame⁃ worthiness)”和“可能性( likelihood)” 是该模型中 3 个最为重要的情感维度变量。 “合意性” 与主体的 目标相关联,“褒贬性”与行为是否符合社会道德标 准相关联,而“可能性”则表示对事件发生的期望。 在情感认知结构理论中,每个情感维度变量有 不同的取值。 “合意性( desirability)”维度的取值包 括 “ 合 意 的 ( desirable )” 和 “ 不 合 意 的 (undesirable)”。 当某些事件的发生有利于最终目 标的实现时,这种情况对于主体而言是合意的;反 之则是不合意的。 类似地,“褒贬性( praise⁃/ blame⁃ worthiness)” 维 度 的 取 值 有 “ 值 得 称 赞 的 (praiseworthy)” 和 “ 应 受 责 备 的 ( blameworthy )”。 “可能性( likelihood)” 维度有“可能的( likely)” 和 “确定的( certain)” 这两个取值。 情感维度变量的 不同取值及其组合可以生成不同的情感类型。 例 如,如果“合意的”事件的可能性是“确定的”,引发 “高兴( joy)”情感;否则引发“希望( hope)”。 如果 个体“值得表扬的( praiseworthy)” 行为带来合乎自 己心意的行为后果,则导致“骄傲(pride)”情感的产 生。 表 1 给出了 3 个情感维度变量与情感类型之间 的对应关系。 表 1 3 个情感维度变量及其对应的情感类型 Table 1 Three emotional dimension variables and their corresponding emotion types 合意性 褒贬性 可能性 情感类型 合意的 — 确定的 高兴 不合意的 — 确定的 悲伤 合意的 — 可能的 希望 不合意的 — 可能的 恐惧 合意的 值得称赞的 确定的 骄傲 不合意的 应受责备的 确定的 羞耻 表 1 左边 3 列是情感维度取值列表,右边一列 是在特定的情感维度取值下所产生的情感类型。 本文的研究思路基于经典的 OCC 情感模型,选取其 最主要的 3 个情感维度,以挖掘文中包含的这 3 类 维度变量的情感。 词为重点,通过建立相应的情感维度词典,自 动推演出 6 种主要的情感类型:高兴( joy)、悲伤 (distress)、希望(hope)、恐惧( fear)、骄傲( pride)和 羞耻(shame)。 2 基于 OCC 模型的情感挖掘方法 结合前面介绍的 OCC 情感认知结构模型,建立 自动识别文本中情感类型的方法。 基于 OCC 模型 的情感类型挖掘问题可以分解成两个子问题:1)自 动构建高质量的情感维度词典,即建立包括具体的 词和抽象的情感维度值之间的映射关系;2) 基于 OCC 模型,以规则的形式建立情感维度值与情感类 型间的对应关系。 构建情感维度词典则是建立文 本情感类型识别系统的关键。 情感维度词典涵盖 了比通常仅包含正负极性的情感词库更丰富的信 息,所以在构建情感维度词典时,综合考虑了依存 句法关系、语义关系和统计信息。 由于构建后的情 感维度词典存在语义、情感倾向的不一致性等问 题,因此还需要对情感维度词典进一步求精,过滤 掉低质量的候选词。 图 1 是基于 OCC 情感模型的观点挖掘方法的 数据流图,主要由情感维度词典的构建、求精和情 感类型的生成 3 个模块组成。 该方法基于海量开源 文本输入,以句子为单位输出情感类型及其关联的 情感对象。 其中,情感维度词典的构建模块利用通 用语义词典和句法依存关系建立关于各情感维度 值的词典,情感维度词典的求精模块包括语义、正 负情感倾向的不一致性处理和非情感词的过滤。 针对前 2 个模块,文中还提出了融合 Bootstrapping 的构建与求精同步的改进算法。 情感类型的生成 模块基于前 2 个模块得到情感维度词典,利用经典 的 OCC 情感模型,获得情感类型。 最后,得到情感 类型与情感对象相结合的输出结果,以满足用户 需求。 图 1 基于 OCC 模型的本文情感挖掘方法 Fig.1 OCC model⁃based emotion mining method from texts 2.1 情感维度词典的构建与求精 情感维度词典是基于 WordNet 词典和句法依存 关系,采用统计的方法自动构建的。 WordNet 词典 可以提供词的语义解释和词之间的关系,有同义 词、反义词、还原词、派生词等。 句法依存关系是 指,通过句法分析树中得到的词之间存在的联系, 第 5 期 皇甫璐雯,等:一种基于 OCC 模型的文本情感挖掘方法 ·647·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有