正在加载图片...
第5期 皇甫璐雯,等:一种基于OCC模型的文本情感挖掘方法 .649. 考虑到该类情感维度词典在当前所有情感维度词 score=a·scorepolariyl+(1-a)·scorep2(3) 典中所占的词的比例(作为先验)。 (0≤a≤1) 2.1.2求精过程 式中score1和Score2虽然基于相同的(2) 构建完成后的情感维度词典往往存在不一致 式,但是分别利用了上面提到的不同的极性词典计 性或者噪声,包括语义不一致性、情感倾向不一致 算而得的。通过设定score的阈值,以避免加入质量 性,以及非情感词等。因此利用情感维度词的同义 过低的词。 词集合和反义词集合检查情感维度词的正负倾向, 2.2情感类型的生成 从而过滤掉质量低的情感维度词,完成情感维度词 完成构建和求精情感维度词典后,便可以利用 典的求精过程 OCC情感模型生成情感类型。情感类型的生成基 语义不一致性是指同一个词在同一情感维度 于情感认知结构模型,根据该模型中每种情感类型 上具有相互矛盾的取值,比如在“褒贬性”维度上同 与情感维度及其取值的对应关系,自动生成6种主 时具有“P”和“B”这两个维度值或者在“合意性”维 要的情感类型。具体地说,“合意性”维度值为“合 度上同时具有“D”和“U”这两个维度值:情感倾向 意的”并且“可能性”维度值为“确定的”时对应的情 不一致性是指一个词同时具有正负情感倾向相互 感类型为“高兴”;“合意性”维度值为“不合意的” 冲突的情感维度值。情感词的极性可以是正向或 且“可能性”维度值为“确定的”对应的情感类型为 负向。根据含义可知,“P”和“D”表示对情感对象 “悲伤”:“合意性”维度值为“合意的”且“可能性” 的正面态度或评价,故极性为正;“B”和“U”表示对 维度值为“可能的”对应的情感类型为“希望”:“合 情感对象的负面态度或评价,故极性为负。若检测 意性”维度值为“不合意的”且“可能性”维度值为 到语义或情感倾向不一致的词,对该情感词的求精 “可能的”对应的情感类型为“恐惧”:“合意性”维 方法根据通用语义词典中的同义和反义关系共同 度值为“合意的”,“褒贬性”维度值为“值得称赞 确定其情感倾向。当前待求精的情感维度词的计 的”且“可能性”维度值为“确定的”对应的情感类型 算公式如式(2): 为“骄傲”:“合意性”维度值为“不合意的”,“褒贬 score =st-nso nAm-nAnt- 性”维度值为“应受责备的”且“可能性”维度值为 (2) 2·nsym 2·nAm “确定的”对应的情感类型为“羞耻”。工作实现的 式中:ns、nu分别是当前待求精的情感词的同义 6种情感类型生成规则如下。 词和反义词的总数,n+、nsm-分别是该词的极性 规则1如果“合意性”维度值=“合意的”并且 为正和为负的同义词个数,nsnn-分别是该词 “可能性”维度值=“确定的”对应的情感类型=“高 的极性为正和为负的反义词个数。同时,为了保证 兴”。 同义词和反义词集合的均衡性,将其归一化后相 规则2如果“合意性”维度值=“不合意的” 加。如果计算得到的score值小于某一阈值02,则 并且“可能性”维度值=“确定的”对应的情感类型= 过滤掉该情感词。由于以往相关工作中已建立了 “悲伤”。 多个关于情感词的正负极性词典,这里nsyn Ant的 规则3如果“合意性”维度值=“不合意”并且 正负极性可通过参照这些情感极性词典来确定。 “可能性”维度值=“可能的”对应的情感类型=“希 非情感词包括无实际意义的词,如具体数字、 望”。 代词等,也包括中性的名词和动词。过滤的方法包 规则4如果“合意性”维度值=“不合意的” 括直接列出这些明显的不应该加入的词加以过滤, 并且“可能性”维度值=“可能的”对应的情感类型= 或者计算情感倾向,将某一阈值范围内的词别除。 “恐惧”。 除了以本身建造的情感维度词典作为极性词 规则5如果“合意性”维度值=“合意的”并且 典,还采用一个公开的极性词表。选择这两个极 “褒贬性”维度值=“值得称赞的”对应的情感类 性词典的原因是它们的优势可以互补。构建的情 型=“骄傲”。 感维度词典能够覆盖到较大集合的情感维度词,词 规则6如果“合意性”维度值=“不合意的”并 性词表尽管质量高,但是包含词的数量非常有限, 且“褒贬性”维度值=“应受责备的”对应的情感类 并且只有词的极性信息。所以,两者结合后彼此扬 型=“羞耻”。 长避短。同时可以通过(3)式进一步提高词的 根据前述的情感类型的生成过程,下面给出一 质量。 个具体示例。考虑到该类情感维度词典在当前所有情感维度词 典中所占的词的比例(作为先验)。 2.1.2 求精过程 构建完成后的情感维度词典往往存在不一致 性或者噪声,包括语义不一致性、情感倾向不一致 性,以及非情感词等。 因此利用情感维度词的同义 词集合和反义词集合检查情感维度词的正负倾向, 从而过滤掉质量低的情感维度词,完成情感维度词 典的求精过程。 语义不一致性是指同一个词在同一情感维度 上具有相互矛盾的取值,比如在“褒贬性”维度上同 时具有“P”和“B”这两个维度值或者在“合意性”维 度上同时具有“D”和“U”这两个维度值;情感倾向 不一致性是指一个词同时具有正负情感倾向相互 冲突的情感维度值。 情感词的极性可以是正向或 负向。 根据含义可知,“P”和“D”表示对情感对象 的正面态度或评价,故极性为正;“B”和“U”表示对 情感对象的负面态度或评价,故极性为负。 若检测 到语义或情感倾向不一致的词,对该情感词的求精 方法根据通用语义词典中的同义和反义关系共同 确定其情感倾向。 当前待求精的情感维度词的计 算公式如式(2): score = nSyn+ - nSyn- 2·nSyn - nAnt+ - nAnt- 2·nAnt (2) 式中: nSyn 、 nAnt 分别是当前待求精的情感词的同义 词和反义词的总数, nSyn+ 、 nSyn- 分别是该词的极性 为正和为负的同义词个数, nSyn- 、nAnt- 分别是该词 的极性为正和为负的反义词个数。 同时,为了保证 同义词和反义词集合的均衡性,将其归一化后相 加。 如果计算得到的 score 值小于某一阈值 θ2 , 则 过滤掉该情感词。 由于以往相关工作中已建立了 多个关于情感词的正负极性词典,这里 nSyn 、nAnt 的 正负极性可通过参照这些情感极性词典来确定。 非情感词包括无实际意义的词,如具体数字、 代词等,也包括中性的名词和动词。 过滤的方法包 括直接列出这些明显的不应该加入的词加以过滤, 或者计算情感倾向,将某一阈值范围内的词剔除。 除了以本身建造的情感维度词典作为极性词 典,还采用一个公开的极性词表[9] 。 选择这两个极 性词典的原因是它们的优势可以互补。 构建的情 感维度词典能够覆盖到较大集合的情感维度词,词 性词表尽管质量高,但是包含词的数量非常有限, 并且只有词的极性信息。 所以,两者结合后彼此扬 长避短。 同时可以通过 ( 3) 式进一步提高词的 质量。 score = α·scorepolarity1 + (1 - α)·scorepolarity2 (3) (0 ≤ α ≤ 1) 式中 scorepolarity1 和 scorepolarity 2 虽然基于相同的( 2) 式,但是分别利用了上面提到的不同的极性词典计 算而得的。 通过设定 score 的阈值,以避免加入质量 过低的词。 2.2 情感类型的生成 完成构建和求精情感维度词典后,便可以利用 OCC 情感模型生成情感类型。 情感类型的生成基 于情感认知结构模型,根据该模型中每种情感类型 与情感维度及其取值的对应关系,自动生成 6 种主 要的情感类型。 具体地说,“合意性” 维度值为“合 意的”并且“可能性”维度值为“确定的”时对应的情 感类型为“高兴”;“合意性” 维度值为“不合意的” 且“可能性”维度值为“确定的”对应的情感类型为 “悲伤”;“合意性”维度值为“合意的”且“可能性” 维度值为“可能的”对应的情感类型为“希望”;“合 意性”维度值为“不合意的” 且“可能性” 维度值为 “可能的”对应的情感类型为“恐惧”;“合意性” 维 度值为“合意的”,“褒贬性” 维度值为 “值得称赞 的”且“可能性”维度值为“确定的”对应的情感类型 为“骄傲”;“合意性”维度值为“不合意的”, “褒贬 性”维度值为“应受责备的” 且“可能性”维度值为 “确定的”对应的情感类型为“羞耻”。 工作实现的 6 种情感类型生成规则如下。 规则 1 如果“合意性”维度值= “合意的”并且 “可能性”维度值 = “确定的”对应的情感类型 = “高 兴”。 规则 2 如果“合意性” 维度值 = “不合意的” 并且“可能性”维度值= “确定的”对应的情感类型= “悲伤”。 规则 3 如果“合意性”维度值= “不合意”并且 “可能性”维度值= “可能的” 对应的情感类型= “希 望”。 规则 4 如果 “合意性”维度值 = “不合意的” 并且“可能性”维度值= “可能的”对应的情感类型= “恐惧”。 规则 5 如果“合意性”维度值= “合意的”并且 “褒贬性” 维度值 = “值得称赞的” 对应的情感类 型= “骄傲”。 规则 6 如果“合意性”维度值= “不合意的”并 且“褒贬性”维度值 = “应受责备的” 对应的情感类 型= “羞耻”。 根据前述的情感类型的生成过程,下面给出一 个具体示例。 第 5 期 皇甫璐雯,等:一种基于 OCC 模型的文本情感挖掘方法 ·649·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有