正在加载图片...
650 智能系统学报 第12卷 图2是对句子“US's providing aid is a step in 表2情感维度种子词 the right direction.”的情感类型挖掘过程。查看情感 Table 2 Emotional dimension seed words 维度词典,可得到这句话中包含2个情感维度词,分 0 P L 别是“is”和“right'”。其中,“is”的情感维度“可能 800d problem aid abuse likely 性”取值为“确定的”,“ght”的情感维度“合意性” (J) (NN) (NN) (NN) (J) 取值为“合意的”,情感维度“褒贬性”的取值为“值 great bad respect abuse possible 得称赞的”。再根据情感类型生成规则1和规则5 (J) (J) (NN) (VB) (JJ) 得到两种情感,分别为“Joy(高兴)”和“Pide(骄 love hard worth fault hopeful 傲)”。 (VB) (J) (J) (NN) (J lazy proud waste promising US's providing aid is a step in the right direction. true(JJ)】 (J) (J) (NN) (JJ) healthy sad honest unfair anticipate (J) (J) (J) (J) (VB) 可能性 确定的 褒贬性= “值得称赞的” liberal terrible merit hate predict (J) (JΠ) (NN) (VB) (VB) easy stupid legal lie surmise (J) (J) (J) (NN) (VB) 高兴 骄做 success difficult reputation cheating tend (NN) (JJ) (NN) (NN) (VB) 图2情感类型生成示例图 Fig.2 Generation of emotion types example amazing negative significant crime aspire (JJ (J (J (NN) (VB) 由此可见,通过求精后的情感维度词典和OCC interesting trouble reasonable plagiaryze potential 模型,最后生成多种情感类型是切实可行的。与这 (J) (NN) (JJ) (VB) (JI) 些情感类型相关联的情感对象则通过由文献[9]提 基于情感维度种子词,利用WordNet词典和句 出的频繁情感对象识别算法进行挖掘。下面是一 法依存关系得到情感维度词的候选集合,并基于共 些输出结果的示例: 现思想进行过滤,进而获得高质量的情感维度词, North Korea is in a bad situation. 建立相应的情感维度词典。对情感维度词典的求 =>(North Korea Distress); 精过程完成语义、情感倾向的不一致处理和非情感 It was very wise for us to compromise and to 词的过滤。由于维度L主要通过同义词和反义词获 promise food aid. 得,文中仅验证情感维度词典DUPB的性能。词典 =>food aid,Joy,Hope,Pride). DUPB在求精前和求精后所包含词的数目如表3 Consequently,this deal is brilliant. 所示。 =>deal,Joy,Pride). 表3求精前后情感维度词典 2.3实验结果与分析 Table 3 Emotion-dimension dictionaries before and after 为实际验证提出的基于OCC情感模型的挖掘 refinement 方法,文中基于网上新闻评论数据,设计实验方法, 阶段 D U P B 对所建立的情感维度词典进行有效性验证。 求精前(含重复) 203316219109034108 2.3.1数据获取 从纽约时报抓取了2002年1月1日~2012年1 求精后(a=0.3,B=0.65)13071467794895 月1日这10年间的16398个新闻评论数据作为实 2.3.2实验设计 验数据,然后利用斯坦福的句法分析器将句子的成 为了保证标注数据的客观性,请两个标注者分 分都提取出来,并且手工定义高质量的情感维度种 别独立标注了237个测试数据。若标注者认为一句 子词,覆盖情感维度值包括“D”“U”“P”“B” 话中某个单词包含某种情感维度值,就将其连同维 “L”。全部种子词如表2(括号外为情感维度词,括 度值一起标注出来。为了检查两个标注者的一致 号内为情感维度词的词性)所示。 程度,采用式(4)计算其Kappa值:图 2 是对句子“US’ s providing aid is a step in the right direction.”的情感类型挖掘过程。 查看情感 维度词典,可得到这句话中包含 2 个情感维度词,分 别是“ is” 和“ right”。 其中,“ is” 的情感维度“可能 性”取值为“确定的”,“right”的情感维度 “合意性” 取值为“合意的”,情感维度“褒贬性”的取值为“值 得称赞的”。 再根据情感类型生成规则 1 和规则 5 得到两种情感,分别为“ Joy ( 高兴)” 和“ Pride ( 骄 傲)”。 图 2 情感类型生成示例图 Fig.2 Generation of emotion types example 由此可见,通过求精后的情感维度词典和 OCC 模型,最后生成多种情感类型是切实可行的。 与这 些情感类型相关联的情感对象则通过由文献[9]提 出的频繁情感对象识别算法进行挖掘。 下面是一 些输出结果的示例: North Korea is in a bad situation. = >(North Korea ,{Distress}); It was very wise for us to compromise and to promise food aid. = >(food aid,{Joy, Hope, Pride}). Consequently, this deal is brilliant. = >( deal,{Joy, Pride}). 2.3 实验结果与分析 为实际验证提出的基于 OCC 情感模型的挖掘 方法,文中基于网上新闻评论数据,设计实验方法, 对所建立的情感维度词典进行有效性验证。 2.3.1 数据获取 从纽约时报抓取了 2002 年 1 月 1 日~2012 年 1 月 1 日这 10 年间的 16 398 个新闻评论数据作为实 验数据,然后利用斯坦福的句法分析器将句子的成 分都提取出来,并且手工定义高质量的情感维度种 子词,覆盖情感维度值包括 “ D” “ U” “ P ” “ B” “L”。 全部种子词如表 2(括号外为情感维度词,括 号内为情感维度词的词性)所示。 表 2 情感维度种子词 Table 2 Emotional dimension seed words D U P B L good (JJ) problem (NN) aid (NN) abuse (NN) likely (JJ) great (JJ) bad (JJ) respect (NN) abuse (VB) possible (JJ) love (VB) hard (JJ) worth (JJ) fault (NN) hopeful (JJ) true(JJ) lazy (JJ) proud (JJ) waste (NN) promising (JJ) healthy (JJ) sad (JJ) honest (JJ) unfair (JJ) anticipate (VB) liberal (JJ) terrible (JJ) merit (NN) hate (VB) predict (VB) easy (JJ) stupid (JJ) legal (JJ) lie (NN) surmise (VB) success (NN) difficult (JJ) reputation (NN) cheating (NN) tend (VB) amazing (JJ) negative (JJ) significant (JJ) crime (NN) aspire (VB) interesting (JJ) trouble (NN) reasonable (JJ) plagiaryze (VB) potential (JJ) 基于情感维度种子词,利用 WordNet 词典和句 法依存关系得到情感维度词的候选集合,并基于共 现思想进行过滤,进而获得高质量的情感维度词, 建立相应的情感维度词典。 对情感维度词典的求 精过程完成语义、情感倾向的不一致处理和非情感 词的过滤。 由于维度 L 主要通过同义词和反义词获 得,文中仅验证情感维度词典 DUPB 的性能。 词典 DUPB 在求精前和求精后所包含词的数目如表 3 所示。 表 3 求精前后情感维度词典 Table 3 Emotion⁃dimension dictionaries before and after refinement 阶段 D U P B 求精前(含重复) 20 331 6 219 10 903 4 108 求精后(α= 0.3,β = 0.65) 1 307 1 467 794 895 2.3.2 实验设计 为了保证标注数据的客观性,请两个标注者分 别独立标注了 237 个测试数据。 若标注者认为一句 话中某个单词包含某种情感维度值,就将其连同维 度值一起标注出来。 为了检查两个标注者的一致 程度,采用式(4)计算其 Kappa 值: ·650· 智 能 系 统 学 报 第 12 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有