正在加载图片...
·352. 智能系统学报 第8卷 在邻接矩阵G=(g)定义的基础上,式(6)可 正面情感词语义相似度高的话,说明它们二者之间 写成: 的情感倾向距离大.如果用D,(W)表示词语W的情 D,(W)=∑D,(W) 感倾向度,那么正面情感词W。的情感倾向度可以 (7) Wief ni 用该词与所有的负面情感词的语义相似的和来表 如果情感词表中有n个候选基准词,它们的情 示,负面情感词W。的情感倾向度可以用该词与所 感度可以用一个n维的列向量P来表示,即 有的正面情感词的语义相似的和来表示,计算方 P=[D(W)D(W2)…D(W)]T 法为 则式(7)可写成: D2(W)= ∑E(W。,W) P=AP. (8) 式中:Ag=g时/n5 D,(w)=∑E(w,W). 式(8)是递归定义的,因此可以用迭代的办法 求解.可以看出,候选基准词的情感度P=(D(W)) 2 基准词选择过程以及结果 实为矩阵A「对应于特征根为1的特征向量,当A'= 01 1)从2010年《知网》所发布的3730个正面评 10 时,将得到P,=P2,无法比较候选基准词的 价词语和3116个负面评价词语中,去掉单字和不 情感度的大小因此,要对式(8)进行改进.采用加权 常见的词,结果得到3256个正面情感词和2986个 算法如式(9): 负面情感词,以这些情感词作为最初的候选基准词: P=(1-d)E 2)由前面方法分别计算正面情感词和负面情 dA P. (8) n 感词的情感度; 式中:n为候选基准词个数:E为n×n的矩阵,矩阵 3)分别从正面情感词和负面情感词中选择出 的元素值都是1:de[0,1],参照文献[10],文中d 情感度排名靠前的1000个词: 的取值为0.85. 4)由前面方法分别计算出1000对正面情感词 1.3情感倾向度的计算 和负面情感词的情感倾向度: 通过对情感词情感倾向度的计算,选择情感倾 5)选择情感倾向度较大的词语,作为最终的基 向较大的词来作为基准词.设W,W,…,,o为 准词: 上一步所选择的负面基准词,个数为1000.W,W, 经过前面5步的选择后,排名靠前的40对正面 …,W,m为1000个正面情感基准词.如果直接用刘 情感词和负面情感词分别如下所示: “良好、美好、最佳、上等、容易、最好、美丽、顶 群所开发的相似度计算软件,会发现一些情感倾向 级、宽大、精彩、快乐、端正、稳定、优秀、高级、确切、 相反的词语,语义相似度的值却很大,比如一对明显 明亮、热情、清新、出色、大方、便宜、积极、著名、灵 语义相反的词语“小气”和“大方”,按照刘群的计算 活、牢固、真实、简单、超级、必需、先进、纯朴、轻快 方法sim(“小气”,“大方”)=0.81,通过查看义项发 欢乐、仁爱、平坦、聪明、出色、平安、成熟” 现“大方”的义项是“ADJ avaluel属性值,toleranceI “暗淡、昂贵、傲慢、薄弱、悲观、病弱、不当、愚 气量,generous I慷慨”,“小气”的义项是““ADJ 蠢、脏乱、自大、糟糕、罪恶、杂乱、愚昧、有害、阴冷、 avalue l属性值,tolerancel气量,miserI吝啬”刘群所 虚假、严重、阴暗、凄凉、消极、下等、无效、无情、强 开发的软件是基于《知网》的,《知网》是一个以汉语 制、凶狠、颓废、贪心、缺德、奢侈、散乱、危险、穷困、 和英语的词语所代表的概念为描述对象,以揭示概 破旧、萧条、小气、轻狂、失常、俗气” 念与概念之间以及概念所具有的属性之间的关系为 为了进一步丰富基准词,本文通过哈尔滨工业 基本内容的常识知识库]在《知网》中,义原之间 大学信息检索研究室所提供的《同义词词林扩展 除了上下位关系外,还有很多种其他的关系,如果在 版》对所选择的负面情感基准词和正面情感基准词 计算时考虑进来,可能会得到更精细的义原相似度 进行同义词扩充结构如图3所示。 度量,义原一方面作为描述概念的最基本单位,另一 为了避免出现某些词和基准词语义相似度高而 方面,义原之间又存在复杂的关系.《知网》认为,具 词义却相反所带来的误判,对未知词语的情感判断 有反义或者对义关系的2个义原比较相似,因为它 时,首先查找基准词以及基准词的同义词,如果没有 们在实际的语料中可以互相替换的可能性很大.因 找到,则计算未知词语和基准词的语义相似度 此在判断情感倾向时,如果1个负面情感词和1个在邻接矩阵 G = ( gij ) 定义的基础上,式(6) 可 写成: D1 Wi ( ) = W∑ j∈F gij nj D1(Wj). (7) 如果情感词表中有 n 个候选基准词,它们的情 感度可以用一个 n 维的列向量 P 来表示,即 P = [D1(W1 ) D1(W2 ) … D1(Wn )] T . 则式(7)可写成: P = A TP. (8) 式中:Aij = gij / nj . 式(8)是递归定义的, 因此可以用迭代的办法 求解.可以看出,候选基准词的情感度 P = (D1(Wi)) 实为矩阵 A T 对应于特征根为 1 的特征向量,当A T = 0 1 1 0 é ë ê ê ù û ú ú 时,将得到 P1 = P2 ,无法比较候选基准词的 情感度的大小.因此,要对式(8)进行改进.采用加权 算法如式(9): P = (1 - d)E n + dA TP. (8) 式中:n 为候选基准词个数;E 为 n×n 的矩阵,矩阵 的元素值都是 1;d∈[0,1],参照文献[10],文中 d 的取值为 0.85. 1.3 情感倾向度的计算 通过对情感词情感倾向度的计算,选择情感倾 向较大的词来作为基准词.设 Wn 1 ,Wn 2 ,…,Wn1 000为 上一步所选择的负面基准词,个数为1 000.Wp 1 ,Wp 2 , …,Wp 1 000 为1 000个正面情感基准词.如果直接用刘 群所开发的相似度计算软件,会发现一些情感倾向 相反的词语,语义相似度的值却很大,比如一对明显 语义相反的词语“小气”和“大方”,按照刘群的计算 方法 sim(“小气”,“大方”)= 0.81,通过查看义项发 现“大方”的义项是“ADJ avalue | 属性值,tolerance | 气量,generous | 慷慨 ”, “ 小气” 的义项是 ““ ADJ avalue |属性值,tolerance | 气量,miser | 吝啬 ”刘群所 开发的软件是基于《知网》的,《知网》是一个以汉语 和英语的词语所代表的概念为描述对象,以揭示概 念与概念之间以及概念所具有的属性之间的关系为 基本内容的常识知识库[ 9 ] .在《知网》中,义原之间 除了上下位关系外,还有很多种其他的关系,如果在 计算时考虑进来,可能会得到更精细的义原相似度 度量,义原一方面作为描述概念的最基本单位,另一 方面,义原之间又存在复杂的关系.《知网》认为,具 有反义或者对义关系的 2 个义原比较相似,因为它 们在实际的语料中可以互相替换的可能性很大.因 此在判断情感倾向时,如果 1 个负面情感词和 1 个 正面情感词语义相似度高的话,说明它们二者之间 的情感倾向距离大.如果用 D2(W)表示词语 W 的情 感倾向度,那么正面情感词 Wp 的情感倾向度可以 用该词与所有的负面情感词的语义相似的和来表 示,负面情感词 Wn 的情感倾向度可以用该词与所 有的正面情感词的语义相似的和来表示,计算方 法为 D2(Wp) = ∑ n i = 1 E(Wp,Wn i ), D2(Wn ) = ∑ n i = 1 E(Wn ,Wp i ). ì î í ï ï ï ï 2 基准词选择过程以及结果 1)从 2010 年《知网》所发布的 3 730 个正面评 价词语和 3 116 个负面评价词语中,去掉单字和不 常见的词,结果得到3 256个正面情感词和2 986个 负面情感词,以这些情感词作为最初的候选基准词; 2)由前面方法分别计算正面情感词和负面情 感词的情感度; 3)分别从正面情感词和负面情感词中选择出 情感度排名靠前的 1 000 个词; 4)由前面方法分别计算出 1 000 对正面情感词 和负面情感词的情感倾向度; 5)选择情感倾向度较大的词语,作为最终的基 准词; 经过前面 5 步的选择后,排名靠前的 40 对正面 情感词和负面情感词分别如下所示: “良好、美好、最佳、上等、容易、最好、美丽、顶 级、宽大、精彩、快乐、端正、稳定、优秀、高级、确切、 明亮、热情、清新、出色、大方、便宜、积极、著名、灵 活、牢固、真实、简单、超级、必需、先进、纯朴、轻快、 欢乐、仁爱、平坦、聪明、出色、平安、成熟”. “暗淡、昂贵、傲慢、薄弱、悲观、病弱、不当、愚 蠢、脏乱、自大、糟糕、罪恶、杂乱、愚昧、有害、阴冷、 虚假、严重、阴暗、凄凉、消极、下等、无效、无情、强 制、凶狠、颓废、贪心、缺德、奢侈、散乱、危险、穷困、 破旧、萧条、小气、轻狂、失常、俗气”. 为了进一步丰富基准词,本文通过哈尔滨工业 大学信息检索研究室所提供的《同义词词林扩展 版》对所选择的负面情感基准词和正面情感基准词 进行同义词扩充.结构如图 3 所示. 为了避免出现某些词和基准词语义相似度高而 词义却相反所带来的误判,对未知词语的情感判断 时,首先查找基准词以及基准词的同义词,如果没有 找到,则计算未知词语和基准词的语义相似度. ·352· 智 能 系 统 学 报 第 8 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有