在邻接矩阵Ｇ＝（ｇｉｊ）定义的基础上，式（６）可写成：Ｄ

正在加载图片...

·352. 智能系统学报第8卷在邻接矩阵G=(g)定义的基础上，式(6)可正面情感词语义相似度高的话，说明它们二者之间写成：的情感倾向距离大.如果用D,(W)表示词语W的情 D,(W)=∑D,(W）感倾向度，那么正面情感词W。的情感倾向度可以 (7) Wief ni 用该词与所有的负面情感词的语义相似的和来表如果情感词表中有n个候选基准词，它们的情示，负面情感词W。的情感倾向度可以用该词与所感度可以用一个n维的列向量P来表示，即有的正面情感词的语义相似的和来表示，计算方 P=[D(W)D(W2)…D(W)]T 法为则式(7)可写成： D2(W)= ∑E(W。,W) P=AP. (8) 式中：Ag=g时/n5 D,(w)=∑E(w,W). 式(8)是递归定义的，因此可以用迭代的办法求解.可以看出，候选基准词的情感度P=(D(W)) 2 基准词选择过程以及结果实为矩阵A「对应于特征根为1的特征向量，当A'= 01 1)从2010年《知网》所发布的3730个正面评 10 时，将得到P,=P2,无法比较候选基准词的价词语和3116个负面评价词语中，去掉单字和不情感度的大小因此，要对式(8)进行改进.采用加权常见的词，结果得到3256个正面情感词和2986个算法如式(9)：负面情感词，以这些情感词作为最初的候选基准词： P=(1-d)E 2)由前面方法分别计算正面情感词和负面情 dA P. (8) n 感词的情感度；式中：n为候选基准词个数：E为n×n的矩阵，矩阵 3)分别从正面情感词和负面情感词中选择出的元素值都是1：de[0,1],参照文献[10]，文中d 情感度排名靠前的1000个词：的取值为0.85. 4)由前面方法分别计算出1000对正面情感词 1.3情感倾向度的计算和负面情感词的情感倾向度：通过对情感词情感倾向度的计算，选择情感倾 5)选择情感倾向度较大的词语，作为最终的基向较大的词来作为基准词.设W,W,…,,o为准词：上一步所选择的负面基准词，个数为1000.W,W, 经过前面5步的选择后，排名靠前的40对正面 …,W,m为1000个正面情感基准词.如果直接用刘情感词和负面情感词分别如下所示： “良好、美好、最佳、上等、容易、最好、美丽、顶群所开发的相似度计算软件，会发现一些情感倾向级、宽大、精彩、快乐、端正、稳定、优秀、高级、确切、相反的词语，语义相似度的值却很大，比如一对明显明亮、热情、清新、出色、大方、便宜、积极、著名、灵语义相反的词语“小气”和“大方”，按照刘群的计算活、牢固、真实、简单、超级、必需、先进、纯朴、轻快方法sim(“小气”，“大方”)=0.81，通过查看义项发欢乐、仁爱、平坦、聪明、出色、平安、成熟” 现“大方”的义项是“ADJ avaluel属性值，toleranceI “暗淡、昂贵、傲慢、薄弱、悲观、病弱、不当、愚气量，generous I慷慨”，“小气”的义项是““ADJ 蠢、脏乱、自大、糟糕、罪恶、杂乱、愚昧、有害、阴冷、 avalue l属性值，tolerancel气量，miserI吝啬”刘群所虚假、严重、阴暗、凄凉、消极、下等、无效、无情、强开发的软件是基于《知网》的，《知网》是一个以汉语制、凶狠、颓废、贪心、缺德、奢侈、散乱、危险、穷困、和英语的词语所代表的概念为描述对象，以揭示概破旧、萧条、小气、轻狂、失常、俗气” 念与概念之间以及概念所具有的属性之间的关系为为了进一步丰富基准词，本文通过哈尔滨工业基本内容的常识知识库]在《知网》中，义原之间大学信息检索研究室所提供的《同义词词林扩展除了上下位关系外，还有很多种其他的关系，如果在版》对所选择的负面情感基准词和正面情感基准词计算时考虑进来，可能会得到更精细的义原相似度进行同义词扩充结构如图3所示。度量，义原一方面作为描述概念的最基本单位，另一为了避免出现某些词和基准词语义相似度高而方面，义原之间又存在复杂的关系.《知网》认为，具词义却相反所带来的误判，对未知词语的情感判断有反义或者对义关系的2个义原比较相似，因为它时，首先查找基准词以及基准词的同义词，如果没有们在实际的语料中可以互相替换的可能性很大.因找到，则计算未知词语和基准词的语义相似度此在判断情感倾向时，如果1个负面情感词和1个在邻接矩阵Ｇ＝（ｇｉｊ）定义的基础上，式（６）可写成：Ｄ１Ｗｉ ( ) ＝Ｗ∑ ｊ∈ＦｇｉｊｎｊＤ１（Ｗｊ）．（７）如果情感词表中有ｎ个候选基准词，它们的情感度可以用一个ｎ维的列向量Ｐ来表示，即Ｐ＝［Ｄ１（Ｗ１）Ｄ１（Ｗ２） … Ｄ１（Ｗｎ）］Ｔ．则式（７）可写成：Ｐ＝ＡＴＰ．（８）式中：Ａｉｊ＝ｇｉｊ／ｎｊ．式（８）是递归定义的，因此可以用迭代的办法求解．可以看出，候选基准词的情感度Ｐ＝（Ｄ１（Ｗｉ））实为矩阵ＡＴ对应于特征根为１的特征向量，当ＡＴ＝０１１０ é ë ê ê ù û ú ú 时，将得到Ｐ１＝Ｐ２，无法比较候选基准词的情感度的大小．因此，要对式（８）进行改进．采用加权算法如式（９）：Ｐ＝（１－ｄ）Ｅｎ＋ｄＡＴＰ．（８）式中：ｎ为候选基准词个数；Ｅ为ｎ×ｎ的矩阵，矩阵的元素值都是１；ｄ∈［０，１］，参照文献［１０］，文中ｄ的取值为０．８５．１．３情感倾向度的计算通过对情感词情感倾向度的计算，选择情感倾向较大的词来作为基准词．设Ｗｎ１，Ｗｎ２，…，Ｗｎ１０００为上一步所选择的负面基准词，个数为１０００．Ｗｐ１，Ｗｐ２， …，Ｗｐ１０００为１０００个正面情感基准词．如果直接用刘群所开发的相似度计算软件，会发现一些情感倾向相反的词语，语义相似度的值却很大，比如一对明显语义相反的词语“小气”和“大方”，按照刘群的计算方法ｓｉｍ（“小气”，“大方”）＝０．８１，通过查看义项发现“大方”的义项是“ＡＤＪａｖａｌｕｅ｜属性值，ｔｏｌｅｒａｎｃｅ｜气量，ｇｅｎｅｒｏｕｓ｜慷慨 ”， “ 小气” 的义项是 ““ ＡＤＪａｖａｌｕｅ｜属性值，ｔｏｌｅｒａｎｃｅ｜气量，ｍｉｓｅｒ｜吝啬 ”刘群所开发的软件是基于《知网》的，《知网》是一个以汉语和英语的词语所代表的概念为描述对象，以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库［９］．在《知网》中，义原之间除了上下位关系外，还有很多种其他的关系，如果在计算时考虑进来，可能会得到更精细的义原相似度度量，义原一方面作为描述概念的最基本单位，另一方面，义原之间又存在复杂的关系．《知网》认为，具有反义或者对义关系的２个义原比较相似，因为它们在实际的语料中可以互相替换的可能性很大．因此在判断情感倾向时，如果１个负面情感词和１个正面情感词语义相似度高的话，说明它们二者之间的情感倾向距离大．如果用Ｄ２（Ｗ）表示词语Ｗ的情感倾向度，那么正面情感词Ｗｐ的情感倾向度可以用该词与所有的负面情感词的语义相似的和来表示，负面情感词Ｗｎ的情感倾向度可以用该词与所有的正面情感词的语义相似的和来表示，计算方法为Ｄ２（Ｗｐ）＝ ∑ ｎｉ＝１Ｅ（Ｗｐ，Ｗｎｉ），Ｄ２（Ｗｎ）＝ ∑ ｎｉ＝１Ｅ（Ｗｎ，Ｗｐｉ）． ì î í ï ï ï ï ２基准词选择过程以及结果１）从２０１０年《知网》所发布的３７３０个正面评价词语和３１１６个负面评价词语中，去掉单字和不常见的词，结果得到３２５６个正面情感词和２９８６个负面情感词，以这些情感词作为最初的候选基准词；２）由前面方法分别计算正面情感词和负面情感词的情感度；３）分别从正面情感词和负面情感词中选择出情感度排名靠前的１０００个词；４）由前面方法分别计算出１０００对正面情感词和负面情感词的情感倾向度；５）选择情感倾向度较大的词语，作为最终的基准词；经过前面５步的选择后，排名靠前的４０对正面情感词和负面情感词分别如下所示： “良好、美好、最佳、上等、容易、最好、美丽、顶级、宽大、精彩、快乐、端正、稳定、优秀、高级、确切、明亮、热情、清新、出色、大方、便宜、积极、著名、灵活、牢固、真实、简单、超级、必需、先进、纯朴、轻快、欢乐、仁爱、平坦、聪明、出色、平安、成熟”． “暗淡、昂贵、傲慢、薄弱、悲观、病弱、不当、愚蠢、脏乱、自大、糟糕、罪恶、杂乱、愚昧、有害、阴冷、虚假、严重、阴暗、凄凉、消极、下等、无效、无情、强制、凶狠、颓废、贪心、缺德、奢侈、散乱、危险、穷困、破旧、萧条、小气、轻狂、失常、俗气”．为了进一步丰富基准词，本文通过哈尔滨工业大学信息检索研究室所提供的《同义词词林扩展版》对所选择的负面情感基准词和正面情感基准词进行同义词扩充．结构如图３所示．为了避免出现某些词和基准词语义相似度高而词义却相反所带来的误判，对未知词语的情感判断时，首先查找基准词以及基准词的同义词，如果没有找到，则计算未知词语和基准词的语义相似度． ·３５２· 智能系统学报第８卷

<<向上翻页向下翻页>>

点击下载：【自然语言处理与理解】情感倾向判断中基准词的选择