【自然语言处理与理解】情感倾向判断中基准词的选择

团购合买资源类别：文库，文档格式：PDF，文档页数：7，文件大小：766.64KB

第8卷第4期智能系统学报 Vol.8 No.4 2013年8月 CAAI Transactions on Intelligent Systems Aug.2013 D0I:10.3969/j.issn.1673-4785.201301029 网络出版地址：http://www.cnki.net/kcms/detail/23.1538.TP.20130603.1602.009.html 情感倾向判断中基准词的选择程传鹏，王海龙 (中原工学院计算机学院，河南郑州450007)》摘要：针对已有研究工作中基准词选择的不足之处，提出了一种情感倾向判断中基准词选择的方法依照基准词的定义，分别从情感度、情感倾向度、情感歧义性3个方面考虑，选择出数量尽可能少、最具有代表性的情感词作为基准词首先从《知网》所发布的情感词语中，筛选出最初的候选基准词，计算出这些候选基准词的情感度.然后分别计算出情感度排名靠前的正面情感词和负面情感词的情感倾向度.最后选择情感倾向度较大的词语，作为最终的基准词. 实验结果表明，按照文中所选择的基准词所得到的情感倾向判断的准确率较高关键词：基准词：情感度：情感倾向度：情感歧义性中图分类号：TP391文献标志码：A文章编号：1673-4785(2013)04-0349-07 中文引用格式：程传鹏，王海龙.情感倾向判断中基准词的选择[J】.智能系统学报，2013,8(4)：349-355. 英文引用格式：CHENG Chuanpeng,WANG Hailong..Research on selection of paradigm words in the judgment of emotional tend- ency[J].CAAI Transactions on Intelligent Systems,2013,8(4):349-355. Research on selection of paradigm words in the judgment of emotional tendency CHENG Chuanpeng,WANG Hailong (School of Computer Science,Zhongyuan Institute of Technology,Zhengzhou 450007,China) Abstract:In light of the weakness of standard words selection,which exists in previous research studies,a method for selecting standard words in the judgment of emotional tendency was proposed in this paper.By considering three key aspects,which include degree of emotion,tendency of emotion and ambiguity of emotion,the most representa- tive typical sentiment words were chosen to act as standard words based on the definition of standard words.Firstly, initial standard words were screened from emotion words issued in HowNet,the degree of emotion of these candidate standard words was computed,then the emotional tendency degree of the positive emotion words and negative emo- tion words,which have high ranking of emotion degree,was calculated,respectively.Finally,the larger emotional tendency words were used as final standard words.The results of test shows the methods used in this paper can gain a high accuracy for judging the tendency of emotion. Keywords:standard words;degree of emotion;tendency of emotion;ambiguity of emotion 基准词集是指褒贬义倾向非常明显、强烈、具有个词汇作为情感基准词.文献[3]首先从《知网》中代表性的词汇所构成的集合口.情感倾向判断中，基选择出2146个褒义词和3299个贬义词，从这些词准词是衡量其他词语情感倾向的一个参照物，因此，语中选择没有褒贬歧义的常用词语作为测试集，然基准词的选择对正确地判断情感的倾向有着至关重后将测试集中的词语在Google中搜索，返回hits 要的作用.在文献[2]中，Turney通过分析词汇上下数，即它们在Wb上的词频降序排列，选取词频最文信息研究其情感倾向，采用P-R方法，使用2高的280个词语作为基准词.文献[4]将文献[3]中个词汇作为种子来判断其他短语的语义倾向.之后所选出的基准词中语义重复的词替换成新的、有较又将单对种子扩展成多对种子，选取了正反面各7 高hits数的褒义词或贬义词，最后得到新的40组褒贬基准词，这40组褒贬基准词的特点是在保留较高收稿日期：2013-01-16.网络出版日期：2013-06-03 基金项目：云南省科技计划资助项目(2011FZ074). 的使用频率外，排除了语义相同的情况，提高了词汇通信作者：程传鹏.E-mail:cheng8444@sina.com 的覆盖面.文献[5]通过词的聚类，将中文词聚类应

第８卷第４期智能系统学报Ｖｏｌ．８ №．４２０１３年８月ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓＡｕｇ．２０１３ＤＯＩ：１０．３９６９／ｊ．ｉｓｓｎ．１６７３⁃４７８５．２０１３０１０２９网络出版地址：ｈｔｔｐ：／／ｗｗｗ．ｃｎｋｉ．ｎｅｔ／ｋｃｍｓ／ｄｅｔａｉｌ／２３．１５３８．ＴＰ．２０１３０６０３．１６０２．００９．ｈｔｍｌ情感倾向判断中基准词的选择程传鹏，王海龙（中原工学院计算机学院，河南郑州４５０００７）摘要：针对已有研究工作中基准词选择的不足之处，提出了一种情感倾向判断中基准词选择的方法．依照基准词的定义，分别从情感度、情感倾向度、情感歧义性３个方面考虑，选择出数量尽可能少、最具有代表性的情感词作为基准词．首先从《知网》所发布的情感词语中，筛选出最初的候选基准词，计算出这些候选基准词的情感度．然后分别计算出情感度排名靠前的正面情感词和负面情感词的情感倾向度．最后选择情感倾向度较大的词语，作为最终的基准词．实验结果表明，按照文中所选择的基准词所得到的情感倾向判断的准确率较高．关键词：基准词；情感度；情感倾向度；情感歧义性中图分类号：ＴＰ３９１文献标志码：Ａ文章编号：１６７３⁃４７８５（２０１３）０４⁃０３４９⁃０７中文引用格式：程传鹏，王海龙．情感倾向判断中基准词的选择［Ｊ］．智能系统学报，２０１３，８（４）：３４９⁃３５５．英文引用格式：ＣＨＥＮＧＣｈｕａｎｐｅｎｇ，ＷＡＮＧＨａｉｌｏｎｇ．Ｒｅｓｅａｒｃｈｏｎｓｅｌｅｃｔｉｏｎｏｆｐａｒａｄｉｇｍｗｏｒｄｓｉｎｔｈｅｊｕｄｇｍｅｎｔｏｆｅｍｏｔｉｏｎａｌｔｅｎｄ⁃ ｅｎｃｙ［Ｊ］．ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓ，２０１３，８（４）：３４９⁃３５５．ＲｅｓｅａｒｃｈｏｎｓｅｌｅｃｔｉｏｎｏｆｐａｒａｄｉｇｍｗｏｒｄｓｉｎｔｈｅｊｕｄｇｍｅｎｔｏｆｅｍｏｔｉｏｎａｌｔｅｎｄｅｎｃｙＣＨＥＮＧＣｈｕａｎｐｅｎｇ，ＷＡＮＧＨａｉｌｏｎｇ（ＳｃｈｏｏｌｏｆＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅ，ＺｈｏｎｇｙｕａｎＩｎｓｔｉｔｕｔｅｏｆＴｅｃｈｎｏｌｏｇｙ，Ｚｈｅｎｇｚｈｏｕ４５０００７，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：Ｉｎｌｉｇｈｔｏｆｔｈｅｗｅａｋｎｅｓｓｏｆｓｔａｎｄａｒｄｗｏｒｄｓｓｅｌｅｃｔｉｏｎ，ｗｈｉｃｈｅｘｉｓｔｓｉｎｐｒｅｖｉｏｕｓｒｅｓｅａｒｃｈｓｔｕｄｉｅｓ，ａｍｅｔｈｏｄｆｏｒｓｅｌｅｃｔｉｎｇｓｔａｎｄａｒｄｗｏｒｄｓｉｎｔｈｅｊｕｄｇｍｅｎｔｏｆｅｍｏｔｉｏｎａｌｔｅｎｄｅｎｃｙｗａｓｐｒｏｐｏｓｅｄｉｎｔｈｉｓｐａｐｅｒ．Ｂｙｃｏｎｓｉｄｅｒｉｎｇｔｈｒｅｅｋｅｙａｓｐｅｃｔｓ，ｗｈｉｃｈｉｎｃｌｕｄｅｄｅｇｒｅｅｏｆｅｍｏｔｉｏｎ，ｔｅｎｄｅｎｃｙｏｆｅｍｏｔｉｏｎａｎｄａｍｂｉｇｕｉｔｙｏｆｅｍｏｔｉｏｎ，ｔｈｅｍｏｓｔｒｅｐｒｅｓｅｎｔａ⁃ ｔｉｖｅｔｙｐｉｃａｌｓｅｎｔｉｍｅｎｔｗｏｒｄｓｗｅｒｅｃｈｏｓｅｎｔｏａｃｔａｓｓｔａｎｄａｒｄｗｏｒｄｓｂａｓｅｄｏｎｔｈｅｄｅｆｉｎｉｔｉｏｎｏｆｓｔａｎｄａｒｄｗｏｒｄｓ．Ｆｉｒｓｔｌｙ，ｉｎｉｔｉａｌｓｔａｎｄａｒｄｗｏｒｄｓｗｅｒｅｓｃｒｅｅｎｅｄｆｒｏｍｅｍｏｔｉｏｎｗｏｒｄｓｉｓｓｕｅｄｉｎＨｏｗＮｅｔ，ｔｈｅｄｅｇｒｅｅｏｆｅｍｏｔｉｏｎｏｆｔｈｅｓｅｃａｎｄｉｄａｔｅｓｔａｎｄａｒｄｗｏｒｄｓｗａｓｃｏｍｐｕｔｅｄ，ｔｈｅｎｔｈｅｅｍｏｔｉｏｎａｌｔｅｎｄｅｎｃｙｄｅｇｒｅｅｏｆｔｈｅｐｏｓｉｔｉｖｅｅｍｏｔｉｏｎｗｏｒｄｓａｎｄｎｅｇａｔｉｖｅｅｍｏ⁃ ｔｉｏｎｗｏｒｄｓ，ｗｈｉｃｈｈａｖｅｈｉｇｈｒａｎｋｉｎｇｏｆｅｍｏｔｉｏｎｄｅｇｒｅｅ，ｗａｓｃａｌｃｕｌａｔｅｄ，ｒｅｓｐｅｃｔｉｖｅｌｙ．Ｆｉｎａｌｌｙ，ｔｈｅｌａｒｇｅｒｅｍｏｔｉｏｎａｌｔｅｎｄｅｎｃｙｗｏｒｄｓｗｅｒｅｕｓｅｄａｓｆｉｎａｌｓｔａｎｄａｒｄｗｏｒｄｓ．Ｔｈｅｒｅｓｕｌｔｓｏｆｔｅｓｔｓｈｏｗｓｔｈｅｍｅｔｈｏｄｓｕｓｅｄｉｎｔｈｉｓｐａｐｅｒｃａｎｇａｉｎａｈｉｇｈａｃｃｕｒａｃｙｆｏｒｊｕｄｇｉｎｇｔｈｅｔｅｎｄｅｎｃｙｏｆｅｍｏｔｉｏｎ．Ｋｅｙｗｏｒｄｓ：ｓｔａｎｄａｒｄｗｏｒｄｓ；ｄｅｇｒｅｅｏｆｅｍｏｔｉｏｎ；ｔｅｎｄｅｎｃｙｏｆｅｍｏｔｉｏｎ；ａｍｂｉｇｕｉｔｙｏｆｅｍｏｔｉｏｎ收稿日期：２０１３⁃０１⁃１６．网络出版日期：２０１３⁃０６⁃０３．基金项目：云南省科技计划资助项目（２０１１ＦＺ０７４）．通信作者：程传鹏．Ｅ⁃ｍａｉｌ：ｃｈｅｎｇ８４４４＠ｓｉｎａ．ｃｏｍ．基准词集是指褒贬义倾向非常明显、强烈、具有代表性的词汇所构成的集合［１］．情感倾向判断中，基准词是衡量其他词语情感倾向的一个参照物，因此，基准词的选择对正确地判断情感的倾向有着至关重要的作用．在文献［２］中，Ｔｕｒｎｅｙ通过分析词汇上下文信息研究其情感倾向，采用ＰＭＩ⁃ＩＲ方法，使用２个词汇作为种子来判断其他短语的语义倾向．之后又将单对种子扩展成多对种子，选取了正反面各７个词汇作为情感基准词．文献［３］首先从《知网》中选择出２１４６个褒义词和３２９９个贬义词，从这些词语中选择没有褒贬歧义的常用词语作为测试集，然后将测试集中的词语在Ｇｏｏｇｌｅ中搜索，返回ｈｉｔｓ数，即它们在Ｗｅｂ上的词频降序排列，选取词频最高的２８０个词语作为基准词．文献［４］将文献［３］中所选出的基准词中语义重复的词替换成新的、有较高ｈｉｔｓ数的褒义词或贬义词，最后得到新的４０组褒贬基准词，这４０组褒贬基准词的特点是在保留较高的使用频率外，排除了语义相同的情况，提高了词汇的覆盖面．文献［５］通过词的聚类，将中文词聚类应

·350· 智能系统学报第8卷用到基准词的选择中，从构建好的目标领域本体中有考虑义原在语义树状图中的深度.依照树状图的选出一组初始的种子词，通过词的扩展聚类得出下定义，越是处于层次低的义原节点，概念描述的越具一代种子词，然后通过迭代得出优化的基准词文献体，比如“兽”和“走兽”，而处在层次越高的义原节 [6]利用公式计算语料库中名词、形容词和动词的点概念描述越笼统，比如“万物”和“物质”.因为对类别区分能力，选出区分能力较强的词M个，用所于d值相同的2对义原，处于语义层次树较低层次选出的词与已有的情感词表做交集，选择语料中出的应该比处于较高层次的2对词语的相似度要大现频率高的前N个词作为最终的基准词.文献[6] 因此，把式(1)改进为使用的基础情感词以《知网》发布的情感词语集为 a+H(p)+H(p) 基础，通过人工挑选，去掉一些不太常用或者情感倾 sim(P,P2)= 、a+Hp)+HP,)+L,)(2) 向不很明显的词语，最后得到褒义词3219个，贬义式中：H(P:)为义原节点到根节点的路径长度，词2905个，最终的基础情感词词典包含6196个基 L(P:,P)为2个义原节点第1次到达同一个父节点础情感词.然后计算它们的情感倾向权值，去掉分类所经过的最长路径长度，不正确的词以及权值过低的中性词，最后得到5281 -entityl实体个基础情感词.文献[7]选择基准词的方法是：从 -thingl万物《知网》[8]所提供的情感词语中选择全部义项只有 …Fphysicall物质一种极性的形容词和名词作为基准词，并且认为单 …下animatel生物一义项的词语不会出现褒贬歧义和情感极性较弱的 …上animal humanl动物情况 .humanl人 |humanizedl拟人通过人工选择具有倾向性的基准词方法的优，点 Lanimall兽是选择的基准词准确率高，但由于人知识的有限性 -beastl走兽和片面性，选择的基准词往往会漏选、错选.通过已图1树状的义原层次结构经制定好的褒贬倾向性词典，然后利用同义词词典 Fig.1 Arborescence hierarchical structure of semantic unit 对词典进行扩展的方法，虽然所选择的基准词较全假设情感词W的义项为{S1,S2,…,S},情面，但给后面的倾向性判断带来大量的计算由于搜感词W,的义项为{S,S2,…,S2m},义项之间的相索引擎的更新，利用搜索引擎所返回来的hits数筛似度计算，依然参照文献[9]中的计算方法，词语选基准词的方法，实际上也是不够客观的. W,和W,的相似度为各个义项的相似度之最大值， 1基准词的选择方法如式(3)所示：一个词语要作为基准词，一般应该满足3个条 sim(W,W,）F--mg2si(Sg.(3）如果直接将式(3)用于情感倾向判断中的词语件：情感代表性强、情感歧义少、情感极性强.下面分相似度计算，实际上是不太合理的.具有多个义项的别从这3个因素来叙述本文所提出的基准词选择的词语可能会在情感倾向上产生歧义，也就是说词语方法. 的某个义项可能为正面情感倾向，而另外一个义项 1.1情感语义相似度可能为负面情感倾向.在选择基准词的时候，应该尽通过改进的词语相似度计算方法，来选择情感量排除掉具有情感歧义的词.因此本文在计算情感歧义少的情感词作为基准词.文献[9]基于《知网》词语义相似度时采用情感词W,和W,的各个义项的的相似度计算，依照《知网》对义原的描述，文献[9] 语义相似度之和的平均值，假设情感词W,有n个义将所有的义原用一个树状的层次结构图来表示，如项，W2有m个义项，如果用E(W,W2)表示W1、W2 图1所示. 情感词语义相似度，其计算公式可以表示成式(4)：由于所有的义原根据上下位关系构成了一个树状的义原层次体系，假设2个义原在这个层次体系 m(Su,S2) (4) 中的路径距离为d,文献[9]采用式(1)来计算2个 E(W1,W2）=1.2时=1,2m n x m 义原之间的语义距离： 1.2情感度的计算 sim(pipa)=a 情感度指情感词能够代表负面情感词或者正面 (1) d a 情感词的程度通过对情感词的情感度的计算，选择式中各参数的含义见文献[9].式(1)的计算，并没出一些最具有代表性的情感词作为基准词基准词

用到基准词的选择中，从构建好的目标领域本体中选出一组初始的种子词，通过词的扩展聚类得出下一代种子词，然后通过迭代得出优化的基准词．文献［６］利用公式计算语料库中名词、形容词和动词的类别区分能力，选出区分能力较强的词Ｍ个，用所选出的词与已有的情感词表做交集，选择语料中出现频率高的前Ｎ个词作为最终的基准词．文献［６］使用的基础情感词以《知网》发布的情感词语集为基础，通过人工挑选，去掉一些不太常用或者情感倾向不很明显的词语，最后得到褒义词３２１９个，贬义词２９０５个，最终的基础情感词词典包含６１９６个基础情感词．然后计算它们的情感倾向权值，去掉分类不正确的词以及权值过低的中性词，最后得到５２８１个基础情感词．文献［７］选择基准词的方法是：从《知网》［８］所提供的情感词语中选择全部义项只有一种极性的形容词和名词作为基准词，并且认为单一义项的词语不会出现褒贬歧义和情感极性较弱的情况．通过人工选择具有倾向性的基准词方法的优点是选择的基准词准确率高，但由于人知识的有限性和片面性，选择的基准词往往会漏选、错选．通过已经制定好的褒贬倾向性词典，然后利用同义词词典对词典进行扩展的方法，虽然所选择的基准词较全面，但给后面的倾向性判断带来大量的计算．由于搜索引擎的更新，利用搜索引擎所返回来的ｈｉｔｓ数筛选基准词的方法，实际上也是不够客观的．１基准词的选择方法一个词语要作为基准词，一般应该满足３个条件：情感代表性强、情感歧义少、情感极性强．下面分别从这３个因素来叙述本文所提出的基准词选择的方法．１．１情感语义相似度通过改进的词语相似度计算方法，来选择情感歧义少的情感词作为基准词．文献［９］基于《知网》的相似度计算，依照《知网》对义原的描述，文献［９］将所有的义原用一个树状的层次结构图来表示，如图１所示．由于所有的义原根据上下位关系构成了一个树状的义原层次体系，假设２个义原在这个层次体系中的路径距离为ｄ，文献［９］采用式（１）来计算２个义原之间的语义距离：ｓｉｍ（ｐ１，ｐ２）＝ａｄ＋ａ．（１）式中各参数的含义见文献［９］．式（１）的计算，并没有考虑义原在语义树状图中的深度．依照树状图的定义，越是处于层次低的义原节点，概念描述的越具体，比如“兽”和“走兽”，而处在层次越高的义原节点概念描述越笼统，比如“万物”和“物质”．因为对于ｄ值相同的２对义原，处于语义层次树较低层次的应该比处于较高层次的２对词语的相似度要大．因此，把式（１）改进为ｓｉｍ（ｐ１，ｐ２）＝ａ＋Ｈ（ｐ１）＋Ｈ（ｐ１）ａ＋Ｈ（ｐ１）＋Ｈ（ｐ１）＋Ｌ（ｐ１，ｐ２）．（２）式中：Ｈ（ｐｉ）为义原节点到根节点的路径长度，Ｌ（ｐｉ，ｐｊ）为２个义原节点第１次到达同一个父节点所经过的最长路径长度．－ｅｎｔｉｔｙ｜实体 ├ｔｈｉｎｇ｜万物 … ├ｐｈｙｓｉｃａｌ｜物质 … ├ａｎｉｍａｔｅ｜生物 … ├ａｎｉｍａｌｈｕｍａｎ｜动物 … ├ｈｕｍａｎ｜人 │└ｈｕｍａｎｉｚｅｄ｜拟人 └ａｎｉｍａｌ｜兽 ├ｂｅａｓｔ｜走兽图１树状的义原层次结构Ｆｉｇ．１Ａｒｂｏｒｅｓｃｅｎｃｅｈｉｅｒａｒｃｈｉｃａｌｓｔｒｕｃｔｕｒｅｏｆｓｅｍａｎｔｉｃｕｎｉｔ假设情感词Ｗ１的义项为｛Ｓ１１，Ｓ１２，…，Ｓ１ｎ｝，情感词Ｗ２的义项为｛Ｓ２１，Ｓ２２，…，Ｓ２ｍ｝，义项之间的相似度计算，依然参照文献［９］中的计算方法，词语Ｗ１和Ｗ２的相似度为各个义项的相似度之最大值，如式（３）所示：ｓｉｍ（Ｗ１，Ｗ２）＝ｍａｘｉ＝１，２，．．．，ｎ，ｊ＝１，２，．．．，ｍｓｉｍ（Ｓ１ｉ，Ｓ２ｊ）．（３）如果直接将式（３）用于情感倾向判断中的词语相似度计算，实际上是不太合理的．具有多个义项的词语可能会在情感倾向上产生歧义，也就是说词语的某个义项可能为正面情感倾向，而另外一个义项可能为负面情感倾向．在选择基准词的时候，应该尽量排除掉具有情感歧义的词．因此本文在计算情感词语义相似度时采用情感词Ｗ１和Ｗ２的各个义项的语义相似度之和的平均值，假设情感词Ｗ１有ｎ个义项，Ｗ２有ｍ个义项，如果用Ｅ（Ｗ１，Ｗ２）表示Ｗ１、Ｗ２情感词语义相似度，其计算公式可以表示成式（４）：Ｅ（Ｗ１，Ｗ２）＝ｉ＝１，２，．．．，∑ｎ，ｊ＝１，２，．．．，ｍｓｉｍ（Ｓ１ｉ，Ｓ２ｊ）ｎ × ｍ．（４）１．２情感度的计算情感度指情感词能够代表负面情感词或者正面情感词的程度．通过对情感词的情感度的计算，选择出一些最具有代表性的情感词作为基准词．基准词 ·３５０· 智能系统学报第８卷

第4期程传鹏，等：情感倾向判断中基准词的选择 ·351· 的情感倾向应该特别明显，而且从计算量上考虑，情表1基于知网的词语相似度计算感词越少越好应该从正面情感词和负面情感词中 Table 1 Similarity calculation of words based on HowNet 选择出最具有倾向性代表意义的词语来作为基词语 W. W> 准词. S 0.85 0.82 假设在情感词表中有另外的5个情感词S,、S2、 S2 0.92 0.89 SS4、S,它们与W、W2的情感语义相似度如表1 S3 0.86 0.84 Sa 0.81 0.76 所示.表1中，sim(S:,W)≠1，因为如果相似度等于 0.86 0.83 1的话，那么可能2个词为同义词或者近义词.从表 S 1中可以看出，W,与其他5个情感词的情感语义相对于所有的情感词表，分别计算两两之间的情似度都要大于W2与其他5个情感词的情感语义相感语义相似度，如果用S(W,W)表示W,、W情感语义相似度，那么所有词的情感语义相似度可以表示似度，直观地判断，应该选择W:为基准词. 成如表2所示表2情感词之间的语义相似度 Table 2 Semantic similarity between emotion words 词语 W W 1 S(W,,W2) s(WW) …S(W,W.) W S(W.W) 1 S(W2.W) …S(W2,W.) W. s(W.W)s(W.W,) …S(W,W) … W. S(W。,W,)S(W。,W2) S(W。,W,)… 1 如果S(W,W)≥a,建立W和W之间的关 W)≥入并且i≠j的所有W的集合系，处理完所有的情感词后，形成如下图2所示基准词指的是情感表现力强，最能够体现正面情感或者负面情感的词条，依据此定义，一个情感词要作为基准词，应该存在以下2个事实：候选基准词候选基准词候选基准词 1)如果一个词条与情感词集合中其他词条都有较高的连接度，那么该词条的情感度高：候选基准词 2)如果一个词条的情感度高，那么与该词条连接度高的词条的相应的情感度也高；候选基准词候选基准词设W:是某个候选基准词，其情感度为D,(W), 候选基准词记F是所有W,的所有邻接词条的集合，n,=IFI是指满足E(W,W)≥α的所有W的总数，依据上面2 候选基准词个事实，候选基准词的情感度可以用式(5)进行计算：候选基准词 D,(W)=∑ D,(W) (5) 图2基准词语义连接定义词语语义的邻接矩阵： Fig.2 Semantic connection diagram of standard words 定义1情感度(emotion degree)指的是候选基准词能够代表正面情感词或者负面情感词情感的程 G (6 度，用D(W)表示定义2词对连接强度C(W,W2)指的是2个式中：词语连接的紧密程度，用2个词语的情感语义相似 1,ifL(W,W)≥入；度表示，即C(W,W2)=E(W,W2) gij =0,if i=j; 定义3W:的邻接词条指的是指满足C(W:, 0,ifL(W,W)<入：

的情感倾向应该特别明显，而且从计算量上考虑，情感词越少越好．应该从正面情感词和负面情感词中选择出最具有倾向性代表意义的词语来作为基准词．假设在情感词表中有另外的５个情感词Ｓ１、Ｓ２、Ｓ３、Ｓ４、Ｓ５，它们与Ｗ１、Ｗ２的情感语义相似度如表１所示．表１中，ｓｉｍ（Ｓｉ，Ｗｊ）≠１，因为如果相似度等于１的话，那么可能２个词为同义词或者近义词．从表１中可以看出，Ｗ１与其他５个情感词的情感语义相似度都要大于Ｗ２与其他５个情感词的情感语义相似度，直观地判断，应该选择Ｗ１为基准词．表１基于知网的词语相似度计算Ｔａｂｌｅ１ＳｉｍｉｌａｒｉｔｙｃａｌｃｕｌａｔｉｏｎｏｆｗｏｒｄｓｂａｓｅｄｏｎＨｏｗＮｅｔ词语Ｗ１Ｗ２Ｓ１０．８５０．８２Ｓ２０．９２０．８９Ｓ３０．８６０．８４Ｓ４０．８１０．７６Ｓ５０．８６０．８３对于所有的情感词表，分别计算两两之间的情感语义相似度，如果用Ｓ（Ｗｉ，Ｗｊ）表示Ｗｉ、Ｗｊ情感语义相似度，那么所有词的情感语义相似度可以表示成如表２所示．表２情感词之间的语义相似度Ｔａｂｌｅ２Ｓｅｍａｎｔｉｃｓｉｍｉｌａｒｉｔｙｂｅｔｗｅｅｎｅｍｏｔｉｏｎｗｏｒｄｓ词语Ｗ１Ｗ２ … Ｗｉ … ＷｎＷ１１Ｓ（Ｗ１，Ｗ２） … Ｓ（Ｗ１，Ｗｉ） … Ｓ（Ｗ１，Ｗｎ）Ｗ２Ｓ（Ｗ１，Ｗ１）１ … Ｓ（Ｗ２，Ｗｉ） … Ｓ（Ｗ２，Ｗｎ） ︙ … … … … … … ＷｉＳ（Ｗｉ，Ｗ１）Ｓ（Ｗｉ，Ｗ２） … １ … Ｓ（Ｗｉ，Ｗｎ） ︙ … … … … … … ＷｎＳ（Ｗｎ，Ｗ１）Ｓ（Ｗｎ，Ｗ２） … Ｓ（Ｗｎ，Ｗｉ） … １如果Ｓ（Ｗｉ，Ｗｊ） ≥α，建立Ｗｉ和Ｗｊ之间的关系，处理完所有的情感词后，形成如下图２所示．图２基准词语义连接Ｆｉｇ．２Ｓｅｍａｎｔｉｃｃｏｎｎｅｃｔｉｏｎｄｉａｇｒａｍｏｆｓｔａｎｄａｒｄｗｏｒｄｓ定义１情感度（ｅｍｏｔｉｏｎｄｅｇｒｅｅ）指的是候选基准词能够代表正面情感词或者负面情感词情感的程度，用Ｄ１（Ｗｉ）表示．定义２词对连接强度Ｃ（Ｗ１，Ｗ２）指的是２个词语连接的紧密程度，用２个词语的情感语义相似度表示，即Ｃ（Ｗ１，Ｗ２）＝Ｅ（Ｗ１，Ｗ２）．定义３Ｗｉ的邻接词条指的是指满足Ｃ（Ｗｉ，Ｗｊ）≥λ 并且ｉ≠ｊ的所有Ｗｊ的集合．基准词指的是情感表现力强，最能够体现正面情感或者负面情感的词条，依据此定义，一个情感词要作为基准词，应该存在以下２个事实：１）如果一个词条与情感词集合中其他词条都有较高的连接度，那么该词条的情感度高；２）如果一个词条的情感度高，那么与该词条连接度高的词条的相应的情感度也高；设Ｗｉ是某个候选基准词，其情感度为Ｄ１Ｗｉ ( ) ，记Ｆｊ是所有Ｗｉ的所有邻接词条的集合，ｎｊ＝｜Ｆｊ｜是指满足Ｅ（Ｗｋ，Ｗｊ）≥α 的所有Ｗｋ的总数，依据上面２个事实，候选基准词的情感度可以用式（５）进行计算：Ｄ１Ｗｉ ( ) ＝Ｗ∑ ｊ∈ＦｉＤ１Ｗｊ ( ) ｎｊ．（５）定义词语语义的邻接矩阵：Ｇ＝ｇ１１ … ｇ１ｎ ︙ ︙ ｇｎ１ … ｇｎｎ é ë ê ê ê ê ù û ú ú ú ú ．（６）式中：ｇｉ，ｊ＝１，０，０， ì î í ïï ïï ｉｆｉｆｉｆＬ（Ｗｉ，Ｗｊ） ≥ λ；ｉ＝ｊ；Ｌ（Ｗｉ，Ｗｊ）＜ λ．第４期程传鹏，等：情感倾向判断中基准词的选择 ·３５１·

·352. 智能系统学报第8卷在邻接矩阵G=(g)定义的基础上，式(6)可正面情感词语义相似度高的话，说明它们二者之间写成：的情感倾向距离大.如果用D,(W)表示词语W的情 D,(W)=∑D,(W）感倾向度，那么正面情感词W。的情感倾向度可以 (7) Wief ni 用该词与所有的负面情感词的语义相似的和来表如果情感词表中有n个候选基准词，它们的情示，负面情感词W。的情感倾向度可以用该词与所感度可以用一个n维的列向量P来表示，即有的正面情感词的语义相似的和来表示，计算方 P=[D(W)D(W2)…D(W)]T 法为则式(7)可写成： D2(W)= ∑E(W。,W) P=AP. (8) 式中：Ag=g时/n5 D,(w)=∑E(w,W). 式(8)是递归定义的，因此可以用迭代的办法求解.可以看出，候选基准词的情感度P=(D(W)) 2 基准词选择过程以及结果实为矩阵A「对应于特征根为1的特征向量，当A'= 01 1)从2010年《知网》所发布的3730个正面评 10 时，将得到P,=P2,无法比较候选基准词的价词语和3116个负面评价词语中，去掉单字和不情感度的大小因此，要对式(8)进行改进.采用加权常见的词，结果得到3256个正面情感词和2986个算法如式(9)：负面情感词，以这些情感词作为最初的候选基准词： P=(1-d)E 2)由前面方法分别计算正面情感词和负面情 dA P. (8) n 感词的情感度；式中：n为候选基准词个数：E为n×n的矩阵，矩阵 3)分别从正面情感词和负面情感词中选择出的元素值都是1：de[0,1],参照文献[10]，文中d 情感度排名靠前的1000个词：的取值为0.85. 4)由前面方法分别计算出1000对正面情感词 1.3情感倾向度的计算和负面情感词的情感倾向度：通过对情感词情感倾向度的计算，选择情感倾 5)选择情感倾向度较大的词语，作为最终的基向较大的词来作为基准词.设W,W,…,,o为准词：上一步所选择的负面基准词，个数为1000.W,W, 经过前面5步的选择后，排名靠前的40对正面 …,W,m为1000个正面情感基准词.如果直接用刘情感词和负面情感词分别如下所示： “良好、美好、最佳、上等、容易、最好、美丽、顶群所开发的相似度计算软件，会发现一些情感倾向级、宽大、精彩、快乐、端正、稳定、优秀、高级、确切、相反的词语，语义相似度的值却很大，比如一对明显明亮、热情、清新、出色、大方、便宜、积极、著名、灵语义相反的词语“小气”和“大方”，按照刘群的计算活、牢固、真实、简单、超级、必需、先进、纯朴、轻快方法sim(“小气”，“大方”)=0.81，通过查看义项发欢乐、仁爱、平坦、聪明、出色、平安、成熟” 现“大方”的义项是“ADJ avaluel属性值，toleranceI “暗淡、昂贵、傲慢、薄弱、悲观、病弱、不当、愚气量，generous I慷慨”，“小气”的义项是““ADJ 蠢、脏乱、自大、糟糕、罪恶、杂乱、愚昧、有害、阴冷、 avalue l属性值，tolerancel气量，miserI吝啬”刘群所虚假、严重、阴暗、凄凉、消极、下等、无效、无情、强开发的软件是基于《知网》的，《知网》是一个以汉语制、凶狠、颓废、贪心、缺德、奢侈、散乱、危险、穷困、和英语的词语所代表的概念为描述对象，以揭示概破旧、萧条、小气、轻狂、失常、俗气” 念与概念之间以及概念所具有的属性之间的关系为为了进一步丰富基准词，本文通过哈尔滨工业基本内容的常识知识库]在《知网》中，义原之间大学信息检索研究室所提供的《同义词词林扩展除了上下位关系外，还有很多种其他的关系，如果在版》对所选择的负面情感基准词和正面情感基准词计算时考虑进来，可能会得到更精细的义原相似度进行同义词扩充结构如图3所示。度量，义原一方面作为描述概念的最基本单位，另一为了避免出现某些词和基准词语义相似度高而方面，义原之间又存在复杂的关系.《知网》认为，具词义却相反所带来的误判，对未知词语的情感判断有反义或者对义关系的2个义原比较相似，因为它时，首先查找基准词以及基准词的同义词，如果没有们在实际的语料中可以互相替换的可能性很大.因找到，则计算未知词语和基准词的语义相似度此在判断情感倾向时，如果1个负面情感词和1个

在邻接矩阵Ｇ＝（ｇｉｊ）定义的基础上，式（６）可写成：Ｄ１Ｗｉ ( ) ＝Ｗ∑ ｊ∈ＦｇｉｊｎｊＤ１（Ｗｊ）．（７）如果情感词表中有ｎ个候选基准词，它们的情感度可以用一个ｎ维的列向量Ｐ来表示，即Ｐ＝［Ｄ１（Ｗ１）Ｄ１（Ｗ２） … Ｄ１（Ｗｎ）］Ｔ．则式（７）可写成：Ｐ＝ＡＴＰ．（８）式中：Ａｉｊ＝ｇｉｊ／ｎｊ．式（８）是递归定义的，因此可以用迭代的办法求解．可以看出，候选基准词的情感度Ｐ＝（Ｄ１（Ｗｉ））实为矩阵ＡＴ对应于特征根为１的特征向量，当ＡＴ＝０１１０ é ë ê ê ù û ú ú 时，将得到Ｐ１＝Ｐ２，无法比较候选基准词的情感度的大小．因此，要对式（８）进行改进．采用加权算法如式（９）：Ｐ＝（１－ｄ）Ｅｎ＋ｄＡＴＰ．（８）式中：ｎ为候选基准词个数；Ｅ为ｎ×ｎ的矩阵，矩阵的元素值都是１；ｄ∈［０，１］，参照文献［１０］，文中ｄ的取值为０．８５．１．３情感倾向度的计算通过对情感词情感倾向度的计算，选择情感倾向较大的词来作为基准词．设Ｗｎ１，Ｗｎ２，…，Ｗｎ１０００为上一步所选择的负面基准词，个数为１０００．Ｗｐ１，Ｗｐ２， …，Ｗｐ１０００为１０００个正面情感基准词．如果直接用刘群所开发的相似度计算软件，会发现一些情感倾向相反的词语，语义相似度的值却很大，比如一对明显语义相反的词语“小气”和“大方”，按照刘群的计算方法ｓｉｍ（“小气”，“大方”）＝０．８１，通过查看义项发现“大方”的义项是“ＡＤＪａｖａｌｕｅ｜属性值，ｔｏｌｅｒａｎｃｅ｜气量，ｇｅｎｅｒｏｕｓ｜慷慨 ”， “ 小气” 的义项是 ““ ＡＤＪａｖａｌｕｅ｜属性值，ｔｏｌｅｒａｎｃｅ｜气量，ｍｉｓｅｒ｜吝啬 ”刘群所开发的软件是基于《知网》的，《知网》是一个以汉语和英语的词语所代表的概念为描述对象，以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库［９］．在《知网》中，义原之间除了上下位关系外，还有很多种其他的关系，如果在计算时考虑进来，可能会得到更精细的义原相似度度量，义原一方面作为描述概念的最基本单位，另一方面，义原之间又存在复杂的关系．《知网》认为，具有反义或者对义关系的２个义原比较相似，因为它们在实际的语料中可以互相替换的可能性很大．因此在判断情感倾向时，如果１个负面情感词和１个正面情感词语义相似度高的话，说明它们二者之间的情感倾向距离大．如果用Ｄ２（Ｗ）表示词语Ｗ的情感倾向度，那么正面情感词Ｗｐ的情感倾向度可以用该词与所有的负面情感词的语义相似的和来表示，负面情感词Ｗｎ的情感倾向度可以用该词与所有的正面情感词的语义相似的和来表示，计算方法为Ｄ２（Ｗｐ）＝ ∑ ｎｉ＝１Ｅ（Ｗｐ，Ｗｎｉ），Ｄ２（Ｗｎ）＝ ∑ ｎｉ＝１Ｅ（Ｗｎ，Ｗｐｉ）． ì î í ï ï ï ï ２基准词选择过程以及结果１）从２０１０年《知网》所发布的３７３０个正面评价词语和３１１６个负面评价词语中，去掉单字和不常见的词，结果得到３２５６个正面情感词和２９８６个负面情感词，以这些情感词作为最初的候选基准词；２）由前面方法分别计算正面情感词和负面情感词的情感度；３）分别从正面情感词和负面情感词中选择出情感度排名靠前的１０００个词；４）由前面方法分别计算出１０００对正面情感词和负面情感词的情感倾向度；５）选择情感倾向度较大的词语，作为最终的基准词；经过前面５步的选择后，排名靠前的４０对正面情感词和负面情感词分别如下所示： “良好、美好、最佳、上等、容易、最好、美丽、顶级、宽大、精彩、快乐、端正、稳定、优秀、高级、确切、明亮、热情、清新、出色、大方、便宜、积极、著名、灵活、牢固、真实、简单、超级、必需、先进、纯朴、轻快、欢乐、仁爱、平坦、聪明、出色、平安、成熟”． “暗淡、昂贵、傲慢、薄弱、悲观、病弱、不当、愚蠢、脏乱、自大、糟糕、罪恶、杂乱、愚昧、有害、阴冷、虚假、严重、阴暗、凄凉、消极、下等、无效、无情、强制、凶狠、颓废、贪心、缺德、奢侈、散乱、危险、穷困、破旧、萧条、小气、轻狂、失常、俗气”．为了进一步丰富基准词，本文通过哈尔滨工业大学信息检索研究室所提供的《同义词词林扩展版》对所选择的负面情感基准词和正面情感基准词进行同义词扩充．结构如图３所示．为了避免出现某些词和基准词语义相似度高而词义却相反所带来的误判，对未知词语的情感判断时，首先查找基准词以及基准词的同义词，如果没有找到，则计算未知词语和基准词的语义相似度． ·３５２· 智能系统学报第８卷

第4期程传鹏，等：情感倾向判断中基准词的选择 ·353. 采用KNN分类的方法，以这些情感基准词作为 : KNN分类器的特征词，特征词的加权方法为基 -同义词1同义词2同义词-同义词n tft,d)×log(N/n,) W(t,d)= 词 ∑，e4[t,d)×log(NWm,)】式中：W(t,d)为情感词t在在语料d中的权重，而 f(t,d)为t在d中的词频，N为文档的总数，n,为语图3基准词同义扩展料中出现t的文档数 Fig.3 Synonym expansions of standard words 试验中，词语相似度的计算公式B,sim,(S, 3实验及评价 S2)中B1=0.6,B2=0.2,B3=0.2,sim,(P1,P2)中入1、从网上的评论中搜集到4个领域的中文数据入2取了3组值：集，分别是：国内某知名网上商城中对某款电子产品 1)入1=0.6，入2=0.4：的用户评价作为测试语料1，新浪网财经论坛中对 2)入1=0.5，A2=0.5; 某只股票的用户评价作为测试语料2，携程旅行网 3)入1=0.4，入2=0.6. 上对某个酒店的用户评价作为测试语料3，搜狐体 sim,(P1,P2)公式中a1、a2也分别取了3组值：育上对某个比赛规则的用户评价作为测试语料4.其 1)a1=0.6、a2=0.4; 中，测试语料1包含正面评价3690条，负面评价 2)a1=0.7、a2=0.3; 4721条；测试语料2包含正面评价4215条，负面评 3)a1=0.5、2=0.5. 价3976条：测试语料3包含正面评价2876条，负在构造邻接矩阵G时，入取值为0.75. 面评价3128条：测试语料4包含正面评价4134 用的评价指标为条，负面评价3157条.以本文所选择的基准词与文献[2]所选择的基准词和文献[3]所选择的基准词准确率= -×100%. 进行情感判断比较.其中文献[2]的基准词是由人工 N 选择的，所选择的40对基准词如下所示：式中：Nc=能正确找出文本倾向的总数：N,=测试文 “健康、安全、天下第一、美丽、超级、保险、卫本的总数.KNN分类中K的取值分别为1O00、生、天使、英雄、精选、快乐、权威、稳定、优秀、高级、 1200、1400、1500,分别采用40组人工选择的基准精英、最好、最佳、幸福、容易、高手、文明、积极、著词对、由词典构造的基准词对和本文所选择的40组名、漂亮、完美、真实、简单、和平、开通、先进、便宜、情感词对分别作为特征词，对4组语料进行情感倾优质、欢乐、美好、良好、不错、出色、成熟、完善”. 向分类.分类准确率的结果比较如图4~7所示 “合作、黑客、疯狂、错误、事故、非法、失败、背由于本文在选择基准词时，考虑到了情感词的后、麻烦、不良、病人、恶意、色情、暴力、黄色、浪费、情感歧义、情感度、情感倾向性.本文所提出的方法落后、漏洞、有害、讨厌、自负、不安、魔鬼、花样、野在准确率上都要优于其他2种方法，因而本文的方蛮、陷阱、不当、腐败、无情、失误、淫秽、流氓、虚假、法具备有一定的实用性.图4~7的实验数据的比较残酷、变态、脆弱、不合格、愚人、恶劣、恶魔” 结果，也验证了该结论 1.0r 文献[3]中所选择的基准词是通过词典进行构造的，如下所示： 0.8 “好、安全、不错、喜欢、加速、舒适、豪华、满意、 0.6 爱、解决、风格、优势、保证、全新、实在、舒服、稳定、方便、品质、提升、乐趣、省油、先进、成功、漂亮、最 0.4 好、保护、好车、值得、良好、满足、享受、出色、提高、 ◆一人工选择的基准词适合、平稳、轻松、优点、完美、实用” 0.2 ■由词典构造的基准词一本文所选择的基准词 “碰撞、噪音、事故、毛病、不好、严重、下降、缺 0.8 1.0 点、不够、死、不足、故障、缺陷、郁闷、撞击、断裂、失 12141610 K 望、担心、倒、车祸、遗憾、怀疑、不行、变形、断、危险、图4对测试语料1的准确率比较震动、损失、噪声、麻烦、冲击、隐患、后悔、恐怕、粗 Fig.4 Accuracy comparison for test corpus 1 糙、颠簸、造成、难看、不类、伤害

图３基准词同义扩展Ｆｉｇ．３Ｓｙｎｏｎｙｍｅｘｐａｎｓｉｏｎｓｏｆｓｔａｎｄａｒｄｗｏｒｄｓ３实验及评价从网上的评论中搜集到４个领域的中文数据集，分别是：国内某知名网上商城中对某款电子产品的用户评价作为测试语料１，新浪网财经论坛中对某只股票的用户评价作为测试语料２，携程旅行网上对某个酒店的用户评价作为测试语料３，搜狐体育上对某个比赛规则的用户评价作为测试语料４．其中，测试语料１包含正面评价３６９０条，负面评价４７２１条；测试语料２包含正面评价４２１５条，负面评价３９７６条；测试语料３包含正面评价２８７６条，负面评价３１２８条；测试语料４包含正面评价４１３４条，负面评价３１５７条．以本文所选择的基准词与文献［２］所选择的基准词和文献［３］所选择的基准词进行情感判断比较．其中文献［２］的基准词是由人工选择的，所选择的４０对基准词如下所示： “健康、安全、天下第一、美丽、超级、保险、卫生、天使、英雄、精选、快乐、权威、稳定、优秀、高级、精英、最好、最佳、幸福、容易、高手、文明、积极、著名、漂亮、完美、真实、简单、和平、开通、先进、便宜、优质、欢乐、美好、良好、不错、出色、成熟、完善”． “合作、黑客、疯狂、错误、事故、非法、失败、背后、麻烦、不良、病人、恶意、色情、暴力、黄色、浪费、落后、漏洞、有害、讨厌、自负、不安、魔鬼、花样、野蛮、陷阱、不当、腐败、无情、失误、淫秽、流氓、虚假、残酷、变态、脆弱、不合格、愚人、恶劣、恶魔”．文献［３］中所选择的基准词是通过词典进行构造的，如下所示： “好、安全、不错、喜欢、加速、舒适、豪华、满意、爱、解决、风格、优势、保证、全新、实在、舒服、稳定、方便、品质、提升、乐趣、省油、先进、成功、漂亮、最好、保护、好车、值得、良好、满足、享受、出色、提高、适合、平稳、轻松、优点、完美、实用”． “碰撞、噪音、事故、毛病、不好、严重、下降、缺点、不够、死、不足、故障、缺陷、郁闷、撞击、断裂、失望、担心、倒、车祸、遗憾、怀疑、不行、变形、断、危险、震动、损失、噪声、麻烦、冲击、隐患、后悔、恐怕、粗糙、颠簸、造成、难看、不爽、伤害”．采用ＫＮＮ分类的方法，以这些情感基准词作为ＫＮＮ分类器的特征词，特征词的加权方法为Ｗ（ｔ，ｄ）＝ｔｆ（ｔ，ｄ） × ｌｏｇ（Ｎ／ｎｔ） ∑ｔ∈ｄ [ｔｆ（ｔ，ｄ） × ｌｏｇ（Ｎ／ｎｔ） ] ２．式中：Ｗ（ｔ，ｄ）为情感词ｔ在在语料ｄ中的权重，而ｔｆ（ｔ，ｄ）为ｔ在ｄ中的词频，Ｎ为文档的总数，ｎｔ为语料中出现ｔ的文档数．试验中，词语相似度的计算公式∑ ３ｉ＝１ βｉｓｉｍｉ（Ｓ１，Ｓ２）中 β１＝０．６，β２＝０．２，β３＝０．２，ｓｉｍｓ（Ｐ１，Ｐ２）中 λ１、 λ２取了３组值：１）λ１＝０．６，λ２＝０．４；２）λ１＝０．５，λ２＝０．５；３）λ１＝０．４，λ２＝０．６．ｓｉｍｓ（Ｐ１，Ｐ２）公式中 α１、α２也分别取了３组值：１）α１＝０．６、α２＝０．４；２）α１＝０．７、α２＝０．３；３）α１＝０．５、α２＝０．５．在构造邻接矩阵Ｇ时，λ 取值为０．７５．用的评价指标为准确率＝ＮＣＮＴ × １００％．式中：ＮＣ＝能正确找出文本倾向的总数；ＮＴ＝测试文本的总数．ＫＮＮ分类中Ｋ的取值分别为１０００、１２００、１４００、１５００，分别采用４０组人工选择的基准词对、由词典构造的基准词对和本文所选择的４０组情感词对分别作为特征词，对４组语料进行情感倾向分类．分类准确率的结果比较如图４～７所示．由于本文在选择基准词时，考虑到了情感词的情感歧义、情感度、情感倾向性．本文所提出的方法在准确率上都要优于其他２种方法，因而本文的方法具备有一定的实用性．图４～７的实验数据的比较结果，也验证了该结论．图４对测试语料１的准确率比较Ｆｉｇ．４Ａｃｃｕｒａｃｙｃｏｍｐａｒｉｓｏｎｆｏｒｔｅｓｔｃｏｒｐｕｓ１第４期程传鹏，等：情感倾向判断中基准词的选择 ·３５３·

·354. 智能系统学报第8卷 1.0 虽然得到了提高，但总体上来看变化趋势较为缓慢在实际应用中，随着基准词数量的增多，计算量也会 0.8 增大.从准确率和时间开销综合考虑，应该选择的基指0.6 准词数量在40~60. 1.0r 0.4 0.9 ◆ ◆人工选择的基准词 0少 ■一由词典构造的基准词 0.8 本文所选择的基准词 6.8 1.0 1.2 K 14工810 0.7 0.6 图5对测试语料2的准确率比较 0.50 102040608090100 Fig.5 Accuracy comparison for test corpus 2 基准词个数图8不同基准词个数对准确率的影响 1.0 Fig.8 Influence of the number of different standard words on accuracy rate 0.8 4 结论本文分析了已有工作中基准词选择的优点和缺 0.4 点，在此基础上，提出了一种情感倾向判断中基准词 ◆人工选择的基准词 0.2 ■一由词典构造的基准词选择的方法.分别考虑到了情感词的情感歧义性、情 ★一本文所选择的基准词感代表性、情感倾向性，并相应地给出了计算公式. 6.8 1.0 1.2 1.4 o 通过实验测试表明，本文所提出的基准词，在情感倾向的判断上准确性较高.文章的主要贡献有：图6对测试语料3的准确率比较 1)对词语相似度方法进行了改进，通过计算情 Fig.6 Accuracy comparison for test corpus 3 感词的情感语义相似度，排除掉一些有情感歧义的词作为基准词的可能。 1.0 2)通过计算情感度，选择出情感代表性强的词语作为候选基准词. 0.8 3)通过对情感词情感度的计算，选择出情感倾 0.6 向性强的情感词作为候选基准词。实验结果表明，采用本文选择的基准词，在情感 0.4 ◆人工选择的基准词倾向判断的准确率上，要优于传统的方法.由于词典 0.2 一由词典构造的基准词资源的不完备性，以及网络上的新词，比如“二” 士本文所选择的基准词 “浮云”、“伪娘”等，都没有在词典中出现，以后的研 0.8 1.0 1.2 1.4 610 究中，将进一步的考虑这些未登录词的语义对文本相似度的影响图7对测试语料4的准确率比较 Fig.7 Accuracy comparison for test corpus 4 参考文献：「1]孙春华，刘业政，彭学仕.一种含强度的基准词选择和为了验证不同的基准词个数对情感分类准确率词汇倾向性判别方法[J].情报学报，2011,30(12)：的影响，分别从本文所得到的基准词中选择出排名 1261-1267. 靠前的15、20、25、30、40、50、60、75、80、85、90、95 SUN Chunhua,LIU Yezheng,PENG Xueshi.A method for 100、120对基准词，对4组测试语料分别测试，取其 paradigm words selection with intensity information and word sentiment orientation discrimination[J].Journal of the Chi- 平均值.得到的准确率如图8所示从图8可以看出， na Society for Scientific and Technical Information,2011, 基准词的数量从15~40时，情感倾向的分类的准确 30(12):1261-1267. 率得到了很快的提高，其中，在选择40对基准词时， [2]PETER D T.Thumbs up or thumbs down?Semantic orienta- 准确率为85%：基准词的数量大于40之后，准确率 tion applied to unsupervised classification of reviews[C]/

图５对测试语料２的准确率比较Ｆｉｇ．５Ａｃｃｕｒａｃｙｃｏｍｐａｒｉｓｏｎｆｏｒｔｅｓｔｃｏｒｐｕｓ２图６对测试语料３的准确率比较Ｆｉｇ．６Ａｃｃｕｒａｃｙｃｏｍｐａｒｉｓｏｎｆｏｒｔｅｓｔｃｏｒｐｕｓ３图７对测试语料４的准确率比较Ｆｉｇ．７Ａｃｃｕｒａｃｙｃｏｍｐａｒｉｓｏｎｆｏｒｔｅｓｔｃｏｒｐｕｓ４为了验证不同的基准词个数对情感分类准确率的影响，分别从本文所得到的基准词中选择出排名靠前的１５、２０、２５、３０、４０、５０、６０、７５、８０、８５、９０、９５、１００、１２０对基准词，对４组测试语料分别测试，取其平均值．得到的准确率如图８所示．从图８可以看出，基准词的数量从１５～４０时，情感倾向的分类的准确率得到了很快的提高，其中，在选择４０对基准词时，准确率为８５％；基准词的数量大于４０之后，准确率虽然得到了提高，但总体上来看变化趋势较为缓慢．在实际应用中，随着基准词数量的增多，计算量也会增大．从准确率和时间开销综合考虑，应该选择的基准词数量在４０～６０．图８不同基准词个数对准确率的影响Ｆｉｇ．８Ｉｎｆｌｕｅｎｃｅｏｆｔｈｅｎｕｍｂｅｒｏｆｄｉｆｆｅｒｅｎｔｓｔａｎｄａｒｄｗｏｒｄｓｏｎａｃｃｕｒａｃｙｒａｔｅ４结论本文分析了已有工作中基准词选择的优点和缺点，在此基础上，提出了一种情感倾向判断中基准词选择的方法．分别考虑到了情感词的情感歧义性、情感代表性、情感倾向性，并相应地给出了计算公式．通过实验测试表明，本文所提出的基准词，在情感倾向的判断上准确性较高．文章的主要贡献有：１）对词语相似度方法进行了改进，通过计算情感词的情感语义相似度，排除掉一些有情感歧义的词作为基准词的可能．２）通过计算情感度，选择出情感代表性强的词语作为候选基准词．３）通过对情感词情感度的计算，选择出情感倾向性强的情感词作为候选基准词．实验结果表明，采用本文选择的基准词，在情感倾向判断的准确率上，要优于传统的方法．由于词典资源的不完备性，以及网络上的新词，比如“二”、 “浮云”、“伪娘”等，都没有在词典中出现，以后的研究中，将进一步的考虑这些未登录词的语义对文本相似度的影响．参考文献：［１］孙春华，刘业政，彭学仕．一种含强度的基准词选择和词汇倾向性判别方法［Ｊ］．情报学报，２０１１，３０（１２）：１２６１⁃１２６７．ＳＵＮＣｈｕｎｈｕａ，ＬＩＵＹｅｚｈｅｎｇ，ＰＥＮＧＸｕｅｓｈｉ．Ａｍｅｔｈｏｄｆｏｒｐａｒａｄｉｇｍｗｏｒｄｓｓｅｌｅｃｔｉｏｎｗｉｔｈｉｎｔｅｎｓｉｔｙｉｎｆｏｒｍａｔｉｏｎａｎｄｗｏｒｄｓｅｎｔｉｍｅｎｔｏｒｉｅｎｔａｔｉｏｎｄｉｓｃｒｉｍｉｎａｔｉｏｎ［Ｊ］．ＪｏｕｒｎａｌｏｆｔｈｅＣｈｉ⁃ ｎａＳｏｃｉｅｔｙｆｏｒＳｃｉｅｎｔｉｆｉｃａｎｄＴｅｃｈｎｉｃａｌＩｎｆｏｒｍａｔｉｏｎ，２０１１，３０（１２）：１２６１⁃１２６７．［２］ＰＥＴＥＲＤＴ．Ｔｈｕｍｂｓｕｐｏｒｔｈｕｍｂｓｄｏｗｎ？Ｓｅｍａｎｔｉｃｏｒｉｅｎｔａ⁃ ｔｉｏｎａｐｐｌｉｅｄｔｏｕｎｓｕｐｅｒｖｉｓｅｄｃｌａｓｓｉｆｉｃａｔｉｏｎｏｆｒｅｖｉｅｗｓ［Ｃ］／／ ·３５４· 智能系统学报第８卷

第4期程传鹏，等：情感倾向判断中基准词的选择 ·355. Proceedings of the 40th Annual Meeting of the Association SONG Le,HE Tingting,WANG Qian,et al.Application of for Computational Linguistics.Philadelphia,USA,2002: polarity similarity in word semantic orientation identification 417-424. []Journal of Chinese Infornation Processing,2010,24 [3]朱嫣岚，闵锦，周雅倩，等.基于HowNet的词汇语义倾向 (4):63-67. 计算[J].中文信息学报，2006,20(1)：14-20. [8]董振东，董强.知网[DB/0L].[2012-09-25].htp:// ZHU Yanlan,MIN Jin,ZHOU Yagian,et al.Semantic ori- www.keenage.com. entation computing based on How Net[J].Journal of Chinese [9]刘群，李素建.基于《知网》的词汇语义相似度的计算 Information Processing,2006,20(1):14-20. [C]/第3届汉语词汇语义学研讨会.台北，中国， [4]杨昱昺，吴贤伟.改进的基于知网词汇语义褒贬倾向性 2002. 计算[J].计算机工程与应用，2009,45(21)：91-93. [I0]方芳，李仁发，何建军.基于改进PageRank的BA演化 YANG Yubing,WU Xianwei.Improved lexical semantic 模型[J].计算机工程与设计，2010,31(9)：1901- tendentiousness recognition computing[J].Computer Engi- 1904. neering and Applications,2009.45(21):91-93. FANG Fang,LI Renfa,HE Jianjun.BA evolution model [5]彭学仕，孙春华.面向倾向性分析的基于词聚类的基准 based on improved PageRank[J].Computer Engineering 词选择方法[J].计算机应用研究，2011,28(1)：114- and Design,2010,31(9):1901-1904. 116. 作者简介： PENG Xueshi,SUN Chunhua.Paradigm words selecting 程传鹏，男，1977生，讲师，主要研 method based on word clustering for sentiments analysis[J]. 究方向为自然语言处理、机器学习. Application Research of Computers,2011,28(1):114- 116. [6]柳位平，朱艳辉，栗春亮，等.中文基础情感词词典构建方法研究[J].计算机应用，2009,29(10)：2875 2877. LIU Weiping,ZHU Yanhui,LI Chunliang,et al.Research 王海龙，男，1976生，副教授，主要 on building Chinese basic semantic lexicon[J].Journal of 研究方向为图像处理、机器学习. Computer Applications,2009,29(10):2875-2877. [7]宋乐，何婷婷，王倩，等.极性相似度计算在词汇倾向性识别中的应用[J].中文信息学报，2010,24(4)：63 67. 第8届EEE国际智能信号处理研讨会 8th IEEE International Symposium on Intellgent Signal Processing The 8th IEEE International Symposium on Intelligent Signal Processing will take place in the enchanting Funchal,centre of Portugal's Madeira,a venue chosen to enhance interaction between participants,as well as give the event an appropriate setting. WISP 2013 aims to bring together scientists,researchers,and engineers to present the latest achievements and innovations related to intelligent signal processing in complex,embedded,and real time systems. TOPICS Papers are solicited on all information processing aspects related to the theory and application of computer based signal processing.Attention will be focused on,but not limited to:analog,digital,and mixed signal processing,image process- ing,computer vision,pattern recognition,information retrieval,bioengineering,machine learning,man-machine interac- tion,robotics,modeling,diagnostics,control,uncertainty-handling,artificial intelligence,soft computing techniques, anytime algorithms,emerging technologies,adaptive and nonlinear processing,intelligent signal processing,sensors,em- bedded systems,real-time systems,distributed measurement,diagnostics,and control systems,system identification and control,information fusion,VLSI/ASIC for intelligent signal processing,tool integration for better performance,perform- ance modeling,performance measurement,virtual systems,applications. Website:http://trivent.hu/WISP2013/

Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ４０ｔｈＡｎｎｕａｌＭｅｅｔｉｎｇｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ．Ｐｈｉｌａｄｅｌｐｈｉａ，ＵＳＡ，２００２：４１７⁃４２４．［３］朱嫣岚，闵锦，周雅倩，等．基于ＨｏｗＮｅｔ的词汇语义倾向计算［Ｊ］．中文信息学报，２００６，２０（１）：１４⁃２０．ＺＨＵＹａｎｌａｎ，ＭＩＮＪｉｎ，ＺＨＯＵＹａｑｉａｎ，ｅｔａｌ．Ｓｅｍａｎｔｉｃｏｒｉ⁃ ｅｎｔａｔｉｏｎｃｏｍｐｕｔｉｎｇｂａｓｅｄｏｎＨｏｗＮｅｔ［Ｊ］．ＪｏｕｒｎａｌｏｆＣｈｉｎｅｓｅＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇ，２００６，２０（１）：１４⁃２０．［４］杨昱昺，吴贤伟．改进的基于知网词汇语义褒贬倾向性计算［Ｊ］．计算机工程与应用，２００９，４５（２１）：９１⁃９３．ＹＡＮＧＹｕｂｉｎｇ，ＷＵＸｉａｎｗｅｉ．Ｉｍｐｒｏｖｅｄｌｅｘｉｃａｌｓｅｍａｎｔｉｃｔｅｎｄｅｎｔｉｏｕｓｎｅｓｓｒｅｃｏｇｎｉｔｉｏｎｃｏｍｐｕｔｉｎｇ［Ｊ］．ＣｏｍｐｕｔｅｒＥｎｇｉ⁃ ｎｅｅｒｉｎｇａｎｄＡｐｐｌｉｃａｔｉｏｎｓ，２００９，４５（２１）：９１⁃９３．［５］彭学仕，孙春华．面向倾向性分析的基于词聚类的基准词选择方法［Ｊ］．计算机应用研究，２０１１，２８（１）：１１４⁃ １１６．ＰＥＮＧＸｕｅｓｈｉ，ＳＵＮＣｈｕｎｈｕａ．Ｐａｒａｄｉｇｍｗｏｒｄｓｓｅｌｅｃｔｉｎｇｍｅｔｈｏｄｂａｓｅｄｏｎｗｏｒｄｃｌｕｓｔｅｒｉｎｇｆｏｒｓｅｎｔｉｍｅｎｔｓａｎａｌｙｓｉｓ［Ｊ］．ＡｐｐｌｉｃａｔｉｏｎＲｅｓｅａｒｃｈｏｆＣｏｍｐｕｔｅｒｓ，２０１１，２８（１）：１１４⁃ １１６．［６］柳位平，朱艳辉，栗春亮，等．中文基础情感词词典构建方法研究［Ｊ］．计算机应用，２００９，２９（１０）：２８７５⁃ ２８７７．ＬＩＵＷｅｉｐｉｎｇ，ＺＨＵＹａｎｈｕｉ，ＬＩＣｈｕｎｌｉａｎｇ，ｅｔａｌ．ＲｅｓｅａｒｃｈｏｎｂｕｉｌｄｉｎｇＣｈｉｎｅｓｅｂａｓｉｃｓｅｍａｎｔｉｃｌｅｘｉｃｏｎ［Ｊ］．ＪｏｕｒｎａｌｏｆＣｏｍｐｕｔｅｒＡｐｐｌｉｃａｔｉｏｎｓ，２００９，２９（１０）：２８７５⁃２８７７．［７］宋乐，何婷婷，王倩，等．极性相似度计算在词汇倾向性识别中的应用［Ｊ］．中文信息学报，２０１０，２４（４）：６３⁃ ６７．ＳＯＮＧＬｅ，ＨＥＴｉｎｇｔｉｎｇ，ＷＡＮＧＱｉａｎ，ｅｔａｌ．Ａｐｐｌｉｃａｔｉｏｎｏｆｐｏｌａｒｉｔｙｓｉｍｉｌａｒｉｔｙｉｎｗｏｒｄｓｅｍａｎｔｉｃｏｒｉｅｎｔａｔｉｏｎｉｄｅｎｔｉｆｉｃａｔｉｏｎ［Ｊ］．ＪｏｕｒｎａｌｏｆＣｈｉｎｅｓｅＩｎｆｏｒｎａｔｉｏｎＰｒｏｃｅｓｓｉｎｇ，２０１０，２４（４）：６３⁃６７．［８］董振东，董强．知网［ＤＢ／ＯＬ］．［２０１２⁃０９⁃２５］．ｈｔｔｐ：／／ｗｗｗ．ｋｅｅｎａｇｅ．ｃｏｍ．［９］刘群，李素建．基于《知网》的词汇语义相似度的计算［Ｃ］／／第３届汉语词汇语义学研讨会．台北，中国，２００２．［１０］方芳，李仁发，何建军．基于改进ＰａｇｅＲａｎｋ的ＢＡ演化模型［Ｊ］．计算机工程与设计，２０１０，３１（９）：１９０１⁃ １９０４．ＦＡＮＧＦａｎｇ，ＬＩＲｅｎｆａ，ＨＥＪｉａｎｊｕｎ．ＢＡｅｖｏｌｕｔｉｏｎｍｏｄｅｌｂａｓｅｄｏｎｉｍｐｒｏｖｅｄＰａｇｅＲａｎｋ［Ｊ］．ＣｏｍｐｕｔｅｒＥｎｇｉｎｅｅｒｉｎｇａｎｄＤｅｓｉｇｎ，２０１０，３１（９）：１９０１⁃１９０４．作者简介：程传鹏，男，１９７７生，讲师，主要研究方向为自然语言处理、机器学习．王海龙，男，１９７６生，副教授，主要研究方向为图像处理、机器学习．第８届ＩＥＥＥ国际智能信号处理研讨会８ｔｈＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＳｙｍｐｏｓｉｕｍｏｎＩｎｔｅｌｌｇｅｎｔＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇＴｈｅ８ｔｈＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＳｙｍｐｏｓｉｕｍｏｎＩｎｔｅｌｌｉｇｅｎｔＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇｗｉｌｌｔａｋｅｐｌａｃｅｉｎｔｈｅｅｎｃｈａｎｔｉｎｇＦｕｎｃｈａｌ，ｃｅｎｔｒｅｏｆＰｏｒｔｕｇａｌ＇ｓＭａｄｅｉｒａ，ａｖｅｎｕｅｃｈｏｓｅｎｔｏｅｎｈａｎｃｅｉｎｔｅｒａｃｔｉｏｎｂｅｔｗｅｅｎｐａｒｔｉｃｉｐａｎｔｓ，ａｓｗｅｌｌａｓｇｉｖｅｔｈｅｅｖｅｎｔａｎａｐｐｒｏｐｒｉａｔｅｓｅｔｔｉｎｇ．ＷＩＳＰ２０１３ａｉｍｓｔｏｂｒｉｎｇｔｏｇｅｔｈｅｒｓｃｉｅｎｔｉｓｔｓ，ｒｅｓｅａｒｃｈｅｒｓ，ａｎｄｅｎｇｉｎｅｅｒｓｔｏｐｒｅｓｅｎｔｔｈｅｌａｔｅｓｔａｃｈｉｅｖｅｍｅｎｔｓａｎｄｉｎｎｏｖａｔｉｏｎｓｒｅｌａｔｅｄｔｏｉｎｔｅｌｌｉｇｅｎｔｓｉｇｎａｌｐｒｏｃｅｓｓｉｎｇｉｎｃｏｍｐｌｅｘ，ｅｍｂｅｄｄｅｄ，ａｎｄｒｅａｌｔｉｍｅｓｙｓｔｅｍｓ．ＴＯＰＩＣＳＰａｐｅｒｓａｒｅｓｏｌｉｃｉｔｅｄｏｎａｌｌｉｎｆｏｒｍａｔｉｏｎｐｒｏｃｅｓｓｉｎｇａｓｐｅｃｔｓｒｅｌａｔｅｄｔｏｔｈｅｔｈｅｏｒｙａｎｄａｐｐｌｉｃａｔｉｏｎｏｆｃｏｍｐｕｔｅｒｂａｓｅｄｓｉｇｎａｌｐｒｏｃｅｓｓｉｎｇ．Ａｔｔｅｎｔｉｏｎｗｉｌｌｂｅｆｏｃｕｓｅｄｏｎ，ｂｕｔｎｏｔｌｉｍｉｔｅｄｔｏ：ａｎａｌｏｇ，ｄｉｇｉｔａｌ，ａｎｄｍｉｘｅｄｓｉｇｎａｌｐｒｏｃｅｓｓｉｎｇ，ｉｍａｇｅｐｒｏｃｅｓｓ⁃ ｉｎｇ，ｃｏｍｐｕｔｅｒｖｉｓｉｏｎ，ｐａｔｔｅｒｎｒｅｃｏｇｎｉｔｉｏｎ，ｉｎｆｏｒｍａｔｉｏｎｒｅｔｒｉｅｖａｌ，ｂｉｏｅｎｇｉｎｅｅｒｉｎｇ，ｍａｃｈｉｎｅｌｅａｒｎｉｎｇ，ｍａｎ⁃ｍａｃｈｉｎｅｉｎｔｅｒａｃ⁃ ｔｉｏｎ，ｒｏｂｏｔｉｃｓ，ｍｏｄｅｌｉｎｇ，ｄｉａｇｎｏｓｔｉｃｓ，ｃｏｎｔｒｏｌ，ｕｎｃｅｒｔａｉｎｔｙ⁃ｈａｎｄｌｉｎｇ，ａｒｔｉｆｉｃｉａｌｉｎｔｅｌｌｉｇｅｎｃｅ，ｓｏｆｔｃｏｍｐｕｔｉｎｇｔｅｃｈｎｉｑｕｅｓ，ａｎｙｔｉｍｅａｌｇｏｒｉｔｈｍｓ，ｅｍｅｒｇｉｎｇｔｅｃｈｎｏｌｏｇｉｅｓ，ａｄａｐｔｉｖｅａｎｄｎｏｎｌｉｎｅａｒｐｒｏｃｅｓｓｉｎｇ，ｉｎｔｅｌｌｉｇｅｎｔｓｉｇｎａｌｐｒｏｃｅｓｓｉｎｇ，ｓｅｎｓｏｒｓ，ｅｍ⁃ ｂｅｄｄｅｄｓｙｓｔｅｍｓ，ｒｅａｌ⁃ｔｉｍｅｓｙｓｔｅｍｓ，ｄｉｓｔｒｉｂｕｔｅｄｍｅａｓｕｒｅｍｅｎｔ，ｄｉａｇｎｏｓｔｉｃｓ，ａｎｄｃｏｎｔｒｏｌｓｙｓｔｅｍｓ，ｓｙｓｔｅｍｉｄｅｎｔｉｆｉｃａｔｉｏｎａｎｄｃｏｎｔｒｏｌ，ｉｎｆｏｒｍａｔｉｏｎｆｕｓｉｏｎ，ＶＬＳＩ／ＡＳＩＣｆｏｒｉｎｔｅｌｌｉｇｅｎｔｓｉｇｎａｌｐｒｏｃｅｓｓｉｎｇ，ｔｏｏｌｉｎｔｅｇｒａｔｉｏｎｆｏｒｂｅｔｔｅｒｐｅｒｆｏｒｍａｎｃｅ，ｐｅｒｆｏｒｍ⁃ ａｎｃｅｍｏｄｅｌｉｎｇ，ｐｅｒｆｏｒｍａｎｃｅｍｅａｓｕｒｅｍｅｎｔ，ｖｉｒｔｕａｌｓｙｓｔｅｍｓ，ａｐｐｌｉｃａｔｉｏｎｓ．Ｗｅｂｓｉｔｅ：ｈｔｔｐ：／／ｔｒｉｖｅｎｔ．ｈｕ／ＷＩＳＰ２０１３／第４期程传鹏，等：情感倾向判断中基准词的选择 ·３５５·

点击下载完整版文档（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录