第8卷第4期 智能系统学报 Vol.8 No.4 2013年8月 CAAI Transactions on Intelligent Systems Aug.2013 D0I:10.3969/j.issn.1673-4785.201301029 网络出版地址:http://www.cnki.net/kcms/detail/23.1538.TP.20130603.1602.009.html 情感倾向判断中基准词的选择 程传鹏,王海龙 (中原工学院计算机学院,河南郑州450007)》 摘要:针对已有研究工作中基准词选择的不足之处,提出了一种情感倾向判断中基准词选择的方法依照基准词的 定义,分别从情感度、情感倾向度、情感歧义性3个方面考虑,选择出数量尽可能少、最具有代表性的情感词作为基准 词首先从《知网》所发布的情感词语中,筛选出最初的候选基准词,计算出这些候选基准词的情感度.然后分别计算 出情感度排名靠前的正面情感词和负面情感词的情感倾向度.最后选择情感倾向度较大的词语,作为最终的基准词. 实验结果表明,按照文中所选择的基准词所得到的情感倾向判断的准确率较高 关键词:基准词:情感度:情感倾向度:情感歧义性 中图分类号:TP391文献标志码:A文章编号:1673-4785(2013)04-0349-07 中文引用格式:程传鹏,王海龙.情感倾向判断中基准词的选择[J】.智能系统学报,2013,8(4):349-355. 英文引用格式:CHENG Chuanpeng,WANG Hailong..Research on selection of paradigm words in the judgment of emotional tend- ency[J].CAAI Transactions on Intelligent Systems,2013,8(4):349-355. Research on selection of paradigm words in the judgment of emotional tendency CHENG Chuanpeng,WANG Hailong (School of Computer Science,Zhongyuan Institute of Technology,Zhengzhou 450007,China) Abstract:In light of the weakness of standard words selection,which exists in previous research studies,a method for selecting standard words in the judgment of emotional tendency was proposed in this paper.By considering three key aspects,which include degree of emotion,tendency of emotion and ambiguity of emotion,the most representa- tive typical sentiment words were chosen to act as standard words based on the definition of standard words.Firstly, initial standard words were screened from emotion words issued in HowNet,the degree of emotion of these candidate standard words was computed,then the emotional tendency degree of the positive emotion words and negative emo- tion words,which have high ranking of emotion degree,was calculated,respectively.Finally,the larger emotional tendency words were used as final standard words.The results of test shows the methods used in this paper can gain a high accuracy for judging the tendency of emotion. Keywords:standard words;degree of emotion;tendency of emotion;ambiguity of emotion 基准词集是指褒贬义倾向非常明显、强烈、具有 个词汇作为情感基准词.文献[3]首先从《知网》中 代表性的词汇所构成的集合口.情感倾向判断中,基 选择出2146个褒义词和3299个贬义词,从这些词 准词是衡量其他词语情感倾向的一个参照物,因此, 语中选择没有褒贬歧义的常用词语作为测试集,然 基准词的选择对正确地判断情感的倾向有着至关重 后将测试集中的词语在Google中搜索,返回hits 要的作用.在文献[2]中,Turney通过分析词汇上下 数,即它们在Wb上的词频降序排列,选取词频最 文信息研究其情感倾向,采用P-R方法,使用2高的280个词语作为基准词.文献[4]将文献[3]中 个词汇作为种子来判断其他短语的语义倾向.之后 所选出的基准词中语义重复的词替换成新的、有较 又将单对种子扩展成多对种子,选取了正反面各7 高hits数的褒义词或贬义词,最后得到新的40组褒 贬基准词,这40组褒贬基准词的特点是在保留较高 收稿日期:2013-01-16.网络出版日期:2013-06-03 基金项目:云南省科技计划资助项目(2011FZ074). 的使用频率外,排除了语义相同的情况,提高了词汇 通信作者:程传鹏.E-mail:cheng8444@sina.com 的覆盖面.文献[5]通过词的聚类,将中文词聚类应
第 8 卷第 4 期 智 能 系 统 学 报 Vol.8 №.4 2013 年 8 月 CAAI Transactions on Intelligent Systems Aug. 2013 DOI:10.3969 / j.issn.1673⁃4785.201301029 网络出版地址:http: / / www.cnki.net / kcms/ detail / 23.1538.TP.20130603.1602.009.html 情感倾向判断中基准词的选择 程传鹏,王海龙 (中原工学院 计算机学院,河南 郑州 450007) 摘 要:针对已有研究工作中基准词选择的不足之处,提出了一种情感倾向判断中基准词选择的方法.依照基准词的 定义,分别从情感度、情感倾向度、情感歧义性 3 个方面考虑,选择出数量尽可能少、最具有代表性的情感词作为基准 词.首先从《知网》所发布的情感词语中,筛选出最初的候选基准词,计算出这些候选基准词的情感度.然后分别计算 出情感度排名靠前的正面情感词和负面情感词的情感倾向度.最后选择情感倾向度较大的词语,作为最终的基准词. 实验结果表明,按照文中所选择的基准词所得到的情感倾向判断的准确率较高. 关键词:基准词;情感度;情感倾向度;情感歧义性 中图分类号: TP391 文献标志码:A 文章编号:1673⁃4785(2013)04⁃0349⁃07 中文引用格式:程传鹏,王海龙. 情感倾向判断中基准词的选择[J]. 智能系统学报, 2013, 8(4): 349⁃355. 英文引用格式:CHENG Chuanpeng, WANG Hailong. Research on selection of paradigm words in the judgment of emotional tend⁃ ency[J]. CAAI Transactions on Intelligent Systems, 2013, 8(4): 349⁃355. Research on selection of paradigm words in the judgment of emotional tendency CHENG Chuanpeng, WANG Hailong (School of Computer Science, Zhongyuan Institute of Technology, Zhengzhou 450007, China) Abstract:In light of the weakness of standard words selection, which exists in previous research studies, a method for selecting standard words in the judgment of emotional tendency was proposed in this paper. By considering three key aspects, which include degree of emotion, tendency of emotion and ambiguity of emotion, the most representa⁃ tive typical sentiment words were chosen to act as standard words based on the definition of standard words. Firstly, initial standard words were screened from emotion words issued in HowNet, the degree of emotion of these candidate standard words was computed, then the emotional tendency degree of the positive emotion words and negative emo⁃ tion words, which have high ranking of emotion degree, was calculated, respectively. Finally, the larger emotional tendency words were used as final standard words. The results of test shows the methods used in this paper can gain a high accuracy for judging the tendency of emotion. Keywords:standard words; degree of emotion; tendency of emotion; ambiguity of emotion 收稿日期:2013⁃01⁃16. 网络出版日期:2013⁃06⁃03. 基金项目:云南省科技计划资助项目(2011FZ074). 通信作者:程传鹏. E⁃mail:cheng8444@ sina.com. 基准词集是指褒贬义倾向非常明显、强烈、具有 代表性的词汇所构成的集合[1] .情感倾向判断中,基 准词是衡量其他词语情感倾向的一个参照物,因此, 基准词的选择对正确地判断情感的倾向有着至关重 要的作用.在文献[2]中,Turney 通过分析词汇上下 文信息研究其情感倾向,采用 PMI⁃IR 方法,使用 2 个词汇作为种子来判断其他短语的语义倾向.之后 又将单对种子扩展成多对种子,选取了正反面各 7 个词汇作为情感基准词.文献[3]首先从《知网》 中 选择出 2 146 个褒义词和 3 299 个贬义词,从这些词 语中选择没有褒贬歧义的常用词语作为测试集,然 后将测试集中的词语在 Google 中搜索,返回 hits 数,即它们在 Web 上的词频降序排列, 选取词频最 高的 280 个词语作为基准词.文献[4]将文献[3]中 所选出的基准词中语义重复的词替换成新的、有较 高 hits 数的褒义词或贬义词,最后得到新的 40 组褒 贬基准词,这 40 组褒贬基准词的特点是在保留较高 的使用频率外,排除了语义相同的情况,提高了词汇 的覆盖面.文献[5]通过词的聚类,将中文词聚类应
·350· 智能系统学报 第8卷 用到基准词的选择中,从构建好的目标领域本体中 有考虑义原在语义树状图中的深度.依照树状图的 选出一组初始的种子词,通过词的扩展聚类得出下 定义,越是处于层次低的义原节点,概念描述的越具 一代种子词,然后通过迭代得出优化的基准词文献 体,比如“兽”和“走兽”,而处在层次越高的义原节 [6]利用公式计算语料库中名词、形容词和动词的 点概念描述越笼统,比如“万物”和“物质”.因为对 类别区分能力,选出区分能力较强的词M个,用所 于d值相同的2对义原,处于语义层次树较低层次 选出的词与已有的情感词表做交集,选择语料中出 的应该比处于较高层次的2对词语的相似度要大 现频率高的前N个词作为最终的基准词.文献[6] 因此,把式(1)改进为 使用的基础情感词以《知网》发布的情感词语集为 a+H(p)+H(p) 基础,通过人工挑选,去掉一些不太常用或者情感倾 sim(P,P2)= 、a+Hp)+HP,)+L,)(2) 向不很明显的词语,最后得到褒义词3219个,贬义 式中:H(P:)为义原节点到根节点的路径长度, 词2905个,最终的基础情感词词典包含6196个基 L(P:,P)为2个义原节点第1次到达同一个父节点 础情感词.然后计算它们的情感倾向权值,去掉分类 所经过的最长路径长度, 不正确的词以及权值过低的中性词,最后得到5281 -entityl实体 个基础情感词.文献[7]选择基准词的方法是:从 -thingl万物 《知网》[8]所提供的情感词语中选择全部义项只有 …Fphysicall物质 一种极性的形容词和名词作为基准词,并且认为单 …下animatel生物 一义项的词语不会出现褒贬歧义和情感极性较弱的 …上animal humanl动物 情况 .humanl人 |humanizedl拟人 通过人工选择具有倾向性的基准词方法的优,点 Lanimall兽 是选择的基准词准确率高,但由于人知识的有限性 -beastl走兽 和片面性,选择的基准词往往会漏选、错选.通过已 图1树状的义原层次结构 经制定好的褒贬倾向性词典,然后利用同义词词典 Fig.1 Arborescence hierarchical structure of semantic unit 对词典进行扩展的方法,虽然所选择的基准词较全 假设情感词W的义项为{S1,S2,…,S},情 面,但给后面的倾向性判断带来大量的计算由于搜 感词W,的义项为{S,S2,…,S2m},义项之间的相 索引擎的更新,利用搜索引擎所返回来的hits数筛 似度计算,依然参照文献[9]中的计算方法,词语 选基准词的方法,实际上也是不够客观的. W,和W,的相似度为各个义项的相似度之最大值, 1基准词的选择方法 如式(3)所示: 一个词语要作为基准词,一般应该满足3个条 sim(W,W,)F--mg2si(Sg.(3) 如果直接将式(3)用于情感倾向判断中的词语 件:情感代表性强、情感歧义少、情感极性强.下面分 相似度计算,实际上是不太合理的.具有多个义项的 别从这3个因素来叙述本文所提出的基准词选择的 词语可能会在情感倾向上产生歧义,也就是说词语 方法. 的某个义项可能为正面情感倾向,而另外一个义项 1.1情感语义相似度 可能为负面情感倾向.在选择基准词的时候,应该尽 通过改进的词语相似度计算方法,来选择情感 量排除掉具有情感歧义的词.因此本文在计算情感 歧义少的情感词作为基准词.文献[9]基于《知网》 词语义相似度时采用情感词W,和W,的各个义项的 的相似度计算,依照《知网》对义原的描述,文献[9] 语义相似度之和的平均值,假设情感词W,有n个义 将所有的义原用一个树状的层次结构图来表示,如 项,W2有m个义项,如果用E(W,W2)表示W1、W2 图1所示. 情感词语义相似度,其计算公式可以表示成式(4): 由于所有的义原根据上下位关系构成了一个树 状的义原层次体系,假设2个义原在这个层次体系 m(Su,S2) (4) 中的路径距离为d,文献[9]采用式(1)来计算2个 E(W1,W2)=1.2时=1,2m n x m 义原之间的语义距离: 1.2情感度的计算 sim(pipa)=a 情感度指情感词能够代表负面情感词或者正面 (1) d a 情感词的程度通过对情感词的情感度的计算,选择 式中各参数的含义见文献[9].式(1)的计算,并没 出一些最具有代表性的情感词作为基准词基准词
用到基准词的选择中,从构建好的目标领域本体中 选出一组初始的种子词,通过词的扩展聚类得出下 一代种子词,然后通过迭代得出优化的基准词.文献 [6]利用公式计算语料库中名词、形容词和动词的 类别区分能力,选出区分能力较强的词 M 个,用所 选出的词与已有的情感词表做交集,选择语料中出 现频率高的前 N 个词作为最终的基准词.文献[6] 使用的基础情感词以《知网》发布的情感词语集为 基础,通过人工挑选,去掉一些不太常用或者情感倾 向不很明显的词语,最后得到褒义词3 219个,贬义 词2 905个,最终的基础情感词词典包含6 196个基 础情感词.然后计算它们的情感倾向权值,去掉分类 不正确的词以及权值过低的中性词,最后得到 5 281 个基础情感词.文献[7] 选择基准词的方法是:从 《知网》 [ 8 ]所提供的情感词语中选择全部义项只有 一种极性的形容词和名词作为基准词,并且认为单 一义项的词语不会出现褒贬歧义和情感极性较弱的 情况. 通过人工选择具有倾向性的基准词方法的优点 是选择的基准词准确率高,但由于人知识的有限性 和片面性,选择的基准词往往会漏选、错选.通过已 经制定好的褒贬倾向性词典,然后利用同义词词典 对词典进行扩展的方法,虽然所选择的基准词较全 面,但给后面的倾向性判断带来大量的计算.由于搜 索引擎的更新,利用搜索引擎所返回来的 hits 数筛 选基准词的方法,实际上也是不够客观的. 1 基准词的选择方法 一个词语要作为基准词,一般应该满足 3 个条 件:情感代表性强、情感歧义少、情感极性强.下面分 别从这 3 个因素来叙述本文所提出的基准词选择的 方法. 1.1 情感语义相似度 通过改进的词语相似度计算方法,来选择情感 歧义少的情感词作为基准词.文献[9]基于《知网》 的相似度计算,依照《知网》对义原的描述,文献[9] 将所有的义原用一个树状的层次结构图来表示,如 图 1 所示. 由于所有的义原根据上下位关系构成了一个树 状的义原层次体系,假设 2 个义原在这个层次体系 中的路径距离为 d,文献[9]采用式(1)来计算 2 个 义原之间的语义距离: sim(p1 ,p2 ) = a d + a . (1) 式中各参数的含义见文献[9].式(1)的计算,并没 有考虑义原在语义树状图中的深度.依照树状图的 定义,越是处于层次低的义原节点,概念描述的越具 体,比如“兽”和“走兽”,而处在层次越高的义原节 点概念描述越笼统,比如“万物”和“物质”.因为对 于 d 值相同的 2 对义原,处于语义层次树较低层次 的应该比处于较高层次的 2 对词语的相似度要大. 因此,把式(1)改进为 sim(p1 ,p2 ) = a + H(p1 ) + H(p1 ) a + H(p1 ) + H(p1 ) + L(p1 ,p2 ) . (2) 式中:H ( pi ) 为义原节点到根节点的路径长度, L(pi,pj)为 2 个义原节点第 1 次到达同一个父节点 所经过的最长路径长度. -entity |实体 ├thing |万物 … ├physical |物质 … ├animate |生物 … ├animal human |动物 … ├human |人 │└humanized |拟人 └animal |兽 ├beast |走兽 图 1 树状的义原层次结构 Fig.1 Arborescence hierarchical structure of semantic unit 假设情感词 W1的义项为{ S11 ,S12 ,…,S1n },情 感词 W2的义项为{ S21 ,S22 ,…,S2m },义项之间的相 似度计算,依然参照文献[9] 中的计算方法,词语 W1 和 W2 的相似度为各个义项的相似度之最大值, 如式(3)所示: sim(W1 ,W2 ) = max i = 1,2,...,n,j = 1,2,...,m sim(S1i,S2j). (3) 如果直接将式(3)用于情感倾向判断中的词语 相似度计算,实际上是不太合理的.具有多个义项的 词语可能会在情感倾向上产生歧义,也就是说词语 的某个义项可能为正面情感倾向,而另外一个义项 可能为负面情感倾向.在选择基准词的时候,应该尽 量排除掉具有情感歧义的词.因此本文在计算情感 词语义相似度时采用情感词 W1和 W2的各个义项的 语义相似度之和的平均值,假设情感词 W1有 n 个义 项,W2有 m 个义项,如果用 E(W1 ,W2 )表示 W1 、W2 情感词语义相似度,其计算公式可以表示成式(4): E(W1 ,W2 ) = i = 1,2,...,∑n,j = 1,2,...,m sim(S1i,S2j) n × m . (4) 1.2 情感度的计算 情感度指情感词能够代表负面情感词或者正面 情感词的程度.通过对情感词的情感度的计算,选择 出一些最具有代表性的情感词作为基准词.基准词 ·350· 智 能 系 统 学 报 第 8 卷
第4期 程传鹏,等:情感倾向判断中基准词的选择 ·351· 的情感倾向应该特别明显,而且从计算量上考虑,情 表1基于知网的词语相似度计算 感词越少越好应该从正面情感词和负面情感词中 Table 1 Similarity calculation of words based on HowNet 选择出最具有倾向性代表意义的词语来作为基 词语 W. W> 准词. S 0.85 0.82 假设在情感词表中有另外的5个情感词S,、S2、 S2 0.92 0.89 SS4、S,它们与W、W2的情感语义相似度如表1 S3 0.86 0.84 Sa 0.81 0.76 所示.表1中,sim(S:,W)≠1,因为如果相似度等于 0.86 0.83 1的话,那么可能2个词为同义词或者近义词.从表 S 1中可以看出,W,与其他5个情感词的情感语义相 对于所有的情感词表,分别计算两两之间的情 似度都要大于W2与其他5个情感词的情感语义相 感语义相似度,如果用S(W,W)表示W,、W情感语 义相似度,那么所有词的情感语义相似度可以表示 似度,直观地判断,应该选择W:为基准词. 成如表2所示 表2情感词之间的语义相似度 Table 2 Semantic similarity between emotion words 词语 W W 1 S(W,,W2) s(WW) …S(W,W.) W S(W.W) 1 S(W2.W) …S(W2,W.) W. s(W.W)s(W.W,) …S(W,W) … W. S(W。,W,)S(W。,W2) S(W。,W,)… 1 如果S(W,W)≥a,建立W和W之间的关 W)≥入并且i≠j的所有W的集合 系,处理完所有的情感词后,形成如下图2所示 基准词指的是情感表现力强,最能够体现正面 情感或者负面情感的词条,依据此定义,一个情感词 要作为基准词,应该存在以下2个事实: 候选基准词 候选基准词 候选基准词 1)如果一个词条与情感词集合中其他词条都 有较高的连接度,那么该词条的情感度高: 候选基准词 2)如果一个词条的情感度高,那么与该词条连 接度高的词条的相应的情感度也高; 候选基准词 候选基准词 设W:是某个候选基准词,其情感度为D,(W), 候选基准词 记F是所有W,的所有邻接词条的集合,n,=IFI是 指满足E(W,W)≥α的所有W的总数,依据上面2 候选基准词 个事实,候选基准词的情感度可以用式(5)进行计算: 候选基准词 D,(W)=∑ D,(W) (5) 图2基准词语义连接 定义词语语义的邻接矩阵: Fig.2 Semantic connection diagram of standard words 定义1情感度(emotion degree)指的是候选基 准词能够代表正面情感词或者负面情感词情感的程 G (6 度,用D(W)表示 定义2词对连接强度C(W,W2)指的是2个 式中: 词语连接的紧密程度,用2个词语的情感语义相似 1,ifL(W,W)≥入; 度表示,即C(W,W2)=E(W,W2) gij =0,if i=j; 定义3W:的邻接词条指的是指满足C(W:, 0,ifL(W,W)<入:
的情感倾向应该特别明显,而且从计算量上考虑,情 感词越少越好.应该从正面情感词和负面情感词中 选择出最具有倾向性代表意义的词语来作为基 准词. 假设在情感词表中有另外的 5 个情感词 S1 、S2 、 S3 、S4 、S5 ,它们与 W1 、W2 的情感语义相似度如表 1 所示.表 1 中,sim(Si,Wj)≠1,因为如果相似度等于 1 的话,那么可能 2 个词为同义词或者近义词.从表 1 中可以看出,W1与其他 5 个情感词的情感语义相 似度都要大于 W2与其他 5 个情感词的情感语义相 似度,直观地判断,应该选择 W1 为基准词. 表 1 基于知网的词语相似度计算 Table 1 Similarity calculation of words based on HowNet 词语 W1 W2 S1 0.85 0.82 S2 0.92 0.89 S3 0.86 0.84 S4 0.81 0.76 S5 0.86 0.83 对于所有的情感词表,分别计算两两之间的情 感语义相似度,如果用 S(Wi,Wj)表示 Wi、Wj情感语 义相似度,那么所有词的情感语义相似度可以表示 成如表 2 所示. 表 2 情感词之间的语义相似度 Table 2 Semantic similarity between emotion words 词语 W1 W2 … Wi … Wn W1 1 S(W1 ,W2 ) … S(W1 ,Wi) … S(W1 ,Wn ) W2 S(W1 ,W1 ) 1 … S(W2 ,Wi) … S(W2 ,Wn ) ︙ … … … … … … Wi S(Wi,W1 ) S(Wi,W2 ) … 1 … S(Wi,Wn ) ︙ … … … … … … Wn S(Wn ,W1 ) S(Wn ,W2 ) … S(Wn ,Wi) … 1 如果 S(Wi,Wj ) ≥α,建立 Wi 和 Wj 之间的关 系,处理完所有的情感词后,形成如下图 2 所示. 图 2 基准词语义连接 Fig.2 Semantic connection diagram of standard words 定义 1 情感度(emotion degree)指的是候选基 准词能够代表正面情感词或者负面情感词情感的程 度,用 D1(Wi)表示. 定义 2 词对连接强度 C(W1 ,W2 ) 指的是 2 个 词语连接的紧密程度,用 2 个词语的情感语义相似 度表示,即 C(W1 ,W2 )= E(W1 ,W2 ). 定义 3 Wi 的邻接词条指的是指满足 C(Wi, Wj)≥λ 并且 i≠j 的所有 Wj 的集合. 基准词指的是情感表现力强,最能够体现正面 情感或者负面情感的词条,依据此定义,一个情感词 要作为基准词,应该存在以下 2 个事实: 1)如果一个词条与情感词集合中其他词条都 有较高的连接度,那么该词条的情感度高; 2)如果一个词条的情感度高,那么与该词条连 接度高的词条的相应的情感度也高; 设 Wi 是某个候选基准词,其情感度为 D1 Wi ( ) , 记 Fj 是所有 Wi 的所有邻接词条的集合,nj = | Fj | 是 指满足 E(Wk,Wj)≥α 的所有 Wk 的总数,依据上面 2 个事实,候选基准词的情感度可以用式(5)进行计算: D1 Wi ( ) = W∑ j∈Fi D1 Wj ( ) nj . (5) 定义词语语义的邻接矩阵: G = g11 … g1n ︙ ︙ gn1 … gnn é ë ê ê ê ê ù û ú ú ú ú . (6) 式中: gi,j = 1, 0, 0, ì î í ïï ïï if if if L(Wi,Wj) ≥ λ; i = j; L(Wi,Wj) < λ. 第 4 期 程传鹏,等:情感倾向判断中基准词的选择 ·351·
·352. 智能系统学报 第8卷 在邻接矩阵G=(g)定义的基础上,式(6)可 正面情感词语义相似度高的话,说明它们二者之间 写成: 的情感倾向距离大.如果用D,(W)表示词语W的情 D,(W)=∑D,(W) 感倾向度,那么正面情感词W。的情感倾向度可以 (7) Wief ni 用该词与所有的负面情感词的语义相似的和来表 如果情感词表中有n个候选基准词,它们的情 示,负面情感词W。的情感倾向度可以用该词与所 感度可以用一个n维的列向量P来表示,即 有的正面情感词的语义相似的和来表示,计算方 P=[D(W)D(W2)…D(W)]T 法为 则式(7)可写成: D2(W)= ∑E(W。,W) P=AP. (8) 式中:Ag=g时/n5 D,(w)=∑E(w,W). 式(8)是递归定义的,因此可以用迭代的办法 求解.可以看出,候选基准词的情感度P=(D(W)) 2 基准词选择过程以及结果 实为矩阵A「对应于特征根为1的特征向量,当A'= 01 1)从2010年《知网》所发布的3730个正面评 10 时,将得到P,=P2,无法比较候选基准词的 价词语和3116个负面评价词语中,去掉单字和不 情感度的大小因此,要对式(8)进行改进.采用加权 常见的词,结果得到3256个正面情感词和2986个 算法如式(9): 负面情感词,以这些情感词作为最初的候选基准词: P=(1-d)E 2)由前面方法分别计算正面情感词和负面情 dA P. (8) n 感词的情感度; 式中:n为候选基准词个数:E为n×n的矩阵,矩阵 3)分别从正面情感词和负面情感词中选择出 的元素值都是1:de[0,1],参照文献[10],文中d 情感度排名靠前的1000个词: 的取值为0.85. 4)由前面方法分别计算出1000对正面情感词 1.3情感倾向度的计算 和负面情感词的情感倾向度: 通过对情感词情感倾向度的计算,选择情感倾 5)选择情感倾向度较大的词语,作为最终的基 向较大的词来作为基准词.设W,W,…,,o为 准词: 上一步所选择的负面基准词,个数为1000.W,W, 经过前面5步的选择后,排名靠前的40对正面 …,W,m为1000个正面情感基准词.如果直接用刘 情感词和负面情感词分别如下所示: “良好、美好、最佳、上等、容易、最好、美丽、顶 群所开发的相似度计算软件,会发现一些情感倾向 级、宽大、精彩、快乐、端正、稳定、优秀、高级、确切、 相反的词语,语义相似度的值却很大,比如一对明显 明亮、热情、清新、出色、大方、便宜、积极、著名、灵 语义相反的词语“小气”和“大方”,按照刘群的计算 活、牢固、真实、简单、超级、必需、先进、纯朴、轻快 方法sim(“小气”,“大方”)=0.81,通过查看义项发 欢乐、仁爱、平坦、聪明、出色、平安、成熟” 现“大方”的义项是“ADJ avaluel属性值,toleranceI “暗淡、昂贵、傲慢、薄弱、悲观、病弱、不当、愚 气量,generous I慷慨”,“小气”的义项是““ADJ 蠢、脏乱、自大、糟糕、罪恶、杂乱、愚昧、有害、阴冷、 avalue l属性值,tolerancel气量,miserI吝啬”刘群所 虚假、严重、阴暗、凄凉、消极、下等、无效、无情、强 开发的软件是基于《知网》的,《知网》是一个以汉语 制、凶狠、颓废、贪心、缺德、奢侈、散乱、危险、穷困、 和英语的词语所代表的概念为描述对象,以揭示概 破旧、萧条、小气、轻狂、失常、俗气” 念与概念之间以及概念所具有的属性之间的关系为 为了进一步丰富基准词,本文通过哈尔滨工业 基本内容的常识知识库]在《知网》中,义原之间 大学信息检索研究室所提供的《同义词词林扩展 除了上下位关系外,还有很多种其他的关系,如果在 版》对所选择的负面情感基准词和正面情感基准词 计算时考虑进来,可能会得到更精细的义原相似度 进行同义词扩充结构如图3所示。 度量,义原一方面作为描述概念的最基本单位,另一 为了避免出现某些词和基准词语义相似度高而 方面,义原之间又存在复杂的关系.《知网》认为,具 词义却相反所带来的误判,对未知词语的情感判断 有反义或者对义关系的2个义原比较相似,因为它 时,首先查找基准词以及基准词的同义词,如果没有 们在实际的语料中可以互相替换的可能性很大.因 找到,则计算未知词语和基准词的语义相似度 此在判断情感倾向时,如果1个负面情感词和1个
在邻接矩阵 G = ( gij ) 定义的基础上,式(6) 可 写成: D1 Wi ( ) = W∑ j∈F gij nj D1(Wj). (7) 如果情感词表中有 n 个候选基准词,它们的情 感度可以用一个 n 维的列向量 P 来表示,即 P = [D1(W1 ) D1(W2 ) … D1(Wn )] T . 则式(7)可写成: P = A TP. (8) 式中:Aij = gij / nj . 式(8)是递归定义的, 因此可以用迭代的办法 求解.可以看出,候选基准词的情感度 P = (D1(Wi)) 实为矩阵 A T 对应于特征根为 1 的特征向量,当A T = 0 1 1 0 é ë ê ê ù û ú ú 时,将得到 P1 = P2 ,无法比较候选基准词的 情感度的大小.因此,要对式(8)进行改进.采用加权 算法如式(9): P = (1 - d)E n + dA TP. (8) 式中:n 为候选基准词个数;E 为 n×n 的矩阵,矩阵 的元素值都是 1;d∈[0,1],参照文献[10],文中 d 的取值为 0.85. 1.3 情感倾向度的计算 通过对情感词情感倾向度的计算,选择情感倾 向较大的词来作为基准词.设 Wn 1 ,Wn 2 ,…,Wn1 000为 上一步所选择的负面基准词,个数为1 000.Wp 1 ,Wp 2 , …,Wp 1 000 为1 000个正面情感基准词.如果直接用刘 群所开发的相似度计算软件,会发现一些情感倾向 相反的词语,语义相似度的值却很大,比如一对明显 语义相反的词语“小气”和“大方”,按照刘群的计算 方法 sim(“小气”,“大方”)= 0.81,通过查看义项发 现“大方”的义项是“ADJ avalue | 属性值,tolerance | 气量,generous | 慷慨 ”, “ 小气” 的义项是 ““ ADJ avalue |属性值,tolerance | 气量,miser | 吝啬 ”刘群所 开发的软件是基于《知网》的,《知网》是一个以汉语 和英语的词语所代表的概念为描述对象,以揭示概 念与概念之间以及概念所具有的属性之间的关系为 基本内容的常识知识库[ 9 ] .在《知网》中,义原之间 除了上下位关系外,还有很多种其他的关系,如果在 计算时考虑进来,可能会得到更精细的义原相似度 度量,义原一方面作为描述概念的最基本单位,另一 方面,义原之间又存在复杂的关系.《知网》认为,具 有反义或者对义关系的 2 个义原比较相似,因为它 们在实际的语料中可以互相替换的可能性很大.因 此在判断情感倾向时,如果 1 个负面情感词和 1 个 正面情感词语义相似度高的话,说明它们二者之间 的情感倾向距离大.如果用 D2(W)表示词语 W 的情 感倾向度,那么正面情感词 Wp 的情感倾向度可以 用该词与所有的负面情感词的语义相似的和来表 示,负面情感词 Wn 的情感倾向度可以用该词与所 有的正面情感词的语义相似的和来表示,计算方 法为 D2(Wp) = ∑ n i = 1 E(Wp,Wn i ), D2(Wn ) = ∑ n i = 1 E(Wn ,Wp i ). ì î í ï ï ï ï 2 基准词选择过程以及结果 1)从 2010 年《知网》所发布的 3 730 个正面评 价词语和 3 116 个负面评价词语中,去掉单字和不 常见的词,结果得到3 256个正面情感词和2 986个 负面情感词,以这些情感词作为最初的候选基准词; 2)由前面方法分别计算正面情感词和负面情 感词的情感度; 3)分别从正面情感词和负面情感词中选择出 情感度排名靠前的 1 000 个词; 4)由前面方法分别计算出 1 000 对正面情感词 和负面情感词的情感倾向度; 5)选择情感倾向度较大的词语,作为最终的基 准词; 经过前面 5 步的选择后,排名靠前的 40 对正面 情感词和负面情感词分别如下所示: “良好、美好、最佳、上等、容易、最好、美丽、顶 级、宽大、精彩、快乐、端正、稳定、优秀、高级、确切、 明亮、热情、清新、出色、大方、便宜、积极、著名、灵 活、牢固、真实、简单、超级、必需、先进、纯朴、轻快、 欢乐、仁爱、平坦、聪明、出色、平安、成熟”. “暗淡、昂贵、傲慢、薄弱、悲观、病弱、不当、愚 蠢、脏乱、自大、糟糕、罪恶、杂乱、愚昧、有害、阴冷、 虚假、严重、阴暗、凄凉、消极、下等、无效、无情、强 制、凶狠、颓废、贪心、缺德、奢侈、散乱、危险、穷困、 破旧、萧条、小气、轻狂、失常、俗气”. 为了进一步丰富基准词,本文通过哈尔滨工业 大学信息检索研究室所提供的《同义词词林扩展 版》对所选择的负面情感基准词和正面情感基准词 进行同义词扩充.结构如图 3 所示. 为了避免出现某些词和基准词语义相似度高而 词义却相反所带来的误判,对未知词语的情感判断 时,首先查找基准词以及基准词的同义词,如果没有 找到,则计算未知词语和基准词的语义相似度. ·352· 智 能 系 统 学 报 第 8 卷
第4期 程传鹏,等:情感倾向判断中基准词的选择 ·353. 采用KNN分类的方法,以这些情感基准词作为 : KNN分类器的特征词,特征词的加权方法为 基 -同义词1同义词2同义词-同义词n tft,d)×log(N/n,) W(t,d)= 词 ∑,e4[t,d)×log(NWm,)】 式中:W(t,d)为情感词t在在语料d中的权重,而 f(t,d)为t在d中的词频,N为文档的总数,n,为语 图3基准词同义扩展 料中出现t的文档数 Fig.3 Synonym expansions of standard words 试验中,词语相似度的计算公式B,sim,(S, 3实验及评价 S2)中B1=0.6,B2=0.2,B3=0.2,sim,(P1,P2)中入1、 从网上的评论中搜集到4个领域的中文数据 入2取了3组值: 集,分别是:国内某知名网上商城中对某款电子产品 1)入1=0.6,入2=0.4: 的用户评价作为测试语料1,新浪网财经论坛中对 2)入1=0.5,A2=0.5; 某只股票的用户评价作为测试语料2,携程旅行网 3)入1=0.4,入2=0.6. 上对某个酒店的用户评价作为测试语料3,搜狐体 sim,(P1,P2)公式中a1、a2也分别取了3组值: 育上对某个比赛规则的用户评价作为测试语料4.其 1)a1=0.6、a2=0.4; 中,测试语料1包含正面评价3690条,负面评价 2)a1=0.7、a2=0.3; 4721条;测试语料2包含正面评价4215条,负面评 3)a1=0.5、2=0.5. 价3976条:测试语料3包含正面评价2876条,负 在构造邻接矩阵G时,入取值为0.75. 面评价3128条:测试语料4包含正面评价4134 用的评价指标为 条,负面评价3157条.以本文所选择的基准词与文 献[2]所选择的基准词和文献[3]所选择的基准词 准确率= -×100%. 进行情感判断比较.其中文献[2]的基准词是由人工 N 选择的,所选择的40对基准词如下所示: 式中:Nc=能正确找出文本倾向的总数:N,=测试文 “健康、安全、天下第一、美丽、超级、保险、卫 本的总数.KNN分类中K的取值分别为1O00、 生、天使、英雄、精选、快乐、权威、稳定、优秀、高级、 1200、1400、1500,分别采用40组人工选择的基准 精英、最好、最佳、幸福、容易、高手、文明、积极、著 词对、由词典构造的基准词对和本文所选择的40组 名、漂亮、完美、真实、简单、和平、开通、先进、便宜、 情感词对分别作为特征词,对4组语料进行情感倾 优质、欢乐、美好、良好、不错、出色、成熟、完善”. 向分类.分类准确率的结果比较如图4~7所示 “合作、黑客、疯狂、错误、事故、非法、失败、背 由于本文在选择基准词时,考虑到了情感词的 后、麻烦、不良、病人、恶意、色情、暴力、黄色、浪费、 情感歧义、情感度、情感倾向性.本文所提出的方法 落后、漏洞、有害、讨厌、自负、不安、魔鬼、花样、野 在准确率上都要优于其他2种方法,因而本文的方 蛮、陷阱、不当、腐败、无情、失误、淫秽、流氓、虚假、 法具备有一定的实用性.图4~7的实验数据的比较 残酷、变态、脆弱、不合格、愚人、恶劣、恶魔” 结果,也验证了该结论 1.0r 文献[3]中所选择的基准词是通过词典进行构 造的,如下所示: 0.8 “好、安全、不错、喜欢、加速、舒适、豪华、满意、 0.6 爱、解决、风格、优势、保证、全新、实在、舒服、稳定、 方便、品质、提升、乐趣、省油、先进、成功、漂亮、最 0.4 好、保护、好车、值得、良好、满足、享受、出色、提高、 ◆一人工选择的基准词 适合、平稳、轻松、优点、完美、实用” 0.2 ■由词典构造的基准词 一本文所选择的基准词 “碰撞、噪音、事故、毛病、不好、严重、下降、缺 0.8 1.0 点、不够、死、不足、故障、缺陷、郁闷、撞击、断裂、失 12141610 K 望、担心、倒、车祸、遗憾、怀疑、不行、变形、断、危险、 图4对测试语料1的准确率比较 震动、损失、噪声、麻烦、冲击、隐患、后悔、恐怕、粗 Fig.4 Accuracy comparison for test corpus 1 糙、颠簸、造成、难看、不类、伤害
图 3 基准词同义扩展 Fig.3 Synonym expansions of standard words 3 实验及评价 从网上的评论中搜集到 4 个领域的中文数据 集,分别是:国内某知名网上商城中对某款电子产品 的用户评价作为测试语料 1,新浪网财经论坛中对 某只股票的用户评价作为测试语料 2,携程旅行网 上对某个酒店的用户评价作为测试语料 3,搜狐体 育上对某个比赛规则的用户评价作为测试语料 4.其 中,测试语料 1 包含正面评价 3 690 条,负面评价 4 721条;测试语料 2 包含正面评价 4 215 条,负面评 价 3 976 条;测试语料 3 包含正面评价 2 876 条,负 面评价 3 128 条;测试语料 4 包含正面评价 4 134 条,负面评价 3 157 条.以本文所选择的基准词与文 献[2]所选择的基准词和文献[3]所选择的基准词 进行情感判断比较.其中文献[2]的基准词是由人工 选择的,所选择的 40 对基准词如下所示: “健康、安全、天下第一、美丽、超级、保险、卫 生、天使、英雄、精选、快乐、权威、稳定、优秀、高级、 精英、最好、最佳、幸福、容易、高手、文明、积极、著 名、漂亮、完美、真实、简单、和平、开通、先进、便宜、 优质、欢乐、美好、良好、不错、出色、成熟、完善”. “合作、黑客、疯狂、错误、事故、非法、失败、背 后、麻烦、不良、病人、恶意、色情、暴力、黄色、浪费、 落后、漏洞、有害、讨厌、自负、不安、魔鬼、花样、野 蛮、陷阱、不当、腐败、无情、失误、淫秽、流氓、虚假、 残酷、变态、脆弱、不合格、愚人、恶劣、恶魔”. 文献[3]中所选择的基准词是通过词典进行构 造的,如下所示: “好、安全、不错、喜欢、加速、舒适、豪华、满意、 爱、解决、风格、优势、保证、全新、实在、舒服、稳定、 方便、品质、提升、乐趣、省油、先进、成功、漂亮、最 好、保护、好车、值得、良好、满足、享受、出色、提高、 适合、平稳、轻松、优点、完美、实用”. “碰撞、噪音、事故、毛病、不好、严重、下降、缺 点、不够、死、不足、故障、缺陷、郁闷、撞击、断裂、失 望、担心、倒、车祸、遗憾、怀疑、不行、变形、断、危险、 震动、损失、噪声、麻烦、冲击、隐患、后悔、恐怕、粗 糙、颠簸、造成、难看、不爽、伤害”. 采用 KNN 分类的方法,以这些情感基准词作为 KNN 分类器的特征词,特征词的加权方法为 W(t,d) = tf(t,d) × log(N/ nt) ∑t∈d [tf(t,d) × log(N/ nt) ] 2 . 式中:W(t,d)为情感词 t 在在语料 d 中的权重,而 tf(t,d)为 t 在 d 中的词频,N 为文档的总数,nt 为语 料中出现 t 的文档数. 试验中,词语相似度的计算公式∑ 3 i = 1 βi simi( S1 , S2 )中 β1 = 0.6,β2 = 0.2,β3 = 0.2,sims(P1 ,P2 )中 λ1 、 λ2 取了 3 组值: 1)λ1 = 0.6,λ2 = 0.4; 2)λ1 = 0.5,λ2 = 0.5; 3)λ1 = 0.4,λ2 = 0.6. sims(P1 ,P2 )公式中 α1 、α2 也分别取了 3 组值: 1)α1 = 0.6、α2 = 0.4; 2)α1 = 0.7、α2 = 0.3; 3)α1 = 0.5、α2 = 0.5. 在构造邻接矩阵 G 时,λ 取值为 0.75. 用的评价指标为 准确率 = NC NT × 100%. 式中:NC =能正确找出文本倾向的总数;NT = 测试文 本的 总 数. KNN 分 类 中 K 的 取 值 分 别 为 1 000、 1 200、1 400、1 500,分别采用 40 组人工选择的基准 词对、由词典构造的基准词对和本文所选择的 40 组 情感词对分别作为特征词,对 4 组语料进行情感倾 向分类.分类准确率的结果比较如图 4~7 所示. 由于本文在选择基准词时,考虑到了情感词的 情感歧义、情感度、情感倾向性.本文所提出的方法 在准确率上都要优于其他 2 种方法,因而本文的方 法具备有一定的实用性.图 4 ~ 7 的实验数据的比较 结果,也验证了该结论. 图 4 对测试语料 1 的准确率比较 Fig.4 Accuracy comparison for test corpus 1 第 4 期 程传鹏,等:情感倾向判断中基准词的选择 ·353·
·354. 智能系统学报 第8卷 1.0 虽然得到了提高,但总体上来看变化趋势较为缓慢 在实际应用中,随着基准词数量的增多,计算量也会 0.8 增大.从准确率和时间开销综合考虑,应该选择的基 指0.6 准词数量在40~60. 1.0r 0.4 0.9 ◆ ◆人工选择的基准词 0少 ■一由词典构造的基准词 0.8 本文所选择的基准词 6.8 1.0 1.2 K 14工810 0.7 0.6 图5对测试语料2的准确率比较 0.50 102040608090100 Fig.5 Accuracy comparison for test corpus 2 基准词个数 图8不同基准词个数对准确率的影响 1.0 Fig.8 Influence of the number of different standard words on accuracy rate 0.8 4 结论 本文分析了已有工作中基准词选择的优点和缺 0.4 点,在此基础上,提出了一种情感倾向判断中基准词 ◆人工选择的基准词 0.2 ■一由词典构造的基准词 选择的方法.分别考虑到了情感词的情感歧义性、情 ★一本文所选择的基准词 感代表性、情感倾向性,并相应地给出了计算公式. 6.8 1.0 1.2 1.4 o 通过实验测试表明,本文所提出的基准词,在情感倾 向的判断上准确性较高.文章的主要贡献有: 图6对测试语料3的准确率比较 1)对词语相似度方法进行了改进,通过计算情 Fig.6 Accuracy comparison for test corpus 3 感词的情感语义相似度,排除掉一些有情感歧义的 词作为基准词的可能。 1.0 2)通过计算情感度,选择出情感代表性强的词 语作为候选基准词. 0.8 3)通过对情感词情感度的计算,选择出情感倾 0.6 向性强的情感词作为候选基准词。 实验结果表明,采用本文选择的基准词,在情感 0.4 ◆人工选择的基准词 倾向判断的准确率上,要优于传统的方法.由于词典 0.2 一由词典构造的基准词 资源的不完备性,以及网络上的新词,比如“二” 士本文所选择的基准词 “浮云”、“伪娘”等,都没有在词典中出现,以后的研 0.8 1.0 1.2 1.4 610 究中,将进一步的考虑这些未登录词的语义对文本 相似度的影响 图7对测试语料4的准确率比较 Fig.7 Accuracy comparison for test corpus 4 参考文献: 「1]孙春华,刘业政,彭学仕.一种含强度的基准词选择和 为了验证不同的基准词个数对情感分类准确率 词汇倾向性判别方法[J].情报学报,2011,30(12): 的影响,分别从本文所得到的基准词中选择出排名 1261-1267. 靠前的15、20、25、30、40、50、60、75、80、85、90、95 SUN Chunhua,LIU Yezheng,PENG Xueshi.A method for 100、120对基准词,对4组测试语料分别测试,取其 paradigm words selection with intensity information and word sentiment orientation discrimination[J].Journal of the Chi- 平均值.得到的准确率如图8所示从图8可以看出, na Society for Scientific and Technical Information,2011, 基准词的数量从15~40时,情感倾向的分类的准确 30(12):1261-1267. 率得到了很快的提高,其中,在选择40对基准词时, [2]PETER D T.Thumbs up or thumbs down?Semantic orienta- 准确率为85%:基准词的数量大于40之后,准确率 tion applied to unsupervised classification of reviews[C]/
图 5 对测试语料 2 的准确率比较 Fig.5 Accuracy comparison for test corpus 2 图 6 对测试语料 3 的准确率比较 Fig.6 Accuracy comparison for test corpus 3 图 7 对测试语料 4 的准确率比较 Fig.7 Accuracy comparison for test corpus 4 为了验证不同的基准词个数对情感分类准确率 的影响,分别从本文所得到的基准词中选择出排名 靠前的 15、20、25、30、40、50、60、75、80、85、90、95、 100、120 对基准词,对 4 组测试语料分别测试,取其 平均值.得到的准确率如图 8 所示.从图 8 可以看出, 基准词的数量从 15~40 时,情感倾向的分类的准确 率得到了很快的提高,其中,在选择 40 对基准词时, 准确率为 85%;基准词的数量大于 40 之后,准确率 虽然得到了提高,但总体上来看变化趋势较为缓慢. 在实际应用中,随着基准词数量的增多,计算量也会 增大.从准确率和时间开销综合考虑,应该选择的基 准词数量在 40~60. 图 8 不同基准词个数对准确率的影响 Fig.8 Influence of the number of different standard words on accuracy rate 4 结论 本文分析了已有工作中基准词选择的优点和缺 点,在此基础上,提出了一种情感倾向判断中基准词 选择的方法.分别考虑到了情感词的情感歧义性、情 感代表性、情感倾向性,并相应地给出了计算公式. 通过实验测试表明,本文所提出的基准词,在情感倾 向的判断上准确性较高.文章的主要贡献有: 1)对词语相似度方法进行了改进,通过计算情 感词的情感语义相似度,排除掉一些有情感歧义的 词作为基准词的可能. 2)通过计算情感度,选择出情感代表性强的词 语作为候选基准词. 3)通过对情感词情感度的计算,选择出情感倾 向性强的情感词作为候选基准词. 实验结果表明,采用本文选择的基准词,在情感 倾向判断的准确率上,要优于传统的方法.由于词典 资源的不完备性,以及网络上的新词,比如“二”、 “浮云”、“伪娘”等,都没有在词典中出现,以后的研 究中,将进一步的考虑这些未登录词的语义对文本 相似度的影响. 参考文献: [1]孙春华, 刘业政, 彭学仕. 一种含强度的基准词选择和 词汇倾向性判别方法[ J]. 情报学报, 2011, 30 ( 12): 1261⁃1267. SUN Chunhua, LIU Yezheng, PENG Xueshi. A method for paradigm words selection with intensity information and word sentiment orientation discrimination[J]. Journal of the Chi⁃ na Society for Scientific and Technical Information, 2011, 30(12): 1261⁃1267. [2]PETER D T. Thumbs up or thumbs down? Semantic orienta⁃ tion applied to unsupervised classification of reviews[C] / / ·354· 智 能 系 统 学 报 第 8 卷
第4期 程传鹏,等:情感倾向判断中基准词的选择 ·355. Proceedings of the 40th Annual Meeting of the Association SONG Le,HE Tingting,WANG Qian,et al.Application of for Computational Linguistics.Philadelphia,USA,2002: polarity similarity in word semantic orientation identification 417-424. []Journal of Chinese Infornation Processing,2010,24 [3]朱嫣岚,闵锦,周雅倩,等.基于HowNet的词汇语义倾向 (4):63-67. 计算[J].中文信息学报,2006,20(1):14-20. [8]董振东,董强.知网[DB/0L].[2012-09-25].htp:// ZHU Yanlan,MIN Jin,ZHOU Yagian,et al.Semantic ori- www.keenage.com. entation computing based on How Net[J].Journal of Chinese [9]刘群,李素建.基于《知网》的词汇语义相似度的计算 Information Processing,2006,20(1):14-20. [C]/第3届汉语词汇语义学研讨会.台北,中国, [4]杨昱昺,吴贤伟.改进的基于知网词汇语义褒贬倾向性 2002. 计算[J].计算机工程与应用,2009,45(21):91-93. [I0]方芳,李仁发,何建军.基于改进PageRank的BA演化 YANG Yubing,WU Xianwei.Improved lexical semantic 模型[J].计算机工程与设计,2010,31(9):1901- tendentiousness recognition computing[J].Computer Engi- 1904. neering and Applications,2009.45(21):91-93. FANG Fang,LI Renfa,HE Jianjun.BA evolution model [5]彭学仕,孙春华.面向倾向性分析的基于词聚类的基准 based on improved PageRank[J].Computer Engineering 词选择方法[J].计算机应用研究,2011,28(1):114- and Design,2010,31(9):1901-1904. 116. 作者简介: PENG Xueshi,SUN Chunhua.Paradigm words selecting 程传鹏,男,1977生,讲师,主要研 method based on word clustering for sentiments analysis[J]. 究方向为自然语言处理、机器学习. Application Research of Computers,2011,28(1):114- 116. [6]柳位平,朱艳辉,栗春亮,等.中文基础情感词词典构 建方法研究[J].计算机应用,2009,29(10):2875 2877. LIU Weiping,ZHU Yanhui,LI Chunliang,et al.Research 王海龙,男,1976生,副教授,主要 on building Chinese basic semantic lexicon[J].Journal of 研究方向为图像处理、机器学习. Computer Applications,2009,29(10):2875-2877. [7]宋乐,何婷婷,王倩,等.极性相似度计算在词汇倾向 性识别中的应用[J].中文信息学报,2010,24(4):63 67. 第8届EEE国际智能信号处理研讨会 8th IEEE International Symposium on Intellgent Signal Processing The 8th IEEE International Symposium on Intelligent Signal Processing will take place in the enchanting Funchal,centre of Portugal's Madeira,a venue chosen to enhance interaction between participants,as well as give the event an appropriate setting. WISP 2013 aims to bring together scientists,researchers,and engineers to present the latest achievements and innovations related to intelligent signal processing in complex,embedded,and real time systems. TOPICS Papers are solicited on all information processing aspects related to the theory and application of computer based signal processing.Attention will be focused on,but not limited to:analog,digital,and mixed signal processing,image process- ing,computer vision,pattern recognition,information retrieval,bioengineering,machine learning,man-machine interac- tion,robotics,modeling,diagnostics,control,uncertainty-handling,artificial intelligence,soft computing techniques, anytime algorithms,emerging technologies,adaptive and nonlinear processing,intelligent signal processing,sensors,em- bedded systems,real-time systems,distributed measurement,diagnostics,and control systems,system identification and control,information fusion,VLSI/ASIC for intelligent signal processing,tool integration for better performance,perform- ance modeling,performance measurement,virtual systems,applications. Website:http://trivent.hu/WISP2013/
Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics. Philadelphia, USA, 2002: 417⁃424. [3]朱嫣岚,闵锦,周雅倩,等. 基于 HowNet 的词汇语义倾向 计算[J]. 中文信息学报, 2006, 20(1): 14⁃20. ZHU Yanlan, MIN Jin, ZHOU Yaqian, et al. Semantic ori⁃ entation computing based on HowNet[J]. Journal of Chinese Information Processing, 2006, 20(1): 14⁃20. [4]杨昱昺, 吴贤伟. 改进的基于知网词汇语义褒贬倾向性 计算[J]. 计算机工程与应用, 2009, 45(21): 91⁃93. YANG Yubing, WU Xianwei. Improved lexical semantic tendentiousness recognition computing[ J]. Computer Engi⁃ neering and Applications, 2009, 45(21): 91⁃93. [5]彭学仕,孙春华. 面向倾向性分析的基于词聚类的基准 词选择方法[ J]. 计算机应用研究, 2011, 28( 1): 114⁃ 116. PENG Xueshi, SUN Chunhua. Paradigm words selecting method based on word clustering for sentiments analysis[J]. Application Research of Computers, 2011, 28 ( 1): 114⁃ 116. [6]柳位平, 朱艳辉, 栗春亮, 等. 中文基础情感词词典构 建方法研究[ J]. 计算机应用, 2009, 29 ( 10): 2875⁃ 2877. LIU Weiping, ZHU Yanhui, LI Chunliang, et al. Research on building Chinese basic semantic lexicon[ J]. Journal of Computer Applications, 2009, 29(10): 2875⁃2877. [7]宋乐, 何婷婷, 王倩, 等. 极性相似度计算在词汇倾向 性识别中的应用[J]. 中文信息学报, 2010, 24(4): 63⁃ 67. SONG Le, HE Tingting, WANG Qian, et al. Application of polarity similarity in word semantic orientation identification [J]. Journal of Chinese Infornation Processing, 2010, 24 (4): 63⁃67. [8]董振东, 董强. 知网[ DB/ OL ]. [2012⁃09⁃25]. http: / / www.keenage.com. [9]刘群, 李素建.基于《知网》 的词汇语义相似度的计算 [C] / / 第 3 届汉语词汇语义学研讨会. 台北, 中国, 2002. [10]方芳,李仁发, 何建军. 基于改进 PageRank 的 BA 演化 模型[ J]. 计算机工程与设计, 2010, 31 ( 9): 1901⁃ 1904. FANG Fang, LI Renfa, HE Jianjun. BA evolution model based on improved PageRank [ J]. Computer Engineering and Design, 2010, 31(9): 1901⁃1904. 作者简介: 程传鹏,男,1977 生,讲师,主要研 究方向为自然语言处理、机器学习. 王海龙,男,1976 生,副教授,主要 研究方向为图像处理、机器学习. 第 8 届 IEEE 国际智能信号处理研讨会 8th IEEE International Symposium on Intellgent Signal Processing The 8th IEEE International Symposium on Intelligent Signal Processing will take place in the enchanting Funchal, centre of Portugal's Madeira, a venue chosen to enhance interaction between participants, as well as give the event an appropriate setting. WISP 2013 aims to bring together scientists, researchers, and engineers to present the latest achievements and innovations related to intelligent signal processing in complex, embedded, and real time systems. TOPICS Papers are solicited on all information processing aspects related to the theory and application of computer based signal processing. Attention will be focused on, but not limited to: analog, digital, and mixed signal processing, image process⁃ ing, computer vision, pattern recognition, information retrieval, bioengineering, machine learning, man⁃machine interac⁃ tion, robotics, modeling, diagnostics, control, uncertainty⁃handling, artificial intelligence, soft computing techniques, anytime algorithms, emerging technologies, adaptive and nonlinear processing, intelligent signal processing, sensors, em⁃ bedded systems, real⁃time systems, distributed measurement, diagnostics, and control systems, system identification and control, information fusion, VLSI/ ASIC for intelligent signal processing, tool integration for better performance, perform⁃ ance modeling, performance measurement, virtual systems, applications. Website: http: / / trivent.hu / WISP2013 / 第 4 期 程传鹏,等:情感倾向判断中基准词的选择 ·355·