正在加载图片...
·350· 智能系统学报 第8卷 用到基准词的选择中,从构建好的目标领域本体中 有考虑义原在语义树状图中的深度.依照树状图的 选出一组初始的种子词,通过词的扩展聚类得出下 定义,越是处于层次低的义原节点,概念描述的越具 一代种子词,然后通过迭代得出优化的基准词文献 体,比如“兽”和“走兽”,而处在层次越高的义原节 [6]利用公式计算语料库中名词、形容词和动词的 点概念描述越笼统,比如“万物”和“物质”.因为对 类别区分能力,选出区分能力较强的词M个,用所 于d值相同的2对义原,处于语义层次树较低层次 选出的词与已有的情感词表做交集,选择语料中出 的应该比处于较高层次的2对词语的相似度要大 现频率高的前N个词作为最终的基准词.文献[6] 因此,把式(1)改进为 使用的基础情感词以《知网》发布的情感词语集为 a+H(p)+H(p) 基础,通过人工挑选,去掉一些不太常用或者情感倾 sim(P,P2)= 、a+Hp)+HP,)+L,)(2) 向不很明显的词语,最后得到褒义词3219个,贬义 式中:H(P:)为义原节点到根节点的路径长度, 词2905个,最终的基础情感词词典包含6196个基 L(P:,P)为2个义原节点第1次到达同一个父节点 础情感词.然后计算它们的情感倾向权值,去掉分类 所经过的最长路径长度, 不正确的词以及权值过低的中性词,最后得到5281 -entityl实体 个基础情感词.文献[7]选择基准词的方法是:从 -thingl万物 《知网》[8]所提供的情感词语中选择全部义项只有 …Fphysicall物质 一种极性的形容词和名词作为基准词,并且认为单 …下animatel生物 一义项的词语不会出现褒贬歧义和情感极性较弱的 …上animal humanl动物 情况 .humanl人 |humanizedl拟人 通过人工选择具有倾向性的基准词方法的优,点 Lanimall兽 是选择的基准词准确率高,但由于人知识的有限性 -beastl走兽 和片面性,选择的基准词往往会漏选、错选.通过已 图1树状的义原层次结构 经制定好的褒贬倾向性词典,然后利用同义词词典 Fig.1 Arborescence hierarchical structure of semantic unit 对词典进行扩展的方法,虽然所选择的基准词较全 假设情感词W的义项为{S1,S2,…,S},情 面,但给后面的倾向性判断带来大量的计算由于搜 感词W,的义项为{S,S2,…,S2m},义项之间的相 索引擎的更新,利用搜索引擎所返回来的hits数筛 似度计算,依然参照文献[9]中的计算方法,词语 选基准词的方法,实际上也是不够客观的. W,和W,的相似度为各个义项的相似度之最大值, 1基准词的选择方法 如式(3)所示: 一个词语要作为基准词,一般应该满足3个条 sim(W,W,)F--mg2si(Sg.(3) 如果直接将式(3)用于情感倾向判断中的词语 件:情感代表性强、情感歧义少、情感极性强.下面分 相似度计算,实际上是不太合理的.具有多个义项的 别从这3个因素来叙述本文所提出的基准词选择的 词语可能会在情感倾向上产生歧义,也就是说词语 方法. 的某个义项可能为正面情感倾向,而另外一个义项 1.1情感语义相似度 可能为负面情感倾向.在选择基准词的时候,应该尽 通过改进的词语相似度计算方法,来选择情感 量排除掉具有情感歧义的词.因此本文在计算情感 歧义少的情感词作为基准词.文献[9]基于《知网》 词语义相似度时采用情感词W,和W,的各个义项的 的相似度计算,依照《知网》对义原的描述,文献[9] 语义相似度之和的平均值,假设情感词W,有n个义 将所有的义原用一个树状的层次结构图来表示,如 项,W2有m个义项,如果用E(W,W2)表示W1、W2 图1所示. 情感词语义相似度,其计算公式可以表示成式(4): 由于所有的义原根据上下位关系构成了一个树 状的义原层次体系,假设2个义原在这个层次体系 m(Su,S2) (4) 中的路径距离为d,文献[9]采用式(1)来计算2个 E(W1,W2)=1.2时=1,2m n x m 义原之间的语义距离: 1.2情感度的计算 sim(pipa)=a 情感度指情感词能够代表负面情感词或者正面 (1) d a 情感词的程度通过对情感词的情感度的计算,选择 式中各参数的含义见文献[9].式(1)的计算,并没 出一些最具有代表性的情感词作为基准词基准词用到基准词的选择中,从构建好的目标领域本体中 选出一组初始的种子词,通过词的扩展聚类得出下 一代种子词,然后通过迭代得出优化的基准词.文献 [6]利用公式计算语料库中名词、形容词和动词的 类别区分能力,选出区分能力较强的词 M 个,用所 选出的词与已有的情感词表做交集,选择语料中出 现频率高的前 N 个词作为最终的基准词.文献[6] 使用的基础情感词以《知网》发布的情感词语集为 基础,通过人工挑选,去掉一些不太常用或者情感倾 向不很明显的词语,最后得到褒义词3 219个,贬义 词2 905个,最终的基础情感词词典包含6 196个基 础情感词.然后计算它们的情感倾向权值,去掉分类 不正确的词以及权值过低的中性词,最后得到 5 281 个基础情感词.文献[7] 选择基准词的方法是:从 《知网》 [ 8 ]所提供的情感词语中选择全部义项只有 一种极性的形容词和名词作为基准词,并且认为单 一义项的词语不会出现褒贬歧义和情感极性较弱的 情况. 通过人工选择具有倾向性的基准词方法的优点 是选择的基准词准确率高,但由于人知识的有限性 和片面性,选择的基准词往往会漏选、错选.通过已 经制定好的褒贬倾向性词典,然后利用同义词词典 对词典进行扩展的方法,虽然所选择的基准词较全 面,但给后面的倾向性判断带来大量的计算.由于搜 索引擎的更新,利用搜索引擎所返回来的 hits 数筛 选基准词的方法,实际上也是不够客观的. 1 基准词的选择方法 一个词语要作为基准词,一般应该满足 3 个条 件:情感代表性强、情感歧义少、情感极性强.下面分 别从这 3 个因素来叙述本文所提出的基准词选择的 方法. 1.1 情感语义相似度 通过改进的词语相似度计算方法,来选择情感 歧义少的情感词作为基准词.文献[9]基于《知网》 的相似度计算,依照《知网》对义原的描述,文献[9] 将所有的义原用一个树状的层次结构图来表示,如 图 1 所示. 由于所有的义原根据上下位关系构成了一个树 状的义原层次体系,假设 2 个义原在这个层次体系 中的路径距离为 d,文献[9]采用式(1)来计算 2 个 义原之间的语义距离: sim(p1 ,p2 ) = a d + a . (1) 式中各参数的含义见文献[9].式(1)的计算,并没 有考虑义原在语义树状图中的深度.依照树状图的 定义,越是处于层次低的义原节点,概念描述的越具 体,比如“兽”和“走兽”,而处在层次越高的义原节 点概念描述越笼统,比如“万物”和“物质”.因为对 于 d 值相同的 2 对义原,处于语义层次树较低层次 的应该比处于较高层次的 2 对词语的相似度要大. 因此,把式(1)改进为 sim(p1 ,p2 ) = a + H(p1 ) + H(p1 ) a + H(p1 ) + H(p1 ) + L(p1 ,p2 ) . (2) 式中:H ( pi ) 为义原节点到根节点的路径长度, L(pi,pj)为 2 个义原节点第 1 次到达同一个父节点 所经过的最长路径长度. -entity |实体 ├thing |万物 … ├physical |物质 … ├animate |生物 … ├animal human |动物 … ├human |人 │└humanized |拟人 └animal |兽 ├beast |走兽 图 1 树状的义原层次结构 Fig.1 Arborescence hierarchical structure of semantic unit 假设情感词 W1的义项为{ S11 ,S12 ,…,S1n },情 感词 W2的义项为{ S21 ,S22 ,…,S2m },义项之间的相 似度计算,依然参照文献[9] 中的计算方法,词语 W1 和 W2 的相似度为各个义项的相似度之最大值, 如式(3)所示: sim(W1 ,W2 ) = max i = 1,2,...,n,j = 1,2,...,m sim(S1i,S2j). (3) 如果直接将式(3)用于情感倾向判断中的词语 相似度计算,实际上是不太合理的.具有多个义项的 词语可能会在情感倾向上产生歧义,也就是说词语 的某个义项可能为正面情感倾向,而另外一个义项 可能为负面情感倾向.在选择基准词的时候,应该尽 量排除掉具有情感歧义的词.因此本文在计算情感 词语义相似度时采用情感词 W1和 W2的各个义项的 语义相似度之和的平均值,假设情感词 W1有 n 个义 项,W2有 m 个义项,如果用 E(W1 ,W2 )表示 W1 、W2 情感词语义相似度,其计算公式可以表示成式(4): E(W1 ,W2 ) = i = 1,2,...,∑n,j = 1,2,...,m sim(S1i,S2j) n × m . (4) 1.2 情感度的计算 情感度指情感词能够代表负面情感词或者正面 情感词的程度.通过对情感词的情感度的计算,选择 出一些最具有代表性的情感词作为基准词.基准词 ·350· 智 能 系 统 学 报 第 8 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有