用到基准词的选择中，从构建好的目标领域本体中选出一组初始的种子词，通过词

正在加载图片...

·350· 智能系统学报第8卷用到基准词的选择中，从构建好的目标领域本体中有考虑义原在语义树状图中的深度.依照树状图的选出一组初始的种子词，通过词的扩展聚类得出下定义，越是处于层次低的义原节点，概念描述的越具一代种子词，然后通过迭代得出优化的基准词文献体，比如“兽”和“走兽”，而处在层次越高的义原节 [6]利用公式计算语料库中名词、形容词和动词的点概念描述越笼统，比如“万物”和“物质”.因为对类别区分能力，选出区分能力较强的词M个，用所于d值相同的2对义原，处于语义层次树较低层次选出的词与已有的情感词表做交集，选择语料中出的应该比处于较高层次的2对词语的相似度要大现频率高的前N个词作为最终的基准词.文献[6] 因此，把式(1)改进为使用的基础情感词以《知网》发布的情感词语集为 a+H(p)+H(p) 基础，通过人工挑选，去掉一些不太常用或者情感倾 sim(P,P2)= 、a+Hp)+HP,)+L,)(2) 向不很明显的词语，最后得到褒义词3219个，贬义式中：H(P:)为义原节点到根节点的路径长度，词2905个，最终的基础情感词词典包含6196个基 L(P:,P)为2个义原节点第1次到达同一个父节点础情感词.然后计算它们的情感倾向权值，去掉分类所经过的最长路径长度，不正确的词以及权值过低的中性词，最后得到5281 -entityl实体个基础情感词.文献[7]选择基准词的方法是：从 -thingl万物《知网》[8]所提供的情感词语中选择全部义项只有 …Fphysicall物质一种极性的形容词和名词作为基准词，并且认为单 …下animatel生物一义项的词语不会出现褒贬歧义和情感极性较弱的 …上animal humanl动物情况 .humanl人 |humanizedl拟人通过人工选择具有倾向性的基准词方法的优，点 Lanimall兽是选择的基准词准确率高，但由于人知识的有限性 -beastl走兽和片面性，选择的基准词往往会漏选、错选.通过已图1树状的义原层次结构经制定好的褒贬倾向性词典，然后利用同义词词典 Fig.1 Arborescence hierarchical structure of semantic unit 对词典进行扩展的方法，虽然所选择的基准词较全假设情感词W的义项为{S1,S2,…,S},情面，但给后面的倾向性判断带来大量的计算由于搜感词W,的义项为{S,S2,…,S2m},义项之间的相索引擎的更新，利用搜索引擎所返回来的hits数筛似度计算，依然参照文献[9]中的计算方法，词语选基准词的方法，实际上也是不够客观的. W,和W,的相似度为各个义项的相似度之最大值， 1基准词的选择方法如式(3)所示：一个词语要作为基准词，一般应该满足3个条 sim(W,W,）F--mg2si(Sg.(3）如果直接将式(3)用于情感倾向判断中的词语件：情感代表性强、情感歧义少、情感极性强.下面分相似度计算，实际上是不太合理的.具有多个义项的别从这3个因素来叙述本文所提出的基准词选择的词语可能会在情感倾向上产生歧义，也就是说词语方法. 的某个义项可能为正面情感倾向，而另外一个义项 1.1情感语义相似度可能为负面情感倾向.在选择基准词的时候，应该尽通过改进的词语相似度计算方法，来选择情感量排除掉具有情感歧义的词.因此本文在计算情感歧义少的情感词作为基准词.文献[9]基于《知网》词语义相似度时采用情感词W,和W,的各个义项的的相似度计算，依照《知网》对义原的描述，文献[9] 语义相似度之和的平均值，假设情感词W,有n个义将所有的义原用一个树状的层次结构图来表示，如项，W2有m个义项，如果用E(W,W2)表示W1、W2 图1所示. 情感词语义相似度，其计算公式可以表示成式(4)：由于所有的义原根据上下位关系构成了一个树状的义原层次体系，假设2个义原在这个层次体系 m(Su,S2) (4) 中的路径距离为d,文献[9]采用式(1)来计算2个 E(W1,W2）=1.2时=1,2m n x m 义原之间的语义距离： 1.2情感度的计算 sim(pipa)=a 情感度指情感词能够代表负面情感词或者正面 (1) d a 情感词的程度通过对情感词的情感度的计算，选择式中各参数的含义见文献[9].式(1)的计算，并没出一些最具有代表性的情感词作为基准词基准词用到基准词的选择中，从构建好的目标领域本体中选出一组初始的种子词，通过词的扩展聚类得出下一代种子词，然后通过迭代得出优化的基准词．文献［６］利用公式计算语料库中名词、形容词和动词的类别区分能力，选出区分能力较强的词Ｍ个，用所选出的词与已有的情感词表做交集，选择语料中出现频率高的前Ｎ个词作为最终的基准词．文献［６］使用的基础情感词以《知网》发布的情感词语集为基础，通过人工挑选，去掉一些不太常用或者情感倾向不很明显的词语，最后得到褒义词３２１９个，贬义词２９０５个，最终的基础情感词词典包含６１９６个基础情感词．然后计算它们的情感倾向权值，去掉分类不正确的词以及权值过低的中性词，最后得到５２８１个基础情感词．文献［７］选择基准词的方法是：从《知网》［８］所提供的情感词语中选择全部义项只有一种极性的形容词和名词作为基准词，并且认为单一义项的词语不会出现褒贬歧义和情感极性较弱的情况．通过人工选择具有倾向性的基准词方法的优点是选择的基准词准确率高，但由于人知识的有限性和片面性，选择的基准词往往会漏选、错选．通过已经制定好的褒贬倾向性词典，然后利用同义词词典对词典进行扩展的方法，虽然所选择的基准词较全面，但给后面的倾向性判断带来大量的计算．由于搜索引擎的更新，利用搜索引擎所返回来的ｈｉｔｓ数筛选基准词的方法，实际上也是不够客观的．１基准词的选择方法一个词语要作为基准词，一般应该满足３个条件：情感代表性强、情感歧义少、情感极性强．下面分别从这３个因素来叙述本文所提出的基准词选择的方法．１．１情感语义相似度通过改进的词语相似度计算方法，来选择情感歧义少的情感词作为基准词．文献［９］基于《知网》的相似度计算，依照《知网》对义原的描述，文献［９］将所有的义原用一个树状的层次结构图来表示，如图１所示．由于所有的义原根据上下位关系构成了一个树状的义原层次体系，假设２个义原在这个层次体系中的路径距离为ｄ，文献［９］采用式（１）来计算２个义原之间的语义距离：ｓｉｍ（ｐ１，ｐ２）＝ａｄ＋ａ．（１）式中各参数的含义见文献［９］．式（１）的计算，并没有考虑义原在语义树状图中的深度．依照树状图的定义，越是处于层次低的义原节点，概念描述的越具体，比如“兽”和“走兽”，而处在层次越高的义原节点概念描述越笼统，比如“万物”和“物质”．因为对于ｄ值相同的２对义原，处于语义层次树较低层次的应该比处于较高层次的２对词语的相似度要大．因此，把式（１）改进为ｓｉｍ（ｐ１，ｐ２）＝ａ＋Ｈ（ｐ１）＋Ｈ（ｐ１）ａ＋Ｈ（ｐ１）＋Ｈ（ｐ１）＋Ｌ（ｐ１，ｐ２）．（２）式中：Ｈ（ｐｉ）为义原节点到根节点的路径长度，Ｌ（ｐｉ，ｐｊ）为２个义原节点第１次到达同一个父节点所经过的最长路径长度．－ｅｎｔｉｔｙ｜实体 ├ｔｈｉｎｇ｜万物 … ├ｐｈｙｓｉｃａｌ｜物质 … ├ａｎｉｍａｔｅ｜生物 … ├ａｎｉｍａｌｈｕｍａｎ｜动物 … ├ｈｕｍａｎ｜人 │└ｈｕｍａｎｉｚｅｄ｜拟人 └ａｎｉｍａｌ｜兽 ├ｂｅａｓｔ｜走兽图１树状的义原层次结构Ｆｉｇ．１Ａｒｂｏｒｅｓｃｅｎｃｅｈｉｅｒａｒｃｈｉｃａｌｓｔｒｕｃｔｕｒｅｏｆｓｅｍａｎｔｉｃｕｎｉｔ假设情感词Ｗ１的义项为｛Ｓ１１，Ｓ１２，…，Ｓ１ｎ｝，情感词Ｗ２的义项为｛Ｓ２１，Ｓ２２，…，Ｓ２ｍ｝，义项之间的相似度计算，依然参照文献［９］中的计算方法，词语Ｗ１和Ｗ２的相似度为各个义项的相似度之最大值，如式（３）所示：ｓｉｍ（Ｗ１，Ｗ２）＝ｍａｘｉ＝１，２，．．．，ｎ，ｊ＝１，２，．．．，ｍｓｉｍ（Ｓ１ｉ，Ｓ２ｊ）．（３）如果直接将式（３）用于情感倾向判断中的词语相似度计算，实际上是不太合理的．具有多个义项的词语可能会在情感倾向上产生歧义，也就是说词语的某个义项可能为正面情感倾向，而另外一个义项可能为负面情感倾向．在选择基准词的时候，应该尽量排除掉具有情感歧义的词．因此本文在计算情感词语义相似度时采用情感词Ｗ１和Ｗ２的各个义项的语义相似度之和的平均值，假设情感词Ｗ１有ｎ个义项，Ｗ２有ｍ个义项，如果用Ｅ（Ｗ１，Ｗ２）表示Ｗ１、Ｗ２情感词语义相似度，其计算公式可以表示成式（４）：Ｅ（Ｗ１，Ｗ２）＝ｉ＝１，２，．．．，∑ｎ，ｊ＝１，２，．．．，ｍｓｉｍ（Ｓ１ｉ，Ｓ２ｊ）ｎ × ｍ．（４）１．２情感度的计算情感度指情感词能够代表负面情感词或者正面情感词的程度．通过对情感词的情感度的计算，选择出一些最具有代表性的情感词作为基准词．基准词 ·３５０· 智能系统学报第８卷

<<向上翻页向下翻页>>

点击下载：【自然语言处理与理解】情感倾向判断中基准词的选择