正在加载图片...
·490 智能系统学报 第6卷 1相关背景知识 式中:Similarity(key,w)即是利用式(1)来计算.式 中的倾向度以0作为默认的阈值,大于0即为褒义, 1.1 How Net简介 小于0即为贬义, HowNet创始人董振东提到,HowNet是一个以 汉语和英语的词语所代表的概念为描述对象,以揭 2基于概念的词汇语义倾向度识别方法 示概念与概念之间以及概念所具有的属性之间的关 2.1问题的提出 系为基本内容的常识知识库.关系是词汇语义的灵 文献[7]提出的方法的实验效果并不十分理 魂,只有通过“关系”才可能教会计算机懂得或在某 想,因此本文作了如下思考:在HowNet的定义中, 种程度上懂得“语义”,也只有通过“关系”才可能 词汇包含了若干概念,对于一个基准褒贬义词,它可 教会计算机对语义进行运算, 能包含了具有褒贬义倾向的概念,也可能包含不具 在此要特别提到HowNet中2个主要的概念: 褒贬义倾向的中性概念,举例如表1所示.基于词汇 “概念”与“义原”.“概念”是对词汇语义的一种描 的语义倾向计算,实际是希望利用基准词具有褒贬 述,又称为义项.每一个词可以表达为几个概念 义倾向的概念来进行计算的,更确切地说,是希望利 “概念”是用一种“知识表示语言”来描述的,这种 用褒义词包含的褒义概念,以及贬义词包含的贬义 “知识表示语言”所用的“词汇”叫做“义原”.“义 概念来进行计算,如图1所示.图1中,左右两边各 原”是用于描述一个“概念”的最小意义单位.除了 是褒义基准词和贬义基准词,求候选词的语义倾向 义原,HowNet中还用了一些符号(如!、#、%等)来 正如虚线箭头所示,是2组词与候选词的相似度之 对概念的语义进行描述, 差,但当褒/贬义基准词中包含了贬/褒义概念和中 现今国内利用HowNet的语义倾向度识别方法 性概念时,就会造成效率的损失(不必要的求取相 通常都是基于相似度的,因此先介绍基于HowNet 似度)以及对实验效果的负面作用, 的相似度度量方法.刘群提出了2个层面的相似 表1带有不同倾向概念的褒贬义词举例 度度量一概念与概念间的相似度和词汇与词汇之 Table 1 Examples of sentimental words containing con- 间的相似度, cepts of different orientation 对概念S,、S2,它们的相似度可表示为 褒义概念数 贬义概念数 中性概念数 Sim(S,S2)=>B.Sim(S1,S2). 老实 1 1 简单 1 1 式中:B(1≤i≤4)是可调节的参数,且有:B1+B2+ 随便 1 2 2 B3+B4=1,B≥B2≥B3≥B4,Sim1(S,S2)、 天真 1 1 0 Sim2(S1,S2)、Sim3(S1,S2)、Sim4(S1,S2)分别表示 贵 2 1 2 第一独立义原描述式、其他独立义原描述式、关系义 原描述式和符号义原描述式 磙义基准词 候选词 贬义基准词 而对于2个汉语词语W1和W2,如果W,有n个 义项(概念):S,S2,…,S.,W2有m个义项(概 念):S21,S2,…,Sm,则W1和W2的相似度为各个概 念的相似度之最大值: Sim(W1,W2)=ei2m2 max Sim(S,S2).(1) 1.2基于词汇的词汇语义倾向度识别方法 文献[7]根据若干对褒贬义基准词,利用How Net的相似度分析进行词汇的倾向计算,在思路上 ▲褒义概念 ●巾性概念 ■贬义概念 同样是沿用了Turney的方法:设共有k对基准词, 图1基于词汇的词汇语义倾向计算 每对基准词包括一个褒义词和一个贬义词.褒义基 Fig.1 Orientation computing based on words 准词表示为keyp,贬义基准词表示为key_n,单词w 于是设想:当基准词与候选词进行相似度计算 的语义倾向值用orientation(w)表示,则 时,这样的中性概念或者反义概念(即褒/贬义词中 orientation(o)=∑Similarity(keyp:,w)- 的贬/褒义概念),会不会对语义倾向的计算产生负 面的效果,并使得实验不得不进行许多无意义的、冗 ∑Similarity(key_n,o). 余的相似度计算,能否有一种更纯粹的使用褒义和
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有