D01:10.133745.issn1001-t5.2010.02.024 第32卷第2期 北京科技大学学报 Vol 32 No 2 2010年2月 Journal of Un iversity of Science and Technobgy Beijing Feb 2010 基于深层特征抽取的日文词义消歧系统 雷雪梅)王大亮)田中贵秋3)曾广平) 1)北京科技大学信息工程学院,北京1000832)中国电信集团系统集成公司,北京100035 3)NTT通信科学研究所自然语言研究组,京都6190237 摘要词义消歧的特征来源于上下文·日文兼有中英文的语言特性,特征抽取更为复杂·针对日文特点,在词义消歧逻辑 模型基础上,利用最大嫡模型优良的信息融合性能,采用深层特征抽取方法,引入语义、句法类特征用于消解歧义·同时,为避 免偏斜指派,采用BeamSearch算法进行词义序列标注.实验结果表明,与仅使用表层词法类特征方法相比,本文构造的日文 词义消歧系统的消歧精度提高9%~3%,动词消歧精度获得%的改善. 关键词自然语言处理:词义消歧:最大嫡模型:特征抽取 分类号TP391 Japanese word sense disam biguation system based on deep feature extraction IEI Xueme.WANG Da-liang,TANAKA Takaak,ZENG Guang ping) 1)School of Infomation Engineering University of Science and Technology Beijing Beijing 100083 China 2)System Integmation Campany China Telecan Comporation Beijing 100035 China 3)Natml Language Researh G roup NTT Canmunication Science Labomtories Kyo 6190237,Japan ABSTRACT The features of word sense disambiguation (WSD)come from the context Japanese has linguistic features of both Chi- nese and English at the same tie thus the feature extraction of Japanese is more complicated Consdlering Japanese features based on the proposed W SD logic model and applying the characteristics of infomation integration of the maximum entropy model WSD was solved by the deep feature extraction method introducing semantics and syntactics features Meanwhile for preventing the skewed as- sigrment of lonely word sense the word sense tagging of word sequences was completed with the BeanSearch algorithm.Experinent re- sults show that compared with W SD methods which only focus on the surface lexical features the disambiguation accuracy of the Japa- nese W SD systen proposed in this paper increases 2 to,and the W SD accuracy of vebs iproves 5%. KEY WORDS natural language processing word sense disanbiguation:maxinum entropy model feature extmaction 词义消歧(word sense disambiguation)就是在给 机器学习的方法被尝试用于词义消歧,根据是否使 定上下文环境中确定一个多义词的具体含义,并完 用已标注语料库,可以分为有监督消歧和无监督 成义项标注的过程,该项研究最早起源于20世纪 消歧, 50年代的机器翻译.然而,词义消歧作为自然语言 词义消歧的基本理论依据是“观其伴,而知其 处理的基础性课题,是信息检索、自动文摘、文本对 义”.根据与待消歧词之间的相对距离、次序、频次 齐和问答系统等领域所无法回避的,或者说,凡是 以及句法关系等信息,相邻词提供了可用于消歧的 依赖于文本语义理解的语言处理系统,词义消歧就 很多线索信息1-),由于日文兼有中英文的语言特 是必不可少的,因此,词义消歧一直受到研究者的 性,一方面,中日文的行文方式相同,没有约定的分 重视 隔符:另一方面,日文同英文类似,有比较复杂的变 当前,随着统计自然语言处理技术的发展,很多 形规则,因此,特征选择与特征表示变得更为复杂, 收稿日期:2009-05-01 基金项目:国家高技术研究发展计划资助项目(N。2007AA01ZI70) 作者简介:雷雪梅(1972-女,博士研究生;曾广平(1962)男教授,博士生导师,Emai即ng20012003@yahoo can.cn
第 32卷 第 2期 2010年 2月 北 京 科 技 大 学 学 报 JournalofUniversityofScienceandTechnologyBeijing Vol.32No.2 Feb.2010 基于深层特征抽取的日文词义消歧系统 雷雪梅 1) 王大亮 2) 田中贵秋 3) 曾广平 1) 1) 北京科技大学信息工程学院北京 100083 2) 中国电信集团系统集成公司北京 100035 3) NTT通信科学研究所自然语言研究组京都 6190237 摘 要 词义消歧的特征来源于上下文.日文兼有中英文的语言特性特征抽取更为复杂.针对日文特点在词义消歧逻辑 模型基础上利用最大熵模型优良的信息融合性能采用深层特征抽取方法引入语义、句法类特征用于消解歧义.同时为避 免偏斜指派采用 BeamSearch算法进行词义序列标注.实验结果表明与仅使用表层词法类特征方法相比本文构造的日文 词义消歧系统的消歧精度提高 2% ~3%动词消歧精度获得 5%的改善. 关键词 自然语言处理;词义消歧;最大熵模型;特征抽取 分类号 TP391 Japanesewordsensedisambiguationsystem basedondeepfeatureextraction LEIXue-mei 1)WANGDa-liang 2)TANAKATakaaki 3)ZENGGuang-ping 1) 1) SchoolofInformationEngineeringUniversityofScienceandTechnologyBeijingBeijing100083China 2) SystemIntegrationCompanyChinaTelecomCorporationBeijing100035China 3) NaturalLanguageResearchGroupNTTCommunicationScienceLaboratoriesKyoto6190237Japan ABSTRACT Thefeaturesofwordsensedisambiguation(WSD) comefromthecontext.JapanesehaslinguisticfeaturesofbothChi- neseandEnglishatthesametimethusthefeatureextractionofJapaneseismorecomplicated.ConsideringJapanesefeaturesbased ontheproposedWSDlogicmodelandapplyingthecharacteristicsofinformationintegrationofthemaximumentropymodelWSDwas solvedbythedeepfeatureextractionmethodintroducingsemanticsandsyntacticsfeatures.Meanwhileforpreventingtheskewedas- signmentoflonelywordsensethewordsensetaggingofwordsequenceswascompletedwiththeBeamSearchalgorithm.Experimentre- sultsshowthatcomparedwithWSDmethodswhichonlyfocusonthesurfacelexicalfeaturesthedisambiguationaccuracyoftheJapa- neseWSDsystemproposedinthispaperincreases2% to3%andtheWSDaccuracyofverbsimproves5%. KEYWORDS naturallanguageprocessing;wordsensedisambiguation;maximumentropymodel;featureextraction 收稿日期:2009--05--01 基金项目:国家高技术研究发展计划资助项目 (No.2007AA01Z170) 作者简介:雷雪梅 (1972— )女博士研究生;曾广平 (1962— )男教授博士生导师E-mail:zgping20012002@yahoo.com.cn 词义消歧 (wordsensedisambiguation)就是在给 定上下文环境中确定一个多义词的具体含义并完 成义项标注的过程.该项研究最早起源于 20世纪 50年代的机器翻译.然而词义消歧作为自然语言 处理的基础性课题是信息检索、自动文摘、文本对 齐和问答系统等领域所无法回避的.或者说凡是 依赖于文本语义理解的语言处理系统词义消歧就 是必不可少的.因此词义消歧一直受到研究者的 重视. 当前随着统计自然语言处理技术的发展很多 机器学习的方法被尝试用于词义消歧.根据是否使 用已标注语料库可以分为有监督消歧和无监督 消歧. 词义消歧的基本理论依据是 “观其伴而知其 义 ”.根据与待消歧词之间的相对距离、次序、频次 以及句法关系等信息相邻词提供了可用于消歧的 很多线索信息 [1--2].由于日文兼有中英文的语言特 性一方面中日文的行文方式相同没有约定的分 隔符;另一方面日文同英文类似有比较复杂的变 形规则.因此特征选择与特征表示变得更为复杂. DOI :10.13374/j.issn1001-053x.2010.02.024
.264 北京科技大学学报 第32卷 以往,日文词义消歧研究大多利用相邻词的表层特 w:2…,wn和相应的词义标注序列{3等2…, 征,如词形(m orphology)、词性(part of speech s。组成.其中,w:表示文本中的词项j是进行 POS)、词袋(bag of word BOW)等,也都取得良好的 处理的最基本单元,s表示w:相对应的词义标记, 消歧性能3.那么,除了表层特征外,词义消歧还 =1,2…,m-1,j=12…,n 需要哪些知识?如果逐步加入语义和句法等深层的 在词义标注阶段,词义消歧系统根据训练所得 语言知识,能否提高词义消歧的精度呢? 到的条件概率分布模型,对新文本进行词义标注,找 表征性消歧特征可划分为词法特征、语义特征 到相应的最合适的词义标注序列,即: 和句法特征,本文针对日文的特点,在运用词法特 1品2…,n= 征基础上,将语义、句法类深层语言特征逐步引入词 ang maxP(品1ya2…,anwm1y 义消歧模型,以探究深层特征对词义消歧精度的改 W 2 ...Wan 善程度,词义消歧模型中利用了最大熵模型优良的 信息融合特性,并采用BeamSearch算法实现基于句 ang max>P(C:) 1 子的词义序列标注,实验结果显示,本文构造的有 式中,C。为第个词wm所对应的上下文环境 监督日文词义消歧系统,词义消歧性能能够得到一 这样的条件概率分布实际上就是一个分类模 定程度的改善 型,可运用很多分类器来实现,如朴素贝叶斯、支持 向量机、神经网络和最大熵等。最大熵模型具有非 1词义消歧的逻辑模型 常良好的信息融合特性,因此本文选用最大嫡法, 词义消歧可抽象为一个典型的分类问题,即多 对于增量式词义消歧系统,不断将新标注的样 义词的某个义项在特定上下文环境中获得指派.对 本置于已标注的种子样本集中,便能逐渐扩大训 具有k个义项的多义词w,记为S={,,,{,w 练语料库,缓解训练语料缺乏的问题,当然,若无论 出现在某个确定上下文C(句、段落或篇章)中,然 真伪地将所有标注结果返回用于训练,必然导致分 后,选择一个最合适的义项s=argnaxR(slC),其 类器性能下降.有关增量式学习的情况较为复杂, 中R表示义项和上下文关联程度的映射.然而,孤 此处不予赘述 立地处理当前文中的每个歧义词,很容易出现偏斜 2最大熵概率模型 指派(skewed assignment):因为在一个词序列中,歧 义词之间仍然存在相互约束。因而,词义消歧的目 最大熵模型是一个较为成熟的概率模型,它巧 标应为句子范围内的词义序列消歧 妙地将特征选择和参数估计统一到一个框架下,在 本文提出一个有监督词义消歧的逻辑模型,如 建立模型过程中,能够有效地融合各种来源的信息, 图1所示.这个机器学习过程包括训练和标注两个 因此,它允许定义任意复杂的特征,只要实验者相信 阶段 这些特征可能对类别判定有所贡献,近年来,最大 uw13…地 熵法在自然语言处理领域取得了广泛的应用,特别 552…m 是Ramnaparkhi将最大嫡法应用于词性标注、断句、 f2w222 52122a 训练模块 文本分割和句法分析等问题),作了一系列有益的 条件概率模型 0ta0-a…wn-i 探索, 、-山-2w- P(WWISS) 最大熵基本思想就是保留尽可能多的不确定 In 2Wna 词义标注模块 性.即在一无所知的情况下,认为所有可能事件的 rg maxP(s-ed) 发生几率相同,此时,概率分布是均匀的,事件整体 图1词义消歧逻辑模型 的熵最大,在词义消歧中,依靠上下文表征性特征 Fig 1 Logicalmodel ofW SD 信息,使用条件最大嫡模型对每个候选词义进行统 在模型训练阶段,词义消歧系统需要基于已标 计推断,可归纳为以下动态规划问题: 注的语料库构建一个条件概率分布模型P(W1, maH(P(slC)=-∑ 2 P(a s)bP(slc)= W2,…,WS,S2,,S),≤n用于训练的语料均 -∑P(cP(slc)bP(slo), 为已标注的样本,每个样本由文本单元序列w:
北 京 科 技 大 学 学 报 第 32卷 以往日文词义消歧研究大多利用相邻词的表层特 征如 词 形 (morphology)、词 性 (partofspeech POS)、词袋 (bagofwordBOW)等也都取得良好的 消歧性能 [3--4].那么除了表层特征外词义消歧还 需要哪些知识?如果逐步加入语义和句法等深层的 语言知识能否提高词义消歧的精度呢? 表征性消歧特征可划分为词法特征、语义特征 和句法特征.本文针对日文的特点在运用词法特 征基础上将语义、句法类深层语言特征逐步引入词 义消歧模型以探究深层特征对词义消歧精度的改 善程度.词义消歧模型中利用了最大熵模型优良的 信息融合特性并采用 BeamSearch算法实现基于句 子的词义序列标注.实验结果显示本文构造的有 监督日文词义消歧系统词义消歧性能能够得到一 定程度的改善. 1 词义消歧的逻辑模型 词义消歧可抽象为一个典型的分类问题即多 义词的某个义项在特定上下文环境中获得指派.对 具有 k个义项的多义词 w记为 S={s1s2…sk}w 出现在某个确定上下文 C(句、段落或篇章 )中.然 后选择一个最合适的义项 s′=argmaxR(si|C)其 中 R表示义项和上下文关联程度的映射.然而孤 立地处理当前文中的每个歧义词很容易出现偏斜 指派 (skewedassignment);因为在一个词序列中歧 义词之间仍然存在相互约束.因而词义消歧的目 标应为句子范围内的词义序列消歧. 本文提出一个有监督词义消歧的逻辑模型如 图 1所示.这个机器学习过程包括训练和标注两个 阶段. 图 1 词义消歧逻辑模型 Fig.1 LogicalmodelofWSD 在模型训练阶段词义消歧系统需要基于已标 注的语料库构建一个条件概率分布模型 P(W1 W2…Wk|S1S2…Sk)k≤n.用于训练的语料均 为已标注的样本每个样本由文本单元序列{wi1 wi2…win}和相应的词义标注序列{si1si2… sin}组成.其中wij表示文本 i中的词项 j是进行 处理的最基本单元sij表示 wij相对应的词义标记 i=12…m—1j=12…n. 在词义标注阶段词义消歧系统根据训练所得 到的条件概率分布模型对新文本进行词义标注找 到相应的最合适的词义标注序列即: sm1sm2…smn= argmaxP(sm1sm2…smn|wm1 wm2…wmn)≈ argmax∑ n i=1 P(smi|Cmi). 式中Cmi为第 i个词 wmi所对应的上下文环境. 这样的条件概率分布实际上就是一个分类模 型可运用很多分类器来实现如朴素贝叶斯、支持 向量机、神经网络和最大熵等.最大熵模型具有非 常良好的信息融合特性因此本文选用最大熵法. 对于增量式词义消歧系统不断将新标注的样 本置于已标注的 “种子 ”样本集中便能逐渐扩大训 练语料库缓解训练语料缺乏的问题.当然若无论 真伪地将所有标注结果返回用于训练必然导致分 类器性能下降.有关增量式学习的情况较为复杂 此处不予赘述. 2 最大熵概率模型 最大熵模型是一个较为成熟的概率模型它巧 妙地将特征选择和参数估计统一到一个框架下.在 建立模型过程中能够有效地融合各种来源的信息. 因此它允许定义任意复杂的特征只要实验者相信 这些特征可能对类别判定有所贡献.近年来最大 熵法在自然语言处理领域取得了广泛的应用.特别 是 Ratnaparkhi将最大熵法应用于词性标注、断句、 文本分割和句法分析等问题 [5]作了一系列有益的 探索. 最大熵基本思想就是保留尽可能多的不确定 性.即在一无所知的情况下认为所有可能事件的 发生几率相同.此时概率分布是均匀的事件整体 的熵最大.在词义消歧中依靠上下文表征性特征 信息使用条件最大熵模型对每个候选词义进行统 计推断可归纳为以下动态规划问题: maxH(P(s|C))=—∑c∈C P(cs)lbP(s|c)= —∑c∈C P(c)P(s|c)lbP(s|c) ·264·
第2期 雷雪梅等:基于深层特征抽取的日文词义消歧系统 .265 Ef-Ef 关系靠词序和虚词体现;日文为典型的黏着语 (-P(C(C) (agglutinative language),词内包含的特定附加成分 N f(9s) 表示语法含义,词根与附加成分是松耦合关系,通过 E=∑P(CC月≈ 在名词、动词等的词尾粘贴不同的词缀来实现语法 s t 功能.分析能够用于日文词义消歧的语言特征,可 P(C)P(sc)C)= 归纳为以下三类 C s 词法类特征:词性、词形、词袋、词根、频次等, 1之∑(ss)·g 语义类特征:本体、义类、搭配、域等, N 句法类特征:依存关系等 式中,H为信息嫡,N为训练集大小,C为上下文特 日文的常见变形方式有很多,如活用形变化、黏 征项集合,s为词义标记项,E,为特征的理想期 着虚词、ヶ力变化、片假名扩展等.每种方式都可能 望,E为特征i的经验期望,£(9s)= 有多种变化规则,以及其他不规则变化,例如,上下 1,与0s=1 表示特征的特征函数,为训练 一段动词最后一个假名一定是石,其连用形是把这 0,其他 个弓去掉,比如:忘九马”(oget)变成忘九”,落 样本冲上下文特征项的权重 方石”(mss)变成“落古”,另外,日文动词、形容词 在给定训练语料集后,最大熵模型的任务就是 的词形都存在时态变化,因而,本文采用的日文词 计算每个特征的期望值,每个特征的约束条件都要 法类特征包括:词表面形、词基本形、词性、ngam和 求这个经验期望E与模型的理想特征期望E,相 词袋(除目标词之外的上下文中的所有词) 一致,在所有满足约束的概率分布中,选取满足熵 日文使用平假名、片假名拼字,造成中文所不具 H最大化的那个概率分布P(slC)E是可以直接 有的“一词多形现象,例如,拉致”(kiap)又可 观察到的,通过训练语料统计可以直接获得:E,则 拼写为“致”,渡℃”(transition)又可拼写为 需要进行反复迭代的参数估计获得,目前,参数估 7夕℃等,此外,笔者在行文时通常会对同一 计方法主要有ⅡS(improved iterative scaling入、GS 含义使用不同的词语,这样就不可避免地导致稀疏 generalized iterative scaling)SCG IS sequential 数据问题,若将词项转化成更为抽象的词或概念, conditionalG IS)).本文采用SCGS方法, 便能起到词义上的平滑效果,通过使用本体(omoF 3深层特征抽取 ogy)和义类(thesauns)词典,将目标词、同义词和近 义词归结为上位词,并将词语抽象到词义类别中, 面向人的词义消歧知识和面向机器的词义消歧 例如,日文的“電車”(tain)和“自動車”(automo 知识存在非常大的差异,前者更着眼于词本身的释 bile均可泛化为同一个语义类别一(C988.Land 义,或者说是基于词典的方法;而后者注重词本身之 vehicle. 外的上下文所蕴含的统计意义上的表征性特征 目标词的所有同现词语不都具有相同的消歧效 以往研究大多仅采用目标词的上下文表层的词 果,搭配作为约定俗成的词语组合,体现了义项在 法特征,并没有使用深层的语义、句法知识,本文提 某种显著的临近范围内组合关系的线性共现与期 出深层特征抽取(deep feature extraction)方法,即整 待四,从上下文中有目的地寻找能够区分词义的 合不同来源的词义表征性特征,在使用表层词法类 搭配”,可用于后续的歧义消解. 特征基础上,加入语义类、句法类特征,以提高词义 领域(domain)信息比较简单,但它确是一种很 消歧精度,特征抽取包括两个重要环节:语言学特 有效的消解歧义的提示信息,例如,若词语“☑一 征的选择、特征的形式化表示. ド”(eco)的上下文中同现词语都呈现音乐领域 3.1特征来源 特征(如“guitar”、“orchestra等)则此时其词义应 词义消歧的特征抽取是在上下文中选择能够预 为唱片”:若呈现体育领域特征时,显然词义应为 示目标词义的特征,并组织成特征向量,有监督的 记录”.本文采用了目录搜索网站中使用的12个 词义消歧系统从大量真实文本中捕捉与任务有关的 域类 特征集,获取统计意义上的消歧知识, 语义依存特征是基于句法依存关系寻找中心词 中日文同属东方语言,但分属不同语系,中文 与其他成分之间的关系,本文利用中心语驱动短语 为孤立语(analytic language)类型,形态变化少,语法 结构文法(head driven phrase structure grammar
第 2期 雷雪梅等: 基于深层特征抽取的日文词义消歧系统 s.t. Ep fi =E〜p fi E〜p fi =∑Cs P(Cs)fi(Cs) = 1 N∑ N j=1 fi(cjs) Epfi =∑Cs P(Cs)fi(Cs)≈ ∑Cs P(C)P(s|C)fi(Cs) = 1 N∑ N j=1∑s P(s|cj)·fi(cjs) 式中H为信息熵N为训练集大小C为上下文特 征项集合s为词义标记项Epfi为特征 i的理想期 望Ep〜 fi 为 特 征 i的 经 验 期 望fi (cjs) = 1 tij>0s=1 0 其他 表示特征 i的特征函数tij为训练 样本 j中上下文特征项 i的权重. 在给定训练语料集后最大熵模型的任务就是 计算每个特征的期望值每个特征的约束条件都要 求这个经验期望 Ep〜fi与模型的理想特征期望 Epfi相 一致.在所有满足约束的概率分布中选取满足熵 H最大化的那个概率分布 P(s|C).Ep〜fi是可以直接 观察到的通过训练语料统计可以直接获得;Epfi则 需要进行反复迭代的参数估计获得.目前参数估 计方法主要有ⅡS(improvediterativescaling)、GIS (generalizediterativescaling)和 SCGIS(sequential conditionalGIS) [6].本文采用 SCGIS方法. 3 深层特征抽取 面向人的词义消歧知识和面向机器的词义消歧 知识存在非常大的差异.前者更着眼于词本身的释 义或者说是基于词典的方法;而后者注重词本身之 外的上下文所蕴含的统计意义上的表征性特征. 以往研究大多仅采用目标词的上下文表层的词 法特征并没有使用深层的语义、句法知识.本文提 出深层特征抽取 (deepfeatureextraction)方法即整 合不同来源的词义表征性特征在使用表层词法类 特征基础上加入语义类、句法类特征以提高词义 消歧精度.特征抽取包括两个重要环节:语言学特 征的选择、特征的形式化表示. 3∙1 特征来源 词义消歧的特征抽取是在上下文中选择能够预 示目标词义的特征并组织成特征向量.有监督的 词义消歧系统从大量真实文本中捕捉与任务有关的 特征集获取统计意义上的消歧知识. 中日文同属东方语言但分属不同语系.中文 为孤立语 (analyticlanguage)类型形态变化少语法 关系靠词序和虚词体现;日文为典型的黏着语 (agglutinativelanguage)词内包含的特定附加成分 表示语法含义词根与附加成分是松耦合关系通过 在名词、动词等的词尾粘贴不同的词缀来实现语法 功能.分析能够用于日文词义消歧的语言特征可 归纳为以下三类. 词法类特征:词性、词形、词袋、词根、频次等 语义类特征:本体、义类、搭配、域等 句法类特征:依存关系等. 日文的常见变形方式有很多如活用形变化、黏 着虚词、ケカ变化、片假名扩展等.每种方式都可能 有多种变化规则以及其他不规则变化.例如上下 一段动词最后一个假名一定是る其连用形是把这 个る去掉比如:“忘れる ” (forget)变成 “忘れ ”“落 ちる ” (miss)变成 “落ち ”.另外日文动词、形容词 的词形都存在时态变化.因而本文采用的日文词 法类特征包括:词表面形、词基本形、词性、n-gram和 词袋 (除目标词之外的上下文中的所有词 ). 日文使用平假名、片假名拼字造成中文所不具 有的 “一词多形 ”现象.例如“拉致 ” (kidnap)又可 拼写为 “ら致 ”“渡って ” (transition)又可拼写为 “ワタって ”等.此外笔者在行文时通常会对同一 含义使用不同的词语.这样就不可避免地导致稀疏 数据问题.若将词项转化成更为抽象的词或概念 便能起到词义上的平滑效果.通过使用本体 (ontol- ogy)和义类 (thesaurus)词典将目标词、同义词和近 义词归结为上位词并将词语抽象到词义类别中. 例如日文的 “電車 ” (train)和 “自動車 ” (automo- bile)均可泛化为同一个语义类别---〈C988:Land vehicle〉. 目标词的所有同现词语不都具有相同的消歧效 果.搭配作为约定俗成的词语组合体现了义项在 某种显著的临近范围内组合关系的线性共现与期 待 [7].从上下文中有目的地寻找能够区分词义的 “搭配 ”可用于后续的歧义消解. 领域 (domain)信息比较简单但它确是一种很 有效的消解歧义的提示信息.例如若词语 “レコー ド ” (record)的上下文中同现词语都呈现音乐领域 特征 (如 “guitar”、“orchestra”等 )则此时其词义应 为 “唱片 ”;若呈现体育领域特征时显然词义应为 “记录 ”.本文采用了目录搜索网站中使用的 12个 域类. 语义依存特征是基于句法依存关系寻找中心词 与其他成分之间的关系.本文利用中心语驱动短语 结构 文 法 (head-drivenphrasestructuregrammar ·265·
.266 北京科技大学学报 第32卷 HPSG),以句子为单位对文本进行句法结构分析,找 式,由此获得特征值;fnc()为特征生成函数,可以 到句中的谓词(predicate)和论元(argment)关 包括ps()表示词语位置函数:ped()为中心驱动谓 系[⑧].进而,将上下文中存在语法依存关系的词语 词函数,coag()表示获取同现论元函数,bag()表示 作为目标词的消歧特征,在此基础上,还可对依存 词袋函数;ags表示特征生成参数,包括surf(目标 关系的词语进行语义和义类的泛化·例句:“電車ヤ 词表面形)、base(基本形)、ped(谓词)、hyper((上位 自動車花運転寸弓人”(a person who drives trains or 词)、symo(同位词)、semclass(义类)、pos(词 cas),谓词为Ped=運耘,论元为两个,其中ARG2 性)、等 是由?连接的一个并列短语,用它的孩子对其扩 假设对以下例句:“魚猫仁食心机大.” 展,则论元为{ARG1=人,ARG2=電車,ARG22= (The fish is eaten by cat)进行深层特征抽取,目标 自動車{.进行义类归纳,两者又可归结为同一个义 词为猫”图2展示了词法类(mor以、句法类(sym) 类(C988),则论元变为{ARG1=人,ARG2= 特征生成的形式和过程 (C988{.这样(C988成为目标词消歧的新特征, Target word -2 =1 +】 +1 45 以泛化的特征项提高语义聚合度, mor魚/#/猫/仁/食/5丸// 3.2特征表示 syn 食<(ARG1:猫,ARG2:魚) 用于日文词义消歧的语言学特征非常多,就本 文采用的消歧特征多达43种.因此,进行复杂特征 TargetPOS(0.base) owCO or 抽取,有必要将众多的特征项规范地组织起来,对 Pre3gram mot ps(-3.base 每个特征而言,“Option=Vale'”是它的基本形式, 本文采用BNF范式进行特征表示· Even::W ondSenseTag<FeatureL is 图2语言特征的生成与表示 (FeatureL is::FeatureItem)十 Fig2 Generation and mpresentation of linguistics fitures (Featureltem〉:=(FeatureLabe:[part]: 〈exp ression 4词义序列标注策略 FeatureLabe)::=TargeO rth TagrgeSurf TargetPOS BOW Con- 由于日文语句中词语的关联性很强,孤立地对 Orth I SenClass I Depd- 一个词项进行词义消歧,容易出现偏斜指派.基于 head CoPredAg 句子的词义消歧是一个序列分类的问题,要将每个 Pre3gram Pre2gram 词的词义标记进行排列组合,从而找到概率值最大 Prelgram… 的那个词义序列作为最终结果,为了避免合并词义 part]::=morlsyn Isem 过程中出现组合爆炸,本文采用带有启发式规则的 〈expression:fnc(ags) 束搜索(beam search)算法[]. func()::=ps()Ibag()Ipred()lang() 束搜索算法类似于V itebi算法,所不同的是, angs:-surflbase lpred hyperlsyno Isemn- 把搜索过程分成若干阶段,计算每个阶段的搜索节 class lpos… 点的耗散值,只保留最有价值的前K个点,然后仅 式中,Event为对当前目标词所进行的一次特征抽取 对这K个点进行扩展,依次下去,由于束搜索只维 结果;W ondSenseTag为词义标记,不为空时,特征抽 持有限的K条搜索路径,可大幅缩小搜索空间、提 取用于训练,为空时,特征抽取用于标注;Feat血reList 高搜索效率. 为目标词的特征列表;Featureltem为一个特征项; 设一个多义词输入序列{w,2,…,w,3为 FeatureLabel为特征项标记,包括TargeOrth(目标词 词w:的第个词义,W为待消岐词的集合,T为已消 原形)、Targe Surf(目标词表面形)、入TargePOS(目标 岐词义标记列表,束宽(beam with)为K.N= 词性)、BOW ConOrth(词袋)、Depdhead(HPSG的中 [W,T]作为一个搜索节点,scoe(N)表示N中的词 心驱动词)、SenClass(语义类入、Pe[3~1]gam、 义序列T在当前上下文中的概率,作为过滤搜索节 Post[3~l]gm为目标词的ngam模型;part为抽 点的依据 取特征的类型;mor为词法类特征;sym为句法类特 利用束搜索算法完成日文词序列标注的具体实 征;sm为语义类特征;expression为特征生成表达 现过程如下
北 京 科 技 大 学 学 报 第 32卷 HPSG)以句子为单位对文本进行句法结构分析找 到句 中 的 谓 词 (predicate)和 论 元 (argument)关 系 [8].进而将上下文中存在语法依存关系的词语 作为目标词的消歧特征.在此基础上还可对依存 关系的词语进行语义和义类的泛化.例句:“電車や 自動車を運転する人 ” (apersonwhodrivestrainsor cars)谓词为 Pred=運転论元为两个其中 ARG2 是由 “や ”连接的一个并列短语用它的孩子对其扩 展则论元为{ARG1=人ARG21 =電車ARG22 = 自動車}.进行义类归纳两者又可归结为同一个义 类〈C988〉则 论 元 变 为 {ARG1=人ARG2= 〈C988〉}.这样〈C988〉成为目标词消歧的新特征 以泛化的特征项提高语义聚合度. 3∙2 特征表示 用于日文词义消歧的语言学特征非常多就本 文采用的消歧特征多达 43种.因此进行复杂特征 抽取有必要将众多的特征项规范地组织起来.对 每个特征而言“Option=Value”是它的基本形式. 本文采用 BNF范式进行特征表示. 〈Event〉∷ =〈WordSenseTag〉〈FeatureList〉 〈FeatureList〉∷ =〈FeatureItem〉+ 〈FeatureItem〉∷ =〈FeatureLabel〉:[part]: 〈expression〉 〈FeatureLabel〉∷ =TargetOrth|TagrgetSurf| TargetPOS |BOWCon- tOrth|SemClass|Depd- head | CoPredArg | Pre3gram |Pre2gram | Pre1gram|… [part]∷ =mor|syn|sem 〈expression〉∷func(args) func()∷ =ps()|bag()|pred()|arg()|… args∷ =surf|base|pred|hyper|syno|sem- class|pos|… 式中Event为对当前目标词所进行的一次特征抽取 结果;WordSenseTag为词义标记不为空时特征抽 取用于训练为空时特征抽取用于标注;FeatureList 为目标词的特征列表;FeatureItem为一个特征项; FeatureLabel为特征项标记包括 TargetOrth(目标词 原形 )、TargetSurf(目标词表面形 )、TargetPOS(目标 词性 )、BOWContOrth(词袋 )、Depdhead(HPSG的中 心驱动词 )、SemClass(语义类 )、Pre[3~1]gram、 Post[3~1]gram为目标词的 n-gram模型;part为抽 取特征的类型;mor为词法类特征;syn为句法类特 征;sem为语义类特征;expression为特征生成表达 式由此获得特征值;func( )为特征生成函数可以 包括 ps()表示词语位置函数;pred()为中心驱动谓 词函数coarg()表示获取同现论元函数bag()表示 词袋函数;args表示特征生成参数包括 surf(目标 词表面形 )、base(基本形 )、pred(谓词 )、hyper(上位 词 )、syno(同 位 词 )、semclass(义 类 )、pos(词 性 )、等. 假设对以下例句:“魚が猫に食べられた.” (Thefishiseatenbycat.)进行深层特征抽取目标 词为 “猫 ”.图 2展示了词法类 (mor)、句法类 (syn) 特征生成的形式和过程. 图 2 语言特征的生成与表示 Fig.2 Generationandrepresentationoflinguisticsfutures 4 词义序列标注策略 由于日文语句中词语的关联性很强孤立地对 一个词项进行词义消歧容易出现偏斜指派.基于 句子的词义消歧是一个序列分类的问题要将每个 词的词义标记进行排列组合从而找到概率值最大 的那个词义序列作为最终结果.为了避免合并词义 过程中出现组合爆炸本文采用带有启发式规则的 束搜索 (beamsearch)算法 [9]. 束搜索算法类似于 Viterbi算法所不同的是 把搜索过程分成若干阶段计算每个阶段的搜索节 点的耗散值只保留最有价值的前 K个点然后仅 对这 K个点进行扩展依次下去.由于束搜索只维 持有限的 K条搜索路径可大幅缩小搜索空间、提 高搜索效率. 设一个多义词输入序列{w1w2…wn}swij为 词 wi的第 j个词义W为待消岐词的集合T为已消 岐词义标记列表束宽 (beam width)为 K.N= [WT]作为一个搜索节点score(N)表示 N中的词 义序列 T在当前上下文中的概率作为过滤搜索节 点的依据. 利用束搜索算法完成日文词序列标注的具体实 现过程如下. ·266·
第2期 雷雪梅等:基于深层特征抽取的日文词义消歧系统 .267. 输入:一个包含n个词的句子. T门依次插入队列Q: 输出:n个词对应的n个词义标记,保存在T Step3根据scoe(N)值将Q中的节点排序 中, Step 4 if (W in Q)- 算法: 将T作为最终的最佳词义序列,运 Step1初始化: 算终止; 创建初始节点:T={、Wo={{、o= else [To,Wo]、K: 从Q中取出前K个节点,插入到新 将节点N插入初始队列Q: 队列Q,然后返回Step2: Step 2 for each N in Q 5词义消歧系统设计 ◆for each w:nW,从W中选出w:来 创建W: 本文设计并实现了一个日文词义消歧系统,结 ◆通过依次增加w:的候选词义 构模型如图3所示,该系统包括五个子功能模块 …,s的一个词义,来给T创 在训练和标注阶段,每个模块将承担不同的角色, 建新表T,…,T 图3中灰色箭头标识模型训练过程,白色箭头标识 ◆创建新节点[WT6]…,[W 词义标注过程 用户界面与 预处理模块 特征抽取模块 评价模块 ChaSen PET 分析器n 特征定义 标注 语料库 数据采集 特征抽取 本体词典 义类词典 目标文本 整合数据 特征向量 分类器模块 性能评价 词义标注模块 分类器(最大熵) 解码器(束搜索算法) 标注文本 词义标注数据 名词 模型 图3日文词义消歧系统结构模型 Fg 3 Stmuctunalmodel of the Japanese WSD system 下面详细介绍各个模块的功能 过程中起到扩展、抽象和过滤特征的作用,当然,训 (1)预处理模块(fomatter):主要任务是从不 练阶段的特征抽取是在已知词义前提下进行的,而 同来源的文本中,获取有关语言特征信息,并按预定 标注阶段是在未知目标词词义情况下进行,在词义 的XML格式整合在一起,为后续的特征抽取做准 序列标注过程中,逐渐将目标词上文的语义类特征 备,在训练阶段,模块将逐一读入已标注的语料库 加入,用于目标词义消歧 文本,解析已标注好的特征信息;在标注阶段,模块 (3)最大熵分类器模块(classifier):主要任务 则需要对用户输入的自由日文文本进行分词、词形 是通过训练获得最大熵模型,以支持分类器在标注 分析、词性标注、搭配抽取和HPG句法分析等语言 阶段的计算,由于一般虚词(如介词、语气词、连词 分析处理,定义语言分析深度,依据这个度数来决 和助词)出现的频次很大,且对词义消歧的贡献甚 定模块进行特征抽取的范围,模块集成了多个第三 微.因而,在训练阶段,该模块按照日文五大词 方日文分析工具,如Chasen,Mecab.PET、JACY和 性一名词(noun)、动词(veb)、动名词(vepbal HoG. noun)、形容词(adjective)和副词(adveb)构建相应 (2)特征抽取模块(transfomer)):主要任务是 的最大熵模型,对其他词性的词项将被忽略,训练 按照约定的特征定义进行特征抽取,获取相应的特 阶段的运算量非常巨大,需要较长的脱机时间才能 征向量.该模块借用H inok本体词典o、Goi-Taikei 完成建模任务,此时程序的优化处理是非常必要的, 义类词典山和停用词表等外部知识库资源,在抽取 最大熵模型将成为下一步日文词义标注的知识库
第 2期 雷雪梅等: 基于深层特征抽取的日文词义消歧系统 输入:一个包含 n个词的句子. 输出:n个词对应的 n个词义标记保存在 T 中. 算法: Step1 初始化: 创建初始节点:T0 ={}、W0 ={}、N0= [T0W0 ]、K; 将节点 N0插入初始队列 Q; Step2 foreachNinQ ◆foreachwiinW从 W中选出 wi来 创建 W′i; ◆ 通过依次增加 wi 的候选词义 swi1…swil的一个词义来给 T创 建新表 T1′…T′l; ◆创建新节点 [W′iT′0 ]…[W′i T′l]依次插入队列 Q′; Step3 根据 score(N)值将 Q′中的节点排序 Step4 if(WinQ′)=● 将 T作为最终的最佳词义序列运 算终止; else 从 Q′中取出前 K个节点插入到新 队列 Q然后返回 Step2; 5 词义消歧系统设计 本文设计并实现了一个日文词义消歧系统结 构模型如图 3所示.该系统包括五个子功能模块. 在训练和标注阶段每个模块将承担不同的角色. 图 3中灰色箭头标识模型训练过程白色箭头标识 词义标注过程. 图 3 日文词义消歧系统结构模型 Fig.3 StructuralmodeloftheJapaneseWSDsystem 下面详细介绍各个模块的功能. (1) 预处理模块 (formatter):主要任务是从不 同来源的文本中获取有关语言特征信息并按预定 的 XML格式整合在一起为后续的特征抽取做准 备.在训练阶段模块将逐一读入已标注的语料库 文本解析已标注好的特征信息;在标注阶段模块 则需要对用户输入的自由日文文本进行分词、词形 分析、词性标注、搭配抽取和 HPSG句法分析等语言 分析处理.定义语言分析深度依据这个度数来决 定模块进行特征抽取的范围.模块集成了多个第三 方日文分析工具如 Chasen、Mecab、PET、JACY和 HoG. (2) 特征抽取模块 (transformer):主要任务是 按照约定的特征定义进行特征抽取获取相应的特 征向量.该模块借用 Hinoki本体词典 [10]、Goi-Taikei 义类词典 [11]和停用词表等外部知识库资源在抽取 过程中起到扩展、抽象和过滤特征的作用.当然训 练阶段的特征抽取是在已知词义前提下进行的而 标注阶段是在未知目标词词义情况下进行.在词义 序列标注过程中逐渐将目标词上文的语义类特征 加入用于目标词义消歧. (3) 最大熵分类器模块 (classifier):主要任务 是通过训练获得最大熵模型以支持分类器在标注 阶段的计算.由于一般虚词 (如介词、语气词、连词 和助词 )出现的频次很大且对词义消歧的贡献甚 微.因而在训练阶段该模块按照日文五大词 性---名词 (noun)、动词 (verb)、动名词 (verbal noun)、形容词 (adjective)和副词 (adverb)构建相应 的最大熵模型对其他词性的词项将被忽略.训练 阶段的运算量非常巨大需要较长的脱机时间才能 完成建模任务此时程序的优化处理是非常必要的. 最大熵模型将成为下一步日文词义标注的知识库. ·267·
.268 北京科技大学学报 第32卷 (4)词义标注模块(tagger):主要任务是使用 6.1不同语料库的词义消歧精度比较 BeanSearch算法,以句子为单位完成日文词义序列 从Lexeed的释义句集合和例句集合中,各抽出 的标注,并将词义标注结果保存为XML格式的文 1O00条句子作为测试集(LXD DEF,、LXD EX) 件,在扫描词序列过程中,为了对每个词项抽取特 其余句子合并成训练集(LXD ALL),另外,再从日 征和计算条件概率,该模块将不断地调用Transfom~ 文新闻语料Kyoto Text Corpu中抽取l000条句子作 er和Classifier模块, 为第3个测试集(KYOTO,)经统计,测试集中平 (5)用户界面与评价模块(interface):主要任 均每句包含3.4~5.2个多义词.分别对三个测试 务是提供用户与系统的交互界面,一方面,向系统 语料进行词义标注,实验结果如表2所示 提交训练语料文本或用户自由输入的文本,做必要 表2不同语料库的词义消歧精度比较 的合法性检查和数据统计:另一方面,在wb界面展 Table 2 Comparison ofW SD precision of diferent coora 示词义标注的运算结果,以及系统耗时、执行日志、 引入 引入 引入 融合 测试 WORD Col 系统参数等辅助信息,此外,加入系统评测功能,实 SEM SYN DOMAN多种 语料 基准特征 现测试语料词义消歧精度的自动计算,以便为调整 特征 特征 特征 特征 系统运行参数提供参考依据 LXD DEF 78.4 79.8 80.2 78.1 80.7 LXDEX 75.6 78.7 77.9 76.0 78.8 6实验评价与分析 KYOTO 58.5 60.0 58.8 59.8 60.4 语料来源于Lexeed日文词典知识库的释义句 和例句2).按照使用频度,Lexeed对所有词项定义 表2列出系统对三个测试语料使用不同特征所 了1~7级的熟悉度.选用28000个熟悉度在5以 获得的词义消歧精度,以WORD Co特征的消歧精 上的词项作为核心词,用于解释Lexeed中的所有词 度为基线,图4显示了引入其他特征后的精度改善 语,Lexeed中的每个义项都对应一个或多个释义句 幅度.可以看出,在使用WORD Co特征基础上,引 和例句,共计75000条释义句和46000条例句,并 入SM、SYN和DOMAN后,日文词义消歧精度获 且,这些句子都经过人工标注,包含词性、词形、词汇 得了3%左右的改善.对于句式规范的测试语料 类型、义类、熟悉度、W ornet对应词项、句法树以及 LXD DEF、LXD EX.eSEM、SYN特征的引入是有 其他结构化语义信息.Lexeed的词义统计数据如表 效的,对于具有鲜明领域背景的新闻语料 1所示·可以看出,一个多义词使用越频繁,熟悉度 KYOTO DOMA N特征则略胜一筹.从总体上看, 等级越高,所具有的义项也越多,从另一个侧面也印 使用SEM特征的消歧效果要优于SYN,这是由于 证了zp定律 日文自身的多变性,语言特征数据稀疏是日文词义 表I多义词在Lexeed中的分布 消歧需要主要克服的困难 Table 1 Distribution of polyseme n Lexeed corus 35 -LXD-DEF 多义词 单义词 --LXD-EX KYOTO 熟悉度 词形数 义项平均 所占 词形数 词性数 个数 比例% 6.5-7.0 368 182 4.0 186 50.5 0.5 6.0-6.1 4445 1902 3.4 2543 57.2 -15 5.56.0 9814 3502 2.7 6312 64.3 引人SEM引人SYN引人DOMAIN融合 特征 特征 特征多种特征 5.05.511430 3457 2.5 7973 69.8 图4不同语料库的词义消歧精度改善 Fig 4 mpmovement n WSD precision of differnt corpon 为了观察逐步引入深层语言学特征对消歧精度 的影响,实验是在使用词法特征(WORD Col)基础 6.2不同词性的词义消歧精度比较 上,分别加入本体、义类、搭配等特征(SM)、语法 从词性的角度出发,同样以WORD Co特征为 依存关系特征(SYN)和域信息(DOMA N),以及合 基准,逐步引入SEM、SYN和DOMA N特征,以观察 并所有特征(FULL)而进行的,逐一经过训练创建 深层语言学特征对不同词性词项的词义消歧精度的 相应的最大熵模型, 影响.实验结果如表3所示
北 京 科 技 大 学 学 报 第 32卷 (4) 词义标注模块 (tagger):主要任务是使用 BeamSearch算法以句子为单位完成日文词义序列 的标注并将词义标注结果保存为 XML格式的文 件.在扫描词序列过程中为了对每个词项抽取特 征和计算条件概率该模块将不断地调用 Transform- er和 Classifier模块. (5) 用户界面与评价模块 (interface):主要任 务是提供用户与系统的交互界面.一方面向系统 提交训练语料文本或用户自由输入的文本做必要 的合法性检查和数据统计;另一方面在 web界面展 示词义标注的运算结果以及系统耗时、执行日志、 系统参数等辅助信息.此外加入系统评测功能实 现测试语料词义消歧精度的自动计算以便为调整 系统运行参数提供参考依据. 6 实验评价与分析 语料来源于 Lexeed日文词典知识库的释义句 和例句 [12].按照使用频度Lexeed对所有词项定义 了 1~7级的熟悉度.选用 28000个熟悉度在 5以 上的词项作为核心词用于解释 Lexeed中的所有词 语.Lexeed中的每个义项都对应一个或多个释义句 和例句共计 75000条释义句和 46000条例句.并 且这些句子都经过人工标注包含词性、词形、词汇 类型、义类、熟悉度、Wordnet对应词项、句法树以及 其他结构化语义信息.Lexeed的词义统计数据如表 1所示.可以看出一个多义词使用越频繁熟悉度 等级越高所具有的义项也越多从另一个侧面也印 证了 zipf定律. 表 1 多义词在 Lexeed中的分布 Table1 DistributionofpolysemeinLexeedcorpus 熟悉度 词形数 多义词 单义词 词形数 义项平均 个数 词性数 所占 比例/% 6∙5~7∙0 368 182 4∙0 186 50∙5 6∙0~6∙1 4445 1902 3∙4 2543 57∙2 5∙5~6∙0 9814 3502 2∙7 6312 64∙3 5∙0~5∙5 11430 3457 2∙5 7973 69∙8 为了观察逐步引入深层语言学特征对消歧精度 的影响实验是在使用词法特征 (WORD-Col)基础 上分别加入本体、义类、搭配等特征 (SEM)、语法 依存关系特征 (SYN)和域信息 (DOMAIN)以及合 并所有特征 (FULL)而进行的.逐一经过训练创建 相应的最大熵模型. 6∙1 不同语料库的词义消歧精度比较 从 Lexeed的释义句集合和例句集合中各抽出 1000条句子作为测试集 (LXD-DEFtest、LXD-EXtest) 其余句子合并成训练集 (LXD-ALL).另外再从日 文新闻语料KyotoTextCorpus中抽取1000条句子作 为第 3个测试集 (KYOTOtest).经统计测试集中平 均每句包含 3∙4~5∙2个多义词.分别对三个测试 语料进行词义标注实验结果如表 2所示. 表 2 不同语料库的词义消歧精度比较 Table2 ComparisonofWSDprecisionofdifferentcorpora% 测试 语料 WORD-Col 基准特征 引入 SEM 特征 引入 SYN 特征 引入 DOMAIN 特征 融合 多种 特征 LXD-DEFtest 78∙4 79∙8 80∙2 78∙1 80∙7 LXD-EXtest 75∙6 78∙7 77∙9 76∙0 78∙8 KYOTOtest 58∙5 60∙0 58∙8 59∙8 60∙4 表 2列出系统对三个测试语料使用不同特征所 获得的词义消歧精度.以 WORD-Col特征的消歧精 度为基线图 4显示了引入其他特征后的精度改善 幅度.可以看出在使用 WORD-Col特征基础上引 入 SEM、SYN和 DOMAIN后日文词义消歧精度获 得了 3%左右的改善.对于句式规范的测试语料 LXD-DEFtest、LXD-EXtestSEM、SYN特征的引入是有 效 的. 对 于 具 有 鲜 明 领 域 背 景 的 新 闻 语 料 KYOTOtestDOMAIN特征则略胜一筹.从总体上看 使用 SEM特征的消歧效果要优于 SYN.这是由于 日文自身的多变性语言特征数据稀疏是日文词义 消歧需要主要克服的困难. 图 4 不同语料库的词义消歧精度改善 Fig.4 ImprovementinWSDprecisionofdifferentcorpora 6∙2 不同词性的词义消歧精度比较 从词性的角度出发同样以 WORD-Col特征为 基准逐步引入 SEM、SYN和 DOMAIN特征以观察 深层语言学特征对不同词性词项的词义消歧精度的 影响.实验结果如表 3所示. ·268·
第2期 雷雪梅等:基于深层特征抽取的日文词义消歧系统 .269 表3不同词性的词义消歧精度比较 同词性的词语有选择地使用语言特征是有必要的, Table 3 Camparison ofW SD precision of different POS 上下文特征对目标词的词义指示作用并不等 引入 引入 引入 融合 WORD Col 效,应该做一定的特征筛选,进一步工作将尝试使 词性 SEM SYN DOMAN 多种 基准特征 特征 特征 特征 特征 用相对嫡、PageR ank方法进行特征集的优化,以提 Noun 68.7 69.6 69.4 68.9 69.8 高词义消歧系统的精度和效率, Vedb 66.9 71 70.6 67.7 72.6 w 76.2 77.7 74.6 77.6 77.5 参 考文献 Adj 67.2 69.5 68.9 68.9 69.5 [1]Manning C D.Schutze H.Founda tions of StatisticalNammlLan- Adv 78.6 79.8 79.2 78.6 79.8 guage Processing Canbridge MIT Pmess 1999 143 [2]Lu Z M.Li T Li The research progress of statistical worl 表3列出五种词性词语引入不同特征所获得的 sense disambiguation Acta E lectmon Sin 2006.34(2):333 词义消歧精度,以词法特征的消歧精度为基线,图5 (卢志茂,刘挺,李生·统计词义消歧的研究进展.电子学报 显示了引入其他特征后消歧精度的改善幅度,可以 2006,34(2):333) [3]Zhu J B Li H.Zhang Y.et al Logarithm model based wor 看出,SEM、SYN特征对日文动词的消歧效果是很有 sense disambiguation J Sofwam 2001.12(9):1405 效的,独立使用特征的消歧精度增长4%左右,合并 (朱靖波,李纤,张跃,等.基于对数模型的词义自动消歧软 使用所有特征FULL消歧精度增长达到5.%.形 件学报,2001.12(9):1405) 容词的消歧效果位居第2然而,动名词在使用SYN [4]Murata M.Utiyama M.Uchioto K.et al Japanese wor sense 特征后,词义消歧精度反而下降了.显然,这个现象 dismbiguation using the smple Bayes and support vectormachne method/P roceed ngs of the SENSEVAL2 Toulouse 2001:135 与该词性的词是否在句中承担主要句法成分,以及 [5]Ramaparkhi A.Maxiu Entmopy Models for Natuml Language 词形变化有关,因而,可以说,针对不同词性的词项 Ambiguity Resohtion [Dissertation ]Philadelphi University of 有选择地使用语言学特征是有必要的, Pennsylvania 1998 6 [6]Zhang L Maxinum Entmopy Modeling Tookit for Python and C Naun-Adi e-Verb -Adv [2006-10-05]hthp:/hamepages inf ed ac uk/450736/ VN maxent-toolkit htl 2 [7]W ang D L Zhang D Z Tu X Y,et al Collocation extraction based on melative conditional entmopy J Beijng Univ Posts Tele 0 mmu2007,30(6).40 (王大亮,张德政,涂序彦,等.基于相对条件嫡的搭配抽取 引入SEM引人SYN引入DOMAIN融合 特征 特征 特征多种特征 方法,北京邮电大学学报,2007.30(6):40) [8]Carl P,Ivan A S Head Driven Phmase StmctureGrammar Chica- 图5不同词性的词义消歧精度改善 Fig 5 mprovement in WSD precision of different POS go University of Chicago Press 1994 [9]Christoph T.Wodd reolering and a dynam ic prognmm ng bean search algorithm for statistical machne translation Comput Lin- 7结论 gust200329(1):97 [10]Tanaka T Francis B Fujita S The H inoki sensebank a large- 本文研究开发了一个基于深层语言特征的日文 scale wor sense tagged corpus of Japanese Pmcced ings of the 词义消歧系统,利用最大嫡模型优良的信息融合性 Workshop on F rontiers n Lingu istica lly Annota ted Corpora Syd- 能,针对日文复杂多变的特点,将语义、句法等语言 ncy200662 学特征用于词义消歧,在以往仅使用上下文表层词 [11]Satom I Masahim M.SatoshiS et al Goi-Taikei a Japanese 法特征基础上,做了深入切实的尝试。同时,为了避 Lexicon Tokyo lanami Shoten 1997 [12]Kasahara K.HioshiS Francis B et al Constnuiction of a Japa- 免词义的偏斜指派,使用Beamn Search?算法实现基于 nese semantic lexicon:Lexeed//Pmceedings of the 20 th Intema- 句子的词义序列标注,实验结果表明:引入深层语 tional Conference on Canputational Linguistics Geneva 2004 言学特征有助于提高词义消歧精度:对不同语料、不 1319
第 2期 雷雪梅等: 基于深层特征抽取的日文词义消歧系统 表 3 不同词性的词义消歧精度比较 Table3 ComparisonofWSDprecisionofdifferentPOS % 词性 WORD-Col 基准特征 引入 SEM 特征 引入 SYN 特征 引入 DOMAIN 特征 融合 多种 特征 Noun 68∙7 69∙6 69∙4 68∙9 69∙8 Verb 66∙9 71 70∙6 67∙7 72∙6 VN 76∙2 77∙7 74∙6 77∙6 77∙5 Adj 67∙2 69∙5 68∙9 68∙9 69∙5 Adv 78∙6 79∙8 79∙2 78∙6 79∙8 表 3列出五种词性词语引入不同特征所获得的 词义消歧精度.以词法特征的消歧精度为基线图5 显示了引入其他特征后消歧精度的改善幅度.可以 看出SEM、SYN特征对日文动词的消歧效果是很有 效的独立使用特征的消歧精度增长 4%左右合并 使用所有特征 FULL消歧精度增长达到 5∙7%.形 容词的消歧效果位居第2.然而动名词在使用 SYN 特征后词义消歧精度反而下降了.显然这个现象 与该词性的词是否在句中承担主要句法成分以及 词形变化有关.因而可以说针对不同词性的词项 有选择地使用语言学特征是有必要的. 图 5 不同词性的词义消歧精度改善 Fig.5 ImprovementinWSDprecisionofdifferentPOS 7 结论 本文研究开发了一个基于深层语言特征的日文 词义消歧系统利用最大熵模型优良的信息融合性 能针对日文复杂多变的特点将语义、句法等语言 学特征用于词义消歧.在以往仅使用上下文表层词 法特征基础上做了深入切实的尝试.同时为了避 免词义的偏斜指派使用 BeamSearch算法实现基于 句子的词义序列标注.实验结果表明:引入深层语 言学特征有助于提高词义消歧精度;对不同语料、不 同词性的词语有选择地使用语言特征是有必要的. 上下文特征对目标词的词义指示作用并不等 效应该做一定的特征筛选.进一步工作将尝试使 用相对熵、PageRank方法进行特征集的优化以提 高词义消歧系统的精度和效率. 参 考 文 献 [1] ManningCDSchützeH.FoundationsofStatisticalNaturalLan- guageProcessing.Cambridge:MITPress1999:143 [2] LuZMLiuTLiS.Theresearchprogressofstatisticalword sensedisambiguation.ActaElectronSin200634(2):333 (卢志茂刘挺李生.统计词义消歧的研究进展.电子学报 200634(2):333) [3] ZhuJBLiHZhangYetal.Logarithm modelbasedword sensedisambiguation.JSoftware200112(9):1405 (朱靖波李绗张跃等.基于对数模型的词义自动消歧.软 件学报200112(9):1405) [4] MurataMUtiyamaMUchimotoKetal.Japanesewordsense disambiguationusingthesimpleBayesandsupportvectormachine methods∥ProceedingsoftheSENSEVAL-2Toulouse2001:135 [5] RatnaparkhiA.Maximum EntropyModelsforNaturalLanguage AmbiguityResolution [Dissertation].Philadelphia:Universityof Pennsylvania1998 [6] ZhangL.MaximumEntropyModelingToolkitforPythonandC++. [2006--10--05].http:∥homepages.inf.ed.ac.uk/s0450736/ maxent—toolkit.html [7] WangDLZhangDZTuXYetal.Collocationextraction basedonrelativeconditionalentropy.JBeijingUnivPostsTele- commun200730(6):40 (王大亮张德政涂序彦等.基于相对条件熵的搭配抽取 方法.北京邮电大学学报200730(6):40) [8] CarlPIvanAS.HeadDrivenPhraseStructureGrammar.Chica- go:UniversityofChicagoPress1994 [9] ChristophT.Wordreorderingandadynamicprogrammingbeam searchalgorithm forstatisticalmachinetranslation.ComputLin- guist200329(1):97 [10] TanakaTFrancisBFujitaS.TheHinokisensebank—alarge- scalewordsensetaggedcorpusofJapanese∥Proceedingsofthe WorkshoponFrontiersinLinguisticallyAnnotatedCorpora.Syd- ney2006:62 [11] SatoruIMasahiroMSatoshiSetal.Goi-Taikei-aJapanese Lexicon.Tokyo:IwanamiShoten1997 [12] KasaharaKHiroshiSFrancisBetal.ConstructionofaJapa- nesesemanticlexicon:Lexeed∥Proceedingsofthe20thInterna- tionalConferenceonComputationalLinguistics.Geneva2004: 1319 ·269·