基于深层特征抽取的日文词义消歧系统

词义消歧的特征来源于上下文.日文兼有中英文的语言特性,特征抽取更为复杂.针对日文特点,在词义消歧逻辑模型基础上,利用最大熵模型优良的信息融合性能,采用深层特征抽取方法,引入语义、句法类特征用于消解歧义.同时,为避免偏斜指派,采用BeamSearch算法进行词义序列标注.实验结果表明,与仅使用表层词法类特征方法相比,本文构造的日文词义消歧系统的消歧精度提高2%～3%,动词消歧精度获得5%的改善.

团购合买资源类别：文库，文档格式：PDF，文档页数：7，文件大小：775.49KB

D01:10.133745.issn1001-t5.2010.02.024 第32卷第2期北京科技大学学报 Vol 32 No 2 2010年2月 Journal of Un iversity of Science and Technobgy Beijing Feb 2010 基于深层特征抽取的日文词义消歧系统雷雪梅)王大亮)田中贵秋3)曾广平) 1)北京科技大学信息工程学院，北京1000832)中国电信集团系统集成公司，北京100035 3)NTT通信科学研究所自然语言研究组，京都6190237 摘要词义消歧的特征来源于上下文·日文兼有中英文的语言特性，特征抽取更为复杂·针对日文特点，在词义消歧逻辑模型基础上，利用最大嫡模型优良的信息融合性能，采用深层特征抽取方法，引入语义、句法类特征用于消解歧义·同时，为避免偏斜指派，采用BeamSearch算法进行词义序列标注.实验结果表明，与仅使用表层词法类特征方法相比，本文构造的日文词义消歧系统的消歧精度提高9%~3%，动词消歧精度获得%的改善. 关键词自然语言处理：词义消歧：最大嫡模型：特征抽取分类号TP391 Japanese word sense disam biguation system based on deep feature extraction IEI Xueme.WANG Da-liang,TANAKA Takaak,ZENG Guang ping) 1)School of Infomation Engineering University of Science and Technology Beijing Beijing 100083 China 2)System Integmation Campany China Telecan Comporation Beijing 100035 China 3)Natml Language Researh G roup NTT Canmunication Science Labomtories Kyo 6190237,Japan ABSTRACT The features of word sense disambiguation (WSD)come from the context Japanese has linguistic features of both Chi- nese and English at the same tie thus the feature extraction of Japanese is more complicated Consdlering Japanese features based on the proposed W SD logic model and applying the characteristics of infomation integration of the maximum entropy model WSD was solved by the deep feature extraction method introducing semantics and syntactics features Meanwhile for preventing the skewed as- sigrment of lonely word sense the word sense tagging of word sequences was completed with the BeanSearch algorithm.Experinent re- sults show that compared with W SD methods which only focus on the surface lexical features the disambiguation accuracy of the Japa- nese W SD systen proposed in this paper increases 2 to,and the W SD accuracy of vebs iproves 5%. KEY WORDS natural language processing word sense disanbiguation:maxinum entropy model feature extmaction 词义消歧(word sense disambiguation)就是在给机器学习的方法被尝试用于词义消歧，根据是否使定上下文环境中确定一个多义词的具体含义，并完用已标注语料库，可以分为有监督消歧和无监督成义项标注的过程，该项研究最早起源于20世纪消歧， 50年代的机器翻译.然而，词义消歧作为自然语言词义消歧的基本理论依据是“观其伴，而知其处理的基础性课题，是信息检索、自动文摘、文本对义”.根据与待消歧词之间的相对距离、次序、频次齐和问答系统等领域所无法回避的，或者说，凡是以及句法关系等信息，相邻词提供了可用于消歧的依赖于文本语义理解的语言处理系统，词义消歧就很多线索信息1-)，由于日文兼有中英文的语言特是必不可少的，因此，词义消歧一直受到研究者的性，一方面，中日文的行文方式相同，没有约定的分重视隔符：另一方面，日文同英文类似，有比较复杂的变当前，随着统计自然语言处理技术的发展，很多形规则，因此，特征选择与特征表示变得更为复杂，收稿日期：2009-05-01 基金项目：国家高技术研究发展计划资助项目(N。2007AA01ZI70) 作者简介：雷雪梅(1972-女，博士研究生；曾广平(1962)男教授，博士生导师，Emai即ng20012003@yahoo can.cn

第 32卷第 2期 2010年 2月北京科技大学学报ＪｏｕｒｎａｌｏｆＵｎｉｖｅｒｓｉｔｙｏｆＳｃｉｅｎｃｅａｎｄＴｅｃｈｎｏｌｏｇｙＢｅｉｊｉｎｇＶｏｌ．32Ｎｏ．2 Ｆｅｂ．2010 基于深层特征抽取的日文词义消歧系统雷雪梅 1）王大亮 2）田中贵秋 3）曾广平 1） 1）北京科技大学信息工程学院北京 100083 2）中国电信集团系统集成公司北京 100035 3）ＮＴＴ通信科学研究所自然语言研究组京都 6190237 摘要词义消歧的特征来源于上下文．日文兼有中英文的语言特性特征抽取更为复杂．针对日文特点在词义消歧逻辑模型基础上利用最大熵模型优良的信息融合性能采用深层特征抽取方法引入语义、句法类特征用于消解歧义．同时为避免偏斜指派采用ＢｅａｍＳｅａｒｃｈ算法进行词义序列标注．实验结果表明与仅使用表层词法类特征方法相比本文构造的日文词义消歧系统的消歧精度提高 2％～3％动词消歧精度获得 5％的改善．关键词自然语言处理；词义消歧；最大熵模型；特征抽取分类号ＴＰ391 ＪａｐａｎｅｓｅｗｏｒｄｓｅｎｓｅｄｉｓａｍｂｉｇｕａｔｉｏｎｓｙｓｔｅｍｂａｓｅｄｏｎｄｅｅｐｆｅａｔｕｒｅｅｘｔｒａｃｔｉｏｎＬＥＩＸｕｅ-ｍｅｉ 1）ＷＡＮＧＤａ-ｌｉａｎｇ 2）ＴＡＮＡＫＡＴａｋａａｋｉ 3）ＺＥＮＧＧｕａｎｇ-ｐｉｎｇ 1） 1）ＳｃｈｏｏｌｏｆＩｎｆｏｒｍａｔｉｏｎＥｎｇｉｎｅｅｒｉｎｇＵｎｉｖｅｒｓｉｔｙｏｆＳｃｉｅｎｃｅａｎｄＴｅｃｈｎｏｌｏｇｙＢｅｉｊｉｎｇＢｅｉｊｉｎｇ100083Ｃｈｉｎａ 2）ＳｙｓｔｅｍＩｎｔｅｇｒａｔｉｏｎＣｏｍｐａｎｙＣｈｉｎａＴｅｌｅｃｏｍＣｏｒｐｏｒａｔｉｏｎＢｅｉｊｉｎｇ100035Ｃｈｉｎａ 3）ＮａｔｕｒａｌＬａｎｇｕａｇｅＲｅｓｅａｒｃｈＧｒｏｕｐＮＴＴＣｏｍｍｕｎｉｃａｔｉｏｎＳｃｉｅｎｃｅＬａｂｏｒａｔｏｒｉｅｓＫｙｏｔｏ6190237ＪａｐａｎＡＢＳＴＲＡＣＴＴｈｅｆｅａｔｕｒｅｓｏｆｗｏｒｄｓｅｎｓｅｄｉｓａｍｂｉｇｕａｔｉｏｎ（ＷＳＤ）ｃｏｍｅｆｒｏｍｔｈｅｃｏｎｔｅｘｔ．ＪａｐａｎｅｓｅｈａｓｌｉｎｇｕｉｓｔｉｃｆｅａｔｕｒｅｓｏｆｂｏｔｈＣｈｉ- ｎｅｓｅａｎｄＥｎｇｌｉｓｈａｔｔｈｅｓａｍｅｔｉｍｅｔｈｕｓｔｈｅｆｅａｔｕｒｅｅｘｔｒａｃｔｉｏｎｏｆＪａｐａｎｅｓｅｉｓｍｏｒｅｃｏｍｐｌｉｃａｔｅｄ．ＣｏｎｓｉｄｅｒｉｎｇＪａｐａｎｅｓｅｆｅａｔｕｒｅｓｂａｓｅｄｏｎｔｈｅｐｒｏｐｏｓｅｄＷＳＤｌｏｇｉｃｍｏｄｅｌａｎｄａｐｐｌｙｉｎｇｔｈｅｃｈａｒａｃｔｅｒｉｓｔｉｃｓｏｆｉｎｆｏｒｍａｔｉｏｎｉｎｔｅｇｒａｔｉｏｎｏｆｔｈｅｍａｘｉｍｕｍｅｎｔｒｏｐｙｍｏｄｅｌＷＳＤｗａｓｓｏｌｖｅｄｂｙｔｈｅｄｅｅｐｆｅａｔｕｒｅｅｘｔｒａｃｔｉｏｎｍｅｔｈｏｄｉｎｔｒｏｄｕｃｉｎｇｓｅｍａｎｔｉｃｓａｎｄｓｙｎｔａｃｔｉｃｓｆｅａｔｕｒｅｓ．Ｍｅａｎｗｈｉｌｅｆｏｒｐｒｅｖｅｎｔｉｎｇｔｈｅｓｋｅｗｅｄａｓ- ｓｉｇｎｍｅｎｔｏｆｌｏｎｅｌｙｗｏｒｄｓｅｎｓｅｔｈｅｗｏｒｄｓｅｎｓｅｔａｇｇｉｎｇｏｆｗｏｒｄｓｅｑｕｅｎｃｅｓｗａｓｃｏｍｐｌｅｔｅｄｗｉｔｈｔｈｅＢｅａｍＳｅａｒｃｈａｌｇｏｒｉｔｈｍ．Ｅｘｐｅｒｉｍｅｎｔｒｅ- ｓｕｌｔｓｓｈｏｗｔｈａｔｃｏｍｐａｒｅｄｗｉｔｈＷＳＤｍｅｔｈｏｄｓｗｈｉｃｈｏｎｌｙｆｏｃｕｓｏｎｔｈｅｓｕｒｆａｃｅｌｅｘｉｃａｌｆｅａｔｕｒｅｓｔｈｅｄｉｓａｍｂｉｇｕａｔｉｏｎａｃｃｕｒａｃｙｏｆｔｈｅＪａｐａ- ｎｅｓｅＷＳＤｓｙｓｔｅｍｐｒｏｐｏｓｅｄｉｎｔｈｉｓｐａｐｅｒｉｎｃｒｅａｓｅｓ2％ｔｏ3％ａｎｄｔｈｅＷＳＤａｃｃｕｒａｃｙｏｆｖｅｒｂｓｉｍｐｒｏｖｅｓ5％．ＫＥＹＷＯＲＤＳｎａｔｕｒａｌｌａｎｇｕａｇｅｐｒｏｃｅｓｓｉｎｇ；ｗｏｒｄｓｅｎｓｅｄｉｓａｍｂｉｇｕａｔｉｏｎ；ｍａｘｉｍｕｍｅｎｔｒｏｐｙｍｏｄｅｌ；ｆｅａｔｕｒｅｅｘｔｒａｃｔｉｏｎ收稿日期：2009--05--01 基金项目：国家高技术研究发展计划资助项目（Ｎｏ．2007ＡＡ01Ｚ170）作者简介：雷雪梅（1972— ）女博士研究生；曾广平（1962— ）男教授博士生导师Ｅ-ｍａｉｌ：ｚｇｐｉｎｇ20012002＠ｙａｈｏｏ．ｃｏｍ．ｃｎ词义消歧（ｗｏｒｄｓｅｎｓｅｄｉｓａｍｂｉｇｕａｔｉｏｎ）就是在给定上下文环境中确定一个多义词的具体含义并完成义项标注的过程．该项研究最早起源于 20世纪 50年代的机器翻译．然而词义消歧作为自然语言处理的基础性课题是信息检索、自动文摘、文本对齐和问答系统等领域所无法回避的．或者说凡是依赖于文本语义理解的语言处理系统词义消歧就是必不可少的．因此词义消歧一直受到研究者的重视．当前随着统计自然语言处理技术的发展很多机器学习的方法被尝试用于词义消歧．根据是否使用已标注语料库可以分为有监督消歧和无监督消歧．词义消歧的基本理论依据是 “观其伴而知其义 ”．根据与待消歧词之间的相对距离、次序、频次以及句法关系等信息相邻词提供了可用于消歧的很多线索信息［1--2］．由于日文兼有中英文的语言特性一方面中日文的行文方式相同没有约定的分隔符；另一方面日文同英文类似有比较复杂的变形规则．因此特征选择与特征表示变得更为复杂． DOI :10．13374／j．issn1001－053x．2010．02．024

.264 北京科技大学学报第32卷以往，日文词义消歧研究大多利用相邻词的表层特 w:2…,wn和相应的词义标注序列{3等2…，征，如词形(m orphology)、词性(part of speech s。组成.其中，w:表示文本中的词项j是进行 POS)、词袋(bag of word BOW)等，也都取得良好的处理的最基本单元，s表示w:相对应的词义标记，消歧性能3.那么，除了表层特征外，词义消歧还 =1,2…,m-1,j=12…,n 需要哪些知识？如果逐步加入语义和句法等深层的在词义标注阶段，词义消歧系统根据训练所得语言知识，能否提高词义消歧的精度呢？到的条件概率分布模型，对新文本进行词义标注，找表征性消歧特征可划分为词法特征、语义特征到相应的最合适的词义标注序列，即：和句法特征，本文针对日文的特点，在运用词法特 1品2…，n= 征基础上，将语义、句法类深层语言特征逐步引入词 ang maxP(品1ya2…,anwm1y 义消歧模型，以探究深层特征对词义消歧精度的改 W 2 ...Wan 善程度，词义消歧模型中利用了最大熵模型优良的信息融合特性，并采用BeamSearch算法实现基于句 ang max>P(C:) 1 子的词义序列标注，实验结果显示，本文构造的有式中，C。为第个词wm所对应的上下文环境监督日文词义消歧系统，词义消歧性能能够得到一这样的条件概率分布实际上就是一个分类模定程度的改善型，可运用很多分类器来实现，如朴素贝叶斯、支持向量机、神经网络和最大熵等。最大熵模型具有非 1词义消歧的逻辑模型常良好的信息融合特性，因此本文选用最大嫡法，词义消歧可抽象为一个典型的分类问题，即多对于增量式词义消歧系统，不断将新标注的样义词的某个义项在特定上下文环境中获得指派.对本置于已标注的种子样本集中，便能逐渐扩大训具有k个义项的多义词w,记为S={,,,{,w 练语料库，缓解训练语料缺乏的问题，当然，若无论出现在某个确定上下文C(句、段落或篇章)中，然真伪地将所有标注结果返回用于训练，必然导致分后，选择一个最合适的义项s=argnaxR(slC),其类器性能下降.有关增量式学习的情况较为复杂，中R表示义项和上下文关联程度的映射.然而，孤此处不予赘述立地处理当前文中的每个歧义词，很容易出现偏斜 2最大熵概率模型指派(skewed assignment):因为在一个词序列中，歧义词之间仍然存在相互约束。因而，词义消歧的目最大熵模型是一个较为成熟的概率模型，它巧标应为句子范围内的词义序列消歧妙地将特征选择和参数估计统一到一个框架下，在本文提出一个有监督词义消歧的逻辑模型，如建立模型过程中，能够有效地融合各种来源的信息，图1所示.这个机器学习过程包括训练和标注两个因此，它允许定义任意复杂的特征，只要实验者相信阶段这些特征可能对类别判定有所贡献，近年来，最大 uw13…地熵法在自然语言处理领域取得了广泛的应用，特别 552…m 是Ramnaparkhi将最大嫡法应用于词性标注、断句、 f2w222 52122a 训练模块文本分割和句法分析等问题)，作了一系列有益的条件概率模型 0ta0-a…wn-i 探索，、-山-2w- P(WWISS) 最大熵基本思想就是保留尽可能多的不确定 In 2Wna 词义标注模块性.即在一无所知的情况下，认为所有可能事件的 rg maxP(s-ed）发生几率相同，此时，概率分布是均匀的，事件整体图1词义消歧逻辑模型的熵最大，在词义消歧中，依靠上下文表征性特征 Fig 1 Logicalmodel ofW SD 信息，使用条件最大嫡模型对每个候选词义进行统在模型训练阶段，词义消歧系统需要基于已标计推断，可归纳为以下动态规划问题：注的语料库构建一个条件概率分布模型P(W1, maH(P(slC)=-∑ 2 P(a s)bP(slc)= W2,…,WS,S2,,S),≤n用于训练的语料均 -∑P(cP(slc)bP(slo), 为已标注的样本，每个样本由文本单元序列w:

北京科技大学学报第 32卷以往日文词义消歧研究大多利用相邻词的表层特征如词形（ｍｏｒｐｈｏｌｏｇｙ）、词性（ｐａｒｔｏｆｓｐｅｅｃｈＰＯＳ）、词袋（ｂａｇｏｆｗｏｒｄＢＯＷ）等也都取得良好的消歧性能［3--4］．那么除了表层特征外词义消歧还需要哪些知识？如果逐步加入语义和句法等深层的语言知识能否提高词义消歧的精度呢？表征性消歧特征可划分为词法特征、语义特征和句法特征．本文针对日文的特点在运用词法特征基础上将语义、句法类深层语言特征逐步引入词义消歧模型以探究深层特征对词义消歧精度的改善程度．词义消歧模型中利用了最大熵模型优良的信息融合特性并采用ＢｅａｍＳｅａｒｃｈ算法实现基于句子的词义序列标注．实验结果显示本文构造的有监督日文词义消歧系统词义消歧性能能够得到一定程度的改善． 1 词义消歧的逻辑模型词义消歧可抽象为一个典型的分类问题即多义词的某个义项在特定上下文环境中获得指派．对具有ｋ个义项的多义词ｗ记为Ｓ＝｛ｓ1ｓ2…ｓｋ｝ｗ出现在某个确定上下文Ｃ（句、段落或篇章）中．然后选择一个最合适的义项ｓ′＝ａｒｇｍａｘＲ（ｓｉ｜Ｃ）其中Ｒ表示义项和上下文关联程度的映射．然而孤立地处理当前文中的每个歧义词很容易出现偏斜指派（ｓｋｅｗｅｄａｓｓｉｇｎｍｅｎｔ）；因为在一个词序列中歧义词之间仍然存在相互约束．因而词义消歧的目标应为句子范围内的词义序列消歧．本文提出一个有监督词义消歧的逻辑模型如图 1所示．这个机器学习过程包括训练和标注两个阶段．图 1 词义消歧逻辑模型Ｆｉｇ．1 ＬｏｇｉｃａｌｍｏｄｅｌｏｆＷＳＤ在模型训练阶段词义消歧系统需要基于已标注的语料库构建一个条件概率分布模型Ｐ（Ｗ1 Ｗ2…Ｗｋ｜Ｓ1Ｓ2…Ｓｋ）ｋ≤ｎ．用于训练的语料均为已标注的样本每个样本由文本单元序列｛ｗｉ1 ｗｉ2…ｗｉｎ｝和相应的词义标注序列｛ｓｉ1ｓｉ2… ｓｉｎ｝组成．其中ｗｉｊ表示文本ｉ中的词项ｊ是进行处理的最基本单元ｓｉｊ表示ｗｉｊ相对应的词义标记ｉ＝12…ｍ—1ｊ＝12…ｎ．在词义标注阶段词义消歧系统根据训练所得到的条件概率分布模型对新文本进行词义标注找到相应的最合适的词义标注序列即：ｓｍ1ｓｍ2…ｓｍｎ＝ａｒｇｍａｘＰ（ｓｍ1ｓｍ2…ｓｍｎ｜ｗｍ1 ｗｍ2…ｗｍｎ）≈ ａｒｇｍａｘ∑ ｎｉ＝1 Ｐ（ｓｍｉ｜Ｃｍｉ）．式中Ｃｍｉ为第ｉ个词ｗｍｉ所对应的上下文环境．这样的条件概率分布实际上就是一个分类模型可运用很多分类器来实现如朴素贝叶斯、支持向量机、神经网络和最大熵等．最大熵模型具有非常良好的信息融合特性因此本文选用最大熵法．对于增量式词义消歧系统不断将新标注的样本置于已标注的 “种子 ”样本集中便能逐渐扩大训练语料库缓解训练语料缺乏的问题．当然若无论真伪地将所有标注结果返回用于训练必然导致分类器性能下降．有关增量式学习的情况较为复杂此处不予赘述． 2 最大熵概率模型最大熵模型是一个较为成熟的概率模型它巧妙地将特征选择和参数估计统一到一个框架下．在建立模型过程中能够有效地融合各种来源的信息．因此它允许定义任意复杂的特征只要实验者相信这些特征可能对类别判定有所贡献．近年来最大熵法在自然语言处理领域取得了广泛的应用．特别是Ｒａｔｎａｐａｒｋｈｉ将最大熵法应用于词性标注、断句、文本分割和句法分析等问题［5］作了一系列有益的探索．最大熵基本思想就是保留尽可能多的不确定性．即在一无所知的情况下认为所有可能事件的发生几率相同．此时概率分布是均匀的事件整体的熵最大．在词义消歧中依靠上下文表征性特征信息使用条件最大熵模型对每个候选词义进行统计推断可归纳为以下动态规划问题：ｍａｘＨ（Ｐ（ｓ｜Ｃ））＝—∑ｃ∈ＣＰ（ｃｓ）ｌｂＰ（ｓ｜ｃ）＝ —∑ｃ∈ＣＰ（ｃ）Ｐ（ｓ｜ｃ）ｌｂＰ（ｓ｜ｃ） ·264·

第2期雷雪梅等：基于深层特征抽取的日文词义消歧系统 .265 Ef-Ef 关系靠词序和虚词体现；日文为典型的黏着语 (-P(C(C) (agglutinative language),词内包含的特定附加成分 N f(9s) 表示语法含义，词根与附加成分是松耦合关系，通过 E=∑P(CC月≈ 在名词、动词等的词尾粘贴不同的词缀来实现语法 s t 功能.分析能够用于日文词义消歧的语言特征，可 P(C)P(sc)C)= 归纳为以下三类 C s 词法类特征：词性、词形、词袋、词根、频次等， 1之∑(ss)·g 语义类特征：本体、义类、搭配、域等， N 句法类特征：依存关系等式中，H为信息嫡，N为训练集大小，C为上下文特日文的常见变形方式有很多，如活用形变化、黏征项集合，s为词义标记项，E,为特征的理想期着虚词、ヶ力变化、片假名扩展等.每种方式都可能望，E为特征i的经验期望，￡（9s)= 有多种变化规则，以及其他不规则变化，例如，上下 1,与0s=1 表示特征的特征函数，为训练一段动词最后一个假名一定是石，其连用形是把这 0,其他个弓去掉，比如：忘九马”(oget)变成忘九”，落样本冲上下文特征项的权重方石”(mss)变成“落古”，另外，日文动词、形容词在给定训练语料集后，最大熵模型的任务就是的词形都存在时态变化，因而，本文采用的日文词计算每个特征的期望值，每个特征的约束条件都要法类特征包括：词表面形、词基本形、词性、ngam和求这个经验期望E与模型的理想特征期望E,相词袋（除目标词之外的上下文中的所有词）一致，在所有满足约束的概率分布中，选取满足熵日文使用平假名、片假名拼字，造成中文所不具 H最大化的那个概率分布P(slC)E是可以直接有的“一词多形现象，例如，拉致”(kiap)又可观察到的，通过训练语料统计可以直接获得：E,则拼写为“致”，渡℃”(transition)又可拼写为需要进行反复迭代的参数估计获得，目前，参数估 7夕℃等，此外，笔者在行文时通常会对同一计方法主要有ⅡS(improved iterative scaling入、GS 含义使用不同的词语，这样就不可避免地导致稀疏 generalized iterative scaling)SCG IS sequential 数据问题，若将词项转化成更为抽象的词或概念， conditionalG IS)).本文采用SCGS方法，便能起到词义上的平滑效果，通过使用本体(omoF 3深层特征抽取 ogy)和义类(thesauns)词典，将目标词、同义词和近义词归结为上位词，并将词语抽象到词义类别中，面向人的词义消歧知识和面向机器的词义消歧例如，日文的“電車”(tain)和“自動車”(automo 知识存在非常大的差异，前者更着眼于词本身的释 bile均可泛化为同一个语义类别一(C988.Land 义，或者说是基于词典的方法；而后者注重词本身之 vehicle. 外的上下文所蕴含的统计意义上的表征性特征目标词的所有同现词语不都具有相同的消歧效以往研究大多仅采用目标词的上下文表层的词果，搭配作为约定俗成的词语组合，体现了义项在法特征，并没有使用深层的语义、句法知识，本文提某种显著的临近范围内组合关系的线性共现与期出深层特征抽取(deep feature extraction)方法，即整待四，从上下文中有目的地寻找能够区分词义的合不同来源的词义表征性特征，在使用表层词法类搭配”，可用于后续的歧义消解. 特征基础上，加入语义类、句法类特征，以提高词义领域(domain)信息比较简单，但它确是一种很消歧精度，特征抽取包括两个重要环节：语言学特有效的消解歧义的提示信息，例如，若词语“☑一征的选择、特征的形式化表示. ド”(eco)的上下文中同现词语都呈现音乐领域 3.1特征来源特征（如“guitar”、“orchestra等）则此时其词义应词义消歧的特征抽取是在上下文中选择能够预为唱片”：若呈现体育领域特征时，显然词义应为示目标词义的特征，并组织成特征向量，有监督的记录”.本文采用了目录搜索网站中使用的12个词义消歧系统从大量真实文本中捕捉与任务有关的域类特征集，获取统计意义上的消歧知识，语义依存特征是基于句法依存关系寻找中心词中日文同属东方语言，但分属不同语系，中文与其他成分之间的关系，本文利用中心语驱动短语为孤立语(analytic language)类型，形态变化少，语法结构文法(head driven phrase structure grammar

第 2期雷雪梅等：基于深层特征抽取的日文词义消歧系统ｓ．ｔ．Ｅｐｆｉ＝Ｅ〜ｐｆｉＥ〜ｐｆｉ＝∑ＣｓＰ（Ｃｓ）ｆｉ（Ｃｓ）＝ 1 Ｎ∑ Ｎｊ＝1 ｆｉ（ｃｊｓ）Ｅｐｆｉ＝∑ＣｓＰ（Ｃｓ）ｆｉ（Ｃｓ）≈ ∑ＣｓＰ（Ｃ）Ｐ（ｓ｜Ｃ）ｆｉ（Ｃｓ）＝ 1 Ｎ∑ Ｎｊ＝1∑ｓＰ（ｓ｜ｃｊ）·ｆｉ（ｃｊｓ）式中Ｈ为信息熵Ｎ为训练集大小Ｃ为上下文特征项集合ｓ为词义标记项Ｅｐｆｉ为特征ｉ的理想期望Ｅｐ〜ｆｉ为特征ｉ的经验期望ｆｉ（ｃｊｓ）＝ 1 ｔｉｊ＞0ｓ＝1 0 其他表示特征ｉ的特征函数ｔｉｊ为训练样本ｊ中上下文特征项ｉ的权重．在给定训练语料集后最大熵模型的任务就是计算每个特征的期望值每个特征的约束条件都要求这个经验期望Ｅｐ〜ｆｉ与模型的理想特征期望Ｅｐｆｉ相一致．在所有满足约束的概率分布中选取满足熵Ｈ最大化的那个概率分布Ｐ（ｓ｜Ｃ）．Ｅｐ〜ｆｉ是可以直接观察到的通过训练语料统计可以直接获得；Ｅｐｆｉ则需要进行反复迭代的参数估计获得．目前参数估计方法主要有ⅡＳ（ｉｍｐｒｏｖｅｄｉｔｅｒａｔｉｖｅｓｃａｌｉｎｇ）、ＧＩＳ（ｇｅｎｅｒａｌｉｚｅｄｉｔｅｒａｔｉｖｅｓｃａｌｉｎｇ）和ＳＣＧＩＳ（ｓｅｑｕｅｎｔｉａｌｃｏｎｄｉｔｉｏｎａｌＧＩＳ）［6］．本文采用ＳＣＧＩＳ方法． 3 深层特征抽取面向人的词义消歧知识和面向机器的词义消歧知识存在非常大的差异．前者更着眼于词本身的释义或者说是基于词典的方法；而后者注重词本身之外的上下文所蕴含的统计意义上的表征性特征．以往研究大多仅采用目标词的上下文表层的词法特征并没有使用深层的语义、句法知识．本文提出深层特征抽取（ｄｅｅｐｆｅａｔｕｒｅｅｘｔｒａｃｔｉｏｎ）方法即整合不同来源的词义表征性特征在使用表层词法类特征基础上加入语义类、句法类特征以提高词义消歧精度．特征抽取包括两个重要环节：语言学特征的选择、特征的形式化表示． 3∙1 特征来源词义消歧的特征抽取是在上下文中选择能够预示目标词义的特征并组织成特征向量．有监督的词义消歧系统从大量真实文本中捕捉与任务有关的特征集获取统计意义上的消歧知识．中日文同属东方语言但分属不同语系．中文为孤立语（ａｎａｌｙｔｉｃｌａｎｇｕａｇｅ）类型形态变化少语法关系靠词序和虚词体现；日文为典型的黏着语（ａｇｇｌｕｔｉｎａｔｉｖｅｌａｎｇｕａｇｅ）词内包含的特定附加成分表示语法含义词根与附加成分是松耦合关系通过在名词、动词等的词尾粘贴不同的词缀来实现语法功能．分析能够用于日文词义消歧的语言特征可归纳为以下三类．词法类特征：词性、词形、词袋、词根、频次等语义类特征：本体、义类、搭配、域等句法类特征：依存关系等．日文的常见变形方式有很多如活用形变化、黏着虚词、ケカ变化、片假名扩展等．每种方式都可能有多种变化规则以及其他不规则变化．例如上下一段动词最后一个假名一定是る其连用形是把这个る去掉比如：“忘れる ” （ｆｏｒｇｅｔ）变成 “忘れ ”“落ちる ” （ｍｉｓｓ）变成 “落ち ”．另外日文动词、形容词的词形都存在时态变化．因而本文采用的日文词法类特征包括：词表面形、词基本形、词性、ｎ-ｇｒａｍ和词袋（除目标词之外的上下文中的所有词）．日文使用平假名、片假名拼字造成中文所不具有的 “一词多形 ”现象．例如“拉致 ” （ｋｉｄｎａｐ）又可拼写为 “ら致 ”“渡って ” （ｔｒａｎｓｉｔｉｏｎ）又可拼写为 “ワタって ”等．此外笔者在行文时通常会对同一含义使用不同的词语．这样就不可避免地导致稀疏数据问题．若将词项转化成更为抽象的词或概念便能起到词义上的平滑效果．通过使用本体（ｏｎｔｏｌ- ｏｇｙ）和义类（ｔｈｅｓａｕｒｕｓ）词典将目标词、同义词和近义词归结为上位词并将词语抽象到词义类别中．例如日文的 “電車 ” （ｔｒａｉｎ）和 “自動車 ” （ａｕｔｏｍｏ- ｂｉｌｅ）均可泛化为同一个语义类别－－－〈Ｃ988：Ｌａｎｄｖｅｈｉｃｌｅ〉．目标词的所有同现词语不都具有相同的消歧效果．搭配作为约定俗成的词语组合体现了义项在某种显著的临近范围内组合关系的线性共现与期待［7］．从上下文中有目的地寻找能够区分词义的 “搭配 ”可用于后续的歧义消解．领域（ｄｏｍａｉｎ）信息比较简单但它确是一种很有效的消解歧义的提示信息．例如若词语 “レコード ” （ｒｅｃｏｒｄ）的上下文中同现词语都呈现音乐领域特征（如 “ｇｕｉｔａｒ”、“ｏｒｃｈｅｓｔｒａ”等）则此时其词义应为 “唱片 ”；若呈现体育领域特征时显然词义应为 “记录 ”．本文采用了目录搜索网站中使用的 12个域类．语义依存特征是基于句法依存关系寻找中心词与其他成分之间的关系．本文利用中心语驱动短语结构文法（ｈｅａｄ-ｄｒｉｖｅｎｐｈｒａｓｅｓｔｒｕｃｔｕｒｅｇｒａｍｍａｒ ·265·

.266 北京科技大学学报第32卷 HPSG),以句子为单位对文本进行句法结构分析，找式，由此获得特征值；fnc()为特征生成函数，可以到句中的谓词(predicate)和论元(argment)关包括ps()表示词语位置函数：ped()为中心驱动谓系[⑧].进而，将上下文中存在语法依存关系的词语词函数，coag()表示获取同现论元函数，bag()表示作为目标词的消歧特征，在此基础上，还可对依存词袋函数；ags表示特征生成参数，包括surf(目标关系的词语进行语义和义类的泛化·例句：“電車ヤ词表面形)、base(基本形)、ped(谓词)、hyper((上位自動車花運転寸弓人”(a person who drives trains or 词)、symo(同位词)、semclass(义类)、pos(词 cas),谓词为Ped=運耘，论元为两个，其中ARG2 性)、等是由？连接的一个并列短语，用它的孩子对其扩假设对以下例句：“魚猫仁食心机大.” 展，则论元为{ARG1=人，ARG2=電車，ARG22= (The fish is eaten by cat)进行深层特征抽取，目标自動車{.进行义类归纳，两者又可归结为同一个义词为猫”图2展示了词法类(mor以、句法类(sym) 类(C988),则论元变为{ARG1=人，ARG2= 特征生成的形式和过程 (C988{.这样(C988成为目标词消歧的新特征， Target word -2 =1 +】 +1 45 以泛化的特征项提高语义聚合度， mor魚/#/猫/仁/食/5丸// 3.2特征表示 syn 食<(ARG1:猫，ARG2:魚) 用于日文词义消歧的语言学特征非常多，就本文采用的消歧特征多达43种.因此，进行复杂特征 TargetPOS(0.base) owCO or 抽取，有必要将众多的特征项规范地组织起来，对 Pre3gram mot ps(-3.base 每个特征而言，“Option=Vale'”是它的基本形式，本文采用BNF范式进行特征表示· Even::W ondSenseTag<FeatureL is 图2语言特征的生成与表示 (FeatureL is::FeatureItem）十 Fig2 Generation and mpresentation of linguistics fitures (Featureltem〉：=(FeatureLabe:[part]: 〈exp ression 4词义序列标注策略 FeatureLabe)::=TargeO rth TagrgeSurf TargetPOS BOW Con- 由于日文语句中词语的关联性很强，孤立地对 Orth I SenClass I Depd- 一个词项进行词义消歧，容易出现偏斜指派.基于 head CoPredAg 句子的词义消歧是一个序列分类的问题，要将每个 Pre3gram Pre2gram 词的词义标记进行排列组合，从而找到概率值最大 Prelgram… 的那个词义序列作为最终结果，为了避免合并词义 part]::=morlsyn Isem 过程中出现组合爆炸，本文采用带有启发式规则的〈expression:fnc(ags) 束搜索(beam search)算法[]. func()::=ps()Ibag()Ipred()lang() 束搜索算法类似于V itebi算法，所不同的是， angs:-surflbase lpred hyperlsyno Isemn- 把搜索过程分成若干阶段，计算每个阶段的搜索节 class lpos… 点的耗散值，只保留最有价值的前K个点，然后仅式中，Event为对当前目标词所进行的一次特征抽取对这K个点进行扩展，依次下去，由于束搜索只维结果；W ondSenseTag为词义标记，不为空时，特征抽持有限的K条搜索路径，可大幅缩小搜索空间、提取用于训练，为空时，特征抽取用于标注；Feat血reList 高搜索效率. 为目标词的特征列表；Featureltem为一个特征项；设一个多义词输入序列{w,2,…,w,3为 FeatureLabel为特征项标记，包括TargeOrth(目标词词w:的第个词义，W为待消岐词的集合，T为已消原形)、Targe Surf(目标词表面形)、入TargePOS(目标岐词义标记列表，束宽(beam with)为K.N= 词性)、BOW ConOrth(词袋)、Depdhead(HPSG的中 [W,T]作为一个搜索节点，scoe(N)表示N中的词心驱动词)、SenClass(语义类入、Pe[3~1]gam、义序列T在当前上下文中的概率，作为过滤搜索节 Post[3~l]gm为目标词的ngam模型；part为抽点的依据取特征的类型；mor为词法类特征；sym为句法类特利用束搜索算法完成日文词序列标注的具体实征；sm为语义类特征；expression为特征生成表达现过程如下

北京科技大学学报第 32卷ＨＰＳＧ）以句子为单位对文本进行句法结构分析找到句中的谓词（ｐｒｅｄｉｃａｔｅ）和论元（ａｒｇｕｍｅｎｔ）关系［8］．进而将上下文中存在语法依存关系的词语作为目标词的消歧特征．在此基础上还可对依存关系的词语进行语义和义类的泛化．例句：“電車や自動車を運転する人 ” （ａｐｅｒｓｏｎｗｈｏｄｒｉｖｅｓｔｒａｉｎｓｏｒｃａｒｓ）谓词为Ｐｒｅｄ＝運転论元为两个其中ＡＲＧ2 是由 “や ”连接的一个并列短语用它的孩子对其扩展则论元为｛ＡＲＧ1＝人ＡＲＧ21 ＝電車ＡＲＧ22 ＝自動車｝．进行义类归纳两者又可归结为同一个义类〈Ｃ988〉则论元变为｛ＡＲＧ1＝人ＡＲＧ2＝〈Ｃ988〉｝．这样〈Ｃ988〉成为目标词消歧的新特征以泛化的特征项提高语义聚合度． 3∙2 特征表示用于日文词义消歧的语言学特征非常多就本文采用的消歧特征多达 43种．因此进行复杂特征抽取有必要将众多的特征项规范地组织起来．对每个特征而言“Ｏｐｔｉｏｎ＝Ｖａｌｕｅ”是它的基本形式．本文采用ＢＮＦ范式进行特征表示．〈Ｅｖｅｎｔ〉∷ ＝〈ＷｏｒｄＳｅｎｓｅＴａｇ〉〈ＦｅａｔｕｒｅＬｉｓｔ〉〈ＦｅａｔｕｒｅＬｉｓｔ〉∷ ＝〈ＦｅａｔｕｒｅＩｔｅｍ〉＋〈ＦｅａｔｕｒｅＩｔｅｍ〉∷ ＝〈ＦｅａｔｕｒｅＬａｂｅｌ〉：［ｐａｒｔ］：〈ｅｘｐｒｅｓｓｉｏｎ〉〈ＦｅａｔｕｒｅＬａｂｅｌ〉∷ ＝ＴａｒｇｅｔＯｒｔｈ｜ＴａｇｒｇｅｔＳｕｒｆ｜ＴａｒｇｅｔＰＯＳ｜ＢＯＷＣｏｎ- ｔＯｒｔｈ｜ＳｅｍＣｌａｓｓ｜Ｄｅｐｄ- ｈｅａｄ｜ＣｏＰｒｅｄＡｒｇ｜Ｐｒｅ3ｇｒａｍ｜Ｐｒｅ2ｇｒａｍ｜Ｐｒｅ1ｇｒａｍ｜… ［ｐａｒｔ］∷ ＝ｍｏｒ｜ｓｙｎ｜ｓｅｍ〈ｅｘｐｒｅｓｓｉｏｎ〉∷ｆｕｎｃ（ａｒｇｓ）ｆｕｎｃ（）∷ ＝ｐｓ（）｜ｂａｇ（）｜ｐｒｅｄ（）｜ａｒｇ（）｜… ａｒｇｓ∷ ＝ｓｕｒｆ｜ｂａｓｅ｜ｐｒｅｄ｜ｈｙｐｅｒ｜ｓｙｎｏ｜ｓｅｍ- ｃｌａｓｓ｜ｐｏｓ｜… 式中Ｅｖｅｎｔ为对当前目标词所进行的一次特征抽取结果；ＷｏｒｄＳｅｎｓｅＴａｇ为词义标记不为空时特征抽取用于训练为空时特征抽取用于标注；ＦｅａｔｕｒｅＬｉｓｔ为目标词的特征列表；ＦｅａｔｕｒｅＩｔｅｍ为一个特征项；ＦｅａｔｕｒｅＬａｂｅｌ为特征项标记包括ＴａｒｇｅｔＯｒｔｈ（目标词原形）、ＴａｒｇｅｔＳｕｒｆ（目标词表面形）、ＴａｒｇｅｔＰＯＳ（目标词性）、ＢＯＷＣｏｎｔＯｒｔｈ（词袋）、Ｄｅｐｄｈｅａｄ（ＨＰＳＧ的中心驱动词）、ＳｅｍＣｌａｓｓ（语义类）、Ｐｒｅ［3～1］ｇｒａｍ、Ｐｏｓｔ［3～1］ｇｒａｍ为目标词的ｎ-ｇｒａｍ模型；ｐａｒｔ为抽取特征的类型；ｍｏｒ为词法类特征；ｓｙｎ为句法类特征；ｓｅｍ为语义类特征；ｅｘｐｒｅｓｓｉｏｎ为特征生成表达式由此获得特征值；ｆｕｎｃ（）为特征生成函数可以包括ｐｓ（）表示词语位置函数；ｐｒｅｄ（）为中心驱动谓词函数ｃｏａｒｇ（）表示获取同现论元函数ｂａｇ（）表示词袋函数；ａｒｇｓ表示特征生成参数包括ｓｕｒｆ（目标词表面形）、ｂａｓｅ（基本形）、ｐｒｅｄ（谓词）、ｈｙｐｅｒ（上位词）、ｓｙｎｏ（同位词）、ｓｅｍｃｌａｓｓ（义类）、ｐｏｓ（词性）、等．假设对以下例句：“魚が猫に食べられた．” （Ｔｈｅｆｉｓｈｉｓｅａｔｅｎｂｙｃａｔ．）进行深层特征抽取目标词为 “猫 ”．图 2展示了词法类（ｍｏｒ）、句法类（ｓｙｎ）特征生成的形式和过程．图 2 语言特征的生成与表示Ｆｉｇ．2 Ｇｅｎｅｒａｔｉｏｎａｎｄｒｅｐｒｅｓｅｎｔａｔｉｏｎｏｆｌｉｎｇｕｉｓｔｉｃｓｆｕｔｕｒｅｓ 4 词义序列标注策略由于日文语句中词语的关联性很强孤立地对一个词项进行词义消歧容易出现偏斜指派．基于句子的词义消歧是一个序列分类的问题要将每个词的词义标记进行排列组合从而找到概率值最大的那个词义序列作为最终结果．为了避免合并词义过程中出现组合爆炸本文采用带有启发式规则的束搜索（ｂｅａｍｓｅａｒｃｈ）算法［9］．束搜索算法类似于Ｖｉｔｅｒｂｉ算法所不同的是把搜索过程分成若干阶段计算每个阶段的搜索节点的耗散值只保留最有价值的前Ｋ个点然后仅对这Ｋ个点进行扩展依次下去．由于束搜索只维持有限的Ｋ条搜索路径可大幅缩小搜索空间、提高搜索效率．设一个多义词输入序列｛ｗ1ｗ2…ｗｎ｝ｓｗｉｊ为词ｗｉ的第ｊ个词义Ｗ为待消岐词的集合Ｔ为已消岐词义标记列表束宽（ｂｅａｍｗｉｄｔｈ）为Ｋ．Ｎ＝［ＷＴ］作为一个搜索节点ｓｃｏｒｅ（Ｎ）表示Ｎ中的词义序列Ｔ在当前上下文中的概率作为过滤搜索节点的依据．利用束搜索算法完成日文词序列标注的具体实现过程如下． ·266·

第 2期雷雪梅等：基于深层特征抽取的日文词义消歧系统输入：一个包含ｎ个词的句子．输出：ｎ个词对应的ｎ个词义标记保存在Ｔ中．算法：Ｓｔｅｐ1 初始化：创建初始节点：Ｔ0 ＝｛｝、Ｗ0 ＝｛｝、Ｎ0＝［Ｔ0Ｗ0 ］、Ｋ；将节点Ｎ0插入初始队列Ｑ；Ｓｔｅｐ2 ｆｏｒｅａｃｈＮｉｎＱ ◆ｆｏｒｅａｃｈｗｉｉｎＷ从Ｗ中选出ｗｉ来创建Ｗ′ｉ； ◆ 通过依次增加ｗｉ的候选词义ｓｗｉ1…ｓｗｉｌ的一个词义来给Ｔ创建新表Ｔ1′…Ｔ′ｌ； ◆创建新节点［Ｗ′ｉＴ′0 ］…［Ｗ′ｉＴ′ｌ］依次插入队列Ｑ′；Ｓｔｅｐ3 根据ｓｃｏｒｅ（Ｎ）值将Ｑ′中的节点排序Ｓｔｅｐ4 ｉｆ（ＷｉｎＱ′）＝● 将Ｔ作为最终的最佳词义序列运算终止；ｅｌｓｅ从Ｑ′中取出前Ｋ个节点插入到新队列Ｑ然后返回Ｓｔｅｐ2； 5 词义消歧系统设计本文设计并实现了一个日文词义消歧系统结构模型如图 3所示．该系统包括五个子功能模块．在训练和标注阶段每个模块将承担不同的角色．图 3中灰色箭头标识模型训练过程白色箭头标识词义标注过程．图 3 日文词义消歧系统结构模型Ｆｉｇ．3 ＳｔｒｕｃｔｕｒａｌｍｏｄｅｌｏｆｔｈｅＪａｐａｎｅｓｅＷＳＤｓｙｓｔｅｍ下面详细介绍各个模块的功能．（1）预处理模块（ｆｏｒｍａｔｔｅｒ）：主要任务是从不同来源的文本中获取有关语言特征信息并按预定的ＸＭＬ格式整合在一起为后续的特征抽取做准备．在训练阶段模块将逐一读入已标注的语料库文本解析已标注好的特征信息；在标注阶段模块则需要对用户输入的自由日文文本进行分词、词形分析、词性标注、搭配抽取和ＨＰＳＧ句法分析等语言分析处理．定义语言分析深度依据这个度数来决定模块进行特征抽取的范围．模块集成了多个第三方日文分析工具如Ｃｈａｓｅｎ、Ｍｅｃａｂ、ＰＥＴ、ＪＡＣＹ和ＨｏＧ．（2）特征抽取模块（ｔｒａｎｓｆｏｒｍｅｒ）：主要任务是按照约定的特征定义进行特征抽取获取相应的特征向量．该模块借用Ｈｉｎｏｋｉ本体词典［10］、Ｇｏｉ-Ｔａｉｋｅｉ义类词典［11］和停用词表等外部知识库资源在抽取过程中起到扩展、抽象和过滤特征的作用．当然训练阶段的特征抽取是在已知词义前提下进行的而标注阶段是在未知目标词词义情况下进行．在词义序列标注过程中逐渐将目标词上文的语义类特征加入用于目标词义消歧．（3）最大熵分类器模块（ｃｌａｓｓｉｆｉｅｒ）：主要任务是通过训练获得最大熵模型以支持分类器在标注阶段的计算．由于一般虚词（如介词、语气词、连词和助词）出现的频次很大且对词义消歧的贡献甚微．因而在训练阶段该模块按照日文五大词性－－－名词（ｎｏｕｎ）、动词（ｖｅｒｂ）、动名词（ｖｅｒｂａｌｎｏｕｎ）、形容词（ａｄｊｅｃｔｉｖｅ）和副词（ａｄｖｅｒｂ）构建相应的最大熵模型对其他词性的词项将被忽略．训练阶段的运算量非常巨大需要较长的脱机时间才能完成建模任务此时程序的优化处理是非常必要的．最大熵模型将成为下一步日文词义标注的知识库． ·267·

.268 北京科技大学学报第32卷 (4)词义标注模块(tagger):主要任务是使用 6.1不同语料库的词义消歧精度比较 BeanSearch算法，以句子为单位完成日文词义序列从Lexeed的释义句集合和例句集合中，各抽出的标注，并将词义标注结果保存为XML格式的文 1O00条句子作为测试集(LXD DEF,、LXD EX) 件，在扫描词序列过程中，为了对每个词项抽取特其余句子合并成训练集(LXD ALL),另外，再从日征和计算条件概率，该模块将不断地调用Transfom~ 文新闻语料Kyoto Text Corpu中抽取l000条句子作 er和Classifier模块，为第3个测试集(KYOTO,)经统计，测试集中平 (5)用户界面与评价模块(interface):主要任均每句包含3.4~5.2个多义词.分别对三个测试务是提供用户与系统的交互界面，一方面，向系统语料进行词义标注，实验结果如表2所示提交训练语料文本或用户自由输入的文本，做必要表2不同语料库的词义消歧精度比较的合法性检查和数据统计：另一方面，在wb界面展 Table 2 Comparison ofW SD precision of diferent coora 示词义标注的运算结果，以及系统耗时、执行日志、引入引入引入融合测试 WORD Col 系统参数等辅助信息，此外，加入系统评测功能，实 SEM SYN DOMAN多种语料基准特征现测试语料词义消歧精度的自动计算，以便为调整特征特征特征特征系统运行参数提供参考依据 LXD DEF 78.4 79.8 80.2 78.1 80.7 LXDEX 75.6 78.7 77.9 76.0 78.8 6实验评价与分析 KYOTO 58.5 60.0 58.8 59.8 60.4 语料来源于Lexeed日文词典知识库的释义句和例句2).按照使用频度，Lexeed对所有词项定义表2列出系统对三个测试语料使用不同特征所了1~7级的熟悉度.选用28000个熟悉度在5以获得的词义消歧精度，以WORD Co特征的消歧精上的词项作为核心词，用于解释Lexeed中的所有词度为基线，图4显示了引入其他特征后的精度改善语，Lexeed中的每个义项都对应一个或多个释义句幅度.可以看出，在使用WORD Co特征基础上，引和例句，共计75000条释义句和46000条例句，并入SM、SYN和DOMAN后，日文词义消歧精度获且，这些句子都经过人工标注，包含词性、词形、词汇得了3%左右的改善.对于句式规范的测试语料类型、义类、熟悉度、W ornet对应词项、句法树以及 LXD DEF、LXD EX.eSEM、SYN特征的引入是有其他结构化语义信息.Lexeed的词义统计数据如表效的，对于具有鲜明领域背景的新闻语料 1所示·可以看出，一个多义词使用越频繁，熟悉度 KYOTO DOMA N特征则略胜一筹.从总体上看，等级越高，所具有的义项也越多，从另一个侧面也印使用SEM特征的消歧效果要优于SYN,这是由于证了zp定律日文自身的多变性，语言特征数据稀疏是日文词义表I多义词在Lexeed中的分布消歧需要主要克服的困难 Table 1 Distribution of polyseme n Lexeed corus 35 -LXD-DEF 多义词单义词 --LXD-EX KYOTO 熟悉度词形数义项平均所占词形数词性数个数比例% 6.5-7.0 368 182 4.0 186 50.5 0.5 6.0-6.1 4445 1902 3.4 2543 57.2 -15 5.56.0 9814 3502 2.7 6312 64.3 引人SEM引人SYN引人DOMAIN融合特征特征特征多种特征 5.05.511430 3457 2.5 7973 69.8 图4不同语料库的词义消歧精度改善 Fig 4 mpmovement n WSD precision of differnt corpon 为了观察逐步引入深层语言学特征对消歧精度的影响，实验是在使用词法特征(WORD Col)基础 6.2不同词性的词义消歧精度比较上，分别加入本体、义类、搭配等特征(SM)、语法从词性的角度出发，同样以WORD Co特征为依存关系特征(SYN)和域信息(DOMA N),以及合基准，逐步引入SEM、SYN和DOMA N特征，以观察并所有特征(FULL)而进行的，逐一经过训练创建深层语言学特征对不同词性词项的词义消歧精度的相应的最大熵模型，影响.实验结果如表3所示

北京科技大学学报第 32卷（4）词义标注模块（ｔａｇｇｅｒ）：主要任务是使用ＢｅａｍＳｅａｒｃｈ算法以句子为单位完成日文词义序列的标注并将词义标注结果保存为ＸＭＬ格式的文件．在扫描词序列过程中为了对每个词项抽取特征和计算条件概率该模块将不断地调用Ｔｒａｎｓｆｏｒｍ- ｅｒ和Ｃｌａｓｓｉｆｉｅｒ模块．（5）用户界面与评价模块（ｉｎｔｅｒｆａｃｅ）：主要任务是提供用户与系统的交互界面．一方面向系统提交训练语料文本或用户自由输入的文本做必要的合法性检查和数据统计；另一方面在ｗｅｂ界面展示词义标注的运算结果以及系统耗时、执行日志、系统参数等辅助信息．此外加入系统评测功能实现测试语料词义消歧精度的自动计算以便为调整系统运行参数提供参考依据． 6 实验评价与分析语料来源于Ｌｅｘｅｅｄ日文词典知识库的释义句和例句［12］．按照使用频度Ｌｅｘｅｅｄ对所有词项定义了 1～7级的熟悉度．选用 28000个熟悉度在 5以上的词项作为核心词用于解释Ｌｅｘｅｅｄ中的所有词语．Ｌｅｘｅｅｄ中的每个义项都对应一个或多个释义句和例句共计 75000条释义句和 46000条例句．并且这些句子都经过人工标注包含词性、词形、词汇类型、义类、熟悉度、Ｗｏｒｄｎｅｔ对应词项、句法树以及其他结构化语义信息．Ｌｅｘｅｅｄ的词义统计数据如表 1所示．可以看出一个多义词使用越频繁熟悉度等级越高所具有的义项也越多从另一个侧面也印证了ｚｉｐｆ定律．表 1 多义词在Ｌｅｘｅｅｄ中的分布Ｔａｂｌｅ1 ＤｉｓｔｒｉｂｕｔｉｏｎｏｆｐｏｌｙｓｅｍｅｉｎＬｅｘｅｅｄｃｏｒｐｕｓ熟悉度词形数多义词单义词词形数义项平均个数词性数所占比例／％ 6∙5～7∙0 368 182 4∙0 186 50∙5 6∙0～6∙1 4445 1902 3∙4 2543 57∙2 5∙5～6∙0 9814 3502 2∙7 6312 64∙3 5∙0～5∙5 11430 3457 2∙5 7973 69∙8 为了观察逐步引入深层语言学特征对消歧精度的影响实验是在使用词法特征（ＷＯＲＤ-Ｃｏｌ）基础上分别加入本体、义类、搭配等特征（ＳＥＭ）、语法依存关系特征（ＳＹＮ）和域信息（ＤＯＭＡＩＮ）以及合并所有特征（ＦＵＬＬ）而进行的．逐一经过训练创建相应的最大熵模型． 6∙1 不同语料库的词义消歧精度比较从Ｌｅｘｅｅｄ的释义句集合和例句集合中各抽出 1000条句子作为测试集（ＬＸＤ-ＤＥＦｔｅｓｔ、ＬＸＤ-ＥＸｔｅｓｔ）其余句子合并成训练集（ＬＸＤ-ＡＬＬ）．另外再从日文新闻语料ＫｙｏｔｏＴｅｘｔＣｏｒｐｕｓ中抽取1000条句子作为第 3个测试集（ＫＹＯＴＯｔｅｓｔ）．经统计测试集中平均每句包含 3∙4～5∙2个多义词．分别对三个测试语料进行词义标注实验结果如表 2所示．表 2 不同语料库的词义消歧精度比较Ｔａｂｌｅ2 ＣｏｍｐａｒｉｓｏｎｏｆＷＳＤｐｒｅｃｉｓｉｏｎｏｆｄｉｆｆｅｒｅｎｔｃｏｒｐｏｒａ％测试语料ＷＯＲＤ-Ｃｏｌ基准特征引入ＳＥＭ特征引入ＳＹＮ特征引入ＤＯＭＡＩＮ特征融合多种特征ＬＸＤ-ＤＥＦｔｅｓｔ 78∙4 79∙8 80∙2 78∙1 80∙7 ＬＸＤ-ＥＸｔｅｓｔ 75∙6 78∙7 77∙9 76∙0 78∙8 ＫＹＯＴＯｔｅｓｔ 58∙5 60∙0 58∙8 59∙8 60∙4 表 2列出系统对三个测试语料使用不同特征所获得的词义消歧精度．以ＷＯＲＤ-Ｃｏｌ特征的消歧精度为基线图 4显示了引入其他特征后的精度改善幅度．可以看出在使用ＷＯＲＤ-Ｃｏｌ特征基础上引入ＳＥＭ、ＳＹＮ和ＤＯＭＡＩＮ后日文词义消歧精度获得了 3％左右的改善．对于句式规范的测试语料ＬＸＤ-ＤＥＦｔｅｓｔ、ＬＸＤ-ＥＸｔｅｓｔＳＥＭ、ＳＹＮ特征的引入是有效的．对于具有鲜明领域背景的新闻语料ＫＹＯＴＯｔｅｓｔＤＯＭＡＩＮ特征则略胜一筹．从总体上看使用ＳＥＭ特征的消歧效果要优于ＳＹＮ．这是由于日文自身的多变性语言特征数据稀疏是日文词义消歧需要主要克服的困难．图 4 不同语料库的词义消歧精度改善Ｆｉｇ．4 ＩｍｐｒｏｖｅｍｅｎｔｉｎＷＳＤｐｒｅｃｉｓｉｏｎｏｆｄｉｆｆｅｒｅｎｔｃｏｒｐｏｒａ 6∙2 不同词性的词义消歧精度比较从词性的角度出发同样以ＷＯＲＤ-Ｃｏｌ特征为基准逐步引入ＳＥＭ、ＳＹＮ和ＤＯＭＡＩＮ特征以观察深层语言学特征对不同词性词项的词义消歧精度的影响．实验结果如表 3所示． ·268·

第2期雷雪梅等：基于深层特征抽取的日文词义消歧系统 .269 表3不同词性的词义消歧精度比较同词性的词语有选择地使用语言特征是有必要的， Table 3 Camparison ofW SD precision of different POS 上下文特征对目标词的词义指示作用并不等引入引入引入融合 WORD Col 效，应该做一定的特征筛选，进一步工作将尝试使词性 SEM SYN DOMAN 多种基准特征特征特征特征特征用相对嫡、PageR ank方法进行特征集的优化，以提 Noun 68.7 69.6 69.4 68.9 69.8 高词义消歧系统的精度和效率， Vedb 66.9 71 70.6 67.7 72.6 w 76.2 77.7 74.6 77.6 77.5 参考文献 Adj 67.2 69.5 68.9 68.9 69.5 [1]Manning C D.Schutze H.Founda tions of StatisticalNammlLan- Adv 78.6 79.8 79.2 78.6 79.8 guage Processing Canbridge MIT Pmess 1999 143 [2]Lu Z M.Li T Li The research progress of statistical worl 表3列出五种词性词语引入不同特征所获得的 sense disambiguation Acta E lectmon Sin 2006.34(2):333 词义消歧精度，以词法特征的消歧精度为基线，图5 (卢志茂，刘挺，李生·统计词义消歧的研究进展.电子学报显示了引入其他特征后消歧精度的改善幅度，可以 2006,34(2):333) [3]Zhu J B Li H.Zhang Y.et al Logarithm model based wor 看出，SEM、SYN特征对日文动词的消歧效果是很有 sense disambiguation J Sofwam 2001.12(9):1405 效的，独立使用特征的消歧精度增长4%左右，合并 (朱靖波，李纤，张跃，等.基于对数模型的词义自动消歧软使用所有特征FULL消歧精度增长达到5.%.形件学报，2001.12(9)：1405) 容词的消歧效果位居第2然而，动名词在使用SYN [4]Murata M.Utiyama M.Uchioto K.et al Japanese wor sense 特征后，词义消歧精度反而下降了.显然，这个现象 dismbiguation using the smple Bayes and support vectormachne method/P roceed ngs of the SENSEVAL2 Toulouse 2001:135 与该词性的词是否在句中承担主要句法成分，以及 [5]Ramaparkhi A.Maxiu Entmopy Models for Natuml Language 词形变化有关，因而，可以说，针对不同词性的词项 Ambiguity Resohtion [Dissertation ]Philadelphi University of 有选择地使用语言学特征是有必要的， Pennsylvania 1998 6 [6]Zhang L Maxinum Entmopy Modeling Tookit for Python and C Naun-Adi e-Verb -Adv [2006-10-05]hthp:/hamepages inf ed ac uk/450736/ VN maxent-toolkit htl 2 [7]W ang D L Zhang D Z Tu X Y,et al Collocation extraction based on melative conditional entmopy J Beijng Univ Posts Tele 0 mmu2007,30(6).40 (王大亮，张德政，涂序彦，等.基于相对条件嫡的搭配抽取引入SEM引人SYN引入DOMAIN融合特征特征特征多种特征方法，北京邮电大学学报，2007.30(6)：40) [8]Carl P,Ivan A S Head Driven Phmase StmctureGrammar Chica- 图5不同词性的词义消歧精度改善 Fig 5 mprovement in WSD precision of different POS go University of Chicago Press 1994 [9]Christoph T.Wodd reolering and a dynam ic prognmm ng bean search algorithm for statistical machne translation Comput Lin- 7结论 gust200329(1):97 [10]Tanaka T Francis B Fujita S The H inoki sensebank a large- 本文研究开发了一个基于深层语言特征的日文 scale wor sense tagged corpus of Japanese Pmcced ings of the 词义消歧系统，利用最大嫡模型优良的信息融合性 Workshop on F rontiers n Lingu istica lly Annota ted Corpora Syd- 能，针对日文复杂多变的特点，将语义、句法等语言 ncy200662 学特征用于词义消歧，在以往仅使用上下文表层词 [11]Satom I Masahim M.SatoshiS et al Goi-Taikei a Japanese 法特征基础上，做了深入切实的尝试。同时，为了避 Lexicon Tokyo lanami Shoten 1997 [12]Kasahara K.HioshiS Francis B et al Constnuiction of a Japa- 免词义的偏斜指派，使用Beamn Search?算法实现基于 nese semantic lexicon:Lexeed//Pmceedings of the 20 th Intema- 句子的词义序列标注，实验结果表明：引入深层语 tional Conference on Canputational Linguistics Geneva 2004 言学特征有助于提高词义消歧精度：对不同语料、不 1319

第 2期雷雪梅等：基于深层特征抽取的日文词义消歧系统表 3 不同词性的词义消歧精度比较Ｔａｂｌｅ3 ＣｏｍｐａｒｉｓｏｎｏｆＷＳＤｐｒｅｃｉｓｉｏｎｏｆｄｉｆｆｅｒｅｎｔＰＯＳ％词性ＷＯＲＤ-Ｃｏｌ基准特征引入ＳＥＭ特征引入ＳＹＮ特征引入ＤＯＭＡＩＮ特征融合多种特征Ｎｏｕｎ 68∙7 69∙6 69∙4 68∙9 69∙8 Ｖｅｒｂ 66∙9 71 70∙6 67∙7 72∙6 ＶＮ 76∙2 77∙7 74∙6 77∙6 77∙5 Ａｄｊ 67∙2 69∙5 68∙9 68∙9 69∙5 Ａｄｖ 78∙6 79∙8 79∙2 78∙6 79∙8 表 3列出五种词性词语引入不同特征所获得的词义消歧精度．以词法特征的消歧精度为基线图5 显示了引入其他特征后消歧精度的改善幅度．可以看出ＳＥＭ、ＳＹＮ特征对日文动词的消歧效果是很有效的独立使用特征的消歧精度增长 4％左右合并使用所有特征ＦＵＬＬ消歧精度增长达到 5∙7％．形容词的消歧效果位居第2．然而动名词在使用ＳＹＮ特征后词义消歧精度反而下降了．显然这个现象与该词性的词是否在句中承担主要句法成分以及词形变化有关．因而可以说针对不同词性的词项有选择地使用语言学特征是有必要的．图 5 不同词性的词义消歧精度改善Ｆｉｇ．5 ＩｍｐｒｏｖｅｍｅｎｔｉｎＷＳＤｐｒｅｃｉｓｉｏｎｏｆｄｉｆｆｅｒｅｎｔＰＯＳ 7 结论本文研究开发了一个基于深层语言特征的日文词义消歧系统利用最大熵模型优良的信息融合性能针对日文复杂多变的特点将语义、句法等语言学特征用于词义消歧．在以往仅使用上下文表层词法特征基础上做了深入切实的尝试．同时为了避免词义的偏斜指派使用ＢｅａｍＳｅａｒｃｈ算法实现基于句子的词义序列标注．实验结果表明：引入深层语言学特征有助于提高词义消歧精度；对不同语料、不同词性的词语有选择地使用语言特征是有必要的．上下文特征对目标词的词义指示作用并不等效应该做一定的特征筛选．进一步工作将尝试使用相对熵、ＰａｇｅＲａｎｋ方法进行特征集的优化以提高词义消歧系统的精度和效率．参考文献［1］ＭａｎｎｉｎｇＣＤＳｃｈüｔｚｅＨ．ＦｏｕｎｄａｔｉｏｎｓｏｆＳｔａｔｉｓｔｉｃａｌＮａｔｕｒａｌＬａｎ- ｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ．Ｃａｍｂｒｉｄｇｅ：ＭＩＴＰｒｅｓｓ1999：143 ［2］ＬｕＺＭＬｉｕＴＬｉＳ．Ｔｈｅｒｅｓｅａｒｃｈｐｒｏｇｒｅｓｓｏｆｓｔａｔｉｓｔｉｃａｌｗｏｒｄｓｅｎｓｅｄｉｓａｍｂｉｇｕａｔｉｏｎ．ＡｃｔａＥｌｅｃｔｒｏｎＳｉｎ200634（2）：333 （卢志茂刘挺李生．统计词义消歧的研究进展．电子学报 200634（2）：333）［3］ＺｈｕＪＢＬｉＨＺｈａｎｇＹｅｔａｌ．Ｌｏｇａｒｉｔｈｍｍｏｄｅｌｂａｓｅｄｗｏｒｄｓｅｎｓｅｄｉｓａｍｂｉｇｕａｔｉｏｎ．ＪＳｏｆｔｗａｒｅ200112（9）：1405 （朱靖波李绗张跃等．基于对数模型的词义自动消歧．软件学报200112（9）：1405）［4］ＭｕｒａｔａＭＵｔｉｙａｍａＭＵｃｈｉｍｏｔｏＫｅｔａｌ．ＪａｐａｎｅｓｅｗｏｒｄｓｅｎｓｅｄｉｓａｍｂｉｇｕａｔｉｏｎｕｓｉｎｇｔｈｅｓｉｍｐｌｅＢａｙｅｓａｎｄｓｕｐｐｏｒｔｖｅｃｔｏｒｍａｃｈｉｎｅｍｅｔｈｏｄｓ∥ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＳＥＮＳＥＶＡＬ-2Ｔｏｕｌｏｕｓｅ2001：135 ［5］ＲａｔｎａｐａｒｋｈｉＡ．ＭａｘｉｍｕｍＥｎｔｒｏｐｙＭｏｄｅｌｓｆｏｒＮａｔｕｒａｌＬａｎｇｕａｇｅＡｍｂｉｇｕｉｔｙＲｅｓｏｌｕｔｉｏｎ［Ｄｉｓｓｅｒｔａｔｉｏｎ］．Ｐｈｉｌａｄｅｌｐｈｉａ：ＵｎｉｖｅｒｓｉｔｙｏｆＰｅｎｎｓｙｌｖａｎｉａ1998 ［6］ＺｈａｎｇＬ．ＭａｘｉｍｕｍＥｎｔｒｏｐｙＭｏｄｅｌｉｎｇＴｏｏｌｋｉｔｆｏｒＰｙｔｈｏｎａｎｄＣ＋＋．［2006--10--05］．ｈｔｔｐ：∥ｈｏｍｅｐａｇｅｓ．ｉｎｆ．ｅｄ．ａｃ．ｕｋ／ｓ0450736／ｍａｘｅｎｔ—ｔｏｏｌｋｉｔ．ｈｔｍｌ［7］ＷａｎｇＤＬＺｈａｎｇＤＺＴｕＸＹｅｔａｌ．Ｃｏｌｌｏｃａｔｉｏｎｅｘｔｒａｃｔｉｏｎｂａｓｅｄｏｎｒｅｌａｔｉｖｅｃｏｎｄｉｔｉｏｎａｌｅｎｔｒｏｐｙ．ＪＢｅｉｊｉｎｇＵｎｉｖＰｏｓｔｓＴｅｌｅ- ｃｏｍｍｕｎ200730（6）：40 （王大亮张德政涂序彦等．基于相对条件熵的搭配抽取方法．北京邮电大学学报200730（6）：40）［8］ＣａｒｌＰＩｖａｎＡＳ．ＨｅａｄＤｒｉｖｅｎＰｈｒａｓｅＳｔｒｕｃｔｕｒｅＧｒａｍｍａｒ．Ｃｈｉｃａ- ｇｏ：ＵｎｉｖｅｒｓｉｔｙｏｆＣｈｉｃａｇｏＰｒｅｓｓ1994 ［9］ＣｈｒｉｓｔｏｐｈＴ．Ｗｏｒｄｒｅｏｒｄｅｒｉｎｇａｎｄａｄｙｎａｍｉｃｐｒｏｇｒａｍｍｉｎｇｂｅａｍｓｅａｒｃｈａｌｇｏｒｉｔｈｍｆｏｒｓｔａｔｉｓｔｉｃａｌｍａｃｈｉｎｅｔｒａｎｓｌａｔｉｏｎ．ＣｏｍｐｕｔＬｉｎ- ｇｕｉｓｔ200329（1）：97 ［10］ＴａｎａｋａＴＦｒａｎｃｉｓＢＦｕｊｉｔａＳ．ＴｈｅＨｉｎｏｋｉｓｅｎｓｅｂａｎｋ—ａｌａｒｇｅ- ｓｃａｌｅｗｏｒｄｓｅｎｓｅｔａｇｇｅｄｃｏｒｐｕｓｏｆＪａｐａｎｅｓｅ∥ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＷｏｒｋｓｈｏｐｏｎＦｒｏｎｔｉｅｒｓｉｎＬｉｎｇｕｉｓｔｉｃａｌｌｙＡｎｎｏｔａｔｅｄＣｏｒｐｏｒａ．Ｓｙｄ- ｎｅｙ2006：62 ［11］ＳａｔｏｒｕＩＭａｓａｈｉｒｏＭＳａｔｏｓｈｉＳｅｔａｌ．Ｇｏｉ-Ｔａｉｋｅｉ－ａＪａｐａｎｅｓｅＬｅｘｉｃｏｎ．Ｔｏｋｙｏ：ＩｗａｎａｍｉＳｈｏｔｅｎ1997 ［12］ＫａｓａｈａｒａＫＨｉｒｏｓｈｉＳＦｒａｎｃｉｓＢｅｔａｌ．ＣｏｎｓｔｒｕｃｔｉｏｎｏｆａＪａｐａ- ｎｅｓｅｓｅｍａｎｔｉｃｌｅｘｉｃｏｎ：Ｌｅｘｅｅｄ∥Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ20ｔｈＩｎｔｅｒｎａ- ｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ．Ｇｅｎｅｖａ2004： 1319 ·269·

点击进入文档下载页（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录

基于深层特征抽取的日文词义消歧系统