正在加载图片...
.266 北京科技大学学报 第32卷 HPSG),以句子为单位对文本进行句法结构分析,找 式,由此获得特征值;fnc()为特征生成函数,可以 到句中的谓词(predicate)和论元(argment)关 包括ps()表示词语位置函数:ped()为中心驱动谓 系[⑧].进而,将上下文中存在语法依存关系的词语 词函数,coag()表示获取同现论元函数,bag()表示 作为目标词的消歧特征,在此基础上,还可对依存 词袋函数;ags表示特征生成参数,包括surf(目标 关系的词语进行语义和义类的泛化·例句:“電車ヤ 词表面形)、base(基本形)、ped(谓词)、hyper((上位 自動車花運転寸弓人”(a person who drives trains or 词)、symo(同位词)、semclass(义类)、pos(词 cas),谓词为Ped=運耘,论元为两个,其中ARG2 性)、等 是由?连接的一个并列短语,用它的孩子对其扩 假设对以下例句:“魚猫仁食心机大.” 展,则论元为{ARG1=人,ARG2=電車,ARG22= (The fish is eaten by cat)进行深层特征抽取,目标 自動車{.进行义类归纳,两者又可归结为同一个义 词为猫”图2展示了词法类(mor以、句法类(sym) 类(C988),则论元变为{ARG1=人,ARG2= 特征生成的形式和过程 (C988{.这样(C988成为目标词消歧的新特征, Target word -2 =1 +】 +1 45 以泛化的特征项提高语义聚合度, mor魚/#/猫/仁/食/5丸// 3.2特征表示 syn 食<(ARG1:猫,ARG2:魚) 用于日文词义消歧的语言学特征非常多,就本 文采用的消歧特征多达43种.因此,进行复杂特征 TargetPOS(0.base) owCO or 抽取,有必要将众多的特征项规范地组织起来,对 Pre3gram mot ps(-3.base 每个特征而言,“Option=Vale'”是它的基本形式, 本文采用BNF范式进行特征表示· Even::W ondSenseTag<FeatureL is 图2语言特征的生成与表示 (FeatureL is::FeatureItem)十 Fig2 Generation and mpresentation of linguistics fitures (Featureltem〉:=(FeatureLabe:[part]: 〈exp ression 4词义序列标注策略 FeatureLabe)::=TargeO rth TagrgeSurf TargetPOS BOW Con- 由于日文语句中词语的关联性很强,孤立地对 Orth I SenClass I Depd- 一个词项进行词义消歧,容易出现偏斜指派.基于 head CoPredAg 句子的词义消歧是一个序列分类的问题,要将每个 Pre3gram Pre2gram 词的词义标记进行排列组合,从而找到概率值最大 Prelgram… 的那个词义序列作为最终结果,为了避免合并词义 part]::=morlsyn Isem 过程中出现组合爆炸,本文采用带有启发式规则的 〈expression:fnc(ags) 束搜索(beam search)算法[]. func()::=ps()Ibag()Ipred()lang() 束搜索算法类似于V itebi算法,所不同的是, angs:-surflbase lpred hyperlsyno Isemn- 把搜索过程分成若干阶段,计算每个阶段的搜索节 class lpos… 点的耗散值,只保留最有价值的前K个点,然后仅 式中,Event为对当前目标词所进行的一次特征抽取 对这K个点进行扩展,依次下去,由于束搜索只维 结果;W ondSenseTag为词义标记,不为空时,特征抽 持有限的K条搜索路径,可大幅缩小搜索空间、提 取用于训练,为空时,特征抽取用于标注;Feat血reList 高搜索效率. 为目标词的特征列表;Featureltem为一个特征项; 设一个多义词输入序列{w,2,…,w,3为 FeatureLabel为特征项标记,包括TargeOrth(目标词 词w:的第个词义,W为待消岐词的集合,T为已消 原形)、Targe Surf(目标词表面形)、入TargePOS(目标 岐词义标记列表,束宽(beam with)为K.N= 词性)、BOW ConOrth(词袋)、Depdhead(HPSG的中 [W,T]作为一个搜索节点,scoe(N)表示N中的词 心驱动词)、SenClass(语义类入、Pe[3~1]gam、 义序列T在当前上下文中的概率,作为过滤搜索节 Post[3~l]gm为目标词的ngam模型;part为抽 点的依据 取特征的类型;mor为词法类特征;sym为句法类特 利用束搜索算法完成日文词序列标注的具体实 征;sm为语义类特征;expression为特征生成表达 现过程如下,北 京 科 技 大 学 学 报 第 32卷 HPSG)‚以句子为单位对文本进行句法结构分析‚找 到句 中 的 谓 词 (predicate)和 论 元 (argument)关 系 [8].进而‚将上下文中存在语法依存关系的词语 作为目标词的消歧特征.在此基础上‚还可对依存 关系的词语进行语义和义类的泛化.例句:“電車や 自動車を運転する人 ” (apersonwhodrivestrainsor cars)‚谓词为 Pred=運転‚论元为两个‚其中 ARG2 是由 “や ”连接的一个并列短语‚用它的孩子对其扩 展‚则论元为{ARG1=人‚ARG21 =電車‚ARG22 = 自動車}.进行义类归纳‚两者又可归结为同一个义 类〈C988〉‚则 论 元 变 为 {ARG1=人‚ARG2= 〈C988〉}.这样〈C988〉成为目标词消歧的新特征‚ 以泛化的特征项提高语义聚合度. 3∙2 特征表示 用于日文词义消歧的语言学特征非常多‚就本 文采用的消歧特征多达 43种.因此‚进行复杂特征 抽取‚有必要将众多的特征项规范地组织起来.对 每个特征而言‚“Option=Value”是它的基本形式. 本文采用 BNF范式进行特征表示. 〈Event〉∷ =〈WordSenseTag〉〈FeatureList〉 〈FeatureList〉∷ =〈FeatureItem〉+ 〈FeatureItem〉∷ =〈FeatureLabel〉:[part]: 〈expression〉 〈FeatureLabel〉∷ =TargetOrth|TagrgetSurf| TargetPOS |BOWCon- tOrth|SemClass|Depd- head | CoPredArg | Pre3gram |Pre2gram | Pre1gram|… [part]∷ =mor|syn|sem 〈expression〉∷func(args) func()∷ =ps()|bag()|pred()|arg()|… args∷ =surf|base|pred|hyper|syno|sem- class|pos|… 式中‚Event为对当前目标词所进行的一次特征抽取 结果;WordSenseTag为词义标记‚不为空时‚特征抽 取用于训练‚为空时‚特征抽取用于标注;FeatureList 为目标词的特征列表;FeatureItem为一个特征项; FeatureLabel为特征项标记‚包括 TargetOrth(目标词 原形 )、TargetSurf(目标词表面形 )、TargetPOS(目标 词性 )、BOWContOrth(词袋 )、Depdhead(HPSG的中 心驱动词 )、SemClass(语义类 )、Pre[3~1]gram、 Post[3~1]gram为目标词的 n-gram模型;part为抽 取特征的类型;mor为词法类特征;syn为句法类特 征;sem为语义类特征;expression为特征生成表达 式‚由此获得特征值;func( )为特征生成函数‚可以 包括 ps()表示词语位置函数;pred()为中心驱动谓 词函数‚coarg()表示获取同现论元函数‚bag()表示 词袋函数;args表示特征生成参数‚包括 surf(目标 词表面形 )、base(基本形 )、pred(谓词 )、hyper(上位 词 )、syno(同 位 词 )、semclass(义 类 )、pos(词 性 )、等. 假设对以下例句:“魚が猫に食べられた.” (Thefishiseatenbycat.)进行深层特征抽取‚目标 词为 “猫 ”.图 2展示了词法类 (mor)、句法类 (syn) 特征生成的形式和过程. 图 2 语言特征的生成与表示 Fig.2 Generationandrepresentationoflinguisticsfutures 4 词义序列标注策略 由于日文语句中词语的关联性很强‚孤立地对 一个词项进行词义消歧‚容易出现偏斜指派.基于 句子的词义消歧是一个序列分类的问题‚要将每个 词的词义标记进行排列组合‚从而找到概率值最大 的那个词义序列作为最终结果.为了避免合并词义 过程中出现组合爆炸‚本文采用带有启发式规则的 束搜索 (beamsearch)算法 [9]. 束搜索算法类似于 Viterbi算法‚所不同的是‚ 把搜索过程分成若干阶段‚计算每个阶段的搜索节 点的耗散值‚只保留最有价值的前 K个点‚然后仅 对这 K个点进行扩展‚依次下去.由于束搜索只维 持有限的 K条搜索路径‚可大幅缩小搜索空间、提 高搜索效率. 设一个多义词输入序列{w1‚w2‚…‚wn}‚swij为 词 wi的第 j个词义‚W为待消岐词的集合‚T为已消 岐词义标记列表‚束宽 (beam width)为 K.N= [W‚T]作为一个搜索节点‚score(N)表示 N中的词 义序列 T在当前上下文中的概率‚作为过滤搜索节 点的依据. 利用束搜索算法完成日文词序列标注的具体实 现过程如下. ·266·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有