北京科技大学学报第 32卷ＨＰＳＧ）以句子为单位对文本

正在加载图片...

.266 北京科技大学学报第32卷 HPSG),以句子为单位对文本进行句法结构分析，找式，由此获得特征值；fnc()为特征生成函数，可以到句中的谓词(predicate)和论元(argment)关包括ps()表示词语位置函数：ped()为中心驱动谓系[⑧].进而，将上下文中存在语法依存关系的词语词函数，coag()表示获取同现论元函数，bag()表示作为目标词的消歧特征，在此基础上，还可对依存词袋函数；ags表示特征生成参数，包括surf(目标关系的词语进行语义和义类的泛化·例句：“電車ヤ词表面形)、base(基本形)、ped(谓词)、hyper((上位自動車花運転寸弓人”(a person who drives trains or 词)、symo(同位词)、semclass(义类)、pos(词 cas),谓词为Ped=運耘，论元为两个，其中ARG2 性)、等是由？连接的一个并列短语，用它的孩子对其扩假设对以下例句：“魚猫仁食心机大.” 展，则论元为{ARG1=人，ARG2=電車，ARG22= (The fish is eaten by cat)进行深层特征抽取，目标自動車{.进行义类归纳，两者又可归结为同一个义词为猫”图2展示了词法类(mor以、句法类(sym) 类(C988),则论元变为{ARG1=人，ARG2= 特征生成的形式和过程 (C988{.这样(C988成为目标词消歧的新特征， Target word -2 =1 +】 +1 45 以泛化的特征项提高语义聚合度， mor魚/#/猫/仁/食/5丸// 3.2特征表示 syn 食<(ARG1:猫，ARG2:魚) 用于日文词义消歧的语言学特征非常多，就本文采用的消歧特征多达43种.因此，进行复杂特征 TargetPOS(0.base) owCO or 抽取，有必要将众多的特征项规范地组织起来，对 Pre3gram mot ps(-3.base 每个特征而言，“Option=Vale'”是它的基本形式，本文采用BNF范式进行特征表示· Even::W ondSenseTag<FeatureL is 图2语言特征的生成与表示 (FeatureL is::FeatureItem）十 Fig2 Generation and mpresentation of linguistics fitures (Featureltem〉：=(FeatureLabe:[part]: 〈exp ression 4词义序列标注策略 FeatureLabe)::=TargeO rth TagrgeSurf TargetPOS BOW Con- 由于日文语句中词语的关联性很强，孤立地对 Orth I SenClass I Depd- 一个词项进行词义消歧，容易出现偏斜指派.基于 head CoPredAg 句子的词义消歧是一个序列分类的问题，要将每个 Pre3gram Pre2gram 词的词义标记进行排列组合，从而找到概率值最大 Prelgram… 的那个词义序列作为最终结果，为了避免合并词义 part]::=morlsyn Isem 过程中出现组合爆炸，本文采用带有启发式规则的〈expression:fnc(ags) 束搜索(beam search)算法[]. func()::=ps()Ibag()Ipred()lang() 束搜索算法类似于V itebi算法，所不同的是， angs:-surflbase lpred hyperlsyno Isemn- 把搜索过程分成若干阶段，计算每个阶段的搜索节 class lpos… 点的耗散值，只保留最有价值的前K个点，然后仅式中，Event为对当前目标词所进行的一次特征抽取对这K个点进行扩展，依次下去，由于束搜索只维结果；W ondSenseTag为词义标记，不为空时，特征抽持有限的K条搜索路径，可大幅缩小搜索空间、提取用于训练，为空时，特征抽取用于标注；Feat血reList 高搜索效率. 为目标词的特征列表；Featureltem为一个特征项；设一个多义词输入序列{w,2,…,w,3为 FeatureLabel为特征项标记，包括TargeOrth(目标词词w:的第个词义，W为待消岐词的集合，T为已消原形)、Targe Surf(目标词表面形)、入TargePOS(目标岐词义标记列表，束宽(beam with)为K.N= 词性)、BOW ConOrth(词袋)、Depdhead(HPSG的中 [W,T]作为一个搜索节点，scoe(N)表示N中的词心驱动词)、SenClass(语义类入、Pe[3~1]gam、义序列T在当前上下文中的概率，作为过滤搜索节 Post[3~l]gm为目标词的ngam模型；part为抽点的依据取特征的类型；mor为词法类特征；sym为句法类特利用束搜索算法完成日文词序列标注的具体实征；sm为语义类特征；expression为特征生成表达现过程如下，北京科技大学学报第 32卷ＨＰＳＧ）以句子为单位对文本进行句法结构分析找到句中的谓词（ｐｒｅｄｉｃａｔｅ）和论元（ａｒｇｕｍｅｎｔ）关系［8］．进而将上下文中存在语法依存关系的词语作为目标词的消歧特征．在此基础上还可对依存关系的词语进行语义和义类的泛化．例句：“電車や自動車を運転する人 ” （ａｐｅｒｓｏｎｗｈｏｄｒｉｖｅｓｔｒａｉｎｓｏｒｃａｒｓ）谓词为Ｐｒｅｄ＝運転论元为两个其中ＡＲＧ2 是由 “や ”连接的一个并列短语用它的孩子对其扩展则论元为｛ＡＲＧ1＝人ＡＲＧ21 ＝電車ＡＲＧ22 ＝自動車｝．进行义类归纳两者又可归结为同一个义类〈Ｃ988〉则论元变为｛ＡＲＧ1＝人ＡＲＧ2＝〈Ｃ988〉｝．这样〈Ｃ988〉成为目标词消歧的新特征以泛化的特征项提高语义聚合度． 3∙2 特征表示用于日文词义消歧的语言学特征非常多就本文采用的消歧特征多达 43种．因此进行复杂特征抽取有必要将众多的特征项规范地组织起来．对每个特征而言“Ｏｐｔｉｏｎ＝Ｖａｌｕｅ”是它的基本形式．本文采用ＢＮＦ范式进行特征表示．〈Ｅｖｅｎｔ〉∷ ＝〈ＷｏｒｄＳｅｎｓｅＴａｇ〉〈ＦｅａｔｕｒｅＬｉｓｔ〉〈ＦｅａｔｕｒｅＬｉｓｔ〉∷ ＝〈ＦｅａｔｕｒｅＩｔｅｍ〉＋〈ＦｅａｔｕｒｅＩｔｅｍ〉∷ ＝〈ＦｅａｔｕｒｅＬａｂｅｌ〉：［ｐａｒｔ］：〈ｅｘｐｒｅｓｓｉｏｎ〉〈ＦｅａｔｕｒｅＬａｂｅｌ〉∷ ＝ＴａｒｇｅｔＯｒｔｈ｜ＴａｇｒｇｅｔＳｕｒｆ｜ＴａｒｇｅｔＰＯＳ｜ＢＯＷＣｏｎ- ｔＯｒｔｈ｜ＳｅｍＣｌａｓｓ｜Ｄｅｐｄ- ｈｅａｄ｜ＣｏＰｒｅｄＡｒｇ｜Ｐｒｅ3ｇｒａｍ｜Ｐｒｅ2ｇｒａｍ｜Ｐｒｅ1ｇｒａｍ｜… ［ｐａｒｔ］∷ ＝ｍｏｒ｜ｓｙｎ｜ｓｅｍ〈ｅｘｐｒｅｓｓｉｏｎ〉∷ｆｕｎｃ（ａｒｇｓ）ｆｕｎｃ（）∷ ＝ｐｓ（）｜ｂａｇ（）｜ｐｒｅｄ（）｜ａｒｇ（）｜… ａｒｇｓ∷ ＝ｓｕｒｆ｜ｂａｓｅ｜ｐｒｅｄ｜ｈｙｐｅｒ｜ｓｙｎｏ｜ｓｅｍ- ｃｌａｓｓ｜ｐｏｓ｜… 式中Ｅｖｅｎｔ为对当前目标词所进行的一次特征抽取结果；ＷｏｒｄＳｅｎｓｅＴａｇ为词义标记不为空时特征抽取用于训练为空时特征抽取用于标注；ＦｅａｔｕｒｅＬｉｓｔ为目标词的特征列表；ＦｅａｔｕｒｅＩｔｅｍ为一个特征项；ＦｅａｔｕｒｅＬａｂｅｌ为特征项标记包括ＴａｒｇｅｔＯｒｔｈ（目标词原形）、ＴａｒｇｅｔＳｕｒｆ（目标词表面形）、ＴａｒｇｅｔＰＯＳ（目标词性）、ＢＯＷＣｏｎｔＯｒｔｈ（词袋）、Ｄｅｐｄｈｅａｄ（ＨＰＳＧ的中心驱动词）、ＳｅｍＣｌａｓｓ（语义类）、Ｐｒｅ［3～1］ｇｒａｍ、Ｐｏｓｔ［3～1］ｇｒａｍ为目标词的ｎ-ｇｒａｍ模型；ｐａｒｔ为抽取特征的类型；ｍｏｒ为词法类特征；ｓｙｎ为句法类特征；ｓｅｍ为语义类特征；ｅｘｐｒｅｓｓｉｏｎ为特征生成表达式由此获得特征值；ｆｕｎｃ（）为特征生成函数可以包括ｐｓ（）表示词语位置函数；ｐｒｅｄ（）为中心驱动谓词函数ｃｏａｒｇ（）表示获取同现论元函数ｂａｇ（）表示词袋函数；ａｒｇｓ表示特征生成参数包括ｓｕｒｆ（目标词表面形）、ｂａｓｅ（基本形）、ｐｒｅｄ（谓词）、ｈｙｐｅｒ（上位词）、ｓｙｎｏ（同位词）、ｓｅｍｃｌａｓｓ（义类）、ｐｏｓ（词性）、等．假设对以下例句：“魚が猫に食べられた．” （Ｔｈｅｆｉｓｈｉｓｅａｔｅｎｂｙｃａｔ．）进行深层特征抽取目标词为 “猫 ”．图 2展示了词法类（ｍｏｒ）、句法类（ｓｙｎ）特征生成的形式和过程．图 2 语言特征的生成与表示Ｆｉｇ．2 Ｇｅｎｅｒａｔｉｏｎａｎｄｒｅｐｒｅｓｅｎｔａｔｉｏｎｏｆｌｉｎｇｕｉｓｔｉｃｓｆｕｔｕｒｅｓ 4 词义序列标注策略由于日文语句中词语的关联性很强孤立地对一个词项进行词义消歧容易出现偏斜指派．基于句子的词义消歧是一个序列分类的问题要将每个词的词义标记进行排列组合从而找到概率值最大的那个词义序列作为最终结果．为了避免合并词义过程中出现组合爆炸本文采用带有启发式规则的束搜索（ｂｅａｍｓｅａｒｃｈ）算法［9］．束搜索算法类似于Ｖｉｔｅｒｂｉ算法所不同的是把搜索过程分成若干阶段计算每个阶段的搜索节点的耗散值只保留最有价值的前Ｋ个点然后仅对这Ｋ个点进行扩展依次下去．由于束搜索只维持有限的Ｋ条搜索路径可大幅缩小搜索空间、提高搜索效率．设一个多义词输入序列｛ｗ1ｗ2…ｗｎ｝ｓｗｉｊ为词ｗｉ的第ｊ个词义Ｗ为待消岐词的集合Ｔ为已消岐词义标记列表束宽（ｂｅａｍｗｉｄｔｈ）为Ｋ．Ｎ＝［ＷＴ］作为一个搜索节点ｓｃｏｒｅ（Ｎ）表示Ｎ中的词义序列Ｔ在当前上下文中的概率作为过滤搜索节点的依据．利用束搜索算法完成日文词序列标注的具体实现过程如下． ·266·

<<向上翻页向下翻页>>

点击下载：基于深层特征抽取的日文词义消歧系统