正在加载图片...
第2期 雷雪梅等:基于深层特征抽取的日文词义消歧系统 .265 Ef-Ef 关系靠词序和虚词体现;日文为典型的黏着语 (-P(C(C) (agglutinative language),词内包含的特定附加成分 N f(9s) 表示语法含义,词根与附加成分是松耦合关系,通过 E=∑P(CC月≈ 在名词、动词等的词尾粘贴不同的词缀来实现语法 s t 功能.分析能够用于日文词义消歧的语言特征,可 P(C)P(sc)C)= 归纳为以下三类 C s 词法类特征:词性、词形、词袋、词根、频次等, 1之∑(ss)·g 语义类特征:本体、义类、搭配、域等, N 句法类特征:依存关系等 式中,H为信息嫡,N为训练集大小,C为上下文特 日文的常见变形方式有很多,如活用形变化、黏 征项集合,s为词义标记项,E,为特征的理想期 着虚词、ヶ力变化、片假名扩展等.每种方式都可能 望,E为特征i的经验期望,£(9s)= 有多种变化规则,以及其他不规则变化,例如,上下 1,与0s=1 表示特征的特征函数,为训练 一段动词最后一个假名一定是石,其连用形是把这 0,其他 个弓去掉,比如:忘九马”(oget)变成忘九”,落 样本冲上下文特征项的权重 方石”(mss)变成“落古”,另外,日文动词、形容词 在给定训练语料集后,最大熵模型的任务就是 的词形都存在时态变化,因而,本文采用的日文词 计算每个特征的期望值,每个特征的约束条件都要 法类特征包括:词表面形、词基本形、词性、ngam和 求这个经验期望E与模型的理想特征期望E,相 词袋(除目标词之外的上下文中的所有词) 一致,在所有满足约束的概率分布中,选取满足熵 日文使用平假名、片假名拼字,造成中文所不具 H最大化的那个概率分布P(slC)E是可以直接 有的“一词多形现象,例如,拉致”(kiap)又可 观察到的,通过训练语料统计可以直接获得:E,则 拼写为“致”,渡℃”(transition)又可拼写为 需要进行反复迭代的参数估计获得,目前,参数估 7夕℃等,此外,笔者在行文时通常会对同一 计方法主要有ⅡS(improved iterative scaling入、GS 含义使用不同的词语,这样就不可避免地导致稀疏 generalized iterative scaling)SCG IS sequential 数据问题,若将词项转化成更为抽象的词或概念, conditionalG IS)).本文采用SCGS方法, 便能起到词义上的平滑效果,通过使用本体(omoF 3深层特征抽取 ogy)和义类(thesauns)词典,将目标词、同义词和近 义词归结为上位词,并将词语抽象到词义类别中, 面向人的词义消歧知识和面向机器的词义消歧 例如,日文的“電車”(tain)和“自動車”(automo 知识存在非常大的差异,前者更着眼于词本身的释 bile均可泛化为同一个语义类别一(C988.Land 义,或者说是基于词典的方法;而后者注重词本身之 vehicle. 外的上下文所蕴含的统计意义上的表征性特征 目标词的所有同现词语不都具有相同的消歧效 以往研究大多仅采用目标词的上下文表层的词 果,搭配作为约定俗成的词语组合,体现了义项在 法特征,并没有使用深层的语义、句法知识,本文提 某种显著的临近范围内组合关系的线性共现与期 出深层特征抽取(deep feature extraction)方法,即整 待四,从上下文中有目的地寻找能够区分词义的 合不同来源的词义表征性特征,在使用表层词法类 搭配”,可用于后续的歧义消解. 特征基础上,加入语义类、句法类特征,以提高词义 领域(domain)信息比较简单,但它确是一种很 消歧精度,特征抽取包括两个重要环节:语言学特 有效的消解歧义的提示信息,例如,若词语“☑一 征的选择、特征的形式化表示. ド”(eco)的上下文中同现词语都呈现音乐领域 3.1特征来源 特征(如“guitar”、“orchestra等)则此时其词义应 词义消歧的特征抽取是在上下文中选择能够预 为唱片”:若呈现体育领域特征时,显然词义应为 示目标词义的特征,并组织成特征向量,有监督的 记录”.本文采用了目录搜索网站中使用的12个 词义消歧系统从大量真实文本中捕捉与任务有关的 域类 特征集,获取统计意义上的消歧知识, 语义依存特征是基于句法依存关系寻找中心词 中日文同属东方语言,但分属不同语系,中文 与其他成分之间的关系,本文利用中心语驱动短语 为孤立语(analytic language)类型,形态变化少,语法 结构文法(head driven phrase structure grammar第 2期 雷雪梅等: 基于深层特征抽取的日文词义消歧系统 s.t. Ep fi =E〜p fi E〜p fi =∑C‚s P(C‚s)fi(C‚s) = 1 N∑ N j=1 fi(cj‚s) Epfi =∑C‚s P(C‚s)fi(C‚s)≈ ∑C‚s P(C)P(s|C)fi(C‚s) = 1 N∑ N j=1∑s P(s|cj)·fi(cj‚s) 式中‚H为信息熵‚N为训练集大小‚C为上下文特 征项集合‚s为词义标记项‚Epfi为特征 i的理想期 望‚Ep〜 fi 为 特 征 i的 经 验 期 望‚fi (cj‚s) = 1‚ tij>0‚s=1 0‚ 其他 表示特征 i的特征函数‚tij为训练 样本 j中上下文特征项 i的权重. 在给定训练语料集后‚最大熵模型的任务就是 计算每个特征的期望值‚每个特征的约束条件都要 求这个经验期望 Ep〜fi与模型的理想特征期望 Epfi相 一致.在所有满足约束的概率分布中‚选取满足熵 H最大化的那个概率分布 P(s|C).Ep〜fi是可以直接 观察到的‚通过训练语料统计可以直接获得;Epfi则 需要进行反复迭代的参数估计获得.目前‚参数估 计方法主要有ⅡS(improvediterativescaling)、GIS (generalizediterativescaling)和 SCGIS(sequential conditionalGIS) [6].本文采用 SCGIS方法. 3 深层特征抽取 面向人的词义消歧知识和面向机器的词义消歧 知识存在非常大的差异.前者更着眼于词本身的释 义‚或者说是基于词典的方法;而后者注重词本身之 外的上下文所蕴含的统计意义上的表征性特征. 以往研究大多仅采用目标词的上下文表层的词 法特征‚并没有使用深层的语义、句法知识.本文提 出深层特征抽取 (deepfeatureextraction)方法‚即整 合不同来源的词义表征性特征‚在使用表层词法类 特征基础上‚加入语义类、句法类特征‚以提高词义 消歧精度.特征抽取包括两个重要环节:语言学特 征的选择、特征的形式化表示. 3∙1 特征来源 词义消歧的特征抽取是在上下文中选择能够预 示目标词义的特征‚并组织成特征向量.有监督的 词义消歧系统从大量真实文本中捕捉与任务有关的 特征集‚获取统计意义上的消歧知识. 中日文同属东方语言‚但分属不同语系.中文 为孤立语 (analyticlanguage)类型‚形态变化少‚语法 关系靠词序和虚词体现;日文为典型的黏着语 (agglutinativelanguage)‚词内包含的特定附加成分 表示语法含义‚词根与附加成分是松耦合关系‚通过 在名词、动词等的词尾粘贴不同的词缀来实现语法 功能.分析能够用于日文词义消歧的语言特征‚可 归纳为以下三类. 词法类特征:词性、词形、词袋、词根、频次等‚ 语义类特征:本体、义类、搭配、域等‚ 句法类特征:依存关系等. 日文的常见变形方式有很多‚如活用形变化、黏 着虚词、ケカ变化、片假名扩展等.每种方式都可能 有多种变化规则‚以及其他不规则变化.例如‚上下 一段动词最后一个假名一定是る‚其连用形是把这 个る去掉‚比如:“忘れる ” (forget)变成 “忘れ ”‚“落 ちる ” (miss)变成 “落ち ”.另外‚日文动词、形容词 的词形都存在时态变化.因而‚本文采用的日文词 法类特征包括:词表面形、词基本形、词性、n-gram和 词袋 (除目标词之外的上下文中的所有词 ). 日文使用平假名、片假名拼字‚造成中文所不具 有的 “一词多形 ”现象.例如‚“拉致 ” (kidnap)又可 拼写为 “ら致 ”‚“渡って ” (transition)又可拼写为 “ワタって ”等.此外‚笔者在行文时通常会对同一 含义使用不同的词语.这样就不可避免地导致稀疏 数据问题.若将词项转化成更为抽象的词或概念‚ 便能起到词义上的平滑效果.通过使用本体 (ontol- ogy)和义类 (thesaurus)词典‚将目标词、同义词和近 义词归结为上位词‚并将词语抽象到词义类别中. 例如‚日文的 “電車 ” (train)和 “自動車 ” (automo- bile)均可泛化为同一个语义类别---〈C988:Land vehicle〉. 目标词的所有同现词语不都具有相同的消歧效 果.搭配作为约定俗成的词语组合‚体现了义项在 某种显著的临近范围内组合关系的线性共现与期 待 [7].从上下文中有目的地寻找能够区分词义的 “搭配 ”‚可用于后续的歧义消解. 领域 (domain)信息比较简单‚但它确是一种很 有效的消解歧义的提示信息.例如‚若词语 “レコー ド ” (record)的上下文中同现词语都呈现音乐领域 特征 (如 “guitar”、“orchestra”等 )‚则此时其词义应 为 “唱片 ”;若呈现体育领域特征时‚显然词义应为 “记录 ”.本文采用了目录搜索网站中使用的 12个 域类. 语义依存特征是基于句法依存关系寻找中心词 与其他成分之间的关系.本文利用中心语驱动短语 结构 文 法 (head-drivenphrasestructuregrammar‚ ·265·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有