正在加载图片...
第2期 雷雪梅等:基于深层特征抽取的日文词义消歧系统 .267. 输入:一个包含n个词的句子. T门依次插入队列Q: 输出:n个词对应的n个词义标记,保存在T Step3根据scoe(N)值将Q中的节点排序 中, Step 4 if (W in Q)- 算法: 将T作为最终的最佳词义序列,运 Step1初始化: 算终止; 创建初始节点:T={、Wo={{、o= else [To,Wo]、K: 从Q中取出前K个节点,插入到新 将节点N插入初始队列Q: 队列Q,然后返回Step2: Step 2 for each N in Q 5词义消歧系统设计 ◆for each w:nW,从W中选出w:来 创建W: 本文设计并实现了一个日文词义消歧系统,结 ◆通过依次增加w:的候选词义 构模型如图3所示,该系统包括五个子功能模块 …,s的一个词义,来给T创 在训练和标注阶段,每个模块将承担不同的角色, 建新表T,…,T 图3中灰色箭头标识模型训练过程,白色箭头标识 ◆创建新节点[WT6]…,[W 词义标注过程 用户界面与 预处理模块 特征抽取模块 评价模块 ChaSen PET 分析器n 特征定义 标注 语料库 数据采集 特征抽取 本体词典 义类词典 目标文本 整合数据 特征向量 分类器模块 性能评价 词义标注模块 分类器(最大熵) 解码器(束搜索算法) 标注文本 词义标注数据 名词 模型 图3日文词义消歧系统结构模型 Fg 3 Stmuctunalmodel of the Japanese WSD system 下面详细介绍各个模块的功能 过程中起到扩展、抽象和过滤特征的作用,当然,训 (1)预处理模块(fomatter):主要任务是从不 练阶段的特征抽取是在已知词义前提下进行的,而 同来源的文本中,获取有关语言特征信息,并按预定 标注阶段是在未知目标词词义情况下进行,在词义 的XML格式整合在一起,为后续的特征抽取做准 序列标注过程中,逐渐将目标词上文的语义类特征 备,在训练阶段,模块将逐一读入已标注的语料库 加入,用于目标词义消歧 文本,解析已标注好的特征信息;在标注阶段,模块 (3)最大熵分类器模块(classifier):主要任务 则需要对用户输入的自由日文文本进行分词、词形 是通过训练获得最大熵模型,以支持分类器在标注 分析、词性标注、搭配抽取和HPG句法分析等语言 阶段的计算,由于一般虚词(如介词、语气词、连词 分析处理,定义语言分析深度,依据这个度数来决 和助词)出现的频次很大,且对词义消歧的贡献甚 定模块进行特征抽取的范围,模块集成了多个第三 微.因而,在训练阶段,该模块按照日文五大词 方日文分析工具,如Chasen,Mecab.PET、JACY和 性一名词(noun)、动词(veb)、动名词(vepbal HoG. noun)、形容词(adjective)和副词(adveb)构建相应 (2)特征抽取模块(transfomer)):主要任务是 的最大熵模型,对其他词性的词项将被忽略,训练 按照约定的特征定义进行特征抽取,获取相应的特 阶段的运算量非常巨大,需要较长的脱机时间才能 征向量.该模块借用H inok本体词典o、Goi-Taikei 完成建模任务,此时程序的优化处理是非常必要的, 义类词典山和停用词表等外部知识库资源,在抽取 最大熵模型将成为下一步日文词义标注的知识库,第 2期 雷雪梅等: 基于深层特征抽取的日文词义消歧系统 输入:一个包含 n个词的句子. 输出:n个词对应的 n个词义标记‚保存在 T 中. 算法: Step1 初始化: 创建初始节点:T0 ={}、W0 ={}、N0= [T0‚W0 ]、K; 将节点 N0插入初始队列 Q; Step2 foreachNinQ ◆foreachwiinW‚从 W中选出 wi来 创建 W′i; ◆ 通过依次增加 wi 的候选词义 swi1‚…‚swil的一个词义‚来给 T创 建新表 T1′‚…‚T′l; ◆创建新节点 [W′i‚T′0 ]‚…‚[W′i‚ T′l]‚依次插入队列 Q′; Step3 根据 score(N)值将 Q′中的节点排序 Step4 if(WinQ′)=● 将 T作为最终的最佳词义序列‚运 算终止; else 从 Q′中取出前 K个节点‚插入到新 队列 Q‚然后返回 Step2; 5 词义消歧系统设计 本文设计并实现了一个日文词义消歧系统‚结 构模型如图 3所示.该系统包括五个子功能模块. 在训练和标注阶段‚每个模块将承担不同的角色. 图 3中灰色箭头标识模型训练过程‚白色箭头标识 词义标注过程. 图 3 日文词义消歧系统结构模型 Fig.3 StructuralmodeloftheJapaneseWSDsystem 下面详细介绍各个模块的功能. (1) 预处理模块 (formatter):主要任务是从不 同来源的文本中‚获取有关语言特征信息‚并按预定 的 XML格式整合在一起‚为后续的特征抽取做准 备.在训练阶段‚模块将逐一读入已标注的语料库 文本‚解析已标注好的特征信息;在标注阶段‚模块 则需要对用户输入的自由日文文本进行分词、词形 分析、词性标注、搭配抽取和 HPSG句法分析等语言 分析处理.定义语言分析深度‚依据这个度数来决 定模块进行特征抽取的范围.模块集成了多个第三 方日文分析工具‚如 Chasen、Mecab、PET、JACY和 HoG. (2) 特征抽取模块 (transformer):主要任务是 按照约定的特征定义进行特征抽取‚获取相应的特 征向量.该模块借用 Hinoki本体词典 [10]、Goi-Taikei 义类词典 [11]和停用词表等外部知识库资源‚在抽取 过程中起到扩展、抽象和过滤特征的作用.当然‚训 练阶段的特征抽取是在已知词义前提下进行的‚而 标注阶段是在未知目标词词义情况下进行.在词义 序列标注过程中‚逐渐将目标词上文的语义类特征 加入‚用于目标词义消歧. (3) 最大熵分类器模块 (classifier):主要任务 是通过训练获得最大熵模型‚以支持分类器在标注 阶段的计算.由于一般虚词 (如介词、语气词、连词 和助词 )出现的频次很大‚且对词义消歧的贡献甚 微.因而‚在训练阶段‚该模块按照日文五大词 性---名词 (noun)、动词 (verb)、动名词 (verbal noun)、形容词 (adjective)和副词 (adverb)构建相应 的最大熵模型‚对其他词性的词项将被忽略.训练 阶段的运算量非常巨大‚需要较长的脱机时间才能 完成建模任务‚此时程序的优化处理是非常必要的. 最大熵模型将成为下一步日文词义标注的知识库. ·267·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有