第 2期雷雪梅等：基于深层特征抽取的日文词义消歧系统输入：一个包含

正在加载图片...

第2期雷雪梅等：基于深层特征抽取的日文词义消歧系统 .267. 输入：一个包含n个词的句子. T门依次插入队列Q: 输出：n个词对应的n个词义标记，保存在T Step3根据scoe(N)值将Q中的节点排序中， Step 4 if (W in Q)- 算法：将T作为最终的最佳词义序列，运 Step1初始化：算终止；创建初始节点：T={、Wo={{、o= else [To,Wo]、K: 从Q中取出前K个节点，插入到新将节点N插入初始队列Q: 队列Q,然后返回Step2: Step 2 for each N in Q 5词义消歧系统设计 ◆for each w:nW,从W中选出w:来创建W: 本文设计并实现了一个日文词义消歧系统，结 ◆通过依次增加w:的候选词义构模型如图3所示，该系统包括五个子功能模块 …,s的一个词义，来给T创在训练和标注阶段，每个模块将承担不同的角色，建新表T,…,T 图3中灰色箭头标识模型训练过程，白色箭头标识 ◆创建新节点[WT6]…,[W 词义标注过程用户界面与预处理模块特征抽取模块评价模块 ChaSen PET 分析器n 特征定义标注语料库数据采集特征抽取本体词典义类词典目标文本整合数据特征向量分类器模块性能评价词义标注模块分类器（最大熵）解码器（束搜索算法）标注文本词义标注数据名词模型图3日文词义消歧系统结构模型 Fg 3 Stmuctunalmodel of the Japanese WSD system 下面详细介绍各个模块的功能过程中起到扩展、抽象和过滤特征的作用，当然，训 (1)预处理模块(fomatter):主要任务是从不练阶段的特征抽取是在已知词义前提下进行的，而同来源的文本中，获取有关语言特征信息，并按预定标注阶段是在未知目标词词义情况下进行，在词义的XML格式整合在一起，为后续的特征抽取做准序列标注过程中，逐渐将目标词上文的语义类特征备，在训练阶段，模块将逐一读入已标注的语料库加入，用于目标词义消歧文本，解析已标注好的特征信息；在标注阶段，模块 (3)最大熵分类器模块(classifier):主要任务则需要对用户输入的自由日文文本进行分词、词形是通过训练获得最大熵模型，以支持分类器在标注分析、词性标注、搭配抽取和HPG句法分析等语言阶段的计算，由于一般虚词（如介词、语气词、连词分析处理，定义语言分析深度，依据这个度数来决和助词)出现的频次很大，且对词义消歧的贡献甚定模块进行特征抽取的范围，模块集成了多个第三微.因而，在训练阶段，该模块按照日文五大词方日文分析工具，如Chasen,Mecab.PET、JACY和性一名词(noun)、动词(veb)、动名词(vepbal HoG. noun)、形容词(adjective)和副词(adveb)构建相应 (2)特征抽取模块(transfomer)):主要任务是的最大熵模型，对其他词性的词项将被忽略，训练按照约定的特征定义进行特征抽取，获取相应的特阶段的运算量非常巨大，需要较长的脱机时间才能征向量.该模块借用H inok本体词典o、Goi-Taikei 完成建模任务，此时程序的优化处理是非常必要的，义类词典山和停用词表等外部知识库资源，在抽取最大熵模型将成为下一步日文词义标注的知识库，第 2期雷雪梅等：基于深层特征抽取的日文词义消歧系统输入：一个包含ｎ个词的句子．输出：ｎ个词对应的ｎ个词义标记保存在Ｔ中．算法：Ｓｔｅｐ1 初始化：创建初始节点：Ｔ0 ＝｛｝、Ｗ0 ＝｛｝、Ｎ0＝［Ｔ0Ｗ0 ］、Ｋ；将节点Ｎ0插入初始队列Ｑ；Ｓｔｅｐ2 ｆｏｒｅａｃｈＮｉｎＱ ◆ｆｏｒｅａｃｈｗｉｉｎＷ从Ｗ中选出ｗｉ来创建Ｗ′ｉ； ◆ 通过依次增加ｗｉ的候选词义ｓｗｉ1…ｓｗｉｌ的一个词义来给Ｔ创建新表Ｔ1′…Ｔ′ｌ； ◆创建新节点［Ｗ′ｉＴ′0 ］…［Ｗ′ｉＴ′ｌ］依次插入队列Ｑ′；Ｓｔｅｐ3 根据ｓｃｏｒｅ（Ｎ）值将Ｑ′中的节点排序Ｓｔｅｐ4 ｉｆ（ＷｉｎＱ′）＝● 将Ｔ作为最终的最佳词义序列运算终止；ｅｌｓｅ从Ｑ′中取出前Ｋ个节点插入到新队列Ｑ然后返回Ｓｔｅｐ2； 5 词义消歧系统设计本文设计并实现了一个日文词义消歧系统结构模型如图 3所示．该系统包括五个子功能模块．在训练和标注阶段每个模块将承担不同的角色．图 3中灰色箭头标识模型训练过程白色箭头标识词义标注过程．图 3 日文词义消歧系统结构模型Ｆｉｇ．3 ＳｔｒｕｃｔｕｒａｌｍｏｄｅｌｏｆｔｈｅＪａｐａｎｅｓｅＷＳＤｓｙｓｔｅｍ下面详细介绍各个模块的功能．（1）预处理模块（ｆｏｒｍａｔｔｅｒ）：主要任务是从不同来源的文本中获取有关语言特征信息并按预定的ＸＭＬ格式整合在一起为后续的特征抽取做准备．在训练阶段模块将逐一读入已标注的语料库文本解析已标注好的特征信息；在标注阶段模块则需要对用户输入的自由日文文本进行分词、词形分析、词性标注、搭配抽取和ＨＰＳＧ句法分析等语言分析处理．定义语言分析深度依据这个度数来决定模块进行特征抽取的范围．模块集成了多个第三方日文分析工具如Ｃｈａｓｅｎ、Ｍｅｃａｂ、ＰＥＴ、ＪＡＣＹ和ＨｏＧ．（2）特征抽取模块（ｔｒａｎｓｆｏｒｍｅｒ）：主要任务是按照约定的特征定义进行特征抽取获取相应的特征向量．该模块借用Ｈｉｎｏｋｉ本体词典［10］、Ｇｏｉ-Ｔａｉｋｅｉ义类词典［11］和停用词表等外部知识库资源在抽取过程中起到扩展、抽象和过滤特征的作用．当然训练阶段的特征抽取是在已知词义前提下进行的而标注阶段是在未知目标词词义情况下进行．在词义序列标注过程中逐渐将目标词上文的语义类特征加入用于目标词义消歧．（3）最大熵分类器模块（ｃｌａｓｓｉｆｉｅｒ）：主要任务是通过训练获得最大熵模型以支持分类器在标注阶段的计算．由于一般虚词（如介词、语气词、连词和助词）出现的频次很大且对词义消歧的贡献甚微．因而在训练阶段该模块按照日文五大词性－－－名词（ｎｏｕｎ）、动词（ｖｅｒｂ）、动名词（ｖｅｒｂａｌｎｏｕｎ）、形容词（ａｄｊｅｃｔｉｖｅ）和副词（ａｄｖｅｒｂ）构建相应的最大熵模型对其他词性的词项将被忽略．训练阶段的运算量非常巨大需要较长的脱机时间才能完成建模任务此时程序的优化处理是非常必要的．最大熵模型将成为下一步日文词义标注的知识库． ·267·

<<向上翻页向下翻页>>

点击下载：基于深层特征抽取的日文词义消歧系统