正在加载图片...
,700 北京科技大学学报 第30卷 原统一多语 语义单元及 原库逐一加新库 去重复语义单元 其表示库 合并成为一个 及其表示 统一的库 去可弃语义单元 新多语 及其表示 用户原文 语义单 元及其 需非正常处理 Y 加注场所或领域或 表示库 包括歧义处理? 情景区分标志 基于多语语义单元 N 表示库的机器 翻译方法和系统 新多语 新多语语义单元 (可以采用已获得 语义单 表示库空香? 发明专利 元及其 (ZL01131689.6) 形成 新统一多语语义 表示库 的机器翻译方法 单元及其表示库 和系统) 单语或多语译文 图2将多个受限领域的语义单元子库合并生成统一的高质量的多语语义单元库过程 Fig.2 Merger of multiple semantic unit sub-bases of limited fields into a high quality semantic unit base 料中提取句子的完备语义单元集,并将它们通过消 义单元集中· 重复和去可弃后形成语义单元子库.其过程如图1 (8)〈检查该受限领域、场所、情景或者子领域 所示 内句子语料集是否均提取完; 2.1收集单一受限领域、场所、情景的完备的、无重 〈如果均已处理完就结束此过程进入整个子库 复的、正确的句子语料集 的消歧和消可弃处理,否则转(1)继续处理, 按照给定的受限领域或子领域的场所、情景收 例如: 集其完备的、无重复、正确的句子语料集,以及每一 (l)句子“陈先生是工程师"→“Mr,Chen is an 句严格对应的多自然语言的正确译文,语料集要尽 engineer”“陈之人(技师c寸”. 量覆盖给定的领域和场所、情景,收集时不仅需要 (2)提取了语义单元及其表示如图3.其中, 从该领域的相关书籍中收集,而且还需要从一般读 NOUN表示名词,NOUN{人}表示人的名词, 物、教科书等中收集.有关语料搜集的领域特征分 NOUN{职称}表示职称的名词,S表示句子,“语义 布将另文讨论 单元”列的数字代表语义单元序号,即语义单元本身 2.2在收集的语料集中逐句提取一个句义的语义 的“名字”;“参数数目与类型”列中的数字代表参数 单元及其在各语言中的表示 的个数,NOUN{人}、NOUN职称分别代表第1个 在收集的语料集中逐句提取一个句义的完备 和第2个参数的类型;语义单元表示列中的[r]代 的、无重复的、无可弃的语义单元集及其在各语言上 表语义单元的第r个参量;最后一列是该语义单元 的语义单元表示并形成初步子库的算法如下: 的类型. (1)(取一个句予 (③)检查其是否完备.取一个类型为句子的语 (2)(提取该句尽量多的语义单元及其多自然 义单元,如任取1、3、4和6号语义单元中的一个,根 语言上的表示, 据其参数类型,找该类型的语义单元进行代入,即代 (③)〈验证该句所提取的语义单元及其表示,进 入到该句的参量中,然后检查其结果是否就是原句 行代入检查其是否完备; 子,如果不是,继续找其他该类型的语义单元进行 〈如果不完备转(2),继续提取该句的语义单元 代入,一直到“其结果就是原句子”为止,如果找不 及其表示, 到,说明并非完备,继续找语义单元 (4)〈如果完备,对已经提取的本句的语义单元 (4)对已经提取的语言单元先按类型进行分 表示按语义单元的类型进行排序 类,再对参量个数进行分类,然后对每一类按一种表 (5)(对已经排序的语义单元集去重复 示进行排序(如果有参数,按非参数进行排序) (6)(对已经去重复的语义单元集进行去可弃 (5)在分类和排序之后,消去重复的语义单元 语义单元和没有用到的语义单元, 注意:两个语义单元重复是指其在所有的自然语言 (7)(将(6)的结果加入到前面处理过的句子语 上表示都一样;否则,仅在一些语言上表示“一样”不图2 将多个受限领域的语义单元子库合并生成统一的高质量的多语语义单元库过程 Fig.2 Merger of multiple semantic unit sub-bases of limited fields into a high-quality semantic unit base 料中提取句子的完备语义单元集‚并将它们通过消 重复和去可弃后形成语义单元子库.其过程如图1 所示. 2∙1 收集单一受限领域、场所、情景的完备的、无重 复的、正确的句子语料集 按照给定的受限领域或子领域的场所、情景收 集其完备的、无重复、正确的句子语料集‚以及每一 句严格对应的多自然语言的正确译文.语料集要尽 量覆盖给定的领域和场所、情景.收集时不仅需要 从该领域的相关书籍中收集‚而且还需要从一般读 物、教科书等中收集.有关语料搜集的领域特征分 布将另文讨论. 2∙2 在收集的语料集中逐句提取一个句义的语义 单元及其在各语言中的表示 在收集的语料集中逐句提取一个句义的完备 的、无重复的、无可弃的语义单元集及其在各语言上 的语义单元表示并形成初步子库的算法如下: (1)〈取一个句子〉. (2)〈提取该句尽量多的语义单元及其多自然 语言上的表示〉. (3)〈验证该句所提取的语义单元及其表示‚进 行代入检查其是否完备〉; 〈如果不完备转(2)‚继续提取该句的语义单元 及其表示〉. (4)〈如果完备‚对已经提取的本句的语义单元 表示按语义单元的类型进行排序〉. (5)〈对已经排序的语义单元集去重复〉. (6)〈对已经去重复的语义单元集进行去可弃 语义单元和没有用到的语义单元〉. (7)〈将(6)的结果加入到前面处理过的句子语 义单元集中〉. (8)〈检查该受限领域、场所、情景或者子领域 内句子语料集是否均提取完〉; 〈如果均已处理完就结束此过程进入整个子库 的消歧和消可弃处理‚否则转(1)继续处理〉. 例如: (1) 句子“陈先生是工程师”↔“Mr.Chen is an engineer”↔“陈さんは技师です”. (2) 提取了语义单元及其表示如图3.其中‚ NOUN 表 示 名 词‚NOUN{人}表 示 人 的 名 词‚ NOUN{职称}表示职称的名词‚S 表示句子.“语义 单元”列的数字代表语义单元序号‚即语义单元本身 的“名字”;“参数数目与类型”列中的数字代表参数 的个数‚NOUN{人}、NOUN{职称}分别代表第1个 和第2个参数的类型;语义单元表示列中的[ r ]代 表语义单元的第 r 个参量;最后一列是该语义单元 的类型. (3) 检查其是否完备.取一个类型为句子的语 义单元‚如任取1、3、4和6号语义单元中的一个‚根 据其参数类型‚找该类型的语义单元进行代入‚即代 入到该句的参量中‚然后检查其结果是否就是原句 子.如果不是‚继续找其他该类型的语义单元进行 代入‚一直到“其结果就是原句子”为止.如果找不 到‚说明并非完备‚继续找语义单元. (4) 对已经提取的语言单元先按类型进行分 类‚再对参量个数进行分类‚然后对每一类按一种表 示进行排序(如果有参数‚按非参数进行排序). (5) 在分类和排序之后‚消去重复的语义单元. 注意:两个语义单元重复是指其在所有的自然语言 上表示都一样;否则‚仅在一些语言上表示“一样”不 ·700· 北 京 科 技 大 学 学 报 第30卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有