D0I:10.13374/1.issnl00I103.2008.06.02I 第30卷第6期 北京科技大学学报 Vol.30 No.6 2008年6月 Journal of University of Science and Technology Beijing Jun.2008 多语言机译系统中高质量语义单元库形成方法 胡玥高小宇 高庆狮 北京科技大学信息工程学院,北京100083 摘要讨论构建多自然语言互译机译系统所需的高质量、可扩充、完备的、无可弃、无重复、无非正常歧义的多语统一语义 单元知识库·在构建过程中采用类型特征分类方法有效降低计算复杂性,使去重复的计算量降低一半,去可弃的计算量降到 O(N)(N是语义单元库规模,P是有界数,B<C,C是常数):全部算法都可以在多核处理机上以常数效率地实现.同时讨 论了语义单元的再分解和自然语言种类的增多时语义单元知识库的扩充方法:该知识库不仅用于多自然语言互译系统,还可 作为自然语言理解和处理的基础知识库. 关键词自然语言处理系统:自然语言:机器翻译:语义单元 分类号TP391.1 Formation method of a high-quality semantic unit base for a multi-language ma- chine translation system HU Yue,GAO Xiaoyu,GAO Qingshi School of Information Engineering.University of Science and Technology Beijing.Beijing 100083.China ABSTRACT Building up a high-quality,expandable,complete.free-discardable.free-of-repetition and free-of-abnormal-ambiguity multi-language semantic unit knowledge base for a multi-language machine translation system was discussed.In the process of buildup,the type feature classification method was adopted o effectively reduce the calculation complexity,make the calculation for repetition removal reduced by half,and reduce the trash-removal calculation to 0(BN),where N is the scale of the semantic unit knowledge base.B is bounded.C and C is a constant.All algorithms can be concurrently realized on a multi-"core processor in constant efficiency.Furthermore,the re-decomposition of a semantic unit and the expansion methods for the semantic unit knowledge base in case of natural language type increase were also discussed.This knowledge base can be used not only for the multi-language machine translation system but also as the basic knowledge base for natural language understanding and processing. KEY WORDS natural language processing system:natural language;machine translation;semantic unit 在语义语言理论中,两种自然语言(1,J)的句 种语言表示, 子或者文本的翻译可以通过两步来实现].第1 基于语义语言的多语互译机译系统由两部分组 步,把自然语言【通过“在自然语言【上的语义分 成,一是统一的多自然语言语机器翻译软件;另一个 析”求出“句义表达式”.该过程可以通过语义单元 是高质量可扩充的、完备的、无可弃的、无重复的、无 树的特殊剪枝来实现,第2步,把句义表达式通过 非正常歧义的多语语义单元知识库, 简单地“在自然语言J上的代入展开”成为自然语 目前,一般的双语或多语词典其对应关系都是 言J的句子或者文本,在这步中,用基于语义语言 建立在词的基础上的,没有语义单元的对应关系, 学的翻译方法可方便地将句义表达式同时展开成多 无法满足基于语义语言的多语互译要求, 本文将讨论在语义语言理论和方法的基础上, 收稿日期:2007-12-09修回日期:2008-01-28 如何从受限领域、场所、情景中提取无可弃、无重复、 基金项目:国家高技术研究发展计划资助项目(N。 无歧义的多语的语义单元,和如何将所提取的语义 2006AA01Z140,No.2006AA010101):国家自然科学基金资助项目 单元有效地构成一个高质量、可扩充、完备的、无可 (No.60736014) 作者简介:胡玥(1963-)女,副教授,博士, 弃、无重复、无非正常歧义的统一的多语语义单元知 E-mail:huhuyue-001@sina.com 识库,且基于该语义单元知识库的多语翻译系统的
多语言机译系统中高质量语义单元库形成方法 胡 高小宇 高庆狮 北京科技大学信息工程学院北京100083 摘 要 讨论构建多自然语言互译机译系统所需的高质量、可扩充、完备的、无可弃、无重复、无非正常歧义的多语统一语义 单元知识库.在构建过程中采用类型特征分类方法有效降低计算复杂性使去重复的计算量降低一半去可弃的计算量降到 O(βN)( N 是语义单元库规模β是有界数β< CC 是常数).全部算法都可以在多核处理机上以常数效率地实现.同时讨 论了语义单元的再分解和自然语言种类的增多时语义单元知识库的扩充方法.该知识库不仅用于多自然语言互译系统还可 作为自然语言理解和处理的基础知识库. 关键词 自然语言处理系统;自然语言;机器翻译;语义单元 分类号 TP391∙1 Formation method of a high-quality semantic unit base for a mult-i language machine translation system HU Y ueGA O XiaoyuGA O Qingshi School of Information EngineeringUniversity of Science and Technology BeijingBeijing100083China ABSTRACT Building up a high-qualityexpandablecompletefree-discardablefree-of-repetition and free-of-abnorma-l ambiguity mult-i language semantic unit knowledge base for a mult-i language machine translation system was discussed.In the process of buildupthe type feature classification method was adopted o effectively reduce the calculation complexitymake the calculation for repetition removal reduced by halfand reduce the trash-removal calculation to O(βN)where N is the scale of the semantic unit knowledge baseβis boundedβ< C and C is a constant.All algorithms can be concurrently realized on a mult-i core processor in constant efficiency.Furthermorethe re-decomposition of a semantic unit and the expansion methods for the semantic unit knowledge base in case of natural language type increase were also discussed.T his knowledge base can be used not only for the mult-i language machine translation system but also as the basic knowledge base for natural language understanding and processing. KEY WORDS natural language processing system;natural language;machine translation;semantic unit 收稿日期:2007-12-09 修回日期:2008-01-28 基金 项 目: 国 家 高 技 术 研 究 发 展 计 划 资 助 项 目 ( No. 2006AA01Z140No.2006AA010101);国家自然科学基金资助项目 (No.60736014) 作者简介:胡 (1963—)女副教授博士 E-mail:huhuyue—001@sina.com 在语义语言理论中两种自然语言( IJ)的句 子或者文本的翻译可以通过两步来实现[1—5].第1 步把自然语言 I 通过“在自然语言 I 上的语义分 析”求出“句义表达式”.该过程可以通过语义单元 树的特殊剪枝来实现.第2步把句义表达式通过 简单地“在自然语言 J 上的代入展开”成为自然语 言 J 的句子或者文本.在这步中用基于语义语言 学的翻译方法可方便地将句义表达式同时展开成多 种语言表示. 基于语义语言的多语互译机译系统由两部分组 成一是统一的多自然语言语机器翻译软件;另一个 是高质量可扩充的、完备的、无可弃的、无重复的、无 非正常歧义的多语语义单元知识库. 目前一般的双语或多语词典其对应关系都是 建立在词的基础上的.没有语义单元的对应关系 无法满足基于语义语言的多语互译要求. 本文将讨论在语义语言理论和方法的基础上 如何从受限领域、场所、情景中提取无可弃、无重复、 无歧义的多语的语义单元和如何将所提取的语义 单元有效地构成一个高质量、可扩充、完备的、无可 弃、无重复、无非正常歧义的统一的多语语义单元知 识库.且基于该语义单元知识库的多语翻译系统的 第30卷 第6期 2008年 6月 北 京 科 技 大 学 学 报 Journal of University of Science and Technology Beijing Vol.30No.6 Jun.2008 DOI:10.13374/j.issn1001-053x.2008.06.021
第6期 胡玥等:多语言机译系统中高质量语义单元库形成方法 .699 翻译复杂性保持在0(L)可,与其巨大的语义单元 单个的“times'”这个词按词为基本单位时即可以当 库的大小无关,其中L是被翻译内容的长度, “倍”又可以当“乘”会引起歧义,但以语义单元为基 1统一的多语语义单元知识库 本单位划分时,“倍”和“乘”就可以区分.当“倍”时 语义单元为?number)times”,当“乘”时语义单元 不同自然语言可以互译是因为它们的句子有相 为?number)times〈number)”.非正常歧义是指本 同语义·句子的语义称为句义(SS)·句义内表达一 可区分,但由于判定时少某些知识造成的假歧义 个意思的单元称为语义单元(SU)].语义单元在 如,“register”作为名词,可以是计算机领域中的“寄 一个自然语言I(如,英语、汉语等)上的表示称为语 存器”也可以是入住旅馆的“入住登记”如果不加领 义单元表示(R$U),从这个角度来看,句子是由带 域、场所、情景的区分,就会出现歧义 变量和不带变量的语义单元表示通过代入而构 “正常歧义”是指语言本身存在的固有的无法区 成的, 分的真歧义, 统一的多语语义单元知识库是按语义语言理 “知识库无假歧义和非正常歧义”是指本知识库 论]建立的以语义单元为基本单位的多语知识 通过以语义单元为基本单位消除了假歧义,同时通 库.该库具有句子完备、无可弃、无重复、无假歧义 过引入领域、场所或情景等相关参量解决了非正常 和非正常歧义、可扩充的特性,其中,句子完备是指 歧义问题 句子的“语义单元集是完备的”,即通过该语义单元 “知识库可扩充”是指该库不仅对不同的领域、 集之中的语义单元的代入,可以形成该句 场所、情景可进行扩充,还可加入不同种类的语言, “无可弃”是指不能通过其他语义单元代入产生 且整个系统在加入一种语言后不需要修改算法和程 的语义单元称为基本语义单元或不可弃语义单元, 序就能实现该语的翻译 “知识库无可弃”是指语义单元知识库中的单元均为 库的构建过程为,逐一从单个受限领域、场所或 基本语义单元 情景的语料中提取语义单元,并构建该领域的完备 “无假歧义和非正常歧义”是指:一般来讲广义 的、无重复的、无可弃的多语语义单元子库.,然后将 歧义包括假歧义、非正常歧义(即可区分的准歧义) 不断增加的子库合并,再不断增加自然语言的种类, 和正常歧义(即不可区分的真歧义)·其中,假歧义 最后构造出统一的、多自然语言语义单元知识库, 是指基本语言单位划分不正确引起的歧义,例如, 其形成过程如图1和图2所示, 取一个句子或术语 用户原文 受限领域语言知 提取该句的语义单元及 消去全部重复的语义 受限领域 其双语或者多语表示 单元及其表示 语或 基于多语语义单元 表示库的机器 翻译方法和系统 验证该句所提取的语义N 形成 (可以采用已获得 单元及其表示是否完备? 消去全部可弃语义 例 单元及其表示 Y 语语义单 发明专利 (ZL01131689.6) 奥运会 消去该句全部重复可弃 多余语义单元及其表示 表示库 的机器翻译方法 和系统) 全部句子和术语 N 处理结束否? 单或多语翻译 Y 图1一个受限领域或子领域的多语语义单元库的形成过程 Fig.I Formation process of the multi-language semantic unit representative base of limited fields or subfields 2单一受限领域、场所、情景的完备、无可 然科学领域与社会科学领域,自然科学领域又分为 数、理、化、天、地、生、技术科学.数学又分许多分 弃、无重复的多语语义单元子库的形成 枝,每个分枝还可以再分;又如场所分为:公园、学 过程 校、车站、等等,学校又可以再分为教室、实验室、体 人们容易误认为领域、场所或情景只有数十种, 育馆、操场、老师办公室、校长办公室等;教室又可以 其实不然,领域、场所情景是数以百计、千计的,如 分为讲课、辅导、讨论、辩论、开会、打扫等不同情景, 科技领域分科学领域与技术领域.科学领域又分自 本节讨论如何从单个受限领域、场所或者情景的语
翻译复杂性保持在 O( L ) [5]与其巨大的语义单元 库的大小无关其中 L 是被翻译内容的长度. 1 统一的多语语义单元知识库 不同自然语言可以互译是因为它们的句子有相 同语义.句子的语义称为句义(SS).句义内表达一 个意思的单元称为语义单元(SU) [1—2].语义单元在 一个自然语言 I(如英语、汉语等)上的表示称为语 义单元表示(RISU).从这个角度来看句子是由带 变量和不带变量的语义单元表示通过代入而构 成的. 统一的多语语义单元知识库是按语义语言理 论[1—3]建立的以语义单元为基本单位的多语知识 库.该库具有句子完备、无可弃、无重复、无假歧义 和非正常歧义、可扩充的特性.其中句子完备是指 句子的“语义单元集是完备的”即通过该语义单元 集之中的语义单元的代入可以形成该句. “无可弃”是指不能通过其他语义单元代入产生 的语义单元称为基本语义单元或不可弃语义单元 “知识库无可弃”是指语义单元知识库中的单元均为 基本语义单元. “无假歧义和非正常歧义”是指:一般来讲广义 歧义包括假歧义、非正常歧义(即可区分的准歧义) 和正常歧义(即不可区分的真歧义).其中假歧义 是指基本语言单位划分不正确引起的歧义.例如 单个的“times”这个词按词为基本单位时即可以当 “倍”又可以当“乘”会引起歧义.但以语义单元为基 本单位划分时“倍” 和“乘”就可以区分.当“倍”时 语义单元为“〈number〉times”当“乘”时语义单元 为“〈number〉times〈number〉”.非正常歧义是指本 可区分但由于判定时少某些知识造成的假歧义 如“register”作为名词可以是计算机领域中的“寄 存器”也可以是入住旅馆的“入住登记” 如果不加领 域、场所、情景的区分就会出现歧义. “正常歧义”是指语言本身存在的固有的无法区 分的真歧义. “知识库无假歧义和非正常歧义”是指本知识库 通过以语义单元为基本单位消除了假歧义同时通 过引入领域、场所或情景等相关参量解决了非正常 歧义问题. “知识库可扩充”是指该库不仅对不同的领域、 场所、情景可进行扩充还可加入不同种类的语言 且整个系统在加入一种语言后不需要修改算法和程 序就能实现该语的翻译. 库的构建过程为逐一从单个受限领域、场所或 情景的语料中提取语义单元并构建该领域的完备 的、无重复的、无可弃的多语语义单元子库.然后将 不断增加的子库合并再不断增加自然语言的种类 最后构造出统一的、多自然语言语义单元知识库. 其形成过程如图1和图2所示. 图1 一个受限领域或子领域的多语语义单元库的形成过程 Fig.1 Formation process of the mult-i language semantic unit representative base of limited fields or sub-fields 2 单一受限领域、场所、情景的完备、无可 弃、无重复的多语语义单元子库的形成 过程 人们容易误认为领域、场所或情景只有数十种. 其实不然领域、场所情景是数以百计、千计的.如 科技领域分科学领域与技术领域.科学领域又分自 然科学领域与社会科学领域.自然科学领域又分为 数、理、化、天、地、生、技术科学.数学又分许多分 枝每个分枝还可以再分;又如场所分为:公园、学 校、车站、等等.学校又可以再分为教室、实验室、体 育馆、操场、老师办公室、校长办公室等;教室又可以 分为讲课、辅导、讨论、辩论、开会、打扫等不同情景. 本节讨论如何从单个受限领域、场所或者情景的语 第6期 胡 等: 多语言机译系统中高质量语义单元库形成方法 ·699·
,700 北京科技大学学报 第30卷 原统一多语 语义单元及 原库逐一加新库 去重复语义单元 其表示库 合并成为一个 及其表示 统一的库 去可弃语义单元 新多语 及其表示 用户原文 语义单 元及其 需非正常处理 Y 加注场所或领域或 表示库 包括歧义处理? 情景区分标志 基于多语语义单元 N 表示库的机器 翻译方法和系统 新多语 新多语语义单元 (可以采用已获得 语义单 表示库空香? 发明专利 元及其 (ZL01131689.6) 形成 新统一多语语义 表示库 的机器翻译方法 单元及其表示库 和系统) 单语或多语译文 图2将多个受限领域的语义单元子库合并生成统一的高质量的多语语义单元库过程 Fig.2 Merger of multiple semantic unit sub-bases of limited fields into a high quality semantic unit base 料中提取句子的完备语义单元集,并将它们通过消 义单元集中· 重复和去可弃后形成语义单元子库.其过程如图1 (8)〈检查该受限领域、场所、情景或者子领域 所示 内句子语料集是否均提取完; 2.1收集单一受限领域、场所、情景的完备的、无重 〈如果均已处理完就结束此过程进入整个子库 复的、正确的句子语料集 的消歧和消可弃处理,否则转(1)继续处理, 按照给定的受限领域或子领域的场所、情景收 例如: 集其完备的、无重复、正确的句子语料集,以及每一 (l)句子“陈先生是工程师"→“Mr,Chen is an 句严格对应的多自然语言的正确译文,语料集要尽 engineer”“陈之人(技师c寸”. 量覆盖给定的领域和场所、情景,收集时不仅需要 (2)提取了语义单元及其表示如图3.其中, 从该领域的相关书籍中收集,而且还需要从一般读 NOUN表示名词,NOUN{人}表示人的名词, 物、教科书等中收集.有关语料搜集的领域特征分 NOUN{职称}表示职称的名词,S表示句子,“语义 布将另文讨论 单元”列的数字代表语义单元序号,即语义单元本身 2.2在收集的语料集中逐句提取一个句义的语义 的“名字”;“参数数目与类型”列中的数字代表参数 单元及其在各语言中的表示 的个数,NOUN{人}、NOUN职称分别代表第1个 在收集的语料集中逐句提取一个句义的完备 和第2个参数的类型;语义单元表示列中的[r]代 的、无重复的、无可弃的语义单元集及其在各语言上 表语义单元的第r个参量;最后一列是该语义单元 的语义单元表示并形成初步子库的算法如下: 的类型. (1)(取一个句予 (③)检查其是否完备.取一个类型为句子的语 (2)(提取该句尽量多的语义单元及其多自然 义单元,如任取1、3、4和6号语义单元中的一个,根 语言上的表示, 据其参数类型,找该类型的语义单元进行代入,即代 (③)〈验证该句所提取的语义单元及其表示,进 入到该句的参量中,然后检查其结果是否就是原句 行代入检查其是否完备; 子,如果不是,继续找其他该类型的语义单元进行 〈如果不完备转(2),继续提取该句的语义单元 代入,一直到“其结果就是原句子”为止,如果找不 及其表示, 到,说明并非完备,继续找语义单元 (4)〈如果完备,对已经提取的本句的语义单元 (4)对已经提取的语言单元先按类型进行分 表示按语义单元的类型进行排序 类,再对参量个数进行分类,然后对每一类按一种表 (5)(对已经排序的语义单元集去重复 示进行排序(如果有参数,按非参数进行排序) (6)(对已经去重复的语义单元集进行去可弃 (5)在分类和排序之后,消去重复的语义单元 语义单元和没有用到的语义单元, 注意:两个语义单元重复是指其在所有的自然语言 (7)(将(6)的结果加入到前面处理过的句子语 上表示都一样;否则,仅在一些语言上表示“一样”不
图2 将多个受限领域的语义单元子库合并生成统一的高质量的多语语义单元库过程 Fig.2 Merger of multiple semantic unit sub-bases of limited fields into a high-quality semantic unit base 料中提取句子的完备语义单元集并将它们通过消 重复和去可弃后形成语义单元子库.其过程如图1 所示. 2∙1 收集单一受限领域、场所、情景的完备的、无重 复的、正确的句子语料集 按照给定的受限领域或子领域的场所、情景收 集其完备的、无重复、正确的句子语料集以及每一 句严格对应的多自然语言的正确译文.语料集要尽 量覆盖给定的领域和场所、情景.收集时不仅需要 从该领域的相关书籍中收集而且还需要从一般读 物、教科书等中收集.有关语料搜集的领域特征分 布将另文讨论. 2∙2 在收集的语料集中逐句提取一个句义的语义 单元及其在各语言中的表示 在收集的语料集中逐句提取一个句义的完备 的、无重复的、无可弃的语义单元集及其在各语言上 的语义单元表示并形成初步子库的算法如下: (1)〈取一个句子〉. (2)〈提取该句尽量多的语义单元及其多自然 语言上的表示〉. (3)〈验证该句所提取的语义单元及其表示进 行代入检查其是否完备〉; 〈如果不完备转(2)继续提取该句的语义单元 及其表示〉. (4)〈如果完备对已经提取的本句的语义单元 表示按语义单元的类型进行排序〉. (5)〈对已经排序的语义单元集去重复〉. (6)〈对已经去重复的语义单元集进行去可弃 语义单元和没有用到的语义单元〉. (7)〈将(6)的结果加入到前面处理过的句子语 义单元集中〉. (8)〈检查该受限领域、场所、情景或者子领域 内句子语料集是否均提取完〉; 〈如果均已处理完就结束此过程进入整个子库 的消歧和消可弃处理否则转(1)继续处理〉. 例如: (1) 句子“陈先生是工程师”↔“Mr.Chen is an engineer”↔“陈さんは技师です”. (2) 提取了语义单元及其表示如图3.其中 NOUN 表 示 名 词NOUN{人}表 示 人 的 名 词 NOUN{职称}表示职称的名词S 表示句子.“语义 单元”列的数字代表语义单元序号即语义单元本身 的“名字”;“参数数目与类型”列中的数字代表参数 的个数NOUN{人}、NOUN{职称}分别代表第1个 和第2个参数的类型;语义单元表示列中的[ r ]代 表语义单元的第 r 个参量;最后一列是该语义单元 的类型. (3) 检查其是否完备.取一个类型为句子的语 义单元如任取1、3、4和6号语义单元中的一个根 据其参数类型找该类型的语义单元进行代入即代 入到该句的参量中然后检查其结果是否就是原句 子.如果不是继续找其他该类型的语义单元进行 代入一直到“其结果就是原句子”为止.如果找不 到说明并非完备继续找语义单元. (4) 对已经提取的语言单元先按类型进行分 类再对参量个数进行分类然后对每一类按一种表 示进行排序(如果有参数按非参数进行排序). (5) 在分类和排序之后消去重复的语义单元. 注意:两个语义单元重复是指其在所有的自然语言 上表示都一样;否则仅在一些语言上表示“一样”不 ·700· 北 京 科 技 大 学 学 报 第30卷
第6期 胡玥等:多语言机译系统中高质量语义单元库形成方法 701. 是重复,而是在那些自然语言上存在歧义 语义单元 参数数目与类型 语义单元的汉语表示 语义单元的英语表示 语义单元的日语表示 类型 1(NOUNI职称}) 1,NOUN 1职称f 陈先生是[1] Mr.Chen is an[1] 陈各人[1]心寸 0 工程师 engineer 技师 NOUN{职称 3(NOUNI人) 1,NOUN I人} [1]是工程师 [1]is an engineer [1]I技师c方 4(NOUN人, 2,NOUN人t, [1]是[2] [1]isa[2] [1][2]c寸 NOUN I职称I) NOUN1职称 0 陈先生 Mr.Chen 陈各人 NOUN 1人 0 陈先生是工程师 Mr.Chen is an engineer 陈兰人!士技师G寸 0 先生 Mr. 色人 NOUN称谓 图3语义单元及其表达 Fig.3 Semantic units and their representations (6)去可弃可先从参数少的语义单元入手,假 后,处理带t十1个参数的语义单元,直到带参数的 设单个语义单元最多有k个参数,取有t=1(t≤k) 语义单元全部处理完毕,如在例子中,先从参量个 个参数的语义单元,代入类型为该参数类型的语义 数为1的“1”入手,当“2”代入“1”后“6”就被去掉; 单元,然后检查是否有语义单元与其相同.如果有, 再处理参数个数为2的“4”,当“5”代入“4”后,“1"就 就清除与其相同的语义单元:如果代入的语义单元 可以去掉;“2”代入“4”后,“3”就可以去掉.显然,7 还带参数,也需要代入类型为该参数类型的语义单 个语义单元只剩下如图4所示的4个 元进行检查,所有的带t个参数的语义单元处理完 语义单元 参数数目与类型 语义单元的汉语表示 语义单元的英语表示 语义单元的日语表示 类型 2 0 工程师 engineer 技师 NOUN职称 4(NOUN I人}, 2,N人,N{职称} [1]是[2] [1]isa[2] [1][2]c寸 NOUN{职称) 陈先生 Mr.Chen 陈总人 NOUN人} 先生 Mr. 色人 NOUN I称谓! 图4语义单元及其表达 Fig.4 Semantic units and their representations “7”虽然没有被证明可弃,但是代入生成句子过 单元只剩下如图5所示的3个,重新编号取名. 程中没有被用到,也必须去掉.这样一来,7个语义 语义单元 参数数目与类型 语义单元的汉语表示 语义单元的英语表示 语义单元的日语表示 类型 1(NoUN人}, 2,NOUN I人{, NOUN1职称) NOUN1职称! [1]是[2] [1]isa[2] [1][2]c寸 0 工程师 engineer 技师 NOUN I职称} 陈先生 Mr.Chen 陈总人 NOUN1人} 图5语义单元及其表达 Fig-5 Semantic units and their representations (7)将本句提取的语义单元集加到前面生成的 情景的句子全部处理完 语义单元集中,逐步形成该领域或者子领域、场所、 2.3对生成的语义单元子库进行去重复、去可弃 情景下的语义单元知识子库, 对前面生成的受限领域语义单元子库需进一步 (⑧)检查该受限领域、场所、情景、或者子领域 进行去重复和去可弃处理, 内,句子是否取完,如果均已处理完就结束此过程 (1)去重复处理.对子库中的全部语义单元集 进入整个子库的消歧和消可弃处理(参见2.3节): 进行去重复处理仍是先对全部语义单元按语义单元 否则转到步骤(1)继续处理下句,直到该领域、场所、 类型进行分类,然后进行排序去重复,但要注意:两
是重复而是在那些自然语言上存在歧义. 语义单元 1(NOUN{职称}) 2 3(NOUN{人}) 4(NOUN{人} NOUN{职称}) 5 6 7 参数数目与类型 语义单元的汉语表示 语义单元的英语表示 语义单元的日语表示 类型 1NOUN{职称} 陈先生是[1] Mr.Chen is an[1] 陈さんは[1]です S 0 工程师 engineer 技师 NOUN{职称} 1NOUN{人} [1] 是工程师 [1] is an engineer [1]は技师です S 2NOUN{人} NOUN{职称} [1] 是 [2] [1] is a [2] [1]は[2]です S 0 陈先生 Mr.Chen 陈さん NOUN{人} 0 陈先生是工程师 Mr.Chen is an engineer 陈さんは技师です S 0 先生 Mr. さん NOUN{称谓} 图3 语义单元及其表达 Fig.3 Semantic units and their representations (6) 去可弃可先从参数少的语义单元入手.假 设单个语义单元最多有 k 个参数取有 t=1( t≤k) 个参数的语义单元代入类型为该参数类型的语义 单元然后检查是否有语义单元与其相同.如果有 就清除与其相同的语义单元;如果代入的语义单元 还带参数也需要代入类型为该参数类型的语义单 元进行检查.所有的带 t 个参数的语义单元处理完 后处理带 t+1个参数的语义单元直到带参数的 语义单元全部处理完毕.如在例子中先从参量个 数为1的“1” 入手当“2”代入“1”后“6”就被去掉; 再处理参数个数为2的“4”当“5”代入“4”后“1”就 可以去掉;“2”代入“4”后“3”就可以去掉.显然7 个语义单元只剩下如图4所示的4个. 语义单元 2 4(NOUN{人} NOUN{职称}) 5 7 参数数目与类型 语义单元的汉语表示 语义单元的英语表示 语义单元的日语表示 类型 0 工程师 engineer 技师 NOUN{职称} 2N{人}N{职称} [1] 是 [2] [1] is a [2] [1]は[2]です S 0 陈先生 Mr.Chen 陈さん NOUN{人} 0 先生 Mr. さん NOUN{称谓} 图4 语义单元及其表达 Fig.4 Semantic units and their representations “7”虽然没有被证明可弃但是代入生成句子过 程中没有被用到也必须去掉.这样一来7个语义 单元只剩下如图5所示的3个重新编号取名. 语义单元 1(NOUN{人} NOUN{职称}) 2 3 参数数目与类型 语义单元的汉语表示 语义单元的英语表示 语义单元的日语表示 类型 2NOUN{人} NOUN{职称} [1] 是 [2] [1] is a [2] [1]は[2]です S 0 工程师 engineer 技师 NOUN{职称} 0 陈先生 Mr.Chen 陈さん NOUN{人} 图5 语义单元及其表达 Fig.5 Semantic units and their representations (7) 将本句提取的语义单元集加到前面生成的 语义单元集中逐步形成该领域或者子领域、场所、 情景下的语义单元知识子库. (8) 检查该受限领域、场所、情景、或者子领域 内句子是否取完.如果均已处理完就结束此过程 进入整个子库的消歧和消可弃处理(参见2∙3节); 否则转到步骤(1)继续处理下句直到该领域、场所、 情景的句子全部处理完. 2∙3 对生成的语义单元子库进行去重复、去可弃 对前面生成的受限领域语义单元子库需进一步 进行去重复和去可弃处理. (1) 去重复处理.对子库中的全部语义单元集 进行去重复处理仍是先对全部语义单元按语义单元 类型进行分类然后进行排序去重复.但要注意:两 第6期 胡 等: 多语言机译系统中高质量语义单元库形成方法 ·701·
,702 北京科技大学学报 第30卷 个语义单元重复是指它们在所有的自然语言上表示 采用特征分类法后整个语义单元知识库的处理效率 都一样,若只是在某些语言上的表示相同而在另一 将大大提高, 些语言上表示中不同,则它们不是重复的语义单元, 3,2特征分类下的去重复、去可弃 而是在相同表示的语言上存在歧义,需进行消歧 (1)特征分类下的去重复.对整个语义单元库 处理, 去重复时,如果采用2.3节中处理子库的去重复算 (2)去可弃处理,对子库中的全部语义单元集 法,则其计算复杂性是串行排序复杂性O(NbN), 进行去可弃处理与对单个句子的语义单元集去可弃 其中N是语义单元集的大小,由于整体库的规模 处理类似,但对子库处理的数据规模远远大于单句 远远大于各子库的规模,采用此方法效率较低 语义单元集.假设语义单元的所有的参数类型与语 采用特征分类法后去重复计算复杂性可以降低 义单元本身类型不同,而且其参数个数最多k个, 到O(NhM),其中N=KM,K是类别数量,M是 一般k≤4. 每一类的平均大小.例如,N=2×105,K=1000, 先从参数个数t=1(t≤k)的语义单元入手,代 M=1000,排序计算量可以降低一半.各个不同特 入类型为该参数类型的语义单元,然后检查是否有 征分类之间还可以并行计算(见3.3节) 语义单元与其相同,如果有,就清除与其相同的语 (2)特征分类下的去可弃.对整个语义单元库 义单元:如果代入的语义单元本身还带参数,也需要 去可弃时,如果采用2.3节的处理子库的去可弃算 代入类型为该参数类型的语义单元进行检查,所有 法,则数百万语义单元集合去可弃在一般非高性能 的带t个参数的语义单元处理完之后,处理带t= 计算机上的处理时间过长,采用特征分类法后由于 t十1个参数的语义单元,直到带有参数的语义单元 各个不同特征分类集合中各自进行排序消去,其计 全部处理完毕,为简化讨论,假设卫:是参数个数为 算复杂性可大幅度降低,具体方法是:从t=1开 k中的参数类型为i类型的语义单元个数的平均值, 始,对各个不同特征的分类集合中的语义单元,进行 在没有循环代入的情况下其去可弃计算复杂性为 代入和比较,消去t=0及t=1中的可弃语义单元. O(NN':),其中,N是语义单元集的大小,N'是 消去比较过程中,不仅充分利用特征分类大幅度地 带有参数的语义单元个数;卫:是参数个数为k中的 缩小比较的计算量,而且充分利用“可能被消去的语 参数类型为i类型的平均语义单元个数:如果语义 义单元的长度,等于被代入的语义单元长度加所代 单元的某个参数类型与语义单元本身类型相同,需 入的各个参量的语义单元长度减1”的这个特点,将 要引入长度控制机制,避免出现无限循环响计算复 搜索限制在一定长度的语义单元子集中,从而进一 杂性 步大幅度降低计算量 3将多个受限领域、场所、情景的完备的、无 (3)特征分类下的的目标驱动法去可弃,在采 可弃、无重复的多语语义单元子库进行合 用特征分类的情况下,还可以进一步采用以下“目标 驱动”"方法,从语义单元参数个数t=1入手,根据 并形成统一的多语语义单元知识库 参数在语义单元表示中位置,通过左串、右串及左右 将多个受限领域的多语语义单元子库进行合 串与t=0中的同特征分类单元进行匹配,寻找t= 并,并消除非正常歧义,形成高质量的统一多语语义 0中及部分t=1中的可弃语义单元,不需要全部进 单元知识库过程,如图2所示. 行代入·匹配方法可以采用类似子树剪枝法可.对 统一的多语语义单元知识库的形成过程中最主 t=2的处理,与t=1类似,只是位置结构复杂一 要的工作是对数量巨大(数百万)的语义单元及其表 些,同时寻找的可弃语义单元,不仅在t=1及部分 示去重复、去可弃和对非正常歧义进行消歧处理, t=2的单元中,而且也可能在t=0的单元中.对 由于处理数据量巨大,在处理过程中引入了降低计 >2的单元处理类似.由于计算量依赖于同特征分 算量的有效方法—特征分类法 类下可弃语义单元的数量,而不是搜索整个库中所 3.1特征分类 有的可能代入,所以计算复杂性还可以进一步下降. 语义单元及其表示有许多重要的特征,如语义 综上所述,采用特征分类法和目标驱动法后,其 单元的类型、参量的数目、各参量的类型或语义单元 计算复杂性已由原来的O(NNV:),降低到小于 类型的逻辑:特征分类是指综合语义单元的众多特 等于0(NMbm+ 征采用的均匀分类方法,语义单元类型数目根据粗 宫usem)产0(Nbm十 细可小可大,如果某类型比较大,就可以再细分 Nam)=O(Nam)=O(BN),其中U是参数
个语义单元重复是指它们在所有的自然语言上表示 都一样.若只是在某些语言上的表示相同而在另一 些语言上表示中不同则它们不是重复的语义单元 而是在相同表示的语言上存在歧义需进行消歧 处理. (2) 去可弃处理.对子库中的全部语义单元集 进行去可弃处理与对单个句子的语义单元集去可弃 处理类似但对子库处理的数据规模远远大于单句 语义单元集.假设语义单元的所有的参数类型与语 义单元本身类型不同而且其参数个数最多 k 个 一般 k≤4. 先从参数个数 t=1( t≤k)的语义单元入手代 入类型为该参数类型的语义单元然后检查是否有 语义单元与其相同.如果有就清除与其相同的语 义单元;如果代入的语义单元本身还带参数也需要 代入类型为该参数类型的语义单元进行检查所有 的带 t 个参数的语义单元处理完之后处理带 t= t+1个参数的语义单元直到带有参数的语义单元 全部处理完毕.为简化讨论假设 V ki是参数个数为 k 中的参数类型为 i 类型的语义单元个数的平均值 在没有循环代入的情况下其去可弃计算复杂性为 O( NN′V k ki)其中N 是语义单元集的大小N′是 带有参数的语义单元个数;V ki是参数个数为 k 中的 参数类型为 i 类型的平均语义单元个数;如果语义 单元的某个参数类型与语义单元本身类型相同需 要引入长度控制机制避免出现无限循环响计算复 杂性. 3 将多个受限领域、场所、情景的完备的、无 可弃、无重复的多语语义单元子库进行合 并形成统一的多语语义单元知识库 将多个受限领域的多语语义单元子库进行合 并并消除非正常歧义形成高质量的统一多语语义 单元知识库过程如图2所示. 统一的多语语义单元知识库的形成过程中最主 要的工作是对数量巨大(数百万)的语义单元及其表 示去重复、去可弃和对非正常歧义进行消歧处理. 由于处理数据量巨大在处理过程中引入了降低计 算量的有效方法———特征分类法. 3∙1 特征分类 语义单元及其表示有许多重要的特征如语义 单元的类型、参量的数目、各参量的类型或语义单元 类型的逻辑;特征分类是指综合语义单元的众多特 征采用的均匀分类方法语义单元类型数目根据粗 细可小可大.如果某类型比较大就可以再细分. 采用特征分类法后整个语义单元知识库的处理效率 将大大提高. 3∙2 特征分类下的去重复、去可弃 (1) 特征分类下的去重复.对整个语义单元库 去重复时如果采用2∙3节中处理子库的去重复算 法则其计算复杂性是串行排序复杂性 O( Nlb N) 其中 N 是语义单元集的大小.由于整体库的规模 远远大于各子库的规模采用此方法效率较低. 采用特征分类法后去重复计算复杂性可以降低 到 O( Nlb M)其中 N= K MK 是类别数量M 是 每一类的平均大小.例如N=2×106K =1000 M=1000排序计算量可以降低一半.各个不同特 征分类之间还可以并行计算(见3∙3节). (2) 特征分类下的去可弃.对整个语义单元库 去可弃时如果采用2∙3节的处理子库的去可弃算 法则数百万语义单元集合去可弃在一般非高性能 计算机上的处理时间过长.采用特征分类法后由于 各个不同特征分类集合中各自进行排序消去其计 算复杂性可大幅度降低.具体方法是:从 t =1开 始对各个不同特征的分类集合中的语义单元进行 代入和比较消去 t=0及 t=1中的可弃语义单元. 消去比较过程中不仅充分利用特征分类大幅度地 缩小比较的计算量而且充分利用“可能被消去的语 义单元的长度等于被代入的语义单元长度加所代 入的各个参量的语义单元长度减1”的这个特点将 搜索限制在一定长度的语义单元子集中从而进一 步大幅度降低计算量. (3) 特征分类下的的目标驱动法去可弃.在采 用特征分类的情况下还可以进一步采用以下“目标 驱动”方法.从语义单元参数个数 t=1入手根据 参数在语义单元表示中位置通过左串、右串及左右 串与 t=0中的同特征分类单元进行匹配寻找 t= 0中及部分 t=1中的可弃语义单元不需要全部进 行代入.匹配方法可以采用类似子树剪枝法[5].对 t=2的处理与 t =1类似只是位置结构复杂一 些同时寻找的可弃语义单元不仅在 t=1及部分 t=2的单元中而且也可能在 t=0的单元中.对 t>2的单元处理类似.由于计算量依赖于同特征分 类下可弃语义单元的数量而不是搜索整个库中所 有的可能代入所以计算复杂性还可以进一步下降. 综上所述采用特征分类法和目标驱动法后其 计算复杂性已由原来的 O( NN′V 4 ki)降低到小于 等于 O ( Nlb m + ∑ 4 k=1∑i Ukiα4m 4) ≈ O ( Nlb m + Nα4m 4)= O( Nα4m 4)= O(βN)其中 Uki是参数 ·702· 北 京 科 技 大 学 学 报 第30卷
第6期 胡玥等:多语言机译系统中高质量语义单元库形成方法 .703 个数为k中的参数类型为i类型的语义单元个数, 逐个进行排序和查局部重复,如发现在某语种表示 m是在特征分类下平均每一个小类的语义单元数, 上有重复的语义单元,且它们在其他语种上表示不 之∑U≤N,<1,“是采用长度比较而降低比 同,则重复的语义单元在该语种上存在非正常歧义, =1 需进行消歧处理 较计算量的系数,在上述的特征分类下,m比较 (2)非正常歧义的消歧处理.在各子库合并、 小,所以B=am是一个有界的数6 去重复和去可弃过程中,领域、场所、情景或子领域 3.3在多核并行情况下多个多语语义单元子库 的标志暂时保留,当发现非正常歧义时,由库的提取 合并 过程可知,引入领域或子领域、场所、情景标志作为 在去重复和去可弃过程中,除了“全局排序”之 永久性标志就可在库中消去非正常歧义, 外,全部适合共存储系统的多核高效并行计算,而 “全局排序”本身可以采用基于常数效率高效纵横并 4语义单元再分解一语义单元库的进一 行归并算法的常数排序并行算法,其处理机台数 步完善 P=√N台,计算复杂性也是T=O(bNXN), 在合库后对有些语义单元还需做进一步的再分 效率=0(1). 解处理.例如,在2.2节的例子中,从句子“陈先生 3.4非正常歧义的判别和处理 是工程师“Mr.Chen is an engineer”一“陈冬人(住 (1)非正常歧义的判别,判别非正常歧义必须 技师℃寸”提取了三个语义单元,见图6. 在去重复和去可弃之后,然后分别对库上的各语种 语义单元 参数数目与类型 语义单元的汉语表示 语义单元的英语表示 语义单元的日语表示 类型 1(NOUN I人, 2,N0UN人i, [1]是[2] []isa[2] [1][2]℃寸 NOUN职称) NOUN职称f 2 0 工程师 engineer 技师 NOUN{职称} 0 陈先生 Mr.Chen 陈ě人 NoUN人} 图6语义单元及其表达 Fig.6 Semantic units and their representations 如果在语义单元库中在各语言中同时出现大量 么,i,i,i1,语义单元(及其表示)可以全部被 与“Mr.”和与姓有关的语义单元表示(如图7),那 图8的一个语义单元所代替 语义单元 参数数目与类型 语义单元的汉语表示 语义单元的英语表示 语义单元的日语表示 类型 0 陈先生 Mr.Chen 陈兰人 NOUN人} 2 0 张先生 Mr.Zhang 张总人 NOUN 1人} 9 0 李先生 Mr.Li 李总人 NoUN{人! 。 … 。 400 j 0 陈 Chen 陈 NOUN{姓} j2 0 张 Zhang 张 NOUN1姓} js 0 李 Li 李 NoUN1姓} 44 图7语义单元及其表达 Fig.7 Semantic units and their representations 语义单元 参数数目与类型 语义单元的汉语表示 语义单元的英语表示 语义单元的日语表示 类型 1,NoUN{姓 []先生 Mr.[1] [1]ě人 NoUN人} 图8语义单元及其表达 Fig.8 Semantic unit and its representations 也就是,在2.2节的例子中,3号语义单元(及 可以再分解成为图9所示的两个语义单元(及其表 其表示)“陈先生-Mr.Chen-陈人-NOUN人” 示)
个数为 k 中的参数类型为 i 类型的语义单元个数 m 是在特征分类下平均每一个小类的语义单元数 ∑ 4 k=1∑i Uki≤ Nα≤1α是采用长度比较而降低比 较计算量的系数.在上述的特征分类下m 比较 小所以 β=α4m 4 是一个有界的数[6]. 3∙3 在多核并行情况下多个多语语义单元子库 合并 在去重复和去可弃过程中除了“全局排序”之 外全部适合共存储系统的多核高效并行计算.而 “全局排序”本身可以采用基于常数效率高效纵横并 行归并算法的常数排序并行算法其处理机台数 P= N台计算复杂性也是 T = O(lb N× N) 效率 η= O(1) [7—8]. 3∙4 非正常歧义的判别和处理 (1) 非正常歧义的判别.判别非正常歧义必须 在去重复和去可弃之后然后分别对库上的各语种 逐个进行排序和查局部重复.如发现在某语种表示 上有重复的语义单元且它们在其他语种上表示不 同则重复的语义单元在该语种上存在非正常歧义 需进行消歧处理. (2) 非正常歧义的消歧处理.在各子库合并、 去重复和去可弃过程中领域、场所、情景或子领域 的标志暂时保留当发现非正常歧义时由库的提取 过程可知引入领域或子领域、场所、情景标志作为 永久性标志就可在库中消去非正常歧义. 4 语义单元再分解———语义单元库的进一 步完善 在合库后对有些语义单元还需做进一步的再分 解处理.例如在2∙2节的例子中从句子“陈先生 是工程师”↔“Mr.Chen is an engineer”↔“陈さんは 技师です”提取了三个语义单元见图6. 语义单元 1(NOUN{人} NOUN{职称}) 2 3 参数数目与类型 语义单元的汉语表示 语义单元的英语表示 语义单元的日语表示 类型 2NOUN{人} NOUN{职称} [1] 是 [2] [1] is a [2] [1]は[2]です S 0 工程师 engineer 技师 NOUN{职称} 0 陈先生 Mr.Chen 陈さん NOUN{人} 图6 语义单元及其表达 Fig.6 Semantic units and their representations 如果在语义单元库中在各语言中同时出现大量 与“Mr.”和与姓有关的语义单元表示(如图7)那 么i1i1i1…语义单元(及其表示)可以全部被 图8的一个语义单元所代替. 语义单元 i1 i2 i3 … j1 j2 j3 … 参数数目与类型 语义单元的汉语表示 语义单元的英语表示 语义单元的日语表示 类型 0 陈先生 Mr.Chen 陈さん NOUN{人} 0 张先生 Mr.Zhang 张さん NOUN{人} 0 李先生 Mr.Li 李さん NOUN{人} … … … … … 0 陈 Chen 陈 NOUN{姓} 0 张 Zhang 张 NOUN{姓} 0 李 Li 李 NOUN{姓} … … … … … 图7 语义单元及其表达 Fig.7 Semantic units and their representations 语义单元 i1 参数数目与类型 语义单元的汉语表示 语义单元的英语表示 语义单元的日语表示 类型 1NOUN{姓} [1] 先生 Mr.[1] [1] さん NOUN{人} 图8 语义单元及其表达 Fig.8 Semantic unit and its representations 也就是在2∙2节的例子中3号语义单元(及 其表示)“陈先生-Mr.Chen -陈さん-NOUN {人}” 可以再分解成为图9所示的两个语义单元(及其表 示). 第6期 胡 等: 多语言机译系统中高质量语义单元库形成方法 ·703·
,704 北京科技大学学报 第30卷 语义单元 参数数目与类型 语义单元的汉语表示 语义单元的英语表示 语义单元的日语表示 类型 3 1,NOUNI姓} [1]先生 Mr.[1] [1]各人 NOUN人 4 陈 Chen 陈 NOUN姓} 图9语义单元及其表达 Fig.9 Semantic units and their representations 随着库中语义单元数量的增加,会出现许多需 并入库中;对原库中没有但新语言上有的语义单元, 再分解的语义单元,将这类语义单元再分解有助于 将其补入库中,并补齐它在库中各语言上的表示:对 简化库,减少库的容量,提高库的质量 原库中已有,但新语言上没有的,直接在库中补上新 5在统一的多语语义单元知识库上扩增语 语言上的表示 言种类时库的变化 6结论 5.1自然语言种类的增多时语义单元库的扩充 本文讨论了高质量、可扩充、无可弃、无重复、无 由于不同的语言对语义单元的表示方式不同, 非正常歧义的统一多语语义单元知识库的构建方 既不同语言表示同一意思的语言结构不同,当扩充 法,该库是基于语义语言理论的多语互译机器翻译 一种语言入库时会引起已有库中的语义单元的扩充 系统的基础知识库,建立在该库基础上的多语互译 和修改,例如,欲表示月份“一月、二月、…、十二 机译系统能够用同一算法和程序方便地实现多种自 月”和数字“一、二、…、十二”当只考虑汉语和日语 然语言之间的互译,且当加入一种新的语言时,只需 对应时,语义单元库中只需13个基本语义单元 对库进行扩充不需修改系统程序就能方便的实现该 “一”、“二”、…、“十二”和“月”即可表示(月份可表 语言的翻译,该知识库不仅用于多语机译系统,也 示为?1到12的整数月”),当加入英语后,由于英 可作为自然语言理解和处理的基础知识库 语表示十二个月的语义单元为“January”、“Febru- ary”、…、“December'”表示l2个数的语义单元为 参考文献 “One”、“Two”、…、“Twelve'”,因此库中要表示上 [1]Gao QS,Hu Y.Gao X Y.Semantic language and multi-language MT approach based on SL.J Comput Sci Technol,2003.18 述月份和数字则需要“January'”(一月)、“February” (6):848 (二月)、…、“December'”(十二月)和“One”(一)、 [2]Gao QS,Li L,Liu H L.Key word filter method based on prun- Two”(二)、…、“T”(十二)24个基本语义单元 ing on the tree representations of semantic elements.J Univ Sci 此时汉语表示库中会扩充“一月”为基本语义单元, Technol Beijing.006.28(12):1191 (高庆狮,李莉,刘宏岚,基于语义单元表示树剪枝的关键字 “一”(对应“One”)和“一月”(对应January”)将作为 过滤方法.北京科技大学学报,2006,28(12):1191) 库中的两个基本语义单元,其他月份同理,即加入英 [3]Gao QS,Gao X Y.Hu Y.Machine Translation System and 语后语义单元库中的语义单元就从13个扩充到24 Method based on Semantic Language:China Patent 个基本语义单元,加入其他种类语言的情况类似 ZL01131689.6.2005-109 (高庆狮,高小宇,胡玥基于语义语言的机器翻译系统及方 5.2自然语言种类增多时语义单元库的扩充方法 法.中国专利:ZL01131689.6.2005-11-09) 当自然语言种类增加时(由K种增加到K十1 [4]Gao Q S.Chen Z X.Subhuman machine translation system. 种),为了满足多语互译的要求需对统一的多语语义 Comput Res Dev,1989.26(2):1 单元库进行扩充,扩充的方法为:(1)对每一个受限 (高庆狮,陈肇雄,类人机器翻译系统,计算机研究与发展, 1989,26(2):1) 领域或子领域的场所、情景的句子语料集补充新增 [5]Gao X Y,Gao QS.Hu Y.et al.High-speed multi-language ma- 语言的准确译文;(2)对新增语言进行语义单元提 chine translation method based on pruning on the tree of represen 取工作,只提取新增语言的语义单元及其表示,然后 tations of semantic elements.Software J.2005,16(11):1909 与原来的库进行合并. (高小宇,高庆狮,胡玥,等.基于语义单元表示树剪枝的高速 多语言机器翻译方法.软件学报,2005,16(11):1909) 5.3新增自然语言的语义单元及其表示与原库进 [7]Cormen T H.Leiserson C E.Rivest R L.Introduction to Algo- 行合并的方法 rithms.Boston:The MIT Press.1995 将提取出的新增自然语言的语义单元及其表示 [8]Gao QS,Liu Z Y.Sloping and-shaking:multiway merging and 经去重复和去可弃后与原来的库进行合并,具体方 sorting-SeiChina£,1997,40(3):225 [9]Gao QS.A unified (log N)and optimal sorting vector algo- 法是:对相同的语义单元把其在新增语言上的表示 rithm.J Comput Sci Technol.1995.10(5):470
语义单元 3 4 参数数目与类型 语义单元的汉语表示 语义单元的英语表示 语义单元的日语表示 类型 1NOUN{姓} [1] 先生 Mr.[1] [1] さん NOUN{人} 0 陈 Chen 陈 NOUN{姓} 图9 语义单元及其表达 Fig.9 Semantic units and their representations 随着库中语义单元数量的增加会出现许多需 再分解的语义单元.将这类语义单元再分解有助于 简化库减少库的容量提高库的质量. 5 在统一的多语语义单元知识库上扩增语 言种类时库的变化 5∙1 自然语言种类的增多时语义单元库的扩充 由于不同的语言对语义单元的表示方式不同 既不同语言表示同一意思的语言结构不同当扩充 一种语言入库时会引起已有库中的语义单元的扩充 和修改.例如欲表示月份“一月、二月、……、十二 月”和数字“一、二、……、十二”当只考虑汉语和日语 对应时语义单元库中只需13个基本语义单元 “一”、“二”、……、“十二”和“月”即可表示(月份可表 示为“〈1到12的整数〉月”).当加入英语后由于英 语表示十二个月的语义单元为“January ”、“February”、……、“December”表示12个数的语义单元为 “One”、“Two”、……、“Twelve”因此库中要表示上 述月份和数字则需要“January”(一月)、“February” (二月)、……、“December” (十二月)和“One” (一)、 “Two”(二)、……、“T ”(十二)24个基本语义单元. 此时汉语表示库中会扩充“一月”为基本语义单元 “一”(对应“One”)和“一月”(对应“January”)将作为 库中的两个基本语义单元其他月份同理即加入英 语后语义单元库中的语义单元就从13个扩充到24 个基本语义单元.加入其他种类语言的情况类似. 5∙2 自然语言种类增多时语义单元库的扩充方法 当自然语言种类增加时(由 K 种增加到 K +1 种)为了满足多语互译的要求需对统一的多语语义 单元库进行扩充扩充的方法为:(1) 对每一个受限 领域或子领域的场所、情景的句子语料集补充新增 语言的准确译文;(2) 对新增语言进行语义单元提 取工作只提取新增语言的语义单元及其表示然后 与原来的库进行合并. 5∙3 新增自然语言的语义单元及其表示与原库进 行合并的方法 将提取出的新增自然语言的语义单元及其表示 经去重复和去可弃后与原来的库进行合并.具体方 法是:对相同的语义单元把其在新增语言上的表示 并入库中;对原库中没有但新语言上有的语义单元 将其补入库中并补齐它在库中各语言上的表示;对 原库中已有但新语言上没有的直接在库中补上新 语言上的表示. 6 结论 本文讨论了高质量、可扩充、无可弃、无重复、无 非正常歧义的统一多语语义单元知识库的构建方 法.该库是基于语义语言理论的多语互译机器翻译 系统的基础知识库建立在该库基础上的多语互译 机译系统能够用同一算法和程序方便地实现多种自 然语言之间的互译且当加入一种新的语言时只需 对库进行扩充不需修改系统程序就能方便的实现该 语言的翻译.该知识库不仅用于多语机译系统也 可作为自然语言理解和处理的基础知识库. 参 考 文 献 [1] Gao Q SHu YGao X Y.Semantic language and mult-i language MT approach based on SL.J Comput Sci Technol200318 (6):848 [2] Gao Q SLi LLiu H L.Key word filter method based on pruning on the tree representations of semantic elements.J Univ Sci Technol Beijing200628(12):1191 (高庆狮李莉刘宏岚.基于语义单元表示树剪枝的关键字 过滤方法.北京科技大学学报200628(12):1191) [3] Gao Q SGao X YHu Y. Machine T ranslation System and Method based on Semantic L anguage: China Patent ZL01131689.6.2005—11—09 (高庆狮高小宇胡 .基于语义语言的机器翻译系统及方 法.中国专利:ZL01131689.6.2005—11—09) [4] Gao Q SChen Z X.Subhuman machine translation system. Comput Res Dev198926(2):1 (高庆狮陈肇雄.类人机器翻译系统.计算机研究与发展 198926(2):1) [5] Gao X YGao Q SHu Yet al.High-speed mult-i language machine translation method based on pruning on the tree of representations of semantic elements.Software J200516(11):1909 (高小宇高庆狮胡 等.基于语义单元表示树剪枝的高速 多语言机器翻译方法.软件学报200516(11):1909) [7] Cormen T HLeiserson C ERivest R L.Introduction to Algorithms.Boston:The MIT Press1995 [8] Gao Q SLiu Z Y.Sloping-and-shaking:multiway merging and sorting.Sci China E199740(3):225 [9] Gao Q S.A unified O(log N) and optimal sorting vector algorithm.J Comput Sci Technol199510(5):470 ·704· 北 京 科 技 大 学 学 报 第30卷