多语言机译系统中高质量语义单元库形成方法

讨论构建多自然语言互译机译系统所需的高质量、可扩充、完备的、无可弃、无重复、无非正常歧义的多语统一语义单元知识库.在构建过程中采用类型特征分类方法有效降低计算复杂性,使去重复的计算量降低一半,去可弃的计算量降到O(βN)(N是语义单元库规模,β是有界数,β

团购合买资源类别：文库，文档格式：PDF，文档页数：7，文件大小：715.43KB

D0I:10.13374/1.issnl00I103.2008.06.02I 第30卷第6期北京科技大学学报 Vol.30 No.6 2008年6月 Journal of University of Science and Technology Beijing Jun.2008 多语言机译系统中高质量语义单元库形成方法胡玥高小宇高庆狮北京科技大学信息工程学院，北京100083 摘要讨论构建多自然语言互译机译系统所需的高质量、可扩充、完备的、无可弃、无重复、无非正常歧义的多语统一语义单元知识库·在构建过程中采用类型特征分类方法有效降低计算复杂性，使去重复的计算量降低一半，去可弃的计算量降到 O(N)(N是语义单元库规模，P是有界数，B<C,C是常数)：全部算法都可以在多核处理机上以常数效率地实现.同时讨论了语义单元的再分解和自然语言种类的增多时语义单元知识库的扩充方法：该知识库不仅用于多自然语言互译系统，还可作为自然语言理解和处理的基础知识库. 关键词自然语言处理系统：自然语言：机器翻译：语义单元分类号TP391.1 Formation method of a high-quality semantic unit base for a multi-language ma- chine translation system HU Yue,GAO Xiaoyu,GAO Qingshi School of Information Engineering.University of Science and Technology Beijing.Beijing 100083.China ABSTRACT Building up a high-quality,expandable,complete.free-discardable.free-of-repetition and free-of-abnormal-ambiguity multi-language semantic unit knowledge base for a multi-language machine translation system was discussed.In the process of buildup,the type feature classification method was adopted o effectively reduce the calculation complexity,make the calculation for repetition removal reduced by half,and reduce the trash-removal calculation to 0(BN),where N is the scale of the semantic unit knowledge base.B is bounded.C and C is a constant.All algorithms can be concurrently realized on a multi-"core processor in constant efficiency.Furthermore,the re-decomposition of a semantic unit and the expansion methods for the semantic unit knowledge base in case of natural language type increase were also discussed.This knowledge base can be used not only for the multi-language machine translation system but also as the basic knowledge base for natural language understanding and processing. KEY WORDS natural language processing system:natural language;machine translation;semantic unit 在语义语言理论中，两种自然语言(1，J)的句种语言表示，子或者文本的翻译可以通过两步来实现].第1 基于语义语言的多语互译机译系统由两部分组步，把自然语言【通过“在自然语言【上的语义分成，一是统一的多自然语言语机器翻译软件；另一个析”求出“句义表达式”.该过程可以通过语义单元是高质量可扩充的、完备的、无可弃的、无重复的、无树的特殊剪枝来实现，第2步，把句义表达式通过非正常歧义的多语语义单元知识库，简单地“在自然语言J上的代入展开”成为自然语目前，一般的双语或多语词典其对应关系都是言J的句子或者文本，在这步中，用基于语义语言建立在词的基础上的，没有语义单元的对应关系，学的翻译方法可方便地将句义表达式同时展开成多无法满足基于语义语言的多语互译要求，本文将讨论在语义语言理论和方法的基础上，收稿日期：2007-12-09修回日期：2008-01-28 如何从受限领域、场所、情景中提取无可弃、无重复、基金项目：国家高技术研究发展计划资助项目(N。无歧义的多语的语义单元，和如何将所提取的语义 2006AA01Z140,No.2006AA010101):国家自然科学基金资助项目单元有效地构成一个高质量、可扩充、完备的、无可 (No.60736014) 作者简介：胡玥(1963-)女，副教授，博士，弃、无重复、无非正常歧义的统一的多语语义单元知 E-mail:huhuyue-001@sina.com 识库，且基于该语义单元知识库的多语翻译系统的

多语言机译系统中高质量语义单元库形成方法胡高小宇高庆狮北京科技大学信息工程学院北京100083 摘要讨论构建多自然语言互译机译系统所需的高质量、可扩充、完备的、无可弃、无重复、无非正常歧义的多语统一语义单元知识库．在构建过程中采用类型特征分类方法有效降低计算复杂性使去重复的计算量降低一半去可弃的计算量降到 O（βN）（ N 是语义单元库规模β是有界数β＜ CC 是常数）．全部算法都可以在多核处理机上以常数效率地实现．同时讨论了语义单元的再分解和自然语言种类的增多时语义单元知识库的扩充方法．该知识库不仅用于多自然语言互译系统还可作为自然语言理解和处理的基础知识库．关键词自然语言处理系统；自然语言；机器翻译；语义单元分类号 TP391∙1 Formation method of a high-quality semantic unit base for a mult-i language machine translation system HU Y ueGA O XiaoyuGA O Qingshi School of Information EngineeringUniversity of Science and Technology BeijingBeijing100083China ABSTRACT Building up a high-qualityexpandablecompletefree-discardablefree-of-repetition and free-of-abnorma-l ambiguity mult-i language semantic unit knowledge base for a mult-i language machine translation system was discussed．In the process of buildupthe type feature classification method was adopted o effectively reduce the calculation complexitymake the calculation for repetition removal reduced by halfand reduce the trash-removal calculation to O（βN）where N is the scale of the semantic unit knowledge baseβis boundedβ＜ C and C is a constant．All algorithms can be concurrently realized on a mult-i core processor in constant efficiency．Furthermorethe re-decomposition of a semantic unit and the expansion methods for the semantic unit knowledge base in case of natural language type increase were also discussed．T his knowledge base can be used not only for the mult-i language machine translation system but also as the basic knowledge base for natural language understanding and processing． KEY WORDS natural language processing system；natural language；machine translation；semantic unit 收稿日期：2007-12-09 修回日期：2008-01-28 基金项目：国家高技术研究发展计划资助项目（ No． 2006AA01Z140No．2006AA010101）；国家自然科学基金资助项目（No．60736014）作者简介：胡（1963—）女副教授博士 E-mail：huhuyue—001＠sina．com 在语义语言理论中两种自然语言（ IJ）的句子或者文本的翻译可以通过两步来实现［1—5］．第1 步把自然语言 I 通过“在自然语言 I 上的语义分析”求出“句义表达式”．该过程可以通过语义单元树的特殊剪枝来实现．第2步把句义表达式通过简单地“在自然语言 J 上的代入展开”成为自然语言 J 的句子或者文本．在这步中用基于语义语言学的翻译方法可方便地将句义表达式同时展开成多种语言表示．基于语义语言的多语互译机译系统由两部分组成一是统一的多自然语言语机器翻译软件；另一个是高质量可扩充的、完备的、无可弃的、无重复的、无非正常歧义的多语语义单元知识库．目前一般的双语或多语词典其对应关系都是建立在词的基础上的．没有语义单元的对应关系无法满足基于语义语言的多语互译要求．本文将讨论在语义语言理论和方法的基础上如何从受限领域、场所、情景中提取无可弃、无重复、无歧义的多语的语义单元和如何将所提取的语义单元有效地构成一个高质量、可扩充、完备的、无可弃、无重复、无非正常歧义的统一的多语语义单元知识库．且基于该语义单元知识库的多语翻译系统的第30卷第6期 2008年 6月北京科技大学学报 Journal of University of Science and Technology Beijing Vol．30No．6 Jun．2008 DOI:10．13374／j．issn1001－053x．2008．06．021

第6期胡玥等：多语言机译系统中高质量语义单元库形成方法 .699 翻译复杂性保持在0(L)可，与其巨大的语义单元单个的“times'”这个词按词为基本单位时即可以当库的大小无关，其中L是被翻译内容的长度， “倍”又可以当“乘”会引起歧义，但以语义单元为基 1统一的多语语义单元知识库本单位划分时，“倍”和“乘”就可以区分.当“倍”时语义单元为？number)times”,当“乘”时语义单元不同自然语言可以互译是因为它们的句子有相为？number)times〈number)”.非正常歧义是指本同语义·句子的语义称为句义(SS)·句义内表达一可区分，但由于判定时少某些知识造成的假歧义个意思的单元称为语义单元(SU)].语义单元在如，“register”作为名词，可以是计算机领域中的“寄一个自然语言I(如，英语、汉语等)上的表示称为语存器”也可以是入住旅馆的“入住登记”如果不加领义单元表示(R$U),从这个角度来看，句子是由带域、场所、情景的区分，就会出现歧义变量和不带变量的语义单元表示通过代入而构 “正常歧义”是指语言本身存在的固有的无法区成的，分的真歧义，统一的多语语义单元知识库是按语义语言理 “知识库无假歧义和非正常歧义”是指本知识库论]建立的以语义单元为基本单位的多语知识通过以语义单元为基本单位消除了假歧义，同时通库.该库具有句子完备、无可弃、无重复、无假歧义过引入领域、场所或情景等相关参量解决了非正常和非正常歧义、可扩充的特性，其中，句子完备是指歧义问题句子的“语义单元集是完备的”，即通过该语义单元 “知识库可扩充”是指该库不仅对不同的领域、集之中的语义单元的代入，可以形成该句场所、情景可进行扩充，还可加入不同种类的语言， “无可弃”是指不能通过其他语义单元代入产生且整个系统在加入一种语言后不需要修改算法和程的语义单元称为基本语义单元或不可弃语义单元，序就能实现该语的翻译 “知识库无可弃”是指语义单元知识库中的单元均为库的构建过程为，逐一从单个受限领域、场所或基本语义单元情景的语料中提取语义单元，并构建该领域的完备 “无假歧义和非正常歧义”是指：一般来讲广义的、无重复的、无可弃的多语语义单元子库.，然后将歧义包括假歧义、非正常歧义（即可区分的准歧义）不断增加的子库合并，再不断增加自然语言的种类，和正常歧义（即不可区分的真歧义）·其中，假歧义最后构造出统一的、多自然语言语义单元知识库，是指基本语言单位划分不正确引起的歧义，例如，其形成过程如图1和图2所示，取一个句子或术语用户原文受限领域语言知提取该句的语义单元及消去全部重复的语义受限领域其双语或者多语表示单元及其表示语或基于多语语义单元表示库的机器翻译方法和系统验证该句所提取的语义N 形成 (可以采用已获得单元及其表示是否完备？消去全部可弃语义例单元及其表示 Y 语语义单发明专利 (ZL01131689.6) 奥运会消去该句全部重复可弃多余语义单元及其表示表示库的机器翻译方法和系统) 全部句子和术语 N 处理结束否？单或多语翻译 Y 图1一个受限领域或子领域的多语语义单元库的形成过程 Fig.I Formation process of the multi-language semantic unit representative base of limited fields or subfields 2单一受限领域、场所、情景的完备、无可然科学领域与社会科学领域，自然科学领域又分为数、理、化、天、地、生、技术科学.数学又分许多分弃、无重复的多语语义单元子库的形成枝，每个分枝还可以再分；又如场所分为：公园、学过程校、车站、等等，学校又可以再分为教室、实验室、体人们容易误认为领域、场所或情景只有数十种，育馆、操场、老师办公室、校长办公室等；教室又可以其实不然，领域、场所情景是数以百计、千计的，如分为讲课、辅导、讨论、辩论、开会、打扫等不同情景，科技领域分科学领域与技术领域.科学领域又分自本节讨论如何从单个受限领域、场所或者情景的语

翻译复杂性保持在 O（ L ）［5］与其巨大的语义单元库的大小无关其中 L 是被翻译内容的长度． 1 统一的多语语义单元知识库不同自然语言可以互译是因为它们的句子有相同语义．句子的语义称为句义（SS）．句义内表达一个意思的单元称为语义单元（SU）［1—2］．语义单元在一个自然语言 I（如英语、汉语等）上的表示称为语义单元表示（RISU）．从这个角度来看句子是由带变量和不带变量的语义单元表示通过代入而构成的．统一的多语语义单元知识库是按语义语言理论［1—3］建立的以语义单元为基本单位的多语知识库．该库具有句子完备、无可弃、无重复、无假歧义和非正常歧义、可扩充的特性．其中句子完备是指句子的“语义单元集是完备的”即通过该语义单元集之中的语义单元的代入可以形成该句． “无可弃”是指不能通过其他语义单元代入产生的语义单元称为基本语义单元或不可弃语义单元 “知识库无可弃”是指语义单元知识库中的单元均为基本语义单元． “无假歧义和非正常歧义”是指：一般来讲广义歧义包括假歧义、非正常歧义（即可区分的准歧义）和正常歧义（即不可区分的真歧义）．其中假歧义是指基本语言单位划分不正确引起的歧义．例如单个的“times”这个词按词为基本单位时即可以当 “倍”又可以当“乘”会引起歧义．但以语义单元为基本单位划分时“倍” 和“乘”就可以区分．当“倍”时语义单元为“〈number〉times”当“乘”时语义单元为“〈number〉times〈number〉”．非正常歧义是指本可区分但由于判定时少某些知识造成的假歧义如“register”作为名词可以是计算机领域中的“寄存器”也可以是入住旅馆的“入住登记” 如果不加领域、场所、情景的区分就会出现歧义． “正常歧义”是指语言本身存在的固有的无法区分的真歧义． “知识库无假歧义和非正常歧义”是指本知识库通过以语义单元为基本单位消除了假歧义同时通过引入领域、场所或情景等相关参量解决了非正常歧义问题． “知识库可扩充”是指该库不仅对不同的领域、场所、情景可进行扩充还可加入不同种类的语言且整个系统在加入一种语言后不需要修改算法和程序就能实现该语的翻译．库的构建过程为逐一从单个受限领域、场所或情景的语料中提取语义单元并构建该领域的完备的、无重复的、无可弃的多语语义单元子库．然后将不断增加的子库合并再不断增加自然语言的种类最后构造出统一的、多自然语言语义单元知识库．其形成过程如图1和图2所示．图1 一个受限领域或子领域的多语语义单元库的形成过程 Fig．1 Formation process of the mult-i language semantic unit representative base of limited fields or sub-fields 2 单一受限领域、场所、情景的完备、无可弃、无重复的多语语义单元子库的形成过程人们容易误认为领域、场所或情景只有数十种．其实不然领域、场所情景是数以百计、千计的．如科技领域分科学领域与技术领域．科学领域又分自然科学领域与社会科学领域．自然科学领域又分为数、理、化、天、地、生、技术科学．数学又分许多分枝每个分枝还可以再分；又如场所分为：公园、学校、车站、等等．学校又可以再分为教室、实验室、体育馆、操场、老师办公室、校长办公室等；教室又可以分为讲课、辅导、讨论、辩论、开会、打扫等不同情景．本节讨论如何从单个受限领域、场所或者情景的语第6期胡等：多语言机译系统中高质量语义单元库形成方法 ·699·

,700 北京科技大学学报第30卷原统一多语语义单元及原库逐一加新库去重复语义单元其表示库合并成为一个及其表示统一的库去可弃语义单元新多语及其表示用户原文语义单元及其需非正常处理 Y 加注场所或领域或表示库包括歧义处理？情景区分标志基于多语语义单元 N 表示库的机器翻译方法和系统新多语新多语语义单元 (可以采用已获得语义单表示库空香？发明专利元及其 (ZL01131689.6) 形成新统一多语语义表示库的机器翻译方法单元及其表示库和系统) 单语或多语译文图2将多个受限领域的语义单元子库合并生成统一的高质量的多语语义单元库过程 Fig.2 Merger of multiple semantic unit sub-bases of limited fields into a high quality semantic unit base 料中提取句子的完备语义单元集，并将它们通过消义单元集中· 重复和去可弃后形成语义单元子库.其过程如图1 (8)〈检查该受限领域、场所、情景或者子领域所示内句子语料集是否均提取完； 2.1收集单一受限领域、场所、情景的完备的、无重〈如果均已处理完就结束此过程进入整个子库复的、正确的句子语料集的消歧和消可弃处理，否则转(1)继续处理，按照给定的受限领域或子领域的场所、情景收例如：集其完备的、无重复、正确的句子语料集，以及每一 (l)句子“陈先生是工程师"→“Mr,Chen is an 句严格对应的多自然语言的正确译文，语料集要尽 engineer”“陈之人（技师c寸”. 量覆盖给定的领域和场所、情景，收集时不仅需要 (2)提取了语义单元及其表示如图3.其中，从该领域的相关书籍中收集，而且还需要从一般读 NOUN表示名词，NOUN{人}表示人的名词，物、教科书等中收集.有关语料搜集的领域特征分 NOUN{职称}表示职称的名词，S表示句子，“语义布将另文讨论单元”列的数字代表语义单元序号，即语义单元本身 2.2在收集的语料集中逐句提取一个句义的语义的“名字”；“参数数目与类型”列中的数字代表参数单元及其在各语言中的表示的个数，NOUN{人}、NOUN职称分别代表第1个在收集的语料集中逐句提取一个句义的完备和第2个参数的类型；语义单元表示列中的[r]代的、无重复的、无可弃的语义单元集及其在各语言上表语义单元的第r个参量；最后一列是该语义单元的语义单元表示并形成初步子库的算法如下：的类型. (1)(取一个句予 (③)检查其是否完备.取一个类型为句子的语 (2)(提取该句尽量多的语义单元及其多自然义单元，如任取1、3、4和6号语义单元中的一个，根语言上的表示，据其参数类型，找该类型的语义单元进行代入，即代 (③)〈验证该句所提取的语义单元及其表示，进入到该句的参量中，然后检查其结果是否就是原句行代入检查其是否完备；子，如果不是，继续找其他该类型的语义单元进行〈如果不完备转(2)，继续提取该句的语义单元代入，一直到“其结果就是原句子”为止，如果找不及其表示，到，说明并非完备，继续找语义单元 (4)〈如果完备，对已经提取的本句的语义单元 (4)对已经提取的语言单元先按类型进行分表示按语义单元的类型进行排序类，再对参量个数进行分类，然后对每一类按一种表 (5)(对已经排序的语义单元集去重复示进行排序（如果有参数，按非参数进行排序） (6)(对已经去重复的语义单元集进行去可弃 (5)在分类和排序之后，消去重复的语义单元语义单元和没有用到的语义单元，注意：两个语义单元重复是指其在所有的自然语言 (7)(将(6)的结果加入到前面处理过的句子语上表示都一样；否则，仅在一些语言上表示“一样”不

图2 将多个受限领域的语义单元子库合并生成统一的高质量的多语语义单元库过程 Fig．2 Merger of multiple semantic unit sub-bases of limited fields into a high-quality semantic unit base 料中提取句子的完备语义单元集并将它们通过消重复和去可弃后形成语义单元子库．其过程如图1 所示． 2∙1 收集单一受限领域、场所、情景的完备的、无重复的、正确的句子语料集按照给定的受限领域或子领域的场所、情景收集其完备的、无重复、正确的句子语料集以及每一句严格对应的多自然语言的正确译文．语料集要尽量覆盖给定的领域和场所、情景．收集时不仅需要从该领域的相关书籍中收集而且还需要从一般读物、教科书等中收集．有关语料搜集的领域特征分布将另文讨论． 2∙2 在收集的语料集中逐句提取一个句义的语义单元及其在各语言中的表示在收集的语料集中逐句提取一个句义的完备的、无重复的、无可弃的语义单元集及其在各语言上的语义单元表示并形成初步子库的算法如下：（1）〈取一个句子〉．（2）〈提取该句尽量多的语义单元及其多自然语言上的表示〉．（3）〈验证该句所提取的语义单元及其表示进行代入检查其是否完备〉；〈如果不完备转（2）继续提取该句的语义单元及其表示〉．（4）〈如果完备对已经提取的本句的语义单元表示按语义单元的类型进行排序〉．（5）〈对已经排序的语义单元集去重复〉．（6）〈对已经去重复的语义单元集进行去可弃语义单元和没有用到的语义单元〉．（7）〈将（6）的结果加入到前面处理过的句子语义单元集中〉．（8）〈检查该受限领域、场所、情景或者子领域内句子语料集是否均提取完〉；〈如果均已处理完就结束此过程进入整个子库的消歧和消可弃处理否则转（1）继续处理〉．例如：（1）句子“陈先生是工程师”↔“Mr．Chen is an engineer”↔“陈さんは技师です”．（2）提取了语义单元及其表示如图3．其中 NOUN 表示名词NOUN｛人｝表示人的名词 NOUN｛职称｝表示职称的名词S 表示句子．“语义单元”列的数字代表语义单元序号即语义单元本身的“名字”；“参数数目与类型”列中的数字代表参数的个数NOUN｛人｝、NOUN｛职称｝分别代表第1个和第2个参数的类型；语义单元表示列中的［ r ］代表语义单元的第 r 个参量；最后一列是该语义单元的类型．（3）检查其是否完备．取一个类型为句子的语义单元如任取1、3、4和6号语义单元中的一个根据其参数类型找该类型的语义单元进行代入即代入到该句的参量中然后检查其结果是否就是原句子．如果不是继续找其他该类型的语义单元进行代入一直到“其结果就是原句子”为止．如果找不到说明并非完备继续找语义单元．（4）对已经提取的语言单元先按类型进行分类再对参量个数进行分类然后对每一类按一种表示进行排序（如果有参数按非参数进行排序）．（5）在分类和排序之后消去重复的语义单元．注意：两个语义单元重复是指其在所有的自然语言上表示都一样；否则仅在一些语言上表示“一样”不 ·700· 北京科技大学学报第30卷

第6期胡玥等：多语言机译系统中高质量语义单元库形成方法 701. 是重复，而是在那些自然语言上存在歧义语义单元参数数目与类型语义单元的汉语表示语义单元的英语表示语义单元的日语表示类型 1(NOUNI职称}) 1,NOUN 1职称f 陈先生是[1] Mr.Chen is an[1] 陈各人[1]心寸 0 工程师 engineer 技师 NOUN{职称 3(NOUNI人) 1,NOUN I人} [1]是工程师 [1]is an engineer [1]I技师c方 4(NOUN人， 2,NOUN人t, [1]是[2] [1]isa[2] [1][2]c寸 NOUN I职称I) NOUN1职称 0 陈先生 Mr.Chen 陈各人 NOUN 1人 0 陈先生是工程师 Mr.Chen is an engineer 陈兰人！士技师G寸 0 先生 Mr. 色人 NOUN称谓图3语义单元及其表达 Fig.3 Semantic units and their representations (6)去可弃可先从参数少的语义单元入手，假后，处理带t十1个参数的语义单元，直到带参数的设单个语义单元最多有k个参数，取有t=1(t≤k) 语义单元全部处理完毕，如在例子中，先从参量个个参数的语义单元，代入类型为该参数类型的语义数为1的“1”入手，当“2”代入“1”后“6”就被去掉；单元，然后检查是否有语义单元与其相同.如果有，再处理参数个数为2的“4”，当“5”代入“4”后，“1"就就清除与其相同的语义单元：如果代入的语义单元可以去掉；“2”代入“4”后，“3”就可以去掉.显然，7 还带参数，也需要代入类型为该参数类型的语义单个语义单元只剩下如图4所示的4个元进行检查，所有的带t个参数的语义单元处理完语义单元参数数目与类型语义单元的汉语表示语义单元的英语表示语义单元的日语表示类型 2 0 工程师 engineer 技师 NOUN职称 4(NOUN I人}， 2,N人，N{职称} [1]是[2] [1]isa[2] [1][2]c寸 NOUN{职称) 陈先生 Mr.Chen 陈总人 NOUN人} 先生 Mr. 色人 NOUN I称谓！图4语义单元及其表达 Fig.4 Semantic units and their representations “7”虽然没有被证明可弃，但是代入生成句子过单元只剩下如图5所示的3个，重新编号取名. 程中没有被用到，也必须去掉.这样一来，7个语义语义单元参数数目与类型语义单元的汉语表示语义单元的英语表示语义单元的日语表示类型 1(NoUN人}， 2,NOUN I人{， NOUN1职称) NOUN1职称！ [1]是[2] [1]isa[2] [1][2]c寸 0 工程师 engineer 技师 NOUN I职称} 陈先生 Mr.Chen 陈总人 NOUN1人} 图5语义单元及其表达 Fig-5 Semantic units and their representations (7)将本句提取的语义单元集加到前面生成的情景的句子全部处理完语义单元集中，逐步形成该领域或者子领域、场所、 2.3对生成的语义单元子库进行去重复、去可弃情景下的语义单元知识子库，对前面生成的受限领域语义单元子库需进一步 (⑧)检查该受限领域、场所、情景、或者子领域进行去重复和去可弃处理，内，句子是否取完，如果均已处理完就结束此过程 (1)去重复处理.对子库中的全部语义单元集进入整个子库的消歧和消可弃处理（参见2.3节）：进行去重复处理仍是先对全部语义单元按语义单元否则转到步骤(1)继续处理下句，直到该领域、场所、类型进行分类，然后进行排序去重复，但要注意：两

是重复而是在那些自然语言上存在歧义．语义单元 1（NOUN｛职称｝） 2 3（NOUN｛人｝） 4（NOUN｛人｝ NOUN｛职称｝） 5 6 7 参数数目与类型语义单元的汉语表示语义单元的英语表示语义单元的日语表示类型 1NOUN｛职称｝陈先生是［1］ Mr．Chen is an［1］陈さんは［1］です S 0 工程师 engineer 技师 NOUN｛职称｝ 1NOUN｛人｝［1］是工程师［1］ is an engineer ［1］は技师です S 2NOUN｛人｝ NOUN｛职称｝［1］是［2］［1］ is a ［2］［1］は［2］です S 0 陈先生 Mr．Chen 陈さん NOUN｛人｝ 0 陈先生是工程师 Mr．Chen is an engineer 陈さんは技师です S 0 先生 Mr．さん NOUN｛称谓｝图3 语义单元及其表达 Fig．3 Semantic units and their representations （6）去可弃可先从参数少的语义单元入手．假设单个语义单元最多有 k 个参数取有 t＝1（ t≤k）个参数的语义单元代入类型为该参数类型的语义单元然后检查是否有语义单元与其相同．如果有就清除与其相同的语义单元；如果代入的语义单元还带参数也需要代入类型为该参数类型的语义单元进行检查．所有的带 t 个参数的语义单元处理完后处理带 t＋1个参数的语义单元直到带参数的语义单元全部处理完毕．如在例子中先从参量个数为1的“1” 入手当“2”代入“1”后“6”就被去掉；再处理参数个数为2的“4”当“5”代入“4”后“1”就可以去掉；“2”代入“4”后“3”就可以去掉．显然7 个语义单元只剩下如图4所示的4个．语义单元 2 4（NOUN｛人｝ NOUN｛职称｝） 5 7 参数数目与类型语义单元的汉语表示语义单元的英语表示语义单元的日语表示类型 0 工程师 engineer 技师 NOUN｛职称｝ 2N｛人｝N｛职称｝［1］是［2］［1］ is a ［2］［1］は［2］です S 0 陈先生 Mr．Chen 陈さん NOUN｛人｝ 0 先生 Mr．さん NOUN｛称谓｝图4 语义单元及其表达 Fig．4 Semantic units and their representations “7”虽然没有被证明可弃但是代入生成句子过程中没有被用到也必须去掉．这样一来7个语义单元只剩下如图5所示的3个重新编号取名．语义单元 1（NOUN｛人｝ NOUN｛职称｝） 2 3 参数数目与类型语义单元的汉语表示语义单元的英语表示语义单元的日语表示类型 2NOUN｛人｝ NOUN｛职称｝［1］是［2］［1］ is a ［2］［1］は［2］です S 0 工程师 engineer 技师 NOUN｛职称｝ 0 陈先生 Mr．Chen 陈さん NOUN｛人｝图5 语义单元及其表达 Fig．5 Semantic units and their representations （7）将本句提取的语义单元集加到前面生成的语义单元集中逐步形成该领域或者子领域、场所、情景下的语义单元知识子库．（8）检查该受限领域、场所、情景、或者子领域内句子是否取完．如果均已处理完就结束此过程进入整个子库的消歧和消可弃处理（参见2∙3节）；否则转到步骤（1）继续处理下句直到该领域、场所、情景的句子全部处理完． 2∙3 对生成的语义单元子库进行去重复、去可弃对前面生成的受限领域语义单元子库需进一步进行去重复和去可弃处理．（1）去重复处理．对子库中的全部语义单元集进行去重复处理仍是先对全部语义单元按语义单元类型进行分类然后进行排序去重复．但要注意：两第6期胡等：多语言机译系统中高质量语义单元库形成方法 ·701·

,702 北京科技大学学报第30卷个语义单元重复是指它们在所有的自然语言上表示采用特征分类法后整个语义单元知识库的处理效率都一样，若只是在某些语言上的表示相同而在另一将大大提高，些语言上表示中不同，则它们不是重复的语义单元， 3,2特征分类下的去重复、去可弃而是在相同表示的语言上存在歧义，需进行消歧 (1)特征分类下的去重复.对整个语义单元库处理，去重复时，如果采用2.3节中处理子库的去重复算 (2)去可弃处理，对子库中的全部语义单元集法，则其计算复杂性是串行排序复杂性O(NbN), 进行去可弃处理与对单个句子的语义单元集去可弃其中N是语义单元集的大小，由于整体库的规模处理类似，但对子库处理的数据规模远远大于单句远远大于各子库的规模，采用此方法效率较低语义单元集.假设语义单元的所有的参数类型与语采用特征分类法后去重复计算复杂性可以降低义单元本身类型不同，而且其参数个数最多k个，到O(NhM),其中N=KM,K是类别数量，M是一般k≤4. 每一类的平均大小.例如，N=2×105,K=1000, 先从参数个数t=1(t≤k)的语义单元入手，代 M=1000,排序计算量可以降低一半.各个不同特入类型为该参数类型的语义单元，然后检查是否有征分类之间还可以并行计算（见3.3节）语义单元与其相同，如果有，就清除与其相同的语 (2)特征分类下的去可弃.对整个语义单元库义单元：如果代入的语义单元本身还带参数，也需要去可弃时，如果采用2.3节的处理子库的去可弃算代入类型为该参数类型的语义单元进行检查，所有法，则数百万语义单元集合去可弃在一般非高性能的带t个参数的语义单元处理完之后，处理带t= 计算机上的处理时间过长，采用特征分类法后由于 t十1个参数的语义单元，直到带有参数的语义单元各个不同特征分类集合中各自进行排序消去，其计全部处理完毕，为简化讨论，假设卫：是参数个数为算复杂性可大幅度降低，具体方法是：从t=1开 k中的参数类型为i类型的语义单元个数的平均值，始，对各个不同特征的分类集合中的语义单元，进行在没有循环代入的情况下其去可弃计算复杂性为代入和比较，消去t=0及t=1中的可弃语义单元. O(NN':),其中，N是语义单元集的大小，N'是消去比较过程中，不仅充分利用特征分类大幅度地带有参数的语义单元个数；卫：是参数个数为k中的缩小比较的计算量，而且充分利用“可能被消去的语参数类型为i类型的平均语义单元个数：如果语义义单元的长度，等于被代入的语义单元长度加所代单元的某个参数类型与语义单元本身类型相同，需入的各个参量的语义单元长度减1”的这个特点，将要引入长度控制机制，避免出现无限循环响计算复搜索限制在一定长度的语义单元子集中，从而进一杂性步大幅度降低计算量 3将多个受限领域、场所、情景的完备的、无 (3)特征分类下的的目标驱动法去可弃，在采可弃、无重复的多语语义单元子库进行合用特征分类的情况下，还可以进一步采用以下“目标驱动”"方法，从语义单元参数个数t=1入手，根据并形成统一的多语语义单元知识库参数在语义单元表示中位置，通过左串、右串及左右将多个受限领域的多语语义单元子库进行合串与t=0中的同特征分类单元进行匹配，寻找t= 并，并消除非正常歧义，形成高质量的统一多语语义 0中及部分t=1中的可弃语义单元，不需要全部进单元知识库过程，如图2所示. 行代入·匹配方法可以采用类似子树剪枝法可.对统一的多语语义单元知识库的形成过程中最主 t=2的处理，与t=1类似，只是位置结构复杂一要的工作是对数量巨大（数百万）的语义单元及其表些，同时寻找的可弃语义单元，不仅在t=1及部分示去重复、去可弃和对非正常歧义进行消歧处理， t=2的单元中，而且也可能在t=0的单元中.对由于处理数据量巨大，在处理过程中引入了降低计 >2的单元处理类似.由于计算量依赖于同特征分算量的有效方法—特征分类法类下可弃语义单元的数量，而不是搜索整个库中所 3.1特征分类有的可能代入，所以计算复杂性还可以进一步下降. 语义单元及其表示有许多重要的特征，如语义综上所述，采用特征分类法和目标驱动法后，其单元的类型、参量的数目、各参量的类型或语义单元计算复杂性已由原来的O(NNV:),降低到小于类型的逻辑：特征分类是指综合语义单元的众多特等于0(NMbm+ 征采用的均匀分类方法，语义单元类型数目根据粗宫usem)产0(Nbm十细可小可大，如果某类型比较大，就可以再细分 Nam)=O(Nam)=O(BN),其中U是参数

个语义单元重复是指它们在所有的自然语言上表示都一样．若只是在某些语言上的表示相同而在另一些语言上表示中不同则它们不是重复的语义单元而是在相同表示的语言上存在歧义需进行消歧处理．（2）去可弃处理．对子库中的全部语义单元集进行去可弃处理与对单个句子的语义单元集去可弃处理类似但对子库处理的数据规模远远大于单句语义单元集．假设语义单元的所有的参数类型与语义单元本身类型不同而且其参数个数最多 k 个一般 k≤4．先从参数个数 t＝1（ t≤k）的语义单元入手代入类型为该参数类型的语义单元然后检查是否有语义单元与其相同．如果有就清除与其相同的语义单元；如果代入的语义单元本身还带参数也需要代入类型为该参数类型的语义单元进行检查所有的带 t 个参数的语义单元处理完之后处理带 t＝ t＋1个参数的语义单元直到带有参数的语义单元全部处理完毕．为简化讨论假设 V ki是参数个数为 k 中的参数类型为 i 类型的语义单元个数的平均值在没有循环代入的情况下其去可弃计算复杂性为 O（ NN′V k ki）其中N 是语义单元集的大小N′是带有参数的语义单元个数；V ki是参数个数为 k 中的参数类型为 i 类型的平均语义单元个数；如果语义单元的某个参数类型与语义单元本身类型相同需要引入长度控制机制避免出现无限循环响计算复杂性． 3 将多个受限领域、场所、情景的完备的、无可弃、无重复的多语语义单元子库进行合并形成统一的多语语义单元知识库将多个受限领域的多语语义单元子库进行合并并消除非正常歧义形成高质量的统一多语语义单元知识库过程如图2所示．统一的多语语义单元知识库的形成过程中最主要的工作是对数量巨大（数百万）的语义单元及其表示去重复、去可弃和对非正常歧义进行消歧处理．由于处理数据量巨大在处理过程中引入了降低计算量的有效方法———特征分类法． 3∙1 特征分类语义单元及其表示有许多重要的特征如语义单元的类型、参量的数目、各参量的类型或语义单元类型的逻辑；特征分类是指综合语义单元的众多特征采用的均匀分类方法语义单元类型数目根据粗细可小可大．如果某类型比较大就可以再细分．采用特征分类法后整个语义单元知识库的处理效率将大大提高． 3∙2 特征分类下的去重复、去可弃（1）特征分类下的去重复．对整个语义单元库去重复时如果采用2∙3节中处理子库的去重复算法则其计算复杂性是串行排序复杂性 O（ Nlb N）其中 N 是语义单元集的大小．由于整体库的规模远远大于各子库的规模采用此方法效率较低．采用特征分类法后去重复计算复杂性可以降低到 O（ Nlb M）其中 N＝ K MK 是类别数量M 是每一类的平均大小．例如N＝2×106K ＝1000 M＝1000排序计算量可以降低一半．各个不同特征分类之间还可以并行计算（见3∙3节）．（2）特征分类下的去可弃．对整个语义单元库去可弃时如果采用2∙3节的处理子库的去可弃算法则数百万语义单元集合去可弃在一般非高性能计算机上的处理时间过长．采用特征分类法后由于各个不同特征分类集合中各自进行排序消去其计算复杂性可大幅度降低．具体方法是：从 t ＝1开始对各个不同特征的分类集合中的语义单元进行代入和比较消去 t＝0及 t＝1中的可弃语义单元．消去比较过程中不仅充分利用特征分类大幅度地缩小比较的计算量而且充分利用“可能被消去的语义单元的长度等于被代入的语义单元长度加所代入的各个参量的语义单元长度减1”的这个特点将搜索限制在一定长度的语义单元子集中从而进一步大幅度降低计算量．（3）特征分类下的的目标驱动法去可弃．在采用特征分类的情况下还可以进一步采用以下“目标驱动”方法．从语义单元参数个数 t＝1入手根据参数在语义单元表示中位置通过左串、右串及左右串与 t＝0中的同特征分类单元进行匹配寻找 t＝ 0中及部分 t＝1中的可弃语义单元不需要全部进行代入．匹配方法可以采用类似子树剪枝法［5］．对 t＝2的处理与 t ＝1类似只是位置结构复杂一些同时寻找的可弃语义单元不仅在 t＝1及部分 t＝2的单元中而且也可能在 t＝0的单元中．对 t＞2的单元处理类似．由于计算量依赖于同特征分类下可弃语义单元的数量而不是搜索整个库中所有的可能代入所以计算复杂性还可以进一步下降．综上所述采用特征分类法和目标驱动法后其计算复杂性已由原来的 O（ NN′V 4 ki）降低到小于等于 O （ Nlb m ＋ ∑ 4 k＝1∑i Ukiα4m 4） ≈ O （ Nlb m ＋ Nα4m 4）＝ O（ Nα4m 4）＝ O（βN）其中 Uki是参数 ·702· 北京科技大学学报第30卷

第6期胡玥等：多语言机译系统中高质量语义单元库形成方法 .703 个数为k中的参数类型为i类型的语义单元个数，逐个进行排序和查局部重复，如发现在某语种表示 m是在特征分类下平均每一个小类的语义单元数，上有重复的语义单元，且它们在其他语种上表示不之∑U≤N,<1,“是采用长度比较而降低比同，则重复的语义单元在该语种上存在非正常歧义， =1 需进行消歧处理较计算量的系数，在上述的特征分类下，m比较 (2)非正常歧义的消歧处理.在各子库合并、小，所以B=am是一个有界的数6 去重复和去可弃过程中，领域、场所、情景或子领域 3.3在多核并行情况下多个多语语义单元子库的标志暂时保留，当发现非正常歧义时，由库的提取合并过程可知，引入领域或子领域、场所、情景标志作为在去重复和去可弃过程中，除了“全局排序”之永久性标志就可在库中消去非正常歧义，外，全部适合共存储系统的多核高效并行计算，而 “全局排序”本身可以采用基于常数效率高效纵横并 4语义单元再分解一语义单元库的进一行归并算法的常数排序并行算法，其处理机台数步完善 P=√N台，计算复杂性也是T=O(bNXN), 在合库后对有些语义单元还需做进一步的再分效率=0(1). 解处理.例如，在2.2节的例子中，从句子“陈先生 3.4非正常歧义的判别和处理是工程师“Mr.Chen is an engineer”一“陈冬人（住 (1)非正常歧义的判别，判别非正常歧义必须技师℃寸”提取了三个语义单元，见图6. 在去重复和去可弃之后，然后分别对库上的各语种语义单元参数数目与类型语义单元的汉语表示语义单元的英语表示语义单元的日语表示类型 1(NOUN I人， 2,N0UN人i, [1]是[2] []isa[2] [1][2]℃寸 NOUN职称) NOUN职称f 2 0 工程师 engineer 技师 NOUN{职称} 0 陈先生 Mr.Chen 陈ě人 NoUN人} 图6语义单元及其表达 Fig.6 Semantic units and their representations 如果在语义单元库中在各语言中同时出现大量么，i,i,i1,语义单元（及其表示）可以全部被与“Mr.”和与姓有关的语义单元表示（如图7），那图8的一个语义单元所代替语义单元参数数目与类型语义单元的汉语表示语义单元的英语表示语义单元的日语表示类型 0 陈先生 Mr.Chen 陈兰人 NOUN人} 2 0 张先生 Mr.Zhang 张总人 NOUN 1人} 9 0 李先生 Mr.Li 李总人 NoUN{人！。 … 。 400 j 0 陈 Chen 陈 NOUN{姓} j2 0 张 Zhang 张 NOUN1姓} js 0 李 Li 李 NoUN1姓} 44 图7语义单元及其表达 Fig.7 Semantic units and their representations 语义单元参数数目与类型语义单元的汉语表示语义单元的英语表示语义单元的日语表示类型 1,NoUN{姓 []先生 Mr.[1] [1]ě人 NoUN人} 图8语义单元及其表达 Fig.8 Semantic unit and its representations 也就是，在2.2节的例子中，3号语义单元（及可以再分解成为图9所示的两个语义单元（及其表其表示)“陈先生-Mr.Chen-陈人-NOUN人” 示)

个数为 k 中的参数类型为 i 类型的语义单元个数 m 是在特征分类下平均每一个小类的语义单元数 ∑ 4 k＝1∑i Uki≤ Nα≤1α是采用长度比较而降低比较计算量的系数．在上述的特征分类下m 比较小所以 β＝α4m 4 是一个有界的数［6］． 3∙3 在多核并行情况下多个多语语义单元子库合并在去重复和去可弃过程中除了“全局排序”之外全部适合共存储系统的多核高效并行计算．而 “全局排序”本身可以采用基于常数效率高效纵横并行归并算法的常数排序并行算法其处理机台数 P＝ N台计算复杂性也是 T ＝ O（lb N× N）效率 η＝ O（1）［7—8］． 3∙4 非正常歧义的判别和处理（1）非正常歧义的判别．判别非正常歧义必须在去重复和去可弃之后然后分别对库上的各语种逐个进行排序和查局部重复．如发现在某语种表示上有重复的语义单元且它们在其他语种上表示不同则重复的语义单元在该语种上存在非正常歧义需进行消歧处理．（2）非正常歧义的消歧处理．在各子库合并、去重复和去可弃过程中领域、场所、情景或子领域的标志暂时保留当发现非正常歧义时由库的提取过程可知引入领域或子领域、场所、情景标志作为永久性标志就可在库中消去非正常歧义． 4 语义单元再分解———语义单元库的进一步完善在合库后对有些语义单元还需做进一步的再分解处理．例如在2∙2节的例子中从句子“陈先生是工程师”↔“Mr．Chen is an engineer”↔“陈さんは技师です”提取了三个语义单元见图6．语义单元 1（NOUN｛人｝ NOUN｛职称｝） 2 3 参数数目与类型语义单元的汉语表示语义单元的英语表示语义单元的日语表示类型 2NOUN｛人｝ NOUN｛职称｝［1］是［2］［1］ is a ［2］［1］は［2］です S 0 工程师 engineer 技师 NOUN｛职称｝ 0 陈先生 Mr．Chen 陈さん NOUN｛人｝图6 语义单元及其表达 Fig．6 Semantic units and their representations 如果在语义单元库中在各语言中同时出现大量与“Mr．”和与姓有关的语义单元表示（如图7）那么i1i1i1…语义单元（及其表示）可以全部被图8的一个语义单元所代替．语义单元 i1 i2 i3 … j1 j2 j3 … 参数数目与类型语义单元的汉语表示语义单元的英语表示语义单元的日语表示类型 0 陈先生 Mr．Chen 陈さん NOUN｛人｝ 0 张先生 Mr．Zhang 张さん NOUN｛人｝ 0 李先生 Mr．Li 李さん NOUN｛人｝ … … … … … 0 陈 Chen 陈 NOUN｛姓｝ 0 张 Zhang 张 NOUN｛姓｝ 0 李 Li 李 NOUN｛姓｝ … … … … … 图7 语义单元及其表达 Fig．7 Semantic units and their representations 语义单元 i1 参数数目与类型语义单元的汉语表示语义单元的英语表示语义单元的日语表示类型 1NOUN｛姓｝［1］先生 Mr．［1］［1］さん NOUN｛人｝图8 语义单元及其表达 Fig．8 Semantic unit and its representations 也就是在2∙2节的例子中3号语义单元（及其表示）“陈先生-Mr．Chen -陈さん-NOUN ｛人｝” 可以再分解成为图9所示的两个语义单元（及其表示）．第6期胡等：多语言机译系统中高质量语义单元库形成方法 ·703·

,704 北京科技大学学报第30卷语义单元参数数目与类型语义单元的汉语表示语义单元的英语表示语义单元的日语表示类型 3 1,NOUNI姓} [1]先生 Mr.[1] [1]各人 NOUN人 4 陈 Chen 陈 NOUN姓} 图9语义单元及其表达 Fig.9 Semantic units and their representations 随着库中语义单元数量的增加，会出现许多需并入库中；对原库中没有但新语言上有的语义单元，再分解的语义单元，将这类语义单元再分解有助于将其补入库中，并补齐它在库中各语言上的表示：对简化库，减少库的容量，提高库的质量原库中已有，但新语言上没有的，直接在库中补上新 5在统一的多语语义单元知识库上扩增语语言上的表示言种类时库的变化 6结论 5.1自然语言种类的增多时语义单元库的扩充本文讨论了高质量、可扩充、无可弃、无重复、无由于不同的语言对语义单元的表示方式不同，非正常歧义的统一多语语义单元知识库的构建方既不同语言表示同一意思的语言结构不同，当扩充法，该库是基于语义语言理论的多语互译机器翻译一种语言入库时会引起已有库中的语义单元的扩充系统的基础知识库，建立在该库基础上的多语互译和修改，例如，欲表示月份“一月、二月、…、十二机译系统能够用同一算法和程序方便地实现多种自月”和数字“一、二、…、十二”当只考虑汉语和日语然语言之间的互译，且当加入一种新的语言时，只需对应时，语义单元库中只需13个基本语义单元对库进行扩充不需修改系统程序就能方便的实现该 “一”、“二”、…、“十二”和“月”即可表示（月份可表语言的翻译，该知识库不仅用于多语机译系统，也示为？1到12的整数月”)，当加入英语后，由于英可作为自然语言理解和处理的基础知识库语表示十二个月的语义单元为“January”、“Febru- ary”、…、“December'”表示l2个数的语义单元为参考文献 “One”、“Two”、…、“Twelve'”,因此库中要表示上 [1]Gao QS,Hu Y.Gao X Y.Semantic language and multi-language MT approach based on SL.J Comput Sci Technol,2003.18 述月份和数字则需要“January'”(一月)、“February” (6):848 (二月)、…、“December'”(十二月)和“One”(一)、 [2]Gao QS,Li L,Liu H L.Key word filter method based on prun- Two”(二)、…、“T”(十二)24个基本语义单元 ing on the tree representations of semantic elements.J Univ Sci 此时汉语表示库中会扩充“一月”为基本语义单元， Technol Beijing.006.28(12):1191 (高庆狮，李莉，刘宏岚，基于语义单元表示树剪枝的关键字 “一”（对应“One”)和“一月”（对应January”)将作为过滤方法.北京科技大学学报，2006,28(12)：1191) 库中的两个基本语义单元，其他月份同理，即加入英 [3]Gao QS,Gao X Y.Hu Y.Machine Translation System and 语后语义单元库中的语义单元就从13个扩充到24 Method based on Semantic Language:China Patent 个基本语义单元，加入其他种类语言的情况类似 ZL01131689.6.2005-109 (高庆狮，高小宇，胡玥基于语义语言的机器翻译系统及方 5.2自然语言种类增多时语义单元库的扩充方法法.中国专利：ZL01131689.6.2005-11-09) 当自然语言种类增加时（由K种增加到K十1 [4]Gao Q S.Chen Z X.Subhuman machine translation system. 种)，为了满足多语互译的要求需对统一的多语语义 Comput Res Dev,1989.26(2):1 单元库进行扩充，扩充的方法为：(1)对每一个受限 (高庆狮，陈肇雄，类人机器翻译系统，计算机研究与发展， 1989,26(2):1) 领域或子领域的场所、情景的句子语料集补充新增 [5]Gao X Y,Gao QS.Hu Y.et al.High-speed multi-language ma- 语言的准确译文；(2)对新增语言进行语义单元提 chine translation method based on pruning on the tree of represen 取工作，只提取新增语言的语义单元及其表示，然后 tations of semantic elements.Software J.2005,16(11):1909 与原来的库进行合并. (高小宇，高庆狮，胡玥，等.基于语义单元表示树剪枝的高速多语言机器翻译方法.软件学报，2005,16(11)：1909) 5.3新增自然语言的语义单元及其表示与原库进 [7]Cormen T H.Leiserson C E.Rivest R L.Introduction to Algo- 行合并的方法 rithms.Boston:The MIT Press.1995 将提取出的新增自然语言的语义单元及其表示 [8]Gao QS,Liu Z Y.Sloping and-shaking:multiway merging and 经去重复和去可弃后与原来的库进行合并，具体方 sorting-SeiChina￡，1997,40(3)：225 [9]Gao QS.A unified (log N)and optimal sorting vector algo- 法是：对相同的语义单元把其在新增语言上的表示 rithm.J Comput Sci Technol.1995.10(5):470

语义单元 3 4 参数数目与类型语义单元的汉语表示语义单元的英语表示语义单元的日语表示类型 1NOUN｛姓｝［1］先生 Mr．［1］［1］さん NOUN｛人｝ 0 陈 Chen 陈 NOUN｛姓｝图9 语义单元及其表达 Fig．9 Semantic units and their representations 随着库中语义单元数量的增加会出现许多需再分解的语义单元．将这类语义单元再分解有助于简化库减少库的容量提高库的质量． 5 在统一的多语语义单元知识库上扩增语言种类时库的变化 5∙1 自然语言种类的增多时语义单元库的扩充由于不同的语言对语义单元的表示方式不同既不同语言表示同一意思的语言结构不同当扩充一种语言入库时会引起已有库中的语义单元的扩充和修改．例如欲表示月份“一月、二月、……、十二月”和数字“一、二、……、十二”当只考虑汉语和日语对应时语义单元库中只需13个基本语义单元 “一”、“二”、……、“十二”和“月”即可表示（月份可表示为“〈1到12的整数〉月”）．当加入英语后由于英语表示十二个月的语义单元为“January ”、“February”、……、“December”表示12个数的语义单元为 “One”、“Two”、……、“Twelve”因此库中要表示上述月份和数字则需要“January”（一月）、“February” （二月）、……、“December” （十二月）和“One” （一）、 “Two”（二）、……、“T ”（十二）24个基本语义单元．此时汉语表示库中会扩充“一月”为基本语义单元 “一”（对应“One”）和“一月”（对应“January”）将作为库中的两个基本语义单元其他月份同理即加入英语后语义单元库中的语义单元就从13个扩充到24 个基本语义单元．加入其他种类语言的情况类似． 5∙2 自然语言种类增多时语义单元库的扩充方法当自然语言种类增加时（由 K 种增加到 K ＋1 种）为了满足多语互译的要求需对统一的多语语义单元库进行扩充扩充的方法为：（1）对每一个受限领域或子领域的场所、情景的句子语料集补充新增语言的准确译文；（2）对新增语言进行语义单元提取工作只提取新增语言的语义单元及其表示然后与原来的库进行合并． 5∙3 新增自然语言的语义单元及其表示与原库进行合并的方法将提取出的新增自然语言的语义单元及其表示经去重复和去可弃后与原来的库进行合并．具体方法是：对相同的语义单元把其在新增语言上的表示并入库中；对原库中没有但新语言上有的语义单元将其补入库中并补齐它在库中各语言上的表示；对原库中已有但新语言上没有的直接在库中补上新语言上的表示． 6 结论本文讨论了高质量、可扩充、无可弃、无重复、无非正常歧义的统一多语语义单元知识库的构建方法．该库是基于语义语言理论的多语互译机器翻译系统的基础知识库建立在该库基础上的多语互译机译系统能够用同一算法和程序方便地实现多种自然语言之间的互译且当加入一种新的语言时只需对库进行扩充不需修改系统程序就能方便的实现该语言的翻译．该知识库不仅用于多语机译系统也可作为自然语言理解和处理的基础知识库．参考文献［1］ Gao Q SHu YGao X Y．Semantic language and mult-i language MT approach based on SL．J Comput Sci Technol200318 （6）：848 ［2］ Gao Q SLi LLiu H L．Key word filter method based on pruning on the tree representations of semantic elements．J Univ Sci Technol Beijing200628（12）：1191 （高庆狮李莉刘宏岚．基于语义单元表示树剪枝的关键字过滤方法．北京科技大学学报200628（12）：1191）［3］ Gao Q SGao X YHu Y． Machine T ranslation System and Method based on Semantic L anguage： China Patent ZL01131689．6．2005—11—09 （高庆狮高小宇胡．基于语义语言的机器翻译系统及方法．中国专利：ZL01131689．6．2005—11—09）［4］ Gao Q SChen Z X．Subhuman machine translation system． Comput Res Dev198926（2）：1 （高庆狮陈肇雄．类人机器翻译系统．计算机研究与发展 198926（2）：1）［5］ Gao X YGao Q SHu Yet al．High-speed mult-i language machine translation method based on pruning on the tree of representations of semantic elements．Software J200516（11）：1909 （高小宇高庆狮胡等．基于语义单元表示树剪枝的高速多语言机器翻译方法．软件学报200516（11）：1909）［7］ Cormen T HLeiserson C ERivest R L．Introduction to Algorithms．Boston：The MIT Press1995 ［8］ Gao Q SLiu Z Y．Sloping-and-shaking：multiway merging and sorting．Sci China E199740（3）：225 ［9］ Gao Q S．A unified O（log N） and optimal sorting vector algorithm．J Comput Sci Technol199510（5）：470 ·704· 北京科技大学学报第30卷

点击下载完整版文档（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录