正在加载图片...
D0I:10.13374/1.issnl00I103.2008.06.02I 第30卷第6期 北京科技大学学报 Vol.30 No.6 2008年6月 Journal of University of Science and Technology Beijing Jun.2008 多语言机译系统中高质量语义单元库形成方法 胡玥高小宇 高庆狮 北京科技大学信息工程学院,北京100083 摘要讨论构建多自然语言互译机译系统所需的高质量、可扩充、完备的、无可弃、无重复、无非正常歧义的多语统一语义 单元知识库·在构建过程中采用类型特征分类方法有效降低计算复杂性,使去重复的计算量降低一半,去可弃的计算量降到 O(N)(N是语义单元库规模,P是有界数,B<C,C是常数):全部算法都可以在多核处理机上以常数效率地实现.同时讨 论了语义单元的再分解和自然语言种类的增多时语义单元知识库的扩充方法:该知识库不仅用于多自然语言互译系统,还可 作为自然语言理解和处理的基础知识库. 关键词自然语言处理系统:自然语言:机器翻译:语义单元 分类号TP391.1 Formation method of a high-quality semantic unit base for a multi-language ma- chine translation system HU Yue,GAO Xiaoyu,GAO Qingshi School of Information Engineering.University of Science and Technology Beijing.Beijing 100083.China ABSTRACT Building up a high-quality,expandable,complete.free-discardable.free-of-repetition and free-of-abnormal-ambiguity multi-language semantic unit knowledge base for a multi-language machine translation system was discussed.In the process of buildup,the type feature classification method was adopted o effectively reduce the calculation complexity,make the calculation for repetition removal reduced by half,and reduce the trash-removal calculation to 0(BN),where N is the scale of the semantic unit knowledge base.B is bounded.C and C is a constant.All algorithms can be concurrently realized on a multi-"core processor in constant efficiency.Furthermore,the re-decomposition of a semantic unit and the expansion methods for the semantic unit knowledge base in case of natural language type increase were also discussed.This knowledge base can be used not only for the multi-language machine translation system but also as the basic knowledge base for natural language understanding and processing. KEY WORDS natural language processing system:natural language;machine translation;semantic unit 在语义语言理论中,两种自然语言(1,J)的句 种语言表示, 子或者文本的翻译可以通过两步来实现].第1 基于语义语言的多语互译机译系统由两部分组 步,把自然语言【通过“在自然语言【上的语义分 成,一是统一的多自然语言语机器翻译软件;另一个 析”求出“句义表达式”.该过程可以通过语义单元 是高质量可扩充的、完备的、无可弃的、无重复的、无 树的特殊剪枝来实现,第2步,把句义表达式通过 非正常歧义的多语语义单元知识库, 简单地“在自然语言J上的代入展开”成为自然语 目前,一般的双语或多语词典其对应关系都是 言J的句子或者文本,在这步中,用基于语义语言 建立在词的基础上的,没有语义单元的对应关系, 学的翻译方法可方便地将句义表达式同时展开成多 无法满足基于语义语言的多语互译要求, 本文将讨论在语义语言理论和方法的基础上, 收稿日期:2007-12-09修回日期:2008-01-28 如何从受限领域、场所、情景中提取无可弃、无重复、 基金项目:国家高技术研究发展计划资助项目(N。 无歧义的多语的语义单元,和如何将所提取的语义 2006AA01Z140,No.2006AA010101):国家自然科学基金资助项目 单元有效地构成一个高质量、可扩充、完备的、无可 (No.60736014) 作者简介:胡玥(1963-)女,副教授,博士, 弃、无重复、无非正常歧义的统一的多语语义单元知 E-mail:huhuyue-001@sina.com 识库,且基于该语义单元知识库的多语翻译系统的多语言机译系统中高质量语义单元库形成方法 胡 高小宇 高庆狮 北京科技大学信息工程学院‚北京100083 摘 要 讨论构建多自然语言互译机译系统所需的高质量、可扩充、完备的、无可弃、无重复、无非正常歧义的多语统一语义 单元知识库.在构建过程中采用类型特征分类方法有效降低计算复杂性‚使去重复的计算量降低一半‚去可弃的计算量降到 O(βN)( N 是语义单元库规模‚β是有界数‚β< C‚C 是常数).全部算法都可以在多核处理机上以常数效率地实现.同时讨 论了语义单元的再分解和自然语言种类的增多时语义单元知识库的扩充方法.该知识库不仅用于多自然语言互译系统‚还可 作为自然语言理解和处理的基础知识库. 关键词 自然语言处理系统;自然语言;机器翻译;语义单元 分类号 TP391∙1 Formation method of a high-quality semantic unit base for a mult-i language ma￾chine translation system HU Y ue‚GA O Xiaoyu‚GA O Qingshi School of Information Engineering‚University of Science and Technology Beijing‚Beijing100083‚China ABSTRACT Building up a high-quality‚expandable‚complete‚free-discardable‚free-of-repetition and free-of-abnorma-l ambiguity mult-i language semantic unit knowledge base for a mult-i language machine translation system was discussed.In the process of buildup‚the type feature classification method was adopted o effectively reduce the calculation complexity‚make the calculation for repetition removal reduced by half‚and reduce the trash-removal calculation to O(βN)‚where N is the scale of the semantic unit knowledge base‚βis bounded‚β< C and C is a constant.All algorithms can be concurrently realized on a mult-i core processor in constant efficiency.Furthermore‚the re-decomposition of a semantic unit and the expansion methods for the semantic unit knowledge base in case of natural language type increase were also discussed.T his knowledge base can be used not only for the mult-i language machine translation system but also as the basic knowledge base for natural language understanding and processing. KEY WORDS natural language processing system;natural language;machine translation;semantic unit 收稿日期:2007-12-09 修回日期:2008-01-28 基金 项 目: 国 家 高 技 术 研 究 发 展 计 划 资 助 项 目 ( No. 2006AA01Z140‚No.2006AA010101);国家自然科学基金资助项目 (No.60736014) 作者简介:胡 (1963—)‚女‚副教授‚博士‚ E-mail:huhuyue—001@sina.com 在语义语言理论中‚两种自然语言( I‚J)的句 子或者文本的翻译可以通过两步来实现[1—5].第1 步‚把自然语言 I 通过“在自然语言 I 上的语义分 析”求出“句义表达式”.该过程可以通过语义单元 树的特殊剪枝来实现.第2步‚把句义表达式通过 简单地“在自然语言 J 上的代入展开”成为自然语 言 J 的句子或者文本.在这步中‚用基于语义语言 学的翻译方法可方便地将句义表达式同时展开成多 种语言表示. 基于语义语言的多语互译机译系统由两部分组 成‚一是统一的多自然语言语机器翻译软件;另一个 是高质量可扩充的、完备的、无可弃的、无重复的、无 非正常歧义的多语语义单元知识库. 目前‚一般的双语或多语词典其对应关系都是 建立在词的基础上的.没有语义单元的对应关系‚ 无法满足基于语义语言的多语互译要求. 本文将讨论在语义语言理论和方法的基础上‚ 如何从受限领域、场所、情景中提取无可弃、无重复、 无歧义的多语的语义单元‚和如何将所提取的语义 单元有效地构成一个高质量、可扩充、完备的、无可 弃、无重复、无非正常歧义的统一的多语语义单元知 识库.且基于该语义单元知识库的多语翻译系统的 第30卷 第6期 2008年 6月 北 京 科 技 大 学 学 报 Journal of University of Science and Technology Beijing Vol.30No.6 Jun.2008 DOI:10.13374/j.issn1001-053x.2008.06.021
向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有