正在加载图片...
第6期 胡玥等:多语言机译系统中高质量语义单元库形成方法 .699 翻译复杂性保持在0(L)可,与其巨大的语义单元 单个的“times'”这个词按词为基本单位时即可以当 库的大小无关,其中L是被翻译内容的长度, “倍”又可以当“乘”会引起歧义,但以语义单元为基 1统一的多语语义单元知识库 本单位划分时,“倍”和“乘”就可以区分.当“倍”时 语义单元为?number)times”,当“乘”时语义单元 不同自然语言可以互译是因为它们的句子有相 为?number)times〈number)”.非正常歧义是指本 同语义·句子的语义称为句义(SS)·句义内表达一 可区分,但由于判定时少某些知识造成的假歧义 个意思的单元称为语义单元(SU)].语义单元在 如,“register”作为名词,可以是计算机领域中的“寄 一个自然语言I(如,英语、汉语等)上的表示称为语 存器”也可以是入住旅馆的“入住登记”如果不加领 义单元表示(R$U),从这个角度来看,句子是由带 域、场所、情景的区分,就会出现歧义 变量和不带变量的语义单元表示通过代入而构 “正常歧义”是指语言本身存在的固有的无法区 成的, 分的真歧义, 统一的多语语义单元知识库是按语义语言理 “知识库无假歧义和非正常歧义”是指本知识库 论]建立的以语义单元为基本单位的多语知识 通过以语义单元为基本单位消除了假歧义,同时通 库.该库具有句子完备、无可弃、无重复、无假歧义 过引入领域、场所或情景等相关参量解决了非正常 和非正常歧义、可扩充的特性,其中,句子完备是指 歧义问题 句子的“语义单元集是完备的”,即通过该语义单元 “知识库可扩充”是指该库不仅对不同的领域、 集之中的语义单元的代入,可以形成该句 场所、情景可进行扩充,还可加入不同种类的语言, “无可弃”是指不能通过其他语义单元代入产生 且整个系统在加入一种语言后不需要修改算法和程 的语义单元称为基本语义单元或不可弃语义单元, 序就能实现该语的翻译 “知识库无可弃”是指语义单元知识库中的单元均为 库的构建过程为,逐一从单个受限领域、场所或 基本语义单元 情景的语料中提取语义单元,并构建该领域的完备 “无假歧义和非正常歧义”是指:一般来讲广义 的、无重复的、无可弃的多语语义单元子库.,然后将 歧义包括假歧义、非正常歧义(即可区分的准歧义) 不断增加的子库合并,再不断增加自然语言的种类, 和正常歧义(即不可区分的真歧义)·其中,假歧义 最后构造出统一的、多自然语言语义单元知识库, 是指基本语言单位划分不正确引起的歧义,例如, 其形成过程如图1和图2所示, 取一个句子或术语 用户原文 受限领域语言知 提取该句的语义单元及 消去全部重复的语义 受限领域 其双语或者多语表示 单元及其表示 语或 基于多语语义单元 表示库的机器 翻译方法和系统 验证该句所提取的语义N 形成 (可以采用已获得 单元及其表示是否完备? 消去全部可弃语义 例 单元及其表示 Y 语语义单 发明专利 (ZL01131689.6) 奥运会 消去该句全部重复可弃 多余语义单元及其表示 表示库 的机器翻译方法 和系统) 全部句子和术语 N 处理结束否? 单或多语翻译 Y 图1一个受限领域或子领域的多语语义单元库的形成过程 Fig.I Formation process of the multi-language semantic unit representative base of limited fields or subfields 2单一受限领域、场所、情景的完备、无可 然科学领域与社会科学领域,自然科学领域又分为 数、理、化、天、地、生、技术科学.数学又分许多分 弃、无重复的多语语义单元子库的形成 枝,每个分枝还可以再分;又如场所分为:公园、学 过程 校、车站、等等,学校又可以再分为教室、实验室、体 人们容易误认为领域、场所或情景只有数十种, 育馆、操场、老师办公室、校长办公室等;教室又可以 其实不然,领域、场所情景是数以百计、千计的,如 分为讲课、辅导、讨论、辩论、开会、打扫等不同情景, 科技领域分科学领域与技术领域.科学领域又分自 本节讨论如何从单个受限领域、场所或者情景的语翻译复杂性保持在 O( L ) [5]‚与其巨大的语义单元 库的大小无关‚其中 L 是被翻译内容的长度. 1 统一的多语语义单元知识库 不同自然语言可以互译是因为它们的句子有相 同语义.句子的语义称为句义(SS).句义内表达一 个意思的单元称为语义单元(SU) [1—2].语义单元在 一个自然语言 I(如‚英语、汉语等)上的表示称为语 义单元表示(RISU).从这个角度来看‚句子是由带 变量和不带变量的语义单元表示通过代入而构 成的. 统一的多语语义单元知识库是按语义语言理 论[1—3]建立的以语义单元为基本单位的多语知识 库.该库具有句子完备、无可弃、无重复、无假歧义 和非正常歧义、可扩充的特性.其中‚句子完备是指 句子的“语义单元集是完备的”‚即通过该语义单元 集之中的语义单元的代入‚可以形成该句. “无可弃”是指不能通过其他语义单元代入产生 的语义单元称为基本语义单元或不可弃语义单元‚ “知识库无可弃”是指语义单元知识库中的单元均为 基本语义单元. “无假歧义和非正常歧义”是指:一般来讲广义 歧义包括假歧义、非正常歧义(即可区分的准歧义) 和正常歧义(即不可区分的真歧义).其中‚假歧义 是指基本语言单位划分不正确引起的歧义.例如‚ 单个的“times”这个词按词为基本单位时即可以当 “倍”又可以当“乘”会引起歧义.但以语义单元为基 本单位划分时‚“倍” 和“乘”就可以区分.当“倍”时 语义单元为“〈number〉times”‚当“乘”时语义单元 为“〈number〉times〈number〉”.非正常歧义是指本 可区分‚但由于判定时少某些知识造成的假歧义 如‚“register”作为名词‚可以是计算机领域中的“寄 存器”也可以是入住旅馆的“入住登记” 如果不加领 域、场所、情景的区分‚就会出现歧义. “正常歧义”是指语言本身存在的固有的无法区 分的真歧义. “知识库无假歧义和非正常歧义”是指本知识库 通过以语义单元为基本单位消除了假歧义‚同时通 过引入领域、场所或情景等相关参量解决了非正常 歧义问题. “知识库可扩充”是指该库不仅对不同的领域、 场所、情景可进行扩充‚还可加入不同种类的语言‚ 且整个系统在加入一种语言后不需要修改算法和程 序就能实现该语的翻译. 库的构建过程为‚逐一从单个受限领域、场所或 情景的语料中提取语义单元‚并构建该领域的完备 的、无重复的、无可弃的多语语义单元子库.然后将 不断增加的子库合并‚再不断增加自然语言的种类‚ 最后构造出统一的、多自然语言语义单元知识库. 其形成过程如图1和图2所示. 图1 一个受限领域或子领域的多语语义单元库的形成过程 Fig.1 Formation process of the mult-i language semantic unit representative base of limited fields or sub-fields 2 单一受限领域、场所、情景的完备、无可 弃、无重复的多语语义单元子库的形成 过程 人们容易误认为领域、场所或情景只有数十种. 其实不然‚领域、场所情景是数以百计、千计的.如 科技领域分科学领域与技术领域.科学领域又分自 然科学领域与社会科学领域.自然科学领域又分为 数、理、化、天、地、生、技术科学.数学又分许多分 枝‚每个分枝还可以再分;又如场所分为:公园、学 校、车站、等等.学校又可以再分为教室、实验室、体 育馆、操场、老师办公室、校长办公室等;教室又可以 分为讲课、辅导、讨论、辩论、开会、打扫等不同情景. 本节讨论如何从单个受限领域、场所或者情景的语 第6期 胡 等: 多语言机译系统中高质量语义单元库形成方法 ·699·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有