正在加载图片...
,704 北京科技大学学报 第30卷 语义单元 参数数目与类型 语义单元的汉语表示 语义单元的英语表示 语义单元的日语表示 类型 3 1,NOUNI姓} [1]先生 Mr.[1] [1]各人 NOUN人 4 陈 Chen 陈 NOUN姓} 图9语义单元及其表达 Fig.9 Semantic units and their representations 随着库中语义单元数量的增加,会出现许多需 并入库中;对原库中没有但新语言上有的语义单元, 再分解的语义单元,将这类语义单元再分解有助于 将其补入库中,并补齐它在库中各语言上的表示:对 简化库,减少库的容量,提高库的质量 原库中已有,但新语言上没有的,直接在库中补上新 5在统一的多语语义单元知识库上扩增语 语言上的表示 言种类时库的变化 6结论 5.1自然语言种类的增多时语义单元库的扩充 本文讨论了高质量、可扩充、无可弃、无重复、无 由于不同的语言对语义单元的表示方式不同, 非正常歧义的统一多语语义单元知识库的构建方 既不同语言表示同一意思的语言结构不同,当扩充 法,该库是基于语义语言理论的多语互译机器翻译 一种语言入库时会引起已有库中的语义单元的扩充 系统的基础知识库,建立在该库基础上的多语互译 和修改,例如,欲表示月份“一月、二月、…、十二 机译系统能够用同一算法和程序方便地实现多种自 月”和数字“一、二、…、十二”当只考虑汉语和日语 然语言之间的互译,且当加入一种新的语言时,只需 对应时,语义单元库中只需13个基本语义单元 对库进行扩充不需修改系统程序就能方便的实现该 “一”、“二”、…、“十二”和“月”即可表示(月份可表 语言的翻译,该知识库不仅用于多语机译系统,也 示为?1到12的整数月”),当加入英语后,由于英 可作为自然语言理解和处理的基础知识库 语表示十二个月的语义单元为“January”、“Febru- ary”、…、“December'”表示l2个数的语义单元为 参考文献 “One”、“Two”、…、“Twelve'”,因此库中要表示上 [1]Gao QS,Hu Y.Gao X Y.Semantic language and multi-language MT approach based on SL.J Comput Sci Technol,2003.18 述月份和数字则需要“January'”(一月)、“February” (6):848 (二月)、…、“December'”(十二月)和“One”(一)、 [2]Gao QS,Li L,Liu H L.Key word filter method based on prun- Two”(二)、…、“T”(十二)24个基本语义单元 ing on the tree representations of semantic elements.J Univ Sci 此时汉语表示库中会扩充“一月”为基本语义单元, Technol Beijing.006.28(12):1191 (高庆狮,李莉,刘宏岚,基于语义单元表示树剪枝的关键字 “一”(对应“One”)和“一月”(对应January”)将作为 过滤方法.北京科技大学学报,2006,28(12):1191) 库中的两个基本语义单元,其他月份同理,即加入英 [3]Gao QS,Gao X Y.Hu Y.Machine Translation System and 语后语义单元库中的语义单元就从13个扩充到24 Method based on Semantic Language:China Patent 个基本语义单元,加入其他种类语言的情况类似 ZL01131689.6.2005-109 (高庆狮,高小宇,胡玥基于语义语言的机器翻译系统及方 5.2自然语言种类增多时语义单元库的扩充方法 法.中国专利:ZL01131689.6.2005-11-09) 当自然语言种类增加时(由K种增加到K十1 [4]Gao Q S.Chen Z X.Subhuman machine translation system. 种),为了满足多语互译的要求需对统一的多语语义 Comput Res Dev,1989.26(2):1 单元库进行扩充,扩充的方法为:(1)对每一个受限 (高庆狮,陈肇雄,类人机器翻译系统,计算机研究与发展, 1989,26(2):1) 领域或子领域的场所、情景的句子语料集补充新增 [5]Gao X Y,Gao QS.Hu Y.et al.High-speed multi-language ma- 语言的准确译文;(2)对新增语言进行语义单元提 chine translation method based on pruning on the tree of represen 取工作,只提取新增语言的语义单元及其表示,然后 tations of semantic elements.Software J.2005,16(11):1909 与原来的库进行合并. (高小宇,高庆狮,胡玥,等.基于语义单元表示树剪枝的高速 多语言机器翻译方法.软件学报,2005,16(11):1909) 5.3新增自然语言的语义单元及其表示与原库进 [7]Cormen T H.Leiserson C E.Rivest R L.Introduction to Algo- 行合并的方法 rithms.Boston:The MIT Press.1995 将提取出的新增自然语言的语义单元及其表示 [8]Gao QS,Liu Z Y.Sloping and-shaking:multiway merging and 经去重复和去可弃后与原来的库进行合并,具体方 sorting-SeiChina£,1997,40(3):225 [9]Gao QS.A unified (log N)and optimal sorting vector algo- 法是:对相同的语义单元把其在新增语言上的表示 rithm.J Comput Sci Technol.1995.10(5):470语义单元 3 4 参数数目与类型 语义单元的汉语表示 语义单元的英语表示 语义单元的日语表示 类型 1‚NOUN{姓} [1] 先生 Mr.[1] [1] さん NOUN{人} 0 陈 Chen 陈 NOUN{姓} 图9 语义单元及其表达 Fig.9 Semantic units and their representations 随着库中语义单元数量的增加‚会出现许多需 再分解的语义单元.将这类语义单元再分解有助于 简化库‚减少库的容量‚提高库的质量. 5 在统一的多语语义单元知识库上扩增语 言种类时库的变化 5∙1 自然语言种类的增多时语义单元库的扩充 由于不同的语言对语义单元的表示方式不同‚ 既不同语言表示同一意思的语言结构不同‚当扩充 一种语言入库时会引起已有库中的语义单元的扩充 和修改.例如‚欲表示月份“一月、二月、……、十二 月”和数字“一、二、……、十二”当只考虑汉语和日语 对应时‚语义单元库中只需13个基本语义单元 “一”、“二”、……、“十二”和“月”即可表示(月份可表 示为“〈1到12的整数〉月”).当加入英语后‚由于英 语表示十二个月的语义单元为“January ”、“Febru￾ary”、……、“December”表示12个数的语义单元为 “One”、“Two”、……、“Twelve”‚因此库中要表示上 述月份和数字则需要“January”(一月)、“February” (二月)、……、“December” (十二月)和“One” (一)、 “Two”(二)、……、“T ”(十二)24个基本语义单元. 此时汉语表示库中会扩充“一月”为基本语义单元‚ “一”(对应“One”)和“一月”(对应“January”)将作为 库中的两个基本语义单元‚其他月份同理‚即加入英 语后语义单元库中的语义单元就从13个扩充到24 个基本语义单元.加入其他种类语言的情况类似. 5∙2 自然语言种类增多时语义单元库的扩充方法 当自然语言种类增加时(由 K 种增加到 K +1 种)‚为了满足多语互译的要求需对统一的多语语义 单元库进行扩充‚扩充的方法为:(1) 对每一个受限 领域或子领域的场所、情景的句子语料集补充新增 语言的准确译文;(2) 对新增语言进行语义单元提 取工作‚只提取新增语言的语义单元及其表示‚然后 与原来的库进行合并. 5∙3 新增自然语言的语义单元及其表示与原库进 行合并的方法 将提取出的新增自然语言的语义单元及其表示 经去重复和去可弃后与原来的库进行合并.具体方 法是:对相同的语义单元把其在新增语言上的表示 并入库中;对原库中没有但新语言上有的语义单元‚ 将其补入库中‚并补齐它在库中各语言上的表示;对 原库中已有‚但新语言上没有的‚直接在库中补上新 语言上的表示. 6 结论 本文讨论了高质量、可扩充、无可弃、无重复、无 非正常歧义的统一多语语义单元知识库的构建方 法.该库是基于语义语言理论的多语互译机器翻译 系统的基础知识库‚建立在该库基础上的多语互译 机译系统能够用同一算法和程序方便地实现多种自 然语言之间的互译‚且当加入一种新的语言时‚只需 对库进行扩充不需修改系统程序就能方便的实现该 语言的翻译.该知识库不仅用于多语机译系统‚也 可作为自然语言理解和处理的基础知识库. 参 考 文 献 [1] Gao Q S‚Hu Y‚Gao X Y.Semantic language and mult-i language MT approach based on SL.J Comput Sci Technol‚2003‚18 (6):848 [2] Gao Q S‚Li L‚Liu H L.Key word filter method based on prun￾ing on the tree representations of semantic elements.J Univ Sci Technol Beijing‚2006‚28(12):1191 (高庆狮‚李莉‚刘宏岚.基于语义单元表示树剪枝的关键字 过滤方法.北京科技大学学报‚2006‚28(12):1191) [3] Gao Q S‚Gao X Y‚Hu Y. Machine T ranslation System and Method based on Semantic L anguage: China Patent ZL01131689.6.2005—11—09 (高庆狮‚高小宇‚胡 .基于语义语言的机器翻译系统及方 法.中国专利:ZL01131689.6.2005—11—09) [4] Gao Q S‚Chen Z X.Subhuman machine translation system. Comput Res Dev‚1989‚26(2):1 (高庆狮‚陈肇雄.类人机器翻译系统.计算机研究与发展‚ 1989‚26(2):1) [5] Gao X Y‚Gao Q S‚Hu Y‚et al.High-speed mult-i language ma￾chine translation method based on pruning on the tree of represen￾tations of semantic elements.Software J‚2005‚16(11):1909 (高小宇‚高庆狮‚胡 ‚等.基于语义单元表示树剪枝的高速 多语言机器翻译方法.软件学报‚2005‚16(11):1909) [7] Cormen T H‚Leiserson C E‚Rivest R L.Introduction to Algo￾rithms.Boston:The MIT Press‚1995 [8] Gao Q S‚Liu Z Y.Sloping-and-shaking:multiway merging and sorting.Sci China E‚1997‚40(3):225 [9] Gao Q S.A unified O(log N) and optimal sorting vector algo￾rithm.J Comput Sci Technol‚1995‚10(5):470 ·704· 北 京 科 技 大 学 学 报 第30卷
<<向上翻页
©2008-现在 cucdc.com 高等教育资讯网 版权所有