正在加载图片...
第6期 胡玥等:多语言机译系统中高质量语义单元库形成方法 701. 是重复,而是在那些自然语言上存在歧义 语义单元 参数数目与类型 语义单元的汉语表示 语义单元的英语表示 语义单元的日语表示 类型 1(NOUNI职称}) 1,NOUN 1职称f 陈先生是[1] Mr.Chen is an[1] 陈各人[1]心寸 0 工程师 engineer 技师 NOUN{职称 3(NOUNI人) 1,NOUN I人} [1]是工程师 [1]is an engineer [1]I技师c方 4(NOUN人, 2,NOUN人t, [1]是[2] [1]isa[2] [1][2]c寸 NOUN I职称I) NOUN1职称 0 陈先生 Mr.Chen 陈各人 NOUN 1人 0 陈先生是工程师 Mr.Chen is an engineer 陈兰人!士技师G寸 0 先生 Mr. 色人 NOUN称谓 图3语义单元及其表达 Fig.3 Semantic units and their representations (6)去可弃可先从参数少的语义单元入手,假 后,处理带t十1个参数的语义单元,直到带参数的 设单个语义单元最多有k个参数,取有t=1(t≤k) 语义单元全部处理完毕,如在例子中,先从参量个 个参数的语义单元,代入类型为该参数类型的语义 数为1的“1”入手,当“2”代入“1”后“6”就被去掉; 单元,然后检查是否有语义单元与其相同.如果有, 再处理参数个数为2的“4”,当“5”代入“4”后,“1"就 就清除与其相同的语义单元:如果代入的语义单元 可以去掉;“2”代入“4”后,“3”就可以去掉.显然,7 还带参数,也需要代入类型为该参数类型的语义单 个语义单元只剩下如图4所示的4个 元进行检查,所有的带t个参数的语义单元处理完 语义单元 参数数目与类型 语义单元的汉语表示 语义单元的英语表示 语义单元的日语表示 类型 2 0 工程师 engineer 技师 NOUN职称 4(NOUN I人}, 2,N人,N{职称} [1]是[2] [1]isa[2] [1][2]c寸 NOUN{职称) 陈先生 Mr.Chen 陈总人 NOUN人} 先生 Mr. 色人 NOUN I称谓! 图4语义单元及其表达 Fig.4 Semantic units and their representations “7”虽然没有被证明可弃,但是代入生成句子过 单元只剩下如图5所示的3个,重新编号取名. 程中没有被用到,也必须去掉.这样一来,7个语义 语义单元 参数数目与类型 语义单元的汉语表示 语义单元的英语表示 语义单元的日语表示 类型 1(NoUN人}, 2,NOUN I人{, NOUN1职称) NOUN1职称! [1]是[2] [1]isa[2] [1][2]c寸 0 工程师 engineer 技师 NOUN I职称} 陈先生 Mr.Chen 陈总人 NOUN1人} 图5语义单元及其表达 Fig-5 Semantic units and their representations (7)将本句提取的语义单元集加到前面生成的 情景的句子全部处理完 语义单元集中,逐步形成该领域或者子领域、场所、 2.3对生成的语义单元子库进行去重复、去可弃 情景下的语义单元知识子库, 对前面生成的受限领域语义单元子库需进一步 (⑧)检查该受限领域、场所、情景、或者子领域 进行去重复和去可弃处理, 内,句子是否取完,如果均已处理完就结束此过程 (1)去重复处理.对子库中的全部语义单元集 进入整个子库的消歧和消可弃处理(参见2.3节): 进行去重复处理仍是先对全部语义单元按语义单元 否则转到步骤(1)继续处理下句,直到该领域、场所、 类型进行分类,然后进行排序去重复,但要注意:两是重复‚而是在那些自然语言上存在歧义. 语义单元 1(NOUN{职称}) 2 3(NOUN{人}) 4(NOUN{人}‚ NOUN{职称}) 5 6 7 参数数目与类型 语义单元的汉语表示 语义单元的英语表示 语义单元的日语表示 类型 1‚NOUN{职称} 陈先生是[1] Mr.Chen is an[1] 陈さんは[1]です S 0 工程师 engineer 技师 NOUN{职称} 1‚NOUN{人} [1] 是工程师 [1] is an engineer [1]は技师です S 2‚NOUN{人}‚ NOUN{职称} [1] 是 [2] [1] is a [2] [1]は[2]です S 0 陈先生 Mr.Chen 陈さん NOUN{人} 0 陈先生是工程师 Mr.Chen is an engineer 陈さんは技师です S 0 先生 Mr. さん NOUN{称谓} 图3 语义单元及其表达 Fig.3 Semantic units and their representations (6) 去可弃可先从参数少的语义单元入手.假 设单个语义单元最多有 k 个参数‚取有 t=1( t≤k) 个参数的语义单元‚代入类型为该参数类型的语义 单元‚然后检查是否有语义单元与其相同.如果有‚ 就清除与其相同的语义单元;如果代入的语义单元 还带参数‚也需要代入类型为该参数类型的语义单 元进行检查.所有的带 t 个参数的语义单元处理完 后‚处理带 t+1个参数的语义单元‚直到带参数的 语义单元全部处理完毕.如在例子中‚先从参量个 数为1的“1” 入手‚当“2”代入“1”后“6”就被去掉; 再处理参数个数为2的“4”‚当“5”代入“4”后‚“1”就 可以去掉;“2”代入“4”后‚“3”就可以去掉.显然‚7 个语义单元只剩下如图4所示的4个. 语义单元 2 4(NOUN{人}‚ NOUN{职称}) 5 7 参数数目与类型 语义单元的汉语表示 语义单元的英语表示 语义单元的日语表示 类型 0 工程师 engineer 技师 NOUN{职称} 2‚N{人}‚N{职称} [1] 是 [2] [1] is a [2] [1]は[2]です S 0 陈先生 Mr.Chen 陈さん NOUN{人} 0 先生 Mr. さん NOUN{称谓} 图4 语义单元及其表达 Fig.4 Semantic units and their representations “7”虽然没有被证明可弃‚但是代入生成句子过 程中没有被用到‚也必须去掉.这样一来‚7个语义 单元只剩下如图5所示的3个‚重新编号取名. 语义单元 1(NOUN{人}‚ NOUN{职称}) 2 3 参数数目与类型 语义单元的汉语表示 语义单元的英语表示 语义单元的日语表示 类型 2‚NOUN{人}‚ NOUN{职称} [1] 是 [2] [1] is a [2] [1]は[2]です S 0 工程师 engineer 技师 NOUN{职称} 0 陈先生 Mr.Chen 陈さん NOUN{人} 图5 语义单元及其表达 Fig.5 Semantic units and their representations (7) 将本句提取的语义单元集加到前面生成的 语义单元集中‚逐步形成该领域或者子领域、场所、 情景下的语义单元知识子库. (8) 检查该受限领域、场所、情景、或者子领域 内‚句子是否取完.如果均已处理完就结束此过程 进入整个子库的消歧和消可弃处理(参见2∙3节); 否则转到步骤(1)继续处理下句‚直到该领域、场所、 情景的句子全部处理完. 2∙3 对生成的语义单元子库进行去重复、去可弃 对前面生成的受限领域语义单元子库需进一步 进行去重复和去可弃处理. (1) 去重复处理.对子库中的全部语义单元集 进行去重复处理仍是先对全部语义单元按语义单元 类型进行分类‚然后进行排序去重复.但要注意:两 第6期 胡 等: 多语言机译系统中高质量语义单元库形成方法 ·701·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有