正在加载图片...
第6期 胡玥等:多语言机译系统中高质量语义单元库形成方法 .703 个数为k中的参数类型为i类型的语义单元个数, 逐个进行排序和查局部重复,如发现在某语种表示 m是在特征分类下平均每一个小类的语义单元数, 上有重复的语义单元,且它们在其他语种上表示不 之∑U≤N,<1,“是采用长度比较而降低比 同,则重复的语义单元在该语种上存在非正常歧义, =1 需进行消歧处理 较计算量的系数,在上述的特征分类下,m比较 (2)非正常歧义的消歧处理.在各子库合并、 小,所以B=am是一个有界的数6 去重复和去可弃过程中,领域、场所、情景或子领域 3.3在多核并行情况下多个多语语义单元子库 的标志暂时保留,当发现非正常歧义时,由库的提取 合并 过程可知,引入领域或子领域、场所、情景标志作为 在去重复和去可弃过程中,除了“全局排序”之 永久性标志就可在库中消去非正常歧义, 外,全部适合共存储系统的多核高效并行计算,而 “全局排序”本身可以采用基于常数效率高效纵横并 4语义单元再分解一语义单元库的进一 行归并算法的常数排序并行算法,其处理机台数 步完善 P=√N台,计算复杂性也是T=O(bNXN), 在合库后对有些语义单元还需做进一步的再分 效率=0(1). 解处理.例如,在2.2节的例子中,从句子“陈先生 3.4非正常歧义的判别和处理 是工程师“Mr.Chen is an engineer”一“陈冬人(住 (1)非正常歧义的判别,判别非正常歧义必须 技师℃寸”提取了三个语义单元,见图6. 在去重复和去可弃之后,然后分别对库上的各语种 语义单元 参数数目与类型 语义单元的汉语表示 语义单元的英语表示 语义单元的日语表示 类型 1(NOUN I人, 2,N0UN人i, [1]是[2] []isa[2] [1][2]℃寸 NOUN职称) NOUN职称f 2 0 工程师 engineer 技师 NOUN{职称} 0 陈先生 Mr.Chen 陈ě人 NoUN人} 图6语义单元及其表达 Fig.6 Semantic units and their representations 如果在语义单元库中在各语言中同时出现大量 么,i,i,i1,语义单元(及其表示)可以全部被 与“Mr.”和与姓有关的语义单元表示(如图7),那 图8的一个语义单元所代替 语义单元 参数数目与类型 语义单元的汉语表示 语义单元的英语表示 语义单元的日语表示 类型 0 陈先生 Mr.Chen 陈兰人 NOUN人} 2 0 张先生 Mr.Zhang 张总人 NOUN 1人} 9 0 李先生 Mr.Li 李总人 NoUN{人! 。 … 。 400 j 0 陈 Chen 陈 NOUN{姓} j2 0 张 Zhang 张 NOUN1姓} js 0 李 Li 李 NoUN1姓} 44 图7语义单元及其表达 Fig.7 Semantic units and their representations 语义单元 参数数目与类型 语义单元的汉语表示 语义单元的英语表示 语义单元的日语表示 类型 1,NoUN{姓 []先生 Mr.[1] [1]ě人 NoUN人} 图8语义单元及其表达 Fig.8 Semantic unit and its representations 也就是,在2.2节的例子中,3号语义单元(及 可以再分解成为图9所示的两个语义单元(及其表 其表示)“陈先生-Mr.Chen-陈人-NOUN人” 示)个数为 k 中的参数类型为 i 类型的语义单元个数‚ m 是在特征分类下平均每一个小类的语义单元数‚ ∑ 4 k=1∑i Uki≤ N‚α≤1‚α是采用长度比较而降低比 较计算量的系数.在上述的特征分类下‚m 比较 小‚所以 β=α4m 4 是一个有界的数[6]. 3∙3 在多核并行情况下多个多语语义单元子库 合并 在去重复和去可弃过程中‚除了“全局排序”之 外‚全部适合共存储系统的多核高效并行计算.而 “全局排序”本身可以采用基于常数效率高效纵横并 行归并算法的常数排序并行算法‚其处理机台数 P= N台‚计算复杂性也是 T = O(lb N× N)‚ 效率 η= O(1) [7—8]. 3∙4 非正常歧义的判别和处理 (1) 非正常歧义的判别.判别非正常歧义必须 在去重复和去可弃之后‚然后分别对库上的各语种 逐个进行排序和查局部重复.如发现在某语种表示 上有重复的语义单元‚且它们在其他语种上表示不 同‚则重复的语义单元在该语种上存在非正常歧义‚ 需进行消歧处理. (2) 非正常歧义的消歧处理.在各子库合并、 去重复和去可弃过程中‚领域、场所、情景或子领域 的标志暂时保留‚当发现非正常歧义时‚由库的提取 过程可知‚引入领域或子领域、场所、情景标志作为 永久性标志就可在库中消去非正常歧义. 4 语义单元再分解———语义单元库的进一 步完善 在合库后对有些语义单元还需做进一步的再分 解处理.例如‚在2∙2节的例子中‚从句子“陈先生 是工程师”↔“Mr.Chen is an engineer”↔“陈さんは 技师です”提取了三个语义单元‚见图6. 语义单元 1(NOUN{人}‚ NOUN{职称}) 2 3 参数数目与类型 语义单元的汉语表示 语义单元的英语表示 语义单元的日语表示 类型 2‚NOUN{人}‚ NOUN{职称} [1] 是 [2] [1] is a [2] [1]は[2]です S 0 工程师 engineer 技师 NOUN{职称} 0 陈先生 Mr.Chen 陈さん NOUN{人} 图6 语义单元及其表达 Fig.6 Semantic units and their representations 如果在语义单元库中在各语言中同时出现大量 与“Mr.”和与姓有关的语义单元表示(如图7)‚那 么‚i1‚i1‚i1‚…语义单元(及其表示)可以全部被 图8的一个语义单元所代替. 语义单元 i1 i2 i3 … j1 j2 j3 … 参数数目与类型 语义单元的汉语表示 语义单元的英语表示 语义单元的日语表示 类型 0 陈先生 Mr.Chen 陈さん NOUN{人} 0 张先生 Mr.Zhang 张さん NOUN{人} 0 李先生 Mr.Li 李さん NOUN{人} … … … … … 0 陈 Chen 陈 NOUN{姓} 0 张 Zhang 张 NOUN{姓} 0 李 Li 李 NOUN{姓} … … … … … 图7 语义单元及其表达 Fig.7 Semantic units and their representations 语义单元 i1 参数数目与类型 语义单元的汉语表示 语义单元的英语表示 语义单元的日语表示 类型 1‚NOUN{姓} [1] 先生 Mr.[1] [1] さん NOUN{人} 图8 语义单元及其表达 Fig.8 Semantic unit and its representations 也就是‚在2∙2节的例子中‚3号语义单元(及 其表示)“陈先生-Mr.Chen -陈さん-NOUN {人}” 可以再分解成为图9所示的两个语义单元(及其表 示). 第6期 胡 等: 多语言机译系统中高质量语义单元库形成方法 ·703·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有