正在加载图片...
第3期 胡金铭,等:引人复述技术的统计机器翻译研究综述 ·205· 缺少下述某种表达形式时,那么翻译系统就不会翻 3 总结与展望 译相应的文本.利用复述知识来阐述下述表达形式 之间的关系,使翻译系统融入更多的单语知识,且对 本文对引入复述的统计机器翻译研究的进展进 不同表达形式的同义句翻译有更好的处理,从而可 行了综述.重点介绍了复述在统计机器翻译应用研 以改善数据稀疏带来的问题, 究中的几个关键问题,包括复述改善模型训练、复述 表2复述多样性实例 提高调参效果、复述改写待译语句和复述改善机器 Table 2 Examples of the diversity of paraphrase 翻译自动评测.虽然对复述和机器翻译问题的探讨 多样性例句 序号 由来已久,但将复述与统计机器翻译相结合进行广 A beer,please. (1) 泛的研究却不足10年.所以还存在许多值得深入探 Beer,please. (2) 索的问题,在此提出一些值得进一步挖掘的研究方 Can I have a beer? (3) 向,希望对本领域的研究有所启发 Give me a beer,please. (4) 1)尽管人们已经提出了多种方法用于获取复 I would like beer. (5) 述句、复述短语和复述模板等资源.然而,获取的资 I'd like a beer,please (6) 源精确度还较低,含有的噪声太多.因此,如何找到 2)进化性.语言多样化不单表现在个体使用的 一种有效的方法,对获取的复述资源进行过滤,并且 不同,同时随着时代发展,语言整体也在不断地进 有效地应用到统计机器翻译中,这是一个重要的研 化新词、新的语法结构的诞生使语言的表达多种多 究课题, 样.目前网络语言日趋流行,每天都可能有新词诞 2)虽然已有研究者将复述技术应用到统计机 生,或者是旧词生新义.表3列举了时下流行的新词 器翻译的不同阶段,但机器翻译和复述仍是2个独 以及对应含义相近的旧词可以发现,所谓新词绝大 立的子集,没有将机器翻译与复述融合为一个模型, 多数都是已存在的词语,只是用一种新奇的字词组 尤其是复述和语言模型结合的研究还不是很多[]」 合来进行表达.这些新词,在过时的语料库中几乎不 基于MT的复述生成模型和利用复述的T模型, 会出现或者出现次数很少,这就会导致概率估计不 可将其整合,形成一个融合机器翻译与复述的联合 准确从而影响到翻译结果.同样,古代的词汇、语法 模型,这样的好处是提高容错性,使翻译系统更好地 也会随着时间的推移渐渐被遗弃,古文、古诗的语料 运用复述知识 稀缺使古汉语的翻译更为困难. 3)从已有研究工作中可知,复述对于统计机器 表3新词实例 翻译的应用大部分是解决数据稀疏问题,而解决稀 Table 3 Examples of neologism 疏性还有很多其他方法,如把复述(同义表达)一般 新词 原词 化为相关表达(如上位表达),就可得到更通用的模 神马 什么 型举个例子,把“获得性免疫缺损综合症”和“艾滋 顶 支持 病”联系起来是复述,还可进一步泛化为“疾病”这 囧 难堪 点笔者将另文著述 东东 东西 解决数据稀疏的问题已成为统计机器翻译的重 参考文献: 中之重.统计机器翻译中数据稀疏问题主要表现在4 [1]BROWN P F,JOHN C,PIETRA S A D,et al.A statistical 个方面:1)训练集的数据稀疏导致的概率估计不准 approach to machine translation[J].Computational Linguis- 确:2)系统译文中的片段没有出现在开发集或测试 tics,1990,16(2):79-85 集的参考译文中,影响了调参和自动评测的准确性; [2]BROWN P F,PIETRA V J D,PIETRA S A D,et al.The 3)在待译语句中出现了训练集中没有出现的文字 mathematics of statistical machine translation:parameter es- 片段,对于这样的陌生文字片段,翻译系统无法处 timation[J].Computational Linguistics,1993,19(2): 理:4)数据稀疏导致的一些预处理工作效果不佳, 263-311. 如分词、对齐等 [3]OCH F J,NEY H.Discriminative training and maximum entropy models for statistical machine translation[C]//Pro- 复述技术就是对一段文本片段生成意义相同的 ceedings of the 40th Annual Meeting of the Association for 不同字面表述,可以丰富语言表达因此召回率的提 Computational Linguistics.Philadelphia,USA,2002:295- 高恰好可以解决语言的个体性差异与进化性多变所 302. 带来的数据稀疏问题 [4]刘挺,李维刚,张宇,等.复述技术研究综述[J].中文信缺少下述某种表达形式时,那么翻译系统就不会翻 译相应的文本.利用复述知识来阐述下述表达形式 之间的关系,使翻译系统融入更多的单语知识,且对 不同表达形式的同义句翻译有更好的处理,从而可 以改善数据稀疏带来的问题. 表 2 复述多样性实例 Table 2 Examples of the diversity of paraphrase 多样性例句 序号 A beer, please. (1) Beer, please. (2) Can I have a beer? (3) Give me a beer, please. (4) I would like beer. (5) I’d like a beer, please (6) 2)进化性.语言多样化不单表现在个体使用的 不同,同时随着时代发展,语言整体也在不断地进 化.新词、新的语法结构的诞生使语言的表达多种多 样.目前网络语言日趋流行,每天都可能有新词诞 生,或者是旧词生新义.表 3 列举了时下流行的新词 以及对应含义相近的旧词.可以发现,所谓新词绝大 多数都是已存在的词语,只是用一种新奇的字词组 合来进行表达.这些新词,在过时的语料库中几乎不 会出现或者出现次数很少,这就会导致概率估计不 准确从而影响到翻译结果.同样,古代的词汇、语法 也会随着时间的推移渐渐被遗弃,古文、古诗的语料 稀缺使古汉语的翻译更为困难. 表 3 新词实例 Table 3 Examples of neologism 新词 原词 神马 什么 顶 支持 囧 难堪 东东 东西 解决数据稀疏的问题已成为统计机器翻译的重 中之重.统计机器翻译中数据稀疏问题主要表现在 4 个方面:1)训练集的数据稀疏导致的概率估计不准 确;2)系统译文中的片段没有出现在开发集或测试 集的参考译文中,影响了调参和自动评测的准确性; 3)在待译语句中出现了训练集中没有出现的文字 片段,对于这样的陌生文字片段,翻译系统无法处 理;4)数据稀疏导致的一些预处理工作效果不佳, 如分词、对齐等. 复述技术就是对一段文本片段生成意义相同的 不同字面表述,可以丰富语言表达.因此召回率的提 高恰好可以解决语言的个体性差异与进化性多变所 带来的数据稀疏问题. 3 总结与展望 本文对引入复述的统计机器翻译研究的进展进 行了综述.重点介绍了复述在统计机器翻译应用研 究中的几个关键问题,包括复述改善模型训练、复述 提高调参效果、复述改写待译语句和复述改善机器 翻译自动评测.虽然对复述和机器翻译问题的探讨 由来已久,但将复述与统计机器翻译相结合进行广 泛的研究却不足 10 年.所以还存在许多值得深入探 索的问题,在此提出一些值得进一步挖掘的研究方 向,希望对本领域的研究有所启发. 1)尽管人们已经提出了多种方法用于获取复 述句、复述短语和复述模板等资源.然而,获取的资 源精确度还较低,含有的噪声太多.因此,如何找到 一种有效的方法,对获取的复述资源进行过滤,并且 有效地应用到统计机器翻译中,这是一个重要的研 究课题. 2)虽然已有研究者将复述技术应用到统计机 器翻译的不同阶段,但机器翻译和复述仍是 2 个独 立的子集,没有将机器翻译与复述融合为一个模型, 尤其是复述和语言模型结合的研究还不是很多[44] . 基于 MT 的复述生成模型和利用复述的 MT 模型, 可将其整合,形成一个融合机器翻译与复述的联合 模型,这样的好处是提高容错性,使翻译系统更好地 运用复述知识. 3)从已有研究工作中可知,复述对于统计机器 翻译的应用大部分是解决数据稀疏问题,而解决稀 疏性还有很多其他方法,如把复述(同义表达)一般 化为相关表达(如上位表达),就可得到更通用的模 型.举个例子,把“获得性免疫缺损综合症”和“艾滋 病”联系起来是复述,还可进一步泛化为“疾病”.这 点笔者将另文著述. 参考文献: [1]BROWN P F, JOHN C, PIETRA S A D, et al. A statistical approach to machine translation[J]. Computational Linguis⁃ tics, 1990, 16(2): 79⁃85. [2]BROWN P F, PIETRA V J D, PIETRA S A D, et al. The mathematics of statistical machine translation: parameter es⁃ timation[ J ]. Computational Linguistics, 1993, 19 ( 2 ): 263⁃311. [3] OCH F J, NEY H. Discriminative training and maximum entropy models for statistical machine translation[C] / / Pro⁃ ceedings of the 40th Annual Meeting of the Association for Computational Linguistics. Philadelphia, USA, 2002: 295⁃ 302. [4]刘挺,李维刚,张宇,等. 复述技术研究综述[ J].中文信 第 3 期 胡金铭,等:引入复述技术的统计机器翻译研究综述 ·205·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有