第8卷第3期 智能系统学报 Vol.8 No.3 2013年6月 CAAI Transactions on Intelligent Systems Jun.2013 D0I:10.3969/i.issn.1673-4785.201211023 网络出版地址:http://www.cnki.net/kcms/detail/23.1538.TP.20130515.0927.005.html 引入复述技术的统计机器翻译研究综述 胡金铭2,史晓东12,苏劲松3,陈毅东12 (1.厦门大学信息科学与技术学院,福建厦门361005:2.厦门大学福建省仿脑智能系统重点实验室,福建厦门 361005;3.厦门大学软件学院,福建厦门361005) 摘要:基于对引入复述技术的统计机器翻译研究现状的分析,提出具有研究价值的课题方向.首先归纳了复述的概 念,总结了引入复述技术的统计机器翻译各类方法.然后对复述知识在统计机器翻译中的模型训练、参数调整、待译 语句改写和机器翻译自动评测等方面应用的主流方法进行了概括、比较和分析,说明了复述与统计机器翻译是紧密 相关的,强调了复述在统计机器翻译应用中的关键问题是复述的正确性和多样性最后指出提高复述资源的精确度、 建立复述与机器翻译的联合模型、采用新方法解决稀疏问题等是有待进一步研究的课题。 关键词:复述技术:机器翻译:统计机器翻译 中图分类号:TP391文献标志码:A文章编号:1673-4785(2013)03-0199-09 中文引用格式:胡金铭,史晓东,苏劲松,等.引入复述技术的统计机器翻译研究综述[J].智能系统学报,2013,8(3):199-207 英文引用格式:HU Jinming,SHI Xiaodong,SU Jinsong,etal.A survey of statistical machine translation using paraphrasing tech nology[J].CAAI Transactions on Intelligent Systems,2013,8(3):199-207. A survey of statistical machine translation using paraphrasing technology HU Jinming'2,SHI Xiaodong'2,SU Jinsong,CHEN Yidong'2 (1.School of Information Science and Engineering,Xiamen University,Xiamen 361005,China;2.Fujian Key Laboratory of the Brain-like Intelligent Systems,Xiamen University,Xiamen 361005,China;3.College of Software,Xiamen University,Xiamen 361005,China) Abstract:In this paper,the research team discussed possible new prospective research directions of paraphrasing technology in statistical machine translation (SMT),based on reviews of state-of-the-art technology.First the re- search team introduced the concept of paraphrases,and next a summarization of the latest progress utilizing para- phrasing technology in SMT was conducted.Finally,conclusions were drawn,data was compared and an analysis of the main issues of incorporating paraphrases into SMT,including translation model training,parameter tuning,in- put sentences rewriting and machine translation evaluation was performed.The results proved that there is an inher- ent connection between paraphrasing and SMT.The results also point out that the correctness and diversity of para- phrasing are the key issues to apply paraphrasing to SMT.It was highly noted that the improvement in the quality of paraphrasing resource,the establishment of a joint model of paraphrasing and machine translation and the new pro- posed approach to solve data sparseness are problems which need further study. Keywords:paraphrasing technology;machine translation;statistical machine translation 机器翻译(machine translation,MT)是利用计算 翻译.它属于计算语言学(computational linguistics) 机程序,实现从一种自然语言到另一种自然语言的 的范畴.经过数十年的研究,机器翻译在理论和实践 方面都有了较大的进步.从方法论的角度来看,目前 收稿日期:2012-11-16.网络出版日期:2013-05-15. 的主流研究使用基于统计的方法.统计机器翻译 基金项目:国家科技支撑计划资助项目(2012BAH14F03):国家自然 科学基金资助项目(60573189,61005052):福建省自然科 (statistical machine translation,SMT)是通过对大量 学基金资助项目(20060043) 通信作者:史晓东.E-mail:mandel@xmu.cdu.cn 双语平行语料库的统计分析来构建统计翻译模型
第 8 卷第 3 期 智 能 系 统 学 报 Vol.8 №.3 2013 年 6 月 CAAI Transactions on Intelligent Systems Jun. 2013 DOI:10.3969 / j.issn.1673⁃4785.201211023 网络出版地址:http: / / www.cnki.net / kcms/ detail / 23.1538.TP.20130515.0927.005.html 引入复述技术的统计机器翻译研究综述 胡金铭1,2 ,史晓东1,2 ,苏劲松3 ,陈毅东1,2 (1.厦门大学 信息科学与技术学院,福建 厦门 361005; 2.厦门大学 福建省仿脑智能系统重点实验室,福建 厦门 361005; 3.厦门大学 软件学院,福建 厦门 361005) 摘 要:基于对引入复述技术的统计机器翻译研究现状的分析,提出具有研究价值的课题方向.首先归纳了复述的概 念,总结了引入复述技术的统计机器翻译各类方法.然后对复述知识在统计机器翻译中的模型训练、参数调整、待译 语句改写和机器翻译自动评测等方面应用的主流方法进行了概括、比较和分析,说明了复述与统计机器翻译是紧密 相关的,强调了复述在统计机器翻译应用中的关键问题是复述的正确性和多样性.最后指出提高复述资源的精确度、 建立复述与机器翻译的联合模型、采用新方法解决稀疏问题等是有待进一步研究的课题. 关键词:复述技术;机器翻译;统计机器翻译 中图分类号: TP391 文献标志码:A 文章编号:1673⁃4785(2013)03⁃0199⁃09 中文引用格式:胡金铭,史晓东,苏劲松,等.引入复述技术的统计机器翻译研究综述[J].智能系统学报, 2013, 8(3): 199⁃207. 英文引用格式:HU Jinming, SHI Xiaodong, SU Jinsong, et al. A survey of statistical machine translation using paraphrasing tech⁃ nology[J]. CAAI Transactions on Intelligent Systems, 2013, 8(3): 199⁃207. A survey of statistical machine translation using paraphrasing technology HU Jinming 1,2 , SHI Xiaodong 1,2 , SU Jinsong 3 , CHEN Yidong 1,2 (1. School of Information Science and Engineering, Xiamen University, Xiamen 361005, China; 2. Fujian Key Laboratory of the Brain⁃like Intelligent Systems, Xiamen University, Xiamen 361005, China; 3. College of Software, Xiamen University, Xiamen 361005, China) Abstract:In this paper, the research team discussed possible new prospective research directions of paraphrasing technology in statistical machine translation ( SMT), based on reviews of state⁃of⁃the⁃art technology. First the re⁃ search team introduced the concept of paraphrases, and next a summarization of the latest progress utilizing para⁃ phrasing technology in SMT was conducted. Finally, conclusions were drawn, data was compared and an analysis of the main issues of incorporating paraphrases into SMT, including translation model training, parameter tuning, in⁃ put sentences rewriting and machine translation evaluation was performed. The results proved that there is an inher⁃ ent connection between paraphrasing and SMT. The results also point out that the correctness and diversity of para⁃ phrasing are the key issues to apply paraphrasing to SMT. It was highly noted that the improvement in the quality of paraphrasing resource, the establishment of a joint model of paraphrasing and machine translation and the new pro⁃ posed approach to solve data sparseness are problems which need further study. Keywords:paraphrasing technology; machine translation; statistical machine translation 收稿日期:2012⁃11⁃16. 网络出版日期:2013⁃05⁃15. 基金项目:国家科技支撑计划资助项目(2012BAH14F03);国家自然 科学基金资助项目( 60573189,61005052);福建省自然科 学基金资助项目(2006J0043). 通信作者:史晓东. E⁃mail:mandel@ xmu.edu.cn. 机器翻译(machine translation, MT)是利用计算 机程序,实现从一种自然语言到另一种自然语言的 翻译.它属于计算语言学( computational linguistics) 的范畴.经过数十年的研究,机器翻译在理论和实践 方面都有了较大的进步.从方法论的角度来看,目前 的主流研究使用基于统计的方法. 统计机器翻译 (statistical machine translation, SMT)是通过对大量 双语平行语料库的统计分析来构建统计翻译模型
·200· 能系统学报 第8卷 并使用该模型进行翻译.早期的研究使用噪声信道 模型风,当前的主流统计模型是对数线性模型) 1复述在统计机器翻译中的研究现状 对数线性模型由若干特征组成,每个特征都反映了 近年来,许多学者将复述应用到信息抽取、文本 翻译概率的一个方面,该模型由于可以包含更多的 生成、自动问答、自动文摘等多个相关研究领域中, 反映翻译概率的信息而受到了广泛关注.从事机器 如图1所示,对复述在自然语言处理的部分子课题 翻译研究的学者正尝试将不同的语言学、统计学特 中的文献资料做粗略统计(数据来自Google学术搜 征加人到对数线性模型中,使翻译系统更加强大.而 索),可见,其中讨论得最为广泛的是复述在机器翻 反映语言多样性的复述技术(paraphrasing technolo- 译研究中的应用. gies)也被用来改善机器翻译的效果. 随着自然语言处理各项底层技术的不断成熟和 其他 发展,复述(paraphrases)作为自然语言处理中一种 自动文摘, 9% 机器翻译 非常普遍的现象,受到了越来越多研究者的关注.刘 9% 31% 挺4)、赵世奇[)等国内学者也都对复述技术研究进 行了详细综述很多学者试图给复述一个精确的定 27% 义,早在20世纪80年代,语言学家Halliday和De 自动问答 18% Beaugrande等认为复述是“概念上的近似等价”,但 6% 信息抽取 互为复述的2个语言片段的可替换程度(inter- changeability)始终没有确切的标准[6-].Barzilay 文本生成 等[]把复述看作传达相同信息的可替换形式 图1复述在自然语言处理子课题的应用统计 Glickman等[o]则认为复述现象反映了语言多变性 Fig.1 Statistics of using paraphrases in sub-subject of NLP 的核心,复述是对应到相同意义的等价表达.鉴于上 复述是单语同义文本的表达形式转换,而机器 述观点,笔者认为复述就是在同一种语言内有相同 翻译则是跨语言同义文本的表达形式转换.它们的 语义但有不同表达形式的语言片段,它反映了人类 共通性也使得机器翻译中的理论和方法可以用于解 语言的灵活多样性,同时也为自然语言处理的研究 决复述问题,因此有基于MT的复述生成方法[)」 难点提供了更多的解决方法 同样,复述技术也可以解决机器翻译问题 统计机器翻译的实质是对大规模的双语语料进 在21世纪初,机器翻译中基于统计方法逐渐趋 行统计,提取有助于文本翻译的规则这些规则使得 于主导地位.在研究过程中,越来越多的学者发现语 翻译系统可以较好地处理字面上的直译,但其并没 料资源不足会极大影响统计翻译系统的翻译质量, 有真正意义上的意译能力,即无法翻译未知文本.随 复述便成为了一个解决办法.复述可以从更为广泛 着时间的推进,科技发展、知识增长,语言也在不断 的语料中获取,如同义词词典、单语可比语料、单语 地进化,不可能存在包含所有语言现象的语料库.然 平行语料等,更多的单语知识可以改善翻译系统性 而,复述技术可以将未知文本片段转化成语料库中 能.从方法角度上讲,将复述引入到统计机器翻译的 出现的同义表述:那么,适时地引入复述技术便可以 研究集中在改进其4个阶段,引入到前3个阶段是 提高翻译系统的性能。 为了提升翻译效果,而对于自动评测主要是为了提 目前由于统计机器翻译的研究热点是对数线性 升机器评价和人工评价的一致性.为了更直观地对 模型,因此将复述技术引入统计机器翻译的研究也 比前3种途径翻译效果的提升程度,图2列出了各 多数围绕对数线型模型展开.基于对数线性模型的 方法在BLEU值上的提升比.因为各学者选取的实 统计机器翻译大致可以分为4个阶段:翻译模型的 验数据并不一致,结果对比可能略有出入.但从图2 训练、特征参数的调整、译文的搜索解码、翻译质量 中可以发现,对待译语句的改写可以更好地提升翻 的自动评价.本文介绍了复述与统计机器翻译的概 译质量(图中的参数调整部分,因为数据都来自 念,并对复述技术与统计机器翻译中各个阶段内容 Madnani的研究,故命名为“年份.人工参考译文数 的联系进行概述,最后对引入复述技术的统计机器 量”,“H”前的数字表示开发集的人工参考译文数 翻译研究进展及前沿课题进行分析评述,概括并凝 量).下面从4个方面分别介绍引入复述的统计机器 练出具有研究价值的课题方向,希望对统计机器翻 翻译研究的国内外发展现状」 译领域的研究有所神益
并使用该模型进行翻译.早期的研究使用噪声信道 模型[1⁃2] ,当前的主流统计模型是对数线性模型[3] . 对数线性模型由若干特征组成,每个特征都反映了 翻译概率的一个方面,该模型由于可以包含更多的 反映翻译概率的信息而受到了广泛关注.从事机器 翻译研究的学者正尝试将不同的语言学、统计学特 征加入到对数线性模型中,使翻译系统更加强大.而 反映语言多样性的复述技术( paraphrasing technolo⁃ gies)也被用来改善机器翻译的效果. 随着自然语言处理各项底层技术的不断成熟和 发展,复述( paraphrases)作为自然语言处理中一种 非常普遍的现象,受到了越来越多研究者的关注.刘 挺[4] 、赵世奇[5]等国内学者也都对复述技术研究进 行了详细综述.很多学者试图给复述一个精确的定 义,早在 20 世纪 80 年代,语言学家 Halliday 和 De Beaugrande 等认为复述是“概念上的近似等价”,但 互为复述的 2 个语言片段的可替换程度 ( inter⁃ changeability) 始 终 没 有 确 切 的 标 准[6⁃7] . Barzilay 等[8⁃9]把复述看作传达相同信息的可替换形式. Glickman 等[10]则认为复述现象反映了语言多变性 的核心,复述是对应到相同意义的等价表达.鉴于上 述观点,笔者认为复述就是在同一种语言内有相同 语义但有不同表达形式的语言片段,它反映了人类 语言的灵活多样性,同时也为自然语言处理的研究 难点提供了更多的解决方法. 统计机器翻译的实质是对大规模的双语语料进 行统计,提取有助于文本翻译的规则.这些规则使得 翻译系统可以较好地处理字面上的直译,但其并没 有真正意义上的意译能力,即无法翻译未知文本.随 着时间的推进,科技发展、知识增长,语言也在不断 地进化,不可能存在包含所有语言现象的语料库.然 而,复述技术可以将未知文本片段转化成语料库中 出现的同义表述;那么,适时地引入复述技术便可以 提高翻译系统的性能. 目前由于统计机器翻译的研究热点是对数线性 模型,因此将复述技术引入统计机器翻译的研究也 多数围绕对数线型模型展开.基于对数线性模型的 统计机器翻译大致可以分为 4 个阶段:翻译模型的 训练、特征参数的调整、译文的搜索解码、翻译质量 的自动评价.本文介绍了复述与统计机器翻译的概 念,并对复述技术与统计机器翻译中各个阶段内容 的联系进行概述,最后对引入复述技术的统计机器 翻译研究进展及前沿课题进行分析评述,概括并凝 练出具有研究价值的课题方向,希望对统计机器翻 译领域的研究有所裨益. 1 复述在统计机器翻译中的研究现状 近年来,许多学者将复述应用到信息抽取、文本 生成、自动问答、自动文摘等多个相关研究领域中. 如图 1 所示,对复述在自然语言处理的部分子课题 中的文献资料做粗略统计(数据来自 Google 学术搜 索),可见,其中讨论得最为广泛的是复述在机器翻 译研究中的应用. 图 1 复述在自然语言处理子课题的应用统计 Fig.1 Statistics of using paraphrases in sub⁃subject of NLP 复述是单语同义文本的表达形式转换,而机器 翻译则是跨语言同义文本的表达形式转换.它们的 共通性也使得机器翻译中的理论和方法可以用于解 决复述问题,因此有基于 MT 的复述生成方法[11⁃13] . 同样,复述技术也可以解决机器翻译问题. 在 21 世纪初,机器翻译中基于统计方法逐渐趋 于主导地位.在研究过程中,越来越多的学者发现语 料资源不足会极大影响统计翻译系统的翻译质量, 复述便成为了一个解决办法.复述可以从更为广泛 的语料中获取,如同义词词典、单语可比语料、单语 平行语料等,更多的单语知识可以改善翻译系统性 能.从方法角度上讲,将复述引入到统计机器翻译的 研究集中在改进其 4 个阶段,引入到前 3 个阶段是 为了提升翻译效果,而对于自动评测主要是为了提 升机器评价和人工评价的一致性.为了更直观地对 比前 3 种途径翻译效果的提升程度,图 2 列出了各 方法在 BLEU 值上的提升比.因为各学者选取的实 验数据并不一致,结果对比可能略有出入.但从图 2 中可以发现,对待译语句的改写可以更好地提升翻 译质量( 图中的参数调整部分,因为数据都来自 Madnani 的研究,故命名为“年份.人工参考译文数 量”,“H” 前的数字表示开发集的人工参考译文数 量).下面从 4 个方面分别介绍引入复述的统计机器 翻译研究的国内外发展现状. ·200· 智 能 系 统 学 报 第 8 卷
第3期 胡金铭,等:引入复述技术的统计机器翻译研究综述 ·201· (2)所示: 三 Pre(elf月=P(eIC(e))×P(C(e)ICf))= 6 三 #(e)x#(c(e),cD) (2) 尊 三 #C(e)#C(f) 式中:C(e)、C()分别代表目标端和源端的短语类 研究者认为复述片段含义相同,不应分别进行概率 0 估计,应对同类短语一并计算.可以验证,当P为0 模型训练 参数调整 语句改写 时,Ppc不为O.所以当e出现的频次很小时,Pc会有 图2各方法效果对比 更好的概率估计.他提出了利用基于短语共现次数 Fig.2 Comparison with BLEU on various methods 和基于词序的2种相似度计算来进行短语聚类的方 法,获得了很好的效果 1.1复述改善模型训练 Max针对短语概率估计提出了2个观点:1)一 训练数据不足会引起数据稀疏,引入复述知识, 个合适的短语需要更多地参与到概率估计:2)复述 对已有的训练数据或者规则表进行处理可以改善这 可以用来优化概率估计).他利用源端∫的上下文 一问题.通常有2种途径:1)对训练数据的平行句对 相似度的计算代替传统的频次统计,上下文相似度 生成复述从而扩充训练数据的规模:2)利用短语间 偏低的短语,其概率的估计也会较低,则相应译文可 的复述关系平滑翻译模型的概率估计使其更加 取度降低.如式(3)所示: 准确. 以 sim(Cont(f),Cont(f)) 统计机器翻译的模型训练是通过大规模的双语 Pom(e;I f)= 平行语料获得.由于语言的多样性,训练集不能覆盖 sim(Cont(f),Cont(f)) 所有的语言现象,对稀有语种而言尤为明显.当无法 (3) 直接获得更多训练语料时,研究者利用复述技术扩 充训练集的规模,提高模型的覆盖率.基本思想是对 w以 sim(Cont(f),Cont(p)) 双语平行句对(f,)的源端f生成句法等价的句级 P(e:I A= sim(Cont(f月,Cont(pk)) 复述fPP与目标端e重新组合构成新句对(fP,e) (4) 加入到训练集中.Bond针对词序、时态等语言学现 象并结合句法信息生成复述I4).Nakov则对名词短 式中:f是测试集中待译的源短语,f是∫在训练集 语进行复述,首先识别句中的名词短语,利用人 中出现的第k个特例,e,表示f的所有可能译文,e 是f的特定译文,Cont(f)是指f的上下文.P通过 为定义的包含句法信息的复述规则,仅当句子中发 比较测试语句中短语f的上下文与译文为e:的特例 现符合复述转换规则结构的名词短语时才生成复 f的上下文的相似度,来估计e:是f译文的概率.式 述.Nakov不但扩充训练集,还对已训练的规则表进 (4)利用复述对式(3)进行补充,作为另一个特征加 行类似实验,结果表明对短语表进行复述并没有对 训练数据进行复述的效果好.这是因为规则表是经 入到模型中p:是f的复述,〈P:,e:〉是训练集中的短 语对.同样,考虑上下文信息来估计e:是f译文的概 过分词、对齐等前序步骤后得到,其中已含有噪声; 率.式(3)解决了Max提出的第1个问题,使上下文 同时对规则表复述没有考虑句法信息及上下文信 信息更接近短语主导概率的估计,式(4)则缓解了 息,新生成的翻译规则可能并不合理。 上下文种类较少带来的数据稀疏问题, 短语概率作为SMT的一个非常重要的特征,传 1.2复述提高调参效果 统方法使用最大似然估计,通过词频的累加来计算, 目前统计机器翻译的参数调整大多采用最小错 如式(1)所示,式中#表示频次统计.这种方法的不足 误率训练方法[18].通常使用基于n元组匹配的 之处是,当短语出现次数较少时,其概率估计会出现 BLEU]等评测指标作为最小错误率.因此在调参 较大误差.Kuhn和Max引入复述技术来进行平滑翻 过程中所使用的开发集规模越大、多样性越强、参考 译模型概率估计的研究。 译文数量越多,n元组匹配的准确性就越高,调参的 #(f,e:) PRF(e:IA)=- (1) 效果也就越好.基于这个思想,Madnani引入复述知 ∑#(f,e) 识,对开发集的参考译文进行扩展,来增加参考译文 Kuhn利用短语聚类来进行平滑处理o],如式 的多样性2).首先,利用层次短语系统训练出双语
图 2 各方法效果对比 Fig.2 Comparison with BLEU on various methods 1.1 复述改善模型训练 训练数据不足会引起数据稀疏,引入复述知识, 对已有的训练数据或者规则表进行处理可以改善这 一问题.通常有 2 种途径:1)对训练数据的平行句对 生成复述从而扩充训练数据的规模;2)利用短语间 的复述关系平滑翻译模型的概率估计使其更加 准确. 统计机器翻译的模型训练是通过大规模的双语 平行语料获得.由于语言的多样性,训练集不能覆盖 所有的语言现象,对稀有语种而言尤为明显.当无法 直接获得更多训练语料时,研究者利用复述技术扩 充训练集的规模,提高模型的覆盖率.基本思想是对 双语平行句对( f,e)的源端 f 生成句法等价的句级 复述 f’,f’与目标端 e 重新组合构成新句对( f’,e) 加入到训练集中.Bond 针对词序、时态等语言学现 象并结合句法信息生成复述[14] .Nakov 则对名词短 语进行复述[15] ,首先识别句中的名词短语,利用人 为定义的包含句法信息的复述规则,仅当句子中发 现符合复述转换规则结构的名词短语时才生成复 述.Nakov 不但扩充训练集,还对已训练的规则表进 行类似实验,结果表明对短语表进行复述并没有对 训练数据进行复述的效果好.这是因为规则表是经 过分词、对齐等前序步骤后得到,其中已含有噪声; 同时对规则表复述没有考虑句法信息及上下文信 息,新生成的翻译规则可能并不合理. 短语概率作为 SMT 的一个非常重要的特征,传 统方法使用最大似然估计,通过词频的累加来计算, 如式(1)所示,式中#表示频次统计.这种方法的不足 之处是,当短语出现次数较少时,其概率估计会出现 较大误差.Kuhn 和 Max 引入复述技术来进行平滑翻 译模型概率估计的研究. PRF(ei | f) = #(f,ei) ∑j #(f,ej) . (1) Kuhn 利用短语聚类来进行平滑处理[16] ,如式 (2)所示: PPC(e | f) = P(e | C(e)) × P(C(e) | C(f)) = #(e) #C(e) × #(C(e),C(f)) #C(f) . (2) 式中:C(e)、C(f)分别代表目标端和源端的短语类. 研究者认为复述片段含义相同,不应分别进行概率 估计,应对同类短语一并计算.可以验证,当 PRF为 0 时,PPC不为 0.所以当 e 出现的频次很小时,PPC会有 更好的概率估计.他提出了利用基于短语共现次数 和基于词序的 2 种相似度计算来进行短语聚类的方 法,获得了很好的效果. Max 针对短语概率估计提出了 2 个观点:1)一 个合适的短语需要更多地参与到概率估计;2)复述 可以用来优化概率估计[17] .他利用源端 f 的上下文 相似度的计算代替传统的频次统计,上下文相似度 偏低的短语,其概率的估计也会较低,则相应译文可 取度降低.如式(3)所示: Pcont(ei | f) = ∑〈f k ,e i 〉 sim(Cont(f),Cont(f k)) ∑〈f k ,e j 〉 sim(Cont(f),Cont(f k)) . (3) Ppara(ei | f) = ∑〈p k ,e i 〉 sim(Cont(f),Cont(pk)) ∑〈p k ,e j 〉 sim(Cont(f),Cont(pk)) . (4) 式中:f 是测试集中待译的源短语,f k 是 f 在训练集 中出现的第 k 个特例,ej 表示 f k 的所有可能译文,ei 是 f k 的特定译文,Cont(f)是指 f 的上下文.Pcont通过 比较测试语句中短语 f 的上下文与译文为 ei 的特例 f k 的上下文的相似度,来估计 ei 是 f 译文的概率.式 (4)利用复述对式(3)进行补充,作为另一个特征加 入到模型中.pk 是 f 的复述,〈pk,ei〉是训练集中的短 语对.同样,考虑上下文信息来估计 ei 是 f 译文的概 率.式(3)解决了 Max 提出的第 1 个问题,使上下文 信息更接近短语主导概率的估计,式(4) 则缓解了 上下文种类较少带来的数据稀疏问题. 1.2 复述提高调参效果 目前统计机器翻译的参数调整大多采用最小错 误率训练方 法[18] . 通 常 使 用 基 于 n 元 组 匹 配 的 BLEU [19]等评测指标作为最小错误率.因此在调参 过程中所使用的开发集规模越大、多样性越强、参考 译文数量越多,n 元组匹配的准确性就越高,调参的 效果也就越好.基于这个思想,Madnani 引入复述知 识,对开发集的参考译文进行扩展,来增加参考译文 的多样性[20] .首先,利用层次短语系统训练出双语 第 3 期 胡金铭,等:引入复述技术的统计机器翻译研究综述 ·201·
·202· 智 能系统学报 第8卷 层次规则[2],如式(5)~(7)所示:其次,利用基于枢 1.3复述改写待译语句 轴法(pivot-.based)的复述获取,抽取单语层次规则, 利用复述生成技术,对机器翻译系统的输入语 如式(8)~(9)所示。 句进行改写24].尤其是对于口语翻译而言,将形式 X→, (5) 灵活且不规范的口语语句改写为规范的书面语语 X→,(6) 句,无疑会降低翻译系统的处理难度[262.对于资源 X→,(7) 不足的语言对,翻译系统无法翻译出包含未知词汇 (8) 的待译语句,却能够翻译意义相近而没有未登录词 .(9) 的复述句.因此可以引入复述知识,改写待译语句, 使系统能够翻译原本无法翻译的句子 获得单语层次规则后建立单语的翻译模型,通 Callison-Burch提出使用枢轴法获取复述来替 过该模型的解码对已有的人工参考译文进行复述扩 换待译语句中未知的词和短语,并使用该复述的译 展,并加入到开发集中进行调参.2007年Madnani又 文作为翻译结果[2】.Marton也开展了类似的研 做了进一步补充2四,生成参考译文的n-best复述译 究[],不同的是Marton从单语语料获取复述,他们 文,并利用启发式规则进行过滤.但经实验发现,n 的研究局限于只替换待译语句的未知片段这种不 取到3以上便会由于复述带来的噪声使得调参效果 考虑句法信息的替换极有可能导致复述语句语法不 变差.针对这些不足,Madnani在2011年提出细化复 通、语序不畅、语义混乱.Mirkin则利用WordNet得 述生成过程],在不改变参考译文原意的前提下使 到文本蕴含和复述规则,利用上下文模型对复述打 生成的参考译文复述和机器译文有尽可能多的字面 分,翻译前k条规则生成的复述,并用语言模型为译 匹配,并将其加入到在线调参过程中,使翻译质量有 文进行打分,最后选择分数较高的译文[].其优点 所提高.虽然Madnani在不断细化复述的生成,但其 是不仅利用了人工知识WordNet,还利用上下文判 方法仍有几,点不足之处:1)用单语翻译解码来生成 断复述句是否合理,避免盲目改写,但缺点是系统解 复述句,缺少对一些错误复述的过滤:2)由于单语 码过程更加复杂。 开发集的稀缺,单语翻译模型调参的准确性有待考 Onishi和Du利用短语级复述构建待译语句的 证:3)词语对齐、复述生成、单语翻译等前序步骤带 复述词图(word lattice)[3-3].图3是“the exercise 来的噪声传播也会对翻译产生负面影响:4)n-best will continue'”的词图结构,图中双圆圈和实线箭头 多样性随的数目增加逐渐变小,而引入的噪声却 分别代表待译语句最初的节点和单词,单圆圈和虚 起了主要作用 线箭头分别代表复述扩充的节点和单词 practiced(0.07) resume(0.10) training(0.12) continuation(0.09) --- 3 exercise(1.00) continue(1.00) continuons(0.12) 4 the(1.00) practice(0.11) practicing(0.10) wi0.122 keeping(0.08) resume(1.00) 6 exercising(0.08) wi0.11) training(0.12) go1.00) hc0.10) -exercises(0.11) training(1.00) 图3输入语句的复述词图构建示例) Fig.3 An example of how to build a paraphrase lattice for an input sentencet]
层次规则[21] ,如式(5) ~ (7)所示;其次,利用基于枢 轴法(pivot⁃based)的复述获取,抽取单语层次规则, 如式(8) ~ (9)所示. X → < X1建 X2 ;X1 to build X2 > , (5) X → < X1建 X2 ;X1 to construct X2 > , (6) X → < X1建 X2 ;X1 to formulate X2 > , (7) X → < X1 to build X2;X1 to construct X2 > , (8) X → < X1 to build X2 ;X1 to formulate X2 > .(9) 获得单语层次规则后建立单语的翻译模型,通 过该模型的解码对已有的人工参考译文进行复述扩 展,并加入到开发集中进行调参.2007 年 Madnani 又 做了进一步补充[22] ,生成参考译文的 n⁃best 复述译 文,并利用启发式规则进行过滤.但经实验发现,n 取到 3 以上便会由于复述带来的噪声使得调参效果 变差.针对这些不足,Madnani 在 2011 年提出细化复 述生成过程[23] ,在不改变参考译文原意的前提下使 生成的参考译文复述和机器译文有尽可能多的字面 匹配,并将其加入到在线调参过程中,使翻译质量有 所提高.虽然 Madnani 在不断细化复述的生成,但其 方法仍有几点不足之处:1)用单语翻译解码来生成 复述句,缺少对一些错误复述的过滤;2) 由于单语 开发集的稀缺,单语翻译模型调参的准确性有待考 证;3)词语对齐、复述生成、单语翻译等前序步骤带 来的噪声传播也会对翻译产生负面影响;4) n⁃best 多样性随 n 的数目增加逐渐变小,而引入的噪声却 起了主要作用. 1.3 复述改写待译语句 利用复述生成技术,对机器翻译系统的输入语 句进行改写[24⁃25] .尤其是对于口语翻译而言,将形式 灵活且不规范的口语语句改写为规范的书面语语 句,无疑会降低翻译系统的处理难度[26⁃27] .对于资源 不足的语言对,翻译系统无法翻译出包含未知词汇 的待译语句,却能够翻译意义相近而没有未登录词 的复述句.因此可以引入复述知识,改写待译语句, 使系统能够翻译原本无法翻译的句子. Callison⁃Burch 提出使用枢轴法获取复述来替 换待译语句中未知的词和短语,并使用该复述的译 文作为 翻 译 结 果[28] . Marton 也 开 展 了 类 似 的 研 究[29] ,不同的是 Marton 从单语语料获取复述,他们 的研究局限于只替换待译语句的未知片段.这种不 考虑句法信息的替换极有可能导致复述语句语法不 通、语序不畅、语义混乱.Mirkin 则利用 WordNet 得 到文本蕴含和复述规则,利用上下文模型对复述打 分,翻译前 k 条规则生成的复述,并用语言模型为译 文进行打分,最后选择分数较高的译文[30] .其优点 是不仅利用了人工知识 WordNet,还利用上下文判 断复述句是否合理,避免盲目改写,但缺点是系统解 码过程更加复杂. Onishi 和 Du 利用短语级复述构建待译语句的 复述词图 ( word lattice) [31⁃33] . 图 3 是 “ the exercise will continue” 的词图结构,图中双圆圈和实线箭头 分别代表待译语句最初的节点和单词,单圆圈和虚 线箭头分别代表复述扩充的节点和单词. 图 3 输入语句的复述词图构建示例[32] Fig.3 An example of how to build a paraphrase lattice for an input sentence [32] ·202· 智 能 系 统 学 报 第 8 卷
第3期 胡金铭,等:引人复述技术的统计机器翻译研究综述 ·203· 构建词图的好处是不用区分待译语句中的未知 的复述规则中没有实词的替换规则,所以该方法减 词和已知词,而是让翻译系统的解码器根据词图自 少了内容词替换带来的任意性:但只能处理功能词 行搜索最优翻译结果,提高容错性.这样可以构造比 和日文语气词,有一定局限性.Lepage利用类似复述 Callison-Burch方法更为流利的复述输入语句,其缺 模板的方法生成参考译文的复述集,丰富参考译文 陷在于构造词图时过多的边数会导致复杂度成倍提 的表达[].Zhou则针对BLEU没有考虑召回率和缺 升.此外,部分不当替换不但会增大词图的搜索空间 少对复述匹配的支持来进行改善,提出了基于 而且也不能改善翻译效果,需进行适当的剪枝.He BLEU的ParaEval评测方法[3,对1-gram的匹配进 的研究[3]与Du相似,他采用一种正向翻译与反向 行修改使其支持了复述匹配,并使用单参考译文计 翻译相结合的方法获取复述.正向翻译就是源端到 算召回率. 目标端的翻译过程,反向翻译则是目标端到源端的 Russo-Lassner对(x,h)训练线性回归模型,其 翻译过程.他利用一次正向翻译的译文T和经过反 中x是一个代表机器译文和参考译文句对间一致性 向翻译后再正向翻译的译文T,作为抽取复述的单 的特征向量,h是对机器译文的人工评分[o.他将机 语平行语料,然后通过启发式规则的过滤,利用层次 器翻译自动评测任务看作复述识别,即对比机器译 短语系统的规则抽取方法[2]构建复述规则,之后再 文与参考译文之间的词汇、句法信息的变化,因此特 构造词图这样做的好处有2点:1)不但生成了词和 征选择包括词千共现、WordNet同义词集、动词语义 短语级的复述,而且可以生成句级的复述:2)因为 类等 复述规则由翻译系统得来,对于部分病态复述,经翻 Snover基于其在2006年提出的TER评测指 译系统的病态处理,会意外获得质量更好的结果,这 标,融合了可调参数、形态学分析、同义词以及复述 也体现了复述和统计机器翻译融合的思想 之后,提出新的评测指标TERp[412].TERp不但将参 Resnik通过迭代修改待译语句来解决翻译质量 考译文和机器译文字面相同的片段匹配,还将有相 较差的问题[]其方法是,对翻译系统的翻译结果 同词干或同义词的片段匹配.TER即保留了TER的 进行评判,将译文中翻译较差的片段所对应的源语 编辑操作一匹配、插人、删除、替换、移动,还增加 句片段进行复述,构造出新的输入语句,新输入语句 了词干匹配、同义词匹配、短语替换,使评价结果与 的译文要优于原译文.该方法较Callison-Burch的方 人工评价的一致性更高: 法[2)能更针对地构造复述,利用TER即中定义的多 Pado将文本蕴含(textual entailment)用在机器 种操作来判断哪些片段应该构造复述, 翻译的评测中[4).蕴含被定义为一个前提P(prem- 1.4复述改善机器翻译自动评测 ise)和一个假设H(hypothesis)之间的二元关系,即 机器翻译的自动评测一直是机器翻译研究中的 若已知前提P成立可以推出H为真,则说P蕴含H 难点,目前最为广泛使用的指标是BLEU9,它计算 研究者一般将复述看作蕴含的特例,因为复述是双 机器译文和参考译文间n-gram的匹配准确率,将其 向的,而蕴含的推理是单向的.举例说明:设P为 加权得到评价分数.很多学者基于BLEU指标改善 “Jane is a French teacher”,H为“Jane can speak 机器翻译的自动测评.Kauchak调查发现,NIST2004 French”,则P蕴含H,H可从P中推理出来,相反P 测试集中每个句子的参考译文两两组成句对,其中 不一定能从H推理出来.Pado认为好的机器译文与 0.2%是字面完全一致的,60%至少11个词不同] 参考译文是双向蕴含的,机器译文内容的缺失会破 这就意味着,如果参考译文的数量有限时(1~3 坏正向蕴含,而机器译文内容的增添又会打破反向 句),那么基于字面匹配的自动评测永远不可能达 蕴含,如果双向蕴含都不成立则认为翻译结果较差 到人工评测的水平.因此,Kauchak提出应该使参考 蕴含识别可以包含更多的语义和语法知识,利用蕴 译文更多地包含机器译文的词或短语,而这也是早 含信息的“深度”匹配自然会优于简单的字面匹配 期学者们改善评测技术的主要手段.他利用WordNet 评测标准 从参考译文和机器译文中识别可能构造复述的词 2复述在统计机器翻译中的应用分析 对,测试候选复述是否在参考译文的上下文中可采 纳,然后生成参考译文的复述,达到增加参考译文数 复述作为人类语言中的一个普遍现象,受到自 量的目的.Kanayama考虑日语相比英语更多样性和 然语言处理界学者的广泛关注.尤其在机器翻译领 胶合性[列],利用人工定义的复述规则加以形态学分 域,在不同的阶段引入复述技术,在一定程度上改善 析,生成参考译文的复述,构造更多的参考译文,来 了翻译质量.鉴于前人的研究工作,将复述引入机器 提高自动评价和人工评价的一致性.因为人工定义 翻译的不同阶段中,确实可以改善翻译结果但在机
构建词图的好处是不用区分待译语句中的未知 词和已知词,而是让翻译系统的解码器根据词图自 行搜索最优翻译结果,提高容错性.这样可以构造比 Callison⁃Burch 方法更为流利的复述输入语句,其缺 陷在于构造词图时过多的边数会导致复杂度成倍提 升.此外,部分不当替换不但会增大词图的搜索空间 而且也不能改善翻译效果,需进行适当的剪枝. He 的研究[34]与 Du 相似,他采用一种正向翻译与反向 翻译相结合的方法获取复述.正向翻译就是源端到 目标端的翻译过程,反向翻译则是目标端到源端的 翻译过程.他利用一次正向翻译的译文 T1 和经过反 向翻译后再正向翻译的译文 T2 作为抽取复述的单 语平行语料,然后通过启发式规则的过滤,利用层次 短语系统的规则抽取方法[21]构建复述规则,之后再 构造词图.这样做的好处有 2 点:1)不但生成了词和 短语级的复述,而且可以生成句级的复述;2) 因为 复述规则由翻译系统得来,对于部分病态复述,经翻 译系统的病态处理,会意外获得质量更好的结果,这 也体现了复述和统计机器翻译融合的思想. Resnik 通过迭代修改待译语句来解决翻译质量 较差的问题[35] .其方法是,对翻译系统的翻译结果 进行评判,将译文中翻译较差的片段所对应的源语 句片段进行复述,构造出新的输入语句,新输入语句 的译文要优于原译文.该方法较 Callison⁃Burch 的方 法[28]能更针对地构造复述,利用 TERp 中定义的多 种操作来判断哪些片段应该构造复述. 1.4 复述改善机器翻译自动评测 机器翻译的自动评测一直是机器翻译研究中的 难点,目前最为广泛使用的指标是 BLEU [19] ,它计算 机器译文和参考译文间 n⁃gram 的匹配准确率,将其 加权得到评价分数.很多学者基于 BLEU 指标改善 机器翻译的自动测评.Kauchak 调查发现,NIST2004 测试集中每个句子的参考译文两两组成句对,其中 0.2%是字面完全一致的,60%至少 11 个词不同[36] . 这就意味着,如果参考译文的数量有限时 ( 1 ~ 3 句),那么基于字面匹配的自动评测永远不可能达 到人工评测的水平.因此,Kauchak 提出应该使参考 译文更多地包含机器译文的词或短语,而这也是早 期学者们改善评测技术的主要手段.他利用 WordNet 从参考译文和机器译文中识别可能构造复述的词 对,测试候选复述是否在参考译文的上下文中可采 纳,然后生成参考译文的复述,达到增加参考译文数 量的目的.Kanayama 考虑日语相比英语更多样性和 胶合性[37] ,利用人工定义的复述规则加以形态学分 析,生成参考译文的复述,构造更多的参考译文,来 提高自动评价和人工评价的一致性.因为人工定义 的复述规则中没有实词的替换规则,所以该方法减 少了内容词替换带来的任意性;但只能处理功能词 和日文语气词,有一定局限性.Lepage 利用类似复述 模板的方法生成参考译文的复述集,丰富参考译文 的表达[38] .Zhou 则针对 BLEU 没有考虑召回率和缺 少对复 述 匹 配 的 支 持 来 进 行 改 善, 提 出 了 基 于 BLEU 的 ParaEval 评测方法[39] ,对 1⁃gram 的匹配进 行修改使其支持了复述匹配,并使用单参考译文计 算召回率. Russo⁃Lassner 对( x,h) 训练线性回归模型,其 中 x 是一个代表机器译文和参考译文句对间一致性 的特征向量,h 是对机器译文的人工评分[40] .他将机 器翻译自动评测任务看作复述识别,即对比机器译 文与参考译文之间的词汇、句法信息的变化,因此特 征选择包括词干共现、WordNet 同义词集、动词语义 类等. Snover 基于其在 2006 年提出的 TER 评测指 标,融合了可调参数、形态学分析、同义词以及复述 之后,提出新的评测指标 TERp [41⁃42] .TERp 不但将参 考译文和机器译文字面相同的片段匹配,还将有相 同词干或同义词的片段匹配.TERp 保留了 TER 的 编辑操作———匹配、插入、删除、替换、移动,还增加 了词干匹配、同义词匹配、短语替换,使评价结果与 人工评价的一致性更高. Pado 将文本蕴含( textual entailment) 用在机器 翻译的评测中[43] .蕴含被定义为一个前提 P( prem⁃ ise)和一个假设 H( hypothesis)之间的二元关系,即 若已知前提 P 成立可以推出 H 为真,则说 P 蕴含 H. 研究者一般将复述看作蕴含的特例,因为复述是双 向的,而蕴含的推理是单向的. 举例说明:设 P 为 “ Jane is a French teacher”, H 为 “ Jane can speak French”,则 P 蕴含 H,H 可从 P 中推理出来,相反 P 不一定能从 H 推理出来.Pado 认为好的机器译文与 参考译文是双向蕴含的,机器译文内容的缺失会破 坏正向蕴含,而机器译文内容的增添又会打破反向 蕴含,如果双向蕴含都不成立则认为翻译结果较差. 蕴含识别可以包含更多的语义和语法知识,利用蕴 含信息的“深度”匹配自然会优于简单的字面匹配 评测标准. 2 复述在统计机器翻译中的应用分析 复述作为人类语言中的一个普遍现象,受到自 然语言处理界学者的广泛关注.尤其在机器翻译领 域,在不同的阶段引入复述技术,在一定程度上改善 了翻译质量.鉴于前人的研究工作,将复述引入机器 翻译的不同阶段中,确实可以改善翻译结果.但在机 第 3 期 胡金铭,等:引入复述技术的统计机器翻译研究综述 ·203·
·204· 智能系统学报 第8卷 器翻译中引入复述的研究还处于初级阶段,有一定 效果如改善模型训练的方法,因为要生成训练语句 的局限性,并没有实质性地改变机器翻译的框架.笔 的句级复述,通常不能使用短语级复述规则做简单 者认为具体表现在如下几个方面:1)复述抽取的质 的短语替换,如表1中的句子(2).因为对于短语级 量不高,由于错误的传播将间接影响到翻译结果的 复述规则的使用可以不受句法约束,而句级复述如 好坏:2)复述生成的多样性不充分,并没有达到利 果句法错误,则会导致语义混乱.对于短语级复述, 用复述来丰富表达形式的目的:3)现有工作还局限 将其运用生成复述句必然会引入一些语法错误、语 在已有的统计模型框架下引入复述知识,因此复述 序不畅的问题.但是在构造复述词图时,就可以使用 技术与统计机器翻译系统的整体融合还需进一步的 短语级复述,从而避免上述问题的出现.使用短语级 研究 复述构建词图,可以使词图包含更多信息,使用待译 在引入复述技术的统计机器翻译研究中,虽然 语句的词图进行翻译是依据搜索解码过程对译文的 将复述技术运用在统计机器翻译的不同阶段,但究 评判,因此对词图的解析不但可以提高容错性也可 其本质,主要是为了解决数据稀疏的问题能否很好 以提升多样性.复述模板和复述搭配都包含句法信 地提升翻译效果,笔者认为主要有2个关键问题需 息,而目前在统计机器翻译中引入复述模板和复述 要解决:1)复述的正确性:2)复述的多样性, 搭配的研究工作还较少.笔者认为复述模板和复述 2.1复述的正确性 搭配的结构可以很好地与句法翻译模型相结合.句 引入复述改善机器翻译系统的翻译质量主要取 法翻译模型的过分细化使数据稀疏问题显得尤为严 决于复述的正确性,复述的正确性又可以体现为复 重,而复述的多样性可以很好地解决这一问题,又因 述生成的准确率.如表1所示,有4句复述句,其中 为复述模板和复述搭配的结构与句法翻译模型相 句子(2)~(4)这3句是错误的,若将其全部用于机 似,所以在句法翻译模型中引入复述模板和复述搭 器翻译系统中,必定会产生负面影响.如何提高复述 配将成为未来研究的重点,这也体现了机器翻译与 生成的准确率是复述能否提升翻译效果的一个至关 复述融合的思想.可见对于不同的任务,恰当的复述 重要的问题.就目前的研究而言,还没有很好的自动 粒度选取会有效提升复述的适用性, 评测手段来判断复述生成的好坏.笔者认为复述的 复述规则有人工定义和自动获取2种方法.对 正确性与复述规则的正确性和复述规则的适用性相 于人工定义的复述规则,由于考虑到了各种语言学 关如表1所示,句子(1)是原句,句子(2)是利用 知识,规则自身都是正确的,问题只是规则的使用是 “the movies->the films”复述规则生成的复述句.可 否恰当而对于自动获取的复述规则,由于统计的误 以发现这条短语复述规则是正确的,但是生成的“即 差、语料库的覆盖度等因素,导致包含过多的噪声. to the films'”并不符合英语的习惯用法.没有考虑句 这就需要一种合适的途径过滤掉噪声,不但过滤质 中上下文、句法信息与简单地使用短语级复述规则 量较差的规则,而且还能够对规则的使用,即复述的 是造成句子(2)错误的根本原因.而表1中句子 生成作一定的限制.上下文信息及句法信息的引入 (3)、(4)使用了错误的复述规则,因此产生了语法 使复述质量得到了很好的改善.通过对比上下文相 错误 近的语句找到适用于相同语言环境的复述规则来获 表1复述句实例 取和生成复述,使得语义不变:利用句法知识分析复 Table 1 Examples of paraphrase sentence 述句,使得语法正确 复述句 序号 正误 2.2复述的多样性 Everyone often goes to the movies (1) 会 数据稀疏是导致现有统计机器翻译系统的翻译 Everyone often goes to the films. (2) 错 结果不能令人满意的主要原因,笔者认为数据稀疏 性的根源来自语言的多样性,又可体现为复述生成 Everyone goes often to the movies. (3) 错 的召回率.因为机器翻译的训练数据无法包含所有 Everybody goes to the movies often. (4) 带 的语言现象,如果能极大地提升复述的召回率,便可 Everybody often goes to the movies. (5) 对 以使翻译系统的覆盖度尽可能扩大,从而提升翻译 复述一般通过同义词典、语料库、互联网等获 效果.笔者认为语言的多样性主要表现为个体性与 取根据粒度不同,又分为复述句、复述短语、复述模 进化性。 板和复述搭配等,在统计机器翻译中引入的复述粒 1)个体性.如表2所示,当用英文表达“请给我 度一般是句级、短语级和复述模板对于统计机器翻 一杯啤酒”时,因为个人的习惯与口语的随意性,有 译中的不同阶段,不同粒度的复述选取会有不同的 多种结构完全不同的表达形式时.当训练语料库中
器翻译中引入复述的研究还处于初级阶段,有一定 的局限性,并没有实质性地改变机器翻译的框架.笔 者认为具体表现在如下几个方面:1)复述抽取的质 量不高,由于错误的传播将间接影响到翻译结果的 好坏;2)复述生成的多样性不充分,并没有达到利 用复述来丰富表达形式的目的;3)现有工作还局限 在已有的统计模型框架下引入复述知识,因此复述 技术与统计机器翻译系统的整体融合还需进一步的 研究. 在引入复述技术的统计机器翻译研究中,虽然 将复述技术运用在统计机器翻译的不同阶段,但究 其本质,主要是为了解决数据稀疏的问题.能否很好 地提升翻译效果,笔者认为主要有 2 个关键问题需 要解决:1)复述的正确性;2)复述的多样性. 2.1 复述的正确性 引入复述改善机器翻译系统的翻译质量主要取 决于复述的正确性,复述的正确性又可以体现为复 述生成的准确率.如表 1 所示,有 4 句复述句,其中 句子(2) ~ (4)这 3 句是错误的,若将其全部用于机 器翻译系统中,必定会产生负面影响.如何提高复述 生成的准确率是复述能否提升翻译效果的一个至关 重要的问题.就目前的研究而言,还没有很好的自动 评测手段来判断复述生成的好坏.笔者认为复述的 正确性与复述规则的正确性和复述规则的适用性相 关.如表 1 所示,句子(1) 是原句,句子(2) 是利用 “the movies⁃>the films” 复述规则生成的复述句.可 以发现这条短语复述规则是正确的,但是生成的“go to the films”并不符合英语的习惯用法.没有考虑句 中上下文、句法信息与简单地使用短语级复述规则 是造成句子( 2) 错误的根本原因. 而表 1 中句子 (3)、(4)使用了错误的复述规则,因此产生了语法 错误. 表 1 复述句实例 Table 1 Examples of paraphrase sentence 复述句 序号 正误 Everyone often goes to the movies. (1) 原 Everyone often goes to the films. (2) 错 Everyone goes often to the movies. (3) 错 Everybody goes to the movies often. (4) 错 Everybody often goes to the movies. (5) 对 复述一般通过同义词典、语料库、互联网等获 取.根据粒度不同,又分为复述句、复述短语、复述模 板和复述搭配等,在统计机器翻译中引入的复述粒 度一般是句级、短语级和复述模板.对于统计机器翻 译中的不同阶段,不同粒度的复述选取会有不同的 效果.如改善模型训练的方法,因为要生成训练语句 的句级复述,通常不能使用短语级复述规则做简单 的短语替换,如表 1 中的句子(2).因为对于短语级 复述规则的使用可以不受句法约束,而句级复述如 果句法错误,则会导致语义混乱.对于短语级复述, 将其运用生成复述句必然会引入一些语法错误、语 序不畅的问题.但是在构造复述词图时,就可以使用 短语级复述,从而避免上述问题的出现.使用短语级 复述构建词图,可以使词图包含更多信息,使用待译 语句的词图进行翻译是依据搜索解码过程对译文的 评判,因此对词图的解析不但可以提高容错性也可 以提升多样性.复述模板和复述搭配都包含句法信 息,而目前在统计机器翻译中引入复述模板和复述 搭配的研究工作还较少.笔者认为复述模板和复述 搭配的结构可以很好地与句法翻译模型相结合.句 法翻译模型的过分细化使数据稀疏问题显得尤为严 重,而复述的多样性可以很好地解决这一问题,又因 为复述模板和复述搭配的结构与句法翻译模型相 似,所以在句法翻译模型中引入复述模板和复述搭 配将成为未来研究的重点,这也体现了机器翻译与 复述融合的思想.可见对于不同的任务,恰当的复述 粒度选取会有效提升复述的适用性. 复述规则有人工定义和自动获取 2 种方法.对 于人工定义的复述规则,由于考虑到了各种语言学 知识,规则自身都是正确的,问题只是规则的使用是 否恰当.而对于自动获取的复述规则,由于统计的误 差、语料库的覆盖度等因素,导致包含过多的噪声. 这就需要一种合适的途径过滤掉噪声,不但过滤质 量较差的规则,而且还能够对规则的使用,即复述的 生成作一定的限制.上下文信息及句法信息的引入 使复述质量得到了很好的改善.通过对比上下文相 近的语句找到适用于相同语言环境的复述规则来获 取和生成复述,使得语义不变;利用句法知识分析复 述句,使得语法正确. 2.2 复述的多样性 数据稀疏是导致现有统计机器翻译系统的翻译 结果不能令人满意的主要原因,笔者认为数据稀疏 性的根源来自语言的多样性,又可体现为复述生成 的召回率.因为机器翻译的训练数据无法包含所有 的语言现象,如果能极大地提升复述的召回率,便可 以使翻译系统的覆盖度尽可能扩大,从而提升翻译 效果.笔者认为语言的多样性主要表现为个体性与 进化性. 1)个体性.如表 2 所示,当用英文表达“请给我 一杯啤酒”时,因为个人的习惯与口语的随意性,有 多种结构完全不同的表达形式时.当训练语料库中 ·204· 智 能 系 统 学 报 第 8 卷
第3期 胡金铭,等:引人复述技术的统计机器翻译研究综述 ·205· 缺少下述某种表达形式时,那么翻译系统就不会翻 3 总结与展望 译相应的文本.利用复述知识来阐述下述表达形式 之间的关系,使翻译系统融入更多的单语知识,且对 本文对引入复述的统计机器翻译研究的进展进 不同表达形式的同义句翻译有更好的处理,从而可 行了综述.重点介绍了复述在统计机器翻译应用研 以改善数据稀疏带来的问题, 究中的几个关键问题,包括复述改善模型训练、复述 表2复述多样性实例 提高调参效果、复述改写待译语句和复述改善机器 Table 2 Examples of the diversity of paraphrase 翻译自动评测.虽然对复述和机器翻译问题的探讨 多样性例句 序号 由来已久,但将复述与统计机器翻译相结合进行广 A beer,please. (1) 泛的研究却不足10年.所以还存在许多值得深入探 Beer,please. (2) 索的问题,在此提出一些值得进一步挖掘的研究方 Can I have a beer? (3) 向,希望对本领域的研究有所启发 Give me a beer,please. (4) 1)尽管人们已经提出了多种方法用于获取复 I would like beer. (5) 述句、复述短语和复述模板等资源.然而,获取的资 I'd like a beer,please (6) 源精确度还较低,含有的噪声太多.因此,如何找到 2)进化性.语言多样化不单表现在个体使用的 一种有效的方法,对获取的复述资源进行过滤,并且 不同,同时随着时代发展,语言整体也在不断地进 有效地应用到统计机器翻译中,这是一个重要的研 化新词、新的语法结构的诞生使语言的表达多种多 究课题, 样.目前网络语言日趋流行,每天都可能有新词诞 2)虽然已有研究者将复述技术应用到统计机 生,或者是旧词生新义.表3列举了时下流行的新词 器翻译的不同阶段,但机器翻译和复述仍是2个独 以及对应含义相近的旧词可以发现,所谓新词绝大 立的子集,没有将机器翻译与复述融合为一个模型, 多数都是已存在的词语,只是用一种新奇的字词组 尤其是复述和语言模型结合的研究还不是很多[]」 合来进行表达.这些新词,在过时的语料库中几乎不 基于MT的复述生成模型和利用复述的T模型, 会出现或者出现次数很少,这就会导致概率估计不 可将其整合,形成一个融合机器翻译与复述的联合 准确从而影响到翻译结果.同样,古代的词汇、语法 模型,这样的好处是提高容错性,使翻译系统更好地 也会随着时间的推移渐渐被遗弃,古文、古诗的语料 运用复述知识 稀缺使古汉语的翻译更为困难. 3)从已有研究工作中可知,复述对于统计机器 表3新词实例 翻译的应用大部分是解决数据稀疏问题,而解决稀 Table 3 Examples of neologism 疏性还有很多其他方法,如把复述(同义表达)一般 新词 原词 化为相关表达(如上位表达),就可得到更通用的模 神马 什么 型举个例子,把“获得性免疫缺损综合症”和“艾滋 顶 支持 病”联系起来是复述,还可进一步泛化为“疾病”这 囧 难堪 点笔者将另文著述 东东 东西 解决数据稀疏的问题已成为统计机器翻译的重 参考文献: 中之重.统计机器翻译中数据稀疏问题主要表现在4 [1]BROWN P F,JOHN C,PIETRA S A D,et al.A statistical 个方面:1)训练集的数据稀疏导致的概率估计不准 approach to machine translation[J].Computational Linguis- 确:2)系统译文中的片段没有出现在开发集或测试 tics,1990,16(2):79-85 集的参考译文中,影响了调参和自动评测的准确性; [2]BROWN P F,PIETRA V J D,PIETRA S A D,et al.The 3)在待译语句中出现了训练集中没有出现的文字 mathematics of statistical machine translation:parameter es- 片段,对于这样的陌生文字片段,翻译系统无法处 timation[J].Computational Linguistics,1993,19(2): 理:4)数据稀疏导致的一些预处理工作效果不佳, 263-311. 如分词、对齐等 [3]OCH F J,NEY H.Discriminative training and maximum entropy models for statistical machine translation[C]//Pro- 复述技术就是对一段文本片段生成意义相同的 ceedings of the 40th Annual Meeting of the Association for 不同字面表述,可以丰富语言表达因此召回率的提 Computational Linguistics.Philadelphia,USA,2002:295- 高恰好可以解决语言的个体性差异与进化性多变所 302. 带来的数据稀疏问题 [4]刘挺,李维刚,张宇,等.复述技术研究综述[J].中文信
缺少下述某种表达形式时,那么翻译系统就不会翻 译相应的文本.利用复述知识来阐述下述表达形式 之间的关系,使翻译系统融入更多的单语知识,且对 不同表达形式的同义句翻译有更好的处理,从而可 以改善数据稀疏带来的问题. 表 2 复述多样性实例 Table 2 Examples of the diversity of paraphrase 多样性例句 序号 A beer, please. (1) Beer, please. (2) Can I have a beer? (3) Give me a beer, please. (4) I would like beer. (5) I’d like a beer, please (6) 2)进化性.语言多样化不单表现在个体使用的 不同,同时随着时代发展,语言整体也在不断地进 化.新词、新的语法结构的诞生使语言的表达多种多 样.目前网络语言日趋流行,每天都可能有新词诞 生,或者是旧词生新义.表 3 列举了时下流行的新词 以及对应含义相近的旧词.可以发现,所谓新词绝大 多数都是已存在的词语,只是用一种新奇的字词组 合来进行表达.这些新词,在过时的语料库中几乎不 会出现或者出现次数很少,这就会导致概率估计不 准确从而影响到翻译结果.同样,古代的词汇、语法 也会随着时间的推移渐渐被遗弃,古文、古诗的语料 稀缺使古汉语的翻译更为困难. 表 3 新词实例 Table 3 Examples of neologism 新词 原词 神马 什么 顶 支持 囧 难堪 东东 东西 解决数据稀疏的问题已成为统计机器翻译的重 中之重.统计机器翻译中数据稀疏问题主要表现在 4 个方面:1)训练集的数据稀疏导致的概率估计不准 确;2)系统译文中的片段没有出现在开发集或测试 集的参考译文中,影响了调参和自动评测的准确性; 3)在待译语句中出现了训练集中没有出现的文字 片段,对于这样的陌生文字片段,翻译系统无法处 理;4)数据稀疏导致的一些预处理工作效果不佳, 如分词、对齐等. 复述技术就是对一段文本片段生成意义相同的 不同字面表述,可以丰富语言表达.因此召回率的提 高恰好可以解决语言的个体性差异与进化性多变所 带来的数据稀疏问题. 3 总结与展望 本文对引入复述的统计机器翻译研究的进展进 行了综述.重点介绍了复述在统计机器翻译应用研 究中的几个关键问题,包括复述改善模型训练、复述 提高调参效果、复述改写待译语句和复述改善机器 翻译自动评测.虽然对复述和机器翻译问题的探讨 由来已久,但将复述与统计机器翻译相结合进行广 泛的研究却不足 10 年.所以还存在许多值得深入探 索的问题,在此提出一些值得进一步挖掘的研究方 向,希望对本领域的研究有所启发. 1)尽管人们已经提出了多种方法用于获取复 述句、复述短语和复述模板等资源.然而,获取的资 源精确度还较低,含有的噪声太多.因此,如何找到 一种有效的方法,对获取的复述资源进行过滤,并且 有效地应用到统计机器翻译中,这是一个重要的研 究课题. 2)虽然已有研究者将复述技术应用到统计机 器翻译的不同阶段,但机器翻译和复述仍是 2 个独 立的子集,没有将机器翻译与复述融合为一个模型, 尤其是复述和语言模型结合的研究还不是很多[44] . 基于 MT 的复述生成模型和利用复述的 MT 模型, 可将其整合,形成一个融合机器翻译与复述的联合 模型,这样的好处是提高容错性,使翻译系统更好地 运用复述知识. 3)从已有研究工作中可知,复述对于统计机器 翻译的应用大部分是解决数据稀疏问题,而解决稀 疏性还有很多其他方法,如把复述(同义表达)一般 化为相关表达(如上位表达),就可得到更通用的模 型.举个例子,把“获得性免疫缺损综合症”和“艾滋 病”联系起来是复述,还可进一步泛化为“疾病”.这 点笔者将另文著述. 参考文献: [1]BROWN P F, JOHN C, PIETRA S A D, et al. A statistical approach to machine translation[J]. Computational Linguis⁃ tics, 1990, 16(2): 79⁃85. [2]BROWN P F, PIETRA V J D, PIETRA S A D, et al. The mathematics of statistical machine translation: parameter es⁃ timation[ J ]. Computational Linguistics, 1993, 19 ( 2 ): 263⁃311. [3] OCH F J, NEY H. Discriminative training and maximum entropy models for statistical machine translation[C] / / Pro⁃ ceedings of the 40th Annual Meeting of the Association for Computational Linguistics. Philadelphia, USA, 2002: 295⁃ 302. [4]刘挺,李维刚,张宇,等. 复述技术研究综述[ J].中文信 第 3 期 胡金铭,等:引入复述技术的统计机器翻译研究综述 ·205·
·206· 智能系统学报 第8卷 息学报,2006,20(4):25-32 [17]MAX A.Example-based paraphrasing for improved phrase- LIU Ting,LI Weigang,ZHANG Yu,et al.A survey on par- based statistical machine translation[C]//Proceedings of aphrasing technology[J].Journal of Chinese Information the 2010 Conference in Empirical Methods in Natural Lan- Processing,2006,20(4):25-32. guage Processing.Cambridge,USA,2010:656-666. [5]赵世奇,刘挺,李生.复述技术研究[J].软件学报,2009, [18]OCH F J.Minimum error rate training for statistical ma- 20(8):2124-2137. chine translation C]//Proceedings of the 41st Annual ZHAO Shiqi,LIU Ting,LI Sheng.Rearch on paraphrasing Meeting of the Association for Computational Linguistics. technology [J].Journal of Software,2009,20(8):2124- Sapporo,Japan,2003:160-167. 2137. [19]PAPINENI K,ROUKOS S,WARD T,et al.BLEU:a [6]BEAUGRANDE D,ALAIN R,DRESSLER W.Introduction method for automatic evaluation of machine translation to text linguistics[M].New York:Longman,1981:54-56. [C]//Proceedings of the 40th Annual Meeting of the As- [7]HALLIDAY M A K.An introduction to functional grammar sociation for Computational Linguistics.Stroudsburg, [M].London:Edward Arnold,1985:225-250. USA,2002:311-318. [8]BARZILAY R,MCKEOWN K R.Extracting paraphrases [20]MADNANI N,AYAN N F,RESNIK P,et al.Using para- from a parallel corpus[C]//Proceedings of the 39th Annual phrases for parameter tuning in statistical machine transla- Meeting of the Association for Computational Linguistics. tion[C]//Proceedings of the Second Workshop on Statisti- Toulouse,France,2001:50-57. cal Machine Translation.Prague,The Czech Republic, 9]BARZILAY R,ELHADAD N.Sentence alignment for mono- 2007:120-127」 lingual comparable corpora[C]//Proceedings of the 2003 [21]CHIANG D.A hierarchical phrase-based model for statisti- Conference on Empirical Methods in Natural Language Pro- cal machine translation[C]//Proceedings of the 43rd An- cessing.Sapporo,Japan,2003:25-32. nual Meeting of the Association for Computational Linguis- [10]GLICKMAN O,DAGAN I.Identifying lexical paraphrases tics.Sydney,Australia,2005:263-270. from a single corpus:a case study for verbs[C]//Proceed- [22]MADNANI N,RESNIK P,DORR B J,et al.Are multiple ings of the International Conference on Natural Language reference translations necessary?Investigating the value of Processing.Borovets,Bulgaria,2003:1-8. paraphrased reference translations in parameter optimiza- [11]QUIRK C.BROCKETT C,DOLAN W.Monolingual ma- tion[C]//Proceedings of the 8th Conference of the Associ- chine translation for paraphrase generation[C]//Proceed- ation for Machine Translation in the Americas.Waikiki, ings of the 2004 Conference on Empirical Methods in Natu- USA,2008:993-1000. ral Language Processing.Barcelona,Spain,2004:142. [23]MADNANI N.DORR B J.Generating targeted paraphrases 149. for improved translation[J].ACM Transactions on Intelli- [12]FINCH A,WATANABE T,AKIBA Y,et al.Paraphrasing gent Systems and Technology,2013,4(3):1-26. as machine translation[J].Journal of Natural Language [24]MITAMURA T,NYBERG E.Automatic rewriting for con- Processing,2004,11(5):87.111. trolled language translation [C]//Proceedings of the NL- [13]ZHAO Shiqi,NIU Cheng,ZHOU Ming,et al.Combining PRS 2002 Workshop on Automatic Paraphrasing:Theories multiple resources to improve SMT-based paraphrasing and Applications.Tokyo,Japan,2001:1-12. model[C//Proceedings of the 40th Annual Meeting of the [25]YAMAMOTO K.Machine translation by interaction be- Association for Computational Linguistics.Columbus, tween paraphraser and transfer[C]//Proceedings of the LUSA,2008:1021-1029. 19th International Conference on Computational Linguis- [14]BOND F,ERIC N,APPLING D S,et al.Improving statis- tics.Taipei,China,2002:1107-1113. tical machine translation by paraphrasing the training data [26]ZHANG Yujie,YAMAMOTO K.Paraphrasing of Chinese [C]//Proceedings of the International Workshop on Spo- utterances[C]//Proceedings of the 19th International Con- ken Language Translation.Waikiki,USA,2008:150-157. ference on Computational Linguistics.Taipei,China, [15]NAKOV P.Improved statistical machine translation using 2002:1163-1169. monolingual paraphrases[C]//Proceedings of the 18th Bi- [27]SHIMOHATA M,SUMITA E,MATSUMOTO Y.Building ennial European Conference on Artificial Intelligence. a paraphrase corpus for speech translation C]//Proceed- Patras,Greece,2008:338-342. ings of the 4th International Conference on Language Re- [16]KUHN R,CHEN Boxing,FOSTER G,et al.Phrase clus- sources and Evaluation.Lisbon,Portugal,2004:1407- tering for smoothing TM probabilities-or,how to extract 1410. paraphrases from phrase tables [C]//Proceedings of the [28]BURCH CC.KOEHN P,OSBORNE M.Improved statisti- 23rd International Conference on Computational Linguis- cal machine translation using paraphrases[C]//Proceed- tics.Beijing,China,2010:608-616. ings of the Human Language Technology Conference of the
息学报, 2006, 20(4): 25⁃32. LIU Ting, LI Weigang, ZHANG Yu, et al. A survey on par⁃ aphrasing technology [ J ]. Journal of Chinese Information Processing, 2006, 20(4): 25⁃32. [5]赵世奇,刘挺,李生.复述技术研究[ J].软件学报, 2009, 20(8): 2124⁃2137. ZHAO Shiqi, LIU Ting, LI Sheng. Rearch on paraphrasing technology[ J]. Journal of Software, 2009, 20( 8): 2124⁃ 2137. [6]BEAUGRANDE D, ALAIN R, DRESSLER W. Introduction to text linguistics[M]. New York: Longman, 1981: 54⁃56. [7]HALLIDAY M A K. An introduction to functional grammar [M]. London: Edward Arnold, 1985: 225⁃250. [8] BARZILAY R, MCKEOWN K R. Extracting paraphrases from a parallel corpus[C] / / Proceedings of the 39th Annual Meeting of the Association for Computational Linguistics. Toulouse, France, 2001: 50⁃57. [9]BARZILAY R, ELHADAD N. Sentence alignment for mono⁃ lingual comparable corpora [ C] / / Proceedings of the 2003 Conference on Empirical Methods in Natural Language Pro⁃ cessing. Sapporo, Japan, 2003: 25⁃32. [10]GLICKMAN O, DAGAN I. Identifying lexical paraphrases from a single corpus: a case study for verbs[C] / / Proceed⁃ ings of the International Conference on Natural Language Processing. Borovets, Bulgaria, 2003: 1⁃8. [11]QUIRK C, BROCKETT C, DOLAN W. Monolingual ma⁃ chine translation for paraphrase generation[C] / / Proceed⁃ ings of the 2004 Conference on Empirical Methods in Natu⁃ ral Language Processing. Barcelona, Spain, 2004: 142⁃ 149. [12]FINCH A, WATANABE T, AKIBA Y, et al. Paraphrasing as machine translation [ J]. Journal of Natural Language Processing, 2004, 11(5): 87⁃111. [13]ZHAO Shiqi, NIU Cheng, ZHOU Ming, et al. Combining multiple resources to improve SMT⁃based paraphrasing model[C] / / Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics. Columbus, USA, 2008: 1021⁃1029. [14]BOND F, ERIC N, APPLING D S, et al. Improving statis⁃ tical machine translation by paraphrasing the training data [C] / / Proceedings of the International Workshop on Spo⁃ ken Language Translation. Waikiki, USA, 2008: 150⁃157. [15]NAKOV P. Improved statistical machine translation using monolingual paraphrases[C] / / Proceedings of the 18th Bi⁃ ennial European Conference on Artificial Intelligence. Patras, Greece, 2008: 338⁃342. [16]KUHN R, CHEN Boxing, FOSTER G, et al. Phrase clus⁃ tering for smoothing TM probabilities—or, how to extract paraphrases from phrase tables [ C] / / Proceedings of the 23rd International Conference on Computational Linguis⁃ tics. Beijing, China, 2010: 608⁃616. [17]MAX A. Example⁃based paraphrasing for improved phrase⁃ based statistical machine translation [ C] / / Proceedings of the 2010 Conference in Empirical Methods in Natural Lan⁃ guage Processing. Cambridge, USA, 2010: 656⁃666. [18]OCH F J. Minimum error rate training for statistical ma⁃ chine translation [ C] / / Proceedings of the 41st Annual Meeting of the Association for Computational Linguistics. Sapporo, Japan, 2003: 160⁃167. [19] PAPINENI K, ROUKOS S, WARD T, et al. BLEU: a method for automatic evaluation of machine translation [C] / / Proceedings of the 40th Annual Meeting of the As⁃ sociation for Computational Linguistics. Stroudsburg, USA, 2002: 311⁃318. [20]MADNANI N, AYAN N F, RESNIK P, et al. Using para⁃ phrases for parameter tuning in statistical machine transla⁃ tion[C] / / Proceedings of the Second Workshop on Statisti⁃ cal Machine Translation. Prague, The Czech Republic, 2007: 120⁃127. [21]CHIANG D. A hierarchical phrase⁃based model for statisti⁃ cal machine translation[C] / / Proceedings of the 43rd An⁃ nual Meeting of the Association for Computational Linguis⁃ tics. Sydney, Australia, 2005: 263⁃270. [22]MADNANI N, RESNIK P, DORR B J, et al. Are multiple reference translations necessary? Investigating the value of paraphrased reference translations in parameter optimiza⁃ tion[C] / / Proceedings of the 8th Conference of the Associ⁃ ation for Machine Translation in the Americas. Waikiki, USA, 2008: 993⁃1000. [23]MADNANI N, DORR B J. Generating targeted paraphrases for improved translation[ J]. ACM Transactions on Intelli⁃ gent Systems and Technology, 2013, 4(3): 1⁃26. [24]MITAMURA T, NYBERG E. Automatic rewriting for con⁃ trolled language translation [ C] / / Proceedings of the NL⁃ PRS 2002 Workshop on Automatic Paraphrasing: Theories and Applications. Tokyo, Japan, 2001: 1⁃12. [25] YAMAMOTO K. Machine translation by interaction be⁃ tween paraphraser and transfer [ C] / / Proceedings of the 19th International Conference on Computational Linguis⁃ tics. Taipei, China, 2002: 1107⁃1113. [26]ZHANG Yujie, YAMAMOTO K. Paraphrasing of Chinese utterances[C] / / Proceedings of the 19th International Con⁃ ference on Computational Linguistics. Taipei, China, 2002: 1163⁃1169. [27]SHIMOHATA M, SUMITA E, MATSUMOTO Y. Building a paraphrase corpus for speech translation[C] / / Proceed⁃ ings of the 4th International Conference on Language Re⁃ sources and Evaluation. Lisbon, Portugal, 2004: 1407⁃ 1410. [28]BURCH C C, KOEHN P, OSBORNE M. Improved statisti⁃ cal machine translation using paraphrases [ C] / / Proceed⁃ ings of the Human Language Technology Conference of the ·206· 智 能 系 统 学 报 第 8 卷
第3期 胡金铭,等:引入复述技术的统计机器翻译研究综述 ·207- NAACL.New York,USA,2006:17-24. ceedings of the 2006 Conference on Empirical Methods in [29]MARTON Y,BURCH CC.RESNIK P.Improved statisti- Natural Language Processing.Sydney,Australia,2006: cal machine translation using monolingually-derived para- 77-84. phrases[C]//Proceedings of the 2009 Conference on Em- [40]LASSNER G R,LIN J,RESNIK P.A paraphrase-based pirical Methods in Natural Language Processing.Singa- approach to machine translation evaluation,Technical Re- pore,2009:381-390. port LAMP-TR-125/CS-TR-4754/UMIACS-TR-2005-57 [30]MIRKIN S,SPECIA L,CANCEDDA N,et al.Source-lan- [R].College Park,USA:University of Maryland,2005. guage entailment modeling for translation unknown terms [41]SNOVER M,MADNANI N,DORR B J,et al.Fluency, [C]//Proceedings of the Joint Conference of the 47th An- adequacy,or HTER?Exploring different human judgments nual Meeting of the ACL and the 4th International Joint with a tunable MT metric[C]//Proceedings of the Fourth Conference on Natural Language Processing of the AFNLP. Workshop on Statistical Machine Translation at the 12th Singapore,2009:791-799. Meeting of the European Chapter of the Association for [31]ONISHI T,UTIYAMA M,SUMITA E.Paraphrase lattice Computational Linguistics.Athens,Greece,2009:259- for statistical machine translation[C//Proceedings of the 268. ACL 2010 Conference Short Papers.Uppsala,Sweden, [42]SNOVER M,DORR B J,SCHWARTZ R,et al.A study 2010:1-5. of translation edit rate with targeted human annotation [32]ONISHI T,UTTYAMA M,SUMITA E.Paraphrase lattice [C]//Proceedings of Association for Machine Translation for statistical machine translation[]].EICE Transactions in the Americas.Cambridge,USA,2006:223-231. on Information and Systems,2011,E94-D(6):1299- [43]PADO S,GALLEY M,JURAFSKY D,et al.Textual en- 1305. tailment features for machine translation evaluation C]// [33]DU Jinhua,JIANG Jie,WAY A.Facilitating translation u- Proceedings of the 4th Workshop on Statistical Machine sing source language paraphrase lattices[C]//Proceedings Translation.Stroudsburg,USA,2009:37-41. of the 2010 Conference on Empirical Methods in Natural [44]LIU X,GALES M J F,WOODLAND P C.Paraphrastic Language Processing.Cambridge,USA,2010:420-429. language models[C]//Proceedings of 13th Annual Confer- [34]HE Wei,WU Hua,WANG Haifeng,et al.Improve SMT ence of the International Speech Communication Associa- quality with automatically extracted paraphrase rules[C// tion.Portland,USA,2012:1-4. Proceedings of the 50th Annual Meeting of the Association 作者简介: for Computational Linguistics.Jeju Island,Korea,2012: 胡金铭,男,1987年生,硕士研究 979-987. 生,主要研究方向为自然语言处理、机 [35]RESNIK P,BUZEK O,HU Chang,et al.Improving trans- 器翻译. lation via targeted paraphrasing[C]//Proceedings of 2010 Conference on Empirical Methods in Natural Language Pro- cessing.Cambridge,USA,2010:127-137. [36]KAUCHAK D,BARZILAY R.Paraphrasing for automatic evaluation C]//Proceedings of the Human Language 史晓东,男.1966年生,教授.博士 Technology Conference of the NAACL.New York,USA, 生导师,主要研究方向为自然语言处 2006:455-462. 理、机器翻译.先后主持和参与国家自 [37]KANAYAMA H.Paraphrasing rules for automatic evalua- 然科学基金项目3项、国家“863”计划 tion of translation into Japanese[C]//Proceedings of the 项目10余项,获福建省科技进步三等 Second International Workshop on Paraphrasing.Sapporo, 奖1项,发表学术论文30余篇」 Japan,2003,16:88-93. [38]LEPAGE Y,DENOUAL E.Automatic generation of para- 苏劲松,男,1982年生,讲师,博士。 phrases to be used as translation references in objective e- 主要研究方向为自然语言处理、机器翻 valuation measures of machine translation [C]//Proceed- 译等. ings of the 2nd International Joint Conference on Natural Language Processing.Jeju Island,Korea,2005:57-64. [39]ZHOU Liang,LIN Chinyew,HOVY E.Re-evaluating ma- chine translation results with paraphrase support[C]//Pro-
NAACL. New York, USA, 2006: 17⁃24. [29]MARTON Y, BURCH C C, RESNIK P. Improved statisti⁃ cal machine translation using monolingually⁃derived para⁃ phrases[C] / / Proceedings of the 2009 Conference on Em⁃ pirical Methods in Natural Language Processing. Singa⁃ pore, 2009: 381⁃390. [30]MIRKIN S, SPECIA L, CANCEDDA N, et al. Source⁃lan⁃ guage entailment modeling for translation unknown terms [C] / / Proceedings of the Joint Conference of the 47th An⁃ nual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP. Singapore, 2009: 791⁃799. [31]ONISHI T, UTIYAMA M, SUMITA E. Paraphrase lattice for statistical machine translation[C] / / Proceedings of the ACL 2010 Conference Short Papers. Uppsala, Sweden, 2010: 1⁃5. [32]ONISHI T, UTIYAMA M, SUMITA E. Paraphrase lattice for statistical machine translation [ J]. EICE Transactions on Information and Systems, 2011, E94⁃D ( 6): 1299⁃ 1305. [33]DU Jinhua, JIANG Jie, WAY A. Facilitating translation u⁃ sing source language paraphrase lattices[C] / / Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing. Cambridge, USA, 2010: 420⁃429. [34]HE Wei, WU Hua, WANG Haifeng, et al. Improve SMT quality with automatically extracted paraphrase rules[C] / / Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics. Jeju Island, Korea, 2012: 979⁃987. [35]RESNIK P, BUZEK O, HU Chang, et al. Improving trans⁃ lation via targeted paraphrasing[C] / / Proceedings of 2010 Conference on Empirical Methods in Natural Language Pro⁃ cessing. Cambridge, USA, 2010: 127⁃137. [36]KAUCHAK D, BARZILAY R. Paraphrasing for automatic evaluation [ C ] / / Proceedings of the Human Language Technology Conference of the NAACL. New York, USA, 2006: 455⁃462. [37]KANAYAMA H. Paraphrasing rules for automatic evalua⁃ tion of translation into Japanese [ C] / / Proceedings of the Second International Workshop on Paraphrasing. Sapporo, Japan, 2003, 16: 88⁃93. [38]LEPAGE Y, DENOUAL E. Automatic generation of para⁃ phrases to be used as translation references in objective e⁃ valuation measures of machine translation [ C] / / Proceed⁃ ings of the 2nd International Joint Conference on Natural Language Processing. Jeju Island, Korea, 2005: 57⁃64. [39]ZHOU Liang, LIN Chinyew, HOVY E. Re⁃evaluating ma⁃ chine translation results with paraphrase support[C] / / Pro⁃ ceedings of the 2006 Conference on Empirical Methods in Natural Language Processing. Sydney, Australia, 2006: 77⁃84. [40] LASSNER G R, LIN J, RESNIK P. A paraphrase⁃based approach to machine translation evaluation, Technical Re⁃ port LAMP⁃TR⁃125 / CS⁃TR⁃4754 / UMIACS⁃TR⁃2005⁃57 [R]. College Park, USA: University of Maryland, 2005. [41]SNOVER M, MADNANI N, DORR B J, et al. Fluency, adequacy, or HTER? Exploring different human judgments with a tunable MT metric[C] / / Proceedings of the Fourth Workshop on Statistical Machine Translation at the 12th Meeting of the European Chapter of the Association for Computational Linguistics. Athens, Greece, 2009: 259⁃ 268. [42]SNOVER M, DORR B J, SCHWARTZ R, et al. A study of translation edit rate with targeted human annotation [C] / / Proceedings of Association for Machine Translation in the Americas. Cambridge, USA, 2006: 223⁃231. [43]PADO S, GALLEY M, JURAFSKY D, et al. Textual en⁃ tailment features for machine translation evaluation[C] / / Proceedings of the 4th Workshop on Statistical Machine Translation. Stroudsburg, USA, 2009: 37⁃41. [44]LIU X, GALES M J F, WOODLAND P C. Paraphrastic language models[C] / / Proceedings of 13th Annual Confer⁃ ence of the International Speech Communication Associa⁃ tion. Portland, USA, 2012: 1⁃4. 作者简介: 胡金铭,男,1987 年生,硕士研究 生,主要研究方向为自然语言处理、机 器翻译. 史晓东,男,1966 年生,教授,博士 生导师,主要研究方向为自然语言处 理、机器翻译.先后主持和参与国家自 然科学基金项目 3 项、国家“863”计划 项目 10 余项,获福建省科技进步三等 奖 1 项,发表学术论文 30 余篇. 苏劲松,男,1982 年生,讲师,博士, 主要研究方向为自然语言处理、机器翻 译等. 第 3 期 胡金铭,等:引入复述技术的统计机器翻译研究综述 ·207·