正在加载图片...
·200· 能系统学报 第8卷 并使用该模型进行翻译.早期的研究使用噪声信道 模型风,当前的主流统计模型是对数线性模型) 1复述在统计机器翻译中的研究现状 对数线性模型由若干特征组成,每个特征都反映了 近年来,许多学者将复述应用到信息抽取、文本 翻译概率的一个方面,该模型由于可以包含更多的 生成、自动问答、自动文摘等多个相关研究领域中, 反映翻译概率的信息而受到了广泛关注.从事机器 如图1所示,对复述在自然语言处理的部分子课题 翻译研究的学者正尝试将不同的语言学、统计学特 中的文献资料做粗略统计(数据来自Google学术搜 征加人到对数线性模型中,使翻译系统更加强大.而 索),可见,其中讨论得最为广泛的是复述在机器翻 反映语言多样性的复述技术(paraphrasing technolo- 译研究中的应用. gies)也被用来改善机器翻译的效果. 随着自然语言处理各项底层技术的不断成熟和 其他 发展,复述(paraphrases)作为自然语言处理中一种 自动文摘, 9% 机器翻译 非常普遍的现象,受到了越来越多研究者的关注.刘 9% 31% 挺4)、赵世奇[)等国内学者也都对复述技术研究进 行了详细综述很多学者试图给复述一个精确的定 27% 义,早在20世纪80年代,语言学家Halliday和De 自动问答 18% Beaugrande等认为复述是“概念上的近似等价”,但 6% 信息抽取 互为复述的2个语言片段的可替换程度(inter- changeability)始终没有确切的标准[6-].Barzilay 文本生成 等[]把复述看作传达相同信息的可替换形式 图1复述在自然语言处理子课题的应用统计 Glickman等[o]则认为复述现象反映了语言多变性 Fig.1 Statistics of using paraphrases in sub-subject of NLP 的核心,复述是对应到相同意义的等价表达.鉴于上 复述是单语同义文本的表达形式转换,而机器 述观点,笔者认为复述就是在同一种语言内有相同 翻译则是跨语言同义文本的表达形式转换.它们的 语义但有不同表达形式的语言片段,它反映了人类 共通性也使得机器翻译中的理论和方法可以用于解 语言的灵活多样性,同时也为自然语言处理的研究 决复述问题,因此有基于MT的复述生成方法[)」 难点提供了更多的解决方法 同样,复述技术也可以解决机器翻译问题 统计机器翻译的实质是对大规模的双语语料进 在21世纪初,机器翻译中基于统计方法逐渐趋 行统计,提取有助于文本翻译的规则这些规则使得 于主导地位.在研究过程中,越来越多的学者发现语 翻译系统可以较好地处理字面上的直译,但其并没 料资源不足会极大影响统计翻译系统的翻译质量, 有真正意义上的意译能力,即无法翻译未知文本.随 复述便成为了一个解决办法.复述可以从更为广泛 着时间的推进,科技发展、知识增长,语言也在不断 的语料中获取,如同义词词典、单语可比语料、单语 地进化,不可能存在包含所有语言现象的语料库.然 平行语料等,更多的单语知识可以改善翻译系统性 而,复述技术可以将未知文本片段转化成语料库中 能.从方法角度上讲,将复述引入到统计机器翻译的 出现的同义表述:那么,适时地引入复述技术便可以 研究集中在改进其4个阶段,引入到前3个阶段是 提高翻译系统的性能。 为了提升翻译效果,而对于自动评测主要是为了提 目前由于统计机器翻译的研究热点是对数线性 升机器评价和人工评价的一致性.为了更直观地对 模型,因此将复述技术引入统计机器翻译的研究也 比前3种途径翻译效果的提升程度,图2列出了各 多数围绕对数线型模型展开.基于对数线性模型的 方法在BLEU值上的提升比.因为各学者选取的实 统计机器翻译大致可以分为4个阶段:翻译模型的 验数据并不一致,结果对比可能略有出入.但从图2 训练、特征参数的调整、译文的搜索解码、翻译质量 中可以发现,对待译语句的改写可以更好地提升翻 的自动评价.本文介绍了复述与统计机器翻译的概 译质量(图中的参数调整部分,因为数据都来自 念,并对复述技术与统计机器翻译中各个阶段内容 Madnani的研究,故命名为“年份.人工参考译文数 的联系进行概述,最后对引入复述技术的统计机器 量”,“H”前的数字表示开发集的人工参考译文数 翻译研究进展及前沿课题进行分析评述,概括并凝 量).下面从4个方面分别介绍引入复述的统计机器 练出具有研究价值的课题方向,希望对统计机器翻 翻译研究的国内外发展现状」 译领域的研究有所神益。并使用该模型进行翻译.早期的研究使用噪声信道 模型[1⁃2] ,当前的主流统计模型是对数线性模型[3] . 对数线性模型由若干特征组成,每个特征都反映了 翻译概率的一个方面,该模型由于可以包含更多的 反映翻译概率的信息而受到了广泛关注.从事机器 翻译研究的学者正尝试将不同的语言学、统计学特 征加入到对数线性模型中,使翻译系统更加强大.而 反映语言多样性的复述技术( paraphrasing technolo⁃ gies)也被用来改善机器翻译的效果. 随着自然语言处理各项底层技术的不断成熟和 发展,复述( paraphrases)作为自然语言处理中一种 非常普遍的现象,受到了越来越多研究者的关注.刘 挺[4] 、赵世奇[5]等国内学者也都对复述技术研究进 行了详细综述.很多学者试图给复述一个精确的定 义,早在 20 世纪 80 年代,语言学家 Halliday 和 De Beaugrande 等认为复述是“概念上的近似等价”,但 互为复述的 2 个语言片段的可替换程度 ( inter⁃ changeability) 始 终 没 有 确 切 的 标 准[6⁃7] . Barzilay 等[8⁃9]把复述看作传达相同信息的可替换形式. Glickman 等[10]则认为复述现象反映了语言多变性 的核心,复述是对应到相同意义的等价表达.鉴于上 述观点,笔者认为复述就是在同一种语言内有相同 语义但有不同表达形式的语言片段,它反映了人类 语言的灵活多样性,同时也为自然语言处理的研究 难点提供了更多的解决方法. 统计机器翻译的实质是对大规模的双语语料进 行统计,提取有助于文本翻译的规则.这些规则使得 翻译系统可以较好地处理字面上的直译,但其并没 有真正意义上的意译能力,即无法翻译未知文本.随 着时间的推进,科技发展、知识增长,语言也在不断 地进化,不可能存在包含所有语言现象的语料库.然 而,复述技术可以将未知文本片段转化成语料库中 出现的同义表述;那么,适时地引入复述技术便可以 提高翻译系统的性能. 目前由于统计机器翻译的研究热点是对数线性 模型,因此将复述技术引入统计机器翻译的研究也 多数围绕对数线型模型展开.基于对数线性模型的 统计机器翻译大致可以分为 4 个阶段:翻译模型的 训练、特征参数的调整、译文的搜索解码、翻译质量 的自动评价.本文介绍了复述与统计机器翻译的概 念,并对复述技术与统计机器翻译中各个阶段内容 的联系进行概述,最后对引入复述技术的统计机器 翻译研究进展及前沿课题进行分析评述,概括并凝 练出具有研究价值的课题方向,希望对统计机器翻 译领域的研究有所裨益. 1 复述在统计机器翻译中的研究现状 近年来,许多学者将复述应用到信息抽取、文本 生成、自动问答、自动文摘等多个相关研究领域中. 如图 1 所示,对复述在自然语言处理的部分子课题 中的文献资料做粗略统计(数据来自 Google 学术搜 索),可见,其中讨论得最为广泛的是复述在机器翻 译研究中的应用. 图 1 复述在自然语言处理子课题的应用统计 Fig.1 Statistics of using paraphrases in sub⁃subject of NLP 复述是单语同义文本的表达形式转换,而机器 翻译则是跨语言同义文本的表达形式转换.它们的 共通性也使得机器翻译中的理论和方法可以用于解 决复述问题,因此有基于 MT 的复述生成方法[11⁃13] . 同样,复述技术也可以解决机器翻译问题. 在 21 世纪初,机器翻译中基于统计方法逐渐趋 于主导地位.在研究过程中,越来越多的学者发现语 料资源不足会极大影响统计翻译系统的翻译质量, 复述便成为了一个解决办法.复述可以从更为广泛 的语料中获取,如同义词词典、单语可比语料、单语 平行语料等,更多的单语知识可以改善翻译系统性 能.从方法角度上讲,将复述引入到统计机器翻译的 研究集中在改进其 4 个阶段,引入到前 3 个阶段是 为了提升翻译效果,而对于自动评测主要是为了提 升机器评价和人工评价的一致性.为了更直观地对 比前 3 种途径翻译效果的提升程度,图 2 列出了各 方法在 BLEU 值上的提升比.因为各学者选取的实 验数据并不一致,结果对比可能略有出入.但从图 2 中可以发现,对待译语句的改写可以更好地提升翻 译质量( 图中的参数调整部分,因为数据都来自 Madnani 的研究,故命名为“年份.人工参考译文数 量”,“H” 前的数字表示开发集的人工参考译文数 量).下面从 4 个方面分别介绍引入复述的统计机器 翻译研究的国内外发展现状. ·200· 智 能 系 统 学 报 第 8 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有