正在加载图片...
·204· 智能系统学报 第8卷 器翻译中引入复述的研究还处于初级阶段,有一定 效果如改善模型训练的方法,因为要生成训练语句 的局限性,并没有实质性地改变机器翻译的框架.笔 的句级复述,通常不能使用短语级复述规则做简单 者认为具体表现在如下几个方面:1)复述抽取的质 的短语替换,如表1中的句子(2).因为对于短语级 量不高,由于错误的传播将间接影响到翻译结果的 复述规则的使用可以不受句法约束,而句级复述如 好坏:2)复述生成的多样性不充分,并没有达到利 果句法错误,则会导致语义混乱.对于短语级复述, 用复述来丰富表达形式的目的:3)现有工作还局限 将其运用生成复述句必然会引入一些语法错误、语 在已有的统计模型框架下引入复述知识,因此复述 序不畅的问题.但是在构造复述词图时,就可以使用 技术与统计机器翻译系统的整体融合还需进一步的 短语级复述,从而避免上述问题的出现.使用短语级 研究 复述构建词图,可以使词图包含更多信息,使用待译 在引入复述技术的统计机器翻译研究中,虽然 语句的词图进行翻译是依据搜索解码过程对译文的 将复述技术运用在统计机器翻译的不同阶段,但究 评判,因此对词图的解析不但可以提高容错性也可 其本质,主要是为了解决数据稀疏的问题能否很好 以提升多样性.复述模板和复述搭配都包含句法信 地提升翻译效果,笔者认为主要有2个关键问题需 息,而目前在统计机器翻译中引入复述模板和复述 要解决:1)复述的正确性:2)复述的多样性, 搭配的研究工作还较少.笔者认为复述模板和复述 2.1复述的正确性 搭配的结构可以很好地与句法翻译模型相结合.句 引入复述改善机器翻译系统的翻译质量主要取 法翻译模型的过分细化使数据稀疏问题显得尤为严 决于复述的正确性,复述的正确性又可以体现为复 重,而复述的多样性可以很好地解决这一问题,又因 述生成的准确率.如表1所示,有4句复述句,其中 为复述模板和复述搭配的结构与句法翻译模型相 句子(2)~(4)这3句是错误的,若将其全部用于机 似,所以在句法翻译模型中引入复述模板和复述搭 器翻译系统中,必定会产生负面影响.如何提高复述 配将成为未来研究的重点,这也体现了机器翻译与 生成的准确率是复述能否提升翻译效果的一个至关 复述融合的思想.可见对于不同的任务,恰当的复述 重要的问题.就目前的研究而言,还没有很好的自动 粒度选取会有效提升复述的适用性, 评测手段来判断复述生成的好坏.笔者认为复述的 复述规则有人工定义和自动获取2种方法.对 正确性与复述规则的正确性和复述规则的适用性相 于人工定义的复述规则,由于考虑到了各种语言学 关如表1所示,句子(1)是原句,句子(2)是利用 知识,规则自身都是正确的,问题只是规则的使用是 “the movies->the films”复述规则生成的复述句.可 否恰当而对于自动获取的复述规则,由于统计的误 以发现这条短语复述规则是正确的,但是生成的“即 差、语料库的覆盖度等因素,导致包含过多的噪声. to the films'”并不符合英语的习惯用法.没有考虑句 这就需要一种合适的途径过滤掉噪声,不但过滤质 中上下文、句法信息与简单地使用短语级复述规则 量较差的规则,而且还能够对规则的使用,即复述的 是造成句子(2)错误的根本原因.而表1中句子 生成作一定的限制.上下文信息及句法信息的引入 (3)、(4)使用了错误的复述规则,因此产生了语法 使复述质量得到了很好的改善.通过对比上下文相 错误 近的语句找到适用于相同语言环境的复述规则来获 表1复述句实例 取和生成复述,使得语义不变:利用句法知识分析复 Table 1 Examples of paraphrase sentence 述句,使得语法正确 复述句 序号 正误 2.2复述的多样性 Everyone often goes to the movies (1) 会 数据稀疏是导致现有统计机器翻译系统的翻译 Everyone often goes to the films. (2) 错 结果不能令人满意的主要原因,笔者认为数据稀疏 性的根源来自语言的多样性,又可体现为复述生成 Everyone goes often to the movies. (3) 错 的召回率.因为机器翻译的训练数据无法包含所有 Everybody goes to the movies often. (4) 带 的语言现象,如果能极大地提升复述的召回率,便可 Everybody often goes to the movies. (5) 对 以使翻译系统的覆盖度尽可能扩大,从而提升翻译 复述一般通过同义词典、语料库、互联网等获 效果.笔者认为语言的多样性主要表现为个体性与 取根据粒度不同,又分为复述句、复述短语、复述模 进化性。 板和复述搭配等,在统计机器翻译中引入的复述粒 1)个体性.如表2所示,当用英文表达“请给我 度一般是句级、短语级和复述模板对于统计机器翻 一杯啤酒”时,因为个人的习惯与口语的随意性,有 译中的不同阶段,不同粒度的复述选取会有不同的 多种结构完全不同的表达形式时.当训练语料库中器翻译中引入复述的研究还处于初级阶段,有一定 的局限性,并没有实质性地改变机器翻译的框架.笔 者认为具体表现在如下几个方面:1)复述抽取的质 量不高,由于错误的传播将间接影响到翻译结果的 好坏;2)复述生成的多样性不充分,并没有达到利 用复述来丰富表达形式的目的;3)现有工作还局限 在已有的统计模型框架下引入复述知识,因此复述 技术与统计机器翻译系统的整体融合还需进一步的 研究. 在引入复述技术的统计机器翻译研究中,虽然 将复述技术运用在统计机器翻译的不同阶段,但究 其本质,主要是为了解决数据稀疏的问题.能否很好 地提升翻译效果,笔者认为主要有 2 个关键问题需 要解决:1)复述的正确性;2)复述的多样性. 2.1 复述的正确性 引入复述改善机器翻译系统的翻译质量主要取 决于复述的正确性,复述的正确性又可以体现为复 述生成的准确率.如表 1 所示,有 4 句复述句,其中 句子(2) ~ (4)这 3 句是错误的,若将其全部用于机 器翻译系统中,必定会产生负面影响.如何提高复述 生成的准确率是复述能否提升翻译效果的一个至关 重要的问题.就目前的研究而言,还没有很好的自动 评测手段来判断复述生成的好坏.笔者认为复述的 正确性与复述规则的正确性和复述规则的适用性相 关.如表 1 所示,句子(1) 是原句,句子(2) 是利用 “the movies⁃>the films” 复述规则生成的复述句.可 以发现这条短语复述规则是正确的,但是生成的“go to the films”并不符合英语的习惯用法.没有考虑句 中上下文、句法信息与简单地使用短语级复述规则 是造成句子( 2) 错误的根本原因. 而表 1 中句子 (3)、(4)使用了错误的复述规则,因此产生了语法 错误. 表 1 复述句实例 Table 1 Examples of paraphrase sentence 复述句 序号 正误 Everyone often goes to the movies. (1) 原 Everyone often goes to the films. (2) 错 Everyone goes often to the movies. (3) 错 Everybody goes to the movies often. (4) 错 Everybody often goes to the movies. (5) 对 复述一般通过同义词典、语料库、互联网等获 取.根据粒度不同,又分为复述句、复述短语、复述模 板和复述搭配等,在统计机器翻译中引入的复述粒 度一般是句级、短语级和复述模板.对于统计机器翻 译中的不同阶段,不同粒度的复述选取会有不同的 效果.如改善模型训练的方法,因为要生成训练语句 的句级复述,通常不能使用短语级复述规则做简单 的短语替换,如表 1 中的句子(2).因为对于短语级 复述规则的使用可以不受句法约束,而句级复述如 果句法错误,则会导致语义混乱.对于短语级复述, 将其运用生成复述句必然会引入一些语法错误、语 序不畅的问题.但是在构造复述词图时,就可以使用 短语级复述,从而避免上述问题的出现.使用短语级 复述构建词图,可以使词图包含更多信息,使用待译 语句的词图进行翻译是依据搜索解码过程对译文的 评判,因此对词图的解析不但可以提高容错性也可 以提升多样性.复述模板和复述搭配都包含句法信 息,而目前在统计机器翻译中引入复述模板和复述 搭配的研究工作还较少.笔者认为复述模板和复述 搭配的结构可以很好地与句法翻译模型相结合.句 法翻译模型的过分细化使数据稀疏问题显得尤为严 重,而复述的多样性可以很好地解决这一问题,又因 为复述模板和复述搭配的结构与句法翻译模型相 似,所以在句法翻译模型中引入复述模板和复述搭 配将成为未来研究的重点,这也体现了机器翻译与 复述融合的思想.可见对于不同的任务,恰当的复述 粒度选取会有效提升复述的适用性. 复述规则有人工定义和自动获取 2 种方法.对 于人工定义的复述规则,由于考虑到了各种语言学 知识,规则自身都是正确的,问题只是规则的使用是 否恰当.而对于自动获取的复述规则,由于统计的误 差、语料库的覆盖度等因素,导致包含过多的噪声. 这就需要一种合适的途径过滤掉噪声,不但过滤质 量较差的规则,而且还能够对规则的使用,即复述的 生成作一定的限制.上下文信息及句法信息的引入 使复述质量得到了很好的改善.通过对比上下文相 近的语句找到适用于相同语言环境的复述规则来获 取和生成复述,使得语义不变;利用句法知识分析复 述句,使得语法正确. 2.2 复述的多样性 数据稀疏是导致现有统计机器翻译系统的翻译 结果不能令人满意的主要原因,笔者认为数据稀疏 性的根源来自语言的多样性,又可体现为复述生成 的召回率.因为机器翻译的训练数据无法包含所有 的语言现象,如果能极大地提升复述的召回率,便可 以使翻译系统的覆盖度尽可能扩大,从而提升翻译 效果.笔者认为语言的多样性主要表现为个体性与 进化性. 1)个体性.如表 2 所示,当用英文表达“请给我 一杯啤酒”时,因为个人的习惯与口语的随意性,有 多种结构完全不同的表达形式时.当训练语料库中 ·204· 智 能 系 统 学 报 第 8 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有