人工智能与机器翻译 机器翻译部分 主讲:杨宪泽
人工智能与机器翻译 ——机器翻译部分 主讲:杨宪泽
6A第4章机器翻译方法 第4章机器翻译方法 机器翻译的处理对象是自然语言,而人类 对于语言认知的过程还未研究清楚,因此,要 实现理想、高质量的机器翻译至少目前还有较 大的距离。机器翻译是21世纪要解决的科技难 题之一,主要困难是自然语言在各个层次上的 歧义性。解决歧义问题很难从根本上突破,它 将涉及到处理的难度和翻译的速度,翻译的复 杂性,因此,寻求简单的翻译方法是一个重要 课题,它可以降低歧义处理难度,增加解决这 科技难题的希望
第 4 章 机器翻译方法 机器翻译的处理对象是自然语言,而人类 对于语言认知的过程还未研究清楚,因此,要 实现理想、高质量的机器翻译至少目前还有较 大的距离。机器翻译是21世纪要解决的科技难 题之一,主要困难是自然语言在各个层次上的 歧义性 。解决歧义问题很难从根本上突破,它 将涉及到处理的难度和翻译的速度,翻译的复 杂性,因此,寻求简单的翻译方法是一个重要 课题,它可以降低歧义处理难度,增加解决这 一科技难题的希望。 第 4 章 机器翻译方法
第4章机器翻译方法 自然语言的机器翻译目前一般以句子为翻译 单位。句子又分为句、短语、词三个层次。分析 阶段一般分为词法分析、句法分析、语义分析 语境分析、语用分析等,其中以词法分析和句法 分析为主。 面对这么多而复杂的分析模块(机器翻译中 每一种分析组成一个软件模块),面对这么庞大 的软件系统,研究者必须有清晰的思维、正确的 切入点,才可能把翻译软件设计得好一些,再好 基于这样的认识,本章将首先讨论现有的 机器翻译方法,并把重点放在基于实例的机器翻 译上
第 4 章 机器翻译方法 自然语言的机器翻译目前一般以句子为翻译 单位。句子又分为句、短语、词三个层次。分析 阶段一般分为词法分析、句法分析、语义分析、 语境分析、语用分析等,其中以词法分析和句法 分析为主。 面对这么多而复杂的分析模块(机器翻译中, 每一种分析组成一个软件模块),面对这么庞大 的软件系统,研究者必须有清晰的思维、正确的 切入点,才可能把翻译软件设计得好一些,再好 一些。基于这样的认识,本章将首先讨论现有的 机器翻译方法,并把重点放在基于实例的机器翻 译上
6A第4章机器翻译方法 4.1机器翻译的四种实现方法 4.1.1基于分析和转换的机器翻译方法 人作翻译时,把一个源语言句子译成目标语言句子,涉及 到四个基本操作:目标语言单词的检索、调序、删词、增词;机 器翻译系统的操作过程也不例外,有检索、分析、转换和生成的 主要四个阶段。这被称为基于分析和转换的机器翻译系统。也被 认为是模拟人类翻译活动最恰当的机制。 基于分析和转换的机器翻译方法就是自动实现源语言到目标 语言的转换,它采取了一系列的分析和转换的生成层次,使 源语言句子经过不同的中间表达形式,最终达到目标语言句子的 表示。其目的是尽可能地加深对源语言的理解,生成尽可能恰当 的目标语言形式。这种方法比较全面地体现了语言学知识在机器 翻译中的应用,是了解机器翻译实现过程的非常合适的模式
第 4 章 机器翻译方法 人作翻译时,把一个源语言句子译成目标语言句子,涉及 到四个基本操作:目标语言单词的检索、调序、删词、增词;机 器翻译系统的操作过程也不例外,有检索、分析、转换和生成的 主要四个阶段。这被称为基于分析和转换的机器翻译系统。也被 认为是模拟人类翻译活动最恰当的机制。 基于分析和转换的机器翻译方法就是自动实现源语言到目标 语言的转换,它采取了一系列的分析和转换的生成层次,使一个 源语言句子经过不同的中间表达形式,最终达到目标语言句子的 表示。其目的是尽可能地加深对源语言的理解,生成尽可能恰当 的目标语言形式。这种方法比较全面地体现了语言学知识在机器 翻译中的应用,是了解机器翻译实现过程的非常合适的模式。 4 . 1 机器翻译的四种实现方法 4 . 1 . 1 基于分析和转换的机器翻译方法
6A第4章机器翻译方法 在“机器翻译的常规步骤”实际上已经慨略 的介绍了这一方法的全过程,这里再补充阐述 些内容: 句子经过分析阶段之后,进入转换和生成阶 段。这两者一般联系得比较紧密,有时无法严格 区分,因为转换到目标语言也就是要生成目标语 言的词汇、短语、句子。可以把句子结构的转换 也就是源语言的句法树转换长合适的目标语言对 应形式当作转换,而后续的许多处理都当作生成 阶段的处理步骤看待
第 4 章 机器翻译方法 在“机器翻译的常规步骤”实际上已经慨略 的介绍了这一方法的全过程,这里再补充阐述一 些内容: 句子经过分析阶段之后,进入转换和生成阶 段。这两者一般联系得比较紧密,有时无法严格 区分,因为转换到目标语言也就是要生成目标语 言的词汇、短语、句子。可以把句子结构的转换 也就是源语言的句法树转换长合适的目标语言对 应形式当作转换,而后续的许多处理都当作生成 阶段的处理步骤看待
6A第4章机器翻译方法 实质上,机器翻译方法对语言的处理就是 在两种语言之间搭一座桥,实现一种语言到另 种语言意义等价的转换。它并非象自然语言 理解那样只是对一种语言的操作,只需作针对 种语言的分析。作为一个机器翻译系统,它 既要考虑源语言的语法和语义规律,也要考虑 目标语言的这方面规律,忽略了任何一方都是 不行的。也就是说,对于双语互译规律的发现 和应用才是机器翻译最本质的特征。所以,在 词、短语和句子这三个层次上寻找源语言的目 标语言翻译的等价物是机器翻译中转换与生成 的任务
第 4 章 机器翻译方法 实质上,机器翻译方法对语言的处理就是 在两种语言之间搭一座桥,实现一种语言到另 一种语言意义等价的转换。它并非象自然语言 理解那样只是对一种语言的操作,只需作针对 一种语言的分析。作为一个机器翻译系统,它 既要考虑源语言的语法和语义规律,也要考虑 目标语言的这方面规律,忽略了任何一方都是 不行的。也就是说,对于双语互译规律的发现 和应用才是机器翻译最本质的特征。所以,在 词、短语和句子这三个层次上寻找源语言的目 标语言翻译的等价物是机器翻译中转换与生成 的任务
6A第4章机器翻译方法 通常,机器翻译的硏究中将转换看做 整个翻译过程中的一个阶段。然而,在语 义结构上进行转换却是一种好的方式。语 义结构可以是跨语言的,有能力同时应用 于分析和生成。另一方面,当机器翻译系 统的翻译语言对扩展时,还可以应用于多 种不同的语言。但要注意,大规模的自然 语言语义描述相当复杂,因而在机器翻译 系统中的应用往往会受到限制,难以采用 这样的语义表示作为转换的基本结构
第 4 章 机器翻译方法 通常,机器翻译的研究中将转换看做 整个翻译过程中的一个阶段。然而,在语 义结构上进行转换却是一种好的方式。语 义结构可以是跨语言的,有能力同时应用 于分析和生成。另一方面,当机器翻译系 统的翻译语言对扩展时,还可以应用于多 种不同的语言。但要注意,大规模的自然 语言语义描述相当复杂,因而在机器翻译 系统中的应用往往会受到限制,难以采用 这样的语义表示作为转换的基本结构
6A第4章机器翻译方法 般情况下,分析以句法为主、语义 为辅,正确的句法结构转换加正确的词汇 译文可以从源语言向目标语言传递完整的 正确信息。因此,以句法结构转换附加上 定的语义信息,能够构成转换的基本层 次。不足之处是:因为句法分析的结果是 面向源语言的,而要生成合适的目标语言 译文,转换部分常常引入许多目标语言方 面的约束,使得转换规则变得复杂了
第 4 章 机器翻译方法 一般情况下,分析以句法为主、语义 为辅,正确的句法结构转换加正确的词汇 译文可以从源语言向目标语言传递完整的 正确信息。因此,以句法结构转换附加上 一定的语义信息,能够构成转换的基本层 次。不足之处是:因为句法分析的结果是 面向源语言的,而要生成合适的目标语言 译文,转换部分常常引入许多目标语言方 面的约束,使得转换规则变得复杂了
6A第4章机器翻译方法 就标准的机器翻译系统来说,句子和短语 层次的结构转换是机器翻译转换部分的研究重 点。通常使用转换规则,就可以实现源语言句 法结构到目标语言句法结构的转换。这方面 般采用产生式方式的转换规则形式: S:S1+S2+.+S→T1+T2+.:T 上式理解为:S是SL(源语言)的某个待 翻译单位(句子、短语等等),S1~Si是S中的 下一级组成单位;对于S,如果满足条件,则TL(目标语言)中有T1~T译 文构成了相应的等价物T
第 4 章 机器翻译方法 就标准的机器翻译系统来说,句子和短语 层次的结构转换是机器翻译转换部分的研究重 点。通常使用转换规则,就可以实现源语言句 法结构到目标语言句法结构的转换。这方面一 般采用产生式方式的转换规则形式: S:S1+S2+…+Si→T1+T2+…+Tj :T 上式理解为:S是SL(源语言)的某个待 翻译单位(句子、短语等等),S1~Si是S中的 下一级组成单位;对于S,如果满足条件,则TL(目标语言)中有T1~Tj译 文构成了相应的等价物T
6A第4章机器翻译方法 这样的方法有两个特点:一是面向源 语言分析,因为源语言中的一个句子已经 由句法、语义分析等阶段分析完毕,生成 了关于源语言句子的某种中间表示,转换 以这种源语言中间表示作为输入;二是直 接转换,即对于S表示,直接给出译文形 式,一般不需要在目标语言内再作进一步 转换,T1~T可以直接包括目标语言的词 汇,也可以是对应于S1~S的译文组块
第 4 章 机器翻译方法 这样的方法有两个特点:一是面向源 语言分析,因为源语言中的一个句子已经 由句法、语义分析等阶段分析完毕,生成 了关于源语言句子的某种中间表示,转换 以这种源语言中间表示作为输入;二是直 接转换,即对于S表示,直接给出译文形 式,一般不需要在目标语言内再作进一步 转换,T1~Tj可以直接包括目标语言的词 汇,也可以是对应于S1~Si的译文组块