机器翻译 Machine Translation 张宇 哈尔滨工业大学计算机科学与技术学院 Zhangyu@irhit.edu.cn
机器翻译I Machine Translation I 张宇 哈尔滨工业大学计算机科学与技术学院 zhangyu@ir.hit.edu.cn
大纲 机器翻译的历史 ■机器翻译的分类 ■机器翻译的范式 ■机器翻译的基本策略 ■基于规则的机器翻译方法 基于实例的机器翻译方法 2021年2月2日10时32分 语言信息处理-机器翻译l 2
2021年2月2日10时32分 语言信息处理--机器翻译I 2 大纲 机器翻译的历史 机器翻译的分类 机器翻译的范式 机器翻译的基本策略 基于规则的机器翻译方法 基于实例的机器翻译方法
机器翻译的历史 IW. J Hutchens, latest Development in MT Technology: Beginning a New Era in MT Research. In: Proceedings of machine Translation Summit-NV, Kobe, Japan, 1993 ■冯志伟,自动翻译,上海知识出版社,1987年 ■冯志伟,自然语言机器翻译新论,语文出版社, 1994年。 ■冯志伟,自然语言的计算机处理,上海外语教育 出版社,1996年。 2021年2月2日10时32分 语言信息处理-机器翻译l 3
2021年2月2日10时32分 语言信息处理--机器翻译I 3 W. J. Hutchens, latest Development in MT Technology: Beginning a New Era in MT Research. In : Proceedings of Machine Translation Summit-IV, Kobe, Japan, 1993. 冯志伟,自动翻译,上海知识出版社,1987年。 冯志伟,自然语言机器翻译新论,语文出版社, 1994年。 冯志伟,自然语言的计算机处理,上海外语教育 出版社,1996年。 机器翻译的历史
机器翻译的萌芽期(1) 关于用机器来进行语言翻译的想法,远在古希腊时代就有人提 出过了。 ■在17世纪,一些有识之士提出了采用机器词典来克服语言障碍 的想法。 笛卡儿( Descartes)和莱布尼兹( Leibniz)都试图在统一的 数字代码的基础上来编写词典。在17世纪中叶,贝克(Cave Beck)、基尔施( Athanasiuskircher)和贝希尔( Johann Joachim becher)等人都出版过这类的词典。由此开展了关于 “普遍语言”的运动。 维尔金斯( John wi|kins)在《关于真实符号和哲学语言的论 X)(An Essay towards a real character and Philosophical Language,1668)中提出的中介语( Interlingua)是这方面最著 名的成果,这种中介语的设计试图将世界上所有的概念和实体 都加以分类和编码,有规则地列出并描述所有的概念和实体, 并根据它们各自的特点和性质,给予不同的记号和名称。 2021年2月2日10时32分 语言信息处理-机器翻译l
2021年2月2日10时32分 语言信息处理--机器翻译I 4 机器翻译的萌芽期(1) 关于用机器来进行语言翻译的想法,远在古希腊时代就有人提 出过了。 在17世纪,一些有识之士提出了采用机器词典来克服语言障碍 的想法。 笛卡儿(Descartes)和莱布尼兹(Leibniz)都试图在统一的 数字代码的基础上来编写词典。在17世纪中叶,贝克(Cave Beck)、基尔施(AthanasiusKircher)和贝希尔(Johann Joachim Becher)等人都出版过这类的词典。由此开展了关于 “普遍语言”的运动。 维尔金斯(John Wilkins) 在《关于真实符号和哲学语言的论 文》(An Essay towards a Real Character and Philosophical Language, 1668)中提出的中介语(Interlingua)是这方面最著 名的成果,这种中介语的设计试图将世界上所有的概念和实体 都加以分类和编码,有规则地列出并描述所有的概念和实体, 并根据它们各自的特点和性质,给予不同的记号和名称
机器翻译的萌芽期(2) ■本世纪三十年代之初,亚美尼亚裔的法国工程师阿尔楚尼 GB. Artsoun)提出了用机器来进行语言翻译的想法, 并在1933年7月22日获得了一项“翻译机”的专利,叫做 机械脑”( mechanical brain)。 这种机械脑的存储装置可以容纳数千个字元,通过键盘后 面的宽纸带,进行资料的检索。阿尔楚尼认为它可以应用 来记录火车时刻表和银行的帐户,尤其适合于作机器词典。 在宽纸带上面,每一行记录了源语言的一个词项以及这个 词项在多种目标语言中的对应词项,在另外一条纸带上对 应的每个词项处,记录着相应的代码,这些代码以打孔来 表示。机械脑于1937年正式展出,引起了法国邮政、电 部门的兴趣。但是,由于不久爆发了第二次世界大战,阿 尔楚尼的机械脑无法安装使用。 2021年2月2日10时32分 语言信息处理-机器翻译l
2021年2月2日10时32分 语言信息处理--机器翻译I 5 机器翻译的萌芽期(2) 本世纪三十年代之初,亚美尼亚裔的法国工程师阿尔楚尼 (G.B. Artsouni)提出了用机器来进行语言翻译的想法, 并在1933年7月22日获得了一项“翻译机”的专利,叫做 “机械脑”(mechanical brain)。 这种机械脑的存储装置可以容纳数千个字元,通过键盘后 面的宽纸带,进行资料的检索。阿尔楚尼认为它可以应用 来记录火车时刻表和银行的帐户,尤其适合于作机器词典。 在宽纸带上面,每一行记录了源语言的一个词项以及这个 词项在多种目标语言中的对应词项,在另外一条纸带上对 应的每个词项处,记录着相应的代码,这些代码以打孔来 表示。机械脑于1937年正式展出,引起了法国邮政、电信 部门的兴趣。但是,由于不久爆发了第二次世界大战,阿 尔楚尼的机械脑无法安装使用
机器翻译的萌芽期(3) 1903年,古图拉特(otua和洛(Leau)在《通用语言的历 史》二书中指出,德国学者单格 Riege)曾经提出过一种 数字语法( Zifferngrammatik),这种语法 词典的辅助,可 以利用机械将一种语言翻译成其他多种语言,首次使用 翻译”(德文是 ein mechanischen Uebersetzen)这 个术语 ■1933年,苏联发明家特洛扬斯基(∏.∏. TPOqHCK/) 设让了用机械方法把一种语言翻译为另一种 机 在同年9月5日登记了他的发明。1939年,特洛扬斯基在他 翻译机上增加 个用“光元素”操作的存储装置;1941年 5月,这部实验性的翻译机已经可以运作;1948年,他计划 在此基础上研 部“电子机械机”,( electro-mechanical machine)。但是,由于当时苏联的科学家和语言学家对此反 映十分冷淡,特洛扬斯基的翻译机没有得到支持,最后以失 败告终了 2021年2月2日10时32分 语言信息处理-机器翻译l 6
2021年2月2日10时32分 语言信息处理--机器翻译I 6 机器翻译的萌芽期(3) 1903年,古图拉特(Couturat)和洛(Leau)在《通用语言的历 史》一书中指出,德国学者里格(W. Rieger) 曾经提出过一种 数字语法(Zifferngrammatik),这种语法加上词典的辅助,可 以利用机械将一种语言翻译成其他多种语言,首次使用了 “机器翻译” (德文是ein mechanisches Uebersetzen)这 个术语。 1933年,苏联发明家特洛扬斯基(П.П.ТРОЯНСКИЙ) 设计了用机械方法把一种语言翻译为另一种语言的机器,并 在同年9月5日登记了他的发明。1939年,特洛扬斯基在他的 翻译机上增加了一个用“光元素”操作的存储装置;1941年 5 月,这部实验性的翻译机已经可以运作;1948年,他计划 在此基础上研制一部“电子机械机”(electro-mechanical machine)。但是,由于当时苏联的科学家和语言学家对此反 映十分冷淡,特洛扬斯基的翻译机没有得到支持,最后以失 败告终了
机器翻译的草创期(1) 1946年,美国宾夕法尼亚大学的埃克特(J. P Eckert)和莫希 莱( J.W. Mauchly)设计并制造出了世界上第一台电子计算 ENAC,在电子计算机问世的同 英国工程师布斯(A.D Booth)和美国洛克菲勒基金会副总裁韦弗(W. Weaver)在讨 论电子计算机的应用范围时,就提出了利用计算机进行语言自 动翻译的想法。 1947年3月6日,布斯与韦弗在纽约的洛克菲勒中心会面,韦弗 提出,“如果将计算机用在非数值计算方面,是比较有希望 ■在韦弗与布斯会面之前,韦弗在1947年3月4日给控制论学者维 纳N. Wiener)写信,讨论了机器翻译的问题,韦弗说:“我怀 疑是否真的建造不出一部能够作翻译的计算机?即使只能翻译 科学性的文章(在语义上问题较少),或是翻译出来的结果不 怎么优雅(但能够理解):对我而言都值得一试 可是,维 纳在4月30日给韦弗的回信中写道 实说,恐怕每一种语 范围都相当模糊;,而其中表示的感情和外之意 要以类似机器翻译的方法来处理,恐宿不是很乐观的。 2021年2月2日10时32分 语言信息处理-机器翻译I
2021年2月2日10时32分 语言信息处理--机器翻译I 7 机器翻译的草创期(1) 1946年,美国宾夕法尼亚大学的埃克特(J. P. Eckert)和莫希 莱(J.W.Mauchly)设计并制造出了世界上第一台电子计算机 ENIAC,在电子计算机问世的同一年,英国工程师布斯(A. D. Booth)和美国洛克菲勒基金会副总裁韦弗(W. Weaver)在讨 论电子计算机的应用范围时,就提出了利用计算机进行语言自 动翻译的想法。 1947年3月6日,布斯与韦弗在纽约的洛克菲勒中心会面,韦弗 提出,“如果将计算机用在非数值计算方面,是比较有希望 的”。 在韦弗与布斯会面之前,韦弗在1947年3月4日给控制论学者维 纳(N.Wiener)写信,讨论了机器翻译的问题,韦弗说:“我怀 疑是否真的建造不出一部能够作翻译的计算机?即使只能翻译 科学性的文章(在语义上问题较少),或是翻译出来的结果不 怎么优雅(但能够理解),对我而言都值得一试。”可是,维 纳在4月30日给韦弗的回信中写道:“老实说,恐怕每一种语 言的词汇,范围都相当模糊;而其中表示的感情和言外之意, 要以类似机器翻译的方法来处理,恐怕不是很乐观的
机器翻译的草创期(2) 1949年,韦弗发表了一份以《翻译》为题的备忘录,正式提出了机器 译问题。在这份备套录中 除了提出各种语言都有许多共同的特 这一论点之外,还有两点值得我们注意: 第一,他认为翻译类似于解读密码的过程。他说:“当我阅读一篇用俄 语写的文章的时候,我可 篇文章实际上是用英语写的,只 它是用另外一种奇怪的符号编了码而已,当我在阅读时,我是在进行 第二,他认为原文与译文“说的是同样的事情”,因此,当把语言A翻译 为语言B时,就意味着,从语言A出发,经过某一“通用语言” Dniversallanguage)或“中语言”(mg,然后替换为语 由于学者的热心倡导,实业界的大力支持,美国的机器翻译研究一时 兴盛起来。1954 ,美国乔治敦大学在国际商用机器 BM公司 的协同下,用BM-701计算机,进行了世界上第一次机器翻译试验, 把几个简单的俄语句子翻译成英语,接着,苏联、英国、日本也进行 了机器翻译试验,机器翻译出现热潮 2021年2月2日10时32分 语言信息处理-机器翻译l
2021年2月2日10时32分 语言信息处理--机器翻译I 8 机器翻译的草创期(2) 1949年,韦弗发表了一份以《翻译》为题的备忘录,正式提出了机器 翻译问题。在这份备忘录中,他除了提出各种语言都有许多共同的特 征这一论点之外,还有两点值得我们注意: – 第一,他认为翻译类似于解读密码的过程。他说:“当我阅读一篇用俄 语写的文章的时候,我可以说,这篇文章实际上是用英语写的,只不过 它是用另外一种奇怪的符号编了码而已,当我在阅读时,我是在进行解 码。” – 第二,他认为原文与译文“说的是同样的事情”,因此,当把语言A翻译 为语言B时,就意味着,从语言A出发,经过某一“通用语言” (Universal Language)或“中间语言”(Interlingua),然后转换为语 言B,这种“通用语言”或“中间语言”,可以假定是全人类共同的。 由于学者的热心倡导,实业界的大力支持,美国的机器翻译研究一时 兴盛起来。1954年,美国乔治敦大学在国际商用机器公司(IBM公司) 的协同下,用IBM-701计算机,进行了世界上第一次机器翻译试验, 把几个简单的俄语句子翻译成英语,接着,苏联、英国、日本也进行 了机器翻译试验,机器翻译出现热潮
机器翻译的萧条期 ■1964年,美国科学院成立语言自动处理谘询委员会 (Automatic Language Processing Advisory Committee 简称 ALPAC委员会),调查机器翻译的研究情况,并于 1966年11月公布了一个题为《语言与机器》的报告,简称 ALPAC报告,对机器翻译采取否定的态度,报告宣称: “在目前给机器翻译以大力支持还没有多少理由”;报 告还指出,机器翻译研究遇到了难以克服的“语义障碍” ( semantic barrier)。 ■在 ALPAC报告的影响下,许多国家的机器翻译研究低潮, 许多已经建立起来的机器翻译研究单位遇到了行政上和经 费上的困难,在世界范围内,机器翻译的热潮突然消失了, 出现了空前萧条的局面。 2021年2月2日10时32分 语言信息处理-机器翻译l 9
2021年2月2日10时32分 语言信息处理--机器翻译I 9 机器翻译的萧条期 1964年,美国科学院成立语言自动处理谘询委员会 (Automatic Language Processing Advisory Committee, 简称ALPAC委员会),调查机器翻译的研究情况,并于 1966年11月公布了一个题为《语言与机器》的报告,简称 ALPAC报告,对机器翻译采取否定的态度,报告宣称: “在目前给机器翻译以大力支持还没有多少理由”; 报 告还指出,机器翻译研究遇到了难以克服的“语义障碍” (semantic barrier)。 在ALPAC报告的影响下,许多国家的机器翻译研究低潮, 许多已经建立起来的机器翻译研究单位遇到了行政上和经 费上的困难,在世界范围内,机器翻译的热潮突然消失了, 出现了空前萧条的局面
机器翻译的复苏期(1) ■尽管在萧条时期,法国、日本机器翻译研 究的历史和现状加拿大等过,仍然坚持着 机器翻译研究,于是,在七十年代初期 机器翻译又出现了复苏的局面。 ■在这个复苏期,研究者们普遍认识到,原 语和译语两种语言的差异,不仅只表现在 词汇的不同上,而且,还表现在句法结构 的不同上,为了得到可读性强的译文,必 须在自动句法分析上多下功夫。 2021年2月2日10时32分 语言信息处理-机器翻译l 10
2021年2月2日10时32分 语言信息处理--机器翻译I 10 机器翻译的复苏期(1) 尽管在萧条时期,法国、日本机器翻译研 究的历史和现状加拿大等过,仍然坚持着 机器翻译研究,于是,在七十年代初期, 机器翻译又出现了复苏的局面。 在这个复苏期,研究者们普遍认识到,原 语和译语两种语言的差异,不仅只表现在 词汇的不同上,而且,还表现在句法结构 的不同上,为了得到可读性强的译文,必 须在自动句法分析上多下功夫