机器翻译‖l Machine Translation l 张宇 哈尔滨工业大学计算机科学与技术学院 Zhangyu@irhit.edu.cn
机器翻译II Machine Translation II 张宇 哈尔滨工业大学计算机科学与技术学院 zhangyu@ir.hit.edu.cn
大纲 基于翻译记忆的机器翻译方法 ■基于模板(模式)的机器翻译方法 ■双语语料库对齐技术 句子对齐 词语对齐 ■机器翻译的评价 2021年2月1日5时18分 语言信息处理-机器翻译Ⅱ
2021年2月1日5时18分 语言信息处理--机器翻译II 2 大纲 基于翻译记忆的机器翻译方法 基于模板(模式)的机器翻译方法 双语语料库对齐技术 – 句子对齐 – 词语对齐 机器翻译的评价
翻译记忆方法1 ■翻译记忆方法( Translation Memory)是基于实 例方法的特例; ■也可以把基于实例的方法理解为广义的翻译记忆 方法; ■翻译记忆的基本思想: 把已经翻译过的句子保存起来 翻译新句子时,直接到语料库中去查找 如果发现相同的句子,直接输出译文 否则交给人去翻译,但可以提供相似的句子的参考译文 2021年2月1日5时18分 语言信息处理-机器翻译Ⅱ
2021年2月1日5时18分 语言信息处理--机器翻译II 3 翻译记忆方法1 翻译记忆方法(Translation Memory)是基于实 例方法的特例; 也可以把基于实例的方法理解为广义的翻译记忆 方法; 翻译记忆的基本思想: – 把已经翻译过的句子保存起来 – 翻译新句子时,直接到语料库中去查找 如果发现相同的句子,直接输出译文 否则交给人去翻译,但可以提供相似的句子的参考译文
翻译记忆方法2 ■翻译记忆方法主要被应用于计算机辅助翻 译(CAT)软件中 ■翻译记忆方法的优缺点 翻译质量有保证 随着使用时间匹配成功率逐步提高 特别适用于重复率高的文本翻译,例如公司的 品说明书的新版本翻译 与语言无关,适用于各种语言对 缺点是匹配成功率不高,特别是刚开始使用时 2021年2月1日5时18分 语言信息处理-机器翻译Ⅱ
2021年2月1日5时18分 语言信息处理--机器翻译II 4 翻译记忆方法2 翻译记忆方法主要被应用于计算机辅助翻 译(CAT)软件中 翻译记忆方法的优缺点 – 翻译质量有保证 – 随着使用时间匹配成功率逐步提高 – 特别适用于重复率高的文本翻译,例如公司的 产品说明书的新版本翻译 – 与语言无关,适用于各种语言对 – 缺点是匹配成功率不高,特别是刚开始使用时
翻译记忆方法3 ■计算机辅助翻译(CAT)软件已经形成了比较成熟的产业 TRADOS ■号称占有国际CAT市场的70% Microsoft、 Siemens、SAP等国际大公司和一些著名的国际组织都是 其用户 雅信CAT 适合中国人的习惯 产品已比较成熟 国际组织:L|SA( Localisation Industry Standards Association) ■面向用户:专业翻译人员 ■数据交换:LSA制定了TMX( Translation Memory eXchange)标准。 2021年2月1日5时18分 语言信息处理-机器翻译Ⅱ 5
2021年2月1日5时18分 语言信息处理--机器翻译II 5 翻译记忆方法3 计算机辅助翻译(CAT)软件已经形成了比较成熟的产业 – TRADOS 号称占有国际CAT市场的70% Microsoft、Siemens、SAP等国际大公司和一些著名的国际组织都是 其用户 – 雅信CAT 适合中国人的习惯 产品已比较成熟 – 国际组织: LISA(Localisation Industry Standards Association) 面向用户:专业翻译人员 数据交换:LISA制定了TMX(Translation Memory eXchange)标准
翻译记忆方法4 完整的计算机辅助翻译软件除了包括翻译 记忆功能以外,还应该包括以下功能 多种文件格式的分解与合成 术语库管理功能 语料库的句子对齐(历史资料的重复利用) 项目管理: ■翻译任务的分解与合并 翻译工作量的估计 数据共享和数据交换 2021年2月1日5时18分 语言信息处理-机器翻译Ⅱ
2021年2月1日5时18分 语言信息处理--机器翻译II 6 翻译记忆方法4 完整的计算机辅助翻译软件除了包括翻译 记忆功能以外,还应该包括以下功能 – 多种文件格式的分解与合成 – 术语库管理功能 – 语料库的句子对齐(历史资料的重复利用) – 项目管理: 翻译任务的分解与合并 翻译工作量的估计 – 数据共享和数据交换
翻译记忆方法5 字数/天 采用CAT 20000 辅助翻译效率 传统翻译效率 1000 第1个月第2个月第3个月时间 2021年2月1日5时18分 语言信息处理-机器翻译Ⅱ
2021年2月1日5时18分 语言信息处理--机器翻译II 7 翻译记忆方法5
基于模板(模式)的机器翻译方法1 基于模板( Template或者模式( Pattern)的机器翻译 方法通常也被看做基于实例的机器翻译方法的一种延伸 所谓“翻译模板”或者“翻译模式”可以认为是一种颗粒 度介于“翻译规则”和“翻译实例”之间的翻译知识表示 形式 翻译规则:颗粒度大,匹配可能性大,但过于抽象,容易出错 翻译实例:颗粒度小,不易出错,但过于具体,匹配可能性小 翻译模板(模式):介于二者之间,是一种比较合适的知识表示 形式 一般而言,单语模板(或模式)是一个常量和变量组成的 字符串,翻译模板(或模式)是两个对应的单语模板(或 模式),两个模板之间的变量存在意义对应关系 2021年2月1日5时18分 语言信息处理-机器翻译Ⅱ
2021年2月1日5时18分 语言信息处理--机器翻译II 8 基于模板(模式)的机器翻译方法1 基于模板(Template)或者模式(Pattern)的机器翻译 方法通常也被看做基于实例的机器翻译方法的一种延伸 所谓“翻译模板”或者“翻译模式”可以认为是一种颗粒 度介于“翻译规则”和“翻译实例”之间的翻译知识表示 形式 – 翻译规则:颗粒度大,匹配可能性大,但过于抽象,容易出错 – 翻译实例:颗粒度小,不易出错,但过于具体,匹配可能性小 – 翻译模板(模式):介于二者之间,是一种比较合适的知识表示 形式 一般而言,单语模板(或模式)是一个常量和变量组成的 字符串,翻译模板(或模式)是两个对应的单语模板(或 模式),两个模板之间的变量存在意义对应关系
基于模板(模式)的机器翻译方法2 模板举例: 这个X比Y更Z The x is more z than y ■模板方法的主要问题 对模板中变量的约東 模板抽取 模板的冲突消解 2021年2月1日5时18分 语言信息处理-机器翻译Ⅱ
2021年2月1日5时18分 语言信息处理--机器翻译II 9 基于模板(模式)的机器翻译方法2 模板举例: – 这个X 比Y 更Z。 – The X is more Z than Y. 模板方法的主要问题 – 对模板中变量的约束 – 模板抽取 – 模板的冲突消解
Pattern-Based cfG for mt 1 Koichi takeda. Pattern-Based context- Free Grammars for machine translation Proc. of 34th ACL, pp 144-151, June 1996 ■给出了翻译模式的一种形式化定义,并给 出了相应的翻译算法以及算法复杂性的理 论证明 2021年2月1日5时18分 语言信息处理-机器翻译Ⅱ 10
2021年2月1日5时18分 语言信息处理--机器翻译II 10 Pattern-Based CFG for MT 1 Koichi Takeda, Pattern-Based ContextFree Grammars for Machine Translation, Proc. of 34th ACL, pp. 144-- 151, June 1996 给出了翻译模式的一种形式化定义,并给 出了相应的翻译算法以及算法复杂性的理 论证明