人工智能与机器翻译 单词与词组分析 主讲:杨宪泽
人工智能与机器翻译 主讲:杨宪泽 ——单词与词组分析
第5章单词与词组的处理与分析 第5章单词与词组的处理与分析 对于机器翻译研究来说,本章的第一任务是要建立语言的 机器词典,这一机器词典是多语言的。例如各自的藏,英,汉语 机器词库。 单词与词组的处理与分析,对于汉语来说,首先必须要进行 单词的自动切分。自动切分歧义部分是解决的难点,不但可能 用到规则推理,而且还可能用到语法分析,语义用分析,更详细 的过程可以结合第六章等一起研究 词语分类和兼类的分析与处理是本章研究的又一重点 本章的最后将研究词处理的一些细节问题
第 5 章 单词与词组的处理与分析 对于机器翻译研究来说,本章的第一任务是要建立语言的 机器词典, 这一机器词典是多语言的。例如各自的藏, 英, 汉语 机器词库。 单词与词组的处理与分析, 对于汉语来说, 首先必须要进行 单词的自动切分。自动切分歧义部分是解决的难点, 不但可能 用到规则推理, 而且还可能用到语法分析, 语义用分析, 更详细 的过程可以结合第六 章等一起研究。 词语分类和兼类的分析与处理是本章研究的又一重点。 本章的最后将研究词处理的一些细节问题。 第 5 章 单词与词组的处理与分析
第5章单词与词组的处理与分析 O HD 5.1机器词典概述 人工翻译离不开词典,当然,机器翻译也离 不开机器词典。机器词典也被称为电子词典,简 称词典。机器词典的作用在机器翻译中是最重要 的,因为做任何机器翻译工作都必须通过查机器 词典来得到相关的翻译元素单词和词组。如何 有效的组织建立机器词典,如何更好地利用机 器词典中包含的各种知识,是一个值得深入研究 的课题
第 5 章 单词与词组的处理与分析 人工翻译离不开词典,当然,机器翻译也离 不开机器词典。机器词典也被称为电子词典,简 称词典。机器词典的作用在机器翻译中是最重要 的,因为做任何机器翻译工作都必须通过查机器 词典来得到相关的翻译元素---单词和词组。如何 有效的组织、建立机器词典,如何更好地利用机 器词典中包含的各种知识,是一个值得深入研究 的课题。 5 . 1 机器词典概述
第5章单词与词组的处理与分析 5.1.1基于分析和转换的机器翻译方法 机器词典的作用: (1)机器词典的好坏是更好的实现实用化机器翻译系统软件的障碍之一。现 有的一些机器翻译系统在达到实用化阶段时往往因为机器词典规模的限制阻碍了 性能的进一步提高。因为语言词汇是一个开放的集合,无论建立多么庞大的词 典,都不可能穷举所有的词。而且,随着时间的推移,还会出现大量的新词。因 此,只有尽可能的扩充机器词典的规模,才可能使机器翻译系统更实用,更会被 更多的行业、更多的人所接受。 (2)机器词典是机器翻译的质量的关键,要达到机器翻译的全自动、高质量 就必须有一部信息丰富、易于使用的机器词典。一部好的机器词典不仅要有庞大 的数量,而且要有尽可能高的质量,只要这样,才可能是机器翻译的质量更高。 (3)电子词典(机器词典)不仅可以用于机器翻译,而且也可以用在自然语 言理解、自然语言处理诸多方面。因此,电子词典(机器词典)是大规模知识工 程的基础工作,它可以为知识系统提供一个基本的知识源
第 5 章 单词与词组的处理与分析 5. 1 . 1 基于分析和转换的机器翻译方法 机器词典的作用: (1)机器词典的好坏是更好的实现实用化机器翻译系统软件的障碍之一。现 有的一些机器翻译系统在达到实用化阶段时往往因为机器词典规模的限制阻碍了 性能的进一步提高。因为语言词汇是一个开放的集合,无论建立多么庞大的词 典,都不可能穷举所有的词。而且,随着时间的推移,还会出现大量的新词。因 此,只有尽可能的扩充机器词典的规模,才可能使机器翻译系统更实用,更会被 更多的行业、更多的人所接受。 (2)机器词典是机器翻译的质量的关键,要达到机器翻译的全自动、高质量, 就必须有一部信息丰富、易于使用的机器词典。一部好的机器词典不仅要有庞大 的数量,而且要有尽可能高的质量,只要这样,才可能是机器翻译的质量更高。 (3)电子词典(机器词典)不仅可以用于机器翻译,而且也可以用在自然语 言理解、自然语言处理诸多方面。因此,电子词典(机器词典)是大规模知识工 程的基础工作,它可以为知识系统提供一个基本的知识源
第5章单词与词组的处理与分析 对于机器翻译系统来说,为了适应不同专业领域的翻译要求,需要配有大 量的专业词汇。因此,机器翻译系统的词典又可以分为通用词典和专业词典两部 分。如专门的缩略语词典、特殊字词典等等。还可以把通用词典再细分为名词词 典、动词词典、成语词典等等。 机器词典的组织机构对于提高词语的检索速度是非常主要的。一定的组织结 构形式和相应的算法相配合,可以节约存储空间,提高检索速度,从而提高机器 翻译系统的整体翻译速度。 机器词典从存储形式来看,可以分为定长字段型、变长字段型和定变长混 合型三种类型;从索引格式看,可以分为级索引和多级索引等等。 词语的长短是不同的,例如,某些常用词的信息特别丰富,书本词典可以占 满几页,而有一些词语却只要一行。这样,如果所有词语都使用定长字段,则必 须依据最长词语确定字段长度,而相当多的短词语将浪费巨大的存储空间。所以 般情况下一条词语的有关信息的存储都采用变长形式,这可以用链接技术实现
第 5 章 单词与词组的处理与分析 对于机器翻译系统来说,为了适应不同专业领域的翻译要求,需要配有大 量的专业词汇。因此,机器翻译系统的词典又可以分为通用词典和专业词典两部 分。如专门的缩略语词典、特殊字词典等等。还可以把通用词典再细分为名词词 典、动词词典、成语词典等等。 机器词典的组织机构对于提高词语的检索速度是非常主要的。一定的组织结 构形式和相应的算法相配合,可以节约存储空间,提高检索速度,从而提高机器 翻译系统的整体翻译速度。 机器词典从存储形式来看,可以分为定长字段型、变长字段型和定变长混 合型三种类型;从索引格式看,可以分为一级索引和多级索引等等。 词语的长短是不同的,例如,某些常用词的信息特别丰富,书本词典可以占 满几页,而有一些词语却只要一行。这样,如果所有词语都使用定长字段,则必 须依据最长词语确定字段长度,而相当多的短词语将浪费巨大的存储空间。所以, 一般情况下一条词语的有关信息的存储都采用变长形式,这可以用链接技术实现
第5章单词与词组的处理与分析 5.2自动分词 汉语自动分词是我国计算机科学研究的重要课题之一,它是自然语言理 解、自动翻译、电子词典等信息处理的基础性工件。所谓分词,就是要把 句话,一篇文章甚至一部著作中的词语逐个逐个的切分出来。汉语不象拼音 文字那样有自然切分标志,而且词语长短不一,词语的定义也不统一,语言 学中对词的定义多种多样,造成切分的多样性,这也自然给自动分词的同一性 带来很大困难。汉语中词语本身的词素、词、词组无明显的区分界限,没有 一个统一的标准许多东西都是凭经验和语感来划分。这项工作如果全部交 给计算机来作,就没有那么简单了。 尽管计算机自动分词在诸多方面存在着许多困难,但是由于自动分词是 许多应用工作的第一步(也是自动翻译的第一步,这就促进了研究的持续不断, 提出了不少方法,它们各有优缺点,也可能是基于特定环境的
第 5 章 单词与词组的处理与分析 5 . 2 自动分词 汉语自动分词是我国计算机科学研究的重要课题之一, 它是自然语言理 解、自动翻译、电子词典等信息处理的基础性工件。所谓分词, 就是要把一 句话, 一篇文章甚至一部著作中的词语逐个逐个的切分出来。汉语不象拼音 文字那样有自然切分标志, 而且词语长短不一, 词语的定义也不统一, 语言 学中对词的定义多种多样, 造成切分的多样性, 这也自然给自动分词的同一性 带来很大困难。汉语中词语本身的词素、词、词组无明显的区分界限, 没有 一个统一的标准, 许多东西都是凭经验和语感来划分。.这项工作如果全部交 给计算机来作, 就没有那么简单了。 尽管计算机自动分词在诸多方面存在着许多困难, 但是由于自动分词是 许多应用工作的第一步(也是自动翻译的第一步), 这就促进了研究的持续不断, 提出了不少方法, 它们各有优缺点, 也可能是基于特定环境的
第5章单词与词组的处理与分析 5.2.1典型的自动分词方法 5.2.1.1正向最大匹配法和逆向最大匹配法 正向最大匹配法是最早提出的自动分词方法,它的基本思想是先取一句话 的前六个字查字库,若不是一个词,则删除六个字的最后一个字再查,这样一直 查下去,至找到一个词为止。句子剩余部分重复此工作,直到把所有的词都分 出为止。逆向最大匹配法也一样,每次匹配不成功时去掉汉字串中最前面的一 个字。 两法思路清晰,易于计算机实现,但由于试图用相对稳定的词表来代替灵 活多变,充满活力的词汇,把词库搜索作为判词的唯一标准,因而具有很大的 主观性和局限性。另外,这两种方法实际上否认了语言中的歧义现象 在实际应用中,方法有所变化。如下述算法我们初始不是取六个字而是取长 度最短词的个数
第 5 章 单词与词组的处理与分析 5. 2 . 1 典型的自动分词方法 5 . 2 . 1 . 1 正向最大匹配法和逆向最大匹配法 正向最大匹配法是最早提出的自动分词方法, 它的基本思想是先取一句话 的前六个字查字库, 若不是一个词, 则删除六个字的最后一个字再查, 这样一直 查下去, 至找到一个词为止。句子剩余部分重复此工作, 直到把所有的词都分 出为止。逆向最大匹配法也一样, 每次匹配不成功时去掉汉字串中最前面的一 个字。 两法思路清晰, 易于计算机实现, 但由于试图用相对稳定的词表来代替灵 活多变, 充满活力的词汇, 把词库搜索作为判词的唯一标准, 因而具有很大的 主观性和局限性。另外, 这两种方法实际上否认了语言中的歧义现象。 在实际应用中, 方法有所变化。如下述算法我们初始不是取六个字而是取长 度最短词的个数
第5章单词与词组的处理与分析 A1:一条汉语语句分划成单一字符X1,X2,,M。 A2:决定语词中可能出现的词最大字符长度Lmax,最小字符 长度Lmin A3:逆向匹配取语句最后的mm个字查关键词库,若查不到 加入一个字重复此工作直至字符数为Lmax为止。 A4:若实施A3查不到词去掉语句中最后一个字再实施A3直 至整个语句只剩下Lmin为止
第 5 章 单词与词组的处理与分析 A1: 一条汉语语句分划成单一字符X1,X2,…,XM。 A2: 决定语词中可能出现的词最大字符长度Lmax, 最小字符 长度 Lmin。 A3: 逆向匹配,取语句最后的Lmin个字查关键词库, 若查不到, 加入一个字重复此工作,直至字符数为Lmax为止。 A4: 若实施A3查不到词,去掉语句中最后一个字,再实施A3,直 至整个语句只剩下L min为止
第5章单词与词组的处理与分析 5.2.1.2高频优选法 这一方法基于词频的统计、字与字之间的构成结合律和歧 义切分等现象的分析而提出来的。根据《现代汉语频率词典》, 对于报刊和政论性文章,不同音节词的词频构成为:双音节词大 约有74%;三音节词大约有3.7%;单音节词大约有7.2%;而 五以上字音节词则大约只有0.4%左右。汉语是一字一音节,因 而也可以说,两字组词的频率比其它所有方式的概率加起来都还 要多。自动分词时首先考虑两字词,然后再考虑单字词,如此频 率低的词语最后才考虑。这种方法提高了分词效率,但对歧义问 题也无能为力,出错率并不低
第 5 章 单词与词组的处理与分析 5 . 2 . 1 . 2 高频优选法 这一方法基于词频的统计、字与字之间的构成结合律和歧 义切分等现象的分析而提出来的。根据《现代汉语频率词典》, 对于报刊和政论性文章,不同音节词的词频构成为:双音节词大 约有74%;三音节词大约有3 . 7%;单音节词大约有17 . 2%;而 五以上字音节词则大约只有0 . 4%左右。汉语是一字一音节,因 而也可以说,两字组词的频率比其它所有方式的概率加起来都还 要多。自动分词时首先考虑两字词,然后再考虑单字词,如此频 率低的词语最后才考虑。这种方法提高了分词效率,但对歧义问 题也无能为力,出错率并不低
第5章单词与词组的处理与分析 5.2.1.3其它方法 设立切分标志 切分标志有自然和非自然之分。自然切分标志是指文章的非 文字符号,例如标点符号等等;非自然切分标志是利用词缀和不 构成词的词(单字词等等)。设立切分标志方法的基本思想就是 通过建立非自然切分标志的一张表存储于计算机中用程序来识别 所有的非自然标志。这样一来,一个句子链将被化为若干短链, 然后再用其它切分方法进行各种细加工,这种多方法合作的综合 应用,途径增多,可以大大提高效率
第 5 章 单词与词组的处理与分析 5 . 2 . 1 . 3 其它方法 设立切分标志 切分标志有自然和非自然之分。自然切分标志是指文章的非 文字符号,例如标点符号等等;非自然切分标志是利用词缀和不 构成词的词(单字词等等)。设立切分标志方法的基本思想就是 通过建立非自然切分标志的一张表存储于计算机中用程序来识别 所有的非自然标志。这样一来,一个句子链将被化为若干短链, 然后再用其它切分方法进行各种细加工,这种多方法合作的综合 应用,途径增多,可以大大提高效率