第7章汉语自动分词与词性标注
第7章 汉语自动分词与词性标注
本章主要内容 ■7.1汉语自动分词中的基本问题 ■7.2基本分词方法 ·73未登录词处理方法概述 ■7.4基于多特征的命名实体识别模型 ■7.5词性标注 ■7.6词性标注的一致性检查与自动校对 ■7.7汉语分词与词性标注系统评测
本章主要内容 ◼ 7.1 汉语自动分词中的基本问题 ◼ 7.2 基本分词方法 ◼ 7.3 未登录词处理方法概述 ◼ 7.4 基于多特征的命名实体识别模型 ◼ 7.5 词性标注 ◼ 7.6 词性标注的一致性检查与自动校对 ◼ 7.7 汉语分词与词性标注系统评测
7.1汉语自动分词中的基本问题 期 汉语自动分词就是让计算机系统在汉语文本中的词 与词之间自动加上空格或其他边界标记。 看似简单,却使人扼腕感叹
7.1 汉语自动分词中的基本问题 ◼ 汉语自动分词就是让计算机系统在汉语文本中的词 与词之间自动加上空格或其他边界标记。 ◼ 看似简单,却使人扼腕感叹
7.1.1汉语分词规范问题(1/2) ■“词”的概念(词是什么一词的抽象定义、什么是 词一词的具体界定)飘忽不定,原因: 。单字词与词素之间的划界,如:新华社25日讯 。词与短语的划界,如:花草、湖边、鸭蛋、小鸡、担 水、房项、一层、翻过 。对“词”的认识,普通人和语言学家的标准也有较大 差异
7.1.1 汉语分词规范问题(1/2) ◼ “词”的概念(词是什么—词的抽象定义、什么是 词—词的具体界定)飘忽不定,原因: ⚫ 单字词与词素之间的划界,如:新华社25日讯 ⚫ 词与短语的划界,如:花草、湖边、鸭蛋、小鸡、担 水、房顶、一层、翻过 ⚫ 对“词”的认识,普通人和语言学家的标准也有较大 差异
7.1.1汉语分词规范问题(2/2) 1992年国家标准局颁布了作为国家标准的《信息处 理用现代汉语分词规范》[刘源等,1994;刘开瑛, 2000] ·大部分规定是通过举例和定性描述来体现 ◆如:规范4.2规定:二字或三字词以及结合紧密、使用 稳定的二字或三字词组,一律为分词单位 。规定的操作尺度难把握 ·因而《规范》并没有从根本上统一对汉语词的认识
◼ 1992年国家标准局颁布了作为国家标准的《信息处 理用现代汉语分词规范》[刘源等,1994;刘开瑛, 2000] ⚫ 大部分规定是通过举例和定性描述来体现 ◆ 如:规范4.2规定:二字或三字词以及结合紧密、使用 稳定的二字或三字词组,一律为分词单位 ⚫ 规定的操作尺度难把握 ⚫ 因而《规范》并没有从根本上统一对汉语词的认识 7.1.1 汉语分词规范问题(2/2)
7.1.2歧义切分问题(1/8) 梁南元(1987a)最早对歧义字段进行了比较系统的 考查,他定义了两种基本的切分歧义类型。 ■定义7-1(交集型切分歧义)汉字串A]B称作交集型 切分歧义,如果满足AJ、JB同时为词(A、J、B分 别为汉字串)。此时汉字串]称作交集串。 。交集型切分歧义:“结合成” ◆结合成 ◆结合成 ·大学生、研究生物、从小学起、为人民工作、中国产 品质量、部分居民生活水平
7.1.2 歧义切分问题(1/8) 梁南元(1987a)最早对歧义字段进行了比较系统的 考查,他定义了两种基本的切分歧义类型。 ◼ 定义7-1(交集型切分歧义) 汉字串AJB称作交集型 切分歧义,如果满足AJ、JB同时为词(A、J、B分 别为汉字串)。此时汉字串J称作交集串。 ⚫ 交集型切分歧义:“结合成” ◆ 结合|成 ◆ 结|合成 ⚫ 大学生、研究生物、从小学起、为人民工作、中国产 品质量、部分居民生活水平……
7.1.2歧义切分问题(2/8) ■定义7-2(链长)一个交集型切分歧义所拥有的交 集串的集合称为交集串链,它的个数称为链长。 。“结合成分子” ◆“结合”、“合成”、“成分”、“分子”均构成词 ◆交集串为{合,成,分},因此,链长为3 。“中国产品质量” ◆“中国”、“国产”、“产品”、“品质”、“质量” ◆交集串为{国,产,品,质},因此,链长为4 。“部分居民生活水平” ◆链长为6
◼ 定义7-2(链长) 一个交集型切分歧义所拥有的交 集串的集合称为交集串链,它的个数称为链长。 ⚫ “结合成分子” ◆ “结合” 、 “合成” 、 “成分” 、 “分子”均构成词 ◆ 交集串为{合,成,分},因此,链长为3 ⚫ “中国产品质量” ◆ “中国” 、 “国产” 、 “产品” 、 “品质” 、 “质量” ◆ 交集串为{国,产,品,质},因此,链长为4 ⚫ “部分居民生活水平” ◆ 链长为6 7.1.2 歧义切分问题(2/8)
7.1.2歧义切分问题(3/8) ■定义7-3(组合型切分歧义)汉字串AB称作多义组 合型切分歧义,如果满足A、B、AB同时为词。 。“起身” ◆他站起|身来。 。他明天起身去北京。 。门把手弄坏了。 ◆门川把手弄坏了。 ◆门把手弄坏了。 。将来、现在、才能、学生会.…
◼ 定义7-3(组合型切分歧义) 汉字串AB称作多义组 合型切分歧义,如果满足A、B、AB同时为词。 ⚫ “起身” ◆ 他站|起|身|来。 ◆ 他明天|起身|去北京。 ⚫ 门把手弄坏了。 ◆ 门|把|手|弄坏了。 ◆ 门|把手|弄坏了。 ⚫ 将来、现在、才能、学生会…… 7.1.2 歧义切分问题(3/8)
7.1.2歧义切分问题(4/8) ■梁南元梁南元(1987)曾经对一个含有48,092字的 自然科学、社会科学样本进行了统计,结果交集型 切分歧义有518个,多义组合型切分歧义有42个。 据此推断,中文文本中切分歧义的出现频度约为1.2 次/100字,交集型切分歧义与多义组合型切分歧义 的出现比例约为12:1
◼ 梁南元 梁南元(1987)曾经对一个含有48,092字的 自然科学、社会科学样本进行了统计,结果交集型 切分歧义有518个,多义组合型切分歧义有42个。 据此推断,中文文本中切分歧义的出现频度约为1.2 次/100字,交集型切分歧义与多义组合型切分歧义 的出现比例约为12:1。 7.1.2 歧义切分问题(4/8)
7.1.2歧义切分问题(5/8) 文献[刘挺等,1998a]的调查却显示了与梁南元截然 相反的结果:汉语文本中交集型切分歧义与多义组 合型切分歧义的出现比例约为1:22。 ■孙茂松认为:造成这种情形的原因在于,定义7-3有 疏漏。因此,孙茂松等(2001)曾经猜测,加上一 条上下文语境限制才真正反映了梁南元的本意
◼ 文献[刘挺等,1998a]的调查却显示了与梁南元截然 相反的结果:汉语文本中交集型切分歧义与多义组 合型切分歧义的出现比例约为1:22。 ◼ 孙茂松认为:造成这种情形的原因在于,定义7-3有 疏漏。因此,孙茂松等(2001)曾经猜测,加上一 条上下文语境限制才真正反映了梁南元的本意。 7.1.2 歧义切分问题(5/8)