一、汉字总量 历代字书收字情况: 1 《说文解字》公元100年(东汉)许慎9,353加上重文1163字,共计收字头10516。字头 为小篆,按540部首排列,是我国第一部字典。 2 《字林》(晋)吕忱,12,824。按《说文解字》540部首排列,己佚。 3 《玉篇》公元543年(南朝梁)顾野王,22,726字。按542部首排列,是我国现存的第一 部楷书字典。 《龙龛手鉴》公元997年(辽)行均26,430字。部首按平上去入四声顺序排列,共242 部,其中平声97部,上声60部,去声26部,入声59部。收录俗字较多。 5 《广韵》公元1011年(宋)陈彭年等26,194字。按206韵平上去入四声顺序排列,平声 57韵,上声55韵,去声60韵,入声34韵。每韵再分小韵,共9300多小韵。 6 《类篇》公元1066年(宋)司马光等31,319字。按《说文解字》部首排列,其中“帅”、 “食”、“木”、“水”四部各分为上下,故共有544部。同部的字依韵排列。 7 《集韵》公元1067年(宋)丁度等53,525字。编排方式基本与《广韵》同。 8 《改并五音聚韵四声篇海》公元1212(金)韩道昭35,189字,共444部首。按36字母顺 序排列,同母的部首,又按平上去入四声排列,同部首的字头,按笔画多少为序排列。 9 《字汇》公元1615年(明)梅膺祚33,179字,按214部首排列,首创部首按笔画多少顺 序排列法。同部首的字头,按笔画多少顺序排列。 10 《正字通》公元1671年(明)张自烈33,549字,编排方式基本与《字汇》同。 11 《康熙字典》公元1716年(清)张玉书47,035字,沿用《字汇》、《正字通》214部首排 列法。正文外有补遗和备考。加上古文字字头共49030字,其中重收字头81个。 12 《中华大字典》公元1915年(中华民国)陆费逵等48,000多字,沿用《康熙字典》部首, 但顺序有所调整。 13 《汉语大字典》公元1986年一1990年(中华人民共和国)《汉语大字典》编辑委员会54,678 字,按200部首排列。部首按笔画多少为序排列,每部之字亦按笔画多少为序排列。 同笔画的部首和每部之内同笔画的字,均按横竖撇点折笔顺排列。正文外有补遗和附录 11种。 14 《中华字海》公元1994年由冷玉龙、韦一心主编,中华书局、中国友谊出版社出版。 共收汉字85568个。 15 北京国安资讯设备公司汉字字库,收入有出处的汉字91251个。 16 《异体字字典》中华民国教育部收字106230htp:/dict.variants.moe.edu.twl 这个统计过程中,实际上隐含着一个问题,就是怎样的情况算一个字: 第一,一组异体字算几个?比方说,茴香豆的“茴”不是有4种写法吗?这算一个字,还是 算4个字?根据形、音、义统一的原则,得算4个字,一般人也容易理解。字数统计时,估 计也是按4个字算。 第二,一组同形字算几个字?比如,有个“听”,古代是念ng,当是“笑盈盈”的“盈” 的本字。现代有个“听”,是“聽”的简化字,念tig。这算几个字呢?按形、音、义统一 的原则,得算两个字。可实际上,字书按字头收的时候,都怕是按一个字算了
一、汉字总量 历代字书收字情况: 1 《说文解字》公元 100 年(东汉)许慎 9,353 加上重文 1163 字,共计收字头 10516。字头 为小篆,按 540 部首排列,是我国第一部字典。 2 《字林》(晋)吕忱,12,824。按《说文解字》540 部首排列,已佚。 3 《玉篇》公元 543 年(南朝梁)顾野王,22,726 字。按 542 部首排列,是我国现存的第一 部楷书字典。 4 《龙龛手鉴》公元 997 年(辽)行均 26,430 字。部首按平上去入四声顺序排列,共 242 部,其中平声 97 部,上声 60 部,去声 26 部,入声 59 部。收录俗字较多。 5 《广韵》公元 1011 年(宋)陈彭年等 26,194 字。按 206 韵平上去入四声顺序排列,平声 57 韵,上声 55 韵,去声 60 韵,入声 34 韵。每韵再分小韵,共 9300 多小韵。 6 《类篇》公元 1066 年(宋)司马光等 31,319 字。按《说文解字》部首排列,其中“艸”、 “食”、“木”、“水”四部各分为上下,故共有 544 部。同部的字依韵排列。 7 《集韵》公元 1067 年(宋)丁度等 53,525 字。编排方式基本与《广韵》同。 8 《改并五音聚韵四声篇海》公元 1212(金)韩道昭 35,189 字,共 444 部首。按 36 字母顺 序排列,同母的部首,又按平上去入四声排列,同部首的字头,按笔画多少为序排列。 9 《字汇》公元 1615 年(明)梅膺祚 33,179 字,按 214 部首排列,首创部首按笔画多少顺 序排列法。同部首的字头,按笔画多少顺序排列。 10 《正字通》公元 1671 年(明)张自烈 33,549 字,编排方式基本与《字汇》同。 11 《康熙字典》公元 1716 年(清)张玉书 47,035 字,沿用《字汇》、《正字通》214 部首排 列法。正文外有补遗和备考。加上古文字字头共 49030 字,其中重收字头 81 个。 12 《中华大字典》公元 1915 年(中华民国)陆费逵等 48,000 多字,沿用《康熙字典》部首, 但顺序有所调整。 13 《汉语大字典》公元1986年—1990年(中华人民共和国《) 汉语大字典》编辑委员会54,678 字,按 200 部首排列。部首按笔画多少为序排列,每部之字亦按笔画多少为序排列。 同笔画的部首和每部之内同笔画的字,均按横竖撇点折笔顺排列。正文外有补遗和附录 11 种。 14 《中华字海》公元 1994 年由冷玉龙、韦一心主编,中华书局、中国友谊出版社出版。 共收汉字 85568 个。 15 北京国安资讯设备公司汉字字库,收入有出处的汉字 91251 个。 16 《异体字字典》中华民国教育部收字 106230 http://dict.variants.moe.edu.tw/ 这个统计过程中,实际上隐含着一个问题,就是怎样的情况算一个字: 第一,一组异体字算几个?比方说,茴香豆的“茴”不是有 4 种写法吗?这算一个字,还是 算 4 个字?根据形、音、义统一的原则,得算 4 个字,一般人也容易理解。字数统计时,估 计也是按 4 个字算。 第二,一组同形字算几个字?比如,有个“听”,古代是念 yíng,当是“笑盈盈”的“盈” 的本字。现代有个“听”,是“聽”的简化字,念 tīng。这算几个字呢?按形、音、义统一 的原则,得算两个字。可实际上,字书按字头收的时候,都怕是按一个字算了
第三,古文算不算独立的字?比方说,甲骨文里面的“人”字,也有多种写法,这不同的写 法算成一个独立的字没有?一般的字书都是按隶定以后的书写方式来统计的,怕没有把甲骨 文、金文、大篆、六国古文的异体算成独立的字。可上面对《康熙字典》统计时,就算了其 古文字头,人们统计《说文解字》,有时也算其古文重文。 字数统计中,应该还隐含其它问题,这里就不一一讨论了。 二、当代的汉字规范成果 新中国成立后,国家不同部门都进行过字形的规范工作、常用汉字的计量工作。主要有以下 一些成果: 1.《第一批异体字整理表》1955年12月22日,文化部和中国文字改革委员会联合发布的 新中国第一个汉字规范,1956年2月1日起在全国实施。该表内列810组字,每组最少2 个字,最多6个字,共1865字。根据从简从俗的原则,从中选出810个作为正体,淘汰了 1055个异体字。比如“橹一膽艣梅”为一组具有正字与异体字关系的字,该表将“橹”定 为正字,“膽艣梅”是淘汰的异体字。该表发布后,不仅精简了汉字的字数,而且有效地遏 制了汉字使用中的字体混乱现象。 2.《印刷通用汉字字形表》中国文字改革委员会1965年发布实施。收印刷通用汉字6196 个,并给每个汉字规定了笔画数、结构和笔顺。经过对字形的调整和美化,进一步取得了宋 体字笔形的一致,使字形更趋于规律性、系统性。 3.《简化字总表》1956年1月,国务院公布《汉字简化方案》:1964年3月,中国文字改 革委员会、文化部、教育部联合发布《关于简化字的联合通知》,《总表》分成三个表。第一 表所收的是352个不作偏旁用的简化字。这些字的繁体一般都不用作别的字的偏旁。个别能 作别的字的偏旁,也不依简化字简化。如“習”简化作“习”,但“褶”不简化作“衤+习”。 第二表所收的是132个可作偏旁用的简化字和14个简化偏旁。第三表所收的是应用第二表 的简化字和简化偏旁作为偏旁得出来的简化字。1986年10月,国家语委经国务院批准重新 发布了《简化字总表》,并作了个别调整。调整后的《总表》,实收简化字2235个。 4.《现代汉语常用字表》,1988年1月,国家语委和国家教委联合发布,收字3500个,其 中又分为两个字级:前面2500个是常用字,后面1000个是次常用字。 5.《现代汉语通用字表》,国家语委、新闻出版署1988年3月25日发布。共收7000字, 包括《现代汉语常用字表》的3500字。本表的制订,主要依据1965年颁布的《印刷通用汉 字字形表》。根据实际需要,删去《印刷通用汉字字形表》中的50字,增收854字。同时, 本表依据《印刷通用汉字字形表》确定的字形标准,规定了汉字的字形结构、笔画数和笔顺。 其后,印刷通用汉字字形即以此表为准。 6.《通用规范汉字表》。字表收字8300个,根据它们的通用程度,划分为三级:一级字表共 收3500字(这3500字,与原《现代汉语常用字表》的3500字相比较,有103字的出入), 是一般社会领域使用频度最高的常用字集,主要满足基础教育和文化普及层面的用字需要。 二级字表共收3000字,一般社会领域也会经常使用,但其使用频度明显低于一级字:一
第三,古文算不算独立的字?比方说,甲骨文里面的“人”字,也有多种写法,这不同的写 法算成一个独立的字没有?一般的字书都是按隶定以后的书写方式来统计的,怕没有把甲骨 文、金文、大篆、六国古文的异体算成独立的字。可上面对《康熙字典》统计时,就算了其 古文字头,人们统计《说文解字》,有时也算其古文重文。 字数统计中,应该还隐含其它问题,这里就不一一讨论了。 二、当代的汉字规范成果 新中国成立后,国家不同部门都进行过字形的规范工作、常用汉字的计量工作。主要有以下 一些成果: 1.《第一批异体字整理表》1955 年 12 月 22 日,文化部和中国文字改革委员会联合发布的 新中国第一个汉字规范,1956 年 2 月 1 日起在全国实施。该表内列 810 组字,每组最少 2 个字,最多 6 个字,共 1865 字。根据从简从俗的原则,从中选出 810 个作为正体,淘汰了 1055 个异体字。比如“橹—艪艣樐”为一组具有正字与异体字关系的字,该表将“橹”定 为正字,“艪艣樐”是淘汰的异体字。该表发布后,不仅精简了汉字的字数,而且有效地遏 制了汉字使用中的字体混乱现象。 2.《印刷通用汉字字形表》中国文字改革委员会 1965 年发布实施。收印刷通用汉字 6196 个,并给每个汉字规定了笔画数、结构和笔顺。经过对字形的调整和美化,进一步取得了宋 体字笔形的一致,使字形更趋于规律性、系统性。 3.《简化字总表》1956 年 1 月,国务院公布《汉字简化方案》;1964 年 3 月,中国文字改 革委员会、文化部、教育部联合发布《关于简化字的联合通知》,《总表》分成三个表。第一 表所收的是 352 个不作偏旁用的简化字。这些字的繁体一般都不用作别的字的偏旁。个别能 作别的字的偏旁,也不依简化字简化。如“習”简化作“习”,但“褶”不简化作“衤+习”。 第二表所收的是 132 个可作偏旁用的简化字和 14 个简化偏旁。第三表所收的是应用第二表 的简化字和简化偏旁作为偏旁得出来的简化字。1986 年 10 月,国家语委经国务院批准重新 发布了《简化字总表》,并作了个别调整。调整后的《总表》,实收简化字 2235 个。 4.《现代汉语常用字表》,1988 年 1 月,国家语委和国家教委联合发布,收字 3500 个,其 中又分为两个字级:前面 2500 个是常用字,后面 1000 个是次常用字。 5.《现代汉语通用字表》,国家语委、新闻出版署 1988 年 3 月 25 日发布。共收 7000 字, 包括《现代汉语常用字表》的 3500 字。本表的制订,主要依据 1965 年颁布的《印刷通用汉 字字形表》。根据实际需要,删去《印刷通用汉字字形表》中的 50 字,增收 854 字。同时, 本表依据《印刷通用汉字字形表》确定的字形标准,规定了汉字的字形结构、笔画数和笔顺。 其后,印刷通用汉字字形即以此表为准。 6.《通用规范汉字表》。字表收字 8300 个,根据它们的通用程度,划分为三级:一级字表共 收 3500 字(这 3500 字,与原《现代汉语常用字表》的 3500 字相比较,有 103 字的出入), 是一般社会领域使用频度最高的常用字集,主要满足基础教育和文化普及层面的用字需要。 二级字表共收 3000 字,一般社会领域也会经常使用,但其使用频度明显低于一级字;一
二级字表一共6500字,主要满足现代汉语文本印刷出版用字的需要。三级字表共收1800 字,是姓氏人名、地名、科技术语和中小学语文教材文言文用字中未进入一、二级字表的较 通用的字,主要满足与大众生活密切相关的专门领域用字的需要。 三、一级常用汉字 一级常用汉字是从哪来的呢?显然,就是国家语委和教委联合发布的《现代汉语常用字表》, 说一级常用汉字有3500个是根据它(如前所述,《通用规范汉字表》中的一级3500字,与 这3500字相比较,有103字的出入),说一级常用汉字2500个也是基于此: 那么,又哪来一个3755个一级常用汉字呢?这是源自过去的GB2312-80字符集。其全称为 《信息交换用汉字编码字符集·基本集》,由原中国国家标准总局发布,1981年5月1日实 施。第一级汉字是常用汉字,计3755个,第二级汉字是次常用汉字,计3008个。在大陆及 海外使用简体中文的地区(如新加坡等)是强制使用的唯一中文编码。P-Windows3.2和苹 果OS就是以GB2312为基本汉字编码,Windows95/98则以GBK为基本汉字编码、但兼容支 持GB2312。 GBK编码是中国大陆制订的、等同于UCS的新的中文编码扩展国家标准。GBK工作小组于 1995年10月成立,同年12月完成GBK规范。该编码标准兼容GB2312,共收录汉字21003 个、符号883个,并提供1894个造字码位,简、繁体字融于一库。 说到信息交换用字符集,随后又有《GB13000.1字符集汉字字序(笔画序)规范》,是指国 家标准汉字编码字符集,由国家语委1999年10月1日发布、2000年1月1日实施,编号 为GF3003-1999。共20902个汉字,它是按笔画排序的汉字字序规范,主要用于汉字的信息 处理、排序检索、辞书编纂等方面。 GB18030则是中华人民共和国现时最新的内码字集,这个《信息交换用汉字编码字符集基本 集的扩充》是我国继GB2312一1980和GB13000-1993之后最重要的汉字编码标准,又经历 了2000版,目前的最新版本是GB18030-2005,收录了70244个汉字,是我国计算机系统必 须遵循的基础性标准之一。 此外,还有什么GBK(收录简体、繁体及日语、韩语汉字20912个)、Unicode(中日韩统一 表意文字基本字集则收录汉字20902个,另有两个扩展区,总数亦高达七万多字),它们的 版本也在不断地升级。 回到起点,教学生常用汉字方面的知识,得以《现代汉语常用字表》或者新近的《通用规范 字表》为依据了
二级字表一共 6500 字,主要满足现代汉语文本印刷出版用字的需要。三级字表共收 1800 字,是姓氏人名、地名、科技术语和中小学语文教材文言文用字中未进入一、二级字表的较 通用的字,主要满足与大众生活密切相关的专门领域用字的需要。 三、一级常用汉字 一级常用汉字是从哪来的呢?显然,就是国家语委和教委联合发布的《现代汉语常用字表》, 说一级常用汉字有 3500 个是根据它(如前所述,《通用规范汉字表》中的一级 3500 字,与 这 3500 字相比较,有 103 字的出入),说一级常用汉字 2500 个也是基于此。 那么,又哪来一个 3755 个一级常用汉字呢?这是源自过去的 GB2312-80 字符集。其全称为 《信息交换用汉字编码字符集·基本集》,由原中国国家标准总局发布,1981 年 5 月 1 日实 施。第一级汉字是常用汉字,计 3755 个,第二级汉字是次常用汉字,计 3008 个。在大陆及 海外使用简体中文的地区(如新加坡等)是强制使用的唯一中文编码。P-Windows3.2 和苹 果 OS 就是以 GB2312 为基本汉字编码,Windows95/98 则以 GBK 为基本汉字编码、但兼容支 持 GB2312。 GBK 编码是中国大陆制订的、等同于 UCS 的新的中文编码扩展国家标准。GBK 工作小组于 1995 年 10 月成立,同年 12 月完成 GBK 规范。该编码标准兼容 GB2312,共收录汉字 21003 个、符号 883 个,并提供 1894 个造字码位,简、繁体字融于一库。 说到信息交换用字符集,随后又有《GB13000.1 字符集汉字字序(笔画序)规范》,是指国 家标准汉字编码字符集,由国家语委 1999 年 10 月 1 日发布、2000 年 1 月 1 日实施,编号 为 GF3003-1999。共 20902 个汉字,它是按笔画排序的汉字字序规范,主要用于汉字的信息 处理、排序检索、辞书编纂等方面。 GB18030 则是中华人民共和国现时最新的内码字集,这个《信息交换用汉字编码字符集基本 集的扩充》是我国继 GB2312—1980 和 GB13000-1993 之后最重要的汉字编码标准,又经历 了 2000 版,目前的最新版本是 GB18030-2005,收录了 70244 个汉字,是我国计算机系统必 须遵循的基础性标准之一。 此外,还有什么 GBK(收录简体、繁体及日语、韩语汉字 20912 个)、Unicode(中日韩统一 表意文字基本字集则收录汉字 20902 个,另有两个扩展区,总数亦高达七万多字),它们的 版本也在不断地升级。 回到起点,教学生常用汉字方面的知识,得以《现代汉语常用字表》或者新近的《通用规范 字表》为依据了