第二章汉字代码体系 苏州大学中文信息处理公开课 苏州大学:中文信息处理
苏州大学:中文信息处理 第二章 汉字代码体系 苏州大学 中文信息处理 公开课
内容提要 令ASC码及其扩展 中文信息在计算机内的表示 ☆|SOEC2022 汉字编码字符集 GB2312-80 .BIG-5 Unicode和|SO10646 GBK和GB18030 苏州大学:中文信息处理
苏州大学:中文信息处理 内容提要 ❖ ASCII码及其扩展 ❖ 中文信息在计算机内的表示 ❖ ISO/IEC 2022 ❖ 汉字编码字符集 ❖ GB2312-80 ❖ BIG-5 ❖ Unicode和ISO10646 ❖ GBK和GB18030
1.1ASCI码及其扩展 令ASC1吗 令扩展ASC 令CJK- Roman 苏州大学:中文信息处理
苏州大学:中文信息处理 1.1 ASCII码及其扩展 ❖ ASCII码 ❖ 扩展ASCII ❖ CJK-Roman
1.1.1ASCI码 图回B回国回国国圉 园国间国国图 苏州大学:中文信息处理
苏州大学:中文信息处理 1.1.1 ASCII码
1.1.1ASCI码 今ASC s American Standard code for Information Interchange s表示英文、数字及其常用符号 s和现有的英文键盘相对应 回回回凹四四凹四 c 1991年SO定义为|SOEC646:1991 s信息交换用7-位编码字符集(lSo7- bit coded character set for information interchange 苏州大学:中文信息处理
苏州大学:中文信息处理 1.1.1 ASCII码 ❖ ASCII American Standard Code for Information Interchange 表示英文、数字及其常用符号 和现有的英文键盘相对应 ❖ 1991年ISO定义为ISO/IEC 646:1991 信息交换用7-位编码字符集(ISO 7-bit coded character set for information interchange)
1.1.2ASCI码内容 令7位二进制数,定义128个字符: s94个图形字符(可显示字符) 0-9:30H-39H ASCI码 A-z:41H5AH十进制金字符控制字符意义十进控制字符意义 az:61H-7AH000 01610DLE s30个控制字符 00202.STX ☆00-19H 00303ET 00404 s1个空格字符 005054ENQ 0l15§NAK 00606 令20H 00707 ETB 00808Bs CAN 1个De(删除)符欧m SUB档案结 令7FH 011 OB d VT home0271B 012 0C9 FF form feed 028IC F向右键 0130D arrage 0291D Gs向左键 return 0140E50 E▲Rs问上键 苏州大学:中文信息处理
苏州大学:中文信息处理 1.1.2 ASCII码内容 ❖ 7位二进制数,定义128个字符: 94个图形字符(可显示字符) ‘0’-’9’: 30H-39H ‘A’-’Z’: 41H-5AH ‘a’-’z’ : 61H-7AH 30个控制字符 ❖ 00-19H 1个空格字符 ❖ 20H 1个Del(删除)符 ❖ 7FH
1.1.3ASCI码一布局 0001020304050607 00 03 05 07 控制字符区 图形字符区 1 Chinese, 211 个 OABCDEF 6/.00b0 7365 控制符控制符控制符 苏州大学:中文信息处理
苏州大学:中文信息处理 1.1.3 ASCII码-布局 控制符 控制符 控制符
1.2扩展 ASCII 8位表示扩展 6128256 扩展的字符集有16个定义:从|SO8859-1 到|SO8859-16,分别定义了相应国家的文 字和符号。 苏州大学:中文信息处理
苏州大学:中文信息处理 1.2 扩展ASCII ❖ 8位表示扩展 128 256 ❖ 扩展的字符集有16个定义:从ISO 8859-1 到ISO 8859-16,分别定义了相应国家的文 字和符号
1.2.1IS08859内容 ☆|SO8859 第1至第16部分( Information Processing-8 Bit Single-Byte Coded Graphic Character Set) s定义新增的128个码元 s每个部分分别定义ASC码和其扩展的字符集 (针对不同拉丁语言)。 苏州大学:中文信息处理
苏州大学:中文信息处理 1.2.1 ISO 8859内容 ❖ ISO 8859 第1至第16部分(Information Processing—8 Bit Single-Byte Coded Graphic Character Set)。 定义新增的128个码元。 每个部分分别定义ASCII码和其扩展的字符集 (针对不同拉丁语言)
1.2.2IS08859代码空间图 8765432104 高4位 低4位 FFH 00--FFH+ 01020304050600809 A B C D E F+ 0l+ 02+ 04控 05 06+ 9H图形字符区 图形字符区 07 D 苏州大学:中文信息处理
苏州大学:中文信息处理 1.2.2 ISO 8859代码空间图