回顾:编码字符集1月6日1 1字符( character)记录语言的符号 2编码字符集( coded character set) 按某种规则编码的有序集合。两个重要的属性 字汇( repertoire):编码字符集中有哪些字符 编码规则:如何确定每个字符的代码 3码长:字符代码的长度。它决定了代码空间的大小 定长码:7位,8位,双字节,4字节 可变长码:单-双-4字节码
回顾:编码字符集 1.字符(character) 记录语言的符号 2.编码字符集(coded character set) 按某种规则编码的有序集合。两个重要的属性: ◼ 字汇(repertoire):编码字符集中有哪些字符 ◼ 编码规则:如何确定每个字符的代码 3.码长: 字符代码的长度。它决定了代码空间的大小 定长码:7位,8位,双字节,4字节 可变长码:单-双-4字节码 11月6日
1稳定的西文字符编码 ASCI与ISO2022 2多变的汉字编码 我国汉字编码的国家标滩准:要点: GB2312-80 字符集 GBK-95 GB18030-2000 编码及码长 全球统一编码系列 向下兼容 ISO2022 UCS/Unicode (UTF-8)
1.稳定的西文字符编码 ASCII 与 ISO2022 2.多变的汉字编码 我国汉字编码的国家标准: GB2312-80 GBK-95 GB18030-2000 全球统一编码系列: ISO2022 UCS/Unicode(UTF-8) 要点: •字符集 •编码及码长 •向下兼容
SQ646 GB2312-80 处 CJK汉字字汇 S2022 GBK 20902 汉字 UCS/Unicode GB18030-2000 映射 27484 汉字
00 FF 00 FF 27484 汉字 GB2312-80 GB18030-2000 GBK CJK汉字字汇 兼 容 兼容 UCS/Unicode ISO 646 ISO 2022 兼 容 兼容 映射 00 FF 00 FF 20902 汉字 00 FF 00 FF 6763 汉字
回顾 文本按一定格式组织起来的、具有相关性的字符流。 字符是文本的细胞,计算机中用二进制表示 字符集与其编码:计算机信息处理的基础。 文本处理 文本生成 文本编辑 文本展现上② 计算机对文本的处理流程图 传
文本按一定格式组织起来的、具有相关性的字符流。 字符:是文本的细胞,计算机中用二进制表示。 字符集与其编码:计算机信息处理的基础。 文本展现 (阅读器) 文本处理 文本生成 (文本处理软件) 其他 媒体 电子 文本 文本编辑 (编辑器) 格式化的 电子文本 网 络 传 输 计算机对文本的处理流程图 回顾
文本的准备 文本信息的输入:P90 文本信息的输入 人工输入 自动识别输入 键盘输入 联机手写输入 语音输入 印刷体识别 手写体识别 文本的编辑(使文本内容正确,版面清晰整齐、美观大方): 对字、词、句、段落进行添加、删除、修改等操作 字的处理:设置字体、字号、字的排列方向、间距、颜色、效果等 段落的处理:设置行距、段间距、段缩进、对称方式等; 页面布局处理:设置页边距、每页行列数、分栏、页眉、页脚等
文本的准备 文本信息的输入:P90 文本的编辑(使文本内容正确,版面清晰整齐、美观大方): 对字、词、句、段落进行添加、删除、修改等操作; 字的处理:设置字体、字号、字的排列方向、间距、颜色、效果等; 段落的处理:设置行距、段间距、段缩进、对称方式等; 页面布局处理:设置页边距、每页行列数、分栏、页眉、页脚等。 自动识别输入 自动文字识别 印刷体识别 手写体识别 文本信息的输入 人工输入 自动文字识别 键盘输入 联机手写输入 语音输入
文本处理( Text Processing 对文本中包含的文字信息进行深层次的分析、加工和处理。 例如对字、词、短语、句子、篇章的检查、统计、识别、转 换、压缩、存储、检索、分析、理解和生成等) 释义( Paraphrase) 相同含义但 不同的表达 文摘生成 Summarizing 摘要、关键字 翻译( Translation) 相同含义但 不同的语种 Question-Answering 提问 回答 自动分类 文档分类 文本过滤/文本检索 文档 多文档自动综述 综述
文本处理(Text Processing) 对文本中包含的文字信息进行深层次的分析、加工和处理。 (例如对字、词、短语、句子、篇章的检查、统计、识别、转 换、压缩、存储、检索、分析、理解和生成等) 翻译(Translation) 文摘生成 Summarizing 释义(Paraphrase) 摘要、关键字 相同含义但 不同的表达 相同含义但 不同的语种 多文档自动综述 Question-Answering 自动分类 提问 回答 综述 文档分类 文本过滤/文本检索 文档
文本的分类 按是否格式化分: 简单文本( plain text)/丰富格式文本( rich text) 按结构分 线性文本/超文本( hypertext 按是否可执行来分: 静态文本/动态文本/主动文档
文本的分类 按是否格式化分: 简单文本(plain text) / 丰富格式文本(rich text) 按结构分: 线性文本 / 超文本(hypertext) 按是否可执行来分: 静态文本 / 动态文本 / 主动文档
应用举例 实验12“利用HTML标记语言制作网页
A B C D E F G H a1 a2 b2 c2 f1 d1 c1 b1 e1 g1 h1 应用举例 实验12“利用HTML标记语言制作网页
文本处理软件 (1)面向通信的文本处理软件 Outlook Express (2)面向办公的文本处理软件 MS Word WPS2000 (3)面向印刷出版的文本处理软件: 飞腾”排版软件, PageMaker, PDF Writer (4)面向网络信息发布和电子出版的文本处理软件 FrontPage, PDF Writer
文本处理软件 (1)面向通信的文本处理软件 : Outlook Express (2)面向办公的文本处理软件 : MS Word , WPS2000 (3)面向印刷出版的文本处理软件: “飞腾”排版软件,PageMaker,PDF Writer (4)面向网络信息发布和电子出版的文本处理软件: FrontPage, PDF Writer
文本的输出 (阅读浏览与打印) 过程: 对文本的格式描述进行解释 生成文字和图表的映像( bitmap) 传送到显示器或打印机输出 两种文本阅读器/浏览器: 嵌入在文本编辑(处理)软件中,如微软的Word, 独立的软件:如 Adobe公司的 Acrobat reader, 微软公司的IE等
文本的输出 (阅读、浏览与打印) 过程: 对文本的格式描述进行解释 生成文字和图表的映像(bitmap) 传送到显示器或打印机输出 两种文本阅读器/浏览器: 嵌入在文本编辑(处理)软件中,如微软的Word, 独立的软件:如Adobe公司的Acrobat Reader, 微软公司的IE等