计算机信息检索 ◆与手工检索一样,计算机信息检索应作为未来 科技人员的一项基本功,这一能力的训练和培 养对科技人员适应未来社会和跨世纪科研都极 其重要,一个善于从电子信息系统中获取信息 的科研人员,必定比不具备这一能力的人有更 多的成功机会,美国报道生活新方式的期刊 POV也将交互网络检索专家作为未来十大热门 职业之一,这些情况都说明了计算机信息检索 越来越重要,故值得大家对这一技术予以重视
计算机信息检索 与手工检索一样,计算机信息检索应作为未来 科技人员的一项基本功,这一能力的训练和培 养对科技人员适应未来社会和跨世纪科研都极 其重要,一个善于从电子信息系统中获取信息 的科研人员,必定比不具备这一能力的人有更 多的成功机会,美国报道生活新方式的期刊 POV 也将交互网络检索专家作为未来十大热门 职业之一,这些情况都说明了计算机信息检索 越来越重要,故值得大家对这一技术予以重视
1.1机检与手检的异同 先让我们看看信息存贮与能量存贮、材料存贮相比所具有 的特点,可以列表比较如下 表1.1信息存贮与能量存贮和材料存贮比较 类别存贮方式|存贮载体 能量丨蓄能、转化水库、蓄电池、燃料(煤、油、天然气、核燃料等 ◆材料|承载、保管|场地、运载工具等 ◆信息|记录、复制纸张文献、缩微品、磁盘、光盘等 由此决定了信息存贮及检索在方法上独具特点
1.1 机检与手检的异同 先让我们看看信息存贮与能量存贮、材料存贮相比所具有 的特点,可以列表比较如下: 表1.1 信息存贮与能量存贮和材料存贮比较 类别 │ 存贮方式 | 存贮载体 能量 │蓄能、转化 |水库、蓄电池、燃料(煤、油、天然气、核燃料等) 材料 │承载、保管 |场地、运载工具等 信息 │记录、复制 |纸张文献、缩微品、磁盘、光盘等 由此决定了信息存贮及检索在方法上独具特点。
◆书本式文献的传统存贮方法是图书馆文献管理 法,包括图书、期刊、专利、科技报告、政府 出版物、技术标准、会议论文、学位论文、产 品样本、档案十大情报源的分类存贮,由这套 系统决定的手检体系使文献分类处于核心地位, 文献号码或篇名、作者名等则是天然的补充要 素,加上主题,构成手检时按分类、主题、号 码、作者名检索的四大途径
书本式文献的传统存贮方法是图书馆文献管理 法,包括图书、期刊、专利、科技报告、政府 出版物、技术标准、会议论文、学位论文、产 品样本、档案十大情报源的分类 存贮,由这套 系统决定的手检体系使文献分类处于核心地位, 文献号码或篇名、作者名等则是天然的补充要 素,加上主题,构成手检时按分类、主题、号 码、作者名检索的四大途径
◆机读信息则以数据库( Database)形式存贮。根据 ISO/DIS5127(文献与情报工作术语),数据库 是至少由一种文档(Fie)组成、能满足特定目 的或特定数据处理系统需要的数据集合。文档 在此即是信息处理单位,按其组织方式可分为 顺排档( Sequential File,也称主文档: Master File)、倒排档( Inverted file)等,前者是完整 的顺序信息记录,后者则是将主文档中的可检 属性抽出重排而派生出的数据记录。国际上通 常根据数据库内容将数据库划分为三大类:A. 参考数据库:B源数据库;C混合数据库
机读信息则以数据库(Database)形式存贮。根据 ISO/DIS 5127(文献与情报工作术语),数据库 是至少由一种文档(File)组成、能满足特定目 的或特定数据处理系统需要的数据集合。文档 在此即是信息处理单位,按其组织方式可分为 顺排档(Sequential File,也称主文档: Master File)、倒排档(Inverted File)等,前者是完整 的顺序信息记录,后者则是将主文档中的可检 属性抽出重排而派生出的数据记录。国际上通 常根据数据库内容将数据库划分为三大类:A. 参考数据库;B.源数据库;C.混合数据库
在开始机检实体内容介绍之前,我们将机检与 手检的差别作总体比较如下: 项目手检机检总体特征手翻、眼看、大脑判断 策略、查寻、机器匹配标引及索引特点检索点 较少检索点较多检索时间较慢较快检索要求专 业知识、外语知识、检索工具知识专业知识、 外语知识、机检系统知识 ◆查全査准率査准率较高査全率较高综合效率较 低较高表1.2机检与手检比较
在开始机检实体内容介绍之前,我们将机检与 手检的差别作总体比较如下: 项目手检机检总体特征手翻、眼看、大脑判断 策略、查寻、机器匹配标引及索引特点检索点 较少检索点较多检索时间较慢较快检索要求专 业知识、外语知识、检索工具知识专业知识、 外语知识、机检系统知识 查全查准率查准率较高查全率较高综合效率较 低较高表1.2 机检与手检比较
◆1.2机检理论基础 信息存贮与检索是信息学中最活跃的研究 分支之一,检索理论研究近年发展非常迅速」 涉及的问题有:检索系统、检索策略及其设计 检索技术及其实现等。现将检索技术及其实现 检索策略及其设计和描述检索效果的参数简介 于下。 (1)检索技术及其实现 检索技术包括基本布尔逻辑组配、截词、 词位限制、检域限制等
1.2 机检理论基础 信息存贮与检索是信息学中最活跃的研究 分支之一,检索理论研究近年发展非常迅速, 涉及的问题有:检索系统、检索策略及其设计、 检索技术及其实现等。现将检索技术及其实现、 检索策略及其设计和描述检索效果的参数简介 于下。 (1)检索技术及其实现 检索技术包括基本布尔逻辑组配、截词、 词位限制、检域限制等。
布尔逻辑组配是现行计算机检索的基 本技术,主要通过"和(and*)"、"或(or,+) "非(not,-)"等将检索词联络起来,对A、 B两词而言其AND、OR、NOT的逻辑含 Y用 Wienn图表示是: A自) and A and B逻辑与。A和B 都为真时,结果才为真
布尔逻辑组配是现行计算机检索的基 本技术,主要通过"和(and,*)"、 "或(or,+)"、 "非(not,-)"等将检索词联络起来,对A、 B两词而言其AND、OR、NOT的逻辑含 义用Wienn图表示是: AND A and B 逻辑与。A和B 都为真时,结果才为真
◆OR AorB逻辑或。A或B中只要 鸟 有一个为真时,结果就为真 ◆NOT a not b逻辑非。A为真、B 0)为假时,结果才为真
OR A or B 逻辑或。A或B中只要 有一个为真时,结果就为真 NOT A not B 逻辑非。A为真、B 为假时,结果才为真
◆截词包括后截、中截、前截等。在DAⅠOG系统 中,用?作为截词符,主要包括下列情形: 符号 意义 实例 后截断,中截一字符 computer?;wom?n 后截一字符 computer?? 后、中截二字符 act??: encyclop??dia 后、中截三字符 computat???
截词包括后截、中截、前截等。在DIALOG系统 中,用?作为截词符,主要包括下列情形: 符号 意义 实例 ? 后截断,中截一字符 computer?; wom?n ? ? 后截一字符 computer? ? ?? 后、中截二字符 act??; encyclop??dia ??? 后、中截三字符 computat???
◆词位限制可以是相邻若干词、在同一句中等, DIALOG系统所用位置算符例如: 用法 意义 ◆A(nW)B A、B两词相隔n词且前后次序不变符合检 出要求;n=1时即AOB ◆A(nN)B A、B两词相隔n词且前后次序不限符合检出 要求;n=1时即A(N)B A(S)BA、B两词只要在同一子字段中就符合检出要求
词位限制可以是相邻若干词、在同一句中等, DIALOG系统所用位置算符例如: 用法 意义 A(nW)B A、B两词相隔n词且前后次序不变符合检 出要求;n=1时即A()B A(nN)B A、B两词相隔n词且前后次序不限符合检出 要求;n=1时即A(N)B A(s)B A、B两词只要在同一子字段中就符合检出要求