第1章 信息素养与信息检索概论 杏县落利面计的实个以所快的席宝共出操图养赛息育本(公) 1.1 信息素养 七时的编如陈容章年数人其己丝面士的养冠息自市6) 1.1.1 信息素养的定义 英文“1 nformation Literacy'”这一术语,目前一般被译为:“信息素养”,也可译为:“资讯素 养”。 l989年,美国图书馆协会(American Library Association)信息素养主席委员会出版了 《总结报告》。该报告定义了信息素养的四个组成部分一确定何时需要和查找信息的能力, 有效评估和使用信息的能力。换言之,信息素养是指个人“能认识到何时需要信息,并且有效 地搜索、评估和使用所需信息的能力。”① 1.1.2信息素养的评价(评估)标准 1.1.2.1美国高等教育信息素养能力标准 总台味角已豫元生坚物来海息卧武() 2000年,美国大学和研究型图书馆协会(ACRL)制定了《美国高等教育信息素养能力标 准》②,它包括5项标准、22项表现指标。各项标准及其表现指标如下: 1)有信息素养的学生有能力决定所需信息的性质和范围 养常息司容(公) 会 (1)有信息素养的学生定义和描述信息需求。 (2)有信息素养的学生可以找到多种类型和格式的信息来源。 大将鲜,03 (3)有信息素养的学生权衡获取信息的成本和收益。 (4)有信息素养的学生重新评估所需信息的性质和范围。 2)有信息素养的学生可以有效地获得需要的信息 (1)有信息素养的学生选择最适合的研究方法或信息检索系统来查找需要的信息。 (2)有信息素养的学生构思和实现有效的搜索策略。 (3)有信息素养的学生运用各种各样的方法从网上或亲自获取信息。 (4)有信息素养的学生改进现有的搜索策略。 (5)有信息素养的学生摘录、记录和管理信息和它的出处。 3)有信息素养的学生评估信息和它的出处,然后把挑选的信息融合到他(她)们的知识库 和价值体系 ,对会诗人斡者,忘盛,计甲项船城下雕人配 ①美国大学和研究型图书馆协会.美国高等教育信息素养能力标准[S/OL].白健,译.[2009-05-11]. http://www.ala.org/ala/mgrps/divs/acrl/standards/InfoLit-Chinese.pdf. ②美国大学和研究型图书馆协会.美国高等教育信息素养能力标准[S/OL].白健,译.[2009-05-11] http://www.ala.org/ala/mgrps/divs/acrl/standards/InfoLit-Chinese.pdf
网络环境下的文科信息检索 (1)有信息素养的学生从收集到的信息中总结要点。 (2)有信息素养的学生清晰表达并运用初步的标准来评估信息和它的出处 (3)有信息素养的学生综合主要思想来构建新概念。 (4)有信息素养的学生,通过对比新旧知识来判断信息是否增值,或是否前后矛盾,是否 独具特色。 (⑤)有信息素养的学生决定新的知识对个人的价值体系是否有影响,并采取措施消除 分歧。 (6)有信息素养的学生通过与其他人、学科专家和/或行家的讨论来验证对信息的诠释和 理解。 义宝的养素息前1上1 (7)有信息素养的学生决定是否应该修改现有的查询。 4)不管个人还是作为一个团体的成员,有信息素养的学生能够有效地利用信息来实现 特定的目的 (1)有信息素养的学生能够把新旧信息应用到策划和创造某种产品或功能中。 (2)有信息素养的学生修改产品或功能的开发步骤。 (3)有信息素养的学生能够有效地与别人就产品或功能进行交流。 用 5)有信息素养的学生熟悉许多与信息使用有关的经济、法律和社会问题,并能合理合法 地获取信息 CI (1)有信息素养的学生了解与信息和信息技术有关的伦理、法律和社会经济问题。 (2)有信息素养的学生遵守与获取和使用信息资源相关的法律、规定、机构性政策和 礼节。 (3)有信息素养的学生在宣传产品或性能时声明引用信息的出处。 玩科延回台,南 1.1.2.2大洋洲资讯素养标准 20o0年,澳洲大学图书馆员协会(Council of Australian University Librarians)召开会议 讨论美国大学和研究型图书馆协会制定的《美国高等教育信息素养能力标准》在大洋洲的可行 性,并据以制定了《澳洲资讯素养标准》(Information Literacy Standards,Australia)。该标准 共有7大标准①: (1)具备资讯素养的人,能够确认其资讯需求及决定所需资讯之特性与范围。 8 (2)具备资讯素养的人,能有效地取用所需资讯。 (3)具备资讯素养的人,能批判性地评估资讯及其来源,并将所筛选的资讯融入其知识库 与价值系统中。 (4)具备资讯素养的人,能分类、储存,处理及改写所搜集或产生的资讯。康前 (5)具备资讯素养的人,能统整原先知识,及个人或团体的一员的新知以延伸、重订或创 作新知识。 (6)具备资讯素养的人,能了解资讯取用的文化、经济、法律、及社会议题,合理合法且尊 重地使用资讯。 (T)具备资讯素养的人,能体认终身学习及身为国民所需之资讯素养 大 ①柯云娥。传播学门大学生资讯素养能力的研究[D].台北:国立政治大学,2004
第1章信息素养与信息检索概论 塞谢湘端形响态,成修面西时干基装创物 1.2信息检索的是本理论 要爵白用合商纯适面据代珠建出进烟 诚的计某宋测合染永备息前味合单息 1.2.1信息检索的概念与类型 也纸名丽测增讯常绿,费手显,育而本文年城 1.1.2.1信息检索的概念 广义的信息检索(Information Retrieval),指将信息按照一定的方式组织、存储起来,并根 据用户的需要找出其中相关信息的过程。其全称为:信息存储与检索(information storage and retrieval)。存储的过程是信息的组织加工和记录的过程,即建立检索系统(编制检索工 具)的过程—输入的过程;检索的过程是按一定方法从检索系统(检索工具)中查出信息用户 需要的特定信息的过程—输出的过程。 狭义的信息检索,又称“信息查询”或“信息查找”。基于特定的信息需求,对一定的信息集 合(系统)采用一定的技术手段,根据一定的线索与准则找出(命中)相关的信息的过程,就是 检索。 检索的本质是信息用户的需求和信息集合的比较与选择,即“匹配”(match)的过程。 1.1.2.2信息检索的类型 从不同角度,按照不同的标准,可以将信息检索划分为不同的类型。 与人文社会科学相关的信息检索一般可分为:文献检索、事实检索、数据检索等。 l)文献检索(document retrieval) 指将文献按一定的方式存贮起来,根据需要从文献集合中查出有关课题或主题文献的过 程。以包含用户所需特定信息的文献为检索对象,根据文献加工深度的不同,文献检索可以分 为题录检索、文摘检索和全文检索。 2)事实检索(fact retrieval)曳,9,盒自,平司:导0 以文献中抽取的事项为检索内容的信息检索,或称“事项检索”。天的南 3)数据检索(data retrievall) 法零近枫,衡么息富 以具有数量性质并以数值形式表示的数据为检索内容的信息检索,或称“数值检索”。 事实检索和数据检索是以从文献中提取出来的各种事实、数据为检索对象的一种确定性 检索,通过检索,信息系统直接提供用户所需要的确切的数据或事实。 体工 1.2.2信息检索的基本原理 的发体身言,国外套 信息检索的基本原理:对信息集合与信息需求集合的匹配与选择(见图1-1)。地德文 要生伊卧床 信息 :具 集合 特征化 特征化 需求 表示 自的小环算 表示 合 选择与匹配 而培理卧兴小中 图1-1信息检索的基本原理示意图
网络环境下的文科信息检素 信息检索基于一种“匹配”机制,这种机制能快速把信息需求集合与信息集合依据某种相 似性标准进行比较和判断,进而选择出符合用户需要的信息。匹配的相似性标准一般通过把 信息集合和信息需求集合预先进行某种形式化的加工和表示来提供 对于文本而言,最主要、最常用的匹配标准是由某个或若干个词汇表达的“主题”。 信息源 用户 瑞托,来希弃 照进盘卧迷! 9070121Qds0101 信息采集 意:长全 检索接口 鲜袋需增中用现 工索必螺解) 16v35m8 气用意有出查 信息标引处理 (特征提取与表示) 检索辅助工具 提问处理 长具 景息骨的宝 创建/更新数据库 检索匹配 骨的义起 员做,静女的 及索引文档 家 架滋)合 ,表 数据库与索引文档 检索结果 本的索以 88,1I 座类 信息存储 信息查询 的同不部刻同不从 表,密 确关学存会文人其 图1-2信息检索处理过程示意图 图12是一个基于计算机环境的信息检索处理过程图。以中间的虚线为界,将信息检索 处理过程分解为“信息存储”与“信息查询”两部分。 信息存储包括:信息采集、信息标引处理、创建/更新数据库及索引文档等多个处理模块, 并最终以数据库的形式完成信息的收集、加工(标引)和存储任务。 信息查询,则通过检索接口、提问处理和检索匹配等一系列功能模块的配合,以人机对话 方式完成用户对系统的访问和信息查询的功能。元,左代誉量意奇臭日 1,2.3信息检索的发展历史率低老馆来出费减文从则县来爱序滚针寒排 1.2.3.1手工检索阶段(1830年~20世纪70年代初期) 凡典跳慰直液总有,袋上酥崇创 在我国,信息检索的雏形可追溯到十分遥远的古代。在西方国家,信息检索则直接发源于 文献的文摘索引工作和图书馆参考咨询工作。息一 特点:以印刷文献为主要检索对象;以各类文摘、题录和目录性工具书为可利用的主要检 索工具;以图书馆的参考咨询部门为开展信息检索服务的中心机构。 1.2.3.2计算机化检索阶段(20世纪50年代初期~20世纪90年代初期) 自1946年问世以来,计算机在信息检索领域的应用不断取得突破与成功。计算机化的信 息检索主要经历了早期的脱机批处理(1954~1964)、后来的联机实时检索(1965~1975)以及 功能更为先进和强大的联机网络化和多元化信息检索(1975~1990)等不同发展阶段。 特点:以各类数据库为检索对象,各类情报所、联机服务中心作为新兴的信息服务部门而 存在,信息检索用户逐渐由专业检索人员向个人终端用户转移
第1章信息素养与信息检索概论 1.2.3.3网络化检索阶段(20世纪90年代初至今) 随着社会信息化、网络化进程的发展,信息检索的主流平台迅速转移到以因特网为核心的 网络环境中,信息检索开始步人网络化检索时期。用:又 中, 一方面,基于因特网环境的各种搜索引擎系统发展迅速,另一方面,传统的联机检索服务 系统和各种数据库检索系统也纷纷将服务平台转移到了因特网中来。,常 网床,驶又是头Seoe他vrG 1.3信息检索的主要技术与方法 出斜可1©@修,念同频间中 如今,在互联网环境下,人文社会科学信息检索的常用技术与方法主要有:布尔逻辑检索 截词检索、词组检索与位置检索、限制检索,以及其他一些辅助性的检索技术与方法。 1.3.1布尔逻辑检索 胖出中果装常个 中果体个 金布尔(逻辑)检索是各类检索工具提供的一种最基本的检索方式。通常,用户在检索时需 要使用不同的布尔逻辑算符把检索词与检索词连接起来,以便准确地表达检索要求。 常见的布尔逻辑算符主要有三种:逻辑“与”、逻辑“或”、逻辑“非”(见图1-3)。 搜索引擎最基本的语法“与”、“非”和“或”,这三种搜索语法Go0gle分别用(空格)、“”和 “OR”表示。个 逻辑“与”一AND(*):表示它连接的两个检索词必须同时出现在结果中才满足检索条 件;检索词A和B若用“AND”组配,提问式一般可写成:A AND B或A*B 检索时,数据库中同时含有检索词A和检索词B的文献命中。逻辑“与”能增强检索的专 指性,可以缩小检索范围。出田同展生8味 逻辑“或”—OR(十):表示它连接的两个检索词只要有其中任何一个出现在结果中就满 足检索条件;检索词A和B若用“OR”组配,则提问式一般可写成:AORB或A十B) 检索时,数据库中凡含有检索词A或检索词B或同时含有A和B的文献均命中。逻辑 “或”能增强检索的泛指性,可以扩大检索范围。A屙 逻辑“非”一NOT(一)或者“AND NOT”:表示它连接的两个检索词应该包含第一个检 索词而不包含第二个检索词才满足检索条件。检索词A和B若用“NOT”组配,则提问式可写 成:A NOT B或A-B 检索时,数据库中凡含有检索词A而不含检索词B的文献命中。逻辑“非”用于排除不希 望出现的检索词,可以缩小检索范围。增强检索的准确性。 (通理字同不帕景 AAND B AOR B ANOTB 图1-3 布尔逻辑示意图 已朱索体的其 1.3.2 截词检索 截词检索是指在检索时使用词的一个局部(某些位置上的字符被截去)进行检索匹配,并 认为凡满足这个词局部中的所有字符要求的记录为命中结果
6 网络环境下的文科信息检索 截词检索需要使用专门符号(截词符),以指定截词的具体位置与截断字符的数量。 截词检索可分为:右截词检索(又称:前方一致检索、后截断)、左截词检索(又称:后方一致 检索、前截断)、中间截词检索(又称:屏蔽检索、通用字符法、内嵌字符截断)。其中,右截词检 索最为常见。 右截词检索,例如:无限后截断physic*可检出词汇包括:physic、physical、physician、 physicist、.physicists之类。又如:有限截断acid??可检出词包括:acid、acids、acidic之类。 中间截词检索,例如:colo?r可检出词包括:colour、color之类。髓萄 U 1.3.3词组检索与位置检索 词组检索(又称:短语检索)是使用专门的算符把多个检索词组织成特定的词组(短语)或 对各个检索词在检索结果中出现的相对位置进行限定,完成检索任务。 位置检索(位置算符检索)是通过对各个检索词在检索结果中出现的相对位置进行限定以 此来检索的一种检索方法。按照对各检索词之间应该满足的位置关系要求的不同,可以有多 种不同类型的位置检索,例如:邻近检索、同句检索、同字段检索等,其中,以邻近检索最为多 见。常见的位置算符有:“非“群题” (1)W-word或with的缩写。A(W)B表示在该算符两侧的检索词A和B必须按输 入时的前后顺序排列(A前B后),而且,所连接的词之间除可有一个空格、一个标点符号或一 个连接号外,不得有其他任何词或字母。个两 (2)nW一n words的缩写,是W的引申。它与W的唯一区别是,允许在两词之间最多 插人个其他单元词。竖,中命痛文储日厨冰详园索信舍阳同中率缕,细端 (3)S 一sentence。A(S)B表示检索词A和B必须同时出现在一个句子或一个短语中, 但前后次序以及两词间字符或词的个数无限制。个西在派涛:千)) 座“ (4)F一field。A(F)B表示检索词A和B必须同时出现在一条记录的同一个字段中, 但其相互位置以及两词之间词的个数不限。局常 只中南讲演,机亮 (5)C 一combine。A(C)B表示检索词A与B在同一记录中出现,而不限其所在字段和 先后关系。回刻面同密剑个两啦示 官 (6)N-near。A(N)B表示A和B紧密相连,中间不允许插入其他任何单词或字母, 但词序可颠倒。 -A施4T()MA跑 1.3.4限制检索(字段检索、二次检索) 过合下可荷溶件诗名电有没湾斜 限制检索的目的主要是为了提高检索的准确率。 字段检索,通过限制检索词在命中结果记录中的出现位置(主要指记录的不同字段位置) 来实现。 HM人 二次检索,即在检索结果中再检索。 1.3.5其他检索技术与方法 1)导航与浏览 把信息资源组织到一个树状分类目录,然后,通过分类目录的逐级展开,即可在目录的导 航作用下“浏览”所需的信息
第1章信息素养与信息检索概论 2)检索结果的排序 为了便于用户对众多的命中结果进行选择和判断,目前,多数检索工具都采取了某种检索 结果排序输出的处理方案,其中最为常用的排序标准是相关度排序,即按照检索结果条目和用 户检索请求之间匹配程度的大小,从高到低顺序输出结果,把和用户需求最相关的结果排列在 最靠前的位置。此外,还有按照被引频次排序、下载频次排序,等等。袭 3)检索结果的可视化 对检索结果集合进行某种可视化方式的组织与显示,以便用户直观、快速地从中筛选最需 要的信息。园备美球 装谊百中面外个此,爱在近西公融个几方标以式,面 禁4)检索结果的翻译沁章的 主要出现在网络搜索引擎中,用户在使用网络搜索引擎进行信息查询时,搜索引擎提供检 索结果的翻译功能。闻拉,外味雅蟹悬容,每壁海醉颜服殊州燕策理不 果批公的食唤州干甲测须晒木球鲜常酵留 1.4信息检索的县本流程 进 网络环境下的信息检索流程示意图见图1-4。 场文中命输够处至虽,活的债托向 的其出省期 分析检索要求 选择数据库 确定栓索词 构建检索式 日法题,边古 修改检索式 提交计算机 度牌名 米受E 不满意 结果显示 满意 ,合染是这微体益的好固鲜个一宝命武物金 ,实能夫的大意高最翰稀,弹5:合果某数中函健个 完成 ,司 合梨中命小地 图1-4网络环境下信息检索流程示意图 牌的物据静化火置 1.4.1分析检索要求 题出索剑林宝峡 信息检索要求的分析,一般应从以下三个方面着手:益应天共得数:陆国要生 其一,明确检索目的。 其二,检索请求的内容特征分析。主要涉及对用户信息请求所属的学科范围与主题范围 的确定,需要使用的主要概念及其相互关系以及相关名词术语的选择等。 其三,检索请求的形式特征分析。主要包括信息检索所要获取的检索结果数量的估计、所 要求的文献的语种,年代,类型等等。,受全缝丁申是文全服:司人式意 1.4.2选择检索系统 首先,必须了解检索系统(数据库)的基本情况,诸如:研制者情况;收录范围,一般涉及:学 科主题、信息(文献)类型、语种、年代跨度等;标引处理规则及所使用的词表;检索系统提供的 主要检索途径及相应功能,等等。 在此基础上,根据检索要求,因地制宜地选择最合适的检索系统(数据库)
8 网络环境下的文科信息检索 1.4.3 制定检索策略 所谓“检索策略”是指为实现检索目的而制定的全盘计划和方案,是对整个检索过程的谋 划和指导。 常用联机检索①策略:积木型、引文珠形增长、逐次分馏。辄处弃曲登 1.4.3.1积木型 量积木型(build-block)检索策略:把用户的检索请求或检索课题剖析成若干个不同的概念 面,先分别对这几个概念面进行检索,并在每个概念面中尽可能多地列举相关词、同义词、近义 词,并用布尔逻辑算符“OR”连接成一个子检索式,再用合适的布尔逻辑算符把所有子检索式 连接成一个总检索式,类似于把各个积木块拼成图案。中 积木型策略能提供比较明确的检索逻辑过程,容易理解和执行,还可部分或全部地用作保 留检索,一般地,积木型策略用于比较复杂的检索课题。 1.4.3.2引文珠形增长 引文珠形增长(citation pearl growth)检索策略:从已知的关于检索课题的少数几个专指 词开始检索,以便至少检出一篇命中文献或一条相关信息,然后,审阅这批文献或信息条目,从 中选出一些新的相关检索词,补充到检索式中。这些检索词加入到检索式之后,就能查出其他 新的命中结果,不断重复上述过程,直到找不到其他适合包含于检索式的附加词为止,或者已 经得到了数量适宜的命中结果。 引文珠形增长策略具有很强的人机交互性,可以使检索式以比较生动的方式生成并不断 丰富。 我希不 1.4.3.3逐次分馏 逐次分馏(successive fractions)检索策略:先确定一个范围较广的检索初始对象集合,然 后,提高检索的专指度,得到一个较小的命中结果集合;之后,继续提高检索式的专指度,一步 一步缩小命中结果集合,直至得到数量适宜、用户满意的结果 逐次分馏策略的特点是检索操作比较主动,漏检较少 1.4.4拟定并执行检索步骤 主要包括:选择并输入检索词;选择检索词的组配连接符号;选择检索途径;初步浏览检索 结果;使用合适的反馈调整方法,对检索结果进行优化,等等。 1.4.5检索结果的处理 主要包括:选择显示/输出格式;选择排序方式;选择保存、E-Mail发送、下载等处理方式; 选择原始文献获取方式(例如:通过全文数据库下载全文;通过馆际互借,从其他图书情报机构 ①联机检索,指用户利用检索终端,通过通信网络接通中心检索系统,由中心检索系统根据用户构造的 检索策略查出用户所需特定信息的过程。网络检索,指借助于开放式的网络系统完成的信息查询操作。网络 检索本身包含了两重含义:其一,利用网络通道完成联机检索,是利用网络这一通道检索上网的专业性数据库 和联机检索服务系统,必须遵守传统的计算机联机检索的基本规则,其实质仍属于联机检索的范畴。其二,网 络搜索。主要指基于搜索引擎的网络信息检索
第1章信息素养与信息检索概论 获取全文,等等)。 1.4.6评价检索结果 分析评价检索操作与检索结果是否理想,以及计算机信息检索系统的效能如何,最常用的 指标有查全率(检全率)和查准率(检准率),此外,还有漏检索、误检率、响应时间等衡量指标。 一般认为,查全率在60%~70%,查准率在40%~50%,即能满足需要。 1.4.6.1查全率 查全率(recall ratio):检出的相关文献数与系统内的相关文献总数之比。 它的数值等于w/x,式中w为用户鉴别检出的m篇文献时,认为实际对口径的文献篇 数,x为特定检索系统中所包括的全部篇文献中实际与某一课题相关的文献篇数。 般来说,检索工具的标引深度越大,查全率也就越高。标引过程的网罗性越好,查全率 也就越高。 1.4.6.2查准率 查准率(Precision ratio):检出的相关文献数与检出的文献总数之比,它是衡量一个检索 系统的信号噪声比,测度检索系统拒绝非相关文献能力大小的一项指标。 它的数值等于w/m,式中w是用户鉴别检出的m篇文献时,认为实际对口径的文献 篇数。 查准率主要取决于检索语言的专指性和所拟定的检索策略能否准确表达用户真正的信息 需求。若检索策略拟订得较宽泛,参与组配的检索词较少,主题词的概念比用户的信息需求宽 泛,则查准率将降低,而查全率将增加。通常二者呈互逆相关关系。 1.4.6.3影响查全率和查准率的主要因素 1)客观原因(检索系统) 系统内文献(信息)不全,收录遗漏;索引词汇缺乏控制;词表结构不完善;标引不够详尽; 文献分类专指度缺乏深度,不能精确地描述文献主题;组配规则不严密,等等。 2)主观原因(检索者) 检索课题要求不明确;检索工具选择不当;检索途径和方法过少;检索词缺乏专指性;检索 词选择不当;组配错误,等等。 思考与练习题 思考题 1,什么是信息检索?你认为文科信息检索可以分为哪些主要类型? 2.在网络环境下,常用的文科信息检索技术与方法有哪些? 3.限制检索有什么作用?如何限制? 4.常用的联机检索策略有哪些? 5.什么是查全率和查准率? 实习题 尽你目前所能,请在10分钟内查找其他较有学术价值的关于“信息素养”的定义和信息素 养评估(评价)标准(本书没有提及的),并请注明出处