第4节网络检索 网络检索的概念和特征 、 Internet基本知识 三、 Internet信息检索模式 ?思考题
1 第4节 网络检索 一、网络检索的概念和特征 二、Internet基本知识 三、Internet信息检索模式 思考题
网络检索的概念和特征 1、网络检索的概念 网络就是利用通信线路将多台计算机连接起来,进行计算机与计算机之 间的通信。计算机网络按其规模大小和分布池围可分为LAN、MAN WAN和 Internet。LAN就是局部区域的计算机网络在局域网中连在 起的计算机分布范围一般在10米以上和几公里之内它具有结构简单、 投资少、数据传输速度快、可靠性好、保密性强等优点。WAN是在较 大范围内实现计算机之间通信和数据交换,典型的代表是美国的主干网 ARPAnet和 NSFnet、我国的 Chinanet、 Cernet、 ChinagBn和 CSTnet等。 这些是 Internet的基础设施。 ARPAnet既是 Internet的前身,又是最早的广 域网结构。 Internet的出现是由于计算机网络的广泛应用,网络用户需要 在更大范围内实现相互通信和资源共享的结果,是成千上万个公共和专 用网连接在一起构成的全球规模最大、影响最广的计算机互联网络系统, 是全球计算机信息资源的最大规模的集成。 ·网络检索是指利用E-mail、FTP、 Telnet、 Archie、WAIS、 Gopher、 Veronica、wwW等检索工具,在 Internet等全球性网络上进行信息存取 的行为
2 一、网络检索的概念和特征 1、网络检索的概念 ⚫ 网络就是利用通信线路将多台计算机连接起来,进行计算机与计算机之 间的通信。计算机网络按其规模大小和分布范围可分为LAN、MAN、 WAN和Internet。 LAN就是局部区域的计算机网络,在局域网中连在一 起的计算机分布范围一般在10米以上和几公里之内。它具有结构简单、 投资少、数据传输速度快、可靠性好、保密性强等优点。WAN是在较 大范围内实现计算机之间通信和数据交换,典型的代表是美国的主干网 ARPAnet和NSFnet、我国的Chinanet、Cernet、ChinaGBN和CSTnet等。 这些是Internet的基础设施。ARPAnet既是Internet的前身,又是最早的广 域网结构。Internet的出现是由于计算机网络的广泛应用,网络用户需要 在更大范围内实现相互通信和资源共享的结果,是成千上万个公共和专 用网连接在一起构成的全球规模最大、影响最广的计算机互联网络系统, 是全球计算机信息资源的最大规模的集成。 ⚫ 网络检索是指利用E-mail、FTP、Telnet、Archie、WAIS、Gopher、 Veronica、WWW等检索工具,在Internet等全球性网络上进行信息存取 的行为
2、网络信息检索的基本特征。 第1点,两种不同的系统结构:集中式与分布式。 传统的联机检索系统绝大多数是集中式管理的,即整个系统有专人负责维护, 系统中的信息定期更新:绝大部分的检索工作都是在主机上完成的。 般的信息检索系统都采用昂贵的大型主机及大谷量的外存介质。这种集 中式系统的主要优点是集中的安全性以及在存储设备上处理大量数据的 功能。但缺点是过分依赖主机;网络的扩展性能差:由于所采用的技术 标准原则上是不公开的,因此相关技术缺乏发展的动力,灵活性较差 Internet是一个由许多类型、结构不同的分组交换网通过路由器连接而成的 种庞大的、能整体运行的网络。在因特网中主要采用了分布式的计算 杋系统,它与髙性能的并行计算机及大型的数据库管理系统共同管理、 调度和分配网中的通道和信息资源。其主要特点是模块性和并行性。系 统中的资源冗余和自治控制方式使系统具有动态重构的能力,即使受到 局部性的破坏,也能继续工作。系统以模块作为系统发展和资源更新的 增量,不必象集中式那样常常得替换整个系统或更改系统中很大的一部 分。这些优点有利于系统的维护和扩展,便于使用。同时,因特网上的 数据库的分布也不象联机检索系统那样集中于检索中心,而是分布在网 络中的各个主机上,这种分布使用户对数据可以分布式存取、分布式存 储和分布式处理
3 2、网络信息检索的基本特征。 第1点,两种不同的系统结构:集中式与分布式。 传统的联机检索系统绝大多数是集中式管理的,即整个系统有专人负责维护, 系统中的信息定期更新;绝大部分的检索工作都是在主机上完成的。一 般的信息检索系统都采用昂贵的大型主机及大容量的外存介质。这种集 中式系统的主要优点是集中的安全性以及在存储设备上处理大量数据的 功能。但缺点是过分依赖主机;网络的扩展性能差;由于所采用的技术 标准原则上是不公开的,因此相关技术缺乏发展的动力,灵活性较差。 Internet是一个由许多类型、结构不同的分组交换网通过路由器连接而成的 一种庞大的、能整体运行的网络。在因特网中主要采用了分布式的计算 机系统,它与高性能的并行计算机及大型的数据库管理系统共同管理、 调度和分配网中的通道和信息资源。其主要特点是模块性和并行性。系 统中的资源冗余和自治控制方式使系统具有动态重构的能力,即使受到 局部性的破坏,也能继续工作。系统以模块作为系统发展和资源更新的 增量,不必象集中式那样常常得替换整个系统或更改系统中很大的一部 分。这些优点有利于系统的维护和扩展,便于使用。同时,因特网上的 数据库的分布也不象联机检索系统那样集中于检索中心,而是分布在网 络中的各个主机上,这种分布使用户对数据可以分布式存取、分布式存 储和分布式处理
第2点,两种不同的服务模式:主仆式与客户服务器式。 在联机检索中,用户提交的査询经由通讯网络后交主机进行处理,所有的工 作都在主机上进行,这种运作交式称为主式在因特网:,畫要用 lent/server 客户方运作在微机或工作站上,分析从服条器上返回的数据,而服务方 则运行在从微机到大型机等各种计算 处理用户的各种请求并提供 服这种謇询檯式提高了网络的利用率,提高系统数据的独立性和 第3点,两种不同的信息组织方式:普通文本和超文本 在联机检索中,其数据库主要存贮有关主题领域各类文献资料的书目信息 它以文档的形式按线性组 文档的基本组成单位是记录,记录被划分 为若干个字段,用于检索和显示。每个字段均 段标识符。而在 Internet上,信 组织则来 文的结奶式别即客 种文本、图象、声音等信息数据的非线性组织形式。信息单元不是按线 性序列来组织的,而是依赖于数据库中信息单元之间知识内容的相关关 系和可能臣现的明显的连性。互普文本数据库不亘其餐据度不 点肉的信息可以是文本。图象、图形、动画、声章或其组会:而链路表 小这些节点间的网状关系。换言之,超文本数据库是由两个部分组成 息集合和连接集合中信息的链路网。超文本对信息的存储方式打破了 燝菂旻本绕頁罷按线性顺序存取的限制
4 第2点,两种不同的服务模式:主仆式与客户/服务器式。 在联机检索中,用户提交的查询经由通讯网络后交主机进行处理,所有的工 作都在主机上进行,这种运作方式称为主仆式。在因特网中,主要采用 先进的Client/Server模式。应用分前端的客户部分和后端的服务器部分, 客户方运作在微机或工作站上,分析从服务器上返回的数据,而服务方 则运行在从微机到大型机等各种计算机上,处理用户的各种请求并提供 服务。这种查询模式提高了网络的利用率,提高了系统数据的独立性和 完整性。提高了用户利用的便捷性。 第3点,两种不同的信息组织方式:普通文本和超文本。 在联机检索中,其数据库主要存贮有关主题领域各类文献资料的书目信息。 它以文档的形式按线性组织,文档的基本组成单位是记录,记录被划分 为若干个字段,用于检索和显示。每个字段均有一个供计算机识别的字 段标识符。而在Internet上,信息组织则采用了超文本的组织方式,即各 种文本、图象、声音等信息数据的非线性组织形式。信息单元不是按线 性序列来组织的,而是依赖于数据库中信息单元之间知识内容的相关关 系和可能出现的明显的连续性。与普通文本数据库不同。其数据库不是 由字符而是由Node和Link组成,节点表示知识单元、片段或其组合,节 点内的信息可以是文本、图象、图形、动画、声音或其组合;而链路表 示这些节点间的网状关系。换言之,超文本数据库是由两个部分组成: 信息集合和连接集合中信息的链路网。超文本对信息的存储方式打破了 原来的文本系统只能按线性顺序存取的限制
第4点,两种不同的检索机制:二次文献和搜索引擎。 联机检索系统中的文本常常是经过加工、标引之后,能够完整地描述 篇文献资料的信息集合,这样的信息集合称为二次文献。每篇这 样的二次文献称为一个记录,它充分地反映了文献的内容及特征。 每个记录一般都含有存取号、基本索引和辅助索引3种类型的字段。 在 nternet中,检索机制是随着服务器类型的不国而不同, Archie是 用于FTP的检索工具, Veronica是用于查找 Gopher的工具, Infoseek ycos等搜索引擎是用于WWW检索的。这些检索工具的组织有目录 式和索引式。 第5点,两种不同的检索结果:或长或短,时优时劣 信息质量差异 检索空间差异 检索便捷差异 检索速效差异 检索费用差异 检索安全性方面
5 第4点,两种不同的检索机制:二次文献和搜索引擎。 联机检索系统中的文本常常是经过加工、标引之后,能够完整地描述 一篇文献资料的信息集合,这样的信息集合称为二次文献。每篇这 样的二次文献称为一个记录,它充分地反映了文献的内容及特征。 每个记录一般都含有存取号、基本索引和辅助索引3种类型的字段。 在Internet中,检索机制是随着服务器类型的不同而不同,Archie是 用于FTP的检索工具,Veronica是用于查找Gopher的工具,Infoseek、 Lycos等搜索引擎是用于WWW检索的。这些检索工具的组织有目录 式和索引式。 第5点,两种不同的检索结果:或长或短,时优时劣。 ⚫ 信息质量差异 ⚫ 检索空间差异 ⚫ 检索便捷差异 ⚫ 检索速效差异 ⚫ 检索费用差异 ⚫ 检索安全性方面
Internet基本知识 、 Internet的含义 Internet的实质就是将若干个LAN和WAN联结成一个庞大而统一的全球计算 机网络 从网络互联的角度看, Internet是由成千上万个具有特殊功能的专用计算 机通过各种通信线路,把分散在各地的网络在物理上连接起来而形成的 个互联网。 从网络通信的角度看, nternet是一个用TP/P协议把各个国家、各个地 区、各种机构的内部网络连接起来而形成的数据通信网 从提供信息资源的角度看, Internet是将各个国家、各个部门、各个领域 的不同信息资源联为一个整体的超级信息资源网。凡是接入 Internet的用 户,都可以通过各种信息查询工具访问所有的信息资源,查询各种数据 库,获取自己所需的各种信息资料。 从网络管理的角度看, Internet是一个不受任何政府或某一个管理机构管 理和约束,而是由用户互相协作的组织和集合体。 从信息服务的提供上看,现代的 nternet i能够提供广泛、多层次的、从文 本信息到声音、图像信息的综合性网络
6 二、Internet基本知识 1、Internet的含义 Internet的实质就是将若干个LAN和WAN联结成一个庞大而统一的全球计算 机网络。 ⚫ 从网络互联的角度看,Internet是由成千上万个具有特殊功能的专用计算 机通过各种通信线路,把分散在各地的网络在物理上连接起来而形成的 一个互联网。 ⚫ 从网络通信的角度看,Internet是一个用TCP/IP协议把各个国家、各个地 区、各种机构的内部网络连接起来而形成的数据通信网。 ⚫ 从提供信息资源的角度看,Internet是将各个国家、各个部门、各个领域 的不同信息资源联为一个整体的超级信息资源网。凡是接入Internet的用 户,都可以通过各种信息查询工具访问所有的信息资源,查询各种数据 库,获取自己所需的各种信息资料。 ⚫ 从网络管理的角度看,Internet是一个不受任何政府或某一个管理机构管 理和约束,而是由用户互相协作的组织和集合体。 ⚫ 从信息服务的提供上看,现代的Internet能够提供广泛、多层次的、从文 本信息到声音、图像信息的综合性网络
2、 Internet发展历程 2、1 ARPAnet即美国国防部的计算机网络 古巴导弹危机与兰德公司提出的计算机网络离散化的设想。60年代末期, 兰德公司、麻省理 和加州大学洛杉矶分校开始试验这种基于离散 控制和信息包换惠想的 网络。1968年,美国 Advanced researc Project Agency开始资助这个研究项目。1969年秋,具备4个节点的计算 机网络 ARPAnet诞生,这4个节点分别位于美国 大学洛杉矶分校、斯 坦福研究所、加州大学圣巴巴拉分校和美国犰他州立大学。这就是 Internet的前身 人们开始探讨建全球计算机网终。1973年, ARPAnet实现了第一个国 际连接,连通了英国的伦敦学院大学和挪威的皇家雷达基地。到1976年 加入 ARPAnet的计算机节点已发展到57个,连接不同类型的计算机100多 台,联网用户2000多个,许多为美国军方工作的科研人员也通过 ARPAnet交换信息 加入 ARPAnet的计算机在相互通信时最初采用的是NCP( Network Control Protocol)。1974年,美国 National. Science foundation的 Vint cerf.和Bob Kahn发表了他们有关T℃P/P协议的技术规范。该协议在1977年被其他 些与 ARPAnet连接的网络所采纳。1983年1月1日,已经接管 ARPAnet的 美国国防部国防通信局,决定将 ARPAnet)用的通信协议由NCP过渡到 TCPP。采用TCPP通信协议是日后 Internet得以发展的关键,因此许多 人都把这一天看作是 Internet的诞生之日
7 2、Internet发展历程 2、1ARPAnet即美国国防部的计算机网络 古巴导弹危机与兰德公司提出的计算机网络离散化的设想。60年代末期, 兰德公司、麻省理工学院和加州大学洛杉矶分校开始试验这种基于离散 控制和信息包交换思想的计算机网络。1968年,美国 Advanced Research Project Agency开始资助这个研究项目。1969年秋,具备4个节点的计算 机网络ARPAnet诞生,这4个节点分别位于美国加州大学洛杉矶分校、斯 坦福研究所、加州大学圣·巴巴拉分校和美国犹他州立大学。这就是 Internet的前身。 1972年10月,ARPAnet在华盛顿举办的国际计算机会议上公开露面。此后, 人们开始探讨建立全球计算机网络。1973年,ARPAnet实现了第一个国 际连接,连通了英国的伦敦学院大学和挪威的皇家雷达基地。到1976年, 加入ARPAnet的计算机节点已发展到57个,连接不同类型的计算机100多 台,联网用户2000多个,许多为美国军方工作的科研人员也通过 ARPAnet交换信息。 加入ARPAnet的计算机在相互通信时最初采用的是NCP(Network Control Protocol)。1974年,美国National Science Foundation的Vint Cerf和Bob Kahn发表了他们有关TCP/IP协议的技术规范。该协议在1977年被其他一 些与ARPAnet连接的网络所采纳。1983年1月1日,已经接管ARPAnet的 美国国防部国防通信局,决定将ARPAnet采用的通信协议由NCP过渡到 TCP/IP。采用TCP/IP通信协议是日后Internet得以发展的关键,因此许多 人都把这一天看作是Internet的诞生之日
2、2 NSFnet的出现。1985年,美国国家科学基金会决定资助建立连接五大 超级计算机中心的计算机网络,即 NSFnet。这五大超级计算机中心分别 建立在普林斯顿大学、卡内基·梅隆大学、加州大学、伊利诺斯大学和康 乃尔大学。与此同时,美国国家科学基金会首先意识到 Internet,对科学研 究的重要性,并大力资助 Internet的发展和TCP技术,开始建设使用 TCPP协议的 NSFnet。由于美国国家科学资金的资助和鼓励,很多大学 政府科研机构甚至私营的科研机构都纷纷将自己的局域网并入 NSfnet,, 1986年, NSFnet最终建成并取代了 ARPAnet成为 Interne骨干网。随着用 户数的飞速增加, NSFnet l的通信能力也很快地饱和。因此, NSFnet不得 不再次考虑用更新的网络技术来适应发展的需要 ISFnet对推广 nternet的重大贡献是使 Internet不再只对计算机专家、政府职 员和政府项目承包商使用,而且对科教界开放, Internet迅速进入以资源 共享为中心的实用服务阶段。尽管1986年连入 Internet的计算机只有2300 余台,但到了1987年,就超过了1万台,1989年突破10万台,1992年达 到72万多台。现在看来, NSFnet是非常成功的,它不仅向科研人员提供 可获得无限资源的通信网络,并在不断完善、提高的过程中,构造 现代美国 Internet的网络结构
8 2、2NSFnet的出现。1985年,美国国家科学基金会决定资助建立连接五大 超级计算机中心的计算机网络,即NSFnet。这五大超级计算机中心分别 建立在普林斯顿大学、卡内基·梅隆大学、加州大学、伊利诺斯大学和康 乃尔大学。与此同时,美国国家科学基金会首先意识到Internet对科学研 究的重要性,并大力资助Internet的发展和TCP/IP技术,开始建设使用 TCP/IP协议的NSFnet。由于美国国家科学资金的资助和鼓励,很多大学、 政府科研机构甚至私营的科研机构都纷纷将自己的局域网并入NSFnet, 1986年,NSFnet最终建成并取代了ARPAnet成为Internet骨干网。随着用 户数的飞速增加,NSFnet的通信能力也很快地饱和。因此,NSFnet不得 不再次考虑用更新的网络技术来适应发展的需要。 NSFnet对推广Internet的重大贡献是使Internet不再只对计算机专家、政府职 员和政府项目承包商使用,而且对科教界开放,Internet迅速进入以资源 共享为中心的实用服务阶段。尽管1986年连入Internet的计算机只有2 300 余台,但到了1987年,就超过了1万台,1989年突破10万台,1992年达 到72万多台。现在看来,NSFnet是非常成功的,它不仅向科研人员提供 了可获得无限资源的通信网络,并在不断完善、提高的过程中,构造了 现代美国Internet的网络结构
2、3现代 Internet。20世纪90年代初,美国的许多研究机构纷纷架设和动作 自己的子网,这些子网又与国家资助的主干网 NSFnet互联起来。随着 Internet的发展,美国的私人企业开始建立自己的网络,并在一定程度上 绕开了 NSFnet,向用户提供 Internet商业的联网服务。1991年,这些企业 组成了“商用 J Internet协会”,纷纷宣布自己开发的子网可用于各种商业 用途。商界的介入进一步发挥了 Internet在通信、息检索、客户服务等 方面的巨大潜力。 Internet由原来专门为教育科研服务的网络向商业应用 发展。1994年被称为 Internet商业年,1997年被称为网络年。∏ iternet已经 成为错综复杂的全球性网络。 我国 Internet发展大致可划分为以下三个阶段 第一阶段为1987~1993年,开通国际电子邮件服务,登记注册我国的域名等。 第二阶段从1994年开始,中国科技网、中国公用计算机互联网、中国教育科 研计算机网、电子工业部金桥网等迅速发展。 第三阶段以 Internet的商业化应用为标志。1996年底,我国国内互联网络已 基本完成, Internet由此进入商业化试运行阶段。1996年5月成立国务院信 信息中心CNNC工作委员会成立并开展工。°1997年,中国互联网络 化工作领导小组,管理有关国际联网的事务
9 2、3现代Internet。20世纪90年代初,美国的许多研究机构纷纷架设和动作 自己的子网,这些子网又与国家资助的主干网NSFnet互联起来。随着 Internet的发展,美国的私人企业开始建立自己的网络,并在一定程度上 绕开了NSFnet,向用户提供Internet商业的联网服务。1991年,这些企业 组成了“商用Internet协会” ,纷纷宣布自己开发的子网可用于各种商业 用途。商界的介入进一步发挥了Internet在通信、信息检索、客户服务等 方面的巨大潜力。Internet由原来专门为教育科研服务的网络向商业应用 发展。1994年被称为Internet商业年,1997年被称为网络年。Internet已经 成为错综复杂的全球性网络。 我国Internet发展大致可划分为以下三个阶段: 第一阶段为1987~1993年,开通国际电子邮件服务,登记注册我国的域名等。 第二阶段从1994年开始,中国科技网、中国公用计算机互联网、中国教育科 研计算机网、电子工业部金桥网等迅速发展。 第三阶段以Internet的商业化应用为标志。1996年底,我国国内互联网络已 基本完成,Internet由此进入商业化试运行阶段。1996年5月成立国务院信 息化工作领导小组,管理有关国际联网的事务。1997年,中国互联网络 信息中心(CNNIC)工作委员会成立并开展工作
3、 Internet提供的主要服务和资源 E-mail E-ma是1972年由 Ray Tomlinson发明的。Emai是 nternet上最 早提供且使用最广泛的一种信息服务 Telnet. Internet用户的远程登录是在网络通信协议 Telnet的支持下使自己 的计算机暂时成为远程计算机仿真终端的过程 FTP。以 File transfer protocol命名的,无论两台加入 nternet网的计算机 在地理位置上相距多远,只要两者都支持FTP协议,网上的用户就能将 台计算机上的文件传送到另一台计算机 ● Network News。又称 NetNews,它是 :Internet用户相互交换意见的一种无 形的用户交流网络。它相当于一个全球范围的电子公告牌系统。 网上交谈服务。这是人们利用 Internet开展的一种实时、交互式的文字通 信服务。一般分为一对一的交谈Tlk和多人之间的会谈Chat ●Www。1990年11月,欧洲核子物理研究中心的 Tim berner-Lee建立起第 个Web服务器原型系统:;1992年Web投入实际服务。1993年2月,美国 国家超级计算中心NCSA发布第一个图形界面Web浏览器 Mosaic的时候, Internet上仅有130个Web服务器在运行,而到1996年7月,全世界在运行 的Web服务器已经发展到了27万个。WWW是一种基于超文本的多媒体 信息服务,Web服务是以 Client/server模式进行工作的 10
10 3、Internet提供的主要服务和资源 ⚫ E-mail。 E-mail是1972年由Ray Tomlinson发明的。E-mail是Internet上最 早提供且使用最广泛的一种信息服务。 ⚫ Telnet。Internet用户的远程登录是在网络通信协议Telnet的支持下使自己 的计算机暂时成为远程计算机仿真终端的过程。 ⚫ FTP。 以File Transfer protocol命名的,无论两台加入Internet网的计算机 在地理位置上相距多远,只要两者都支持FTP协议,网上的用户就能将 一台计算机上的文件传送到另一台计算机。 ⚫ Network News。又称NetNews,它是Internet用户相互交换意见的一种无 形的用户交流网络。它相当于一个全球范围的电子公告牌系统。 ⚫ 网上交谈服务。这是人们利用Internet开展的一种实时、交互式的文字通 信服务。一般分为一对一的交谈Talk和多人之间的会谈Chat。 ⚫ WWW。1990年11月,欧洲核子物理研究中心的Tim Berner-Lee建立起第 一个Web服务器原型系统;1992年Web投入实际服务。1993年2月,美国 国家超级计算中心NCSA发布第一个图形界面Web浏览器Mosaic的时候, Internet上仅有130个Web服务器在运行,而到1996年7月,全世界在运行 的Web服务器已经发展到了27万个。WWW是一种基于超文本的多媒体 信息服务,Web服务是以Client/Server模式进行工作的