第二章网络信息检索系统 2.1网络信息检索概述 2.2 Wor d wide web(ww)检索系统 2.3常用中英文搜索引擎及检索策略 2.4网上多媒体信息检索系统 2.5经济信息检索系统 2.6互联网科技信息资源检索类型
第二章 网络信息检索系统 2.1 网络信息检索概述 2.2 World Wide Web(WWW)检索系统 2.3 常用中英文搜索引擎及检索策略 2.4 网上多媒体信息检索系统 2.5 经济信息检索系统 2.6 互联网科技信息资源检索类型
21网络信息检索概述 2.1.1计算机检索特点 2.1.2网络信息检索工具及原理 2.1.3网络信息检索工具的发展趋势
2.1 网络信息检索概述 2.1.1 计算机检索特点 2.1.2 网络信息检索工具及原理 2.1.3 网络信息检索工具的发展趋势
21.1计算机检索特点 随着计算机技术、高密度海量存储器技术和现代通信技 术的发展,计算机检索系统已经成为世界上最先进的信 息检索系统。它具有检索速度快、检索范围广而全面、 检索途径多、质量高、检索内容新等特点。由于计算机 具有上述特点,所以它广泛应用于信息管理中,如情报 信息管理、图书馆资料管理、档案馆文件管理等方面 计算机信息检索系统能存储大量的信息,并对信息条目 进行分类、编目或编制索引;还可以根据用户要求从已 存储的信息库中调取出特定的信息,并提供插入、修改 和删除某些信息的能力
2.1.1 计算机检索特点 ◼ 随着计算机技术、高密度海量存储器技术和现代通信技 术的发展,计算机检索系统已经成为世界上最先进的信 息检索系统。它具有检索速度快、检索范围广而全面、 检索途径多、质量高、检索内容新等特点。由于计算机 具有上述特点,所以它广泛应用于信息管理中,如情报 信息管理、图书馆资料管理、档案馆文件管理等方面。 计算机信息检索系统能存储大量的信息,并对信息条目 进行分类、编目或编制索引;还可以根据用户要求从已 存储的信息库中调取出特定的信息,并提供插入、修改 和删除某些信息的能力
1.计算机检索系统的发展过程 第一阶段,1971年以前,开始建立计算机信息检索系统, 并取得了一定的进展。这一阶段的数据存取与数据通信 能力都比较差。 第二阶段,1971年以后,产生并发展了联机情报检索系 统。这一阶段的特点是联机数据库集中管理,具有完备 的数据库联机检索功能,但其数据通信能力较差。 第三阶段,20世纪80年代以后,出现了以 Internet为标志 的网络信息检索系统。系统大多采用分布式的网络化管 理,其信息资源的主要特点是:数字形式表达、多媒体 和多载体、内容覆盖面广、分布无序、难于规范化和结 构化、内容特征抽取复杂、用户界面要求高等
1. 计算机检索系统的发展过程 ◼ 第一阶段,1971年以前,开始建立计算机信息检索系统, 并取得了一定的进展。这一阶段的数据存取与数据通信 能力都比较差。 ◼ 第二阶段,1971年以后,产生并发展了联机情报检索系 统。这一阶段的特点是联机数据库集中管理,具有完备 的数据库联机检索功能,但其数据通信能力较差。 ◼ 第三阶段,20世纪80年代以后,出现了以Internet为标志 的网络信息检索系统。系统大多采用分布式的网络化管 理,其信息资源的主要特点是:数字形式表达、多媒体 和多载体、内容覆盖面广、分布无序、难于规范化和结 构化、内容特征抽取复杂、用户界面要求高等
第四阶段,进入21世纪后,随着连续性语音识别技术的 不断发展,计算机信息检索系统跨入一个新的阶段。在 前三个阶段的基础上,信息检索技术正向两个新的方向 发展:一是传统信息检索向全文文本、多媒体等新型信 息检索发展,在深度上应能对提问的内容进行分析和理 解,提高查准率,探索自动抽词、自动索引、自动检索 自动文摘、自动分类、自动翻译等解决方案,提髙管理 和组织信息的能力;二是信息资源的网络化和分布化, 主要面对 Internet中浩瀚无垠的资源,提高査全率
◼ 第四阶段,进入21世纪后,随着连续性语音识别技术的 不断发展,计算机信息检索系统跨入一个新的阶段。在 前三个阶段的基础上,信息检索技术正向两个新的方向 发展:一是传统信息检索向全文文本、多媒体等新型信 息检索发展,在深度上应能对提问的内容进行分析和理 解,提高查准率,探索自动抽词、自动索引、自动检索、 自动文摘、自动分类、自动翻译等解决方案,提高管理 和组织信息的能力;二是信息资源的网络化和分布化, 主要面对Internet中浩瀚无垠的资源,提高查全率
2.基于概念的信息检索系统 基于概念的信息检索是通过对文献中的原文信息进行语 义上的自然语言处理,析取各种概念信息,并由此形成 个知识库。然后,根据对用户提问的理解,检索知识 库中相关的信息,以提供直接的回答
2. 基于概念的信息检索系统 ◼ 基于概念的信息检索是通过对文献中的原文信息进行语 义上的自然语言处理,析取各种概念信息,并由此形成 一个知识库。然后,根据对用户提问的理解,检索知识 库中相关的信息,以提供直接的回答
(1)概念信息检索的特性 概念信息检索具有分析和理解自然语言的能力。无论是 向知识库的自然语言输入,还是对系统的自然语言提问, 概念信息检索都可以通过分析和理解,得到自然语言原 文的内容。 概念信息检索可以对输入的原文根据其概念内容进行组 织和安排,而不是根据关键词检索。概念信息检索可以 进行语义层次上的自然语言处理,以析取相关的概念信 息和范畴知识;然后,通过记忆机制将它们存储到知识 库中,以备检索之用
(1)概念信息检索的特性 ◼ 概念信息检索具有分析和理解自然语言的能力。无论是 向知识库的自然语言输入,还是对系统的自然语言提问, 概念信息检索都可以通过分析和理解,得到自然语言原 文的内容。 ◼ 概念信息检索可以对输入的原文根据其概念内容进行组 织和安排,而不是根据关键词检索。概念信息检索可以 进行语义层次上的自然语言处理,以析取相关的概念信 息和范畴知识;然后,通过记忆机制将它们存储到知识 库中,以备检索之用
概念信息检索的记忆机制能够自动补充与更新。同时: 存储在知识库中的概念信息和范畴知识也能得到补充与一 更新,且补充与更新的新信息与新知识能恰当地归类到 相应的范畴之中。 概念信息检索具有使用自然语言回答用户提问的能力。 这种能力包括从自然语言原文的概念内容中析取检索要 点,通过记忆机制检查某个特别的范畴,以获取必需的 背景知识,以及通过对知识库中存储的其它概念信息进 行分析和理解,并回答用户的提问
◼ 概念信息检索的记忆机制能够自动补充与更新。同时, 存储在知识库中的概念信息和范畴知识也能得到补充与 更新,且补充与更新的新信息与新知识能恰当地归类到 相应的范畴之中。 ◼ 概念信息检索具有使用自然语言回答用户提问的能力。 这种能力包括从自然语言原文的概念内容中析取检索要 点,通过记忆机制检查某个特别的范畴,以获取必需的 背景知识,以及通过对知识库中存储的其它概念信息进 行分析和理解,并回答用户的提问
(2)概念信息检索系统的结构 概念信息检索系统的结构一般分为: 记忆机制部分。存储原文内容或概念,能自动更新。 语言分析机制部分。运用自然语言处理技术,从语义层 次上分析和理解文本内容及用户提问内容。 知识库部分。通过分析机制和记忆机制,获取关于检索 和推理的知识。 人机接口部分。输入原文内容及用户提问,输出自然语 言形式的检索结果
(2)概念信息检索系统的结构 ◼ 概念信息检索系统的结构一般分为: ◼ 记忆机制部分。存储原文内容或概念,能自动更新。 ◼ 语言分析机制部分。运用自然语言处理技术,从语义层 次上分析和理解文本内容及用户提问内容。 ◼ 知识库部分。通过分析机制和记忆机制,获取关于检索 和推理的知识。 ◼ 人机接口部分。输入原文内容及用户提问,输出自然语 言形式的检索结果
(3)应用系统 CyFr系统。CyFr系统是 Schank、 Kolodner和 DeJong于 1981年根据概念信息检索理论建立的系统,用于处理与 美国前国务卿范斯( Vance)有关的新闻。 Researcher系统。由 Lebowitz于1983年在哥伦比亚大学研 制,用于阅读和理解用自然语言形式输入的专利文献摘 要 还有由 Mccune和Tong研制的 Rubric系统,是用来检索与 恐怖行为概念有关的文献。 美国通用电器公司人工智能研究室的Ran1987年建立的 SCICOR系统、美国卡内基梅隆大学机器翻译中心1991 年完成的 FER RET系统
(3)应用系统 ◼ CyFr系统。CyFr系统是Schank、Kolodner和DeJong于 1981年根据概念信息检索理论建立的系统,用于处理与 美国前国务卿范斯(Vance)有关的新闻。 ◼ Researcher系统。由Lebowitz于1983年在哥伦比亚大学研 制,用于阅读和理解用自然语言形式输入的专利文献摘 要。 ◼ 还有由McCune和Tong研制的Rubric系统,是用来检索与 恐怖行为概念有关的文献。 ◼ 美国通用电器公司人工智能研究室的Ran 1987年建立的 SCICOR系统、美国卡内基梅隆大学机器翻译中心1991 年完成的FER RET系统