正在加载图片...
基于RSS的企业Web搜索引擎研究与设计 第一章绪论 1.3搜索引擎设计模型 搜索引擎一般由搜索器、索引器、检索器和用户接口等四个部分组成: (1)搜索器(采集器)。搜索器的功能是发现和搜集信息。它常常是一个计算 机程序,需要尽可能多、尽可能快地搜集各种类型的新信息 (2)索引器。索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项, 用于形成文档以及生成文档库的索引表。索引器可以使用集中式索引算法或分布 式索引算法。当数据量很大时,必须实现实时索引,否则不能够跟上信息量急剧 增加的速度。索引算法对索引器的性能(如大规模峰值査询时的响应速度)有很 大的影响。一个搜索引擎的有效性在很大程度上取决于索引的质量。 (3)检索器。检索器的功能是根据用户的査询在索引库中快速检出文档,进 行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关 性反馈机制。 (4)用户接口。用户接口的作用是输入用户查询、显示查询结果、提供用户 相关性反馈机制。主要的目的是方便用户使用搜索引擎,高效率、多方式地从搜 索引擎中得到及时、有效的信息。用户接口的设计和实现使用人机交互的理论和 方法,以充分适应人类的思维习惯 1.4本文的研究内容 1.4.1问题的提出 目前互联网上的公共搜索引擎经过多年的发展,在信息采集、自动标引、分 类、索引技术和检索技术等方面取得了长足的进步,并得到了日益广泛的应用 但公共搜索引擎技术的一些优势在企业应用中常常不起作用,有时甚至变成劣 势。其主要表现在以下几方面 (1)公共搜索引擎普遍采用基于 Robot的自动信息采集技术。虽然这种技术 具有不需要大量人工介入,搜集信息量大,覆盖面较广,搜索结果查全率较高的 优点,但其在企业搜索引擎的应用中的缺点也是显而易见的: ①刷新周期长,实效性差。 Robot主动去查询wb站点的更新信息,而面 对总量超过100亿个的web页面,这种轮询方式不仅会占用搜索引擎的大量资 源,而且工作效率也十分低下,使得信息更新时间少则为几天,多则几个月,导 致一些新信息不能及时被查询。企业级搜索服务,需要将搜索结果用于企业的运 营和决策,这就要求信息能够反应出实时情况,不允许出现象公共引擎那样信息 第4页共47页基于 RSS 的企业 Web 搜索引擎研究与设计 第一章 绪 论 第 4 页 共 47 页 1.3 搜索引擎设计模型 搜索引擎一般由搜索器、索引器、检索器和用户接口等四个部分组成: (1)搜索器(采集器)。搜索器的功能是发现和搜集信息。它常常是一个计算 机程序,需要尽可能多、尽可能快地搜集各种类型的新信息。 (2)索引器。索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项, 用于形成文档以及生成文档库的索引表。索引器可以使用集中式索引算法或分布 式索引算法。当数据量很大时,必须实现实时索引,否则不能够跟上信息量急剧 增加的速度。索引算法对索引器的性能(如大规模峰值查询时的响应速度)有很 大的影响。一个搜索引擎的有效性在很大程度上取决于索引的质量。 (3)检索器。检索器的功能是根据用户的查询在索引库中快速检出文档,进 行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关 性反馈机制。 (4)用户接口。用户接口的作用是输入用户查询、显示查询结果、提供用户 相关性反馈机制。主要的目的是方便用户使用搜索引擎,高效率、多方式地从搜 索引擎中得到及时、有效的信息。用户接口的设计和实现使用人机交互的理论和 方法,以充分适应人类的思维习惯。 1.4 本文的研究内容 1.4.1 问题的提出 目前互联网上的公共搜索引擎经过多年的发展,在信息采集、自动标引、分 类、索引技术和检索技术等方面取得了长足的进步,并得到了日益广泛的应用。 但公共搜索引擎技术的一些优势在企业应用中常常不起作用,有时甚至变成劣 势。其主要表现在以下几方面: (1) 公共搜索引擎普遍采用基于 Robot 的自动信息采集技术。虽然这种技术 具有不需要大量人工介入,搜集信息量大,覆盖面较广,搜索结果查全率较高的 优点,但其在企业搜索引擎的应用中的缺点也是显而易见的: ①刷新周期长,实效性差。Robot 主动去查询 Web 站点的更新信息,而面 对总量超过 100 亿个的 Web 页面,这种轮询方式不仅会占用搜索引擎的大量资 源,而且工作效率也十分低下,使得信息更新时间少则为几天,多则几个月,导 致一些新信息不能及时被查询。企业级搜索服务,需要将搜索结果用于企业的运 营和决策,这就要求信息能够反应出实时情况,不允许出现象公共引擎那样信息
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有