正在加载图片...
基于RSS的企业Web搜索引擎研究与设计 第一章绪论 滞后更新的现象。 ②实施成本高。为了提高信息更新速度,基于 Robot的公共搜索引擎在设 计时大多采用多线程技术和分布式系统架构,这不仅需要较宽的网络带宽,还需 要多台高性能的服务器协同工作。这样高额的部署实施成本和运行成本对大多数 企业来说是不合适。 (2)企业检索信息是基于内容的相关性排序的。一些公共搜索引擎所谓的链 接分析专利技术以及内容聚类对查询结果的排序基本不起作用。链接分析是以 个网页被链接次数的多少作为重要性依据的,而一个网站内部网页的链接是由网 站内容采编发布系统决定的,其链接次数完全是由偶然因素决定。对企业而言, 这并不能作为判别重要性的依据。企业级搜索服务,搜索结果将直接参与到企业 的运营、决策中,所以对搜索结果的处理需要采用相关度分析技术,使相关度较 高的结果排在搜索结果列表的前面,相关度较低的结果排在后面,并屏蔽无用和 错误的信息,这有利于企业对信息资源的高效利用。 (3)企业应用中要求搜索结果是稳定的,但公共搜索引擎常常做不到这一点 在许多公共搜索引擎应用中,为了在大规模网页下提髙检索速度所采用的检索策 略、技巧以及索引方法常常导致检索结果的不稳定和不可理解,使检索结果重现 性差 (4)公共搜索引擎的索引和服务是分开的,这就不能适应企业应用中数据的 动态性增长和修改 (5)公共搜索引擎都基于文件系统,但企业应用中一般要求信息安全和集中 地存放在数据仓库中。公共搜索引擎注重的只是搜索的结果,而企业搜索的结果 并不是最重要的,在搜索后对数据的挖掘、聚类、提取、应用、管理等工作更加 重要,需要对收集到的信息建立数据库进行管理 1.4.2研究的思路 企业搜索引擎与公共搜索引擎的核心技术基本相同,但企业搜索并不是简单 的将公共搜索技术应用于企业。企业搜索对相关核心技术的要求更高,如要求信 息刷新速率更快,部署实施成本和运行成本更低,能够定向定量采集,以信息内 容为核心的相关度排序方式等。 基于 Robot的信息采集方式是采用传统的请求/应答的P山l模式,即由搜索 引擎主动发出请求,web服务器响应请求后再发送数据。 Robot再根据网页上的 链接采用图的遍历算法实现对互联网的搜索。虽然采用Pul技术可以使信息采 集更具有针对性和可控性,但这也是造成信息采集迟滞和部署运行成本髙的主要 第5页共47页基于 RSS 的企业 Web 搜索引擎研究与设计 第一章 绪 论 第 5 页 共 47 页 滞后更新的现象。 ②实施成本高。为了提高信息更新速度,基于 Robot 的公共搜索引擎在设 计时大多采用多线程技术和分布式系统架构,这不仅需要较宽的网络带宽,还需 要多台高性能的服务器协同工作。这样高额的部署实施成本和运行成本对大多数 企业来说是不合适。 (2) 企业检索信息是基于内容的相关性排序的。一些公共搜索引擎所谓的链 接分析专利技术以及内容聚类对查询结果的排序基本不起作用。链接分析是以一 个网页被链接次数的多少作为重要性依据的,而一个网站内部网页的链接是由网 站内容采编发布系统决定的,其链接次数完全是由偶然因素决定。对企业而言, 这并不能作为判别重要性的依据。企业级搜索服务,搜索结果将直接参与到企业 的运营、决策中,所以对搜索结果的处理需要采用相关度分析技术,使相关度较 高的结果排在搜索结果列表的前面,相关度较低的结果排在后面,并屏蔽无用和 错误的信息,这有利于企业对信息资源的高效利用。 (3) 企业应用中要求搜索结果是稳定的,但公共搜索引擎常常做不到这一点。 在许多公共搜索引擎应用中,为了在大规模网页下提高检索速度所采用的检索策 略、技巧以及索引方法常常导致检索结果的不稳定和不可理解,使检索结果重现 性差。 (4) 公共搜索引擎的索引和服务是分开的,这就不能适应企业应用中数据的 动态性增长和修改。 (5) 公共搜索引擎都基于文件系统,但企业应用中一般要求信息安全和集中 地存放在数据仓库中。公共搜索引擎注重的只是搜索的结果,而企业搜索的结果 并不是最重要的,在搜索后对数据的挖掘、聚类、提取、应用、管理等工作更加 重要,需要对收集到的信息建立数据库进行管理。 1.4.2 研究的思路 企业搜索引擎与公共搜索引擎的核心技术基本相同,但企业搜索并不是简单 的将公共搜索技术应用于企业。企业搜索对相关核心技术的要求更高,如要求信 息刷新速率更快,部署实施成本和运行成本更低,能够定向定量采集,以信息内 容为核心的相关度排序方式等。 基于 Robot 的信息采集方式是采用传统的请求/应答的 Pull 模式,即由搜索 引擎主动发出请求,Web 服务器响应请求后再发送数据。Robot 再根据网页上的 链接采用图的遍历算法实现对互联网的搜索。虽然采用 Pull 技术可以使信息采 集更具有针对性和可控性,但这也是造成信息采集迟滞和部署运行成本高的主要
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有