正在加载图片...
基于RSS的企业Web搜索引擎研究与设计 第一章绪论 Yahoo等传统互联网搜索引擎厂商纷纷转向企业搜索引擎市场;IBM、 Oracle、 微软等IT厂商也在向企业搜索市场渗透。企业搜索引擎按搜索的范围可以分为 对企业外部信息的搜索和对企业内部信息搜索两种类型。目前,商用的企业搜索 引擎大多都支持对企业内外部信息的搜索。技术的走向来看,企业搜索引擎基本 上可以分成三种流派: 是数据库厂商在自身的关系型数据库中增强检索服务能力。例如,IBM刚 刚推出的 Web Sphere Information Integrator Omni Find Version8.2是一个包含了 可提供各种技术的信息集成中间件,通过企业搜索、联邦、转型、数据布置(包 括复制与缓存)和数据事件发布等技术的综合利用,使企业能够实时、综合地访 问企业内和企业外的结构化与非结构化、大型机与分布式、公开与保密的商业信 息 二是从事传统的内容管理厂商,针对企业搜索引擎服务,提出了企业搜索平 台( Enterprise Search Platfor,简称ESP)的提法。这一“技术流派”的支持者 以国内的TRS为代表,还有国外的 Autonomy以及 Verity等公司。TRS公司推 出的企业搜索引擎解决方案,利用TRS自主开发的 Database server作为企业搜 索引擎服务的平台,辅助以各种数据索引工具,再配套以数据内容分发服务模块, 构建成一个完整的、能够索引企业内部全面的信息内容,提供安全的分级授权企 业搜索引擎服务。而 Autonomy推出的新型搜索工具 Blinkx,可以提供类似“模 糊搜索”或“语义搜索”的功能。该系统经过“学习”积累了一定“经验”后, 可以满足用户类似“最便宜的笔记本电脑是什么”这样的搜索需求。另外, Blinkx 不仅可以搜索文本内容,还可以搜索电影电视等多媒体内容,不仅可以搜索互联 网内容,还可以搜索本机和局域网上的内容。 Blinkx同时还可以搜索不同的文本 格式内容,如Text、Word、 Excel、PPT、PDF以及各种数据库中的数据格式。 另外一类就是由传统的互联网厂商如 Google、百度等将互联网搜索引擎技术 延续到企业搜索引擎市场中。例如,百度企业软件是以实时大规模信息检索技术 和语言处理技术为核心,专门针对企业和政府对信息管理与检索的需求,推出了 网事通产品系列、企业竞争情报产品系列、数据库检索系统构成的三大产品系列, 并已经为国内几百家企业和政府提供了解决方案。 Google公司推出了面向中小 企业的 Google mini,能够索引10万个文档或独立的URL地址。 本文主要讨论针对企业外部Web信息的搜索引擎,从技术流派的角度而言, 属于第三种流派。这里需要指出的是,目前在这一技术流派中大多都采用基于 pull模式的 Robot方式进行信息的搜集。 第3页共47页基于 RSS 的企业 Web 搜索引擎研究与设计 第一章 绪 论 第 3 页 共 47 页 Yahoo 等传统互联网搜索引擎厂商纷纷转向企业搜索引擎市场;IBM、Oracle、 微软等 IT 厂商也在向企业搜索市场渗透。企业搜索引擎按搜索的范围可以分为 对企业外部信息的搜索和对企业内部信息搜索两种类型。目前,商用的企业搜索 引擎大多都支持对企业内外部信息的搜索。技术的走向来看,企业搜索引擎基本 上可以分成三种流派: 一是数据库厂商在自身的关系型数据库中增强检索服务能力。例如,IBM 刚 刚推出的 Web Sphere Information Integrator Omni Find Version 8.2 是一个包含了 可提供各种技术的信息集成中间件,通过企业搜索、联邦、转型、数据布置(包 括复制与缓存)和数据事件发布等技术的综合利用,使企业能够实时、综合地访 问企业内和企业外的结构化与非结构化、大型机与分布式、公开与保密的商业信 息。 二是从事传统的内容管理厂商,针对企业搜索引擎服务,提出了企业搜索平 台(Enterprise Search Platform,简称 ESP)的提法。这一“技术流派”的支持者 以国内的 TRS 为代表,还有国外的 Autonomy 以及 Verity 等公司。TRS 公司推 出的企业搜索引擎解决方案,利用 TRS 自主开发的 Database Server 作为企业搜 索引擎服务的平台,辅助以各种数据索引工具,再配套以数据内容分发服务模块, 构建成一个完整的、能够索引企业内部全面的信息内容,提供安全的分级授权企 业搜索引擎服务。而 Autonomy 推出的新型搜索工具 Blinkx,可以提供类似“模 糊搜索”或“语义搜索”的功能。该系统经过“学习”积累了一定“经验”后, 可以满足用户类似“最便宜的笔记本电脑是什么”这样的搜索需求。另外,Blinkx 不仅可以搜索文本内容,还可以搜索电影电视等多媒体内容,不仅可以搜索互联 网内容,还可以搜索本机和局域网上的内容。Blinkx 同时还可以搜索不同的文本 格式内容,如 Text、Word、Excel、PPT、PDF 以及各种数据库中的数据格式。 另外一类就是由传统的互联网厂商如 Google、百度等将互联网搜索引擎技术 延续到企业搜索引擎市场中。例如,百度企业软件是以实时大规模信息检索技术 和语言处理技术为核心,专门针对企业和政府对信息管理与检索的需求,推出了 网事通产品系列、企业竞争情报产品系列、数据库检索系统构成的三大产品系列, 并已经为国内几百家企业和政府提供了解决方案。Google 公司推出了面向中小 企业的 Google Mini,能够索引 10 万个文档或独立的 URL 地址。 本文主要讨论针对企业外部 Web 信息的搜索引擎,从技术流派的角度而言, 属于第三种流派。这里需要指出的是,目前在这一技术流派中大多都采用基于 pull 模式的 Robot 方式进行信息的搜集
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有