学校代码:10246 学号:033053558 g人孚 硕士学位论文 基于RSS的企业Web搜索引擎研究与设计 系:软件学院 院专姓 业:软件工程 名:何俊 指导教师:戴伟辉 完成日期:2005年10月10日
学校代码: 10246 学 号: 033053558 硕 士 学 位 论 文 基于 RSS 的企业 Web 搜索引擎研究与设计 院 系: 软件学院 专 业: 软件工程 姓 名: 何 俊 指 导 教 师: 戴伟辉 完 成 日 期: 2005 年 10 月 10 日
基于RSS的企业Web搜索引擎研究与设计 目录 录 第一章绪论 1.1选题的意义· 1.2国内外搜索引擎技术发展现状··· 2.1国外技术发展现状 1.2.2国内技术发展现状 1.2.3企业搜索引擎的研究现状··· 1.3搜索引擎设计模型·····················4 1.4本文的研究内容······· 1.4.1问题的提出·············· 1.4.2研究的思路 1.4.3论文的组织·· 第二章RRS技术· 2.1RSS的概念· 2.2RSS版本和技术标准研究··················7 2.2.1RSS版本区别· 2.2.2RSS1.0与RSS0.9x/2.0的比较研究 8 2.2.3技术标准之争· 2.3RSS元素定义及用法····················10 2. 4 Rss feed 2.5RSS技术的国内外发展现状·。··············12 2.6本模型采用RSS的技术原因···············14 第三章数据自动采集设计· 15 3.1 RSS Feed的自动搜集····················15 3.1.1 RSS Feed的自动发现算法············15 3.1.2基于元搜索的 RSS Feed自动搜集········ 3.1.3 RSS Feed的特征分析··········· 3.1.4 RSS Feed自动搜集设计············ 3.2网页纯文本的提取· ·18 3.2.1提取文本·。·。·····。···。··· 3.2.2特殊字符的转换············。··· 3.3RSS信息的解析···· 20 第四章中文分词与索引设计············· 4.1中文自动分词技术·· 22
基于 RSS 的企业 Web 搜索引擎研究与设计 目 录 目 录 第一章 绪 论 ··························· 1 1.1 选题的意义························· 1 1.2 国内外搜索引擎技术发展现状················· 1 1.2.1 国外技术发展现状 ··················· 2 1.2.2 国内技术发展现状 ··················· 2 1.2.3 企业搜索引擎的研究现状················ 2 1.3 搜索引擎设计模型 ····················· 4 1.4 本文的研究内容······················· 4 1.4.1 问题的提出······················ 4 1.4.2 研究的思路······················ 5 1.4.3 论文的组织······················ 6 第二章 RRS 技术·························· 7 2.1 RSS 的概念························· 7 2.2 RSS 版本和技术标准研究 ·················· 7 2.2.1 RSS 版本区别····················· 7 2.2.2 RSS 1.0 与 RSS 0.9x/2.0 的比较研究 ·········· 8 2.2.3 技术标准之争····················· 9 2.3 RSS 元素定义及用法 ····················10 2.4 RSS feed ·························11 2.5 RSS 技术的国内外发展现状··················12 2.6 本模型采用 RSS 的技术原因 ·················14 第三章 数据自动采集设计······················15 3.1 RSS Feed 的自动搜集 ····················15 3.1.1 RSS Feed 的自动发现算法 ···············15 3.1.2 基于元搜索的 RSS Feed 自动搜集 ············16 3.1.3 RSS Feed 的特征分析 ·················16 3.1.4 RSS Feed 自动搜集设计 ················17 3.2 网页纯文本的提取 ·····················18 3.2.1 提取文本·······················18 3.2.2 特殊字符的转换 ····················19 3.3 RSS 信息的解析·······················20 第四章 中文分词与索引设计·····················22 4.1 中文自动分词技术 ·····················22
基于RSS的企业Web搜索引擎研究与设计 目录 4.1.1汉语分词技术研究·· 4.1.2汉语自动分词的难点· ·23 4.1.3自动分词设计·。·············。····24 4.2索引技术························27 4.2.1全文检索技术· 42.2索引项的选择··············· ·28 4.2.3索引的组织结构····················28 4.2.4索引的设计和实现。。··· 第五章数据检索设计························31 5.1检索模型的比较研究 5.1.1布尔逻辑模型·····················31 5.1.2模糊逻辑模型·· 5.1.3向量空间模型·。············· ·32 5.1.4概率检索模型······ 5.2提高检索效率和质量的相关技术。········· 5.2.1相关度排序技术············· 5.2.2用户接口技术········· 5.3数据检索的实现·。················ 333 第六章基于RSS的企业Web搜索引擎的实现·············38 6.1基于RSS的企业Web搜索引擎整体工作流程· 38 6.2系统模块划分······················39 6.3主要数据结构 6.4系统测试·。··· 444 第七章结论与展望· 7.1结论····························44 7.2展望·········。···· 参考文献 谢
基于 RSS 的企业 Web 搜索引擎研究与设计 目 录 4.1.1 汉语分词技术研究···················22 4.1.2 汉语自动分词的难点··················23 4.1.3 自动分词设计 ·····················24 4.2 索引技术··························27 4.2.1 全文检索技术 ·····················28 4.2.2 索引项的选择 ·····················28 4.2.3 索引的组织结构 ····················28 4.2.4 索引的设计和实现···················29 第五章 数据检索设计························31 5.1 检索模型的比较研究 ····················31 5.1.1 布尔逻辑模型·····················31 5.1.2 模糊逻辑模型·····················32 5.1.3 向量空间模型·····················32 5.1.4 概率检索模型·····················33 5.2 提高检索效率和质量的相关技术················34 5.2.1 相关度排序技术 ····················34 5.2.2 用户接口技术 ·····················35 5.3 数据检索的实现·······················36 第六章 基于 RSS 的企业 Web 搜索引擎的实现··············38 6.1 基于 RSS 的企业 Web 搜索引擎整体工作流程···········38 6.2 系统模块划分························39 6.3 主要数据结构························42 6.4 系统测试··························43 第七章 结论与展望·························44 7.1 结论····························44 7.2 展望····························44 参考文献 ·····························46 致谢 ·······························47
基于RSS的企业Web搜索引擎研究与设计 中文摘要 随着互联网上内容的极大丰富,信息本身的价值正在被创造海量信息的网络 本身所消减,搜索引擎成为了越来越多的企业从海量信息中获取情报和知识必不 可少的工具。搜索引擎技术如何转向企业应用亦成为了这一领域研究的热点。 本文分析了企业web搜索引擎应用现有的公共搜索引擎技术时所遭遇到的 问题,从企业搜索服务的实际需求入手,以提高搜索引擎信息采集实效性,降低 部署运行成本为目标,采用基于push模式的RSS的技术进行信息采集,以解决 传统的基于pull模式搜索引擎信息刷新周期长,部署和运行成本高的问题,并 提出了一种基于元搜索的 RSS Feed自动发现技术 本文分析了RSS的技术规范和技术特性,以搜索引擎的各组成部分为主线, 依次对中文分词、数据索引和数据检索部分Web搜索引擎关键技术的工作原理 工作流程、设计方法等进行了详细的探讨,同时结合企业搜索引擎的特点对部分 技术进行重点研究和改进。在此基础上,论文从总体上对基于RSS的企业Web 搜索引擎的设计、实现方法进行了论述,重点涉及模块设计、整体流程和主要数 据结构。 关键词:搜索引擎,RSS,中文分词,信息检索 第1页
基于 RSS 的企业 Web 搜索引擎研究与设计 摘 要 第 1页 中 文 摘 要 随着互联网上内容的极大丰富,信息本身的价值正在被创造海量信息的网络 本身所消减,搜索引擎成为了越来越多的企业从海量信息中获取情报和知识必不 可少的工具。搜索引擎技术如何转向企业应用亦成为了这一领域研究的热点。 本文分析了企业 Web 搜索引擎应用现有的公共搜索引擎技术时所遭遇到的 问题,从企业搜索服务的实际需求入手,以提高搜索引擎信息采集实效性,降低 部署运行成本为目标,采用基于 push 模式的 RSS 的技术进行信息采集,以解决 传统的基于 pull 模式搜索引擎信息刷新周期长,部署和运行成本高的问题,并 提出了一种基于元搜索的 RSS Feed 自动发现技术。 本文分析了 RSS 的技术规范和技术特性,以搜索引擎的各组成部分为主线, 依次对中文分词、数据索引和数据检索部分 Web 搜索引擎关键技术的工作原理、 工作流程、设计方法等进行了详细的探讨,同时结合企业搜索引擎的特点对部分 技术进行重点研究和改进。在此基础上,论文从总体上对基于 RSS 的企业 Web 搜索引擎的设计、实现方法进行了论述,重点涉及模块设计、整体流程和主要数 据结构。 关键词:搜索引擎,RSS,中文分词,信息检索
基于RSS的企业Web搜索引擎研究与设计 ABSTRACT ABSTRACT Along with abundance of the Internet contents, the tremendous amount of information released by Internet conversely reduces the values of nformation itself. Consequently, the search engine has become an rtant tool f nd ises to obta ntelligence and ledge from the sea of information. The search engine techniques how to apply in enterprises also become the hot point of this research realm This paper analyzes the problem employed by the enterprise Web search engine applying the existing public search engine techniques, starts with the actual need of enterprise search service, aimed to improve the effectiveness of search engine nformation collection as well as t reduce the cost of deployment and running. Adopting rss technology based on push mode to solve these problems of typical search engines based on pull mode such as longer refresh period, and higher cost for deployment and running, and presents a new RSS Feed auto-discovery technique based on meta-search This paper analyzed the technical specifications and features of RSS. Furthermore, subsequently studied in detail on the key techniques of Web search engine including the Chinese words segmentation, data indexing and information retrieval, mainly considered at their working mechanisms workflow and realization method, at the meantime, combining the characteristics of the enterprise search engine, researched and advanced partial of techniques During the above mentioned studies, addressed the design and realization methods of the enterprise Web search engine based on RSS heavily concerned on module design, workflow and main data structure. K eywords Search Engine, RSs, Chinese Words Segmentation, Information Retrieval 第2页
基于 RSS 的企业 Web 搜索引擎研究与设计 ABSTRACT 第 2页 ABSTRACT Along with abundance of the Internet contents, the tremendous amount of information released by Internet conversely reduces the values of information itself. Consequently, the search engine has become an extremely important tool for more and more enterprises to obtain intelligence and knowledge from the sea of information. The search engine techniques how to apply in enterprises also become the hot point of this research realm. This paper analyzes the problem employed by the enterprise Web search engine applying the existing public search engine techniques, starts with the actual need of enterprise search service, aimed to improve the effectiveness of search engine's information collection as well as to reduce the cost of deployment and running. Adopting RSS technology based on push mode to solve these problems of typical search engines based on pull mode such as longer refresh period, and higher cost for deployment and running, and presents a new RSS Feed auto-discovery technique based on meta-search. This paper analyzed the technical specifications and features of RSS. Furthermore, subsequently studied in detail on the key techniques of Web search engine including the Chinese words segmentation, data indexing, and information retrieval, mainly considered at their working mechanisms, workflow and realization method, at the meantime, combining the characteristics of the enterprise search engine, researched and advanced partial of techniques. During the above mentioned studies, addressed the design and realization methods of the enterprise Web search engine based on RSS, heavily concerned on module design、workflow and main data structure. Keywords Search Engine, RSS, Chinese Words Segmentation, Information Retrieval
基于RSS的企业Web搜索引擎研究与设计 第一章绪论 第一章绪论 1.1选题的意义 广义的企业搜索引擎( Enterprise Search Engine,简称ESE)中的企业并非 指单纯的企业。因为政府、教育、科研、媒体、医疗、军队、安全等部门都有类 似的应用需求,所以这里的“企业”可以理解为“企业级”,即企业级搜索引擎。 随着网上内容的极大丰富,信息本身的价值正在被创造海量信息的网络本身 所消减,“信息时代”正在被“信息经济时代”所取代。在 Google、百度这样的 公共搜索引擎上寻找信息、产品或服务时,出来的结果有时还是几千或几万个, 仍然是一个范围缩小了的“信息海洋”。在“信息经济时代”,只有解决了信息的 甄别、加工、提纯和挖掘,从海量的信息中发现真正的知识,才能带来价值的提 升。因此,问题的关键不是能否快速、海量地提供和传递信息,而是能否在期望 的时间和地点,以期望的方式和成本,获取所期望的信息。换言之,搜索要真正 有价值,必须削减信息的海量带来的不确定性。 随着互联网的迅猛发展和全面普及,搜索发现商业机会,是企业利用互联网 制胜的秘诀。企业对信息的处理方式也发生了巨大的改变。一方面,互联网上的 信息量不断增长,越来越多的企业所关心的信息正在源源不断的向互联网上转 移。据统计,目前企业所需要的信息90%可以在互联网上收集到凹。另一方面, 随着市场竞争的日益激烈,企业必须对市场环境变化进行快速响应,这也需要及 时掌握市场动态、随时了解竞争对手信息、准确把握行业发展趋势和相关最新政 策。信息价值的凸显以及信息海量化与企业信息需求之间的矛盾,让搜索服务的 重要性与战略性日益显现,因此,搜索引擎技术向企业应用转移,是搜索引擎领 域研究的一大趋势和热点。高效、低成本的企业Web搜索引擎对信息经济时代 提升企业的竞争能力具有重要的意义 1.2国内外搜索引擎技术发展现状 目前,国内外研究开发了一些网络搜索引擎,它们不断采用新技术提高搜索 效率和质量,并得到了人们的认可。比较知名的有国外的 Google, Yahoo Altavista, Infoseek, Lycos等,国内的百度、中搜、一搜、搜狐、网易等 第1页共47页
基于 RSS 的企业 Web 搜索引擎研究与设计 第一章 绪 论 第 1 页 共 47 页 第一章 绪 论 1.1 选题的意义 广义的企业搜索引擎(Enterprise Search Engine,简称 ESE)中的企业并非 指单纯的企业。因为政府、教育、科研、媒体、医疗、军队、安全等部门都有类 似的应用需求,所以这里的“企业”可以理解为“企业级”,即企业级搜索引擎。 随着网上内容的极大丰富,信息本身的价值正在被创造海量信息的网络本身 所消减,“信息时代”正在被“信息经济时代”所取代。在 Google、百度这样的 公共搜索引擎上寻找信息、产品或服务时,出来的结果有时还是几千或几万个, 仍然是一个范围缩小了的“信息海洋”。在“信息经济时代”,只有解决了信息的 甄别、加工、提纯和挖掘,从海量的信息中发现真正的知识,才能带来价值的提 升。因此,问题的关键不是能否快速、海量地提供和传递信息,而是能否在期望 的时间和地点,以期望的方式和成本,获取所期望的信息。换言之,搜索要真正 有价值,必须削减信息的海量带来的不确定性。 随着互联网的迅猛发展和全面普及,搜索发现商业机会,是企业利用互联网 制胜的秘诀。企业对信息的处理方式也发生了巨大的改变。一方面,互联网上的 信息量不断增长,越来越多的企业所关心的信息正在源源不断的向互联网上转 移。据统计,目前企业所需要的信息 90%可以在互联网上收集到[1]。另一方面, 随着市场竞争的日益激烈,企业必须对市场环境变化进行快速响应,这也需要及 时掌握市场动态、随时了解竞争对手信息、准确把握行业发展趋势和相关最新政 策。信息价值的凸显以及信息海量化与企业信息需求之间的矛盾,让搜索服务的 重要性与战略性日益显现,因此,搜索引擎技术向企业应用转移,是搜索引擎领 域研究的一大趋势和热点。高效、低成本的企业 Web 搜索引擎对信息经济时代 提升企业的竞争能力具有重要的意义。 1.2 国内外搜索引擎技术发展现状 目前,国内外研究开发了一些网络搜索引擎,它们不断采用新技术提高搜索 效率和质量,并得到了人们的认可。比较知名的有国外的 Google,Yahoo, AltaVista,Infoseek,Lycos 等,国内的百度、中搜、一搜、搜狐、网易等
基于RSS的企业Web搜索引擎研究与设计 第一章绪论 1.2.1国外技术发展现状 在国外,搜索引擎已有比较成熟的实用产品,并应用于许多著名的Web站点, 如 Altavista, Infoseek, Excite, Yahoo等。国外搜索引擎的主要特点包括 (1)在搜索引擎上同时支持目录导航和页面全文检索; (2) Robot向智能化和自动化方向发展,无需人工干预,有选择地收集有用 信息,自动分类,周期性自动更新: (3)支持海量数据管理,提供快速检索; (4)提供查询的自然语言接口; (5)对检索结果提供相关性排序输出,并可对检索结果优化处理; (6)支持相似性检索。 目前,国外搜索引擎还需要在自然语言接口、相关排序、结果优化等方面不 断完善。 1.2.2国内技术发展现状 目前国内的中文搜索引擎与国外优秀的中文搜索引擎还有一定的差距,但在 些相关领域已经有了很大的发展。例如:中文自动分词技术、中文自动分类技 术、中文信息过滤技术、简体/繁体自动转换技术 中文搜索引擎绝不仅仅是国外搜索引擎的汉化,因为搜索引擎是一个具有语 言文化背景的领域,中文搜索引擎需要人文特色,而不是“汉字搜索引擎”。虽 然Yaho推出了中文搜索引擎, Altavista也具有对汉字的搜索支持,但它们在 中文搜索引擎中的地位却不能与在西文搜索引擎中的地位相提并论。目前国内比 较有特色的中文搜索引擎都具备了以下功能: (1)同时提供目录导航和页面全文搜索; (2)提供简繁体(GB-2312/BIG-5)的自动跟踪转换功能,使用户在一种汉字 环境中可以浏览简体和繁体页面 (3)提供中文按词的全文检索,提高查准率。 建立一个优秀的中文搜索引擎是一项庞大复杂的工程,在技术和设备上的投 入都比较高。中文搜索引擎在査询速度、查全率和查准率上还需要进一步改进 1.2.3企业搜索引擎的研究现状 企业级搜索市场成为继互联网搜索经济之后的又一大热点: Google、百度、 第2页共47页
基于 RSS 的企业 Web 搜索引擎研究与设计 第一章 绪 论 第 2 页 共 47 页 1.2.1 国外技术发展现状 在国外,搜索引擎已有比较成熟的实用产品,并应用于许多著名的 Web 站点, 如 Altavista,Infoseek,Excite,Yahoo 等。国外搜索引擎的主要特点包括: (1)在搜索引擎上同时支持目录导航和页面全文检索; (2)Robot 向智能化和自动化方向发展,无需人工干预,有选择地收集有用 信息,自动分类,周期性自动更新: (3)支持海量数据管理,提供快速检索; (4)提供查询的自然语言接口; (5)对检索结果提供相关性排序输出,并可对检索结果优化处理; (6)支持相似性检索。 目前,国外搜索引擎还需要在自然语言接口、相关排序、结果优化等方面不 断完善。 1.2.2 国内技术发展现状 目前国内的中文搜索引擎与国外优秀的中文搜索引擎还有一定的差距,但在 一些相关领域已经有了很大的发展。例如:中文自动分词技术、中文自动分类技 术、中文信息过滤技术、简体/繁体自动转换技术。 中文搜索引擎绝不仅仅是国外搜索引擎的汉化,因为搜索引擎是一个具有语 言文化背景的领域,中文搜索引擎需要人文特色,而不是“汉字搜索引擎”。虽 然 Yahoo 推出了中文搜索引擎,Altavista 也具有对汉字的搜索支持,但它们在 中文搜索引擎中的地位却不能与在西文搜索引擎中的地位相提并论。目前国内比 较有特色的中文搜索引擎都具备了以下功能: (1) 同时提供目录导航和页面全文搜索; (2) 提供简繁体(GB-2312/BIG-5)的自动跟踪转换功能,使用户在一种汉字 环境中可以浏览简体和繁体页面; (3) 提供中文按词的全文检索,提高查准率。 建立一个优秀的中文搜索引擎是一项庞大复杂的工程,在技术和设备上的投 入都比较高。中文搜索引擎在查询速度、查全率和查准率上还需要进一步改进。 1.2.3 企业搜索引擎的研究现状 企业级搜索市场成为继互联网搜索经济之后的又一大热点:Google、百度
基于RSS的企业Web搜索引擎研究与设计 第一章绪论 Yahoo等传统互联网搜索引擎厂商纷纷转向企业搜索引擎市场;IBM、 Oracle、 微软等IT厂商也在向企业搜索市场渗透。企业搜索引擎按搜索的范围可以分为 对企业外部信息的搜索和对企业内部信息搜索两种类型。目前,商用的企业搜索 引擎大多都支持对企业内外部信息的搜索。技术的走向来看,企业搜索引擎基本 上可以分成三种流派: 是数据库厂商在自身的关系型数据库中增强检索服务能力。例如,IBM刚 刚推出的 Web Sphere Information Integrator Omni Find Version8.2是一个包含了 可提供各种技术的信息集成中间件,通过企业搜索、联邦、转型、数据布置(包 括复制与缓存)和数据事件发布等技术的综合利用,使企业能够实时、综合地访 问企业内和企业外的结构化与非结构化、大型机与分布式、公开与保密的商业信 息 二是从事传统的内容管理厂商,针对企业搜索引擎服务,提出了企业搜索平 台( Enterprise Search Platfor,简称ESP)的提法。这一“技术流派”的支持者 以国内的TRS为代表,还有国外的 Autonomy以及 Verity等公司。TRS公司推 出的企业搜索引擎解决方案,利用TRS自主开发的 Database server作为企业搜 索引擎服务的平台,辅助以各种数据索引工具,再配套以数据内容分发服务模块, 构建成一个完整的、能够索引企业内部全面的信息内容,提供安全的分级授权企 业搜索引擎服务。而 Autonomy推出的新型搜索工具 Blinkx,可以提供类似“模 糊搜索”或“语义搜索”的功能。该系统经过“学习”积累了一定“经验”后, 可以满足用户类似“最便宜的笔记本电脑是什么”这样的搜索需求。另外, Blinkx 不仅可以搜索文本内容,还可以搜索电影电视等多媒体内容,不仅可以搜索互联 网内容,还可以搜索本机和局域网上的内容。 Blinkx同时还可以搜索不同的文本 格式内容,如Text、Word、 Excel、PPT、PDF以及各种数据库中的数据格式。 另外一类就是由传统的互联网厂商如 Google、百度等将互联网搜索引擎技术 延续到企业搜索引擎市场中。例如,百度企业软件是以实时大规模信息检索技术 和语言处理技术为核心,专门针对企业和政府对信息管理与检索的需求,推出了 网事通产品系列、企业竞争情报产品系列、数据库检索系统构成的三大产品系列, 并已经为国内几百家企业和政府提供了解决方案。 Google公司推出了面向中小 企业的 Google mini,能够索引10万个文档或独立的URL地址。 本文主要讨论针对企业外部Web信息的搜索引擎,从技术流派的角度而言, 属于第三种流派。这里需要指出的是,目前在这一技术流派中大多都采用基于 pull模式的 Robot方式进行信息的搜集。 第3页共47页
基于 RSS 的企业 Web 搜索引擎研究与设计 第一章 绪 论 第 3 页 共 47 页 Yahoo 等传统互联网搜索引擎厂商纷纷转向企业搜索引擎市场;IBM、Oracle、 微软等 IT 厂商也在向企业搜索市场渗透。企业搜索引擎按搜索的范围可以分为 对企业外部信息的搜索和对企业内部信息搜索两种类型。目前,商用的企业搜索 引擎大多都支持对企业内外部信息的搜索。技术的走向来看,企业搜索引擎基本 上可以分成三种流派: 一是数据库厂商在自身的关系型数据库中增强检索服务能力。例如,IBM 刚 刚推出的 Web Sphere Information Integrator Omni Find Version 8.2 是一个包含了 可提供各种技术的信息集成中间件,通过企业搜索、联邦、转型、数据布置(包 括复制与缓存)和数据事件发布等技术的综合利用,使企业能够实时、综合地访 问企业内和企业外的结构化与非结构化、大型机与分布式、公开与保密的商业信 息。 二是从事传统的内容管理厂商,针对企业搜索引擎服务,提出了企业搜索平 台(Enterprise Search Platform,简称 ESP)的提法。这一“技术流派”的支持者 以国内的 TRS 为代表,还有国外的 Autonomy 以及 Verity 等公司。TRS 公司推 出的企业搜索引擎解决方案,利用 TRS 自主开发的 Database Server 作为企业搜 索引擎服务的平台,辅助以各种数据索引工具,再配套以数据内容分发服务模块, 构建成一个完整的、能够索引企业内部全面的信息内容,提供安全的分级授权企 业搜索引擎服务。而 Autonomy 推出的新型搜索工具 Blinkx,可以提供类似“模 糊搜索”或“语义搜索”的功能。该系统经过“学习”积累了一定“经验”后, 可以满足用户类似“最便宜的笔记本电脑是什么”这样的搜索需求。另外,Blinkx 不仅可以搜索文本内容,还可以搜索电影电视等多媒体内容,不仅可以搜索互联 网内容,还可以搜索本机和局域网上的内容。Blinkx 同时还可以搜索不同的文本 格式内容,如 Text、Word、Excel、PPT、PDF 以及各种数据库中的数据格式。 另外一类就是由传统的互联网厂商如 Google、百度等将互联网搜索引擎技术 延续到企业搜索引擎市场中。例如,百度企业软件是以实时大规模信息检索技术 和语言处理技术为核心,专门针对企业和政府对信息管理与检索的需求,推出了 网事通产品系列、企业竞争情报产品系列、数据库检索系统构成的三大产品系列, 并已经为国内几百家企业和政府提供了解决方案。Google 公司推出了面向中小 企业的 Google Mini,能够索引 10 万个文档或独立的 URL 地址。 本文主要讨论针对企业外部 Web 信息的搜索引擎,从技术流派的角度而言, 属于第三种流派。这里需要指出的是,目前在这一技术流派中大多都采用基于 pull 模式的 Robot 方式进行信息的搜集
基于RSS的企业Web搜索引擎研究与设计 第一章绪论 1.3搜索引擎设计模型 搜索引擎一般由搜索器、索引器、检索器和用户接口等四个部分组成: (1)搜索器(采集器)。搜索器的功能是发现和搜集信息。它常常是一个计算 机程序,需要尽可能多、尽可能快地搜集各种类型的新信息 (2)索引器。索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项, 用于形成文档以及生成文档库的索引表。索引器可以使用集中式索引算法或分布 式索引算法。当数据量很大时,必须实现实时索引,否则不能够跟上信息量急剧 增加的速度。索引算法对索引器的性能(如大规模峰值査询时的响应速度)有很 大的影响。一个搜索引擎的有效性在很大程度上取决于索引的质量。 (3)检索器。检索器的功能是根据用户的査询在索引库中快速检出文档,进 行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关 性反馈机制。 (4)用户接口。用户接口的作用是输入用户查询、显示查询结果、提供用户 相关性反馈机制。主要的目的是方便用户使用搜索引擎,高效率、多方式地从搜 索引擎中得到及时、有效的信息。用户接口的设计和实现使用人机交互的理论和 方法,以充分适应人类的思维习惯 1.4本文的研究内容 1.4.1问题的提出 目前互联网上的公共搜索引擎经过多年的发展,在信息采集、自动标引、分 类、索引技术和检索技术等方面取得了长足的进步,并得到了日益广泛的应用 但公共搜索引擎技术的一些优势在企业应用中常常不起作用,有时甚至变成劣 势。其主要表现在以下几方面 (1)公共搜索引擎普遍采用基于 Robot的自动信息采集技术。虽然这种技术 具有不需要大量人工介入,搜集信息量大,覆盖面较广,搜索结果查全率较高的 优点,但其在企业搜索引擎的应用中的缺点也是显而易见的: ①刷新周期长,实效性差。 Robot主动去查询wb站点的更新信息,而面 对总量超过100亿个的web页面,这种轮询方式不仅会占用搜索引擎的大量资 源,而且工作效率也十分低下,使得信息更新时间少则为几天,多则几个月,导 致一些新信息不能及时被查询。企业级搜索服务,需要将搜索结果用于企业的运 营和决策,这就要求信息能够反应出实时情况,不允许出现象公共引擎那样信息 第4页共47页
基于 RSS 的企业 Web 搜索引擎研究与设计 第一章 绪 论 第 4 页 共 47 页 1.3 搜索引擎设计模型 搜索引擎一般由搜索器、索引器、检索器和用户接口等四个部分组成: (1)搜索器(采集器)。搜索器的功能是发现和搜集信息。它常常是一个计算 机程序,需要尽可能多、尽可能快地搜集各种类型的新信息。 (2)索引器。索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项, 用于形成文档以及生成文档库的索引表。索引器可以使用集中式索引算法或分布 式索引算法。当数据量很大时,必须实现实时索引,否则不能够跟上信息量急剧 增加的速度。索引算法对索引器的性能(如大规模峰值查询时的响应速度)有很 大的影响。一个搜索引擎的有效性在很大程度上取决于索引的质量。 (3)检索器。检索器的功能是根据用户的查询在索引库中快速检出文档,进 行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关 性反馈机制。 (4)用户接口。用户接口的作用是输入用户查询、显示查询结果、提供用户 相关性反馈机制。主要的目的是方便用户使用搜索引擎,高效率、多方式地从搜 索引擎中得到及时、有效的信息。用户接口的设计和实现使用人机交互的理论和 方法,以充分适应人类的思维习惯。 1.4 本文的研究内容 1.4.1 问题的提出 目前互联网上的公共搜索引擎经过多年的发展,在信息采集、自动标引、分 类、索引技术和检索技术等方面取得了长足的进步,并得到了日益广泛的应用。 但公共搜索引擎技术的一些优势在企业应用中常常不起作用,有时甚至变成劣 势。其主要表现在以下几方面: (1) 公共搜索引擎普遍采用基于 Robot 的自动信息采集技术。虽然这种技术 具有不需要大量人工介入,搜集信息量大,覆盖面较广,搜索结果查全率较高的 优点,但其在企业搜索引擎的应用中的缺点也是显而易见的: ①刷新周期长,实效性差。Robot 主动去查询 Web 站点的更新信息,而面 对总量超过 100 亿个的 Web 页面,这种轮询方式不仅会占用搜索引擎的大量资 源,而且工作效率也十分低下,使得信息更新时间少则为几天,多则几个月,导 致一些新信息不能及时被查询。企业级搜索服务,需要将搜索结果用于企业的运 营和决策,这就要求信息能够反应出实时情况,不允许出现象公共引擎那样信息
基于RSS的企业Web搜索引擎研究与设计 第一章绪论 滞后更新的现象。 ②实施成本高。为了提高信息更新速度,基于 Robot的公共搜索引擎在设 计时大多采用多线程技术和分布式系统架构,这不仅需要较宽的网络带宽,还需 要多台高性能的服务器协同工作。这样高额的部署实施成本和运行成本对大多数 企业来说是不合适。 (2)企业检索信息是基于内容的相关性排序的。一些公共搜索引擎所谓的链 接分析专利技术以及内容聚类对查询结果的排序基本不起作用。链接分析是以 个网页被链接次数的多少作为重要性依据的,而一个网站内部网页的链接是由网 站内容采编发布系统决定的,其链接次数完全是由偶然因素决定。对企业而言, 这并不能作为判别重要性的依据。企业级搜索服务,搜索结果将直接参与到企业 的运营、决策中,所以对搜索结果的处理需要采用相关度分析技术,使相关度较 高的结果排在搜索结果列表的前面,相关度较低的结果排在后面,并屏蔽无用和 错误的信息,这有利于企业对信息资源的高效利用。 (3)企业应用中要求搜索结果是稳定的,但公共搜索引擎常常做不到这一点 在许多公共搜索引擎应用中,为了在大规模网页下提髙检索速度所采用的检索策 略、技巧以及索引方法常常导致检索结果的不稳定和不可理解,使检索结果重现 性差 (4)公共搜索引擎的索引和服务是分开的,这就不能适应企业应用中数据的 动态性增长和修改 (5)公共搜索引擎都基于文件系统,但企业应用中一般要求信息安全和集中 地存放在数据仓库中。公共搜索引擎注重的只是搜索的结果,而企业搜索的结果 并不是最重要的,在搜索后对数据的挖掘、聚类、提取、应用、管理等工作更加 重要,需要对收集到的信息建立数据库进行管理 1.4.2研究的思路 企业搜索引擎与公共搜索引擎的核心技术基本相同,但企业搜索并不是简单 的将公共搜索技术应用于企业。企业搜索对相关核心技术的要求更高,如要求信 息刷新速率更快,部署实施成本和运行成本更低,能够定向定量采集,以信息内 容为核心的相关度排序方式等。 基于 Robot的信息采集方式是采用传统的请求/应答的P山l模式,即由搜索 引擎主动发出请求,web服务器响应请求后再发送数据。 Robot再根据网页上的 链接采用图的遍历算法实现对互联网的搜索。虽然采用Pul技术可以使信息采 集更具有针对性和可控性,但这也是造成信息采集迟滞和部署运行成本髙的主要 第5页共47页
基于 RSS 的企业 Web 搜索引擎研究与设计 第一章 绪 论 第 5 页 共 47 页 滞后更新的现象。 ②实施成本高。为了提高信息更新速度,基于 Robot 的公共搜索引擎在设 计时大多采用多线程技术和分布式系统架构,这不仅需要较宽的网络带宽,还需 要多台高性能的服务器协同工作。这样高额的部署实施成本和运行成本对大多数 企业来说是不合适。 (2) 企业检索信息是基于内容的相关性排序的。一些公共搜索引擎所谓的链 接分析专利技术以及内容聚类对查询结果的排序基本不起作用。链接分析是以一 个网页被链接次数的多少作为重要性依据的,而一个网站内部网页的链接是由网 站内容采编发布系统决定的,其链接次数完全是由偶然因素决定。对企业而言, 这并不能作为判别重要性的依据。企业级搜索服务,搜索结果将直接参与到企业 的运营、决策中,所以对搜索结果的处理需要采用相关度分析技术,使相关度较 高的结果排在搜索结果列表的前面,相关度较低的结果排在后面,并屏蔽无用和 错误的信息,这有利于企业对信息资源的高效利用。 (3) 企业应用中要求搜索结果是稳定的,但公共搜索引擎常常做不到这一点。 在许多公共搜索引擎应用中,为了在大规模网页下提高检索速度所采用的检索策 略、技巧以及索引方法常常导致检索结果的不稳定和不可理解,使检索结果重现 性差。 (4) 公共搜索引擎的索引和服务是分开的,这就不能适应企业应用中数据的 动态性增长和修改。 (5) 公共搜索引擎都基于文件系统,但企业应用中一般要求信息安全和集中 地存放在数据仓库中。公共搜索引擎注重的只是搜索的结果,而企业搜索的结果 并不是最重要的,在搜索后对数据的挖掘、聚类、提取、应用、管理等工作更加 重要,需要对收集到的信息建立数据库进行管理。 1.4.2 研究的思路 企业搜索引擎与公共搜索引擎的核心技术基本相同,但企业搜索并不是简单 的将公共搜索技术应用于企业。企业搜索对相关核心技术的要求更高,如要求信 息刷新速率更快,部署实施成本和运行成本更低,能够定向定量采集,以信息内 容为核心的相关度排序方式等。 基于 Robot 的信息采集方式是采用传统的请求/应答的 Pull 模式,即由搜索 引擎主动发出请求,Web 服务器响应请求后再发送数据。Robot 再根据网页上的 链接采用图的遍历算法实现对互联网的搜索。虽然采用 Pull 技术可以使信息采 集更具有针对性和可控性,但这也是造成信息采集迟滞和部署运行成本高的主要