
搜索引擎概述及技术基础 主讲:郭春燕
搜索引擎概述及技术基础 主讲:郭春燕

学习内容及学习目标 网络新闻采访的基本方法 学习内容 搜索引擎概述 搜索技术基础 搜索策略及技巧 学习目标 理解:搜索引擎的组成、工作原理、性能指标以及技术基础 了解:搜索引擎的发展历史、类别以及发展趋势。 主讲:郭春燕
学习内容及学习目标 网络新闻采访的基本方法 主讲:郭春燕 搜索引擎概述 搜索技术基础 搜索策略及技巧 理解:搜索引擎的组成、工作原理、性能指标以及技术基础 了解:搜索引擎的发展历史、类别以及发展趋势。 学习内容 学习目标

搜索引擎概述及技术基础 搜索引擎概述 搜索技术基础 主讲:郭春燕
主讲:郭春燕 搜索引擎概述 搜索技术基础 搜索引擎概述及技术基础

搜索引擎概述 伴随着互联网和超文本链接的应用,现代意义上的搜索引擎应运而生。 搜索引擎的出现,使人们能够便利地从互联网上获取自己需要的内容。目前, 搜索引擎已经成了互联网信息检索的主要工具,被称为“网络之门”。 搜索引擎从一个默默无闻的网络工具在0多年内迅速窜升成为互联网上 仅次于电子邮件的第二大应用,直接诱因是互联网内容的爆炸式增长。时至 今日,搜索引擎依然跟不上互联网信息资源的增长速度,它依然是学术界、 工业界争相研究、开发的对象。 主讲:郭春燕
主讲:郭春燕 搜索引擎概述 伴随着互联网和超文本链接的应用,现代意义上的搜索引擎应运而生。 搜索引擎的出现,使人们能够便利地从互联网上获取自己需要的内容。目前, 搜索引擎已经成了互联网信息检索的主要工具,被称为“网络之门”。 搜索引擎从一个默默无闻的网络工具在10多年内迅速窜升成为互联网上 仅次于电子邮件的第二大应用,直接诱因是互联网内容的爆炸式增长。时至 今日,搜索引擎依然跟不上互联网信息资源的增长速度,它依然是学术界、 工业界争相研究、开发的对象

搜索引擎的发展历史 搜索引擎概述 搜索引擎的出现 搜索引擎追根溯源可以到最早的信息检索。 信息检索(Information Retrieval)最早是由美国学者在1949年提出,主要 以印刷文献为检索对象进行手工检索。随着1946年世界上第一台计算机的问世 计算机化的信息检索逐渐取代了手工检索的主流地位。上个世纪70年代,联机 信息检索得到商业化应用而日渐流行,从此信息检索用户开始由专业人员向个 人用户转移。 现代意义上的搜索引擎是在1989年Vorld Wide Web协议和超文本链接出 现后产生的。1991年,N1S提供了一个界面友好的信息搜索系统,但是这个 系统要求很特殊的文件格式。同年出现了另外一个美国明尼苏达大学信息检索 系统Gopher,成为当时最为流行的检索工具。1993年,美国国家超级计算应用 中心NCSA推出第一个基于HTML语言图形化的浏览器Mosaic,.借此普通的用户 可以轻松地使用互联网。 此后,搜索引擎有了非常大的发展。按照网页库的容量、相关度计算技术、 用户搜索体验以及商业模式等方面来划分,到目前为止,搜索引擎技术的发展 大约经历了两代。 主讲:郭春兼
Company Logo www.themegallery.com 主讲:郭春燕 搜索引擎追根溯源可以到最早的信息检索。 信息检索(Information Retrieval)最早是由美国学者在1949年提出,主要 以印刷文献为检索对象进行手工检索。随着1946年世界上第一台计算机的问世, 计算机化的信息检索逐渐取代了手工检索的主流地位。上个世纪70年代,联机 信息检索得到商业化应用而日渐流行,从此信息检索用户开始由专业人员向个 人用户转移。 现代意义上的搜索引擎是在1989年World Wide Web协议和超文本链接出 现后产生的。1991年,XWAIS提供了一个界面友好的信息搜索系统,但是这个 系统要求很特殊的文件格式。同年出现了另外一个美国明尼苏达大学信息检索 系统Gopher,成为当时最为流行的检索工具。1993年,美国国家超级计算应用 中心NCSA推出第一个基于HTML语言图形化的浏览器Mosaic,借此普通的用户 可以轻松地使用互联网。 此后,搜索引擎有了非常大的发展。按照网页库的容量、相关度计算技术、 用户搜索体验以及商业模式等方面来划分,到目前为止,搜索引擎技术的发展 大约经历了两代。 ❖ 搜索引擎的出现 搜索引擎的发展历史 搜索引擎概述

搜索引擎的发展历史 搜索引擎概述 第一代搜索引擎(1994年至1997年) 1994年,美国网景公司推出支持HTML的浏览器Netscape,这使得 HTML格式的信息在网络上迅速膨胀,从而迎来了搜索引擎的真正发展。 这年春天,创建了真正意义上的互联网搜索引擎LYCOS。同年,Yhoo 公司创立,它提供基于目录的信息检索服务,开辟了搜索引擎的一个新 时代。 第一代搜索引擎的索引网页量一般都在数百万量级左右,采用全文 检索技术和分布式并行运算技术,但极少重新搜集网页并去刷新索引, 而且它的检索速度较慢,一般都要等待10秒甚至更长的时间,同时承受 的检索请求也受到很大限制,商业模式处于探索期并且尚未成型。 主讲:郭春燕
Company Logo www.themegallery.com 主讲:郭春燕 1994年,美国网景公司推出支持HTML的浏览器Netscape,这使得 HTML格式的信息在网络上迅速膨胀,从而迎来了搜索引擎的真正发展。 这年春天,创建了真正意义上的互联网搜索引擎LYCOS。同年,Yahoo 公司创立,它提供基于目录的信息检索服务,开辟了搜索引擎的一个新 时代。 第一代搜索引擎的索引网页量一般都在数百万量级左右,采用全文 检索技术和分布式并行运算技术,但极少重新搜集网页并去刷新索引, 而且它的检索速度较慢,一般都要等待10秒甚至更长的时间,同时承受 的检索请求也受到很大限制,商业模式处于探索期并且尚未成型。 ❖ 第一代搜索引擎(1994年至1997年) 搜索引擎的发展历史 搜索引擎概述

搜索引擎的发展历史 搜索引擎概述 ÷第二代搜索引擎(1998年至今) 1999年2月,Googlei诞生。由于Google可为世界各地的用户提供所 需要的搜索结果,而且搜索时间通常不到半秒,一经推出就很受欢迎。 目前互联网上的搜索引擎已经达到数千个,性能也有了很大的提高。 第二代搜索引擎大多采用分布式协同处理方案,第二代搜索引擎通 过链接分析和点击分析方法来计算相关度取得了巨大的成功。另外,以 自然语言进行问题解答的搜索引擎在某种程度上改善了用户体验。更重 要的是第二代搜索引擎奠定了目前搜索引擎普遍采用的成熟商业模式, Google、百度等均受益于此。 随着互联网规模和信息量的急剧膨胀,在各搜索引擎之间出现了分 工协作,并有了专业的搜索引擎技术和搜索数据库服务提供商。它本身 可能并不是直接面向用户的搜索引擎,但向其他搜索引擎提供全文网页 搜索服务。从这个意义上来说,它们是搜索引擎的搜索引擎。 主讲:郭春燕
Company Logo www.themegallery.com 主讲:郭春燕 1999年2月, Google诞生。由于Google可为世界各地的用户提供所 需要的搜索结果,而且搜索时间通常不到半秒,一经推出就很受欢迎。 目前互联网上的搜索引擎已经达到数千个,性能也有了很大的提高。 第二代搜索引擎大多采用分布式协同处理方案,第二代搜索引擎通 过链接分析和点击分析方法来计算相关度取得了巨大的成功。另外,以 自然语言进行问题解答的搜索引擎在某种程度上改善了用户体验。更重 要的是第二代搜索引擎奠定了目前搜索引擎普遍采用的成熟商业模式, Google、百度等均受益于此。 随着互联网规模和信息量的急剧膨胀,在各搜索引擎之间出现了分 工协作,并有了专业的搜索引擎技术和搜索数据库服务提供商。它本身 可能并不是直接面向用户的搜索引擎,但向其他搜索引擎提供全文网页 搜索服务。从这个意义上来说,它们是搜索引擎的搜索引擎。 ❖ 第二代搜索引擎(1998年至今) 搜索引擎的发展历史 搜索引擎概述

搜索引擎的分类 搜索引擎概述 冬全文搜索引擎 全文搜索引擎(full text search engine)是由一个称为蜘蛛(Spider) 的机器人程序以某种策略自动地在互联网中搜集和发现信息,由索引器 为搜集到的信息建立网页索引数据库,由检索器根据用户输入的查询条 件检索索引库,并将查询结果返回给用户。服务方式是面向网页的全文 检索服务。 使用这类搜索引擎时,检索者只要在检索口输入关键字,点击“搜 索”即可查询。 优点:节省了大量时间,获取的信息全面:缺点:信息精确性差、 相关性不高。 这种类型的搜索引擎国外比较著名的如英文Google、AltaVista、 Lycos、Infoseek、Excite、HotBot,,国内的如中文Google、百度、中搜、 tom搜索等。 主讲:郭春燕
Company Logo www.themegallery.com 主讲:郭春燕 全文搜索引擎(full text search engine)是由一个称为蜘蛛(Spider) 的机器人程序以某种策略自动地在互联网中搜集和发现信息,由索引器 为搜集到的信息建立网页索引数据库,由检索器根据用户输入的查询条 件检索索引库,并将查询结果返回给用户。服务方式是面向网页的全文 检索服务。 使用这类搜索引擎时,检索者只要在检索口输入关键字,点击“搜 索”即可查询。 优点:节省了大量时间,获取的信息全面;缺点:信息精确性差、 相关性不高。 这种类型的搜索引擎国外比较著名的如英文Google、AltaVista、 Lycos、Infoseek、Excite、HotBot,国内的如中文Google、百度、中搜、 tom 搜索等。 ❖ 全文搜索引擎 搜索引擎的分类 搜索引擎概述

搜索引擎的分类 搜索引擎概述 冬目录索引搜索引擎 目录索引搜索引擎(search index/directory)主要以人工方式搜集 信息,由编辑人员查看信息之后,人工形成信息摘要,并将信息置于事 先确定的分类框架中。信息大多面向网站,提供目录浏览服务和直接检 索服务。用户完全可以不用关键词进行查询,搜索时可直接点击需要查 询的信息的种类,仅靠分类目录也可找到需要的信息。 优点:链接站点经人工筛选,排误率较高;缺点:人工搜集效率较 低,网站管理人员需耗费大量的精力去搜集相关网络文献,而且很难彻 底地搜集到相关信息,从而影响到搜集资料的全面性。 这类搜索引擎国外著名的门户网站有yahoo、万维网虚拟图书馆、 msn、cnn,国内著名的门户网站有中文雅虎、新浪、搜狐、网易等。 主讲:郭春燕
Company Logo www.themegallery.com 主讲:郭春燕 目录索引搜索引擎(search index/directory)主要以人工方式搜集 信息,由编辑人员查看信息之后,人工形成信息摘要,并将信息置于事 先确定的分类框架中。信息大多面向网站,提供目录浏览服务和直接检 索服务。用户完全可以不用关键词进行查询,搜索时可直接点击需要查 询的信息的种类,仅靠分类目录也可找到需要的信息。 优点:链接站点经人工筛选,排误率较高;缺点:人工搜集效率较 低,网站管理人员需耗费大量的精力去搜集相关网络文献,而且很难彻 底地搜集到相关信息,从而影响到搜集资料的全面性。 这类搜索引擎国外著名的门户网站有yahoo、万维网虚拟图书馆、 msn、cnn,国内著名的门户网站有中文雅虎、新浪、搜狐、网易等。 ❖ 目录索引搜索引擎 搜索引擎的分类 搜索引擎概述

搜索引擎的分类 搜索引擎概述 冬元搜索引擎 元搜索引擎(a meta search engine roundup)是一种调用其他独立 搜索引擎的引擎,亦称搜索引擎之母。“元”(meta)为“总的”、 “超越”之意,元搜索引擎就是对多个独立搜索引擎的整合、调用、控 制和优化利用。这些独立的搜索引擎称为“源搜索引擎”或“搜索资 源”,整合、调用、控制和优化利用源搜索引擎的技术称为“元搜索技 术”。元搜索技术是元搜索引擎的核心。 元搜索引擎在统一的用户查询界面与信息反馈的形式下,共享多个 搜索引擎的资源库为用户提供信息服务。元搜索引擎借助于其他搜索引 擎进行工作,将用户的本义请示同时向多个搜索引擎递交,将返回的结 果进行重复排除、重新排序等处理后,作为自己的结果返回给用户。 主讲:郭春燕
Company Logo www.themegallery.com 主讲:郭春燕 元搜索引擎(a meta search engine roundup)是一种调用其他独立 搜索引擎的引擎,亦称搜索引擎之母。“元”(meta)为“总的”、 “超越”之意,元搜索引擎就是对多个独立搜索引擎的整合、调用、控 制和优化利用。这些独立的搜索引擎称为“源搜索引擎”或“搜索资 源”,整合、调用、控制和优化利用源搜索引擎的技术称为“元搜索技 术”。元搜索技术是元搜索引擎的核心。 元搜索引擎在统一的用户查询界面与信息反馈的形式下,共享多个 搜索引擎的资源库为用户提供信息服务。元搜索引擎借助于其他搜索引 擎进行工作,将用户的本义请示同时向多个搜索引擎递交,将返回的结 果进行重复排除、重新排序等处理后,作为自己的结果返回给用户。 ❖ 元搜索引擎 搜索引擎的分类 搜索引擎概述