第三章搜索引鉴及其使用作业讲评 1.选择题 (1)A(2)BCD(3)A(4)C(5)AC 注意:其中第3题,使用G©ge时,要避免搜索某个词语。在前面加“.”。但要注意的是,不 是所有的搜素引摩都适用,不同的搜索引摩使用的命令式不同的,所以在记忆这些命令时,最好先 到搜素引菜料站看一下它的帮助界面,了解了它们的基本命令要求后再使用月会更得心应手。 第5恩,答案是AC,B选项中,使用搜素引摹时,用户不必知道准确的文件名就可以下载, 而不是必须知道文件名。这是即搜素的一个特点,D速项授素结限可以在本浏宽器中直接下我,而 不必另外打开中专门软件,使用时一定要注意这些问愿。 2.判断题 (1)(×)(2)〔)(3)(×)(4)(√)(5)(×) 注意:第1题写的是第二代搜素引攀,应该是第一代搜索引摹采用分都式并行计算技术,而第 二代深用的是协同处理方案。要注意区分。掌握其实质。 第3盟中的在互联网中漫游、发现和檀集信息的程序一般被称为授素器,而不是叫做素引器。 第5题的这个论述是新闻搜索引擎的概念,而不是新闻组搜素引摩的餐名: 3.思考题 (1)答:搜索引禁的工作原理及技术可以简单表示为:从互联网上抓取网页一建立素引数据库 →在素引数据库中瘦索挂序。 在互联网上抓取网页:搜素引摩的数据采集包括人工采集和自动采集两种方式:人工采集是指 由专门的信息人员罪降和途取有用的WW站点成页面:白动采集是通过白动采集器(如网铬机器 人Rabc心、网络蜘蛛Web Spider、限行者Crawler等)的软件自动跟踪并循环检素网页信息.两种 方法各有利弊, 建立索引数据库:由分析索引系统程序对收集回来的网页进行分析,提取相关信息《包括网页 所在URL、编码类型,页面内容包含的关键词,关健词的位置,生成时间、大小,与其它网页链接 的美系等》,根据一定相关度算法进行大量复杂的计算,得到每一个网页针对页面文字中及超链接中 每一个关键可的相关度(或重要性),然后利用这些相关信息建立网页素引数据库: 在索引数据岸中搜索排序:当用户输入关键问搜索后,由搜索系统程序从网页索引数据库中找 到符合关键词的所有相关网页,因为所有相关网真针对该关键词的相关度在累引数据库中早已算好, 所以只需要按照现成的相关度数值排序,相关度越高,排名越靠前。最后。由页面生成系统将结果 的链接地址和页面内容摘要等内容组织起米反镜给用户。 (2)答:一个搜索引擎一般由被索器、索引器、检素器和用户接口等四个部分组成。被索器的 功隆是在互联网中漫游,发暖和瘦集信息:素引器的功旋是理解覆索器所搜素的信息,从中抽取出 索引项。用于表示文档以及生成文档库的素引表:检索器的功能是根据用户的查山在索引库中快速
1 第三章 搜索引擎及其使用 作业讲评 1.选择题 (1)A (2)BCD (3)A (4)C(5)AC 注意:其中第 3 题,使用 Google 时,要避免搜索某个词语,在前面加“-”。但要注意的是,不 是所有的搜索引擎都适用,不同的搜索引擎使用的命令式不同的,所以在记忆这些命令时,最好先 到搜索引擎网站看一下它的帮助界面,了解了它们的基本命令要求后再使用会更得心应手。 第 5 题,答案是 AC,B 选项中,使用 ftp 搜索引擎时,用户不必知道准确的文件名就可以下载, 而不是必须知道文件名。这是 ftp 搜索的一个特点。D 选项搜索结果可以在本浏览器中直接下载,而 不必另外打开 ftp 专门软件,使用时一定要注意这些问题。 2.判断题 (1)(×) (2)(√) (3)(×) (4)(√) (5)(×) 注意:第 1 题写的是第二代搜索引擎,应该是第一代搜索引擎采用分布式并行计算技术,而第 二代采用的是协同处理方案。要注意区分,掌握其实质。 第 3 题中的在互联网中漫游、发现和搜集信息的程序一般被称为搜索器,而不是叫做索引器。 第 5 题的这个论述是新闻搜索引擎的概念,而不是新闻组搜索引擎的概念。 3.思考题 (1)答:搜索引擎的工作原理及技术可以简单表示为:从互联网上抓取网页→建立索引数据库 →在索引数据库中搜索排序。 在互联网上抓取网页:搜索引擎的数据采集包括人工采集和自动采集两种方式:人工采集是指 由专门的信息人员跟踪和选取有用的 WWW 站点或页面;自动采集是通过自动采集器(如网络机器 人 Robots、网络蜘蛛 Web Spider、爬行者 Crawler 等)的软件自动跟踪并循环检索网页信息。两种 方法各有利弊。 建立索引数据库:由分析索引系统程序对收集回来的网页进行分析,提取相关信息(包括网页 所在 URL、编码类型、页面内容包含的关键词、关键词的位置、生成时间、大小、与其它网页链接 的关系等),根据一定相关度算法进行大量复杂的计算,得到每一个网页针对页面文字中及超链接中 每一个关键词的相关度(或重要性),然后利用这些相关信息建立网页索引数据库。 在索引数据库中搜索排序:当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找 到符合关键词的所有相关网页。因为所有相关网页针对该关键词的相关度在索引数据库中早已算好, 所以只需要按照现成的相关度数值排序,相关度越高,排名越靠前。最后,由页面生成系统将结果 的链接地址和页面内容摘要等内容组织起来反馈给用户。 (2)答:一个搜索引擎一般由搜索器、索引器、检索器和用户接口等四个部分组成。搜索器的 功能是在互联网中漫游,发现和搜集信息;索引器的功能是理解搜索器所搜索的信息,从中抽取出 索引项,用于表示文档以及生成文档库的索引表;检索器的功能是根据用户的查询在索引库中快速
检出文档,进行文档与查面的相关度评价。对将要输出的结果进行排序,并实现某种用户相关性反 馈机制:用户接口的作用是输入用户查面、显示查询结果、提供用户相关性反馈机制: (3)答:由于语言、文化上的差异。中文搜素引察必然会与国外的搜索攀有所不同,主要表 现在内码、分词以及分类三个方面。 内码:由于历史与或治的原因,即使是中文语言的使用,两岸三地也有较大的差别,体现在计 算机处理上也有很大的不同。其中最重要的区别是采用不同的字符集及内码体系。 分司:西文单词的分隔相当请断,用空格分隔。而中文的字词则不能简单地选行分隔。因此造 成传统上就有不同的处理方法。一个是完全单汉字全文检索,即将文章中的每一个汉字做进索引。 二是鼠据一定的原则和方法米对文章进行自动分词。然后按词建库,对用户的检索结果按词汇匹配 来进行查询。 分类:除了专门的分类搜索引摹(如Yo0等)之外,大量的关键词授素引平也采用了以分类 目录速行导览的方法。这一现象在中文分类搜素引摩中更为普增。自是由于文化的差异,中文搜索 引零分类类目具有与国外覆素引擎分类类目不用的特点。 (4)答:除了添加搜索词外,以下一些技巧也有助于缩小搜案范围。 减除无关资料:如果要莲免瘦索某个词语,可以在这个词前面加上一个减号(”,英文字符), 但在减号之前必领留一空格。 短语搜索:可以通过添如英文双引号来搜索短语。 指定网域:要在某个特定的域或站点中进行搜索,可以使用“e”语句。 按类别費索:可以恨据主题来缩小霞素范围。 高级捏素:很多搜索引摹都有高领整素功能。可以银轻松地定义覆索范围。 (S)容:在授素性能上,G00gk的英文搜素优于百度:百度的中文搜索优于Google。在栏目 上,二者各有自己的特色,图片,新闻,音乐,日常生活,桌面搜素等等都有涉及,G©ge有地址 栏搜索,中文域名,百度则有针对国内用户的特色,譬如天气预报、以及“知道”等栏目。所以, 二者比较而言,G0cgk的整体优劳大于百度,但是百度的本土优势大于Google. 1.GOOGL正近年来为了保护产权,著作权,搜素文章不带有快属功能,即必须搜素者自己到达 目的网站同读文章,而且图片搜素功能更是把图片与目的网站直接连接起来:图片技缩小了,不能 保存。 2百度的网站用米搜家文章绝对好用,尤其是对于在网站中已被别除或找不到的一些文章,可 以用快黑功能,拍下米,并突出了关键字。非常容易找到需要的内容。图片自然可以直接保存。 3对于网站搜素的广度,当属GOOGLE,外国包括英美、阿拉自、俄罗所、日本、韩国的网站 全部都能搜素到。百度搜素范围主要在国内。 4现在GOOGLE具备了关健司相关文章望索结果的数量顶算功能,并例华了其他关世问。百度 2
2 检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反 馈机制;用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。 (3)答:由于语言、文化上的差异,中文搜索引擎必然会与国外的搜索引擎有所不同,主要表 现在内码、分词以及分类三个方面。 内码:由于历史与政治的原因,即使是中文语言的使用,两岸三地也有较大的差别,体现在计 算机处理上也有很大的不同,其中最重要的区别是采用不同的字符集及内码体系。 分词:西文单词的分隔相当清晰,用空格分隔。而中文的字词则不能简单地进行分隔,因此造 成传统上就有不同的处理方法。一个是完全单汉字全文检索,即将文章中的每一个汉字都做进索引。 二是根据一定的原则和方法来对文章进行自动分词,然后按词建库,对用户的检索结果按词汇匹配 来进行查询。 分类:除了专门的分类搜索引擎(如 Yahoo 等)之外,大量的关键词搜索引擎也采用了以分类 目录进行导览的方法。这一现象在中文分类搜索引擎中更为普遍。但是由于文化的差异,中文搜索 引擎分类类目具有与国外搜索引擎分类类目不同的特点。 (4)答:除了添加搜索词外,以下一些技巧也有助于缩小搜索范围。 减除无关资料:如果要避免搜索某个词语,可以在这个词前面加上一个减号(“-”,英文字符)。 但在减号之前必须留一空格。 短语搜索:可以通过添加英文双引号来搜索短语。 指定网域:要在某个特定的域或站点中进行搜索,可以使用“site:”语句。 按类别搜索:可以根据主题来缩小搜索范围。 高级搜索:很多搜索引擎都有高级搜索功能,可以很轻松地定义搜索范围。 (5)答;在搜索性能上,Google 的英文搜索优于百度;百度的中文搜索优于 Google。在栏目 上,二者各有自己的特色,图片,新闻,音乐,日常生活,桌面搜索等等都有涉及,Google 有地址 栏搜索,中文域名,百度则有针对国内用户的特色,譬如天气预报、以及“知道”等栏目。所以, 二者比较而言,Google 的整体优势大于百度,但是百度的本土优势大于 Google。 1.GOOGLE 近年来为了保护产权、著作权,搜索文章不带有快照功能,即必须搜索者自己到达 目的网站阅读文章,而且图片搜索功能更是把图片与目的网站直接连接起来;图片被缩小了,不能 保存。 2.百度的网站用来搜索文章绝对好用,尤其是对于在网站中已被删除或找不到的一些文章,可 以用快照功能,拍下来,并突出了关键字,非常容易找到需要的内容。图片自然可以直接保存。 3.对于网站搜索的广度,当属 GOOGLE,外国包括英美、阿拉伯、俄罗斯、日本、韩国的网站 全部都能搜索到。百度搜索范围主要在国内。 4.现在 GOOGLE 具备了关键词相关文章搜索结果的数量预算功能,并例举了其他关键词。百度
也不断在改进搜索引肇功能,新的版本增如了地图搜索功能,对于出行者是很不情的选择, 3
3 也不断在改进搜索引擎功能,新的版本增加了地图搜索功能,对于出行者是很不错的选择